Mam aplikację do przesyłania strumieniowego iskier, która tworzy zestaw danych dla każdej minuty. Potrzebuję zapisać / nadpisać wyniki przetwarzanych danych.
Kiedy próbowałem nadpisać zbiór danych org.apache.hadoop.mapred.FileAlreadyExistsException zatrzymuje wykonanie.
Ustawiłem właściwość Spark set("spark.files.overwrite","true")
, ale nie mam szczęścia.
Jak nadpisać lub wstępnie usunąć pliki ze Spark?
set("spark.files.overwrite","true")
działa tylko dla plików dodanych przeztspark.addFile()