2015-09-11 17 views

Odpowiedz

8

Najprostszym i najlepszym sposobem, aby to zrobić, jest użycie biblioteki spark-csv. Możesz sprawdzić dokumentację w podanym linku, a here jest przykładowym sposobem ładowania i zapisywania danych z/do DataFrame.

Code (Spark 1.4+):

dataFrame.write.format("com.databricks.spark.csv").save("myFile.csv") 

Edit:

Spark tworzy częściowe pliki podczas zapisywania danych csv, jeśli chcesz połączyć się z części plików w pojedynczy CSV można znaleźć następujące:

Merge Spark's CSV output folder to Single File

1

Powyższe rozwiązanie powoduje eksportowanie pliku csv jako wielu partycji. Znalazłem inne rozwiązanie zero323 w tym stackoverflow page, które eksportuje ramkę danych do jednego pliku CSV.

df.coalesce(1) 
    .write.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .save("/your/location/mydata.csv") 
Powiązane problemy