Jak określić ścieżkę, w której zapisuje pliki plik saveAsTable?

Próbuję zapisać DataFrame do S3 w pyspark w Spark1.4 użyciu DataFrameWriterJak określić ścieżkę, w której zapisuje pliki plik saveAsTable?

df = sqlContext.read.format("json").load("s3a://somefile") 
df_writer = pyspark.sql.DataFrameWriter(df) 
df_writer.partitionBy('col1')\ 
     .saveAsTable('test_table', format='parquet', mode='overwrite')

Pliki parkiet poszedł „/ tmp/ula/magazyn/....”, który jest lokalnym katalogu tmp na moim kierowcy.

Instalowałem plik hive.metastore.warehouse.dir w pliku hive-site.xml do lokalizacji "s3a: // ....", ale iskra nie wydaje się być zgodna z ustawieniami mojego magazynu ula.

Źródło

2015-06-16 ChromeHearts

zapisuje ścieżkę dostępu do pliku z kolumny "name =" jak S3A: // wiadro/foo/col1 = 1 /, S3A:// bucket/foo/col1 = 2 /, s3a: // bucket/foo/col1 = 3 /, ..... Czy istnieje sposób na uniknięcie dołączenia nazwy kolumny? jak s3a: // bucket/foo/1 /, s3a: // bucket/foo/2 / – androboy

Użyj path.

df_writer.partitionBy('col1')\ 
     .saveAsTable('test_table', format='parquet', mode='overwrite', 
         path='s3a://bucket/foo')

Źródło

2015-08-03 03:05:58 ChromeHearts

można użyć insertInto(tablename) nadpisać istniejącą tabelę od 1.4

Źródło

2016-04-13 02:46:02 tintin

Jak określić ścieżkę, w której zapisuje pliki plik saveAsTable?

Odpowiedz

Powiązane problemy