Jak wydajniej ładować pliki parkietu w Spark (pySpark v1.2.0)

Ładowanie w plikach parkietu wielowymiarowego, ale potrzebuję tylko kilku kolumn. Mój obecny kod wygląda następująco:Jak wydajniej ładować pliki parkietu w Spark (pySpark v1.2.0)

dat = sqc.parquetFile(path) \ 
      .filter(lambda r: len(r.a)>0) \ 
      .map(lambda r: (r.a, r.b, r.c))

mój mentalny model tego, co się dzieje jest to, że w załadunku wszystkich danych, a następnie wyrzucając kolumny nie chcę. Oczywiście wolałbym nie czytać w tych kolumnach, a z tego, co rozumiem, o parkiecie wydaje się to możliwe.

więc istnieją dwa pytania:

Czy mój model mentalny źle? Czy jest to kompilator iskrowy wystarczająco inteligentny, aby czytać tylko w kolumnach a, b i c w powyższym przykładzie?
Jak zmusić sqc.parquetFile() do bardziej wydajnego odczytu danych?

Źródło

2015-04-22 jarfa

myślę szanse, aby uzyskać potrzebne tylko do odczytu kolumn będzie wyższa, jeśli '' filter' map' _before_ – sds

Należy użyć Spark DataFrame API: https://spark.apache.org/docs/1.3.0/sql-programming-guide.html#dataframe-operations

Coś podobnego

dat.select("a", "b", "c").filter(lambda r: len(r.a)>0)

Albo można użyć Spark SQL:

dat.regiserTempTable("dat") 
sqc.sql("select a, b, c from dat where length(a) > 0")

Źródło

2015-05-21 07:45:35 kostya

Spark zawsze robi rzeczy w leniwy sposób, używając natywnej funkcji scala. Kod scala jest już skompilowany i sprawia, że runtime smart, czyli leniwe, decyzje. W przypadku parkietu powinien tylko odczytać niezbędne dane, do których odnosi się kod. Oczywiście zależy to od struktury konkretnego pliku parkietu. Chodzi o to, że skorzysta z formatu kolumnowego. Nie wiem wystarczająco dużo o Pythonie, ale powinno być w stanie zrobić to samo. Może sprawdź, czy klasa Pyspark Row używa jakiejś leniwej magii. Jednym szybkim sposobem weryfikacji jest wykonanie kontrolowanego eksperymentu, napisanie innej operacji rdd, która odwołuje się do większej liczby pól, ale ich nie wyklucza. Następnie możesz po prostu porównać różnicę czasu zegara ściennego pomiędzy 2 operacjami. W zależności od pewnych istotnych szczegółów leżącego u podstaw pliku parkietu, możesz nie zauważyć różnicy, nawet jeśli leniwie ładuje się.

Źródło

2015-05-14 18:40:12 user3931226

Tak to tylko wybrane pola z dysku.

"otwiera wszystkie pliki danych, ale odczytuje tylko część każdego pliku zawierającego wartości dla tej kolumny. Wartości kolumn są przechowywane kolejno, minimalizując operacje we/wy wymagane do przetwarzania wartości w pojedynczej kolumnie."

Dokumentacja ta jest dla impala, myślę, że czytanie logika jest taka sama dla iskra zbyt http://www.cloudera.com/documentation/archive/impala/2-x/2-1-x/topics/impala_parquet.html#parquet_data_files_unique_1

Źródło

2016-02-15 03:35:27 spats

Jak wydajniej ładować pliki parkietu w Spark (pySpark v1.2.0)

Odpowiedz

Powiązane problemy