2017-01-14 11 views
5

Widziałem kilka pytań opisujących problemy podczas pracy z S3 w Spark:Wsparcie dla parkietu jako format wejścia/wyjścia podczas pracy z S3

wiele konkretnych opisów problemów z plikami parkietu:

jak niektóre źródła zewnętrzne odnoszące się do innych kwestii związanych z Spark - kombinacje parkiet - S3. To sprawia, że ​​myślę, że albo S3 z Sparkiem, albo ta kompletna kombinacja może nie być najlepszym wyborem.

Czy jestem czymś tutaj? Czy ktoś może podać autorytatywną odpowiedź wyjaśniającą:

  • Bieżący stan obsługi Parkietu z ustawieniem ostrości na S3.
  • Czy Spark (SQL) może w pełni korzystać z funkcji Parkietu, takich jak przycinanie partycji, przesuwanie predykatów (w tym głęboko zagnieżdżone schematy) i metadane Parkietu. Wszystkie te funkcje działają zgodnie z oczekiwaniami na S3 (lub zgodnych rozwiązaniach pamięci masowej).
  • Aktualne wydarzenia i otwarte bilety JIRA.
  • Czy są jakieś opcje konfiguracji, które powinny być świadome podczas korzystania z tych trzech razem?
+1

Z moich badań S3 jest powolny w porównaniu do HDFS, ale jaka wersja Sparka? –

Odpowiedz

3

Wiele problemów nie ma charakteru parkietowego, ale S3 nie jest systemem plików, pomimo tego, że interfejsy API próbują to tak wyglądać. Wiele operacji o nominalnie niskim koszcie pobiera wiele żądań HTTPS, co powoduje opóźnienia.

Odnośnie JIRAs

  • HADOOP-11694; S3A faza II - wszystko, co dostaniesz w Hadoop 2.8. Wiele z tego jest już w HDP2.5 i tak, ma znaczące zalety.
  • HADOOP-13204: lista zadań do wykonania.
  • Jeśli chodzi o iskrę (i ul, użycie rename() do popełnienia pracy to zabójca. Jest używany na końcu zadań i zadań oraz w punktach kontrolnych. Im więcej danych wyjściowych generujesz, tym dłużej zajmuje Ci ukończenie. s3guard work będzie zawierał program o zerowej zmianie nazwy, ale zajmie to dużo czasu i czasu, aby przenieść do niego elementy.

Parkiet? przesunięcie działa, ale jest kilka innych opcji, które przyspieszają działanie. Wymieniam je i inne w: http://www.slideshare.net/steve_l/apache-spark-and-object-stores

+1

dziękuję. Lubię uważać siebie za źródło środkowej części twoich śladów stosu, gdy coś pójdzie nie tak podczas pracy z S3. Nie bity com.aws, tylko wiele wpisów org.apache.hadoop.fs.s3a. Staramy się, aby te ślady stosów były poza miejscem, ale ... –

+0

To bardzo złożony system. :) – eliasah

Powiązane problemy