Widziałem kilka pytań opisujących problemy podczas pracy z S3 w Spark:Wsparcie dla parkietu jako format wejścia/wyjścia podczas pracy z S3
- Spark jobs finishes but application takes time to close
- spark-1.4.1 saveAsTextFile to S3 is very slow on emr-4.0.0
- Writing Spark checkpoints to S3 is too slow
wiele konkretnych opisów problemów z plikami parkietu:
- Slow or incomplete saveAsParquetFile from EMR Spark to S3
- Does Spark support Partition Pruning with Parquet Files
- is Parquet predicate pushdown works on S3 using Spark non EMR?
- Huge delays translating the DAG to tasks
- Fast Parquet row count in Spark
jak niektóre źródła zewnętrzne odnoszące się do innych kwestii związanych z Spark - kombinacje parkiet - S3. To sprawia, że myślę, że albo S3 z Sparkiem, albo ta kompletna kombinacja może nie być najlepszym wyborem.
Czy jestem czymś tutaj? Czy ktoś może podać autorytatywną odpowiedź wyjaśniającą:
- Bieżący stan obsługi Parkietu z ustawieniem ostrości na S3.
- Czy Spark (SQL) może w pełni korzystać z funkcji Parkietu, takich jak przycinanie partycji, przesuwanie predykatów (w tym głęboko zagnieżdżone schematy) i metadane Parkietu. Wszystkie te funkcje działają zgodnie z oczekiwaniami na S3 (lub zgodnych rozwiązaniach pamięci masowej).
- Aktualne wydarzenia i otwarte bilety JIRA.
- Czy są jakieś opcje konfiguracji, które powinny być świadome podczas korzystania z tych trzech razem?
Z moich badań S3 jest powolny w porównaniu do HDFS, ale jaka wersja Sparka? –