2015-10-07 13 views
8

Kiedy uruchamiam zadanie za pomocą iskry, otrzymuję następujące dzienniki?Co oznacza scena w dziennikach iskier?

[Stage 0:> (0 + 32)/32]

Oto 32 odpowiada liczbie partycji RDD że ja prosiłem.

Jednak nie rozumiem, dlaczego istnieje wiele etapów i co dokładnie dzieje się na każdym etapie.

Każdy etap najwyraźniej zajmuje dużo czasu. Czy można zrobić to w mniejszej liczbie etapów?

+0

Spójrz na tę prezentację, która wyjaśniła to całkiem dobrze https://spark-summit.org/2014/talk/a-deeper-understanding-of-spark-internals – ccheneson

Odpowiedz

4

Scena w Spark reprezentuje segment obliczeń DAG, który jest wykonywany lokalnie. Etap łamie operację, która wymaga przetasowania danych, dlatego zobaczysz ją nazwaną przez tę operację w interfejsie Spark. Jeśli używasz Spark 1.4+, można nawet wyobrazić tego w interfejsie użytkownika w sekcji DAG wizualizacji:

enter image description here

Zauważ, że przerwa nastąpi w reduceByKey, który wymaga shuffle do ukończenia pełnego wykonania .