2015-01-29 9 views
6

Szukam pełnego odniesienia do parametrów wiersza poleceń, zmiennych środowiskowych i plików konfiguracyjnych, szczególnie ich wzajemnego powiązania i pierwszeństwa.Odniesienie do parametrów linii poleceń i zmiennych środowiskowych dla Sparka?

Dzięki :)

Znane zasoby

  • The standalone documentation jest najlepszym znalazłem, ale nie jasno opisuje relacje pomiędzy różnymi zmiennymi/parametrów, ani który ma pierwszeństwo w stosunku do innych.
  • The configuration documentation zapewnia dobry przegląd właściwości aplikacji, ale nie dla parametrów czasu uruchamiania urządzenia master/slave.

Przykład problemu

standalone documentation pisze następujące:

następujące opcje konfiguracyjne mogą być przekazane do pana i pracownika

...

-d DIR, --work-dir DIR katalog do wykorzystania w dziennikach rysowania powierzchni i zadań (domyślnie: SPARK_HOM E/praca); tylko na pracownika

a później

SPARK_LOCAL_DIRS katalog użyć do „zera” przestrzeni w Spark

SPARK_WORKER_DIR katalog do uruchamiania aplikacji w, która będzie obejmować zarówno dzienniki i miejsca na zarysowania (domyślnie: SPARK_HOME/work).

Jako iskra-nowość jestem trochę zdezorientowany.

  • Jaki jest związek między SPARK_LOCAL_DIRS, SPARK_WORKER_DIR i -d.
  • Co jeśli określę je wszystkie dla różnych wartości - co ma pierwszeństwo.
  • Czy zmienne zapisane w $SPARK_HOME/conf/spark-env.sh mają pierwszeństwo przed zmienną zdefiniowaną w iskrze początkowej powłoki/skryptu?

Idealne rozwiązanie

Co szukam jest esentially jednej wzmianki, że

  1. określa pierwszeństwo różnych sposobów określania zmiennych iskry i
  2. list wszystkie zmienne parametry/.

Na przykład coś takiego:

Varialble   | Cmd-line | Default   | Description 
SPARK_MASTER_PORT | -p --port | 8080    | Port for master to listen on 
SPARK_SLAVE_PORT | -p --port | random   | Port for slave to listen on 
SPARK_WORKER_DIR | -d --dir | $SPARK_HOME/work | Used as default for worker data 
SPARK_LOCAL_DIRS |   | $SPARK_WORKER_DIR| Scratch space for RDD's 
....    | ....  | ....    | .... 
+0

Link konfiguracyjny w Twoim pytaniu nie wskazuje właściwej strony. http://spark.apache.org/docs/1.2.0/configuration.html –

+0

Przepraszam za to. Naprawione. Dzięki za poinformowanie mnie @ G.Cito – Tobber

Odpowiedz

6

Więc wydaje się, Krótka odpowiedź brzmi: Taka dokumentacja nie istnieje. Stworzyłem a request for it on JIRA, , więc mam nadzieję, że zostanie to naprawione w przyszłości, ale zostało zamknięte, ponieważ nie zostanie naprawione (luty 2016).

Pierwszeństwo

Zrobiłem mały test i okazało się, że pierwszeństwo jest:

  1. linii poleceń paramereters służą pierwszy
  2. conf/spark-env.sh jest używany, gdy parametry wiersza polecenia są nieobecne
  3. Zmienne środowiskowe używane są jako ostatnie - prawdopodobnie ponieważ spark-env.sh nadpisuje je

Możesz zobaczyć full testscript here. W celu uzupełnienia:

#This uses /tmp/sparktest/cmdline/ 
echo "SPARK_WORKER_DIR=/tmp/sparktest/file/" > $SPARK_HOME/conf/spark-env.sh 
SPARK_WORKER_DIR=/tmp/sparktest/envvar/ $SPARK_HOME/sbin/start-slave.sh 1 spark://$LOCAL_HOSTNAME:7077 -d /tmp/sparktest/cmdline/ 

#This uses /tmp/sparktest/file/ 
echo "SPARK_WORKER_DIR=/tmp/sparktest/file/" > $SPARK_HOME/conf/spark-env.sh 
SPARK_WORKER_DIR=/tmp/sparktest/envvar/ $SPARK_HOME/sbin/start-slave.sh 1 spark://$LOCAL_HOSTNAME:7077 

#This uses /tmp/sparktest/envvar/ 
echo "" > $SPARK_HOME/conf/spark-env.sh 
SPARK_WORKER_DIR=/tmp/sparktest/envvar/ $SPARK_HOME/sbin/start-slave.sh 1 spark://$LOCAL_HOSTNAME:7077 
+2

Dlaczego został zamknięty jako "Nie naprawiam"? Uważam to za ważne. Obecnie przeglądam to cholerne źródło, aby coś znaleźć. – mxmlnkn

Powiązane problemy