previous question zaleca sc.applicationId
, ale jest nie obecny w PySpark
, tylko w scala
.Jak wyodrębnić identyfikator aplikacji z kontekstu PySpark
Jak mogę określić identyfikator aplikacji (dla yarn
) mojego procesu PySpark?
previous question zaleca sc.applicationId
, ale jest nie obecny w PySpark
, tylko w scala
.Jak wyodrębnić identyfikator aplikacji z kontekstu PySpark
Jak mogę określić identyfikator aplikacji (dla yarn
) mojego procesu PySpark?
Można użyć Java SparkContext sprzeciwu przez bramę Py4J RPC:
>>> sc._jsc.sc().applicationId()
u'application_1433865536131_34483'
Uwaga sc._jsc
jest zmienna wewnętrzna, a nie częścią publicznych API - więc nie ma (niewielka) szansa, że może to być zmienił się w przyszłości.
Będę przesłać żądanie pobrania, aby dodać publiczne wywołanie API dla tego.
proszę dodać link do twojego żądania ściągnięcia tutaj, abyśmy mogli głosować na niego. – sds
https://issues.apache.org/jira/browse/SPARK-8528 https://github.com/apache/spark/pull/6936 – vvladymyrov
Zespół Spark zaakceptowany przez PR - w ten sposób właściwość sc.applicationID będzie dostępna w Spark Wersja 1.5.0 – vvladymyrov
W Spark 1.6 (prawdopodobnie 1,5 według @wladymyrov w komentarzu na drugiej odpowiedzi)
In [1]: sc.applicationId
Out[1]: u'local-1455827907865'
Potwierdzam, że 'sc.applicationId' jest dostępny w Spark 1.5.2. –
https://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark .SparkContext. Wyszukiwanie dla 'id()' – ccheneson
@ ccheneson: istnieją 3 dopasowania, wszystkie dla RDD. – sds