Czy jest możliwe przekazanie dodatkowych argumentów do funkcji mapowania w pySpark? Konkretnie mam kodu następujący przepis:Spark RDD - Mapowanie z dodatkowymi argumentami
raw_data_rdd = sc.textFile("data.json", use_unicode=True)
json_data_rdd = raw_data_rdd.map(lambda line: json.loads(line))
mapped_rdd = json_data_rdd.flatMap(processDataLine)
Funkcja processDataLine
wykonuje dodatkowe argumenty oprócz obiektu JSON, jak:
def processDataLine(dataline, arg1, arg2)
jaki sposób można przekazać dodatkowe argumenty arg1
i arg2
do funkcja flaMap
?
Rozważmy odczytu [to], (http://stackoverflow.com/questions/26959221/pyspark-broadcast-variables-from-local-functions) –
Thanks @AvihooMamka. Jak rozumiem, muszę użyć funkcji częściowej. Ale nie mam sposobu, aby zastosować to do mojej sprawy? –
Dlaczego nie wysłać funkcji częściowej funkcji processDataLine i żądanych argumentów po jej emisji? –