Powiedzmy, że mam następujące dwa RDD z następującymi wartościami para kluczy.Która funkcja iskry jest używana do łączenia dwóch RDD za pomocą klawiszy
rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]
i
rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]
Teraz chcę połączyć je przez kluczowe wartości, tak na przykład chcę zwrócić następujący
ret = [ (key1, [value1, value2, value5, value6]), (key2, [value3, value4, value7]) ]
Jak mogę to zrobić, w iskra za pomocą Python lub Scala? Jednym ze sposobów jest użycie join, ale join tworzy krotkę wewnątrz krotki. Ale chcę mieć tylko jedną krotkę na parę kluczy.
Nie działa. "union" nie jest znane. – nottinhill
@SirBenBenji Prawdopodobnie miał na myśli rdd1.union (rdd2)? – Sai
@ Sai To samo, prawda? Nie jestem pewien, czy chodzi o "nieodnalezioną" – maasg