2015-03-04 14 views
12

Czy są jakieś implementacje źródeł danych Spark SQL, które oferują łączenie partycji - najprawdopodobniej za pośrednictwem CoGroupRDD? Nie widziałem żadnych zastosowań w istniejącej bazie kodów Spark.Łączenie partycjonowane w iskrze SQL

Motywacja byłoby znacznie ograniczyć ruch losowego w przypadku, gdy dwie tabele mają ten sam numer i te same zakresy kluczy partycjonowania: w tym przypadku nie byłoby Mx1 zamiast MXN Shuffle fanout.

Jedynym wdrożenie na dużą skalę łączy obecnie w Spark SQL wydaje się być ShuffledHashJoin - co robi wymaga losowego Fanout MXN a więc jest droższe.

Odpowiedz

4

Myślę, że szukasz Bucket Join optimization, który powinien pojawić się w Spark 2.0.

W wersji 1.6 można wykonać coś podobnego, ale tylko poprzez buforowanie danych. SPARK-4849

+0

Dzięki Michael. Czekamy na połączenie z kubłem. – javadba

Powiązane problemy