Łączenie partycjonowane w iskrze SQL

Czy są jakieś implementacje źródeł danych Spark SQL, które oferują łączenie partycji - najprawdopodobniej za pośrednictwem CoGroupRDD? Nie widziałem żadnych zastosowań w istniejącej bazie kodów Spark.Łączenie partycjonowane w iskrze SQL

Motywacja byłoby znacznie ograniczyć ruch losowego w przypadku, gdy dwie tabele mają ten sam numer i te same zakresy kluczy partycjonowania: w tym przypadku nie byłoby Mx1 zamiast MXN Shuffle fanout.

Jedynym wdrożenie na dużą skalę łączy obecnie w Spark SQL wydaje się być ShuffledHashJoin - co robi wymaga losowego Fanout MXN a więc jest droższe.

Źródło

2015-03-04 javadba

Myślę, że szukasz Bucket Join optimization, który powinien pojawić się w Spark 2.0.

W wersji 1.6 można wykonać coś podobnego, ale tylko poprzez buforowanie danych. SPARK-4849

Źródło

2016-01-20 20:40:46

Dzięki Michael. Czekamy na połączenie z kubłem. – javadba

Łączenie partycjonowane w iskrze SQL

Odpowiedz

Powiązane problemy