Czy są jakieś implementacje źródeł danych Spark SQL, które oferują łączenie partycji - najprawdopodobniej za pośrednictwem CoGroupRDD? Nie widziałem żadnych zastosowań w istniejącej bazie kodów Spark.Łączenie partycjonowane w iskrze SQL
Motywacja byłoby znacznie ograniczyć ruch losowego w przypadku, gdy dwie tabele mają ten sam numer i te same zakresy kluczy partycjonowania: w tym przypadku nie byłoby Mx1 zamiast MXN Shuffle fanout.
Jedynym wdrożenie na dużą skalę łączy obecnie w Spark SQL wydaje się być ShuffledHashJoin - co robi wymaga losowego Fanout MXN a więc jest droższe.
Dzięki Michael. Czekamy na połączenie z kubłem. – javadba