Istnieją wskazania, że sprzężenia w Sparku są realizowane za pomocą/opartej na funkcji/prymitywie/transformacji grupy. Pozwólcie, że skupię się najpierw na cogroup - zwraca wynik, którym jest RDD składający się zasadniczo ze WSZYSTKICH elementów zsynchronizowanych RDD. Mówi się w inny sposób - dla każdego klucza w każdym z zgrokowanych RDD istnieje co najmniej jeden element z co najmniej jednego z zgrokowanych RDD.sprzężenia i cogroup w Spark
To oznaczałoby, że gdy mniejszy, ponadto przesyłanie strumieniowe np. JavaPairDstreamRDDs wciąż łączy się z dużo większym, wsadowym RDD, co skutkowałoby przydzieleniem pamięci RAM dla wielu wystąpień wyniku (cogrouped) RDD aka zasadniczo dużego wsadu RDD i trochę więcej ... Oczywiście pamięć RAM zostanie zwrócona, gdy DDream RDD otrzymają wyrzucić i robią regularnie, ale wydaje się, że skok w niepotrzebnego zużycia RAM
mam dwa pytania:
Czy mimo to kontrolować proces cogroup bardziej „dokładnie”, np powiedz, aby zawierał tylko elementy z RDD z elementami zgrokowanymi, w których jest co najmniej jeden element z KAŻDEGO z zgrubionych RDD na dany klucz. W oparciu o aktualną API grupy nie jest to możliwe.
Jeśli cogroup jest naprawdę takim młotem, a po drugie połączenia są oparte na cogroup, nawet jeśli mogą przedstawić ładniejszy obraz pod względem końcowego efektu widocznego do końca użytkownik oznacza to, że pod maską nadal jest takie samo okropne zużycie pamięci RAM, które jest w tej chwili obciążone:
Czy przy pomocy partycjonowania z tym samym programem partycjonującym, zanim skorzystasz z pomocy cogrouping? –
Mam więcej niż 5 JavaPairRDD, zawierają parę masterRDD. Chcę połączyć te wszystkie oparte pary MasterRDD. Jak mogę to zrobić ? – junsid
Jak używać 'cogroup' dla dużych zbiorów danych, np. Gdy używam' collect() ', to wyrzuca z pamięci wyjątek' rdd1 = rdd2.cogroup (rdd3) .collect'. Czy możesz pomóc w tej sprawie [https://stackoverflow.com/questions/47180307/how-to-use-cogroup-for-large-datasets]. mogę partycjonować pomoc Jestem nowy, aby zainicjować jakąkolwiek pomoc, aby rozwiązać ten problem. – Vignesh