Jeśli mam RDD krotek z 5 elementów, np RDD (dwukrotnie, String, int, podwójne, podwójne)Jak posortować RDD krotek z 5 elementów w Spark Scala?
Jak mogę rozwiązać ten RDD efektywne wykorzystanie piąty element?
Próbowałem zmapować ten RDD na pary klucz-wartość i użyłem sortByKey, ale wygląda na to, że sortByKey jest dość powolny, jest wolniejszy niż ten zbiór RDD i użyty sortWith w zebranej tablicy. Dlaczego tak jest?
Dziękuję bardzo.
"jest wolniejszy, niż ja zebrałem ten RDD i użyłem sortWith w pobranej tablicy." Oczywiście, że jest. Jeśli zebrać to wszystko znajduje się w jednym węźle, a ty wtedy robi rodzaj Spark w pamięci jest dla dużych zbiorów danych, które nie mieszczą się na jednym węźle, a tam (znaczny) narzut w porównaniu do obliczeń pojedynczego węzła. Jeśli nie masz tak dużego zestawu danych, prawdopodobnie nie chcesz używać Sparka. To nie jest magiczne rozwiązanie "twórz rzeczy szybciej". –
Dziękuję za wyjaśnienia. – Carter