Mam niestandardowe źródło danych i chcę załadować dane do mojego klastra Spark, aby wykonać pewne obliczenia. W tym celu widzę, że może potrzebować implementacji nowego RDD
dla mojego źródła danych.Implementacja niestandardowego Spark RDD w Javie
Jestem kompletnym Scala noobem i mam nadzieję, że mogę zaimplementować RDD
w samej Javie. Rozejrzałem się po Internecie i nie mogłem znaleźć żadnych zasobów. Jakieś wskazówki?
Moje dane są w S3 i są indeksowane w Dynamo. Na przykład, jeśli chcę załadować dane z danego przedziału czasowego, najpierw będę musiał zapytać Dynamo o klucze plików S3 dla odpowiedniego zakresu czasu, a następnie załadować je do Sparka. Pliki nie zawsze mają ten sam prefiks ścieżki S3, więc sc.testFile("s3://directory_path/")
nie będzie działać.
Szukam wskazówek, jak wdrożyć coś analogicznego do HadoopRDD
lub JdbcRDD
, ale w Javie. Coś podobnego do tego, co tutaj zrobili: DynamoDBRDD. Ten odczytuje dane z Dynamo, mój niestandardowy RDD będzie sprawdzał klucze DynamoDB dla kluczy S3, a następnie ładuje je z S3.
obiekt 'RDD' jest dość giętki pojemnik. Jak myślisz, dlaczego musiałbyś go ponownie wdrożyć? Jaki jest format Twoich danych? – ohruunuruus
Moje dane są w S3 i są indeksowane w Dynamo. Na przykład, jeśli chcę załadować dane z danego przedziału czasowego, najpierw będę musiał zapytać Dynamo o klucze plików S3 dla odpowiedniego zakresu czasu, a następnie załadować je do Sparka. Pliki nie zawsze muszą znajdować się w tym samym przedrostku ścieżki S3, więc '' sc.testFile ("s3: // ścieżka_katalogu /") '' 'nie będzie działać. Szukam wskazówek, jak zaimplementować coś analogicznego do HadoopRDD lub JdbcRDD, ale w Javie. –
Zgodnie z tym: http://apache-spark-user-list.1001560.n3.nabble.com/is-there-any-easier-way-to-define-a-ustom-DDD-in-Java-td6917 .html nie było możliwe rok temu. jednak chciałbym wiedzieć, czy coś się zmieniło. – tsiki