Używam pyspark 1.6.0.Spark Streaming - przetwarzanie pliku danych binarnych
Mam istniejący kod pyspark do odczytywania pliku danych binarnych z łyżki AWS S3. Inny kod Spark/Python przeanalizuje bity danych, aby przekonwertować je na int, string, boolean itd. Każdy plik binarny ma jeden rekord danych.
W PYSPARK Czytam pliku binarnego za pomocą: sc.binaryFiles ("S3N: // .......")
To działa doskonale, ponieważ daje krotka (nazwę pliku i tym danych), ale staram się znaleźć równoważny interfejs API strumieniowego PYSPARK do odczytywania pliku binarnego jako strumienia (mam nadzieję, że nazwa pliku również, jeśli można).
Próbowałem: binaryRecordsStream (katalog, recordLength)
ale nie mogę dostać tej pracy ...
Czy ktoś może podzielić się światła jak PYSPARK strumieniowego odczytu binarnego pliku danych?