2016-06-29 32 views
5

Używam pyspark 1.6.0.Spark Streaming - przetwarzanie pliku danych binarnych

Mam istniejący kod pyspark do odczytywania pliku danych binarnych z łyżki AWS S3. Inny kod Spark/Python przeanalizuje bity danych, aby przekonwertować je na int, string, boolean itd. Każdy plik binarny ma jeden rekord danych.

W PYSPARK Czytam pliku binarnego za pomocą: sc.binaryFiles ("S3N: // .......")

To działa doskonale, ponieważ daje krotka (nazwę pliku i tym danych), ale staram się znaleźć równoważny interfejs API strumieniowego PYSPARK do odczytywania pliku binarnego jako strumienia (mam nadzieję, że nazwa pliku również, jeśli można).

Próbowałem: binaryRecordsStream (katalog, recordLength)

ale nie mogę dostać tej pracy ...

Czy ktoś może podzielić się światła jak PYSPARK strumieniowego odczytu binarnego pliku danych?

Odpowiedz

Powiązane problemy