Czy strumieniowanie Hadoop obsługuje nowe, kolumnowe formaty przechowywania, takie jak ORC i parkiet, czy też istnieją frameworki na platformie Hadoop, które umożliwiają czytanie takich formatów?Struktury strumieniowe na górze Hadoop, które obsługują ORC, formaty plików parkietowych
Odpowiedz
Możesz użyć HCatalog, aby odczytać plik ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat
Dostarcza abstrakcji do odczytu plików tekstowych, tekstowych, sekwencyjnych, RC. Nie jestem pewien, czy tam jest poparcie parkietu. Niemniej jednak, jeśli nie brzmi to rozsądnie, możesz użyć czytników rekordów ORC w bazie kodu Hive, aby odczytać pliki ORC (ORCInputFormat, ORCOutputFormat).
Raczej stare wiadomości, ale jakiś czas temu walczyłem z tym. Nie znalazłem żadnego rozwiązania, dlatego stworzyłem zestaw formatów wejścia/wyjścia, które konwertują pliki avro i parkiet na/z czystego tekstu i json. Można go znaleźć pod adresem http://github.com/whale2/iow-hadoop-streaming. Nie ma obsługi ORC, ale Avro i Parquet są obsługiwane. Mam nadzieję, że to pomoże.
- 1. ffmpeg: które formaty plików obsługują użycie stdin?
- 2. Które kompilatory obsługują std :: filesystem?
- 3. Przesyłanie strumieniowe Hadoop do Pythona przy użyciu mongo-hadoop
- 4. Które wersje gcc i g ++ obsługują standard c i C++?
- 5. Przesyłanie strumieniowe plików wideo MP4 na Gstreamer
- 6. Które klasy Ruby obsługują .clone?
- 7. Formaty plików obsługiwane przez UIWebView
- 8. Dlaczego struktury Dependency Injection obsługują hierarchie kontenerów?
- 9. Przesyłanie strumieniowe plików zdalnych do obiektów plików
- 10. Łatwe tworzenie właściwości, które obsługują indeksowanie w języku C#
- 11. C# Konwertuj formaty obrazów na jpg
- 12. Dzielenie dużych plików XML na porcje zarządzalne dla Hadoop
- 13. Hadoop w zmianie nazwy plików
- 14. Czy są różne formaty plików JPEG2000?
- 15. Obsługiwane formaty plików audio w przeglądarce Chrome?
- 16. Przesyłanie strumieniowe plików Avi z C# przy użyciu RTP
- 17. obsługuje odtwarzanie strumieniowe w avro C zamiast przesyłania plików?
- 18. Które przeglądarki obsługują "//" zamiast "http: //" i "https: //"?
- 19. Które ORMy obsługują style przepływu pracy
- 20. Systemy członkowskie dla MVC4, które obsługują RavenDB
- 21. Sterowniki MySql dla .NET nie obsługują struktury Polygon, prawda?
- 22. IDE inne niż Eclipse, które obsługują programowanie aplikacji na Androida
- 23. Jakie są standardowe formaty plików szyfrowania?
- 24. Które przeglądarki obsługują interfejs API historii HTML5?
- 25. Google Doc Viewer: Które formaty są naprawdę obsługiwane?
- 26. Hadoop MapReduce plików Multiple Input
- 27. Przesyłanie strumieniowe plików multimedialnych za pomocą WebRTC
- 28. Przesyłanie strumieniowe Hadoop z C# i Mono: IdentityMapper jest używany niepoprawnie
- 29. Żądania Pythona nie obsługują plików cookie poprawnie?
- 30. iskrzenie strumieniowe fileStream