2014-04-03 6 views

Odpowiedz

1

Możesz użyć HCatalog, aby odczytać plik ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

Dostarcza abstrakcji do odczytu plików tekstowych, tekstowych, sekwencyjnych, RC. Nie jestem pewien, czy tam jest poparcie parkietu. Niemniej jednak, jeśli nie brzmi to rozsądnie, możesz użyć czytników rekordów ORC w bazie kodu Hive, aby odczytać pliki ORC (ORCInputFormat, ORCOutputFormat).

1

Raczej stare wiadomości, ale jakiś czas temu walczyłem z tym. Nie znalazłem żadnego rozwiązania, dlatego stworzyłem zestaw formatów wejścia/wyjścia, które konwertują pliki avro i parkiet na/z czystego tekstu i json. Można go znaleźć pod adresem http://github.com/whale2/iow-hadoop-streaming. Nie ma obsługi ORC, ale Avro i Parquet są obsługiwane. Mam nadzieję, że to pomoże.

Powiązane problemy