Mam wiele problemów z uzyskiwaniem danych ze świni i do pliku CSV, którego mogę używać w Excelu lub SQL (lub R lub SPSS itp. Itd.) Bez dużej manipulacji ...Eksport ze świni do pliku CSV
próbowałem za pomocą następujących funkcji:
STORE pig_object INTO '/Users/Name/Folder/pig_object.csv'
USING CSVExcelStorage(',','NO_MULTILINE','WINDOWS');
tworzy folder o tej nazwie z dużą ilością części m-0000 # plików. Mogę później połączyć je wszystkie za pomocą cat part *> filename.csv, ale nie ma nagłówka, co oznacza, że muszę go ręcznie wstawić.
Przeczytałem, że PigStorageSchema ma utworzyć inny bit z nagłówkiem, ale nie działa w ogóle, np. Otrzymuję taki sam wynik, jak gdyby został właśnie zapisany, bez pliku nagłówkowego: STORE pig_object INTO '/ Users/Name/Folder/pig_object' USING org.apache.pig.piggybank.storage.PigStorageSchema();
(Próbowałem to zarówno w trybie lokalnym i mapreduce).
Czy jest jakiś sposób na uzyskanie danych Spośród Świni w prosty plik CSV bez tych kilku krokach?
Każda pomoc będzie bardzo ceniona!
Dzięki bardzo za pomoc, Lorand. Wywoływanie poleceń powłoki oczyszcza trochę. Jednak argument -schema nie tworzy plików .pig_header lub .pig_schema, gdy go uruchomię. Próbowałem używać PigStorage i PigStorageSchema. Używam Pig 0.10.0. – Saxivore
Cześć kolego, dalej ... plik .pig_header _is_ został utworzony, ale został ukryty i nie mogłem go zobaczyć (wciąż przyzwyczajam się do pracy z powłokami). Tak, mam obejście, które można zrobić w skrypcie, który jest niesamowity. Dzięki! – Saxivore
@Saxivore Sprawdź schemat 'pig_object. Jeśli go nie ma, nie będzie można utworzyć plików nagłówków i schematów. Czy potrzebujesz więcej pomocy w związku z tym pytaniem? –