Hive: Tworzenie tabeli z wieloma plikami z wieloma katalogami

Chcę utworzyć tabelę Hive, w której wejściowe pliki tekstowe są wykonywane na wielu podkatalogach w formacie hdf. Więc przykład mam w HDFS:Hive: Tworzenie tabeli z wieloma plikami z wieloma katalogami

/testdata/user/Jan/part-0001 
    /testdata/user/Feb/part-0001 
    /testdata/user/Mar/part-0001 
and so on...

jeśli chcę utworzyć użytkownika tabeli w ulu, ale mają być w stanie przemierzać podkatalogów z obsługą, może to zrobić? Próbowałem czegoś takiego, ale nie działa;

CREATE EXTERNAL TABLE users (id int, name string) 
STORED AS TEXTFILE LOCATION '/testdata/user/*'

Myślałem, że dodanie symbolu wieloznacznego będzie działało, ale nie działa. Kiedy próbowałem nie używać wildcard nadal nie działa. Jeśli jednak skopiuję pliki do katalogu głównego użytkownika, to działa. Czy nie ma sposobu, by Hive przemieściło się do katalogów-dzieci i złapało te pliki?

Źródło

2012-01-27 user706794

Hive wykorzystuje podkatalogi jak partycje z danymi, więc po prostu:

CREATE EXTERNAL TABLE users (id int, name string) PARTITIONED BY (month string) 
STORED AS TEXTFILE LOCATION '/testdata/user/'

To powinno zrobić to za Ciebie.

Źródło

2012-01-29 06:09:33

To nie zadziałało. Właściwie powinienem był wspomnieć, że mam teraz CDH3u1. – user706794

Definiuj "Nie działa". Powinienem też wspomnieć o konieczności zmiany nazw katalogów na month = Jan etc ... –

CREATE EXTERNAL TABLE user (id int, name string); 
LOAD DATA INPATH "/testdata/user/*/*" INTO TABLE users;

Źródło

2012-01-31 09:12:54

To nie zadziałało. Właściwie powinienem już wspomnieć na CDH3u1. – user706794

nie działa dla mnie w CDH5.7 – voldy

Można utworzyć tabelę zewnętrzną, a następnie dodać podfoldery jako partycje.

CREATE EXTERNAL TABLE test (id BIGINT) PARTITIONED BY (yymmdd STRING); 
ALTER TABLE test ADD PARTITION (yymmdd = '20120921') LOCATION 'loc1'; 
ALTER TABLE test ADD PARTITION (yymmdd = '20120922') LOCATION 'loc2';

Źródło

2012-09-28 01:55:55 Rufus

To jest niesamowita odpowiedź! Tak, masz kłopot z aktualizacją tabeli za każdym razem, gdy pojawi się nowy katalog danych (raz dziennie w moim przypadku). Ale działa bez zarzutu. –

To także jedna z fajnych rzeczy o tym, jak Hive przechowuje dane. Przy przechowywaniu danych w ten sposób i reprezentowanych jako partycje dane partycji stają się wirtualną kolumną. Oznacza to, że gdy kwerendujesz w sposób, który ogranicza wyniki do podzbioru dat (w tym przypadku), Hive musi tylko wyszukiwać w kilku miejscach, zamiast skanować cały zestaw danych w celu uzyskania odpowiedzi. – agentv

To powinno być wybrane jako zaakceptowana odpowiedź - idealnie odpowiada na pytanie. Pomogłeś mi także, więc dziękuję za odpowiedź! –

Skończyło się na używaniu skryptu powłoki jak poniżej dla przypadku użycia, gdzie podkatalogi nie są znane a priori.

#!/bin/bash 
hive -e "CREATE EXTERNAL TABLE users (id int, name string) PARTITIONED BY (month string) STORED AS TEXTFILE LOCATION '/testdata/user/'; " 

hscript="" 

for part in `hadoop fs -ls /testdata/user/ | grep -v -P "^Found"|grep -o -P "[a-zA-Z]{3}$"`; 
do 

echo $part 
tmp="ALTER TABLE users ADD PARTITION(month='$part');" 
hscript=$hscript$tmp 
done; 

hive -e "$hscript"

Źródło

2014-02-14 09:36:08 Dhanesh

Hive: Tworzenie tabeli z wieloma plikami z wieloma katalogami

Odpowiedz

Powiązane problemy