2013-07-09 16 views
5

Jestem nowy w ulu hadoop. używamy hitu hadoop open source. Jest zainstalowany na ubuntu w klastrze z jednym węzłem. Mam 1 milion wierszy danych w pliku csv, który przeniosłem z systemu Windows na system Linux. podczas przesyłania danych do ula za pomocą polecenia foolwing wartości null są przesyłane do tabeli.wartości null są przesyłane do tabeli ula z pliku csv

LOAD DATA INPATH '/home/goldstone/Desktop/RejectStats.csv' 
OVERWRITE INTO TABLE rejstats; 

Próbowałem nawet przesłać wartości, umieszczając plik hdfs, ale powodując ten sam problem.

Moja struktura tabeli jest następująca:

CREATE TABLE rejstats(amount_requested INT , appdate TIMESTAMP , loan_title STRING , dbt_income_ratio FLOAT , city STRING , state STRING , employment_lenght STRING) 
ROW FORMAT 
DELIMITED FIELDS TERMINATED BY '\t' 
STORED AS TEXTFILE; 

Załączam zrzut ekranu z wartości null zwracane.

Proszę, każdy może pomóc mi w rozwiązaniu tego problemu. Dziękuję Ci.

Pozdrawiam, Divya.

Odpowiedz

7

Myślę, że próbujesz wprowadzić plik rozdzielany przecinkami w tabeli, w której używasz FIELDS TERMINATED BY '\t', tj. Tabulatora. Wypróbuj następujące:

CREATE TABLE rejstats (amount_requested INT , appdate TIMESTAMP , 
loan_title STRING , dbt_income_ratio FLOAT , city STRING , 
state STRING , employment_lenght STRING) ROW FORMAT DELIMITED FIELDS 
TERMINATED BY ',' STORED AS TEXTFILE; 

LOAD DATA INPATH '/home/goldstone/Desktop/RejectStats.csv' 
OVERWRITE INTO TABLE rejstats; 
+0

Czy typ danych Timestamp jest obsługiwany w ulu? ponieważ napotykam błąd podczas pobierania danych z tabeli gałęzi zawierającej typ datownika. – divya

+0

tak począwszy od gałęzi 0.8.0. – Neethu

+0

Ula obsługuje znaczniki czasu, ale domyślny format (podczas odczytu z łańcucha znaków przez csv) to "RRRR-MM-dd GG: MM: SS.000" – sfosdal

Powiązane problemy