2012-12-07 8 views

Odpowiedz

6

W końcu stwierdzam, że mogę określić katalog jako ścieżkę wejściową, a Hadoop przetworzy wszystkie pliki w tym katalogu.

Ponadto w moim przypadku mam podkatalogi zawierające pliki wejściowe. Hadoop nie przekierowuje katalogów rekursywnie i domyślnie podnosi błąd. Typową sztuczką jest użycie globusa wieloznacznego, takiego jak

python count.py hdfs://master-host/directory/*/*.txt > result 
Powiązane problemy