Generowanie osobnych plików wyjściowych w strumieniu Hadoop

Używanie tylko odwzorowania (skryptu Python) i bez reduktora, w jaki sposób można wyprowadzić osobny plik z kluczem jako nazwą pliku, dla każdego wiersza wyjścia, zamiast długich plików wyjściowych ?Generowanie osobnych plików wyjściowych w strumieniu Hadoop

Źródło

2009-10-26 Ryan R. Rosario

Możesz napisać do pliku tekstowego w lokalnym systemie plików przy użyciu funkcji Pythona lub jeśli chcesz używać HDFS użyj Thrift API.

Źródło

2009-11-03 18:23:15

W jaki sposób wielu maperów zapisuje dane w tym samym pliku w tym samym czasie, gdy piszemy do lokalnego systemu plików lub do pliku hdfs? –

To jest złe. Koliduje to z ponawianiem zadań i gwarantuje potrzebę opiekowania się twoimi zadaniami. – nkadwa

Czy jest możliwe zastąpienie klasy outputFormatClass podczas korzystania z przesyłania strumieniowego? W macierzystej implementacji języka Java można rozszerzyć klasę MultipleTextOutputFormat i zmodyfikować metodę, która nadaje nazwę pliku wyjściowego. Następnie określ swoją implementację jako nowy format wyjściowy za pomocą metody setOutputFormat JobConf, którą powinieneś zweryfikować, jeśli jest to możliwe również podczas przesyłania strumieniowego. I donno: -/

Źródło

2009-11-03 00:59:12

Klasy danych wejściowych i wyjściowych można zastąpić za pomocą parametrów -inputformat i -outputformat.

Przykład tego, jak to zrobić, można znaleźć w dumbo project, która jest strukturą Pythona do pisania zadań strumieniowych. Posiada funkcję zapisywania do wielu plików i wewnętrznie zastępuje format wyjściowy klasą ze swojego siostrzanego projektu, feathers - fm.last.feathers.output.MultipleTextFiles.

Reduktor musi wydać krotkę jako klucz, a pierwszy składnik krotki jest ścieżką do katalogu, w którym powinny być zapisane pliki z parami klucz/wartość. Wciąż może być wiele plików, które zależą od liczby reduktorów i aplikacji.

Polecam zajrzeć do dumbo, ma wiele funkcji, które ułatwiają pisanie Map/Zmniejszenie programów na Hadoop w python.

Źródło

2009-11-06 20:14:35

Generowanie osobnych plików wyjściowych w strumieniu Hadoop

Odpowiedz

Powiązane problemy