Jako strona GitHub z tez mówi tez jest bardzo prosta, a przy jego sercu ma tylko dwa składniki:How wordCount mapZmniejsz liczbę zleceń, uruchom na klastrze przędzy hadoop z apache tez?
Silnik rurociągu przetwarzania danych oraz
mistrza do przetwarzania danych aplikacja, gdzie po jednym razem można umieścić dowolny przetwarzania danych „zadania” opisane powyżej w zadanie-DAG
Dobrze jest, w jaki sposób istniejące mapreduce pracy jak WordCount że istnieje moje pierwsze pytanie w tez-examples.jar, konwertowane na task-DAG? gdzie? czy oni nie ...?
i moje drugie i ważniejsze pytanie dotyczy tej części:
„zadanie” Każdy w TEZ ma następujący:
- Wejście do konsumpcji pary klucz/wartość z.
- Procesor do ich przetworzenia.
- Dane wyjściowe do zebrania przetworzonych par klucz/wartość.
Kto jest odpowiedzialny za dzielenie danych wejściowych między zadaniami tez? Czy jest to kod, który dostarcza użytkownik czy jest to Yarn (menedżer zasobów), czy nawet sam Tez?
Pytanie jest takie samo dla fazy wyjściowej. góry dzięki
jeśli tez nie kontroluje podstawowej struktury danych, partycjonowania ... to co to znaczy mieć krawędzie? W jaki sposób odbywa się przygotowywanie danych dla wierzchołków? – SonOfSun