Szukałem od kilku dni, próbując znaleźć sposób, używając zredukowanych danych do dalszego mapowania w hadoopie. Mam obiekty klasy A
jako dane wejściowe i obiekty klasy B
jako dane wyjściowe. Problem polega na tym, że podczas mapowania generowane są również tylko nowe .Podział zmniejszonych danych na dane wyjściowe i nowe dane wejściowe w Hadoop
Oto, co chciałbym osiągnąć:
1.1 input: a list of As
1.2 map result: for each A a list of new As and a list of Bs is generated
1.3 reduce: filtered Bs are saved as output, filtered As are added to the map jobs
2.1 input: a list of As produced by the first map/reduce
2.2 map result: for each A a list of new As and a list of Bs is generated
2.3 ...
3.1 ...
Należy uzyskać podstawowe pojęcia.
Czytałem dużo o łańcuchach, ale nie jestem pewien, jak połączyć ChainReducer i ChainMapper, a nawet, czy byłoby to właściwe podejście.
Oto moje pytanie: Jak podzielić zmapowane dane podczas zmniejszania, aby zapisać jedną część jako wynik, a drugą część jako nowe dane wejściowe.
proszę zauważ, że te przykłady kodu dotyczą Hadoop 0. *, ale nie 1.0 .4. Ponieważ pracuję z wersją 1.0.4, interfejsy uległy niewielkiej zmianie. Ale podstawową ideą było to, czego szukałem. Dziękuję Ci! – Mennny
Tak, to prawda. to było za 0,20 – Amar