Próbuję tylko potwierdzić moją wiedzę na temat różnicy między reduktorem 0 a reduktorem tożsamości.hadoop: różnica między reduktorem 0 a reduktorem tożsamości?
- 0 reduktor oznacza zmniejszenie krok zostanie pominięty i wyjście odwzorowujący będzie końcowy z
- Identity reduktor Oznacza następnie tasowanie/sortowania będą nadal odbywać?
Witam Dolan, czy mógłbyś nieco opowiedzieć o używaniu narzędzia Redukcja tożsamości, aby połączyć wyniki w mniejszą liczbę plików? Miałem do czynienia z podobnymi problemami - mając wiele małych plików generowanych przez zadania tylko do map. Czy byłby mniej wydajny w porównaniu z miejscami pracy tylko na mapie? –
Yitong - istnieje dodatkowy narzut, gdy używamy Reduktorów Tożsamości w ogóle żadnego, ponieważ wyjścia Mappera muszą być mieszane w X kubki, a następnie wysyłane do reduktorów X (tj. Gdzie X jest pożądaną liczbą plików wyjściowych), posortowane, a następnie zapisany w katalogu wyjściowym w HDFS/S3/etc. Jeśli masz mnóstwo danych, musisz być ostrożny z tym dodatkowym obciążeniem, ponieważ w niektórych przypadkach może to być znaczące. Alternatywnie, jeśli zapisujesz w HDFS, możesz użyć 'hdfs cat', aby przesłać wszystkie pliki wyjściowe do jednej lokalizacji. Nie wiem, czy S3 ma podobny mechanizm odczytu strumienia. –