2012-01-31 18 views
6

Moje zadanie nie wymaga sortowania, tylko informacje o agregacji na klucz. Myślę więc, że jeśli to możliwe, można wyłączyć sortowanie wszystkich informacji w celu zwiększenia wydajności.Czy można wyłączyć sortowanie w hadoopie?


Uwaga: Nie mogę ustawić liczby reduktorów na zero, ponieważ muszę agregować dane pomiędzy wieloma twórcami map. Po prostu nie interesowałem się posortowanym wynikiem z jednym reduktorem.

+0

AFAIK, sortowanie jest istotną fazą w pracy MR, nie można jej pominąć. Sortowanie zwykle nie stanowi istotnego elementu wydajności. – wlk

+0

yura, znalazłeś rozwiązanie? Głosuję, aby zamknąć jako duplikat, ponieważ w drugim pytaniu jest właściwie odpowiedź! – gsamaras

+0

Możliwy duplikat [Hadoop i Python: Wyłącz sortowanie] (http://stackoverflow.com/questions/19188263/hadoop-and-python-disable-sorting) – gsamaras

Odpowiedz

0

Jednym z głównych celów sortowania danych wyjściowych mapy jest, gdy krotki osiągną redukcję, musi wykonać reduktor), aby wywołać zadanie reduktora, z sortowaną listą wyjściową mapy może ona sporządzić listę po prostu przez sekwencyjne skanowanie (kiedy widzi inny klucz, a następnie tworzy nową listę), jeśli dane wyjściowe mapy nie są posortowane, musi przeskanować całą listę, tworząc listę z tym samym kluczem.

Powiązane problemy