2012-06-25 7 views
8

Pamiętam, że czytałem gdzieś, że wydajność Hadoopa znacznie się pogarsza, jeśli maszyny, na których działa, są bardzo różne od siebie, ale nie mogę już tego znaleźć. Rozważam uruchomienie klastra Hadoop na szeregu maszyn wirtualnych, które nie są bezpośrednio zarządzane przez moją grupę, i muszę wiedzieć, czy jest to wymóg, który powinien spełnić moja prośba.Czy klastry hadoopów powinny działać na identycznym sprzęcie?

Czy powinienem nalegać na wszystkie moje maszyny posiadające identyczny sprzęt lub czy można uruchamiać je na różnych maszynach w różnych konfiguracjach sprzętowych?

Dzięki.

Odpowiedz

12

następujące referaty opisuje sposób niejednorodny klastra wpływa na wydajność Hadoop mapie-zredukować:

w heterogenicznym klastra, możliwości obliczeniowe węzłów mogą się różnić znacząco odbiegać. Węzeł o dużej szybkości może szybciej przetwarzać dane przechowywane na dysku lokalnym węzła szybciej niż odpowiedniki o niskiej prędkości. Po szybkim węźle zakończonym przetwarzaniem lokalnych danych wejściowych węzeł musi obsługiwać podział obciążenia przez przetwarzanie nieprzetworzonych danych zlokalizowanych w jednym z lub więcej zdalnych wolnych węzłów. Kiedy ilość przesłanych danych z powodu podziału obciążenia jest bardzo duża, narzut przenoszenia ruchomych nieprzetworzonych danych z wolnych węzłów do szybkich węzłów staje się krytycznym problemem wpływającym na wydajność Hadoop.

następujące odniesienia ma więcej szczegółów:

  1. http://computerresearch.org/stpr/index.php/gjcst/article/view/749/658
  2. http://www.usenix.org/event/osdi08/tech/full_papers/zaharia/zaharia.pdf

Zapewnia również, w jaki sposób można poprawić wydajność w heterogenicznym klastra lub tego uniknąć spadku wydajności.

Zaleca się, aby w klastrze były dostępne jednorodne maszyny, ale jeśli te maszyny nie mają bardzo różnych specyfikacji i różnej wydajności, powinieneś kontynuować budowanie klastra.

W przypadku systemów produkcyjnych należy zaproponować maszyny jednolite. Dla rozwoju wydajność nie jest krytyczna.

Jakkolwiek, powinieneś być w stanie porównać twój klaster Hadoop po jego zbudowaniu.

+0

To dobra rada, dziękuję! – ILikeFood

2

Jednorodny klaster jest z pewnością idealny, ale nie jest to absolutnie konieczne. Na przykład Yahoo !, Inc. uruchamia heterogeniczne klastry w swoich środowiskach produkcyjnych. Po rozmowach z badaczami okazało się, że nastąpiło uderzenie wydajności spowodowane problemami związanymi z planowaniem (wystarczająco dużym hitem, że ciężko pracują, aby dodać do swoich narzędzi planowanie uwzględniające wydajność), ale kara nie jest wyniszczająca.

Powiązane problemy