Czytałem dużo o Hadoop i Map-Reduce na klastrach maszyn. Czy ktoś wie, czy dystrybucja Apache może być uruchomiona na SMP z kilkoma rdzeniami? W szczególności, czy wiele procesów Map-Reduce może być uruchomionych na tym samym komputerze. Harmonogram zajmie się rozkładaniem ich na wiele rdzeni. Dzięki. - KGHadoop i map-reduce na maszynach wielordzeniowych
Odpowiedz
Tak. Masz wiele map i zmniejszenie szczeliny w każdej maszynie, które są określane przez RAM i CPU (każde wystąpienie JVM potrzebuje 1GB domyślnie więc maszyna 8GB z 16 rdzeni powinna nadal mieć 7 slotów zadania)
od hadoop wiki
Skorzystaj z pokrętła konfiguracji: mapred.tasktracker.map.tasks.maximum i mapred.tasktracker.reduce.tasks.maximum, aby kontrolować liczbę map/zmniejszonych narosłych jednocześnie na TaskTracker. Domyślnie jest ustawiona na 2, a więc jedna widzi maksymalnie 2 mapy i 2 zmniejsza się w danej instancji na TaskTracker.
Można ustawić te na zasadzie per-tasktracker dokładnie odzwierciedlać sprzętu (czyli ustawić tych wyższych numerach. Na beefier tasktracker itd.).
Możesz używać tych lekkich frameworków MapReduce dla komputerów wielordzeniowych.
Na przykład
LeoTask: Lekki, wydajny i niezawodny ramy mapreduce dla wielordzeniowych komputerów
Dla Apache Hadoop 2.7.3, moje doświadczenie jest takie, że umożliwienie YARN umożliwi również wsparcie wielordzeniowe. Oto prosty przewodnik dla umożliwienia YARN na jednym węźle:
Domyślna konfiguracja wydaje się całkiem dobrze. Jeśli chcesz dostroić swoje podstawowe użycie, może zajmij się ustawieniem "yarn.scheduler.minimum-allocation-vcores" i "yarn.scheduler.maximum-allocation-vcores" w witrynie przędzy.xml (https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml)
Zobacz też tutaj, aby dowiedzieć się, jak skonfigurować prostą piaskownicę Hadoop z obsługą wielordzeniową: https://bitbucket.org/aperezrathke/hadoop-aee
- 1. Hadoop MapReduce plików Multiple Input
- 2. Hadoop MapReduce: Kierowca łańcuchowym mappers w pracy MapReduce
- 3. Rozproszony algorytm współczynnika lokalnego skupiania (MapReduce/Hadoop)
- 4. Chaining Wielu Redukcje w pracy Hadoop MapReduce
- 5. Jak debugować hadoop mapreduce zadania od Eclipse?
- 6. Znajdowanie połączonych komponentów przy użyciu Hadoop/MapReduce
- 7. Hadoop: Jak działa OutputCollector podczas MapReduce?
- 8. Łańcuchowanie Hadoop MapReduce z potokami (C++)
- 9. Metody instalacji i czyszczenia Mappera/Reducera w Hadoop MapReduce
- 10. Nie można uruchomić zadania MapReduce na hadoop 2.4.0
- 11. Dane transmisyjne i Hadoop? (nie Hadoop Streaming)
- 12. Hadoop MapReduce: Możliwe zdefiniowanie dwóch maperów i reduktorów w jednej klasie zadań hadoop?
- 13. MapReduce i SQL GROUP BY
- 14. MapReduce alternatives
- 15. Procesory zespołów i procesorów wielordzeniowych
- 16. IPython.parallel nie używając wielordzeniowych?
- 17. Hadoop MapReduce zapewnić zagnieżdżonych katalogów jako wkład pracy
- 18. Nie można znaleźć lub wczytać głównej klasy com.sun.tools.javac.Main hadoop mapreduce
- 19. strtok na maszynach 64-bitowych
- 20. Wykorzystanie wielordzeniowych Gevent
- 21. Zależności Mavena dla Hadoop: MiniDFSCluster i MiniMRCluster
- 22. R + Hadoop: Jak odczytać plik CSV z HDFS i wykonać mapreduce?
- 23. Hadoop pliki podrzędne konfiguracji
- 24. Hadoop na bazie bazy danych Kasandra
- 25. Hadoop 0.20.2 Wtyczka Eclipse nie w pełni działa - nie można "uruchomić na Hadoop"
- 26. Hadoop i Stata
- 27. Wykonanie zadań spekulacyjnych Hadoop
- 28. W praktyce, ile maszyn potrzeba, aby Hadoop/MapReduce/Mahout przyspieszyło obliczenia, które można zrównoleglić?
- 29. Różnice między istniejącymi MapReduce i YARN (MRv2)
- 30. Czy w Hadoop MapReduce można mieć wiele wejść z wieloma różnymi mapami?