Mam program "tylko mapa" (bez fazy redukcji). Rozmiar pliku wejściowego jest wystarczająco duży, aby utworzyć 7 zadań mapowych i zweryfikowałem to przez sprawdzenie uzyskanego wyniku (część-000 na part006). Teraz mój klaster ma 8 węzłów, każdy z 8 rdzeniami i 8 GB pamięci oraz współużytkowany system plików hostowany w węźle głównym.Jak zaplanować zadania mapy Hadoop w wielordzeniowym klastrze z 8 węzłami?
Moje pytanie jest następujące: mogę wybrać pomiędzy uruchomieniem wszystkich 7 zadań mapowych w jednym węźle lub uruchomieniem 7 zadań map w 7 różnych węzłach podrzędnych (1 zadanie na węzeł). Jeśli mogę to zrobić, potrzebuję jakiej zmiany w moim kodzie i pliku konfiguracyjnym.
Próbowałem ustawić parametr "mapred.tasktracker.map.tasks.maximum" na 1 i 7 tylko w moim kodzie, ale nie znalazłem żadnej znaczącej różnicy czasu. W moim pliku konfiguracyjnym jest ustawiony jako 1.