Próbuję dowiedzieć się, ile instancji MASTER, CORE, TASK jest optymalnych dla moich zadań. Nie mogłem znaleźć żadnego samouczka wyjaśniającego, jak to rozgryźć.Jak znaleźć odpowiednią porcję między typami instancji hadoopów?
Skąd mam wiedzieć, czy potrzebuję więcej niż 1 instancji głównej? Jakie są "symptomy", które widziałem w konsoli EMR w metrykach, które wskazywałyby na to, że potrzebuję więcej niż jednego rdzenia? Do tej pory, kiedy próbowałem tej samej pracy z 1 * core + 7 * instancjami zadań, działało to prawie jak na 8 * rdzeniu, ale nie ma to dla mnie większego sensu. Czy to możliwe, że moja praca jest tak bardzo związana z CPU, że IO jest tak niewielkie? (Mam zadanie tylko do map, które analizuje pliki dziennika Apache do pliku csv).
Czy jest coś, co może mieć więcej niż 1 instancję główną? Jeśli tak, kiedy to jest potrzebne? Zastanawiam się, ponieważ mój główny węzeł praktycznie tylko czeka, aż inne węzły wykonają zadanie (0% CPU) przez 95% czasu.
Czy urządzenie główne i węzeł główny mogą być identyczne? Mogę mieć klaster typu "master", gdy węzeł 1 i jedyny robi wszystko. Wygląda na to, że logicznie byłoby mieć klaster z 1 węzłem, który jest wzorcem i rdzeniem, a pozostałe są węzłami zadań, ale wydaje się, że nie można tego ustawić z EMR. Dlaczego?
Wszystko to wiem.Ale skąd będę wiedzieć, czy 1 rdzeń wystarczy, a cały REST (niech będzie 8 lub 64 lub 200) może być zadaniem, lub musi być proporcja (oczywiście zależna od mojej pracy), że jeśli przejdę (dodaj zbyt wiele instancje zadań) spowolnią pracę, ponieważ nie ma "wystarczającej liczby" instancji rdzenia, a IO instancji rdzenia (że wszystkie instancje zadań będą używane, jeśli to rozumiem) staną się wąskim gardłem. – Gavriel
Och, widzę. To interesujące pytanie, ale obawiam się, że nigdy tego nie eksperymentowałem. Nie sądzę, abym kiedykolwiek widział, że moje zadania są mniej wydajne, dodając więcej węzłów zadań, ale to może być tylko moja praca. Możesz sam to sprawdzić, monitorując swoją pracę w konsoli EMR i zmieniając podstawowe grupy/zadania na długo działającą pracę. –
Tak, ale moje pytanie brzmi dokładnie tak: jakie środki w konsoli EMR są odpowiednie dla tego? Obecnie jedyną rzeczą, którą robiłem, było uruchamianie tej samej pracy w różnych konfiguracjach i mierzenie czasu, jaki zajęło, ale nie jest to zbyt dokładne. – Gavriel