Kilka miejsc mówi, że domyślne # reduktorów w zadaniu Hadoop to 1. Możesz użyć symbolu mapred.reduce.tasks, aby ręcznie ustawić liczbę reduktorów.W jaki sposób Hive wybiera liczbę reduktorów do pracy?
Kiedy uruchamiam zadanie Hive (na Amazon EMR, AMI 2.3.3), ma kilka reduktorów więcej niż jeden. Patrząc na ustawienia pracy, coś ustawiło mapred.reduce.tasks, domyślam się Hive. Jak wybiera ten numer?
Uwaga: oto kilka wiadomości podczas jazdy ula zadania, które powinny być wskazówką:
...
Number of reduce tasks not specified. Estimated from input data size: 500
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
...
Dobre pytanie. W szczególności, kiedy ula wybiera opcję "Ilość zadań redukcji określanych podczas kompilacji" i kiedy wybiera "oszacowane na podstawie rozmiaru danych wejściowych"? – ihadanny
dodał, że w odpowiedzi poniżej –