2013-03-02 11 views
16

Próbuję ocenić różnice między tymi dwiema opcjami. Oto kilka zalet i wad, które mogę wymyślić:Hadoop na EC2 vs Elastyczna mapa Reduce

Elastyczna mapa Reduce => Lepsza obsługa z Amazon, Nie trzeba administrować klastrem, Droższe (?) EC2 + Hadoop => Większa kontrola nad konfiguracją mufy, Tańsze (?)

Zastanawiam się, czy ktokolwiek mógł porównywać wydajność EC2 + Hadoop vis a vis EMR? Czy istnieją znaczne różnice w kosztach wdrażania dużych klastrów? Jakie istnieją inne różnice?

+1

Cena mądry to jest dodanie około 25% w górnej części instancji EC2: http://aws.amazon.com/elasticmapreduce/pricing/ – Guy

Odpowiedz

6

Cóż, administrowanie/monitorowanie/utrzymywanie klastra nie jest małym zadaniem samo w sobie. Korzystając z EMR, naprawdę można uzyskać maszyny skonfigurowane i uruchomione za pomocą niestandardowego kodu bootstrap w krótkim czasie. Oprócz wykonywania wszystkich tych czynności EMR zapewnia również wiele innych narzędzi/opcji/urządzeń.

Tutaj nie musisz się martwić o zamknięcie klastra po wykonaniu zadań, możesz z pewnością zaimplementować sposób dla siebie w konfiguracji EC2 + Hadoop, ale EMR robi to dla ciebie w schludny sposób.

Masz także obiekt do rozmiaru resize the cluster nawet podczas pracy!

Świnia i ula, które są dostępne z EMR, zawierają również łatki, które ułatwiają pracę z plikami w S3.

W tej odpowiedzi nawet here można zauważyć, że EMR otrzymał przewagę.

6

Używamy obu podejść (EMR i EC2) w mojej pracy.

Zalety EMR, o których wspomniał Amar, są mniej lub bardziej prawdziwe: więc jeśli chcesz prostoty, może to być droga.

Ale są też inne względy:

  • wersja EMR jest daleko w tyle głowy apache. wynosi w przybliżeniu 0,20.205, podczas gdy łeb w 2.X, czyli w zasadzie 3 wersje w górę (1.0, 1.1, 2.0 ..)

hadoop @ domU-12-31-39-07-B9-97 : ~ $ ll hadoop * .jar lrwxrwxrwx 1 hadoop hadoop 73 lutego 5 12:00 hadoop-examples-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-examples- 0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 lutego 5 12:00 hadoop-test-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-test-0.20.205 .jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-core-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-core-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 70 lutego 5 12:00 hadoop-tools-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/ hadoop-tools-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 68 lutego 5 12:00 hadoop-ant-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-ant -0.20.205.jar

  • Jako bezpośrednia konsekwencja musiałem ponownie kod/restrukturyzacji moja mapa/zmniejszenie programu z powodu brakujących modułów contrib w starszej wersji działa na EMR

  • nie robić mieć możliwość wykorzystania algorytmów innych niż Mapy/Reduce, tak jakbyś używał zaktualizowanej wersji M/R.

  • Elastyczność w łączeniu i dopasowywaniu wersji ekosystemu maczuga.

+0

Amazon Elastic MapReduce obsługuje Hadoop 0.20.205 i Hadoop 1.0.3 z niestandardowe łatki. (http://aws.amazon.com/elasticmapreduce/faqs/#dev-12) Również zamiast używać jednej z wersji Apache hadoop, możesz użyć MapR zamiast tego, która również jest obsługiwana przez EMR. (http://aws.amazon.com/elasticmapreduce/mapr/) – Amar

+0

Uważam, że ta odpowiedź jest nieaktualna, a rozważania przestają być prawdziwe ... – chomp