2013-02-26 9 views

Odpowiedz

5

Chciałbym zdefiniować MapR nieco inaczej. Nie korzysta z HDFS, ale zamiast tego zapewnia własny rozproszony system plików z interfejsem NFS. który, podobnie jak HDFS, opiera się na lokalnym FS.
Główne różnice wynikają z faktu, że HDFS nie jest Posixem i innymi wyborami projektowymi.
1. HDFS nie jest zmienny, gdy MapR jest. Może być postrzegana jako korzyść, szczególnie jeśli jest potrzebna.
2. HDFS nie można zamontować podczas MapR. Możesz użyć dowolnych istniejących narzędzi pracujących z Linux FS.

Niezwiązany z posix: MapR ma mały rozmiar bloku, a nie pojedynczy punkt awarii (NameNode). MapR Ma replikę na wielu serwerach.

pozwala spojrzeć na ciemną stronę również: a) Posiadanie zmienne dane (zamiast niezmiennych HDFS) sprawia, że ​​system jest bardziej skomplikowany.
b) Nie jest znana (przynajmniej dla mnie) praca nad ogromnymi klastrami. (Słyszałem o setce węzłów).
c) Z punktu widzenia architektury (z małymi blokami) nie jestem pewien, jak można osiągnąć dobrą lokalizację danych.

+3

Odnośnie ciemnych komentarzy Davida, (a) zmienność znacznie upraszcza użytkownikowi, (b) działa na dużych klastrach ...patrz najnowszy rekord świata, c) małe bloki nie stanowią problemu dla miejscowości; MapR oddziela pojęcia jednostki dyskowej (małe bloki), jednostki rozdzielające klastry (takie jak blok Hadoop 100 w MB) i stałą skalowania (30 GB zamiast domyślnego 64 MB Hadoops). –

+0

Ted - proszę podać link do rekordu sortowania –

+0

Dave, Srivas już podał link. Zobacz http://www.mapr.com/blog/hadoop-minutesort-record –

0

David, rekord sortowania minutowego został ustawiony przez MapR na Google Compute Engine w Google Cloud w dniu 30.01.2013. Zobacz nasz blog pod adresem http://www.mapr.com/blog/hadoop-minutesort-record. Rekord został ustawiony na klastrze z węzłem 2103, a 1,5 TB danych zostało posortowane w 59 sekund.

Zobacz także wcześniejszy blog na temat rekordu Terasort przez MapR sortowanie 1 TB danych w 54 sekundy. Ustawiono go w klastrze z węzłem 1003 w Google Compute Engine w Google Cloud. Blog został opublikowany pod adresem http://www.mapr.com/blog/record-setting-hadoop-in-the-cloud.

Zobacz także odpowiedzi.mapr.com na wiele pytań/odpowiedzi na ten temat.

+0

Jest to bardzo interesujący dokument. Myślę, że byłoby bardzo użyteczne posiadanie podsumowania ulepszeń MapR oprócz wymiany HDFS. –

+0

Ponadto - nie jest jasne, co jest wymieniony w dokumencie serwer plików i czym była sieć - 1 GBit lub 10 GBit? –

+0

Serwer plików jest standardowym serwerem plików rozproszonym MapR. Sieć ma 10 GbE. Zobacz http://www.mapr.com/doc/display/MapR/Start+Here –

0

Dopóki pewne bezstronne źródło nie przeprowadzi szeroko zakrojonych testów porównawczych (przy różnych nakładach pracy) Apache Hadoop vs. wersja MapR, myślę, że nie możemy kategorycznie powiedzieć, że jeden jest szybszy od drugiego. Jeśli zapisy mają na celu określenie twojej opinii, powinieneś teraz, aby obecny rekord terasortu był przechowywany przez Yahoo, z Apache Hadoop. Szczegóły: here i here.

+0

Coś jeszcze należy odnotować: "Benchmark TeraByte jest teraz przestarzały, ponieważ stał się zasadniczo taki sam jak MinuteSort." REF: http://sortbenchmark.org/ – Ragaar

0

Główną wadą MapR i Hortonworks/Cloudera jest to, że MapRFS (system plików) i MapR-DB (baza danych NOSQL) są zastrzeżone (nie open source). Jeśli MapR nie będzie już istnieć, zakłada się, że te produkty przestaną być rozwijane i wspierane.

Istnieje mniejsze ryzyko, że HDFS/HBase nie będą rozwijane i wspierane, ponieważ Hortonworks, Cloudera i inne dystrybucje Hadoop używają/wspierają HDFS/HBase wraz ze społecznością open source.

Powiązane problemy