Chciałbym zdefiniować MapR nieco inaczej. Nie korzysta z HDFS, ale zamiast tego zapewnia własny rozproszony system plików z interfejsem NFS. który, podobnie jak HDFS, opiera się na lokalnym FS.
Główne różnice wynikają z faktu, że HDFS nie jest Posixem i innymi wyborami projektowymi.
1. HDFS nie jest zmienny, gdy MapR jest. Może być postrzegana jako korzyść, szczególnie jeśli jest potrzebna.
2. HDFS nie można zamontować podczas MapR. Możesz użyć dowolnych istniejących narzędzi pracujących z Linux FS.
Niezwiązany z posix: MapR ma mały rozmiar bloku, a nie pojedynczy punkt awarii (NameNode). MapR Ma replikę na wielu serwerach.
pozwala spojrzeć na ciemną stronę również: a) Posiadanie zmienne dane (zamiast niezmiennych HDFS) sprawia, że system jest bardziej skomplikowany.
b) Nie jest znana (przynajmniej dla mnie) praca nad ogromnymi klastrami. (Słyszałem o setce węzłów).
c) Z punktu widzenia architektury (z małymi blokami) nie jestem pewien, jak można osiągnąć dobrą lokalizację danych.
Odnośnie ciemnych komentarzy Davida, (a) zmienność znacznie upraszcza użytkownikowi, (b) działa na dużych klastrach ...patrz najnowszy rekord świata, c) małe bloki nie stanowią problemu dla miejscowości; MapR oddziela pojęcia jednostki dyskowej (małe bloki), jednostki rozdzielające klastry (takie jak blok Hadoop 100 w MB) i stałą skalowania (30 GB zamiast domyślnego 64 MB Hadoops). –
Ted - proszę podać link do rekordu sortowania –
Dave, Srivas już podał link. Zobacz http://www.mapr.com/blog/hadoop-minutesort-record –