2011-07-07 12 views

Odpowiedz

16

Sprawdź to article na zewnątrz. Dremel jest tym, czym powinna być przyszłość (i będzie) przyszłości.

Głównym problemem MapReduce i rozwiązań na nim, takich jak Pig, Hive itp., Jest to, że mają one nieodłączne opóźnienie między uruchomieniem pracy i otrzymaniem odpowiedzi. Dremel wykorzystuje całkowicie nowe podejście (ukazał się w 2010 roku w tym dokumencie przez Google), który ...

... wykorzystuje nowy silnik wykonywania zapytań opartych na drzewach agregator ...

. Aby uruchomić prawie w czasie rzeczywistym, interaktywne ORAZ adhoc kwerendy, z których obie nie może MapReduce. A Pig and Hive nie są w czasie rzeczywistym

Powinieneś mieć na uwadze nadchodzące projects. Dla mnie też jest całkiem nowy ... więc wszelkie inne komentarze ekspertów są mile widziane!

Edit: Dremel to, co w przyszłości HIVE (a nie mapreduce jak wspomniałem wcześniej) powinno być. Hive zapewnia teraz interfejs podobny do SQL do uruchamiania zadań MapReduce. Ula ma bardzo duże opóźnienie i dlatego nie jest praktyczna w analizie danych ad-hoc. Dremel zapewnia bardzo szybki interfejs SQL do danych przy użyciu innej techniki niż MapReduce.

+0

OK, ale co z oprogramowaniem Storm? – kirugan

+4

Chciałbyś dodać do powyższych szczegółów, spójrz na Apache Drill, która jest implementacją Open Source Dremel firmy Google. –

3

MapReduce to abstrakcyjny algorytm podziału problemu, jego dystrybucji i łączenia wyników. Dremel wydaje się być specyficznym narzędziem do wysyłania zapytań i analizowania zbiorów danych.

34

Dremel i MapReduce nie są bezpośrednio porównywalne, ale są raczej komplementarnymi technologiami.

MapReduce nie jest specjalnie zaprojektowany do analizowania danych - jest to raczej platforma programowa, która umożliwia zbieranie węzłów w celu rozwiązywania problemów związanych z rozproszonymi obliczeniami w przypadku dużych zestawów danych.

Dremel to narzędzie do analizy danych zaprojektowane do szybkiego uruchamiania zapytań dotyczących ogromnych, uporządkowanych zbiorów danych (takich jak pliki dziennika lub zdarzeń). Obsługuje składnię podobną do SQL, ale oprócz załączników do tabel jest tylko do odczytu. Nie obsługuje aktualizacji ani funkcji tworzenia, ani nie zawiera indeksów tabel. Dane są zorganizowane w formacie "kolumnowym", co przyczynia się do bardzo dużej prędkości zapytań. Produkt BigQuery firmy Google jest implementacją Dremel dostępną poprzez RESTful API.

Hadoop (open source implementacja MapReduce) w połączeniu z oprogramowaniem hurtowni danych "Hive", umożliwia również analizę danych pod kątem ogromnych zestawów danych przy użyciu składni w stylu SQL. Hive zasadniczo zamienia kwerendy w funkcje MapReduce. W przeciwieństwie do używania formatu ColumIO, Hive próbuje szybko tworzyć zapytania za pomocą takich technik, jak indeksowanie tabel.

+1

btw, wejście jest tylko do odczytu, ale można zmaterializować wyjściowe zapytania Dremel do przyszłego ponownego wykorzystania –

Powiązane problemy