2014-11-21 15 views
6

używam moje dzienniki API wyodrębnić informacje, takie jak:Hbase vs Cassandra: Co jest lepsze dla przechowywania danych Timeseries?

  • W tym okresie czasu, ile są użytkownicy mojego API?
  • Czy w tym okresie, jakiego rodzaju usługi są nazywane najbardziej?

Prawie wszystkie informacje, które wyodrębniam, zależą od znacznika czasu. Właściwie używam MongoDB i dodałem znacznik czasu jako indeks (dla 80 GB, indeksy mają rozmiar 12 GB).

Polecono mi migrację do kassandra lub Hbase. I chcę wiedzieć, który jest lepszy dla mojego przypadku użycia:

  • Analiza danych czasu.
  • Wymagana jest dobra wydajność zapisu i odczytu.
  • Możliwość korzystania z hadoop do mojej analizy danych.

Dziękujemy za podzielenie się z Państwem swoim punktem widzenia lub doświadczeniem.

Odpowiedz

-1

Lody czekoladowe lub waniliowe - co jest lepsze?

Proponuję, abyś był najlepszym decydentem. Skonfiguruj środowiska programistyczne dla każdej opcji, a dzięki temu dowiesz się więcej o problemach związanych z obsługą i tuningiem, niż sądzę, że każdy inny może Ci to umożliwić. :)

5

Zalety Cassandra: Cassandra ogólnie pokazuje lepszą wydajność (choć obie są doskonałe). Cassandra jest znacznie łatwiejsza w konfiguracji i zarządzaniu z punktu widzenia operacyjnego (choć istnieją narzędzia, które pomogą w dowolny sposób).

Zalety HBase: Native dla ekosystemu Hadoop

HBase będzie wymagać instalacji Hadoop i tak, i można uzyskać ładne dwa w jednym. Aby korzystać z Cassandry, prawdopodobnie będziesz musiał skorzystać z DataStax Enterprise, komercyjnego produktu o otwartym kodzie źródłowym lub zbadać użycie Sparka do pracy analitycznej, która ma złącze open source z Cassandrą.

+0

W zależności od rodzaju środowiska, w którym pracujesz, uzyskanie DataStax Enterprise może być bezpłatne. – mildewey

+0

Jest przeznaczony do komercyjnego wdrożenia, więc jest opłacany. Ale czy Datastax jest niezbędny, gdy używam Hadoop z Cassandrą? – Mouna

+3

Używamy Apache Spark z Apache Cassandra (bez DataStax Enterprise). Chociaż musiałem napisać kilka początkowych skryptów do automatyzacji, sprawdzenie, jak działa, było dość proste. DSE zapewnia integrację z Hadoop/Solr/Spark/itd., Podczas gdy musisz sam wykreślić to, czego potrzebujesz dla wersji apache. Jeśli wszystko, czego szukasz, to analizy szeregów czasowych + zapytania, Spark + Cassandra wykona więcej niż zadanie, nie wymagając jednak skonfigurowania Hadoop. – ashic

Powiązane problemy