2013-02-12 12 views
8

Używam Cassandra do przechowywania moich danych i ula do przetwarzania moich danych. Mam 5 maszyn, na których ustawiłem kassandra i 2 maszyny używam jako węzeł analityczny (gdzie działa hive). Więc chcę zapytać, czy hive zmniejsza mapę na tylko dwóch komputerach (węzłach analitycznych) i dostarcza tam dane lub przenosi proces/obliczenia do 5 węzłów Kasandra i przetwarza/oblicza dane na tych maszynach (co wiem, że jest w mysiu, proces przenosi dane, a nie dane do przetworzenia).Hadoop na bazie bazy danych Kasandra

Odpowiedz

16

Jeśli chcesz poślubić Hadoop i Cassandrę - pierwszy link powinien stworzyć firmę DataStax zbudowaną wokół tej koncepcji. http://www.datastax.com/ Zbudowali i wspierali hadoop z HDFS zastąpionym kassandra. W mojej najlepszej zrozumienia - oni mają lokalizację danych: http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/

Jest dobra odpowiedź o Hadoop & danych Cassandra miejscowości po uruchomieniu MapReduce przed Cassandrą Cassandra and MapReduce - minimal setup requirements

chodzi o Twoje pytanie - istnieje tradeof : a) Jeśli uruchomisz Hadoop/Hive na oddzielnych węzłach, tracisz lokalność danych, a przepustowość Twoich danych jest ograniczona przez przepustowość twojej sieci.
b) Jeśli uruchomisz hadoop/Hive na tych samych węzłach, na których działają kassandra - możesz uzyskać lokalność danych, ale przetwarzanie MapReduce za zapytaniami o ula może zablokować twoją sieć (i inne zasoby) i wpłynąć na twoją jakość usług od kassandra.

Moja sugestia będzie mieć oddzielne węzły ula, jeśli wydajność kassandra z kassandra jest krytyczna.
Jeśli Twój kassandra jest najczęściej używany jako magazyn danych i nie obsługuje żądań w czasie rzeczywistym, wówczas uruchomienie gałęzi w każdym węźle poprawi wydajność i wykorzystanie sprzętu.

+0

Dzięki, że było bardzo pomocne –

Powiązane problemy