2013-08-05 13 views

Odpowiedz

5

Tylko ze względu na przechowywanie można przechowywać wszystko w HDFS. Ale to nie ma sensu. Po pierwsze, nie powinieneś myśleć o Hadoopie jako zamienniku twojego RDBMS (który próbujesz tutaj zrobić). Oba są przeznaczone do zupełnie innych celów. Hadoop nie jest odpowiedni dla twoich potrzeb transakcyjnych, relacyjnych lub w czasie rzeczywistym. Miał służyć do przetwarzania Twoich potrzeb przetwarzania wsadowego w trybie offline. Dlatego lepiej przeanalizować przypadek użycia, a następnie wstrzymać decyzję.

Jako sugestię chciałbym skierować cię do Hive. Zapewnia możliwość magazynowania na istniejącym klastrze Hadoop. Zapewnia również interfejs podobny do SQL do twojego magazynu, co znacznie ułatwi ci życie, jeśli pochodzisz z tła SQL. Ale znowu, Hive jest również systemem przetwarzania wsadowego i nie jest dobrym rozwiązaniem, jeśli potrzebujesz czegoś w czasie rzeczywistym.

Możesz jednak rzucić okiem na HBase, jak sugeruje to abhinav. Jest to baza danych, która może działać na szczycie klastra Hadoop i zapewnia losowy dostęp do danych w trybie odczytu i zapisu w czasie rzeczywistym. Ale powinieneś pamiętać o tym, że jest to baza danych NoSQL. Nie stosuje się do terminologii i konwencji SQL. Może początkowo okaże się, że jest trochę obcy. Być może trzeba będzie pomyśleć o problemach, takich jak przechowywanie danych w nowym stylu przechowywania (kolumnowy), w przeciwieństwie do przechowywania stylu wiersz RDBMS. W przeciwnym razie konfiguracja i używanie go nie stanowi problemu.

HTH

0

Każdy plik można zapisać w HDFS. Ale jeśli potrzebujesz DB typu SQL, powinieneś wybrać HBASE. Jeśli bezpośrednio przechowujesz swoje dane w HDFS, nie będziesz w stanie przechowywać racjonalności.

+1

Powinieneś dodać, jak może on przechowywać dane relacyjne do przechowywania kolumnowego, takiego jak HBase. –

Powiązane problemy