2011-12-08 10 views
5

Moja firma rozważa wykorzystanie flume do przetwarzania logów o dość dużej objętości. Uważamy, że przetwarzanie dziennika musi zostać rozpowszechnione zarówno ze względu na wielkość (skalowalność), jak i awarię (niezawodność), a Flume wydaje się oczywistym wyborem.Automatyczna skalowalność i przełączanie awaryjne Flume

Uważamy jednak, że brakuje nam czegoś oczywistego, ponieważ nie widzimy, jak Flume zapewnia automatyczną skalowalność i przełączanie awaryjne.

Chcę zdefiniować przepływ, który mówi dla każdej linii dziennika, zrobić rzecz A, a następnie przekazać ją dalej i zrobić rzecz B, następnie przekazać dalej i zrobić rzecz C, i tak dalej, co wydaje się dobrze pasować do Flume . Chciałbym jednak móc zdefiniować ten przepływ w czysto logicznych kategoriach, a następnie powiedzieć: "Hej Flume, tutaj są serwery, tutaj jest definicja przepływu, idź do pracy!". Serwery zginą, (i ops uruchomi je ponownie), dodamy serwery do klastra i wycofamy inne, a flume po prostu przekieruje pracę do dostępnych węzłów.

W ten sposób mapa Hadoop zmniejsza skalowalność narzędzi i przełączanie awaryjne i zakładam, że Flume będzie taki sam. Jednak dokumentacja sugeruje, że muszę ręcznie skonfigurować, na których serwerach fizycznych pracuje każdy węzeł logiczny, i skonfigurować konkretne scenariusze przełączania awaryjnego dla każdego węzła.

Mam rację, a Flume nie służy naszemu celowi, czy też coś mi umknęło?

Dzięki za pomoc.

+0

Możesz również zapytać o to na liście mailingowej flume: [email protected] – PoorLuzer

Odpowiedz

Powiązane problemy