2013-02-11 12 views
6

Czy ktoś próbował przetestować wydajność węzłów danych w wielu centrach danych? Zwłaszcza w przypadku sieci z małymi rurami. Nie mogę znaleźć zbyt wielu informacji na ten temat, a informacje, które znalazłem są stare (około 2010) lub zastrzeżone (wydaje się, że DataStax coś ma). Wiem, że Hadoop wspiera świadomość stojaków, ale tak jak powiedziałem, nie widziałem żadnej dokumentacji umożliwiającej dostrojenie systemu dla wielu centrów danych.Dystrybucja węzłów danych w wielu centrach danych

Odpowiedz

5

Próbowałem już z 12 x klastra DataNode ułożone w stosunku 2: 1 podzielone między dwa centra danych w odległości około 120 mil od siebie. Opóźnienie między centrami danych wynosi ~ 4 ms dla przewodów 2 x 1 GbE.

2 stojaki zostały skonfigurowane w miejscu A, 1 stojak skonfigurowany w miejscu B. Każdy "stojak" miał 4 maszyny. Zasadniczo testowaliśmy witrynę B jako witrynę "DR". Współczynnik replikacji został ustawiony na 3.

Krótko mówiąc, działa, ale wydajność była naprawdę, bardzo zła. Zdecydowanie musisz użyć kompresji na swoim źródle, mapować i zmniejszać wyjścia, aby zmniejszyć swoje operacje wejścia/wyjścia zapisu, a jeśli łącza do innych stron zostaną użyte do czegokolwiek innego, otrzymasz czas oczekiwania podczas przesyłania danych. Okna TCP skutecznie ograniczyłyby transfer do około 4 Mb/s, zamiast potencjalnego 100 Mb/s na linii 1 GbE.

Zaoszczędź sobie bólu głowy i po prostu używaj zadań distcp do replikowania danych!

Powiązane problemy