Zaczynam wchodzić w kod rozproszony i mam problem z ustaleniem, które rozwiązanie pasuje do moich potrzeb w oparciu o wszystkie te rzeczy. Zasadniczo mam listę danych Pythona, które muszę przetwarzać za pomocą jednej funkcji. Ta funkcja ma kilka zagnieżdżonych pętli, ale nie zajmuje zbyt długo (około minuty) dla każdego elementu na liście. Mój problem polega na tym, że lista jest bardzo duża (ponad 3000 pozycji). Patrzę na proces wieloprocesowy, ale myślę, że chcę eksperymentować z przetwarzaniem na wielu serwerach (ponieważ najlepiej, jeśli dane stają się większe, chcę mieć możliwość dodawania kolejnych serwerów podczas pracy, aby działało szybciej) .Sugestie dotyczące dystrybucji danych/kodu Pythona przez węzły robocze?
I w zasadzie patrząc na coś, co mogę dystrybuować tej listy danych poprzez (i nie bardzo potrzebne, ale byłoby miło, gdybym mógł rozprowadzać mój kod bazowy przez to również)
Więc moje pytanie jest, co Pakiet Używam do osiągnięcia tego? Moja baza danych to hbase, więc już mam hadoop uruchomiony (nigdy nie użyłem hadoop, tylko używając go do bazy danych). Spojrzałem też na selera i zakręciłem się, ale jestem zdezorientowany, co pasuje do moich potrzeb.
Wszelkie sugestie?