W jaki sposób mogę dystrybuować przetwarzanie kilometrówków (scikit-learn)?

W nauce Scikita, K-Środki mają n_jobs, ale brakuje MiniBatch K-średnich. MBK jest szybszy niż KMeans, ale w dużych zestawach próbek chcemy dystrybuować przetwarzanie przez wiele procesorów (lub innych bibliotek przetwarzania równoległego).W jaki sposób mogę dystrybuować przetwarzanie kilometrówków (scikit-learn)?

Czy MKB częściowo pasuje do odpowiedzi?

Źródło

2013-06-11 Phyo Arkar Lwin

Nie sądzę, że to możliwe. Możesz zaimplementować coś z OpenMP w przetwarzaniu minibatch. Nie znam żadnych równoległych procedur k-średnich. Parallizowanie procedur stochastycznego gradientu jest nieco owłosione.

Btw, parametr n_jobs w KMeans dystrybuuje tylko różne losowe inicjalizacje afaik.

Źródło

2013-06-12 15:55:15

Może być możliwe ogrzanie modelu, aby osiągnąć lokalny minimalny basen, a następnie precyzyjne dostrojenie partycji zestawu danych za pomocą klonów oryginalnego modelu z uśrednieniem od czasu do czasu. Jednak nigdy tego nie próbowałem. – ogrisel

Czy istnieje jakiś szczególny powód, dla którego należy się rozgrzać i nie rozpoczynać od partycji? Jak przeciętnie? Postaraj się znaleźć powiązania między klastrami, a następnie po prostu uśrednić centra? Czy też możesz zacząć dobrze inicjować i oczekiwać, że korespondencja będzie stabilna? –

Jest mało prawdopodobne, że środek ciężkości # 2 modelu # 0 będzie blisko centrum # 2 modelu # 1 ... Rozgrzewka ma umożliwić stabilne dopasowanie centroidów. – ogrisel

W jaki sposób mogę dystrybuować przetwarzanie kilometrówków (scikit-learn)?

Odpowiedz

Powiązane problemy