W nauce Scikita, K-Środki mają n_jobs, ale brakuje MiniBatch K-średnich. MBK jest szybszy niż KMeans, ale w dużych zestawach próbek chcemy dystrybuować przetwarzanie przez wiele procesorów (lub innych bibliotek przetwarzania równoległego).W jaki sposób mogę dystrybuować przetwarzanie kilometrówków (scikit-learn)?
Czy MKB częściowo pasuje do odpowiedzi?
Może być możliwe ogrzanie modelu, aby osiągnąć lokalny minimalny basen, a następnie precyzyjne dostrojenie partycji zestawu danych za pomocą klonów oryginalnego modelu z uśrednieniem od czasu do czasu. Jednak nigdy tego nie próbowałem. – ogrisel
Czy istnieje jakiś szczególny powód, dla którego należy się rozgrzać i nie rozpoczynać od partycji? Jak przeciętnie? Postaraj się znaleźć powiązania między klastrami, a następnie po prostu uśrednić centra? Czy też możesz zacząć dobrze inicjować i oczekiwać, że korespondencja będzie stabilna? –
Jest mało prawdopodobne, że środek ciężkości # 2 modelu # 0 będzie blisko centrum # 2 modelu # 1 ... Rozgrzewka ma umożliwić stabilne dopasowanie centroidów. – ogrisel