Próbuję wprowadzić k-means jako zadanie domowe. W moim arkuszu ćwiczeń podaję następującą uwagę dotyczącą pustych ośrodków:k-oznacza pusty klaster
Podczas iteracji, jeśli którykolwiek z centrów klastra nie ma powiązanych z nim punktów danych, należy zastąpić go losowym punktem danych.
Trochę to mnie denerwuje, po pierwsze Wikipedia lub inne źródła, które czytam, w ogóle o tym nie wspominają. W dalszej części przeczytałem o problemie z "wyborem dobrego k dla danych" - jak mój algorytm powinien się zbiegać, gdy zacznę ustawiać nowe centra dla klastra, które były puste.
Jeśli zignoruję puste klastry, zbiegam się po 30-40 iteracjach. Czy błędem jest ignorowanie pustych klastrów?
'najdalszy punkt od największego klastra'" Największy "pod jakim względem? – ttnphns
Zinterpretowałbym to jako największy pod względem liczby elementów - ale możesz też wybrać punkt najdalszy od centrum skupień. – Ketil