2010-10-27 17 views
16

Czy ktoś próbował zastosować gładszą metrykę oceny przed zastosowaniem metody L w celu określenia liczby klastrów k-średnich w zbiorze danych? Jeśli tak, czy poprawiło to wyniki? Lub zezwolić na mniejszą liczbę prób k-średnich, a więc znacznie większy wzrost prędkości? Z jakiego algorytmu/metody wygładzania korzystałeś?Używanie gładzika metodą L do określania liczby klastrów K-średnich

„L-Metoda” jest szczegółowo w: Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms, Salvador & Chan

ten oblicza metrykę oceny dla wielu różnych liczy klastra próbny. Następnie, aby znaleźć kolano (które występuje dla optymalnej liczby skupień), dwie linie są dopasowywane za pomocą regresji liniowej. Prosty iteracyjny proces jest stosowany w celu poprawy dopasowania kolanowego - wykorzystuje to istniejące obliczenia metryk oceny i nie wymaga żadnych powtórzeń k-średnich.

Dla metryki oceny używam odwrotności uproszczonej wersji indeksu Dunnsa. Uproszczony dla szybkości (w zasadzie uproszczona jest moja średnica i obliczenia między klastrami). Odwrotność jest taka, że ​​indeks działa we właściwym kierunku (tj. Niższy jest ogólnie lepszy).

K-średnich jest algorytmem stochastycznym, więc zwykle jest uruchamiany wiele razy i najlepiej pasuje wybrany. Działa to całkiem dobrze, ale kiedy robisz to dla klastrów 1..N, czas szybko się sumuje. Dlatego w moim interesie jest utrzymanie liczby przebiegów pod kontrolą. Całkowity czas przetwarzania może decydować, czy moja implementacja jest praktyczna, czy nie - mogę zrezygnować z tej funkcji, jeśli nie mogę jej przyspieszyć.

+0

Thinking o tym dalej, nie sądzę, że równomierna (tj. bieżąca średnia) gładsza miałaby znaczący efekt, ponieważ metoda L następnie dopasowuje linie za pomocą najmniejszych kwadratów. Jednak gładszy kształt, taki jak Gaussian, może zachowywać się inaczej. Mam zamiar spróbować wprowadzić Gaussa o umiarkowanych rozmiarach (połowa szerokości około 6-10 wydaje mi się odpowiednia). To będzie test jakościowy. – winwaed

+0

Myślę, że będzie to dobry projekt badawczy o umiarkowanej wielkości. Jeśli są studenci szukający projektu, byłbym zainteresowany współpracą/mentoringiem/współautorem. Taki projekt powinien dokonywać porównań ilościowych i być bardziej ogólny niż moja konkretna aplikacja. Dodam tag projektu do pytania. – winwaed

+0

Mam kilka bardzo trudnych, nienaukowych i jakościowych wyników: Próbowałem filtrów gaussowskich HalfWidthHalfHeight 5 i 3. W obu przypadkach zwiększono szacowaną liczbę klastrów, ale szacowany błąd spadł (wykonałem testy około 8-10 przebiegów z każdą konfiguracją). To są dane z rzeczywistego świata, a wzrost szacunków jest wiarygodny. Sądzę więc, że to wystarcza, aby zagwarantować mini-projekt badawczy z kontrolowanymi danymi i na lepszych warunkach. – winwaed

Odpowiedz

5

Poprosiłem o similar question w przeszłości tutaj na SO. Moje pytanie dotyczyło znalezienia spójnego sposobu na znalezienie kolana w kształcie litery L, który opisałeś. Krzywe te stanowiły kompromis między złożonością a miarą dopasowania modelu.

best solution było znaleźć punkt z maksymalnej odległości d według rysunku pokazano:

alt text

Uwaga: Nie czytałem gazetę jesteś połączony jeszcze ..

+0

Dzięki za odpowiedź. To wydaje się być bardziej geometryczne podejście do papieru, ale nie byłbym zaskoczony, gdyby zmniejszyła się do tego samego (lub bardzo podobne) matematyki. Moje pytanie dotyczyło tego, czy najpierw lepiej było wygładzić dane, i dla bardzo specyficznego zastosowania (punkty danych to pasujące miary dla klastrów o różnym zliczeniu). – winwaed

+0

@Amro: Czy uważasz, że ta technika działa lepiej niż test drugiej pochodnej? Czy przypadkiem nie ma standardowej nazwy tej techniki? – Legend

+0

Metoda L jest tym, co nazywa to papier. Myślę, że mam zbyt dużo hałasu na drugą pochodną, ​​aby dokładnie znaleźć kolano. – winwaed

Powiązane problemy