2012-05-16 12 views
9

Pracuję nad binarną klasyfikacją danych i chcę poznać zalety i wady korzystania z maszyny wektorów wsparcia na drzewach decyzyjnych i algorytmach Adaptive Boosting.Zalety SVM nad drzewem decion i algorytmem AdaBoost

+1

Dlaczego jest to oznaczane jako Java? –

+0

Ile punktów danych i funkcji posiadasz? głośny, skąpy? Proponuję zacząć od szybkiego linear-SVM [scikit-learn SGDClassifier] (http://scikit-learn.org/stable/modules/sgd.html). – denis

Odpowiedz

14

Coś, co możesz chcieć zrobić, to użyć weka, który jest ładnym pakietem, który możesz wykorzystać do podłączenia danych, a następnie wypróbować kilka różnych klasyfikatorów uczących się maszyn, aby zobaczyć, jak każdy z nich działa na konkretnym zestawie. To dobra ścieżka dla ludzi, którzy uczą się maszynowego.

Nie wiedząc nic o twoich konkretnych danych lub problemie z klasyfikacją, który próbujesz rozwiązać, nie mogę tak naprawdę wyjść poza samo opowiadanie ci przypadkowych rzeczy, które znam o każdej z metod. To powiedziawszy, tutaj jest zrzut mózgu i łączy się z przydatnymi slajdami do nauki maszyn.

Adaptive Boosting wykorzystuje komisję słabych klasyfikatorów podstawowych do głosowania na przydziale klasowego punktu próbnego. Podstawowymi klasyfikatorami mogą być pnie decyzyjne, drzewa decyzyjne, maszyny SVM itp. Wymagane jest podejście iteracyjne. Przy każdej iteracji - jeśli komisja jest zgodna i poprawna w odniesieniu do przydziału klasowego dla konkretnej próby, to traci ważność (mniej ważne, aby uzyskać prawo do następnej iteracji), a jeśli komitet nie zgadza się, to staje się ważone (ważniejsze dla zaklasyfikowania zaraz po kolejnej iteracji). Adaboost jest znany z dobrego uogólniania (nie przeuczania).

SVMs to przydatna pierwsza próba. Dodatkowo można używać różnych jąder z maszynami SVM i uzyskać nie tylko liniowe granice decyzyjne, ale także bardziej funkcjonalne. A jeśli umieścisz na nim regulamin L1 (zmienne luźne), nie tylko zapobiegniesz przeuczeniu, ale także możesz sklasyfikować dane, które nie są rozdzielne.

Decision trees są użyteczne ze względu na ich interpretowalność przez prawie każdego. Są łatwe w użyciu. Używanie drzew oznacza również, że możesz również zorientować się, jak ważna była konkretna funkcja do tworzenia tego drzewa. Coś, co możesz chcieć sprawdzić to drzewa addytywne (takie jak MART).

+1

"jeśli komitet zgadza się co do przydziału klasy dla konkretnej próbki, to traci ważność". To nie jest dokładnie prawda. Jeśli komisja odda go poprawnie (w porównaniu z podstawową etykietą prawdy), wówczas zostanie obniżona. Na odwrót, aby zwiększyć wagę. –

+0

Dobra uwaga. Poprawione w poście. – kitchenette

Powiązane problemy