9

Istnieją trzy sposoby pomiaru zanieczyszczenia:Decyzja Drzewo Nauka i nieczystości

Entropy

Gini Index

Classification Error

Jakie są różnice i odpowiednie przypadki użycia dla każdej metody?

+1

Nieczystość czego? – Davidann

+2

@David: Zobacz tutaj: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity i tutaj: http://people.revoledu.com/kardi/tutorial/DecisionTree/how-to-measure-impurity.htm –

Odpowiedz

5

Jeśli p_i są bardzo małe, to robi mnożenia na bardzo małych numerów (indeks Giniego) może prowadzić do zaokrąglania błąd. Z tego powodu lepiej jest dodać dzienniki (Entropy). Błąd klasyfikacji, zgodnie z definicją, zapewnia szacunkową wartość brutto, ponieważ do obliczenia jej wartości używa on największego pojedynczego p_i.

+0

Nie widzę, jak można by te problemy w dzieleniu węzła ... Losowe klasyfikatory lasu używają nieczystości Gini i zostały zgłoszone, że mają większą dokładność niż większość innych klasyfikatorów opartych na drzewach. – Benjamin

+2

@Benjamin: Nic nie widzę w pytaniu dotyczącym podziału węzła. – Davidann

2

Znalazłem this description of impurity measures, aby było całkiem przydatne. Jeśli nie wdrażasz od zera, większość istniejących implementacji używa pojedynczej, z góry określonej miary zanieczyszczenia. Zauważ też, że indeks Giniego nie jest bezpośrednią miarą nieczystości, a nie jego pierwotnym sformułowaniem, i że istnieje znacznie więcej niż to, co wymieniasz powyżej.

Nie jestem pewien, czy rozumiem obawy dotyczące małych liczb i miary zanieczyszczenia Gini ... Nie mogę sobie wyobrazić, jak to by się stało, dzieląc węzeł.

0

Widziałem różne wysiłki w zakresie nieformalnych wskazówek na ten temat, począwszy od "jeśli użyjesz jednej ze zwykłych metryk, tam nie będzie dużej różnicy", do znacznie bardziej konkretnych zaleceń. W rzeczywistości jedynym sposobem, aby dowiedzieć się, z pewnością, który środek działa najlepiej jest wypróbować wszystkich kandydatów.

W każdym razie, tu jest jakiś perspektywiczny z Salford Systems (sprzedawca CART):

Do Splitting Rules Really Matter?

3

Różnica między entropii i innych środków zanieczyszczających, aw rzeczywistości często różnicy między informacjami teoretycznych podejść do uczenia maszynowego i inne podejścia, jest to, że matematycznie udowodniono, że entropia przechwytuje pojęcie "informacji". Istnieje wiele twierdzeń klasyfikacyjnych (twierdzenia, które dowodzą, że dana funkcja lub obiekt matematyczny jest jedynym obiektem spełniającym zbiór kryteriów) dla miar entropowych formalizujących argumenty filozoficzne uzasadniające ich znaczenie jako miary "informacji".

Porównaj to z innymi podejściami (zwłaszcza metodami statystycznymi), które zostały wybrane nie ze względu na ich filozoficzne uzasadnienie, ale przede wszystkim ze względu na ich empiryczne uzasadnienie - to znaczy, że wydają się dobrze wykonywać eksperymenty. Powodem, dla którego osiągają dobre wyniki, jest to, że zawierają dodatkowe założenia, które mogą się zdarzyć w momencie eksperymentu.

W praktyce oznacza to, że miara entropijna (A) nie może być przepełniona, gdy jest używana prawidłowo, ponieważ są one wolne od jakichkolwiek założeń dotyczących danych, (B) są bardziej skuteczne niż losowe, ponieważ generalizują zbiór danych, ale (C) wydajność dla określonych zestawów danych może nie być tak dobra, jak miara przyjmująca założenia.

Decydując, które środki zastosować w uczeniu maszynowym, często sprowadzają się do długoterminowych lub krótkoterminowych korzyści i łatwości konserwacji. Pomiary entropii często działają długoterminowo przez (A) i (B), a jeśli coś pójdzie nie tak, łatwiej jest wyśledzić i wyjaśnić, dlaczego (np. Błąd w uzyskaniu danych treningowych).Inne podejścia, według (C), mogą przynieść krótkoterminowe korzyści, ale jeśli przestaną działać, może być bardzo trudno je rozróżnić, np. Błąd w infrastrukturze z prawdziwą zmianą danych, w których założenia już nie istnieją.

Klasycznym przykładem, w którym modele nagle przestały działać, jest globalny kryzys finansowy. Bankierzy, którym przyznawano premie za krótkoterminowe zyski, więc pisali modele statystyczne, które byłyby dobre w krótkim czasie iw dużym stopniu ignorowane modele teoretyczne informacji.