2009-07-15 12 views
8

Buduję binarne drzewo klasyfikacji przy użyciu mutual information gain jako funkcji dzielenia. Ale ponieważ dane treningowe są przesunięte w stronę kilku klas, wskazane jest, aby waga każdego przykładu treningowego była odwrotnością częstotliwości klasowej.Ważone drzewa decyzyjne za pomocą Entropy

Jak wyważać dane treningowe? Czy przy obliczaniu prawdopodobieństwa oszacowania entropii biorę średnie ważone?

EDYCJA: Chciałbym wyrażenie dla entropii z wag.

+0

Czy odwrotność częstotliwości klasowej nie jest współczynnikiem ważenia? –

+0

Tak, jak wspomniano w pytaniu, "wskazane jest, aby ważyć każdy przykład treningu przez odwrotną częstotliwość klasy." – Jacob

+0

Zakładam, że już wiesz o informacji o Wiki. Więc jaki problem próbujesz rozwiązać? –

Odpowiedz

4

Artykuł o Wikipedii, o którym wspomniałeś, przechodzi do ważenia. Mówi:

ważone wersje
W tradycyjnej receptury wzajemnej informacji,

alt text

każde zdarzenie lub przedmiot określony przez (x, y) jest obciążony przez odpowiednią prawdopodobieństwa p (x, y). Zakłada się, że wszystkie obiekty lub zdarzenia są równoważne niezależnie od prawdopodobieństwa ich wystąpienia. Jednak w niektórych aplikacjach może się zdarzyć, że pewne obiekty lub wydarzenia są bardziej znaczące niż inne, lub że pewne wzorce skojarzeń są ważniejsze semantycznie od innych.

Na przykład deterministyczne mapowanie {(1,1), (2,2), (3,3)} może być postrzegane jako silniejsze (według niektórych standardów) niż deterministyczne odwzorowanie {(1,3), (2,1), (3,2)}, chociaż te relacje przyniosłyby te same wzajemne informacje. Dzieje się tak dlatego, że wzajemne informacje nie są w ogóle wrażliwe na żadne nieodłączne uporządkowanie wartości zmiennych (Cronbach 1954, Coombs & Dawes 1970, Lockhead 1970), a zatem nie są w ogóle wrażliwe na formę odwzorowania relacyjnego między powiązanymi zmiennymi . Jeżeli pożądane jest, że pierwsza relacja - pokazując umowę o wszystkich wartości zmiennych - oceniana silniejsza niż późniejszej relacji, to można użyć następującego ważonej wymiany informacji (Guiasu 1977)

alt text

co stawia w w w (x, y) na prawdopodobieństwo wystąpienia każdego wystąpienia wartości zmiennej, p (x, y). Pozwala to, że pewne prawdopodobieństwa mogą mieć większe lub mniejsze znaczenie niż inne, umożliwiając w ten sposób kwantyfikację odpowiednich czynników holistycznych lub prägnanz. W powyższym przykładzie użycie większych względnych wag dla w (1,1), w (2,2) i w (3,3) skutkowałoby oceną większej informatywności dla relacji {(1,1), (2,2), (3,3)} niż dla relacji {(1,3), (2,1), (3,2)}, które mogą być pożądane w niektórych przypadkach rozpoznawania wzorca, i tym podobne.

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

+0

Tak, zdałem sobie z tego sprawę. Miałem nadzieję na ważoną wersję entropii. Używam różnych szacunków entropii do obliczania wyników podobnych do wzajemnych informacji. – Jacob

Powiązane problemy