2013-01-16 14 views
7

wiem formuły obliczania entropii:Obliczanie entropia w drzewo decyzyjne (uczenia maszynowego)

H(Y) = - ∑ (p(yj) * log2(p(yj))) 

w słowach, wybierz atrybut i dla każdego celu wyboru wartości atrybutu wartość ... więc p (yj) jest ułamkiem wzorów w węźle N są w kategorii yj - jeden dla prawdziwej wartości docelowej, a jeden dla fałszywej.

Ale mam zestaw danych, w którym atrybutem docelowym jest cena, a więc zakres. Jak obliczyć entropię dla tego rodzaju zestawu danych?

(określony: http://decisiontrees.net/decision-trees-tutorial/tutorial-5-exercise-2/)

Odpowiedz

6

Najpierw należy discretise dane określone w pewien sposób, jak sortowanie go liczebnie na kilka wiader. Istnieje wiele metod dyskretyzacji, niektóre są nadzorowane (tj. Biorąc pod uwagę wartość funkcji celu), a inne nie. This paper przedstawia różne techniki stosowane w dość ogólnych kategoriach. Aby uzyskać więcej informacji, istnieje wiele algorytmów dyskretyzacji w bibliotekach uczenia maszynowego, takich jak Weka.

Entropia rozkładów ciągłych nosi nazwę differential entropy i można ją również oszacować, zakładając, że dane są rozdzielane w pewien sposób (na przykład normalnie rozprowadzane), a następnie szacując rozkład podpowierzchniowy w normalny sposób i wykorzystując to do obliczenia entropii wartość.

+0

ale jak mogę określić zakresy? Przypuśćmy, że posortowałem dane, jak określić zasięg ... po prostu zgaduję, czy chcę danych binarnych, a następnie tych danych? –

+0

Istnieje wiele metod na to, dodam więcej informacji do odpowiedzi, daj mi sekundę ... –

+0

oops to nie ma sensu .. jeśli atrybuty mają dwie wartości, to binarne ... dzięki @Vic Smith! –

0

Concur with Vic Smith, Discretization to na ogół dobra droga. Z mojego doświadczenia wynika, że ​​większość pozornie ciągłych danych jest faktycznie "nierówna" i niewiele traci.

Jeśli jednak dyskretyzacja jest niepożądana z innych powodów, entropia jest również zdefiniowana dla ciągłych dystrybucji (zobacz wikipedia w ulubionej dystrybucji, np. Http://en.wikipedia.org/wiki/Normal_distribution]).

Jednym z podejść byłoby przyjęcie formy dystrybucji, np. normalny, lognormalny itp. i obliczyć entropię z oszacowanych parametrów. Nie sądzę, aby skale entropii Boltzmanna (ciągłe) i entropii Shannona (dyskretne) były w tej samej skali, więc nie mieszałyby ich.

Powiązane problemy