2012-07-20 12 views

Odpowiedz

14

Nieprzycięte drzewa są większe. Zasadniczo drzewo jest tworzone zgodnie z zaimplementowanym algorytmem i jeśli jest włączone oczyszczanie, dodatkowy krok sprawdza, które węzły/gałęzie można usunąć bez zbytniego wpływu na wydajność.

Ideą przycinania jest to, że oprócz łatwiejszego zrozumienia drzewa, zmniejszasz ryzyko przeuczenia danych treningowych. Oznacza to, że potrafimy idealnie (dokładnie) zaklasyfikować dane treningowe, ale nic więcej, ponieważ zamiast poznawać leżącą u podstaw koncepcję, drzewo nauczyło się właściwości wewnętrznych i specyficznych dla danych treningowych.

+0

Pierwsze zdanie może być błędne. Nieprzetworzone drzewa są * większe *, prawda? – stackoverflowuser2010

+0

Ups, tak, przepraszam. Zmienię to. –

1

Zważywszy, że Weka to pakiet uczenie maszynowe, to brzmi jak co oni na myśli to:

http://en.wikipedia.org/wiki/Pruning_(decision_trees)

W skrócie przycinanie drzewa decyzyjnego wydaje się być usunięcie ewentualnych decyzji, które nie przynoszą wiele korzyści.

Jednak nie użyłem Weka i nie znam tego. Odwróć się do innych odpowiedzi i sprawdź, czy to, co mówią, ma sens.

5

Chciałbym dodać następujące odpowiedzi Larsa. Zaczerpnięte z następujących link

wiele algorytmów próbę „prune” lub uproszczenia, ich wyniki. Przycinanie daje mniej, łatwiej interpretować wyniki. Co ważniejsze, przycinanie może być wykorzystywane jako narzędzie do korygowania potencjalnego przeuczenia. ...

J48 zatrudnia dwie metody przycinania.

Pierwsza z nich jest nazywana wymianą subtree. Oznacza to, że węzły w drzewie decyzyjnym można zastąpić liściem - zasadniczo zmniejszając liczbę testów wzdłuż określonej ścieżki. Proces ten rozpoczyna się od liści w pełni uformowanego drzewa i działa wstecz w kierunku korzenia.

Drugi rodzaj przycinania używany w J48 jest nazywany podciąganiem. W takim przypadku węzeł może zostać przesunięty w górę w kierunku katalogu głównego drzewa, zastępując inne węzły po drodze. Podnoszenie podnośni często ma znikomy wpływ na modele drzew decyzyjnych. Często nie ma jasnego sposobu przewidywania użyteczności opcji, chociaż może być wskazane, aby spróbować wyłączyć, jeśli proces wprowadzania trwa długo. Wynika to z faktu, że podtworzenie może być nieco skomplikowane obliczeniowo.