Moja pierwsza reakcja na to pytanie było to, że nie wykazują wiele badań wysiłku, ponieważ "wszyscy" wiedzą, że losowe lasy nie radzą sobie z brakującymi wartościami w predyktorach. Ale po sprawdzeniu ?randomForest
muszę przyznać, że może to być o wiele bardziej jednoznaczne.
(Chociaż, Breiman na PDF związana w dokumentacji wynika jasno powiedzieć, że brakujące wartości są po prostu nie obsługiwane w ogóle).
Jedyną oczywistą wskazówką w oficjalnej dokumentacji, że mogłem zobaczyć, że wartość domyślną Parametr na.action
to na.fail
, który może być zbyt tajemniczy dla nowych użytkowników.
W każdym razie, jeśli predyktorami mają brakujących wartości, masz (zasadniczo) dwa wybory:
- użyć innego narzędzia (
rpart
uchwyty brakujących wartości ładnie.)
- przypisać brakujące wartości
Nie jest niespodzianką, że pakiet randomForest
ma do tego funkcję, rfImpute
. Dokumentacja pod numerem ?rfImpute
przebiega przez podstawowy przykład jego użycia.
Jeśli tylko niewielka liczba przypadków zawiera brakujące wartości, można również spróbować ustawić na.action = na.omit
, aby po prostu upuścić te przypadki.
I oczywiście, ta odpowiedź jest tylko odrobiną przypuszczenia, że twoim problemem jest po prostu brakujące wartości.
W obecnym stanie na to pytanie bardzo trudno odpowiedzieć. Czy możesz zaktualizować swoje pytanie kilkoma przykładowymi danymi? – Chase
@ MattO'Brien Zabawne, że jakość pytania jest dyskutowana w oparciu o liczbę wyświetleń, a nie na zalety samego pytania. I odpowiedź, ponieważ @ Joran nie miał problemu z ustaleniem, o co chodzi i pod warunkiem, że wydaje się dobrym rozwiązaniem problemu osoby pytającej. – user7610