uruchamiając przykład Losowy las od http://www.kaggle.com/c/icdar2013-gender-prediction-from-handwriting/data się następujący wiersz:Problematyczne Losowe Las szkolenie czas pracy przy użyciu formuły interfejs
forest_model <- randomForest(as.factor(male) ~ ., data=train, ntree=10000)
trwa kilka godzin (nie wiem, czy będzie to się kiedyś skończy, ale proces ten nie wydaje się działać) .
Zestaw danych ma 1128 wierszy i ~ 7000 zmiennych.
Czy można oszacować, kiedy zakończy się szkolenie Losowe Lasy? Czy mogę profilować R w jakiś sposób, aby uzyskać więcej informacji?
można uruchomić kilka próbek z 'ntree = 100 'then' ntree = 500' etc ... I ustal, ile czasu zajmuje każdemu komputerowi twoja liczba zmiennych, procesorów (jeśli używasz równolegle), itd., następnie narysuj swoje wyniki i możesz ekstrapolować czas dla 'ntree = 10000' –
jest Losowy czas działania lasu jest liniowy pod względem ilości drzew? – itamarb