2013-03-10 13 views
8

uruchamiając przykład Losowy las od http://www.kaggle.com/c/icdar2013-gender-prediction-from-handwriting/data się następujący wiersz:Problematyczne Losowe Las szkolenie czas pracy przy użyciu formuły interfejs

forest_model <- randomForest(as.factor(male) ~ ., data=train, ntree=10000) 

trwa kilka godzin (nie wiem, czy będzie to się kiedyś skończy, ale proces ten nie wydaje się działać) .

Zestaw danych ma 1128 wierszy i ~ 7000 zmiennych.

Czy można oszacować, kiedy zakończy się szkolenie Losowe Lasy? Czy mogę profilować R w jakiś sposób, aby uzyskać więcej informacji?

+0

można uruchomić kilka próbek z 'ntree = 100 'then' ntree = 500' etc ... I ustal, ile czasu zajmuje każdemu komputerowi twoja liczba zmiennych, procesorów (jeśli używasz równolegle), itd., następnie narysuj swoje wyniki i możesz ekstrapolować czas dla 'ntree = 10000' –

+0

jest Losowy czas działania lasu jest liniowy pod względem ilości drzew? – itamarb

Odpowiedz

6

Pomysłem, aby kontrolować zbieżności jest użycie do.trace dla trybu opisowym

iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE, 
+       proximity=TRUE,do.trace=TRUE) 
ntree  OOB  1  2  3 
    1: 8.62% 0.00% 9.52% 15.00% 
    2: 5.49% 0.00% 3.45% 13.79% 
    3: 5.45% 0.00% 5.41% 11.76% 
    4: 4.72% 0.00% 4.88% 9.30% 
    5: 5.11% 0.00% 6.52% 8.89% 
    6: 5.56% 2.08% 6.25% 8.33% 
    7: 4.76% 0.00% 6.12% 8.16% 
    8: 5.41% 0.00% 8.16% 8.16% 
....... 
+0

dzięki! teraz widzę (bardzo powolny) postęp w tworzeniu lasu, kiedy zmniejszam wielkość zmiennych z 7000 do 3500. Jednak dla 7000 zmiennych nadal nie widzę wyjścia. Jakieś dalsze sugestie profilowania? – itamarb

Powiązane problemy