Problematyczne Losowe Las szkolenie czas pracy przy użyciu formuły interfejs

uruchamiając przykład Losowy las od http://www.kaggle.com/c/icdar2013-gender-prediction-from-handwriting/data się następujący wiersz:Problematyczne Losowe Las szkolenie czas pracy przy użyciu formuły interfejs

forest_model <- randomForest(as.factor(male) ~ ., data=train, ntree=10000)

trwa kilka godzin (nie wiem, czy będzie to się kiedyś skończy, ale proces ten nie wydaje się działać) .

Zestaw danych ma 1128 wierszy i ~ 7000 zmiennych.

Czy można oszacować, kiedy zakończy się szkolenie Losowe Lasy? Czy mogę profilować R w jakiś sposób, aby uzyskać więcej informacji?

Źródło

2013-03-10 itamarb

można uruchomić kilka próbek z 'ntree = 100 'then' ntree = 500' etc ... I ustal, ile czasu zajmuje każdemu komputerowi twoja liczba zmiennych, procesorów (jeśli używasz równolegle), itd., następnie narysuj swoje wyniki i możesz ekstrapolować czas dla 'ntree = 10000' –

jest Losowy czas działania lasu jest liniowy pod względem ilości drzew? – itamarb

Pomysłem, aby kontrolować zbieżności jest użycie do.trace dla trybu opisowym

iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE, 
+       proximity=TRUE,do.trace=TRUE) 
ntree  OOB  1  2  3 
    1: 8.62% 0.00% 9.52% 15.00% 
    2: 5.49% 0.00% 3.45% 13.79% 
    3: 5.45% 0.00% 5.41% 11.76% 
    4: 4.72% 0.00% 4.88% 9.30% 
    5: 5.11% 0.00% 6.52% 8.89% 
    6: 5.56% 2.08% 6.25% 8.33% 
    7: 4.76% 0.00% 6.12% 8.16% 
    8: 5.41% 0.00% 8.16% 8.16% 
.......

Źródło

2013-03-10 12:12:00 agstudy

dzięki! teraz widzę (bardzo powolny) postęp w tworzeniu lasu, kiedy zmniejszam wielkość zmiennych z 7000 do 3500. Jednak dla 7000 zmiennych nadal nie widzę wyjścia. Jakieś dalsze sugestie profilowania? – itamarb

Znaleziono problemu, według wzoru w lasy losowe utworzył ogromne obniżenie wydajności.

Więcej na ten temat i jak oszacować losowy las czasu pracy można znaleźć w: https://stats.stackexchange.com/questions/37370/random-forest-computing-time-in-r i w http://www.gregorypark.org/?p=286

Oto kod końcowy:

forest_model <- randomForest(y=train$male, x=train[,-2], ntree=10000,do.trace=T)

Źródło

2013-03-10 13:58:11 itamarb

Problematyczne Losowe Las szkolenie czas pracy przy użyciu formuły interfejs

Odpowiedz

Powiązane problemy