6

Jestem finetuning przy użyciu Caffe na zestawie danych obrazu na Tesla K40. Korzystanie z batch size=47, solver_type=SGD, base_lr=0.001, lr_policy="step", momentum=0.9, gamma=0.1 Z training loss spadki i test accuracy idzie z 2%-50% w 100 iteracji, który jest dość dobry.RMSprop, Adam, Dokładność testu AdaDelta nie poprawia się przy użyciu Caffe

Używając innych optymalizatory takich jak RMSPROP, ADAM i ADADELTA The training loss pozostaje prawie taka sama nawet i brak poprawy test accuracy po 1000 iteracji.

Dla RMSPROP, zmieniłem odpowiednie parametry, jak wspomniano here.

Dla ADAM, zmieniłem odpowiednie parametry, jak wspomniano here

Dla ADADELTA, zmieniłem odpowiednie parametry jak wspomniano here

Czy ktoś mógłby mi powiedzieć co robię źle?

+0

Zauważyłem, że należy używać niższych współczynników nauki z solverami innymi niż SGD. Howeber, nie do końca wiem dlaczego. – pir

+0

Ile obniżasz wskaźnik uczenia się w porównaniu do SGD? – VeilEclipse

+1

Jeśli używam tej samej szybkości uczenia się, co w przypadku SGD, algorytm RMSProp rozbiega się, podczas gdy zbiegnie się (z nieznacznie niższym ak niż mój dobrze wyregulowany SGD) z szybkością uczenia się, która wynosi 1/3 oryginału. Jednak może to być bardzo problematyczne. – pir

Odpowiedz

2

Widziałem podobne wyniki do piru: Adam rozdzieliłby się, gdyby otrzymał tę samą wartość base_lr, którą użył SGD. Kiedy zmniejszyłem wartość base_lr do 1/100 pierwotnej wartości, Adam nagle się zbliżył i dał dobre wyniki.

+0

Dziękuję za uwagę. Oznacza to, że jeśli 'base_lr': 1e-3 dla SGD, to' base_lr: 1e-5' dla Adama. Czy jest za mały? – user8264

+0

Zauważyłem, że 1e-4 to wskaźnik dobrej nauki dla Adama. Powinieneś także wypróbować 1e-3 i 1e-5 na swoim zestawie danych, aby sprawdzić, czy osiągniesz dobre wyniki. –

+0

W moim przypadku, lr_rate dla Adama jest dwa razy dłuższy niż SGD. Próbowałem też 50%, 150%, ale 200% lr_rate jest dla mnie najlepsze – user8264

Powiązane problemy