Jestem finetuning
przy użyciu Caffe
na zestawie danych obrazu na Tesla K40
. Korzystanie z batch size=47
, solver_type=SGD
, base_lr=0.001
, lr_policy="step"
, momentum=0.9
, gamma=0.1
Z training loss
spadki i test accuracy
idzie z 2%-50%
w 100
iteracji, który jest dość dobry.RMSprop, Adam, Dokładność testu AdaDelta nie poprawia się przy użyciu Caffe
Używając innych optymalizatory takich jak RMSPROP
, ADAM
i ADADELTA
The training loss
pozostaje prawie taka sama nawet i brak poprawy test accuracy
po 1000
iteracji.
Dla RMSPROP
, zmieniłem odpowiednie parametry, jak wspomniano here.
Dla ADAM
, zmieniłem odpowiednie parametry, jak wspomniano here
Dla ADADELTA
, zmieniłem odpowiednie parametry jak wspomniano here
Czy ktoś mógłby mi powiedzieć co robię źle?
Zauważyłem, że należy używać niższych współczynników nauki z solverami innymi niż SGD. Howeber, nie do końca wiem dlaczego. – pir
Ile obniżasz wskaźnik uczenia się w porównaniu do SGD? – VeilEclipse
Jeśli używam tej samej szybkości uczenia się, co w przypadku SGD, algorytm RMSProp rozbiega się, podczas gdy zbiegnie się (z nieznacznie niższym ak niż mój dobrze wyregulowany SGD) z szybkością uczenia się, która wynosi 1/3 oryginału. Jednak może to być bardzo problematyczne. – pir