2015-04-27 10 views
12

Patrzę na tę implementację SARSA-Lambda (np. SARSA ze śladami kwalifikowalności) i jest szczegół, którego wciąż nie dostaję.Ponowne inicjowanie śledzenia uprawnień między odcinkami w implementacji SARSA-Lambda

enter image description here

(Obraz z http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)

Więc rozumiem, że wszystko Q (s, a) są uaktualniane, a nie tylko jeden agent wybrał dla danego kroku czasowego. Rozumiem też, że matryca E nie jest resetowana na początku każdego odcinka.

Załóżmy na chwilę, że panel 3 z rysunku 7.12 był końcowy stan odcinka 1.

Na początku odcinka 2, agent porusza północ zamiast na wschodzie, i załóżmy Daje to nagroda w wysokości -500. Czy nie wpłynie to również na wszystkie stany, które odwiedzono w poprzednim odcinku?

Jeśli pomysł ma nagrodzić te stany, które zostały odwiedzone w bieżącym odcinku, dlaczego na początku każdego epizodu nie jest resetowana matryca zawierająca wszystkie wartości e (s, a)? Wygląda na to, że w przypadku tego stanu wdrożenia, które były odwiedzane w poprzednim odcinku, są "karane" lub "nagradzane" za działania wykonane przez agenta w tym nowym odcinku.

Odpowiedz

15

Zgadzam się z Państwem w 100%. Nieutworzenie e-macierzy na początku każdego odcinka ma dokładnie opisane problemy. O ile wiem, jest to błąd w kodzie pseudokodowym. Cytowany cytat jest bardzo popularny, więc błąd został rozpropagowany do wielu innych odniesień. Jednak this well-cited paper bardzo wyraźnie stwierdza, że ​​e-matryca powinna być ponownie zainicjowany pomiędzy epizodami:

Ślady kwalifikacyjne są inicjowane do zera, aw epizodycznych zadań są ponownie inicjowane do zera po każdym epizodzie.

Jako kolejny dowód, metody this paper:

Ślad, E, jest ustawiony na 0 na początku każdego odcinka.

i przypis nr 3 z this paper:

... ślady kwalifikacyjne zostały wyzerowane na początku każdego procesu.

sugerują, że jest to powszechna praktyka, ponieważ oba odnoszą się do reinicjalizacji między odcinkami. Spodziewam się, że jest o wiele więcej takich przykładów.

W praktyce, wiele zastosowań tego algorytmu nie obejmuje wielu epizodów lub ma tak długie epizody w stosunku do ich szybkości zaniku, że nie jest to problemem. Spodziewam się, że właśnie dlatego nie zostało to jeszcze jednoznacznie wyjaśnione w Internecie.

+0

To ma sens, dzięki! – MrD

Powiązane problemy