Jaka jest przewaga gradientu deterministycznej polityki w stosunku do gradientu polityki stochastycznej?

Głęboka deterministyczna strategia polityczna (DDPG) to najnowocześniejsza metoda uczenia się zbrojenia, gdy przestrzeń działania jest ciągła. Jego głównym algorytmem jest Deterministic Policy Gradient.Jaka jest przewaga gradientu deterministycznej polityki w stosunku do gradientu polityki stochastycznej?

Jednak po przeczytaniu artykułów i wysłuchaniu przemówienia (http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/) wciąż nie mogę stwierdzić, jaka jest podstawowa zaleta dla deterministycznego PG w stosunku do Stochastycznego PG. Mówi się, że jest bardziej odpowiedni dla działań o wysokiej skali i łatwiejszy do szkolenia, ale dlaczego tak jest?

Źródło

2017-03-13 DarkZero

Ponieważ polityka jest deterministyczna zamiast stochastycznej, co oznacza, że dla każdego stanu zostanie wybrana tylko jedna czynność.

Źródło

2017-07-26 10:17:13 Vortex

interpretować to inaczej . ponieważ jest deterministyczny, zawsze wybierze akcję z najwyższym prawdopodobieństwem, np. np.argmax ([x, y, z]. w sieciach stochastycznych, czerpie z rozkładu prawdopodobieństwa, tak że działanie o największym prawdopodobieństwie najprawdopodobniej być wybranym, ale nie zawsze. – vin

Głównym powodem zastosowania metody gradientu polityki jest rozwiązanie problemu z przestrzenią działania ciągłego, która jest trudna do uczenia się Q ze względu na globalną maksymalizację Q.

SPG może rozwiązać problem przestrzeni z działaniem ciągłym, ponieważ reprezentuje politykę poprzez ciągły rozkład prawdopodobieństwa. Ponieważ SPG zakłada, że jej polityka ma być dystrybucją, potrzebuje integralności działań, aby uzyskać gradient ogólnej nagrody. SPG zwraca uwagę na znaczenie pobierania próbek w celu przeprowadzenia tej integracji.

DPG reprezentuje politykę poprzez deterministyczne mapowanie od stanu do działania. Może to zrobić, ponieważ nie podejmuje działania największego globalnego Q, ale wybiera akcje zgodnie z deterministycznym odwzorowaniem (jeśli na polisie) podczas zmiany tego deterministycznego odwzorowania przez gradient Q (zarówno zasady włączania i wyłączania). Gradient całkowitej nagrody ma wtedy formę, która nie wymaga całości działań i łatwiej jest ją obliczyć.

Można powiedzieć, że wydaje się być krokiem wstecz, od polityki stochastycznej do deterministycznej polityki. Ale najpierw wprowadzono politykę stochastyczną, aby poradzić sobie tylko z przestrzenią działania ciągłego. Polityka deterministyczna zapewnia teraz inny sposób radzenia sobie z ciągłą przestrzenią działania.

Moja obserwacja jest otrzymywany z tych dokumentów:

Polityka deterministyczne Gradient Algorytmy

Polityka Gradient Metody Żelbet nauki z Zbliżanie Function

Ciągła kontrola z głębokim Reinforcement Learning

Źródło

2017-09-21 16:20:24

Czy masz jakieś odniesienie do tego? – norok2

Otrzymuję obserwację z gazet jako edytowany. –

Jaka jest przewaga gradientu deterministycznej polityki w stosunku do gradientu polityki stochastycznej?

Odpowiedz

Powiązane problemy