2017-03-13 10 views
5

Głęboka deterministyczna strategia polityczna (DDPG) to najnowocześniejsza metoda uczenia się zbrojenia, gdy przestrzeń działania jest ciągła. Jego głównym algorytmem jest Deterministic Policy Gradient.Jaka jest przewaga gradientu deterministycznej polityki w stosunku do gradientu polityki stochastycznej?

Jednak po przeczytaniu artykułów i wysłuchaniu przemówienia (http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/) wciąż nie mogę stwierdzić, jaka jest podstawowa zaleta dla deterministycznego PG w stosunku do Stochastycznego PG. Mówi się, że jest bardziej odpowiedni dla działań o wysokiej skali i łatwiejszy do szkolenia, ale dlaczego tak jest?

Odpowiedz

0

Ponieważ polityka jest deterministyczna zamiast stochastycznej, co oznacza, że ​​dla każdego stanu zostanie wybrana tylko jedna czynność.

+0

interpretować to inaczej . ponieważ jest deterministyczny, zawsze wybierze akcję z najwyższym prawdopodobieństwem, np. np.argmax ([x, y, z]. w sieciach stochastycznych, czerpie z rozkładu prawdopodobieństwa, tak że działanie o największym prawdopodobieństwie najprawdopodobniej być wybranym, ale nie zawsze. – vin

2

Głównym powodem zastosowania metody gradientu polityki jest rozwiązanie problemu z przestrzenią działania ciągłego, która jest trudna do uczenia się Q ze względu na globalną maksymalizację Q.

SPG może rozwiązać problem przestrzeni z działaniem ciągłym, ponieważ reprezentuje politykę poprzez ciągły rozkład prawdopodobieństwa. Ponieważ SPG zakłada, że ​​jej polityka ma być dystrybucją, potrzebuje integralności działań, aby uzyskać gradient ogólnej nagrody. SPG zwraca uwagę na znaczenie pobierania próbek w celu przeprowadzenia tej integracji.

DPG reprezentuje politykę poprzez deterministyczne mapowanie od stanu do działania. Może to zrobić, ponieważ nie podejmuje działania największego globalnego Q, ale wybiera akcje zgodnie z deterministycznym odwzorowaniem (jeśli na polisie) podczas zmiany tego deterministycznego odwzorowania przez gradient Q (zarówno zasady włączania i wyłączania). Gradient całkowitej nagrody ma wtedy formę, która nie wymaga całości działań i łatwiej jest ją obliczyć.

Można powiedzieć, że wydaje się być krokiem wstecz, od polityki stochastycznej do deterministycznej polityki. Ale najpierw wprowadzono politykę stochastyczną, aby poradzić sobie tylko z przestrzenią działania ciągłego. Polityka deterministyczna zapewnia teraz inny sposób radzenia sobie z ciągłą przestrzenią działania.

Moja obserwacja jest otrzymywany z tych dokumentów:

Polityka deterministyczne Gradient Algorytmy

Polityka Gradient Metody Żelbet nauki z Zbliżanie Function

Ciągła kontrola z głębokim Reinforcement Learning

+0

Czy masz jakieś odniesienie do tego? – norok2

+1

Otrzymuję obserwację z gazet jako edytowany. –