Głównym powodem zastosowania metody gradientu polityki jest rozwiązanie problemu z przestrzenią działania ciągłego, która jest trudna do uczenia się Q ze względu na globalną maksymalizację Q.
SPG może rozwiązać problem przestrzeni z działaniem ciągłym, ponieważ reprezentuje politykę poprzez ciągły rozkład prawdopodobieństwa. Ponieważ SPG zakłada, że jej polityka ma być dystrybucją, potrzebuje integralności działań, aby uzyskać gradient ogólnej nagrody. SPG zwraca uwagę na znaczenie pobierania próbek w celu przeprowadzenia tej integracji.
DPG reprezentuje politykę poprzez deterministyczne mapowanie od stanu do działania. Może to zrobić, ponieważ nie podejmuje działania największego globalnego Q, ale wybiera akcje zgodnie z deterministycznym odwzorowaniem (jeśli na polisie) podczas zmiany tego deterministycznego odwzorowania przez gradient Q (zarówno zasady włączania i wyłączania). Gradient całkowitej nagrody ma wtedy formę, która nie wymaga całości działań i łatwiej jest ją obliczyć.
Można powiedzieć, że wydaje się być krokiem wstecz, od polityki stochastycznej do deterministycznej polityki. Ale najpierw wprowadzono politykę stochastyczną, aby poradzić sobie tylko z przestrzenią działania ciągłego. Polityka deterministyczna zapewnia teraz inny sposób radzenia sobie z ciągłą przestrzenią działania.
Moja obserwacja jest otrzymywany z tych dokumentów:
Polityka deterministyczne Gradient Algorytmy
Polityka Gradient Metody Żelbet nauki z Zbliżanie Function
Ciągła kontrola z głębokim Reinforcement Learning
interpretować to inaczej . ponieważ jest deterministyczny, zawsze wybierze akcję z najwyższym prawdopodobieństwem, np. np.argmax ([x, y, z]. w sieciach stochastycznych, czerpie z rozkładu prawdopodobieństwa, tak że działanie o największym prawdopodobieństwie najprawdopodobniej być wybranym, ale nie zawsze. – vin