RL — Policy Gradient Explained 2019-05-02 21:12:57 This blog is copied from: https://medium.com/@jonathan_hui/rl-policy-gradients-explained-9b13b688b146 Photo by Alex Read Policy Gradient Methods (PG) are frequently used algorithms in reinforcement l…
一.前言 之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的action,还是根据ε-greedy policy以1-ε的概率选择使得action value 最大的action,action 的选择都离不开action value 的计算).即没有action value的估计值就无法进行action选择,也就没有Policy,这类方法被称为 value-ba…