昨天收到一个新的订阅通知,很是欣喜,感谢订阅同学的支持。
还以为这个专栏没有人关注了呐,一直也没什么兴趣更新。
为了回馈大家的支持,继续更新一篇。
今天写一下强化学习力的 Policy Gradient,这个之前的时候一直不太懂了,回头看确实蛮简单的。
1、Policy Gradient 到底咋回事
强化学习四要素:状态(state)、动作(action)、策略(policy)、奖励(reward)。
名词 | 解释 |
---|---|
智能体 | 学习器与决策者的角色。 |
环境 | 智能体之外一切组成的、与之交互的事物。 |
动作 | 智能体的行为表征。 |
状态 | 智能体从环境获取的信息。 |
奖励 | 环境对于动作的反馈。 |
策略 | 智能体根据状态进行下一步动作的函数。 |
状态转移概率 | 智能体做出动作后进入下一状态的概率。 |
Policy Gradient 翻译过来就是策略梯度,就是训练策略这个神经网络。
2、损失函数是什么?
Policy Gradien