好久没写这个系列了,主要是最近在忙其他事情,也在看一些其他的闲书,也是荒废了,有点可惜,后面还是得慢慢更新。
1、sarsa是个什么
强化学习的基础算法QLearning 上次写了下,写了一些伪代码,希望可以看的懂,这篇文章继续写一下sarsa,也是基础算法,所以即使不懂也无所谓,别太难为自己。
SARSA(State-Action-Reward-State-Action)是一种基于强化学习的算法,与Q-Learning一样,都是在智体的行为过程中迭代式地学习,但SARSA采用了和Q-Learning不同的迭代策略。
0基础入门强化学习,非程序也能看得懂|Qlearning_香菜+的博客-CSDN博客
1.1 简单说下几个概念
A:行动,也就是行为,比如棋盘中的一次落子
R:奖励,也就是对整个游戏的进程是否有利,有利则为正,不利则为负
S:状态,表示当前当