一文搞懂sarsa和Q-Learning的区别

香菜+

已于 2023-01-03 14:19:37 修改

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： AI深度学习文章标签： pytorch ai 深度学习 RL

于 2023-01-03 09:54:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/perfect2011/article/details/128468668

AI深度学习专栏收录该内容

19 篇文章 ¥99.90 ¥299.90

订阅专栏

本文详细介绍了SARSA和Q-Learning两种强化学习算法，通过概念解析、公式展示以及直观的类比说明它们的区别。Q-Learning侧重选择最大奖励，而SARSA更注重实际执行的动作。同时，文中还提及了SARSA算法的代码实现，帮助读者深入理解算法原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

好久没写这个系列了，主要是最近在忙其他事情，也在看一些其他的闲书，也是荒废了，有点可惜，后面还是得慢慢更新。

1、sarsa是个什么

强化学习的基础算法QLearning 上次写了下，写了一些伪代码，希望可以看的懂，这篇文章继续写一下sarsa，也是基础算法，所以即使不懂也无所谓，别太难为自己。

SARSA(State-Action-Reward-State-Action)是一种基于强化学习的算法，与Q-Learning一样，都是在智体的行为过程中迭代式地学习，但SARSA采用了和Q-Learning不同的迭代策略。

0基础入门强化学习，非程序也能看得懂|Qlearning_香菜+的博客-CSDN博客

1.1 简单说下几个概念

A：行动，也就是行为，比如棋盘中的一次落子

R：奖励，也就是对整个游戏的进程是否有利，有利则为正，不利则为负

S：状态，表示当前当

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

香菜+ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。