强化学习基础之概念介绍

什么是强化学习

广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。强化学习用智能体(agent)这个概念来表示做决策的机器。
类似于人的成长过程,我们每次做决定,都会得到社会给我们的反馈让我们尝到甜头或者吃尽苦头,下一次遇到这种情况,我们就会选择更好的动作来得到更好的奖励了。

强化学习要素

强化学习智能体三要素:
1.当前状态St:如机器人所处的地点、运动速度等状态属性。
2. 奖励:环境根据St和智能体采取的At,产生一个标量信号作为奖励Rt
3. 策略:是智能体的核心,能够通过某种算法决定在状态St下,采用哪种动作At能更好地达到目标(这里的目标是最大化奖励)
需要注意的是,在采取动作At后,环境会被改变,反馈给智能体一个奖励,此时智能体的策略会被更新,并且智能体的状态St也会改变为St+1,因此在强化学习的训练过程中,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
示意图如下所示:
在这里插入图片描述
一般的有监督学习任务,我们的目标是找到一个最优的模型函数,使其在训练数据集上最小化一个给定的损失函数,其数学定义式可如下图表示:
在这里插入图片描述

相比之下,强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。策略的价值可以等价转换成奖励函数在策略的占用度量上的期望,其数学定义式可如下图表示:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱你是长久之计~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值