强化学习：基本概念及其与监督学习的差异

PDF文件

下载需积分: 0 | 1.76MB | 更新于2024-01-04 | 133 浏览量 | 举报收藏

立即下载

强化学习是一种与复杂、不确定的环境进行交互时，最大化从环境获得的累计奖励的方法。这个概念的起源可以追溯到动物学习背景下，Thorndike在表达效力定律后，首次使用了“强化”这个术语。在1927年，巴甫洛夫关于条件反射的专著的英文译本中，首次将强化描述为由于动物接受刺激与另一种刺激或反应有适当的时间关系而加强行为模式。一些心理学家将强化的观点扩展到包括削弱和加强行为，并扩展强化者的想法，包括可能忽略或终止刺激。为了被认为是增强剂，强化或弱化必须在强化剂被撤回后持续存在；仅仅吸引动物注意力或刺激其行为而不产生持久变化的刺激物不会被视为强化物。强化学习的基本概念涉及与环境进行交互以最大化累计奖励。与监督学习相比，强化学习的一个重要区别在于输入的数据不是独立同分布的，而是时序的数据。在强化学习中，学习者并不知道应该采取哪些行动，而是必须发现哪些行动会产生最大的奖励。这使得强化学习更加具有挑战性，因为学习者需要通过尝试和错误来发现最佳的行动路径。强化学习有着广泛的应用领域，包括人工智能、控制系统、经济学等。在人工智能领域，强化学习被用于训练智能体来执行复杂的任务，如自动驾驶、游戏玩法等。控制系统中，强化学习可以用来优化控制策略，以实现最佳的性能指标。在经济学中，强化学习可以用来模拟人类的决策过程，以评估不同政策的影响和结果。尽管强化学习有着广泛的应用前景，但也面临着一些挑战和限制。其中一个挑战是如何处理探索（exploration）和利用（exploitation）的平衡。在强化学习中，学习者需要在尝试新的行动和选择已知的高奖励行动之间进行权衡，以最大化累计奖励。另一个挑战是如何处理与环境交互时的不确定性和噪声。环境中可能存在各种复杂的因素和随机性，这需要学习者能够适应和应对不确定性，以实现稳健的学习和行动。总的来说，强化学习是一种重要的学习方法，可以在复杂、不确定的环境中实现最优行动和决策。它的基本概念和技术被广泛应用于不同领域，为解决现实世界中的复杂问题提供了一种有效的方法。然而，强化学习也面临着挑战和限制，需要不断的研究和创新来进一步完善和发展。随着人工智能和自动化技术的快速发展，强化学习将继续发挥重要作用，并成为推动科学和技术进步的重要力量。

Observation：智能体观察到的东西，比如说直升机当前的位置和速度。

Environment：环境。有的书里面会花很多篇幅去区分智能体和环境，去纠结哪个是属于智能

体，哪个是属于环境，我觉得对于像我这样的初学者来说，不用过度纠结，你就把智能体想象成自

己，把除你自己以外的所有东西都想象成环境。

Trajectory：轨迹，可以理解成智能体从开始到结束是怎么一步一步过来的。

Rollout: rollout在字典中的意思是：首次展示，滑跑。在强化学习中大家就可以理解成一次实

验、一条轨迹。

Value function （expected discounted sum of future rewards under a particular policy , we

use it to quantify goodness/badness of states（这里的有多好是用未来预期的收益来定义

的），可以简单地理解为价值函数就是来判断状态的好坏。

for all

Model: A model predicts what the environment will do next。注意这里的model不是我们最终

学出来的做决策的模型，而是当前状态S和动作A到下一个动作S‘的映射的模型，也就是告诉你现在

如果你这么干你会得到什么后果的模型。

Predict the next state:

Predict the next reward:

model-based 和model-free的差别就是知不知道状态转移矩阵和reward

Q-function (could be used to select among actions):

Q函数其实是对（S，A）对的一个评价，也就是说从长期的角度来看（reward是短期），你在当

前状态做某一个动作到底有多好。所以如果我们知道了Q函数，其实就知道了在每一步到底应该怎

么做了，最简单的就是取agmax选Q函数最大的动作，根据贝尔曼方程，我们如果知道V函数，我

们可以求出Q函数，所以大家会看到说，我们如果知道了Q函数或者V函数，这个强化学习问题就

是可解的。

history是一个action、observation、reward的序列：

history能够决定action接下来采取什么行动；实际上，agent做的就是从history到action的映射；

对于环境而言，输入history和智能体产生的action，输出对应的observation和reward。

State：是history的一个总结，用来决定下一步的action是什么，实际上，他是一个关于history的

函数，我们可以这样表示：

State相对于history而言最大的好处在于他的信息量很少，实际上，我们也不需要得到所有的

history来得到下一步的action。

在这里想讲一下state和observation的区别，也就是大家有时候会看到，有时候看到

，这两个其实是存在区别的，用Sergey Levine来说就是，States are the true

configuration of the system and an observation is something that results from that state

which may or may not be enough to deduce the state. State 反映了系统的真实的信息，

observation是state表现出来的结果，并不能完全反映出state中的信息。举个例子，有一只老虎在我

们的面前，老虎在哪，速度多少这些就算是state，而我们观察的时候，这只老虎刚好被一棵树挡住了，

也就是说我们的observation是一张被树挡住的老虎的照片，那么我们仅仅根据observation（照片）是

不能决定我们现在要不要赶紧跑的。而这其实也说明了当state满足马尔科夫性的时候，observation

是不一定满足的，也就是我们不能根据当前的这张照片来判断我们是不是该不该跑，但是结合之前的一

些照片比如老虎一步步潜伏到树底下的照片，我们就可以知道，该跑了！

用下面这张图可以帮助比较好地理解Observation和State之间的关系：

剩余15页未读，继续阅读

禁忌的爱

粉丝: 21

强化学习：基本概念及其与监督学习的差异

1、强化学习入门1

强化学习：强化学习：简介

强化学习的基本概念与算法

第12章--强化学习（+）.pptx

强化学习-第一章.pptx

教育心理学第三章-学习的基本理论培训讲学.pdf

毕业设计-中英文翻译-《强化学习》-第三章

强化学习从基础到进阶-案例与实践含码源-强化学习全系列超详细算法码源齐全.zip

西南交通大学-桥梁工程概论-01-第一章-绪论

深入浅出强化学习原理入门-第二章作业-迷宫

最新资源