离线强化学习——CQL(Conservative Q-Learning)算法

1. 强化学习基础

1.1 什么是强化学习?

强化学习(RL)是一种机器学习范式,旨在让 智能体(Agent) 通过与 环境(Environment) 交互,学习如何采取行动以最大化长期累积奖励(Reward)。与监督学习(有明确的输入-输出对)和无监督学习(寻找数据中的模式)不同,强化学习的特点包括:

  • 试错学习:智能体通过尝试不同行动,观察结果,逐步优化策略。
  • 延迟奖励:奖励可能不是立即获得,而是基于长期表现。
  • 动态交互:智能体与环境持续交互,行动会影响环境状态。

例如,训练一个智能体玩电子游戏(如Atari),智能体观察游戏屏幕(状态),选择动作(如“左移”或“跳跃”),环境返回新屏幕和奖励(如得分)。目标是学习一个策略,使智能体在游戏中获得最高分数。

1.2 强化学习的数学框架:MDP

强化学习问题通常建模为马尔可夫决策过程(Markov Decision Process, MDP),其核心组成部分包括:

  • 状态空间 S\mathcal{S}S:描述环境的所有可能状态。例如,游戏中的状态可能是屏幕像素值。
  • 动作空间 A\mathcal{A}A:智能体可采取的所有动作。例如,“左移”、“右移”。
  • 转移概率 P(s′∣s,a)P(s' | s, a)P(ss,a):在状态 sss 下采取动作 aaa,环境转移到新状态 s′s's 的概率。
  • 奖励函数 r(s,a,s′)r(s, a, s')r(s,a,s):智能体在状态 sss 采取动作 aaa,转移到 s′s's 时获得的即时奖励。
  • 折扣因子 γ∈[0,1)\gamma \in [0, 1)γ[0,1):用于平衡短期和长期奖励,防止无限累积。

在MDP中,智能体的目标是学习一个策略 π(a∣s)\pi(a|s)π(as),即在状态 sss 下选择动作 aaa 的概率分布,以最大化长期累积奖励。长期奖励定义为期望折扣回报
Gt=rt+γrt+1+γ2rt+2+…G_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \dotsGt=rt+γrt+1+γ2rt+2+
其中 rtr_trt 是时间步 ttt 的奖励。

1.3 Q-learning 和价值函数

为找到最优策略,需评估策略的好坏,这通过价值函数实现。常见价值函数包括:

  • 状态价值函数 Vπ(s)V^\pi(s)Vπ(s):在状态 sss 下,遵循策略 π\piπ 的期望累积回报。
  • 动作价值函数 Qπ(s,a)Q^\pi(s, a)Qπ(s,a):在状态 sss 下采取动作 aaa,然后遵循策略 π\piπ 的期望累积回报。

Q-learning 是一种经典强化学习算法,属于值迭代方法,目标是学习最优Q函数 Q∗(s,a)Q^*(s, a)Q(s,a),表示在状态 sss 下采取动作 aaa 后,遵循最优策略的期望回报。最优Q函数满足贝尔曼最优方程
Q∗(s,a)=Es′∼P(⋅∣s,a)[r(s,a,s′)+γmax⁡a′Q∗(s′,a′)]Q^*(s, a) = \mathbb{E}_{s' \sim P(\cdot|s, a)} \left[ r(s, a, s') + \gamma \max_{a'} Q^*(s', a') \right]Q(s,a)=EsP(s,a)[r(s,a,s)+γmaxa

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值