离线强化学习——CQL（Conservative Q-Learning）算法

爱看烟花的码农

已于 2025-05-03 19:02:28 修改

阅读量1k

点赞数 14

CC 4.0 BY-SA版权

分类专栏： RL 文章标签：算法人工智能离线强化学习 CQL

于 2025-04-25 17:35:33 首次发布

本文链接：https://blog.csdn.net/Rhett_Butler0922/article/details/147517795

1. 强化学习基础

1.1 什么是强化学习？

强化学习（RL）是一种机器学习范式，旨在让 智能体（Agent） 通过与 环境（Environment） 交互，学习如何采取行动以最大化长期累积奖励（Reward）。与监督学习（有明确的输入-输出对）和无监督学习（寻找数据中的模式）不同，强化学习的特点包括：

试错学习：智能体通过尝试不同行动，观察结果，逐步优化策略。
延迟奖励：奖励可能不是立即获得，而是基于长期表现。
动态交互：智能体与环境持续交互，行动会影响环境状态。

例如，训练一个智能体玩电子游戏（如Atari），智能体观察游戏屏幕（状态），选择动作（如“左移”或“跳跃”），环境返回新屏幕和奖励（如得分）。目标是学习一个策略，使智能体在游戏中获得最高分数。

1.2 强化学习的数学框架：MDP

强化学习问题通常建模为马尔可夫决策过程（Markov Decision Process, MDP），其核心组成部分包括：

状态空间 $S\mathcal{S}$ ：描述环境的所有可能状态。例如，游戏中的状态可能是屏幕像素值。
动作空间 $A\mathcal{A}$ ：智能体可采取的所有动作。例如，“左移”、“右移”。
转移概率 $P (s^{'} ∣ s, a)$ ：在状态 $s$ 下采取动作 $a$ ，环境转移到新状态 $s^{'}$ 的概率。
奖励函数 $r (s, a, s^{'})$ ：智能体在状态 $s$ 采取动作 $a$ ，转移到 $s^{'}$ 时获得的即时奖励。
折扣因子 $γ∈[0,1)\gamma \in [0, 1)$ ：用于平衡短期和长期奖励，防止无限累积。

在MDP中，智能体的目标是学习一个策略 $π(a∣s)\pi(a|s)$ ，即在状态 $s$ 下选择动作 $a$ 的概率分布，以最大化长期累积奖励。长期奖励定义为期望折扣回报：
$Gt=rt+γrt+1+γ2rt+2+…G_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \dots$
其中 $r_t$ 是时间步 $t$ 的奖励。

1.3 Q-learning 和价值函数

为找到最优策略，需评估策略的好坏，这通过价值函数实现。常见价值函数包括：

状态价值函数 $Vπ(s)V^\pi(s)$ ：在状态 $s$ 下，遵循策略 $π\pi$ 的期望累积回报。
动作价值函数 $Qπ(s,a)Q^\pi(s, a)$ ：在状态 $s$ 下采取动作 $a$ ，然后遵循策略 $π\pi$ 的期望累积回报。

Q-learning 是一种经典强化学习算法，属于值迭代方法，目标是学习最优Q函数 $Q^*(s, a)$ ，表示在状态 $s$ 下采取动作 $a$ 后，遵循最优策略的期望回报。最优Q函数满足贝尔曼最优方程：
$Q∗(s,a)=Es′∼P(⋅∣s,a)[r(s,a,s′)+γmax⁡a′Q∗(s′,a′)]Q^*(s, a) = \mathbb{E}_{s' \sim P(\cdot|s, a)} \left[ r(s, a, s') + \gamma \max_{a'} Q^*(s', a') \right]$