1. 强化学习基础
1.1 什么是强化学习?
强化学习(RL)是一种机器学习范式,旨在让 智能体(Agent) 通过与 环境(Environment) 交互,学习如何采取行动以最大化长期累积奖励(Reward)。与监督学习(有明确的输入-输出对)和无监督学习(寻找数据中的模式)不同,强化学习的特点包括:
- 试错学习:智能体通过尝试不同行动,观察结果,逐步优化策略。
- 延迟奖励:奖励可能不是立即获得,而是基于长期表现。
- 动态交互:智能体与环境持续交互,行动会影响环境状态。
例如,训练一个智能体玩电子游戏(如Atari),智能体观察游戏屏幕(状态),选择动作(如“左移”或“跳跃”),环境返回新屏幕和奖励(如得分)。目标是学习一个策略,使智能体在游戏中获得最高分数。
1.2 强化学习的数学框架:MDP
强化学习问题通常建模为马尔可夫决策过程(Markov Decision Process, MDP),其核心组成部分包括:
- 状态空间 S\mathcal{S}S:描述环境的所有可能状态。例如,游戏中的状态可能是屏幕像素值。
- 动作空间 A\mathcal{A}A:智能体可采取的所有动作。例如,“左移”、“右移”。
- 转移概率 P(s′∣s,a)P(s' | s, a)P(s′∣s,a):在状态 sss 下采取动作 aaa,环境转移到新状态 s′s's′ 的概率。
- 奖励函数 r(s,a,s′)r(s, a, s')r(s,a,s′):智能体在状态 sss 采取动作 aaa,转移到 s′s's′ 时获得的即时奖励。
- 折扣因子 γ∈[0,1)\gamma \in [0, 1)γ∈[0,1):用于平衡短期和长期奖励,防止无限累积。
在MDP中,智能体的目标是学习一个策略 π(a∣s)\pi(a|s)π(a∣s),即在状态 sss 下选择动作 aaa 的概率分布,以最大化长期累积奖励。长期奖励定义为期望折扣回报:
Gt=rt+γrt+1+γ2rt+2+…G_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \dotsGt=rt+γrt+1+γ2rt+2+…
其中 rtr_trt 是时间步 ttt 的奖励。
1.3 Q-learning 和价值函数
为找到最优策略,需评估策略的好坏,这通过价值函数实现。常见价值函数包括:
- 状态价值函数 Vπ(s)V^\pi(s)Vπ(s):在状态 sss 下,遵循策略 π\piπ 的期望累积回报。
- 动作价值函数 Qπ(s,a)Q^\pi(s, a)Qπ(s,a):在状态 sss 下采取动作 aaa,然后遵循策略 π\piπ 的期望累积回报。
Q-learning 是一种经典强化学习算法,属于值迭代方法,目标是学习最优Q函数 Q∗(s,a)Q^*(s, a)Q∗(s,a),表示在状态 sss 下采取动作 aaa 后,遵循最优策略的期望回报。最优Q函数满足贝尔曼最优方程:
Q∗(s,a)=Es′∼P(⋅∣s,a)[r(s,a,s′)+γmaxa′Q∗(s′,a′)]Q^*(s, a) = \mathbb{E}_{s' \sim P(\cdot|s, a)} \left[ r(s, a, s') + \gamma \max_{a'} Q^*(s', a') \right]Q∗(s,a)=Es′∼P(⋅∣s,a)[r(s,a,s′)+γmaxa′