
强化学习入门
文章平均质量分 91
自动驾驶小白说
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【强化学习入门笔记】3.3 Actor-Critic方法: QAC,A2C
Advantage actor-critic在QAC的基础上, 在策略梯度中添加了一个标量函数bSb(S)bS, 来减少估计方差.ES∼ηA∼π∇θlnπA∣SθtqπSAES∼ηA∼π∇θlnπA∣SθtqπSA−bSES∼ηA∼π∇θlnπA∣SθtqπSAES∼ηA∼π∇θlnπA∣Sθtqπ。原创 2025-02-18 22:07:52 · 988 阅读 · 0 评论 -
【强化学习入门笔记】3.2 策略梯度法:REINFORCE
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.既然我们可以用函数拟合值函数, 那么是否可以直接拟合策略呢?本节将介绍策略梯度法.原创 2025-02-11 22:04:33 · 861 阅读 · 0 评论 -
【强化学习入门笔记】3.1 值函数估计和Deep Q-learning
如图, 在之前的算法中, 我们通过离散的表格来表达每个状态对应的值. 这种表征方式数据存储量大, 我们可以用一个函数来拟合值函数.比如使用最简单的线性函数,s是状态参数, 向量wvswasbϕTss1wabϕTswvswas2bscϕTss2s1wabcϕTsw或者是用神经网络作为拟合函数, 它是一个黑盒:之前介绍的各种迭代方法, 都需要逐步更新状态值;原创 2025-01-13 10:13:38 · 971 阅读 · 0 评论 -
【强化学习入门笔记】 2.5 Sarsa和Q-learning
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.2.5.1 Sarsa系列之前介绍的时序差分算法是用来计算给定策略π\piπ和其状态sss的状态值期望vπ(s)v_\pi(s)vπ(s), 那么能不能直接估计动作值期望呢? 这也就是Sarsa方法.2.5.1.1 Sarsa给定策略π\piπ, 我们可以用以下算法估计动作值:qt+1(st,at)=qt(st,at)−αt(st,at)[qt(st,at)−(rt+1+γqt(st+1,at+1))],q_{t+1}\left(s原创 2025-01-07 22:24:56 · 800 阅读 · 0 评论 -
【强化学习入门笔记】 2.5 Sarsa和Q-learning
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.2.5.1 Sarsa系列之前介绍的时序差分算法是用来计算给定策略π\piπ和其状态sss的状态值期望vπ(s)v_\pi(s)vπ(s), 那么能不能直接估计动作值期望呢? 这也就是Sarsa方法.2.5.1.1 Sarsa给定策略π\piπ, 我们可以用以下算法估计动作值:qt+1(st,at)=qt(st,at)−αt(st,at)[qt(st,at)−(rt+1+γqt(st+1,at+1))],q_{t+1}\left(s原创 2025-01-05 21:02:43 · 1056 阅读 · 0 评论 -
【强化学习入门笔记】 2.3 蒙特卡洛方法
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.本节我们将介绍强化学习中的蒙特卡洛方法.原创 2024-12-25 23:06:49 · 987 阅读 · 0 评论 -
【强化学习入门笔记】 2.2 策略迭代和截断策略迭代
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.本节我们将介绍强化学习中的策略迭代求解方法.2.2.1 算法步骤跟值迭代类似, 策略迭代也是一个迭代的方法, 主要分为策略计算(PE)和策略提升(PI)两步.2.2.1.1 策略计算(PE)首先在当前策略πk\pi_kπk的基础上, 计算状态值vπkv_{\pi_k}vπk, 实际就是求解贝尔曼公式:vπk=rπk+γPπkvπk,v_{\pi_k}=r_{\pi_k}+\gamma P_{\pi_k} v_{\pi_k},原创 2024-12-15 20:23:18 · 990 阅读 · 0 评论 -
【强化学习入门笔记】1.5 贝尔曼最优公式
fixed point(不动点)如果x∗x^*x∗满足下式,x∗x^*x∗称之为fixed point(不动点)fx∗x∗fx∗x∗Contraction mapping (收缩映射)如果一个函数满足下面不等式, 则称这个函数满足Contraction mapping∥fx1−fx2∥≤γ∥x1−x2∥γ∈01∥fx1−fx2∥≤γ∥x1−x2∥γ∈01。原创 2024-12-04 21:34:16 · 1277 阅读 · 0 评论 -
【强化学习入门笔记】1.4 贝尔曼公式
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.原创 2024-11-29 09:00:00 · 830 阅读 · 0 评论 -
【强化学习入门笔记】1.1基本概念
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.**课程视频网址:**https://space.bilibili.com/2044042934。原创 2024-11-05 10:00:00 · 1096 阅读 · 0 评论 -
【强化学习入门笔记】1.3 Return, 状态值, 动作值
qπsa≐EGt∣StsAtaqπsa≐EGt∣StsAtaqπsa∑r∈Rpr∣sarγ∑s′∈Sps′∣savπs′qπsar∈R∑pr∣sarγs′∈S∑ps′∣savπs′简单的说, 动作值是状态值的一部分, 某一个状态下所有的动作值加权和就是状态值.原创 2024-11-21 09:30:00 · 957 阅读 · 0 评论