[G-CS-ML.RL011b] TRL

weixin_34067980

于 2017-11-09 20:06:00 发布

阅读量139

点赞数

CC 4.0 BY-SA版权

文章标签： python

本文介绍了多种强化学习算法，包括时间差分方法如Q-learning和Sarsa，策略搜索方法，动态规划，基于模型的方法，贝叶斯强化学习，实例基方法及批处理学习方法等。还提及了无限Q和π的函数逼近器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Temporal difference (TD) methods Q-learning (Sutton, 1988; Watkins, 1989)
TD Sarsa (Rummery and Niranjan, 1994; Singh and Sutton, 1996)
Policy search (Williams, 1992; Baxter and Bartlett, 2001)
direct policy search (Ng and Jordan, 2000)
Dynamic programming (Bellman, 1957)
Model-based or Model-learning methods (Moore and Atkeson, 1993; Kearns and Singh, 1998)
Bayesian RL (Dearden et al., 1999)
Instance based methods (Ormoneit and Sen, 2002)
Relational reinforcement learning (RRL) (Dzeroski et al., 2001)
Batch learning methods (e.g., Least Squares Policy Iteration (Lagoudakis and Parr, 2003)
Fitted-Q Iteration (Ernst et al., 2005)
function approximators for unlimited Q and π.