[G-CS-ML.RL011b] TRL

本文介绍了多种强化学习算法,包括时间差分方法如Q-learning和Sarsa,策略搜索方法,动态规划,基于模型的方法,贝叶斯强化学习,实例基方法及批处理学习方法等。还提及了无限Q和π的函数逼近器。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

200616_0vHN_3642849.png

RL problems

  • Temporal difference (TD) methods Q-learning (Sutton, 1988; Watkins, 1989)
  • TD Sarsa (Rummery and Niranjan, 1994; Singh and Sutton, 1996)
  • Policy search (Williams, 1992; Baxter and Bartlett, 2001)
  • direct policy search (Ng and Jordan, 2000)
  • Dynamic programming (Bellman, 1957) 
  • Model-based or Model-learning methods (Moore and Atkeson, 1993; Kearns and Singh, 1998)
  • Bayesian RL (Dearden et al., 1999)
  • Instance based methods (Ormoneit and Sen, 2002)
  • Relational reinforcement learning (RRL) (Dzeroski et al., 2001) 
  • Batch learning methods (e.g., Least Squares Policy Iteration (Lagoudakis and Parr, 2003)
  • Fitted-Q Iteration (Ernst et al., 2005)
  • function approximators for unlimited Q and π.

 202006_imZP_3642849.png

 

 

 

 

转载于:https://my.oschina.net/geminoria/blog/1570701

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值