
机器学习
MC数据局
技艺的至臻境界永无尽头,而苦心孤诣者的姓名必将被历史所铭刻。
展开
-
对Q-learning和sarsa的进一步理解
https://www.cnblogs.com/jinxulin/p/5116332.htmlQ-learning与sarsa算法最大的不同在于更新Q值的时候,直接使用了最大的Q(st+1,a)值——相当于采用了Q(st+1,a)值最大的动作,并且与当前执行的策略,即选取动作at时采用的策略无关。原创 2017-12-01 11:49:58 · 1863 阅读 · 0 评论 -
python编程中的if __name__ == 'main': 的作用和原理
在大多数编排得好一点的脚本或者程序里面都有这段if __name__ == 'main': ,虽然一直知道他的作用,但是一直比较模糊,收集资料详细理解之后与打架分享。 1、这段代码的功能 一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。因此if __name__ == 'main': 的作用转载 2017-11-26 21:26:41 · 307 阅读 · 0 评论 -
20171229学习日记
上午花了不到1个小时看了一下python入门:https://edu.csdn.net/course/detail/2556,有编程的底子,之前写了几个python小程序的,觉得系统学一下好以下,有用的新知识不多,数组和元组的差别听了一下。想再看一下小甲鱼的视频http://edu.csdn.net/course/play/906原创 2017-12-29 11:20:32 · 476 阅读 · 0 评论 -
在学习TensorFlow,利用腾讯云
TensorFlow 相关函数理解tf.nn.conv2dconv2d( input, filter, strides, padding, use_cudnn_on_gpu=True, data_format='NHWC', name=None)参数名必选类型说明input是tensor是一个 4 维的 tensor,即 [ batch, in_heigh...原创 2018-04-15 22:05:21 · 664 阅读 · 0 评论 -
在强化学习领域最受欢迎的A3C算法,DDPG算法,PPO算法等都是AC框架
AC算法框架被广泛应用于实际强化学习算法中,该框架集成了值函数估计算法和策略搜索算法,是解决实际问题时最常考虑的框架。大家众所周知的alphago便用了AC框架。而且在强化学习领域最受欢迎的A3C算法,DDPG算法,PPO算法等都是AC框架。我们这一讲便总结下AC算法的发展并介绍目前最受关注的A3C算法和PPO算法。本讲的内容包括:1.1 策略梯度的直观解释1.2 Actor-Critic框架引出...转载 2018-07-14 13:20:17 · 29824 阅读 · 6 评论