
博士生涯,机器学习
文章平均质量分 89
MC数据局
技艺的至臻境界永无尽头,而苦心孤诣者的姓名必将被历史所铭刻。
展开
-
L0,L1,L2范数及其应用
https://medium.com/@montjoile/l0-norm-l1-norm-l2-norm-l-infinity-norm-7a7d18a4f40chttps://www.jianshu.com/p/de05e6745fb6L1范数L1范数是空间中向量的大小之和。这是测量向量之间距离的最自然的方法,即向量分量的绝对差之和。在该规范中,向量的所有分量均被加权。例如,向量X = [3,4]:L1范数由下式计算,||x||1=|3|+|4|=7如图所示,L1范数是您原创 2020-09-25 09:38:51 · 1139 阅读 · 0 评论 -
The global CVX solver selection cannot be changed while a model is being constructed.
CVX solver换求解器的时候报错,clear all即可原创 2020-03-20 20:48:11 · 2089 阅读 · 1 评论 -
MATLAB graphshortestpath求解最短路径问题
官网手册:https://www.mathworks.com/help/bioinfo/ref/graphshortestpath.html#bqur7l9-1_seealso辅助理解:https://blog.csdn.net/qq_43697167/article/details/96100132?depth_1-utm_source=distribute.pc_relevant.none...原创 2020-03-14 04:13:46 · 1469 阅读 · 0 评论 -
Maltab计算hessian矩阵 hessian function简单例子
Hessian矩阵其实就是一个多元函数的所有二次偏导数构成的雅克比矩阵,matlab中求解的方法是对雅克比矩阵再求雅克比矩阵。例如syms x y zf=x^2+y^2+z^2+x*y*z;J=jacobian(f,[x;y;z]);H=jacobian(J,[x;y;z]);结果为J =[ 2*x + y*z, 2*y + x*z, 2*z + x*y]H =[ 2, z, ...原创 2020-01-07 05:10:22 · 12548 阅读 · 3 评论 -
学习DRL
一般给人推荐就是David Sliver课程+ dennybritz的代码+Sutton的书+ShangtongZhang的代码,这个虽然不是直接上手DRL,但是感觉学过去基础会比较牢固原创 2019-03-04 15:12:44 · 339 阅读 · 0 评论 -
elsevier在排版的时候,这个图一直放到论文的最后一页
\begin{algorithm}[h] \label{***} \caption{****} \textbf{Input}: \begin{itemize} \end{itemize} \end{algorithm} 这是写的一个算法的步骤图,但是elsevier在排版的时候,这个图一直放到论文的最后一页。用IEEE的latex模板排版的时候都是正常出现...原创 2018-11-29 10:25:41 · 2890 阅读 · 1 评论 -
拯救者Y7000电脑WIN10用QQ软件时预览了一下群里发的pdf文件后,pdf关不掉
拯救者Y7000电脑WIN10用QQ软件时预览了一下群里发的pdf文件后,pdf关不掉,处于最前端,连任务管理系也是可以弹出但是依然不在pdf预览界面之前,除了重启,还有办法是:win+r,cmd之后再命令提示符中输入taskkill /im QQ.exe -f即可杀死QQ进程...原创 2018-11-18 16:47:14 · 983 阅读 · 0 评论 -
滚动窗口算法属于启发式算法
滚动窗口算法(rolling)基于滚动窗口的算法是基于预测控制理论的一种次优方法,其基本思想是依靠机器人实时探测到的局部信息,以滚动的方式进行在线规划。在滚动的每一步,根据探测到的局部信息,用启发式方法生成优化子目标,在当前滚动窗口内进行局部路径规划,然后,实施当前策略,随着滚动窗口的推进,不断取得新的环境信息,从而在滚动中实现优化与反馈的结合。启发式算法(heuristic algori...原创 2018-11-01 22:28:05 · 2668 阅读 · 2 评论 -
强化学习在阿里的技术演进与业务创新【pdf】
链接:https://pan.baidu.com/s/1coIg50lfP9JNAZcVrHXxjQ 提取码:x29a原创 2018-11-01 21:21:49 · 1112 阅读 · 1 评论 -
matlab如何给指定的曲线加legend
用句柄:x=0:0.1:10;y=exp(x);h1=plot(x,y);legend(h1,'标注');原创 2018-11-01 16:47:46 · 7990 阅读 · 0 评论 -
PaperYY查重会收录所查文章
mark一下,太坑了,一篇文章就这么不能投稿了,md原创 2018-11-29 11:39:33 · 3584 阅读 · 1 评论 -
Windows10安装 CNTK for Python
https://docs.microsoft.com/en-us/cognitive-toolkit/setup-windows-python?tabs=cntkpy22airsim支持两种控制,一种是通过USB接入控制手柄控制(之前安装博客说的就是这个)另一种就是通过API调用控制,API可以写代码进行策略修改以及计算机视觉的任务。现在进行API控制的学习先安装微软的CNTKWe...原创 2019-01-13 19:20:17 · 1519 阅读 · 0 评论 -
其实,还是学习更能充实时间
也许玩(电脑,手机,刷视频,打游戏)能带给你一定程度的脱离现实的愉悦感,但是生活中就需要回到现实,这之后就会产生一种极大的空虚感,虚拟中有多愉悦,现实中就有多空虚感。只有学习更多的知识,技能,才能对现实有所改变和改善,这才是真实的存在!!!...原创 2019-01-25 20:24:55 · 356 阅读 · 0 评论 -
windows下安装凸优化python包cvxpy
安装Anaconda首先安装Anaconda,安装完成后查看python版本python -V我的就是3.6安装cvxpy下载cvxpy.whl、cvxopt.whl cvxpy: https://www.lfd.uci.edu/~gohlke/pythonlibs/#cvxpycvxopt: https://www.lfd.uci.edu/~gohlke/python...原创 2019-01-22 21:13:27 · 2208 阅读 · 0 评论 -
OpenAI MADDPG配置
原论文链接:https://arxiv.org/pdf/1706.02275.pdfarxiv.org项目配置三步走系列,本文在ubuntu16.04系统下测试成功。第一步:环境要求如下:Anaconda安装及对应环境配置,先参考如下链接配置Anaconda环境,记得配置Python3.6的环境。https://www.jianshu.com/p/66b7291c98...原创 2019-04-05 21:38:54 · 4321 阅读 · 15 评论 -
多智能体强化学习笔记 01
跟单智能体强化学习相比,多智能体强化学习的入门似乎更难,想了想觉得有以下几个方面的原因:(1) 多智能体强化学习研究成果较少,没有一本经典的系统的书籍来介绍。而单智能体强化学习算法有本神作,即Sutton的《Reinforcement Learning: An introduction》,有这本神作,足矣。(当然对于入门的中国学生来说,我今年出版的中文书籍《深入浅出强化学习:原理入门》可以作为...转载 2019-04-01 11:57:44 · 2950 阅读 · 0 评论 -
安装ns3-gym,ubuntu下python3
InstallationInstall all required dependencies required by ns-3.# minimal requirements for C++:apt-get install gcc g++ pythonsee https://www.nsnam.org/wiki/InstallationInstall ZMQ and Protoco...转载 2019-04-01 21:18:09 · 2866 阅读 · 12 评论 -
用无人机充当临时基站, 研究背景汇总
1、在面对海啸、地震和泥石流等严重自然灾害时,一般的移动基站都会遭到严重破坏,从而造成相关区域的通讯中断,在灾后救援的关键时期引发诸多的困难。外媒报道称,现在来自美国的两家通信巨头:AT&T和Verizon,都在研究一种新的技术,可以让无人机在灾后紧急情况下提供临时的移动通信服务,从而有效避免灾后救援中的诸多不便。据悉,Verizon内部已经制定了一个名为“空中LTE行动”的计划。...转载 2019-04-21 18:57:34 · 8278 阅读 · 2 评论 -
【转载】Asynchronous Methods for Deep Reinforcement Learning A3C一些较好地理解
原文:http://www.voidcn.com/article/p-mihgmljj-wy.html我们知道传统增强学习(Reinforcement learning, RL)中除了value-based方法,还有一大类就是policy-based方法。在RL任务中,我们本质上最终要学习的是策略(Policy)。前者用的是间接方法,即通过学习值函数(value function)或者动作值函...转载 2018-10-23 21:32:29 · 983 阅读 · 0 评论 -
探秘多智能体强化学习-MADDPG算法原理及简单实现
之前接触的强化学习算法都是单个智能体的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能体之间的交互,比如说,多个机器人的控制,语言的交流,多玩家的游戏等等。本文,就带你简单了解一下Open-AI的MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法,来共同体验一下多智能体强化学习的魅力。论文全称:Multi-Agent Acto...转载 2018-10-21 11:15:07 · 16199 阅读 · 16 评论 -
【闲看】ROS 中 RVIZ
ROS中新建机器人模型(urdf格式)并用rviz显示https://blog.csdn.net/ktigerhero3/article/details/64439815记录一下,下图就是ROS中新建机器人模型(urdf格式)并用rviz显示(不是我的图)...原创 2018-04-19 11:10:19 · 555 阅读 · 0 评论 -
电动汽车充电桩资料搜集
1、交流充电桩 交流充电桩是固定安装在社区停车场、居民小区、大型商场、服务区、路边停车场等场所,接入电网,为电动汽车车载充电机提供可控的单向交流电源或三相交流电源的供电装置。交流充电桩本身并不具备充电功能,其只是单纯提供电力输出,还需要连接电动汽车车载充电机,方可起到为电动汽车电池充电的作用。由于电动汽车车载充电机的功率一般都比较小,所以交流充电桩无法实现快速充电。2、直流充电桩原创 2018-01-17 20:52:01 · 4641 阅读 · 0 评论 -
2017年11月21日开始重点强化学习
1、安装python,教程很多2、python入门界面软件安装:http://blog.csdn.net/u011507206/article/details/586774793、安装numpy和pandas:http://blog.csdn.net/Yakumoyukarilan/article/details/51340358原创 2017-11-23 12:03:53 · 1019 阅读 · 0 评论 -
强化学习之马尔可夫决策过程
【cs229-Lecture16-notes12】马尔可夫决策过程网址:http://cs229.stanford.edu/syllabus.html什么是强化学习?强化学习(reinforcement learning,又称再励学习,评价学习)是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习,而在连接主义原创 2017-12-10 22:27:52 · 2738 阅读 · 0 评论 -
latex公式,之后文中引用公式的方法。
latex公式,之后文中引用公式的方法。这样一段代码: \begin{ea}\label{equ:square} x^2+ y^2= r^2 \end{ea} In this paper, we investigated (\ref{equ:square}) and applied it into some fields. \label{equ:square}部分是设置该公式的标签。...原创 2018-05-29 14:13:03 · 17098 阅读 · 1 评论 -
做海报中,罗列一下以前用过的免费素材网站,备份
素材中国:http://www.sccnn.com/站长素材:http://sc.chinaz.com/原创 2018-06-13 18:32:55 · 476 阅读 · 0 评论 -
封闭解(Closed-form solution)、解析解(Analytical solution)、数值解(Numerical solution) 释义
解析解(Analytical solution) 就是根据严格的公式推导,给出任意的自变量就可以求出其因变量,也就是问题的解,然后可以利用这些公式计算相应的问题。所谓的解析解是一种包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。用来求得解析解的方法称为解析法(Analytical techniques),解析法即是常见的微积分技巧,例如分离变量法等。解析解是一个封闭形式(Cl...转载 2018-07-31 15:25:40 · 1181 阅读 · 0 评论 -
gzip: stdin: unexpected end of file 错误
在vi中解压文件中报错如下: 反复试了几次不行,后来经过排查,是由于将压缩文件copy到Linux系统里时 我直接拖拽导致的,后来使用了共享文件夹,可以解压成功。共享文件夹的启用方式,戳http://blog.csdn.net/qq_22641085/article/details/52994435...转载 2018-07-30 10:58:27 · 1548 阅读 · 0 评论 -
gym学习及二次开发
工欲善其事必先利其器,借助一个好的开发平台,我们能够快速地将理论知识变成代码,从而实现和验证我们的一些想法。Openai的gym(openai/gym)便是这样一个好的平台。之所以说它好,是因为它背后有一支强大的团队在支持,维护和更新,这保证了平台的可持续性。而且它是openai于2017年5月16号,也就是前天释放出来的roboschool(openai/roboschool)的基础;它还可以与...转载 2018-07-14 13:57:01 · 18113 阅读 · 8 评论 -
在强化学习领域最受欢迎的A3C算法,DDPG算法,PPO算法等都是AC框架
AC算法框架被广泛应用于实际强化学习算法中,该框架集成了值函数估计算法和策略搜索算法,是解决实际问题时最常考虑的框架。大家众所周知的alphago便用了AC框架。而且在强化学习领域最受欢迎的A3C算法,DDPG算法,PPO算法等都是AC框架。我们这一讲便总结下AC算法的发展并介绍目前最受关注的A3C算法和PPO算法。本讲的内容包括:1.1 策略梯度的直观解释1.2 Actor-Critic框架引出...转载 2018-07-14 13:20:17 · 29826 阅读 · 6 评论 -
理解actor-critic
要想深入理解还得系统地看书看公式。下面提供两个不同的视角,看看能不能帮助你理解。视角一:从Q-Learning过渡到Actor-Critic经典的Q-learning可以拆成两部分:一部分是Q(s,a)存储了在状态s下执行a动作后,执行greedy策略的期望收益,另外一部分是在决定执行哪一个动作的时候,把每个候选的a代入到Q(s,a),求出具体的值后,根据e-greedy策略来选择其中一个...转载 2018-07-23 19:09:53 · 2507 阅读 · 0 评论 -
强化学习on-policy跟off-policy的区别
on-policy:生成样本的policy(value function)跟网络更新参数时使用的policy(value function)相同。典型为SARAS算法,基于当前的policy直接执行一次动作选择,然后用这个样本更新当前的policy,因此生成样本的policy和学习时的policy相同,算法为on-policy算法。该方法会遭遇探索-利用的矛盾,光利用目前已知的最优选择,可能学不到...转载 2018-07-03 20:19:52 · 2985 阅读 · 1 评论