- 博客(80)
- 收藏
- 关注
原创 知识点3:python-sdk 核心概念(prompt、image、context)
所有内容均以官方为主,可结合食用~系统:ubuntu 20.04。
2025-07-16 16:43:22
555
原创 知识点2:MCP:python-sdk 核心概念(Server、Resources、Tools)
所有内容均以官方为主,可结合食用~系统:ubuntu 20.04MCP让我们可以通过一种标准且安全的方式创建一个服务端用来将数据和函数功能块暴露给LLM应用程序,可以把它想象成一个专门为LLM交互设计的web API。通过Resources暴露数据(可以把它想象成GET;它们用于将信息加载到LLM的上下文中。通过Tools提供功能(类似与POST;用来执行代码或触发外部系统的状态变化。通过Prompts定义交互模型(它直接作用于 LLM 的提示词层面。
2025-07-14 17:05:35
644
原创 知识点1:MCP:python-sdk(安装及体验)
所有内容均以官方为主,可结合食用~系统:ubuntu 20.04MCP允许应用程序以一种标准化的方式提供上下文信息给LLM,将提供上下文信息和直接与LLM交互这两个工作流拆分开。传统LLM集成需要将上下文处理逻辑直接嵌入应用代码,MCP将其解耦为独立服务。创建MCP客户端可以连接到任意一个MCP的服务端应用通过MCP Server提供结构化上下文,MCP Client获取标准化上下文,开发者专注LLM提示工程,无需处理底层数据集成。
2025-07-10 19:53:01
307
原创 第一章、RNN(循环神经网络)
假设我们现在有一个时间序列的预测问题,以股票为例(不考虑环境政策等问题,仅从数据出发为理解RNN),我们想从过去的数据中估计下一天股票会涨还是跌。现在的问题是历史信息的维度在变化,如果我们能综合历史信息把它提取成一个长度不变的向量就好了,RNN本质上就是在做这样的事情。那直观的理解这个网络的作用实际上就是结合当前的信息和历史中有用的信息综合输出相应的结果,及结合当前信息后的总历史信息。的长度在不停的变化,而我们之前学习的卷积也好全连接也好都是固定输入维度的,那怎么解决。时刻而言,网络的输入是。
2025-07-08 18:12:01
639
原创 第十二章、状态的不完全观测
前面的研究中实际上我们都在默认一个事情,即智能体可以完全的观测环境,实际上智能体以板腔况下智能观测到环境的一部分,本章就是解决这种状态的不完全观测问题。
2025-07-07 14:22:42
990
原创 问题九、单个机器人关节控制(python)
该部分是基于python的单个机器人中不同关节的控制代码案例,可以通过需要自行改写,将会对每部分的代码做详细解释。
2025-07-04 17:25:37
24
原创 第十一章、基于随机高斯策略的连续控制问题
上几章中我们介绍了DDPG及其优化后的TD3模型,其出现实际上是为了解决动作空间连续的问题。本章介绍另一种解决方案,DDPG和TD3的策略都是确定性策略,而本章介绍的随机高斯策略是一个随机策略(注:什么是随机策略呢?实际上就是有概率的策略,我们可以根据动作的概率去对动作进行抽样)。
2025-07-04 14:38:48
855
原创 第十章、TD3(twin delayed deep deterministic policy gradient,双延迟深度确定性策略梯度)
由于DDPG存在高估问题导致其效果并不好,本节介绍twin delayed deep deterministic policy gradient(TD3,双延迟深度确定性策略梯度)。
2025-07-02 15:24:51
1007
原创 第九章、DDPG(Deep deterministic policy gradient,深度确定性策略梯度)
DDPG的提出实际上是为了解决动作空间的连续性问题,回忆一下之前的策略网络π\piπ,它的输入是状态sss,输出是对应的动作空间中每个动作的概率。所以我们之前的算法所对应的问题都是离散的动作空间下的。
2025-06-27 14:15:18
523
原创 第八章、PPO(Proximal Policy Optimization, 近端策略优化算法)
PPO是对TRPO的优化,TRPO在求最大值问题上直接使用泰勒展开近似、共轭梯度、线性搜索等方法直接求解,这个计算量非常大。基于这个问题PPO算法被提出,该算法在实现上更加简单。
2025-06-26 11:28:45
1001
原创 第五章、遥操作及模仿学习(Teleoperation and Imitation Learning)
官方文档:https://isaac-sim.github.io/IsaacLab/main/source/overview/teleop_imitation.htmlisaaclab中提供了SE(2) 和 SE(3) 空间的接口用于描述刚体运动的指令。要使用键盘设备进行反向运动学 (IK) 控制:同样的可以使用 SpaceMouse等专业的 6 自由度(6-DoF)输入设备进行控制。变化NVIDIA Isaac Lab 结合 CloudXR 和 手部追踪 技术,提供了一种 沉浸式机器人遥操作方案,适用
2025-06-20 17:34:36
1046
原创 第七章、TRPO(trust region policy optimization:置信域策略优化)
表现更加稳定,收敛曲线不会剧烈波动,而且对学习率不敏感。用更少的经验(即智能体收集到的状态、动作、奖励)就能达到与策略梯度方法相同的表现。
2025-06-20 13:34:11
403
原创 第六章、A2C(advantage actor-critic:带基线的actor-critic)
A2C作为Actor-Critic算法的优化算法,学习效果更好,与Actor-Critic算法相同是一个策略学习框架下的算法。
2025-06-19 20:44:47
760
原创 问题八、Articulation中的actuator(执行器)
配置好关节机器人之后我们发现一般情况下,其实Isaacsim和Isaaclab都不会直接通过代码控制每一个关节的driver,而是对整个机器人创建一个树结构(Articulation)在通过配置参数来控制机器人运动,其中比较重要的就是actuator(执行器模型)。先更新文档中的理论部分,代码部分会后续完善。这个子包 (isaaclab.actuators) 提供了不同执行器模型的实现。执行器模型用于模拟关节中执行器的行为。这些模型通常用于仿真,以模拟不同的执行器动态和延迟。isaaclab中主要支持两类执
2025-06-11 13:42:06
65
原创 问题七、isaacsim中添加IMU传感器
NVIDIA Isaac Sim 中的 IMU 传感器可跟踪车身运动并输出模拟加速度计和陀螺仪读数。与真实 IMU 传感器一样,模拟 IMU 可通过平台单元提供局部 x、y、z 轴的加速度和角速度测量值。
2025-06-03 19:18:10
94
原创 第四章、自平衡控制
该部分作为开发过程中的学习记录,可能有错误及不足欢迎小伙伴们一起讨论~注:这里主要面临的问题是根据给定的课程代码没办法实现自稳定,因此只能在整个代码中拆解找原因。这个部分可能一次性更新不完会持续更新。
2025-05-29 16:26:54
616
原创 第五章、从Reinforce到Actor-Critic
Reinforce算法和Actor-Critic算法都是on-policy(同策略算法),并且和前述的价值学习不同,是属于策略学习框架下的。我们本章将Reinforce算法和Actor-Critic算法放在一起说明,是因为实际上他们是强化学习中策略学习的基础。
2025-05-28 14:17:38
724
原创 第三章、运动学逆解(双足轮根据腿高求舵机角度)
该部分作为开发过程中的学习记录,可能有错误及不足欢迎小伙伴们一起讨论~注:该部分是根据灯哥开源的代码来进行学习,具体数学计算部分不做过多叙述,bilibili的教学视频中已经非常清晰了,本节只对个人学习过程中的代码做对应和解释。
2025-05-27 19:25:07
652
原创 第四章、DDQN(Double Deep Q-Network)
DDQN是off-policy(离线策略)算法,它通过与环境交互获取采样数据(经验放回池),并利用这些数据训练一个神经网络,该神经网络是用来近似最优动作价值函数的。该算法是DQN的一个改进算法是为了解决DQN高估问题的。在阅读下述内容之前,假设你以理解以下概念及内容:状态空间、动作空间、奖励、折扣回报、动作价值函数、最优动作价值函数及TD误差等。
2025-05-26 15:22:53
775
原创 问题六、SIMTOSIM部分遇到的问题及解决方法
dt应该在一定程度上把通信周期及其他的物理模拟时间包含在内,这里可以理解为如果你在训练的时候交互过快而实际达不到这个频率就会出现,你给的动作本来只应该执行0.02秒但实际走了0.06秒,然后又根据新的状态做下一步预测,总是多走绝对不会收敛,但如果你在训练时的交互时长要大与实际的情况就会出现你给出的动作运行到一半重新计算,但这并不影响模型的收敛。所以dt除了要根据仿真复杂度选择合适的 dt(通常 dt ≤ 1/60 s),也要根据实际情况来,比如通讯时长等。在创建仿真环境时会有如下设置。
2025-05-23 17:24:17
106
原创 第三章、DQN(Deep Q-Network)
DQN是一个off-policy(离线策略)算法,它通过与环境交互获取采样数据(经验放回池),并利用这些数据训练一个神经网络,该神经网络是用来近似最优动作价值函数的。在阅读下述内容之前,假设你以理解以下概念及内容:状态空间、动作空间、奖励、折扣回报、动作价值函数、最优动作价值函数及TD误差等。
2025-05-23 14:40:48
929
原创 第二章、SARSA(State Action Reward State Action)
SARSA是一种无模型的离散同策略(on-policy)算法,它使用Q表格来处理离散观测和动作空间。注:on-policy是指收集经验放回池的策略和最后控制智能体的目标策略相同。在阅读下述内容之前,假设你以理解以下概念及内容:状态空间、动作空间、奖励、折扣回报、动作价值函数、最优动作价值函数及TD误差等。
2025-05-21 14:04:35
772
原创 第四章、SKRL(2): API(Models and Model instantiators)
模型(或智能体模型)是指智能体的策略、值函数等的表示,智能体使用这些策略、值函数等来做出决策。智能体可以有一个或多个模型,它们的参数由优化算法来调整。
2025-05-20 17:06:08
286
原创 第一章、Q-learning
Q学习是一种无模型的离散策略算法,它使用Q表格来处理离散观测和动作空间。在阅读下述内容之前,假设你以理解以下概念及内容:状态空间、动作空间、奖励、折扣回报、动作价值函数、最优动作价值函数及TD误差等。
2025-05-20 13:32:26
1100
原创 第二章、IMU(Inertial Measurement Unit 惯性测量单元)
该部分作为开发过程中的学习记录,可能有错误及不足欢迎小伙伴们一起讨论~注:该部分代码是基于Stackorce的舵机控制板来看的,板载三轴加速度计、陀螺仪。
2025-05-19 14:13:51
768
原创 第二章、Isaaclab强化学习包装器(3):SKRL Wrapper
在本节中,您将学习如何使用 skrl 库的各种组件来创建强化学习任务。进入安装 isaac lab 时创建的conda虚拟环境在该环境下进入 isaac sim文件夹中运行终端中输入运行你的代码,进行训练。
2025-05-14 14:10:07
524
原创 第一节、基础知识篇
该部分作为开发过程中的学习记录,可能有错误及不足欢迎小伙伴们一起讨论~电机(电动机):将电能转化为机械能,主要用于提供连续旋转运动或线性运动。常见类型:直流电机(有刷/无刷)、步进电机、交流电机(异步/同步)等。核心目标:驱动设备运转(如凤扇、车轮、传送带)。舵机(伺服电机,Servo Motor):一种带有闭环控制系统的电机,能够精确控制角度、位置或速度。常见类型:标准舵机(如模型用舵机)、工业伺服电机。核心目标:精准定位(如机器人关节、遥控模型转向)。
2025-05-09 13:21:16
716
原创 第三章、RL Games:High performance RL library
RL Games 是由 NVIDIA 开发的一个专注于强化学习(Reinforcement Learning, RL)的高性能开源框架,主要用于快速训练和部署强化学习模型。其设计目标是为复杂环境(如机器人控制、游戏AI、多智能体系统等)提供高效的训练工具,同时支持分布式训练和GPU加速。本文介绍了rl_games强化学习库的一些基本功能。此外,本文还提供了使用类似IsaacGymEnvs包的结构(IsaacLab可参考)创建新环境和算法,为 rl_games 的扩展指南。
2025-05-07 17:27:46
793
原创 第二章、Isaaclab强化学习包装器(1):RL-Games Wrapper
第十二讲、Isaaclab中使用RL对智能体进行训练本节将详细介绍RL-Games Wrapper包装器。进入安装 isaac lab 时创建的conda虚拟环境在该环境下进入 isaac sim文件夹中运行终端中输入运行你的代码,进行训练。
2025-04-28 17:57:08
530
原创 问题四、如何解决模型轴配置问题
问题描述:举一个简单的例子用openfile打开为配置的文件## 1 识别关节装配机器人的第一步是识别机器人上的关节,包括驱动关节和非驱动关节。关节决定了所有网格组件的组织方式,识别关节类型及其自由度 (DOF) 是确保机器人装配后按预期运动的关键。
2025-04-27 17:26:21
61
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人