- 博客(654)
- 资源 (6)
- 收藏
- 关注
原创 ray.rllib-入门实践-12-2:在自定义policy中注册使用自定义model(给自定义model新增参数)
本博客与之区别在于可以给自定义的 model 新增自定义的参数,并通过。传入自定义的新增参数。
2025-04-02 22:41:07
401
原创 ray.rllib-入门实践-12-1:在自定义policy中注册使用自定义model
中介绍了如何自定义一个model并注册到ray中去使用。可以默认自定义的policy自动向ray注册了自定义的model。如何自定义policy并使用见。
2025-04-02 22:23:40
293
原创 Pygame: joystick 模块使用示例
游戏手柄上的每个操作都会形成一个电信号被joystick类对象捕获到, joystick把这个信号归一化到[-1,1]区间,或者离散化为{0,1}。以下程序创建一个弹出窗口,实时显示joystick捕获到的信号数值,便于查看joystick捕获到的信号对应于游戏手柄的哪个按钮/操作。pygame几乎可以识别任意外接游戏操纵设备。
2025-02-13 23:35:34
402
原创 ray.rllib-入门实践-13:自定义多智能体强化学习
需要继承自reset 函数和step函数接口需要与下面保持严格一致。每一个输出都变成了 key:value 字典。import ray## 1. 定义多智能体环境## 初始化智能体ID列表## 定义每个智能体的动作空间, 这里默认多个智能体的动作空间一样## 定义每个智能体的观测空间, 这里默认多个智能体的观测空间一样# 简单打印环境状态pass## 初始化智能体数量## 初始化智能体ID列表## 定义每个智能体的动作空间, 这里默认多个智能体的动作空间一样。
2025-01-25 23:21:38
1292
3
原创 ray.rllib-入门实践-12:自定义policy
# 1. 自定义 policy, 主要是改变 policy 的 loss 的计算 # 神经网络的损失函数## PPOTorchPolicy 内部对 PPOConfig 格式的config 执行了to_dict()操作,后面可以以 dict 的形式使用 config## 原始损失original_loss = super().loss(model, dist_class, train_batch) # PPO原来的损失函数, 也可以完全自定义新的loss函数, 但是非常不建议。
2025-01-25 22:36:13
559
原创 ray.rllib-入门实践-11: 自定义模型/网络
class My_Model(TorchModelV2, nn.Module): ## 重构以下函数, 函数接口不能变。## 1. 定义自己的模型model_config:ModelConfigDict, ## PPOConfig.training(model = ModelConfigDict), 调用的是config.model中的参数name:str## 测试 custom_arg1 , custom_arg2 传递进来的是什么数值## 定义网络层。
2025-01-25 21:50:05
840
原创 ray.rllib-入门实践-10:自定义环境
import ray## 1. 定义环境class MyEnv(gym.Env): ## 注意1: 需要继承自gym.Envself.worker_index = env_config.worker_index ## worker_index是self.action_space = spaces.Box(low=-1,high=1,shape=(5,)) ## 一般需要定义动作空间作为成员变量。
2025-01-25 20:57:51
623
原创 ray.rllib-入门实践-8: 模型推断与评估
模型的训练、保存、加载请参考前面的博客:本博客仅根据推荐的训练、保存、加载模型的方法产生并加载模型,然后介绍两种模型评估的方法。
2025-01-25 11:59:36
409
原创 ray.rllib 入门实践-5: 训练算法
前面的博客介绍了ray.rllib中算法的配置和构建,也包含了算法训练的代码。但是rllib中实现算法训练的方式不止一种,本博客对此进行介绍。
2025-01-24 23:00:13
511
原创 ray.rllib 入门实践-4: 构建算法
在前面的博客介绍了ray.rllib中的几种配置算法的方法,在示例代码中同步给出了构建(build)算法的方法,但是没有对构建算法的方式进行归纳介绍。本博客主要梳理ray.rllib中,从config生成可训练的algorithm的几种方式。
2025-01-24 22:16:07
464
原创 ray.rllib 入门实践-3: 配置参数列表
gamma: float, markov 决策过程的折扣因子, 奖励值的折扣因子。lr: 学习率grad_clip: 是否使用梯度裁剪。根据grad_clip_by的设置裁剪梯度。: 如果grad_clip不是None, 基于这个参数裁剪梯度。: 训练批量大小model: 传递到策略模型的参数。也可以通过成员变量的方式访问。optimizer: 传递给策略模型的参数。: 对每个采样进程的最大请求数。Returns: 返回更新的AlgorithmConfig对象。
2025-01-24 21:53:18
1104
原创 ray.rllib 入门实践-2:配置算法
ray.rllib的算法配置方式有多种,网上的不同教程各不相同,有的互不兼容,本文汇总罗列了多种算法配置方式,给出推荐,并在最后给出可运行代码。
2025-01-24 21:14:35
593
原创 ray.rllib入门实践-1: 快速跑通
参考:1. RLlib: Industry-Grade, Scalable Reinforcement Learning — Ray 2.41.02. RLlib一:RLlib入门-CSDN博客
2025-01-24 14:23:23
423
原创 Anaconda如何切换国内镜像源
中国科学技术大学http://pypi.mirrors.ustc.edu.cn/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/清华大学https://pypi.tuna.tsinghua.edu.cn/simple/阿里云http://mirrors.aliyun.com/pypi/simple/豆瓣(douban)http://pypi.douban.com/simple/
2025-01-18 16:12:35
828
原创 python装饰器
是:输入函数,并返回函数,的函数。是一个高阶/高层函数。其返回值必须是一个函数。当装饰器的函数结构超过(包含)两层时,需要在最内层函数前一行添加“”,用于修改最内层函数的函数名为被装饰函数的函数名。
2024-12-22 22:49:27
491
1
转载 在windows上执行GIT的时候报错 “Could not open ‘***.VC.opendb‘”
说明git版本控制中加入了***.VC.opendb。
2024-06-21 10:41:49
155
转载 一步一步在 Windows 10 用 visual studio 2019 编译 zmqpp 4.2.0 版(转)
1)打开源码 compatibility.hpp,其中第 132 行有错,原因是 SOCKET 没有定义,需要包含 winsock2.h 头文件。在这个文件的第 37 行插入一行 #include <winsock2.h> 保存后再次生成。在我的编译过程中,没有选择编译“ZMQPP_BUILD_CLIENT”,所以不需要下载安装 Boost 库。在linux系统上编译zmqpp非常顺利,但是在win10系统上编译时,出现了一些问题。中提到的问题一模一样,我参考该博客实现了成功编译。
2024-06-21 10:07:37
201
原创 VMware 扩展Ubuntu虚拟机的磁盘空间
参考:VMware 扩展Ubuntu虚拟机的磁盘空间_blog.csdn.net/zhj123csdn/article/details/105962016-CSDN博客
2024-04-16 15:35:49
489
转载 Ubuntu20.04更换apt清华镜像源
转自:https://blog.csdn.net/m1993zhao/article/details/134544478。编辑上面的文件,可以用vim工具,这里我有图形界面,所以用gedit。把下面的内容替换文件里内容,保存。
2024-04-09 15:45:50
1265
转载 Ubuntu 20.04中安装CLion并创建桌面快捷方式
Windows的下载Windows,Mac的下载Mac的。直接上面的地址下载安装即可,安装完后记得不要打开,打开后也要先关闭,这里步骤就忽略了,安装很简单。复制电脑某个位置,我是放置到了 桌面目录下(不推荐,自己选个D盘目录或者其他位置),用户执行脚本后,脚本会自动在当期用户环境变量文件中添加了相关参数文件,脚本执行成功后,一定要重启 CLion!脚本执行成功后,一定要重启 CLion!脚本执行成功后,一定要重启 CLion!打开文件夹里的激活码,粘贴到输入框内,点击。
2024-04-09 15:04:44
2760
3
转载 ubuntu20.04安装wordpress教程
中间有点小插曲:不小心先安装了nginx,后安装了Apache, 二者存在端口冲突,出现了一些错误。把nginx进程kill掉就好了,后面可以修改nginx的端口,避免冲突。
2024-03-27 20:53:33
530
转载 linux 挂载错误 mount: unknown filesystem type LVM2_member 解决方法
【代码】linux 挂载错误 mount: unknown filesystem type LVM2_member 解决方法。
2024-03-27 10:06:41
3854
翻译 PPO configuration parameters: num_rollout_workers & train_batch_size
Hello!我在我的任务中用到了Ray 2.6.3 中的PPO算法。在配置PPO算法时存在一个疑问。两个训练变量,”num_rollout_workers“ 和 ”train_batch_size“,之间存在关联关系吗?比如,我设置“num_rollout_workers” 为2, 那么我需要在算法的配置中,把变量“train_batch_size”的数值乘以“num_rollout_workers”吗?
2024-02-28 11:30:29
258
1
原创 ubuntu安装anaconda后出现“conda: command not found”
把上面的“/home/wzg/anaconda3/bin”换成自己的anaconda的安装目录即可。解决方法Powershell管理员输入 conda init。~/.bashrc文件没有配置好。
2024-02-25 17:21:45
1880
翻译 ubuntu系统只下载某个软件包而不安装它的命令
特点:下载单个deb文件。存储位置:当前shell所在位置。或 特点:下载软件及其依赖包,默认的下载位置是:/var/chahe/apt/archive下面的指令可以查找一个deb包的依赖包下面的指令可以只下载软件包而不安装更多:解压deb文件:自定义编译deb文件:安装deb文件:参考:[1] ubuntu系统只下载某个软件包而不安装它的命令_apt只下载不安装-CSDN博客[2] https://blog.csdn.net/u012206617
2023-12-30 17:26:35
4805
win10 + cmake3.17 + vs2017编译osgearth2.7.0所需要的文件
2023-12-14
win10 + vs2017 + cmake 3.17.5 编译的x64位 nvtt-2.1.0
2023-11-04
win10 + vs2017 + cmake3.17.5 编译64位freeglut3.0.0
2023-11-04
稀疏编码公式推导:LASSO,ISTA,近端梯度优化,软阈值
2020-10-15
深度学习优化算法介绍汇总与对比分析.rar
2020-09-10
拖延心理学读后感ppt.rar
2021-04-16
优化算法汇总与对比分析.rar
2020-09-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人