wzg2016-CSDN博客

原创 ray.rllib-入门实践-12-2：在自定义policy中注册使用自定义model（给自定义model新增参数）

本博客与之区别在于可以给自定义的 model 新增自定义的参数，并通过。传入自定义的新增参数。

2025-04-02 22:41:07 401

原创 ray.rllib-入门实践-12-1：在自定义policy中注册使用自定义model

中介绍了如何自定义一个model并注册到ray中去使用。可以默认自定义的policy自动向ray注册了自定义的model。如何自定义policy并使用见。

2025-04-02 22:23:40 293

原创 ubuntu20 安装、配置Gitlab

对于postfix的安装，请在出现提示时选择“ Internet站点”，其余选项按默认值即可。

2025-03-13 11:47:54 954

原创 Pygame: joystick 模块使用示例

游戏手柄上的每个操作都会形成一个电信号被joystick类对象捕获到， joystick把这个信号归一化到[-1,1]区间，或者离散化为{0,1}。以下程序创建一个弹出窗口，实时显示joystick捕获到的信号数值，便于查看joystick捕获到的信号对应于游戏手柄的哪个按钮/操作。pygame几乎可以识别任意外接游戏操纵设备。

2025-02-13 23:35:34 402

原创 ray.rllib-入门实践-14：自定义多智能体强化学习-模型加载与评估

博客中，没有对预训练的模型加载进行介绍，这里进行补充。

2025-01-26 00:09:47 494 1

原创 ray.rllib-入门实践-13：自定义多智能体强化学习

需要继承自reset 函数和step函数接口需要与下面保持严格一致。每一个输出都变成了 key:value 字典。import ray## 1. 定义多智能体环境## 初始化智能体ID列表## 定义每个智能体的动作空间，这里默认多个智能体的动作空间一样## 定义每个智能体的观测空间，这里默认多个智能体的观测空间一样# 简单打印环境状态pass## 初始化智能体数量## 初始化智能体ID列表## 定义每个智能体的动作空间，这里默认多个智能体的动作空间一样。

2025-01-25 23:21:38 1292 3

原创 ray.rllib-入门实践-12：自定义policy

# 1. 自定义 policy，主要是改变 policy 的 loss 的计算 # 神经网络的损失函数## PPOTorchPolicy 内部对 PPOConfig 格式的config 执行了to_dict()操作，后面可以以 dict 的形式使用 config## 原始损失original_loss = super().loss(model, dist_class, train_batch) # PPO原来的损失函数, 也可以完全自定义新的loss函数，但是非常不建议。

2025-01-25 22:36:13 559

原创 ray.rllib-入门实践-11：自定义模型/网络

class My_Model(TorchModelV2, nn.Module): ## 重构以下函数，函数接口不能变。## 1. 定义自己的模型model_config:ModelConfigDict, ## PPOConfig.training(model = ModelConfigDict), 调用的是config.model中的参数name:str## 测试 custom_arg1 ， custom_arg2 传递进来的是什么数值## 定义网络层。

2025-01-25 21:50:05 840

原创 ray.rllib-入门实践-10：自定义环境

import ray## 1. 定义环境class MyEnv(gym.Env): ## 注意1：需要继承自gym.Envself.worker_index = env_config.worker_index ## worker_index是self.action_space = spaces.Box(low=-1,high=1,shape=(5,)) ## 一般需要定义动作空间作为成员变量。

2025-01-25 20:57:51 623

原创 ray.rllib-入门实践-9：查看模型的网络权重和状态

【代码】ray.rllib-入门实践-9：查看模型的网络权重和状态。

2025-01-25 12:39:45 195

原创 ray.rllib-入门实践-8：模型推断与评估

模型的训练、保存、加载请参考前面的博客：本博客仅根据推荐的训练、保存、加载模型的方法产生并加载模型，然后介绍两种模型评估的方法。

2025-01-25 11:59:36 409

原创 ray.rllib 入门实践-7：加载训练好的模型

保存了模型后再执行以下代码）直接看代码（建议先执行完。

2025-01-25 00:13:57 363

原创 ray.rllib 入门实践-6：保存模型

训练模型后保存模型，比较简单，这里简单介绍。

2025-01-24 23:18:46 245

原创 ray.rllib 入门实践-5：训练算法

前面的博客介绍了ray.rllib中算法的配置和构建，也包含了算法训练的代码。但是rllib中实现算法训练的方式不止一种，本博客对此进行介绍。

2025-01-24 23:00:13 511

原创 ray.rllib 入门实践-4：构建算法

在前面的博客介绍了ray.rllib中的几种配置算法的方法，在示例代码中同步给出了构建（build）算法的方法，但是没有对构建算法的方式进行归纳介绍。本博客主要梳理ray.rllib中，从config生成可训练的algorithm的几种方式。

2025-01-24 22:16:07 464

原创 ray.rllib 入门实践-3：配置参数列表

gamma: float, markov 决策过程的折扣因子，奖励值的折扣因子。lr: 学习率grad_clip: 是否使用梯度裁剪。根据grad_clip_by的设置裁剪梯度。：如果grad_clip不是None, 基于这个参数裁剪梯度。: 训练批量大小model: 传递到策略模型的参数。也可以通过成员变量的方式访问。optimizer: 传递给策略模型的参数。: 对每个采样进程的最大请求数。Returns: 返回更新的AlgorithmConfig对象。

2025-01-24 21:53:18 1104

原创 ray.rllib 入门实践-2：配置算法

ray.rllib的算法配置方式有多种，网上的不同教程各不相同，有的互不兼容，本文汇总罗列了多种算法配置方式，给出推荐，并在最后给出可运行代码。

2025-01-24 21:14:35 593

原创 ray.rllib入门实践-1：快速跑通

参考：1. RLlib: Industry-Grade, Scalable Reinforcement Learning — Ray 2.41.02. RLlib一：RLlib入门-CSDN博客

2025-01-24 14:23:23 423

原创 ray-rllib使用实践 -- 1

【代码】ray-rllib使用实践 -- 1。

2025-01-20 16:48:04 358

原创 rllib_2_tune实践

【代码】rllib_2_tune实践。

2025-01-20 16:11:16 295

原创 Anaconda如何切换国内镜像源

中国科学技术大学http://pypi.mirrors.ustc.edu.cn/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/清华大学https://pypi.tuna.tsinghua.edu.cn/simple/阿里云http://mirrors.aliyun.com/pypi/simple/豆瓣(douban)http://pypi.douban.com/simple/

2025-01-18 16:12:35 828

原创 python装饰器

是：输入函数，并返回函数，的函数。是一个高阶/高层函数。其返回值必须是一个函数。当装饰器的函数结构超过（包含）两层时，需要在最内层函数前一行添加“”，用于修改最内层函数的函数名为被装饰函数的函数名。

2024-12-22 22:49:27 491 1

原创 visual studio 2017下载并离线安装扩展

在搜索框里搜索下载即可，如。我测试时使用的是第一个“

2024-06-21 11:23:26 1452

转载在windows上执行GIT的时候报错 “Could not open ‘***.VC.opendb‘”

说明git版本控制中加入了***.VC.opendb。

2024-06-21 10:41:49 155

转载一步一步在 Windows 10 用 visual studio 2019 编译 zmqpp 4.2.0 版（转）

1）打开源码 compatibility.hpp，其中第 132 行有错，原因是 SOCKET 没有定义，需要包含 winsock2.h 头文件。在这个文件的第 37 行插入一行 #include <winsock2.h> 保存后再次生成。在我的编译过程中，没有选择编译“ZMQPP_BUILD_CLIENT”，所以不需要下载安装 Boost 库。在linux系统上编译zmqpp非常顺利，但是在win10系统上编译时，出现了一些问题。中提到的问题一模一样，我参考该博客实现了成功编译。

2024-06-21 10:07:37 201

原创 VMware 扩展Ubuntu虚拟机的磁盘空间

参考：VMware 扩展Ubuntu虚拟机的磁盘空间_blog.csdn.net/zhj123csdn/article/details/105962016-CSDN博客

2024-04-16 15:35:49 489

转载 Ubuntu20.04更换apt清华镜像源

转自：https://blog.csdn.net/m1993zhao/article/details/134544478。编辑上面的文件，可以用vim工具，这里我有图形界面，所以用gedit。把下面的内容替换文件里内容，保存。

2024-04-09 15:45:50 1265

转载 Ubuntu 20.04中安装CLion并创建桌面快捷方式

Windows的下载Windows，Mac的下载Mac的。直接上面的地址下载安装即可，安装完后记得不要打开，打开后也要先关闭，这里步骤就忽略了，安装很简单。复制电脑某个位置，我是放置到了桌面目录下（不推荐，自己选个D盘目录或者其他位置），用户执行脚本后，脚本会自动在当期用户环境变量文件中添加了相关参数文件，脚本执行成功后，一定要重启 CLion!脚本执行成功后，一定要重启 CLion!脚本执行成功后，一定要重启 CLion!打开文件夹里的激活码，粘贴到输入框内，点击。

2024-04-09 15:04:44 2760 3

原创解决错误apt --fix-broken install

遇到这个问题好几次了，每次都得重新搜索解决方案，索性记录一下吧。

2024-04-08 16:45:20 3762

转载 ubuntu20.04安装wordpress教程

中间有点小插曲：不小心先安装了nginx，后安装了Apache，二者存在端口冲突，出现了一些错误。把nginx进程kill掉就好了，后面可以修改nginx的端口，避免冲突。

2024-03-27 20:53:33 530

原创 ubuntu20搭建Gitlab本地服务器(简洁版)

参考：gitlab下载地址：

2024-03-27 15:04:51 547

转载 linux 挂载错误 mount: unknown filesystem type LVM2_member 解决方法

【代码】linux 挂载错误 mount: unknown filesystem type LVM2_member 解决方法。

2024-03-27 10:06:41 3854

原创最后一个免费版本的typora

【代码】最后一个免费版本的typora。

2024-03-27 09:24:25 1227

转载 SQLite下载历史版本

想下载sqlite的某个历史版本，总是找不到合适的入口。终于在博客中找到了途径。

2024-03-11 21:34:19 1069

翻译 PPO configuration parameters: num_rollout_workers & train_batch_size

Hello!我在我的任务中用到了Ray 2.6.3 中的PPO算法。在配置PPO算法时存在一个疑问。两个训练变量，”num_rollout_workers“ 和 ”train_batch_size“，之间存在关联关系吗？比如，我设置“num_rollout_workers” 为2，那么我需要在算法的配置中，把变量“train_batch_size”的数值乘以“num_rollout_workers”吗？

2024-02-28 11:30:29 258 1

原创使用apt-mirror做一个本地ubuntu离线apt源

下载可能需要很长时间，等待就可以了。还没有具体实践，准备参考。

2024-02-25 21:22:02 3284 1

原创 ubuntu安装anaconda后出现“conda: command not found”

把上面的“/home/wzg/anaconda3/bin”换成自己的anaconda的安装目录即可。解决方法Powershell管理员输入 conda init。~/.bashrc文件没有配置好。

2024-02-25 17:21:45 1880

原创甘特图绘制模板及使用说明

gatt语法分为以下几个部分。

2024-02-17 18:47:47 816

翻译 ubuntu系统只下载某个软件包而不安装它的命令

特点：下载单个deb文件。存储位置：当前shell所在位置。或特点：下载软件及其依赖包，默认的下载位置是：/var/chahe/apt/archive下面的指令可以查找一个deb包的依赖包下面的指令可以只下载软件包而不安装更多：解压deb文件：自定义编译deb文件：安装deb文件：参考：[1] ubuntu系统只下载某个软件包而不安装它的命令_apt只下载不安装-CSDN博客[2] https://blog.csdn.net/u012206617

2023-12-30 17:26:35 4805

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

win10 + cmake3.17 + vs2017编译osgearth2.7.0所需要的文件

win10 + vs2017 + cmake 3.17.5 编译的x64位 nvtt-2.1.0

osg第三方依赖库快速下载与编译

win10 + cmake3.17 编译 giflib5.2.1

win10 + vs2017 + cmake3.17.5 编译64位freeglut3.0.0

cmake教程代码示例

稀疏编码公式推导：LASSO，ISTA，近端梯度优化，软阈值

zotero connector 插件

深度学习优化算法介绍汇总与对比分析.rar

ubuntu 番茄工作法.rar

拖延心理学读后感ppt.rar

优化算法汇总与对比分析.rar

空空如也