Verifiers - 可验证环境中的LLM强化学习工具集


一、关于 Verifiers

1、项目概览

该代码库提供了一套在可验证环境中使用大语言模型(LLM)进行强化学习的工具集。

警告: 当前代码应视为研究性代码,不保证训练结果的稳定性或最优性。建议使用7B以上模型和至少8块GPU以获得最佳效果。

注意: 若无需多轮工具调用或智能体交互,建议直接使用TRL(或Unsloth/Axolotl)进行GRPO训练。本项目主要面向多轮LLM强化学习场景。


2、相关链接资源


二、安装配置

git clone https://github.com/willccbb/verifiers.git
cd verifiers
uv sync
uv pip install flash-attn --no-build-isolation
source .venv/bin/activate

环境准备:

  • 需预先配置wandbhuggingface-cli登录
  • 如遇版本问题,请先确认能运行verifiers/examples/trl_grpo.py示例

三、使用示例

1、多GPU训练(GRPO多轮训练)

参考verifiers/examples/math_train.py示例(使用ToolEnv环境+Python工具):

启动推理服务:

CUDA_VISIBLE_DEVICES=0,1,2,3 python verifiers/inference/vllm_serve.py \
  --model "Qwen/Qwen2.5-7B-Instruct" \
  --tensor_parallel_size 4 \
  --max_model_len 8192 \
  --gpu_memory_utilization 0.9 \
  --enable_prefix_caching True

启动训练:

CUDA_VISIBLE_DEVICES=4,5,6,7 accelerate launch \
  --num-processes 4 \
  --config-file configs/zero3.yaml \
  verifiers/examples/math_train.py

支持特性:

  • 多节点训练(通过SLURM)
  • 自定义推理主机IP/端口配置

2、离线评估

使用MultiTurnEnv环境类 进行多轮工具调用的离线评估,参考 verifiers/examples/math_eval.py 示例。


3、自定义环境

继承MultiTurnEnv并实现以下方法即可创建自定义环境:

def is_completed(self, messages: List[Dict[str, str]], **kwargs: Any) -> bool:
    pass

def env_response(self, messages: List[Dict[str, str]], **kwargs: Any) -> Dict[str, str]:
    pass

四、功能特性

  1. 环境模块
    • 支持DoubleCheckEnvCodeEnvToolEnvSmolaToolEnv等多种环境
  2. 多轮工具调用
    • ToolEnvSmolaToolEnvCodeEnv中实现
  3. 数据处理
    • 数据集格式化+XML解析器
  4. 评估体系
    • 数学/代码正确性+格式化的基础评估标准
  5. 预设配置
    • 提供GRPO、模型、分词器等默认配置

伊织 xAI 2025-05-28

资源下载链接为: https://pan.quark.cn/s/67c535f75d4c 在Android开发中,为了提升用户体验和视觉效果,背景模糊化处理是一种常用的设计手段。它可以为应用界面增添层次感,同时突出显示主要内容。本文将详细介绍如何在Android中实现背景模糊化功能。 首先,我们需要获取当前设备的壁纸作为背景。这可以通过WallpaperManager类来完成。调用WallpaperManager.getInstance(this.getContext())可以获取壁纸管理器实例,然后通过getDrawable()方法获取当前壁纸的Drawable对象。接下来,需要将壁纸Drawable转换为Bitmap对象,因为模糊处理通常需要在Bitmap上进行。可以通过((BitmapDrawable) wallpaperDrawable).getBitmap()来完成这一转换。 模糊处理的核心是使用Android的RenderScript API。RenderScript是一种高效的并行计算框架,特别适合处理图像操作。在blur()方法中,我们创建了一个RenderScript实例,并利用ScriptIntrinsicBlur类来实现模糊效果。ScriptIntrinsicBlur提供了设置模糊半径(setRadius(radius))和执行模糊操作(forEach(output))的方法。模糊半径radius可以根据需求调整,以达到期望的模糊程度。 然而,仅依赖ScriptIntrinsicBlur可能无法达到理想的模糊效果,因此我们还需要对原始图片进行缩放处理。为此,我们设计了small()和big()方法。先将图片缩小(small()),然后执行模糊操作,最后再将图片放大(big())。这种方式不仅可以增强模糊效果,还能在一定程度上提高处理速度。在small(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EAI工程笔记

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值