基于HumanCompatibleAI/imitation项目的核密度奖励函数学习教程-CSDN博客

基于HumanCompatibleAI/imitation项目的核密度奖励函数学习教程

imitation Clean PyTorch implementations of imitation and reward learning algorithms 项目地址: https://gitcode.com/gh_mirrors/im/imitation

技术背景

在强化学习领域，模仿学习是一种重要的技术范式，它通过观察专家演示来学习策略。HumanCompatibleAI/imitation项目提供了一种基于核密度估计的模仿学习方法，这种方法不需要显式的奖励函数，而是通过分析专家演示数据的分布特性来构建奖励模型。

核密度估计基础

核密度估计(Kernel Density Estimation, KDE)是一种非参数统计方法，用于估计随机变量的概率密度函数。在模仿学习场景中，我们可以利用KDE来建模专家演示数据的分布，然后将新状态/动作对与专家分布的相似度作为奖励信号。

实现步骤详解

1. 环境与专家策略准备

首先需要准备环境和专家策略。本教程以Pendulum-v1环境为例：

env_name = "Pendulum-v1"
rollout_env = DummyVecEnv(
    [lambda: RolloutInfoWrapper(gym.make(env_name)) for _ in range(N_VEC)]
)
expert = load_policy(
    "ppo-huggingface",
    organization="HumanCompatibleAI",
    env_name=env_name,
    venv=rollout_env,
)

2. 收集专家演示数据

使用专家策略在环境中生成演示轨迹：

rollouts = rollout.rollout(
    expert,
    rollout_env,
    rollout.make_sample_until(min_timesteps=2000, min_episodes=57),
    rng=rng,
)

3. 配置密度算法

核心是配置DensityAlgorithm，主要参数包括：

density_trainer = db.DensityAlgorithm(
    venv=env,
    rng=rng,
    demonstrations=rollouts,
    rl_algo=imitation_trainer,
    density_type=db.DensityType.STATE_ACTION_DENSITY,
    is_stationary=True,
    kernel="gaussian",
    kernel_bandwidth=0.4,
    standardise_inputs=True,
)

4. 训练过程

训练分为两个阶段：

密度模型训练：学习专家演示数据的分布
策略训练：使用学到的密度模型作为奖励函数训练策略

# 密度模型训练
density_trainer.train()

# 策略训练
for i in range(N_ITERATIONS):
    density_trainer.train_policy(N_RL_TRAIN_STEPS)

关键参数解析

密度类型(density_type)

STATE_DENSITY: 仅考虑状态密度
STATE_ACTION_DENSITY: 考虑状态-动作对的联合密度
STATE_STATE_DENSITY: 考虑状态转移(s,s')的联合密度

平稳性(is_stationary)

True: 使用单一密度模型处理所有时间步
False: 为每个时间步使用独立的密度模型

标准化(standardise_inputs)

当状态空间各维度量纲不同时，建议设为True进行标准化处理。

核函数选择(kernel)

支持多种核函数，常用的是高斯核("gaussian")和指数核("exponential")。

性能评估

训练前后可以评估策略性能：

# 专家性能
expert_rewards, _ = evaluate_policy(expert, env, 100, return_episode_rewards=True)

# 训练前性能
learner_rewards_before_training, _ = evaluate_policy(
    density_trainer.policy, env, 100, return_episode_rewards=True
)

# 训练后性能
learner_rewards_after_training, _ = evaluate_policy(
    density_trainer.policy, env, 100, return_episode_rewards=True
)