欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/141218047
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
TRL(Transformer Reinforcement Learning) 是 HuggingFace 的全栈库,提供一套工具,用于通过强化学习训练 Transformer 语言模型,从 监督微调(Supervised Fine-tuning, SFT)、奖励建模(Reward Modeling, RM)、近端策略优化(Proximal Policy Optimization, PPO)。