欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/146398654
通过高质量 思维链(Chain-of-Thought, CoT) 的推理数据,有监督微调(Supervised Fine-Tuning) 增强多模态大语言模型(MLLM) 的推理能力,导致模型只是模仿成功的推理路径,而不理解错误的推理路径。将 MLLM 的推理能力,超越 被动(Passively) 模仿正确推理路径,使用 逐步分组相对策略优化(StepGRPO),通过 简单(simple)、有效(effective)、密集(dense) 的逐步奖励,自主提升推理能力。
使用 2 种 基于规则(Rule-Based) 的推理奖励 (平滑奖励):
- 逐步推理 准确性奖励 (Step-wis