- 博客(58)
- 收藏
- 关注
原创 RLVER:让7B模型情商飙升5倍,比肩GPT-4o的情感能力
腾讯混元团队提出的RLVER框架首次实现了基于可验证情感奖励的强化学习,将Qwen2.5-7B模型的共情能力从13.3分提升至79.2分(Sentient-Benchmark),性能比肩GPT-4o和Gemini 2.5 Pro等顶级商用模型,同时保持数学和代码能力不衰退。
2025-08-01 12:00:00
318
原创 ROLL:大规模强化学习优化的高效可扩展库详解
阿里巴巴团队推出的ROLL(Reinforcement Learning Optimization for Large-scale Learning)库,通过创新的分布式执行架构与模块化设计,实现了大规模强化学习训练的效率跃升、无缝扩展与极致易用性,为技术先驱、产品开发者和算法研究者提供了一站式解决方案。
2025-07-31 21:28:41
672
原创 强化学习新发现:仅需更新5%参数的稀疏子网络可达到全模型更新效果
强化学习(RL)微调大语言模型时,仅更新模型中5-30%的参数形成稀疏子网络,且该子网络在不同随机种子、数据集和算法下具有高度一致性,独立训练即可达到全模型性能。
2025-07-26 11:23:08
794
原创 RLVR的枷锁:深度分析强化学习为何难破基础模型局限
近期在大型推理模型方面的进展突出了“可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards,RLVR)”作为一种提升人工智能能力的有前景的方法,尤其是在解决复杂逻辑任务方面。然而,目前尚不清楚 RLVR 是否真正扩展了模型的推理边界,还是仅仅放大了基础模型已经知晓的高奖励输出,以提高精确度。本研究通过理论和实证调查,
2025-07-25 13:45:21
351
原创 SPARKLE:深度剖析强化学习如何提升语言模型推理能力
强化学习(Reinforcement Learning,RL)已经成为赋予语言模型高级推理能力的主导范式。尽管基于 RL 的训练方法(例如 GRPO)已经展示了显著的经验性收益,但对其优势的细致理解仍然不足。为了填补这一空白,我们引入了一个细粒度的分析框架,以剖析 RL 对推理的影响。我们的框架特别研究了被认为可以从 RL 训练中受益的关键要素:(1)计划遵循和执行,(2)问题分解,以及(3)改进的推理和知识利用。
2025-07-19 21:19:42
737
1
原创 NoWait:少说Wait,多干实事,提升大模型推理效率
文章通过NOWAIT方法展示了在推理过程中抑制明确的自我反思关键词可以有效减少推理过程中的冗余,提高推理效率,同时保持模型的实用性。这种方法为大型推理模型的轻量化部署提供了新的见解,并且可以作为一种即插即用的解决方案,适用于多种模态的推理任务。尽管NOWAIT在多个基准测试中表现出了良好的效果,但文章也承认现有的基准测试可能无法全面展示模型的所有推理能力。用的解决方案。
2025-07-12 10:39:40
620
原创 We-MP-RSS:微信公众号订阅管理的开源利器
We-MP-RSS 是一个功能强大、易于使用且高度可配置的微信公众号订阅工具。它不仅提供了丰富的功能特性,还支持多种部署方式,适合个人用户和团队使用。适合需要高效地管理和订阅微信公众号内容。
2025-07-06 20:01:48
1225
原创 Twocast:一个高效生成双人播客的开源项目
Twocast 是一个开源的双人播客生成工具,支持多种生成方式,包括主题、链接、文档(doc/pdf/txt)和列表页。它能够一键生成 3 到 5 分钟的播客内容,并提供音频、大纲和脚本。Twocast 支持多语言,用户可以下载生成的音频,并且支持 Fish Audio、Minimax 和 Google Gemini 三大平台。Twocast 是一个功能强大的开源项目,为播客创作者提供了一个高效、便捷的生成工具。它支持多种生成方式和多语言,能够快速生成高质量的双人播客内容。
2025-07-05 11:55:21
700
原创 达摩院提出FineReason,系统性评估LLM推理中各步骤准确性的能力!!
节点:表示中间状态,描述当前谜题的完成阶段。边:表示状态检查和状态转换的执行。深度优先搜索(DFS):从初始谜题状态开始,进行深度优先搜索,直到没有更多有效状态可供探索。每个DFS步骤涉及一个最小移动,确保不遗漏任何有效状态。数独:每次添加或移除一个数字。图着色:每次为一个顶点分配或移除颜色。24点游戏:每次应用或取消应用两个剩余数字的运算。逻辑网格谜题:根据线索添加或移除属性组合。任务描述:评估给定状态是否可以导致可解的解决方案。实现方法。
2025-07-04 21:26:33
727
原创 基于任务定义的合成数据进行强化学习,有效提升LLM性能!!
文章提出了一种创新的模型适应方法,通过合成数据和强化学习相结合的方式,有效地减少了对人工标注数据的依赖,同时保持了模型在特定任务上的高性能。
2025-07-01 11:38:32
839
原创 DPO vs. GRPO:系统对比分析RL中DPO和GRPO的优劣!!
文章通过详细的实验分析,展示了DPO和GRPO在自回归图像生成中的不同优势。DPO在域内任务中表现更好,而GRPO在域外泛化中表现更优。文章还发现,奖励模型的泛化能力对RL算法的泛化性能有重要影响。
2025-06-29 14:50:01
867
原创 阿里发布TTS新作CosyVoice 3,语音合成更准、更自然!!
在我们之前的工作中,我们介绍了一个可扩展的流式语音合成模型CosyVoice 2,该模型集成了大型语言模型(LLM)和分块感知流匹配(FM)模型,并实现了低延迟双向流式语音合成和人类水平的质量。尽管取得了这些进展,但CosyVoice 2在语言覆盖范围、领域多样性、数据量、文本格式和后训练技术方面仍存在局限性。
2025-06-28 11:17:23
1094
原创 LED-Merging: 无需训练的模型合并框架,兼顾LLM安全和性能!!
文章提出了一种名为LED-Merging的模型合并框架,通过定位、选举和分离三个阶段,有效地解决了模型合并过程中出现的安全性和功能性之间的冲突问题。该方法无需额外训练,具有跨架构鲁棒性和模型规模无关性,能够在保持模型功能性的同时显著提升模型的安全性。
2025-06-23 19:51:13
550
原创 IndexTTS:B站开源最强中文TTS模型
文章提出的 IndexTTS 系统是一个基于 GPT 风格的零样本 TTS 模型,能够通过拼音纠正汉字发音,并通过标点符号控制停顿。该系统在多个模块上进行了改进,包括说话人条件特征表示的优化和 BigVGAN2 的集成,以提高音质。在数万小时的数据上训练后,IndexTTS 在性能上达到了行业领先水平,优于当前开源的 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等 TTS 系统。
2025-06-21 22:00:06
1130
原创 OneSug:快手发布了端到端Query Suggestion生成式模型,显著提升电商场景下的查询建议能力!!
文章提出的OneSug框架通过其端到端的生成式框架,有效地解决了传统多阶段级联架构在电子商务查询建议中的局限性。它通过增强前缀表示和统一的生成模型,实现了对用户查询意图的更深入理解和个性化建议。此外,基于奖励加权排序的用户偏好对齐策略进一步提高了模型的排序性能。
2025-06-20 21:28:36
815
原创 ZeroSearch:阿里开源无需外接搜索引擎的RL框架,显著提升LLM的搜索能力!!
文章提出的ZeroSearch框架通过模拟搜索引擎和课程式rollout策略,有效地提升了LLMs的搜索能力,无需与真实搜索引擎交互,从而避免了API费用高昂和文档质量不可控的问题。此外,其在多个问答数据集上取得了优异的性能,证明了其在不同模型和RL算法上的广泛适用性。
2025-06-20 13:59:21
507
原创 Thinkless:基于RL让LLM自适应选择长/短推理模式,显著提升推理效率和准确性!!
能够进行扩展的推理链(chain-of-thought reasoning)的推理语言模型(Reasoning Language Models),在需要复杂逻辑推理的任务上展现出了卓越的性能。然而,对所有问题都应用复杂的推理过程常常会导致显著的计算效率低下,特别是当许多问题本身就存在简单直接的解决方案时。这引发了这样一个开放性问题:大型语言模型(LLMs)能否学会何时进行思考?为了回答这一问题,
2025-06-15 20:51:16
335
原创 Apple提出“交错推理”降低首token耗时,并且显著提升推理准确性!!
长思维链(CoT)显著增强了大型语言模型(LLM)的推理能力。然而,广泛的推理痕迹导致了效率低下以及首次输出时间(Time-to-First-Token,TTFT)的增加。我们提出了一种新颖的训练范式,利用强化学习(RL)指导推理型LLM在多跳问题中交替进行思考和回答。我们观察到,模型本身具备交替推理的能力,这种能力可以通过强化学习进一步增强。
2025-06-13 21:52:33
961
原创 DeepCritic: SFT+RL两阶段训练突破LLM自我监督!显著提升大模型的自我批判能力!!
文章提出了一种有效的两阶段训练范式,通过监督式微调和强化学习显著提升了 LLMs 的数学批判能力。DeepCritic 模型不仅在多个基准测试中表现出色,还展示了在测试时扩展和弱监督方面的潜力。
2025-06-11 23:04:29
637
原创 CAR:推理长度自适应新框架,提升精度同时还降低推理token数!!
文章提出了 CAR 框架,这是一个基于模型置信度动态切换短答案和长形式推理的新方法。CAR 通过使用 PPL 作为置信度指标,有效地平衡了准确性和计算效率。在多种多模态和文本数据集上的实验表明,CAR 在保持推理准确性的同时,显著减少了推理标记的使用,优于现有的短答案和长形式推理方法。
2025-06-09 19:11:36
473
原创 VeriThinker:基于辅助验证任务微调,在准确率不变下,显著降低LLM过度思考推理!!
文章提出了一种有效压缩 CoT 推理链的方法VeriThinker,其通过在辅助的验证任务上进行监督验证微调,消除了对合成目标链数据的依赖,同时显著减少了推理标记的数量,保持甚至提高了推理准确性。此外,VeriThinker 还可以推广到推测解码,显著提高推理吞吐量。
2025-06-07 15:30:37
495
原创 R²ec: 构建具有推理能力的大型推荐模型,显著提示推荐系统性能!!
摘要:大型推荐模型通过编码或项目生成将大型语言模型(LLMs)扩展为强大的推荐工具,而近期在LLM推理方面的突破也同步激发了在推荐领域探索推理的动机。RecPO训练框架:为了训练 R²ec,作者提出了 RecPO,一个基于强化学习的训练框架,它通过引入融合奖励方案(结合离散排名奖励和连续相似性奖励)来优化模型,无需依赖专门的推理注释。R²ec 的核心设计是将推理(reasoning)和推荐(recommendation)任务集成到一个统一的模型架构中,通过自回归过程实现推理和推荐的交替进行。
2025-06-06 19:56:43
907
原创 如何选择有效的CoT提示提升模型推理性能!
文章通过对 CoT 提示的理论分析和实验验证,揭示了提示空间和答案空间的复杂性及其相互作用对 LLMs 推理性能的影响。研究强调了在 CoT 过程中,正确选择提示模板的重要性,并展示了人类监督在提高模型推理能力方面的关键作用。尽管文章的研究主要集中在简单的推理任务上,但其发现对于理解和设计更有效的 CoT 提示策略具有重要意义,为未来在更复杂任务上的研究提供了理论基础和实践指导。
2025-06-05 20:36:27
1015
原创 MaskSearch:提升智能体搜索能力的新框架
检索增强型语言模型(Retrieval-Augmented Language Models,RALMs)是一种经典范式,模型通过专门模块检索外部知识来增强生成能力。最近在Agent技术方面的进展使得大型语言模型(LLMs)能够自主利用工具进行检索、规划和推理。尽管现有的基于训练的方法显示出潜力,但它们的Agent能力受到训练中使用任务特定数据的固有特性的限制。为了进一步增强Agent的通用搜索能力,
2025-06-04 22:30:52
958
原创 RM-R1:基于推理任务构建奖励模型
本文提出将奖励建模与推理结合的全新范式,通过RM-R1模型与两阶段训练框架,实现了奖励模型在准确性与可解释性上的突破。实验表明,推理能力是提升奖励模型性能的关键,而结构化推理轨迹与任务感知评估策略是成功的核心。
2025-06-03 20:53:26
668
原创 ThinkPrune:在RL中引入长度限制,在保持性能一致或略有提升下,显著提升推理效率
THINKPRUNE 提供了一种有效的方法来减少大型语言模型的推理长度,同时保持或提升性能。通过在强化学习中引入长度限制,并采用迭代修剪策略,THINKPRUNE 能够优化模型的推理过程,去除冗余步骤,提高推理效率。
2025-06-02 11:35:16
1208
原创 AdaCtrl:自适应可控Reasoning,可降10~90%推理长度!!
AdaCtrl 提出了一种新的自适应和可控的推理框架,通过动态调整推理预算来平衡效率和效果。它通过两阶段训练流程使模型能够根据问题难度自适应调整推理长度,并通过长度触发标签为用户提供显式的推理预算控制。实验结果表明,AdaCtrl 在多个基准数据集上均表现出色,能够显著减少响应长度,同时保持或提升性能。
2025-06-01 11:43:29
843
原创 SoftThinking:让模型学会模糊思考,同时提升准确性和推理速度!!
文章提出了Soft Thinking方法,通过在连续概念空间中进行推理,显著提升了大模型在数学和编程任务中的推理性能和效率。该方法无需额外训练,能够保持输出的可解释性,并通过实验验证了其在多种基准测试中的有效性。由于引入了概念标记,使模型具有分布外的特性,故Soft Thinking在面对长推理链或输入分布变化时可能会遇到稳定性问题。未来的研究可以探索通过训练策略使模型适应概念标记,从而提高其在软思考范式下的鲁棒性和泛化能力。
2025-05-31 19:44:43
1042
原创 ConCISE:基于信心注入和早期停止,在准确率不降下,Reasoning过程砍掉一半!!
文章通过信心引导的视角对推理模型中的冗余反思进行了建模和分析,提出了 CONCISE 框架来增强推理效率。CONCISE 通过信心注入和早期停止两个机制,有效地减少了冗余反思步骤,同时保持了推理的连贯性和准确性。实验结果表明,CONCISE 在压缩推理链长度和保持任务性能之间取得了显著的平衡,并且在不同领域的任务上具有良好的泛化能力。
2025-05-24 10:00:00
482
原创 LLaVA-MoD:基于MoE结构和蒸馏训练方法,训练轻量化多模态大模型!!
LLaVA-MoD通过创新的MoE架构和渐进式知识蒸馏策略,有效地从大规模MLLM中提取知识,训练出性能卓越且计算高效的小型多模态语言模型。它在多模态理解和幻觉减少方面均取得了显著成果。
2025-05-20 14:11:22
531
原创 基于LLM合成高质量情感数据,提升情感分类能力!!
该文章提出了一种基于LLM的数据合成方法,用于生成细粒度情感分类数据集,并通过微调Bert的编码器模型,实现了在多个情感分类任务上的高性能。该方法不仅提高了情感分类的准确性,还通过上下文生成和清理步骤,增强了模型对上下文信息的利用能力。
2025-05-17 20:21:01
693
原创 LLM长短思维链联合微调,提升模型推理准确性并降低平均响应长度!!
文章通过结合长思考链和短思考链数据集进行监督微调,有效地将大型推理模型的推理能力转移到非推理型大模型中,同时避免了“过度思考”问题。这种方法不仅提高了模型的推理准确率,还显著减少了模型的响应长度,提高了推理效率。
2025-05-17 10:00:00
983
原创 SpecSearch:通过推测搜索加速模型Reasoning能力,提升模型的推理性能和效率!!
SpecSearch 提供了一种在保持与大型模型相当的推理质量的同时,显著加速 LLM 推理的新方法。通过在思考和标记级别上让小型模型与大型模型进行协作,并引入质量保持拒绝机制,SpecSearch 在多个数据集和模型上实现了显著的推理加速,同时保持了较高的推理质量。此外,SpecSearch 与不同的 LLMs、搜索算法和思考评估器具有良好的兼容性,展示了其广泛的适用性。然而,SpecSearch 的性能在一定程度上依赖于思考评估器的准确性和小型模型的质量,这可能限制了其在某些情况下的性能。
2025-05-13 10:20:36
962
原创 弹性Reasoning!通过RL训练控制推理预算,提升模型的推理能力和效率!
大型推理模型(LRMs)通过生成扩展的思维链(CoT)在复杂任务上取得显著进展,但不受控制的输出长度在实际部署中带来挑战。为此,研究提出了弹性推理框架,将推理过程分为“思考”和“解决方案”两个阶段,并为每个阶段分配独立预算。该方法在资源紧张情况下显著提高了可靠性,并引入预算受限的滚动策略训练模型,使其在思考过程被截断时仍能有效推理。实验结果显示,弹性推理在数学和编程基准测试中,在严格预算限制下表现出色,且训练成本低,即使在无约束环境中也能生成更简洁高效的推理。
2025-05-11 19:16:00
947
原创 SPC:通过对抗性博弈,让LLM左右互搏提升性能
SPC旨在通过对抗性自博弈游戏来评估大模型(LLM)的推理步骤,从而消除对人工步骤级标注的需求。该方法的核心思想是利用两个角色:一个“狡猾”生成器(Sneaky Generator)和一个步骤评价器(Step Critic),通过强化学习不断优化这两个角色的能力。
2025-05-08 19:30:41
913
原创 ReasonIR:针对通用推理任务训练的检索器
我们提出了 REASONIR-8B,这是首个专门针对通用推理任务训练的检索器。现有的检索器在推理任务上表现有限,部分原因是现有的训练数据集侧重于与文档直接相关的简短事实性查询。我们开发了一个合成数据生成流程,针对每篇文档,该流程生成一个具有挑战性且相关的查询,以及一个看似相关但最终无用的困难负样本。通过在合成数据和现有公共数据的混合数据上进行训练,R。
2025-05-07 10:00:00
1410
原创 ReasonIR:基于多样化的合成数据,针对通用推理任务训练的检索器
我们提出了 REASONIR-8B,这是首个专门针对通用推理任务训练的检索器。现有的检索器在推理任务上表现有限,部分原因是现有的训练数据集侧重于与文档直接相关的简短事实性查询。我们开发了一个合成数据生成流程,针对每篇文档,该流程生成一个具有挑战性且相关的查询,以及一个看似相关但最终无用的困难负样本。
2025-05-07 09:33:10
707
原创 MCP详解:手把手教你理解和如何使用各种开源MCP服务
MCP 作为一种开放协议,为 AI 模型与外部世界的连接提供了标准化的解决方案。它不仅降低了开发门槛,还极大地扩展了 AI 应用的边界。无论是开发者还是普通用户,都可以通过 MCP 更高效地利用 AI 技术,实现更多智能化的功能。
2025-05-06 10:00:00
3832
1
原创 OpenRouter:AI 模型的超级连接器,手把手教你如何使用!
OpenRouter 作为一个强大的 AI 模型聚合平台,为开发者和用户提供了便捷、高效的解决方案。它不仅简化了 AI 模型的接入和使用过程,还提供了丰富的模型选择和灵活的定价机制。无论你是希望快速开发 AI 应用程序的开发者,还是需要使用多种 AI 模型的用户,OpenRouter 都是一个值得尝试的工具。随着 AI 技术的不断发展,OpenRouter 也在持续更新和优化,未来将为用户提供更多更好的功能和服务。
2025-05-05 14:09:03
3273
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人