大家好,今日必读的大模型论文来啦!
PosterAgent:全自动学术海报生成 agent
在科学交流中,学术海报制作是一项至关重要但具有挑战性的任务,需要将长上下文交错的文件压缩成一个视觉连贯的页面。
为了应对这一挑战,来自滑铁卢大学、新加坡国立大学和牛津大学的研究团队推出了首个用于海报生成的基准和度量标准套件,该套件将近期的会议论文与作者设计的海报配对,并在以下方面对输出结果进行评估:(1)视觉质量–与人类海报的语义一致性;(2)文本一致性–语言流畅性;(3)整体评估–由 VLM 作为评委评分的六项细粒度美学和信息标准;以及(4)PaperQuiz–海报传达核心论文内容的能力,由 VLM 回答生成的测验来衡量。
在这一基准的基础上,他们提出了“海报智能体”(PosterAgent),这是一个自上而下、可视化的多 agent 流水线:(1)解析器将论文提炼为结构化的资产库;(2)规划器将文本-视觉对齐为二叉树布局,以保持阅读顺序和空间平衡;(3)绘制器-注释器循环通过执行渲染代码和使用 VLM 反馈来消除溢出并确保对齐,从而完善每个面板。
在综合评估中,他们发现 GPT-4o 的输出结果–虽然乍看之下很有视觉吸引力–往往表现出文本嘈杂和 PaperQuiz 分数较低的问题,而且他们发现读者的参与是主要的美学瓶颈,因为人类设计的海报主要依靠视觉语义来传达意义。他们的完全开源变体(如基于 Qwen-2.5 系列的变体)在几乎所有指标上都优于现有的 4o 驱动多 agent 系统,同时使用的 token 减少了 87%。它能将 22 页的论文转化为最终定稿但可编辑的 PPT 海报,且只需 0.005 美元。
论文链接:
https://arxiv.org/abs/2505.21497
ScienceBoard:科学多模态自主 agent 评估
像人类一样与操作系统交互的 computer-using agent,推动了自动化解决科学问题和解决研究人员工作流程中的常规问题。
认识到这些 agent 的巨大潜力,来自香港大学和上海 AI Lab 的研究团队及其合作者推出了 ScienceBoard,它具有两方面贡献:(1)一个逼真的多领域环境,具有动态和视觉丰富的科学工作流,并集成了专业软件,agent 可以通过不同的界面自主交互,以加速复杂的研究任务和实验;(2)一个具有挑战性的基准,由人类策划的 169 个高质量、经过严格验证的真实世界任务组成,涵盖生物化学、天文学和地理信息学等领域的科学发现工作流。
对具有 SOTA 骨干的 agent(如 GPT-4o、Claude 3.7、UI-TARS)进行的广泛评估表明,它们尚无法在复杂的工作流程中为科学家提供可靠的帮助,总体成功率仅为 15%。深入分析进一步为解决目前 agent 的局限性和更有效的设计原则提供了见解,推动了更有能力的科学发现 agent 的构建。
论文链接:
https://arxiv.org/abs/2505.19897
WebCoT:通过重构思维链增强网页 agent 推理
由大语言模型(LLM)驱动的网页 agent 为下一代人工智能(AI)带来了希望,但它们在不确定的动态网络环境中的有限推理能力阻碍了其鲁棒部署。
在这项工作中,来自香港中文大学、腾讯 AI Lab 和美国西北大学的研究团队确定了有效网页 agent 所必需的关键推理技能,即反思与前瞻(Reflection & Lookahead)、分支(Branching)和回滚(Rollback),以及通过将 agent 的(推理时)推理算法重构为思维链推理依据,策展可以体现这些能力的轨迹数据(trajectory data)。
他们在 agent 自我改进基准 OpenWebVoyager 中进行了实验,并证明通过简单的微调将突出的推理模式到主干 LLM 中,可以大幅提高其性能。这一方法在多个基准测试(包括 WebVoyager、Mind2web-live 和 SimpleQA)中都取得了显著的改进,凸显了网页 agent 有针对性地增强推理技能的潜力。
论文链接:
https://arxiv.org/abs/2505.20013
虚假奖励:重新思考 RLVR 中的训练信号
来自华盛顿大学的研究团队及其合作者的研究表明,可验证奖励强化学习(RLVR)可以在某些模型中激发出很强的数学推理能力,即使是与正确答案几乎不相关、甚至负相关的虚假奖励。
例如,RLVR 可以使 Qwen2.5-Math-7B 的 MATH-500 成绩在绝对分数上提高 21.4%(随机奖励)、16.4%(格式奖励)、24.6%(错误标签)、24.4%(1-shot RL)和 26.5%(多数投票)–几乎与 ground truth 奖励的 28.8% 相等。
然而,研究团队表示,对 Qwen 有效的虚假奖励往往无法在 Llama3 或 OLMo2 等其他模型系列中产生收益。特别是,他们发现代码推理–在不实际执行代码的情况下进行代码思考–是 Qwen2.5-Math 的一种独特行为,在 RLVR 之后,这种行为的频率显著提高,从 66.7% 提高到 90%以上,即使使用虚假奖励也是如此。
他们假设,由于缺乏有用的奖励信号,RLVR 一定会以某种方式浮现出在预训练期间学到的有用推理表征,但具体机制仍是未来工作研究方向之一。他们建议,未来的 RLVR 研究应该在不同的模型上进行验证,而不是选择单一模型,因为这一研究表明,即使在奖励信号完全虚假的情况下,Qwen 模型也很容易获得显著的性能提升。
论文链接:
https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf