- 博客(2188)
- 资源 (1)
- 收藏
- 关注
原创 Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information
基于大型语言模型(LLM)的对话式人工智能(CAI),也称为生成式人工智能聊天机器人(如ChatGPT),正越来越多地应用于各个领域,但它们存在隐私风险,因为用户在与CAI对话时可能会泄露个人信息。最近的研究表明,基于LLM的CAI可能被用于恶意目的。然而,一种新型且特别令人担忧的恶意LLM应用仍未被探索:一种专门设计用于从用户那里提取个人信息的基于LLM的CAI。在本文中,我们报告了我们创建的基于大型语言模型的恶意对话式人工智能,这些AI基于使用不同策略来鼓励用户披露个人信息的系统提示。
2025-06-23 09:30:00
68
原创 Predic‘ng Early-Onset Colorectal Cancer with Large Language Models
研究背景与目的:早发性结直肠癌(EoCRC,年龄<45岁)发病率逐年上升,但现有筛查指南推荐年龄为45岁,导致年轻患者确诊时多为晚期。研究旨在利用电子健康记录(EHR)数据,通过机器学习(ML)和大型语言模型(LLM)预测EoCRC,以实现早期干预。数据与方法回顾性分析美国多个医疗系统的1,953例CRC患者,收集确诊前6个月的患者状况、实验室结果和观察数据。对比10种ML模型(如逻辑回归、随机森林、XGBoost等)和微调后的GPT-4o LLM的性能。
2025-06-23 08:30:00
103
原创 Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM
CAPTCHA(全自动区分计算机和人类的图灵测试)一直是在实际应用中部署网页代理的关键瓶颈,常常阻碍它们完成端到端的自动化任务。尽管现代多模态大语言模型(MLLM)代理在静态感知任务中表现出色,但其处理如CAPTCHA这类交互式、多步推理挑战的能力尚未得到充分测试。为填补这一空白,我们引入了Open CaptchaWorld,这是首个基于网络的基准测试平台,专门设计用于通过多样化和动态的CAPTCHA谜题评估MLLM代理的视觉推理和交互能力。
2025-06-22 09:30:00
75
原创 Learning Safety Constraints for Large Language Models
大型语言模型(LLMs)已成为强大的工具,但其通过有害输出和对抗攻击漏洞带来显著安全风险。我们提出SaP(Safety Polytope的简称),一种LLM安全的几何方法,直接在模型的表示空间中学习和执行多个安全约束。我们开发了一个框架,通过多面体的“面”识别安全和不安全区域,实现通过几何转向对不安全输出的检测和纠正。与现有修改模型权重的方法不同,SaP在表示空间中进行事后(post-hoc)操作,保留模型能力的同时执行安全约束。
2025-06-22 08:30:00
106
原创 MELT: Towards Automated Multimodal Emotion Data Annotation by Leveraging LLM Embedded Knowledge
尽管语音情感识别(SER)通过深度学习取得了显著进展,但标注仍然是主要障碍。人工标注不仅成本高昂,而且存在不一致性——标注者通常有不同的偏好,可能缺乏必要的上下文知识,导致标签多样且不准确。与此同时,大型语言模型(LLMs)已成为文本数据标注的可扩展替代方案。然而,LLMs在无人监督下进行音频数据标注的潜力尚未得到充分研究。为解决这些问题,我们应用GPT-4o对从情景喜剧《老友记》收集的多模态数据集进行标注,仅使用文本提示作为输入。
2025-06-21 09:30:00
122
原创 CREFT: Sequential Multi-Agent LLM for Character Relation Extraction
理解复杂的人物关系对叙事分析和高效的剧本评估至关重要,但现有的提取方法往往难以处理具有细微互动的长篇叙事。为应对这一挑战,我们提出了CREFT,一种利用专门的大型语言模型(LLM)智能体的新型顺序框架。首先,CREFT通过知识蒸馏构建基础角色图,然后迭代优化角色组成、关系提取、角色识别和组分配。在精心策划的韩剧数据集上的实验表明,CREFT在准确性和完整性方面均显著优于单智能体LLM基线。通过系统地可视化角色网络,CREFT简化了叙事理解并加速了剧本审查,为娱乐、出版和教育部门带来了实质性好处。
2025-06-21 08:30:00
79
原创 SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training
研究背景现有低秩梯度优化方法(如GaLore)虽能减少LLM训练内存消耗,但依赖标准最速下降技术,忽略了各向异性损失景观下的收敛加速潜力。传统优化器(如Adam、Shampoo)在高维空间中计算成本高,近似正交化方法(如Newton-Schulz)存在误差累积问题,尤其在LLM训练的病态条件下表现不佳。核心方法:SUMO优化器子空间感知矩正交化:利用动态低维子空间(通过随机截断SVD更新),对一阶矩矩阵进行精确SVD正交化,避免Newton-Schulz的近似误差。理论分析。
2025-06-20 09:30:00
131
原创 Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck
本文发现,许多最先进的大型语言模型(LLMs)缺乏关于视觉世界的层次知识,甚至对已确立的生物分类法也一无所知。这一缺陷使LLMs成为视觉大语言模型(VLLMs)层次化视觉理解的瓶颈(例如,能识别公子小丑鱼但无法识别脊椎动物)。我们通过从6种分类法和4个图像数据集构建的约100万道四选一视觉问答(VQA)任务得出这些结论。有趣的是,使用我们的VQA任务对VLLM进行微调在一定程度上再次证实了LLMs的瓶颈效应,因为这些任务对LLM层次一致性的提升超过了对VLLM的提升。
2025-06-20 08:45:00
73
原创 MiMo-VL Technical Report
模型介绍:小米开源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL两个视觉语言模型,在通用视觉理解和多模态推理任务上表现出色。其中,MiMo-VL-7B-RL在40项评估任务中35项优于Qwen2.5-VL-7B,在OlympiadBench上得分59.4,超过参数达78B的模型,在GUI接地任务OSWorld-G上得分为56.1,甚至超越了UI-TARS等专业模型。训练方法四阶段预训练:消耗2.4万亿token,包括投影仪预热、视觉语言对齐、通用多模态预训练和长上下文监督微调。
2025-06-19 09:30:00
94
原创 Large Language Models Often Know When They Are Being Evaluated
一、主要内容研究背景与目的若大型语言模型(LLM)能检测到自身正在被评估,可能会系统性改变行为,导致评估结果不可靠(类似人类的“霍桑效应”),甚至引发“策略性表现”(如隐藏真实能力)。研究旨在验证前沿LLM是否具备“评估意识”(即区分评估场景与真实部署场景的能力),并构建基准测试其性能。方法与数据基准数据集:收集61个来源的1000条文本记录(对话/代理交互),平衡“评估/部署”和“聊天/代理”场景,覆盖MMLU、SWEBench等公共基准及真实部署数据。评估方式。
2025-06-19 08:30:00
77
原创 A Hybrid Multi-Agent Prompting Approach for Simplifying Complex Sentences
句子简化是计算语言学中的重要任务,目标是在保留原意的前提下将复杂句子转化为简单结构,在教育、无障碍内容、游戏设计等领域有重要应用。传统方法(规则系统、统计方法、神经网络)难以在简化同时保持语义等价,LLM单独使用时因简化策略多样易失效,微调也可能因训练集有限导致过拟合。复杂句子在动作导向场景(如机器人、游戏逻辑)中存在条件逻辑嵌套、时间依赖等挑战,需分解为可执行步骤。混合多智能体架构:将句子分解、评估、修订任务分配给专用智能体,通过协作提升简化质量,解决单智能体在复杂逻辑处理中的局限性。
2025-06-18 14:14:32
12
原创 SALE : Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling
研究背景与问题:长上下文LLM应用中,自注意力模块在预填充阶段因二次时间复杂度成为瓶颈。现有稀疏注意力方法多采用粗粒度检查,导致模型精度显著损失。SALE方法核心三阶段处理流程:通过量化(4位查询-键乘积)、选择阶段(块稀疏注意力掩码构建)和计算阶段(仅计算重要块)实现高效稀疏注意力。相对注意力分数(Relative Attention Score):基于“sink-local”区域(序列首尾)的注意力权重相对大小评估重要性,动态调整稀疏度。硬件优化。
2025-06-18 09:30:00
90
原创 Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap
研究背景与问题:视觉语言模型(VLM)在部署时需确保输出安全,但其安全性较语言模型(LLM)骨干显著下降。即使是空白或无关图像,也可能触发VLM生成有害响应,这与图像和文本表示的“模态差距”有关。现有研究虽假设模态差距影响VLM安全性,但未明确其影响机制及程度。核心发现模态差距与VLM的不安全率呈强负相关,即模态差距越大,模型越容易生成有害响应。模态差距在预训练阶段形成,并在微调过程中持续存在,是导致VLM安全性下降的关键因素。方法:REGAP。
2025-06-18 08:30:00
95
原创 XGRAMMAR: FLEXIBLE AND EFFICIENT STRUCTURED GENERATION ENGINE FOR LARGE LANGUAGE MODELS
主要内容本文提出了XGrammar,一个针对大语言模型(LLM)的灵活高效结构化生成引擎,旨在解决上下文无关文法(CFG)在约束解码中效率低下的问题。词汇分类与缓存:将词汇分为上下文无关token(可预检查)和上下文相关token(运行时解释),构建自适应令牌掩码缓存,减少运行时检查开销。上下文扩展:通过预计算规则的扩展后缀,过滤无效的上下文相关令牌,进一步减少运行时处理量。持久化栈机制:设计高效的持久化执行栈,支持状态分支和回滚,加速上下文相关令牌的检查。与LLM推理引擎协同设计。
2025-06-17 09:30:00
274
原创 Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting
大语言模型(LLMs)在决策领域展现出巨大潜力,但预训练模型存在推理能力不足、难以适应新环境的问题,严重制约了其在复杂现实任务中的应用。现有方法如强化学习(RL)单独使用或LLM辅助RL的方式,仍依赖token预测范式,缺乏结构化推理和快速适应性。大语言模型(LLMs)因其存储的海量知识,在决策领域展现出巨大潜力。然而,这些预训练模型往往缺乏推理能力,难以适应新环境,进一步阻碍了它们在复杂现实任务中的应用。
2025-06-17 08:30:00
443
原创 FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation
FABLE基准介绍:FABLE是首个针对大语言模型(LLMs)在程序文本中数据流推理能力的评估基准,改编自软件工程中的8种经典数据流分析方法(如到达定义、活跃变量分析、污染分析等),并将其应用于烹饪食谱、旅行路线和自动化计划三个真实世界领域。数据集构建从三个领域收集数据并处理为结构化表示,包括步骤依赖图和实体流图。包含2400个问答对,每个领域-分析组合有100个示例,覆盖不同复杂度和自动化水平的程序文本。实验评估。
2025-06-16 09:30:00
93
原创 Optimizing the Interface Between Knowledge Graphs and LLMs for Complex Reasoning
大型语言模型(LLMs)在自然语言处理任务中表现出色,但存在事实性错误和知识更新困难等问题。检索增强生成(RAG)通过外部知识检索缓解这些问题,而结合知识图谱(KGs)的GraphRAG进一步支持多步推理和结构化知识访问。然而,此类系统的超参数优化(如分块大小、检索策略、提示模板等)尚未被系统研究。本文利用Cognee框架,在多跳问答基准上优化KG与LLM接口的超参数,探索性能提升的可能性及评估指标的局限性。将大型语言模型(LLMs)与知识图谱(KGs)集成会形成复杂系统,其众多超参数直接影响性能。
2025-06-16 08:30:00
85
原创 Can LLMs and humans be friends? Uncovering factors affecting human-AI intimacy formation
实验1(29名用户参与):发现逐步加深的自我表露显著提升感知的社会亲密度,且不受人格相似性(用户与LLM的 persona 匹配度)的影响。普通LLM的正式语言风格和机械共情(如不加区分地同意用户观点)会破坏沉浸感,导致用户感知不真诚。实验2(53名用户参与,引入自我批评机制):自我批评机制(self-criticism)通过优化响应的自然性(如使用口语化表达、校准共情),显著提升用户对LLM的初始亲密度感知,尤其在互动早期效果明显。过度共情可能引发不适,表明需平衡情感表达的丰富性与自然性。
2025-06-15 09:45:00
80
原创 S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal
本文提出了一种基于多模态大语言模型(MLLM)的可扩展自监督自动驾驶运动规划框架S4-Driver,旨在解决端到端自动驾驶中依赖人工标注和3D空间推理能力不足的问题。稀疏体表示(Sparse Volume Representation):将多视图、多帧图像的视觉信息聚合到3D空间,通过轻量级投影和门控机制动态选择关键区域,增强模型的3D时空推理能力,且无需微调预训练的视觉编码器。分层规划与元决策(Hierarchical Planning with Meta-Decision)
2025-06-15 08:30:00
119
原创 Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side
人类偏好数据的质量对于大语言模型(LLM)的训练和评估至关重要,尤其是在人类反馈强化学习(RLHF)和直接偏好优化(DPO)场景中。传统的并排(SBS)标注方法通常难以应对固有不确定性、标注者分歧以及偏好判断的复杂性。本文提出一种基于直觉模糊集(IFS)的新框架,用于LLM数据标注任务中的人类偏好建模和聚合。我们的方法不仅通过隶属度、非隶属度和犹豫度捕捉偏好程度,还捕捉人类判断中固有的不确定性和犹豫。
2025-06-14 09:45:00
80
原创 PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models
大型语言模型(LLMs)发展迅速,日益能够解决包括物理学在内的复杂科学问题。尽管如此,当前LLMs往往无法模仿人类专家简洁、基于原理的推理特点,而是生成冗长且不透明的解决方案。这种差异凸显了它们在应用核心物理原理进行高效且可解释的问题解决方面的关键能力差距。为了系统地研究这一局限性,我们引入了PhySense,这是一个新颖的基于原理的物理推理基准。该基准设计为专家使用指导原理可轻松解决,但对于没有基于原理优先推理的LLMs来说却看似简单实则困难。
2025-06-14 08:30:00
124
原创 LLM Inference Enhanced by External Knowledge: A Survey
外部知识分类非结构化数据:包括文本、图像、音视频等,需通过NLP、计算机视觉等技术提取信息,虽丰富但存在预处理成本高、易引入噪声等问题。结构化数据表格:以行列形式组织数据,适用于事实验证、数值推理等任务,整合方法包括符号推理(如Text-to-SQL)、神经推理(如Chain-of-Table)和混合推理(如H-STAR)。知识图谱(KGs):以三元组形式表示实体关系,支持多跳推理,整合策略分为松耦合(如CoK、RRA)和紧耦合(如ToG、PoG)。整合方法与性能对比表格整合。
2025-06-13 09:30:00
18
原创 MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
带可验证奖励的强化学习(RLVR)最近成为大型语言模型(LLMs)训练后的强大范式,在具有结构化、可验证答案的任务上实现了最先进的性能。将RLVR应用于多模态LLMs(MLLMs)带来了重大机遇,但视觉-语言任务的广泛性和异质性使其复杂化,这些任务需要细致的视觉、逻辑和空间能力。因此,使用RLVR在多个数据集上训练MLLMs可能是有益的,但不同数据集之间的交互会产生目标冲突,这凸显了需要最优数据集混合策略来提高泛化和推理能力。
2025-06-13 08:30:00
82
原创 LLM Weekly(2025.06.02-06.08)
小米的 LLM-Core 团队开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL,这两款领先的视觉语言模型在视觉理解和多模态推理方面表现出色。通过比较模型对收入的影响,HyperWrite 确保其选择与业务目标一致,如 GPT-4.1 所示,它在匹配现有模型性能的同时降低了成本。通过协同定位这些进程,系统跳过了 HTTP 通信,支持张量并行和数据并行,并简化了部署,使其具有可扩展性且适用于大规模模型训练的生产环境,从而提高了效率。研究人员通过自我反思和强化学习增强了大型语言模型。
2025-06-12 14:18:32
102
原创 Adversarial Preference Learning for Robust LLM Alignment
本文提出了对抗偏好学习(APL)框架,旨在提升大型语言模型(LLMs)对抗对抗性攻击的鲁棒性。传统基于人类反馈的强化学习(RLHF)方法存在人工标注成本高、对抗攻击场景覆盖不足以及奖励偏差等问题。基于内在偏好概率的直接危害度量:无需外部评估系统,通过模型生成有害/安全响应的概率直接评估漏洞。条件生成攻击者:自动生成多样化的对抗性提示,覆盖更广的输入空间。迭代闭环反馈框架:攻击者与防御者通过迭代交互持续发现和修复漏洞。
2025-06-12 09:30:00
122
原创 SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal LLM
本文提出了一种名为SpatialPrompting的全新框架,旨在借助现成的多模态大型语言模型(LLM)的推理能力,实现三维环境下的零样本空间推理。该框架的核心在于关键帧驱动的提示生成策略关键帧提取:从图像序列中挑选出具有代表性的关键帧。在这个过程中,综合运用视觉-语言相似性、马氏距离、视野(FOV)以及图像清晰度等多种指标,以确保所选关键帧既能涵盖丰富的空间信息,又能避免冗余。提示生成:将提取出的关键帧与对应的相机位姿数据相结合,形成结构化的提示输入到多模态LLM中。
2025-06-12 08:30:00
89
原创 Latte: Transfering LLMs’ Latent-level Knowledge for Few-shot Tabular Learning
本文聚焦于小样本表格学习(Few-shot Tabular Learning)难题,提出了Latte框架,借助大语言模型(LLMs)的潜在知识优化下游模型训练,有效缓解了小样本场景下的数据不足与过拟合问题。具体内容如下:问题背景Latte框架设计实验验证训练时潜在知识提取首次将LLMs作为“教师”,在训练阶段提取其隐层状态的潜在知识(非文本生成),避免文本级知识的幻觉问题,提升特征工程可靠性。语义感知与知识融合架构无监督预训练与元学习结合利用无标注数据生成伪标签进行元学习,为下游任务提供鲁棒的参数初始化
2025-06-11 10:30:00
78
原创 PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization
本文提出了一种针对Solidity智能合约的测试用例生成框架PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation),旨在通过突变优先化和LLM驱动的测试生成,解决传统变异测试中测试套件庞大、计算开销高的问题。框架设计突变优先化模块:利用机器学习模型(岭回归)预测存活突变体的“有用性”,基于突变体包含图(DMSG)和测试完整性提升概率(TCAP),选择高影响力的突变体作为测试目标,减少冗余。测试生成模块。
2025-06-11 08:30:00
113
原创 Frame In, Frame Out: Do LLMs Generate More Biased News Headlines than Humans?
研究背景媒体框架通过选择性强调或淡化某些细节来塑造公众认知,而LLMs在自动化新闻生成中的应用日益广泛,其可能引入或放大框架偏见的问题引发担忧。现有研究多关注人类框架,对LLMs如何内化和重现框架模式的探讨较少。研究方法使用XSUM数据集(BBC新闻摘要),对比27种LLMs(包括开箱即用和微调模型)与人类生成的新闻标题的框架倾向。采用GPT-4系列模型作为“评审团”检测框架,通过关键词分类法分析不同主题(如政治、健康、经济等)的框架差异。核心发现人类与LLMs对比。
2025-06-10 09:30:00
90
原创 Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization
摘要高质量多模态生物医学数据的稀缺性限制了预训练大语言模型(LLMs)在专业生物医学任务中的有效微调能力。为应对这一挑战,我们提出了MINT(多模态集成知识迁移)框架,通过偏好优化将单模态大解码器模型与高质量多模态生物医学数据中的领域特定决策模式对齐。尽管MINT支持不同的优化技术,但我们主要以优势比偏好优化(ORPO)框架为 backbone 实现。该策略使对齐后的LLMs能够使用纯文本或纯图像输入执行预测任务,同时保留从多模态数据中学习到的知识。
2025-06-10 08:30:00
110
原创 DisTime: Distribution-based Time Representation for Video Large Language Models
研究背景视频大语言模型(Video-LLMs)在时间敏感任务(如时刻检索、密集视频字幕、接地视频问答)中面临离散时间表示和时间感知数据集有限的挑战。现有方法存在三大问题:文本-数字混合表示(如GroundingGPT)导致分类混淆;专用时间标记(如Momentor)受长尾分布和时间不连续性影响;重型时间模块(如InternVideo2.5)增加计算成本且依赖视觉信息重输入。DisTime框架核心设计:引入可学习时间标记。
2025-06-09 14:49:36
19
原创 Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules
本文聚焦于提升大语言模型(LLMs)在对话中处理引用文本的能力,提出了一种名为QuAda的即插即用模块,旨在解决现有模型缺乏显式定位和利用引用片段的问题。问题建模:将引用对话形式化为跨段条件生成(span-conditioned generation),将对话分解为历史记录HHH、引用片段集合RRR和意图话语UUU,定义了Base、Multi-Span、Exclude、Info-Combine、Coref五种典型引用场景。数据构建。
2025-06-09 09:30:00
96
原创 Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model
周期性或准周期性现象揭示了各种自然过程的内在特征,如天气模式、运动行为、交通流量和生物信号。鉴于这些现象跨越多种模态,多模态大语言模型(MLLMs)的能力为有效捕捉和理解其复杂本质提供了广阔前景。然而,当前MLLMs在周期性任务中面临挑战,主要源于以下限制:1)缺乏时间建模能力;2)短周期和长周期之间的冲突。本文介绍了Period-LLM,这是一种多模态大语言模型,旨在提升跨各种模态的周期性任务性能,并构建了一个具有不同难度的基准,用于评估大型模型的跨模态周期性能力。
2025-06-09 08:30:00
654
原创 MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs
大型语言模型(LLMs)和视觉语言模型(VLMs,统称LMs)已革新了自然语言处理(NLP)和计算机视觉(CV)领域,在多个领域展现出显著潜力。然而,其在情感分析(即情绪分析和情感检测)中的能力仍未被充分探索。这一空白主要归因于缺乏全面的评估基准,以及情感分析任务本身的复杂性。本文引入MMAFFBen,首个用于多语言多模态情感分析的大规模开源基准。MMAFFBen涵盖35种语言的文本、图像和视频模态,包含四项关键情感分析任务:情感极性、情感强度、情绪分类和情绪强度。
2025-06-08 09:30:00
88
原创 HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding
摘要验证器在大型语言模型(LLM)推理中至关重要,强化学习等后期训练技术均需依赖验证器。然而,对于复杂编程问题,可靠验证器难以获取,因为伪装良好的错误解决方案通常只能通过精心设计的边缘测试用例检测,而这类测试用例难以合成。为此,我们提出HARDTESTGEN,一种基于LLM的高质量测试合成流水线。通过该流水线,我们构建了包含47k问题和合成高质量测试用例的竞赛编程数据集HARDTESTS。
2025-06-08 08:30:00
131
原创 LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization
语言驱动的视频动作定位任务不仅需要语言查询与视频片段的语义对齐,还需要对动作边界进行预测。然而,语言查询主要描述动作的主要内容,通常缺乏动作起始和结束边界的具体细节,这增加了人工边界标注的主观性,导致训练数据中存在边界不确定性。本文提出了两项创新:一方面,通过大语言模型(LLM)生成动作起始和结束边界的文本描述,对原始查询进行扩展。该方法为动作定位提供了更详细的边界线索,从而降低边界不确定性的影响。
2025-06-07 09:30:00
82
原创 Large Language Models Are More Persuasive Than Incentivized Human Persuaders
本文通过大规模实验对比了前沿大语言模型(LLM,Claude Sonnet 3.5)与受激励人类说服者的说服能力,发现LLM在真实(引导正确答案)和欺骗性(引导错误答案)场景中均显著优于人类,且其说服力直接影响答题者的准确率和收益。研究强调了AI说服能力的潜在风险,呼吁加强对齐和治理框架。摘要我们在一个交互式、实时对话测验环境中,直接比较了前沿大语言模型(LLM;Claude Sonnet 3.5)与受激励人类说服者的说服能力。
2025-06-07 08:30:00
128
原创 Emerging Properties in Unified Multimodal Pretraining
本文介绍了字节跳动开源的多模态基础模型BAGEL,其核心目标是通过大规模交错多模态数据预训练,实现统一的多模态理解与生成能力。BAGEL采用仅解码器架构和混合Transformer专家(MoT)设计,在文本、图像、视频和网页数据上进行训练,展现出复杂多模态推理的新兴能力,如自由形式图像操作、未来帧预测、3D操作和世界导航等。实验表明,BAGEL在标准基准测试中显著优于开源模型,并通过数据构建协议和模型架构创新,缩小了与专有系统(如GPT-4o、Gemini 2.0)的差距。
2025-06-06 09:30:00
101
原创 WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents
本文聚焦于网络导航领域的过程奖励模型(PRM)研究,提出了首个专为评估网络代理轨迹设计的模型,并构建了配套的训练数据集和评估基准。问题背景:现有网络代理依赖多模态大语言模型(MLLM)作为奖励模型,存在速度慢、成本高、性能不足等问题,尤其在长程序列决策中表现不稳定。核心方法:作为过程奖励模型,通过结构化清单(Checklist)将用户指令分解为可解释的子目标,实现对代理轨迹的步骤级评估。:包含4万个步骤级偏好对和注释清单,覆盖多领域、多难度任务,支持PRM训练。
2025-06-06 08:30:00
105
原创 Scaling Law for Quantization-Aware Training
本文围绕大语言模型(LLMs)的量化感知训练(QAT)展开研究,重点探讨4-bit精度(W4A4)下的缩放规律。通过268次QAT实验,分析了模型规模(N)、训练数据量(D)和量化粒度(G)对量化误差的影响,并提出统一的缩放定律。量化误差的影响因素:误差随模型规模增大而减小,随训练数据量和量化粒度粗化而增大。误差分解:权重和激活误差均遵循整体趋势,但敏感度不同。权重误差对训练数据更敏感,而激活误差(尤其是FC2层输入)是W4A4的主要瓶颈。混合精度优化。
2025-06-05 09:30:00
66
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人