自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

栖客

栖霞山下,客坐天涯!

  • 博客(1201)
  • 收藏
  • 关注

原创 梯度自适应策略优化:迈向大型语言模型的多目标对齐

【摘要】针对大型语言模型(LLMs)与多样化人类偏好对齐的挑战,本文提出梯度自适应策略优化(GAPO)方法。传统强化学习人类反馈(RLHF)在处理冲突偏好时存在局限,GAPO将问题建模为多目标优化,通过多梯度下降算法自适应调整各目标梯度权重,实现帕累托最优。扩展版本P-GAPO进一步融入用户偏好权重,生成定制化解决方案。理论证明GAPO具有收敛性,在Mistral-7B上的实验显示,其在有用性和无害性平衡上超越现有方法。该研究为复杂偏好对齐提供了新思路,相关成果由中科院计算所与浙江大学团队联合完成。

2025-07-03 22:26:26 779

原创 探测语言模型的评估意识

研究发现,语言模型能够识别评估与部署环境(评估意识),这可能影响AI安全评估的有效性。通过Llama-3.3-70B-Instruct实验表明,线性探测器可从模型内部表示中区分评估提示与真实部署提示(最佳AUROC达0.829),当前安全评估常被识别为"测试类"(如Insider Trading数据集100%被分类为测试)。研究揭示了现有安全评估方法可能因模型识别测试环境而失效,建议利用内部表示分析补充传统评估,为可信AI治理提供新工具。

2025-07-03 22:17:22 705

原创 MuRating:一种面向多语言大语言模型预训练的高质量数据选择方法

摘要 本文提出MuRating框架,解决多语言大语言模型(LLM)预训练中的数据质量评估问题。现有方法主要针对英语,而MuRating通过聚合多个英语评分器的成对比较结果(Bradley-Terry模型),学习统一质量评分,并将判断通过翻译投射到17种语言,构建单语、跨语言和并行文本对,训练多语言评估模型。实验表明,基于MuRating选择的5000亿token预训练的12亿参数LLaMA模型,在英语基准(ARC、MMLU等)上比基线方法提升1-3.4%,在多语言任务(XNLI、Flores等)上平均提升1

2025-07-03 22:15:18 840

原创 BranchNet:一种用于结构化多类别分类的神经符号学习框架

本文提出BranchNet,一种将决策树集成转换为稀疏神经网络的神经符号学习框架。该框架通过将决策路径映射为隐藏神经元,保留符号结构并支持梯度优化。实验表明,BranchNet在结构化多类分类任务中准确率显著优于XGBoost,同时保持可解释性。方法核心包括:1)根据数据集特性自动确定树的数量和大小;2)将决策路径映射为稀疏连接的隐藏层;3)冻结输出层以保持符号可解释性;4)通过批量归一化和权重缩放稳定训练。BranchNet无需手动调整架构,在符号可解释性和性能之间取得平衡,为结构化数据分类提供了新思路。

2025-07-03 22:10:45 542

原创 AI代理与Agentic AI:为未来制造导航众多概念

摘要: 随着生成式AI(GenAI)、大语言模型(LLMs)和多模态大语言模型(MLLMs)的发展,AI代理在语义理解、复杂推理和自主决策方面的能力显著提升。基于LLM和MLLM的AI代理(LLM-Agents、MLLM-Agents)以及新兴的Agentic AI范式,为智能制造提供了新的可能性,但其定义、应用边界及挑战仍需明确。本文系统回顾了AI与代理技术的发展历程,探讨了LLM-Agents、MLLM-Agents和Agentic AI的核心概念与技术进展,并分析了其在制造业中的潜在应用与面临的挑战。

2025-07-03 22:09:03 696

原创 为制造商赋能的隐私保护AI工具:一个隐私保护机器学习解决现实问题的案例研究

本文提出了一种面向中小型制造业的隐私保护数据共享平台,该平台允许制造商安全地共享专有数据,研究人员在此基础上开发创新工具并回馈给制造商使用。以食品晶体质量控制为例,研究团队针对显微镜图像分析开发了自动化解决方案:针对旧相机采用改进的图像处理流水线(包含自适应阈值和小簇去除模块),针对新相机数据采用基于StarDist的机器学习模型。最终工具通过Web应用程序部署,并在隐私保护平台中运行,确保数据安全。案例表明,该方法能有效解决制造业中的实际痛点(如人工晶体计数效率低),同时保护企业敏感信息。研究为中小企业利

2025-07-03 22:07:44 510

原创 LoRA 微调无需 GPU:一种适用于 CPU 的高效元生成 LLM 框架

本文提出了一种专为计算资源有限用户设计的CPU高效LoRA微调方法。该方法通过学习元操作符,将输入数据集映射到预训练LoRA权重的组合,无需GPU即可生成适配器。理论分析表明,该方案能有效识别最优LoRA混合系数,在下游任务中始终优于基础模型。实验验证了该方法在标准CPU上的可行性,为无法使用GPU的用户提供了实用替代方案。核心贡献包括:1) 轻量级LoRA生成流水线;2) 理论保证最优组合系数识别;3) 无神经网络的近似最优解决方案。

2025-07-03 22:06:34 658

原创 代理构思:一种利用代理式人工智能从专利中生成产品创意的框架

摘要 本研究提出Agent Ideate框架,利用大语言模型(LLMs)和自主代理从专利中生成创新产品概念。针对计算机科学、自然语言处理和材料化学三个领域的专利数据,实验对比了基于提示的LLM方法、无工具代理方法和带工具代理方法的性能。评估采用LLM-as-a-judge策略,结果显示带工具代理方法在创意质量、相关性和新颖性上显著优于其他方法,尤其在NLP和材料化学领域表现突出。这表明结合LLMs与多代理工作流能有效挖掘专利中的技术潜力,增强创新流程。代码已开源。

2025-07-03 22:04:26 714

原创 桥接UI设计与聊天机器人交互:将基于表单的原则应用于对话代理

本文提出一种将GUI交互隐喻(提交/重置)引入特定领域聊天机器人的方法,通过显式建模确认和上下文切换任务来改善多轮对话的清晰度。研究团队利用大型语言模型(LLM)生成结构化输出,结合链式思维(CoT)推理,使系统能够更准确地跟踪用户意图。该方法在酒店预订和客户管理场景中验证了有效性,显著提升了任务连贯性、用户满意度和操作效率。关键词:GUI启发的CoT、提交|重置隐喻、特定领域聊天机器人

2025-07-03 22:03:33 608

原创 Text2VectorSQL:统一自然语言查询的文本到SQL和向量搜索的桥梁

尽管Text-to-SQL技术能够实现与结构化数据库的自然语言交互,但由于其严格的语法限制和表达能力有限,在处理非结构化数据或模糊查询时效果不佳。同时,向量搜索已经成为语义检索的强大范式,特别是针对非结构化数据。然而,现有的VectorSQL实现仍然严重依赖手动编写,并且缺乏专门的评估框架,导致理论潜力与实际部署之间存在显著差距。

2025-07-02 21:05:30 1126

原创 Map&Make:基于模式引导的文本到表格生成

本文提出Map&Make框架,用于将非结构化文本转换为可解释的表格。该方法通过分解文本为原子命题,提取表格模式并填充内容,有效解决了复杂信息提取和模式推断问题。在Rotowire和Livesum数据集上的实验表明,该方法在表格生成质量和信息覆盖率方面优于现有技术。研究还修正了Rotowire基准中的幻觉问题,并通过消融实验验证了框架的有效性。该工作为结构化文本摘要提供了通用解决方案,在信息检索和知识管理领域具有应用价值。

2025-06-30 22:32:49 590

原创 TableMoE:用于多模态表格理解的结构化专家推理的神经符号路由

本文提出TableMoE框架,针对现实场景中结构复杂、视觉退化的多模态表格理解问题。通过神经符号混合连接专家(MoCE)架构,创新性地结合语义角色预测和符号推理图,动态路由表格元素至专用专家(表格转HTML/JSON/代码)。配套构建了包含120万组跨领域数据的TableMoE-Align预训练数据集,并发布四个WildStruct基准测试(WMMFinQA等)用于评估模型在真实退化条件下的表现。实验表明TableMoE显著优于现有方法,精确匹配率提升高达9.2%,同时具备良好的可解释性。代码和基准已开源。

2025-06-30 22:10:33 925

原创 自动化文本到表格的推理密集型表格问答任务:流程设计与基准测试洞察

本文提出了一种自动化生成流程AutoT2T,将数学文字问题转化为表格推理任务,解决了现有表格问答评估中人工标注成本高和表格异质性大两大瓶颈。通过神经符号方法,AutoT2T实现了语义解耦、表格转换和增强三个关键步骤,并支持生成包含噪声的表格变体。基于此构建的TabularGSM基准系统评估了不同复杂度表格下的模型表现,揭示了大型语言模型在推理与检索耦合任务中的关键失败因素。实验表明,模型需要发展协同推理能力才能有效应对复杂表格问答。该研究为推理密集型表格任务提供了标准化评估工具和深入分析。

2025-06-30 21:51:24 611

原创 $\mathbf{T}^{2}$-RAGBench: 用于评估检索增强生成的文本与表格基准

本文提出$\mathbf{T}^{2}$-RAGBench基准数据集,包含32,908个金融领域问题-上下文-答案三元组,用于评估检索增强生成(RAG)系统处理文本和表格混合数据的能力。不同于现有问答数据集依赖已知上下文,该基准要求模型先检索正确上下文再进行数值推理。作者将上下文依赖问题转换为独立格式,并全面评估主流RAG方法,发现混合BM25方法表现最佳。实验表明,即使最先进方法在该基准上仍具挑战性。该工作填补了文本表格RAG评估的空白,为相关研究提供了严格基准。数据集和代码已公开。

2025-06-30 21:45:33 628

原创 TReB:评估大语言模型表格推理能力的综合基准

本文提出了一种全面评估大语言模型(LLMs)表格推理能力的基准TReB,包含26个子任务,覆盖6大核心技能(自然语言理解、表格理解、表格基本操作、表格计算操作、数据分析和高级数据分析)。针对现有基准在数据质量、推理模式和评估指标方面的不足,TReB构建了高质量数据集(含人工验证的5,000+表格问答对),支持三种推理模式(TCoT、PoT、ICoT),并设计了多维度评估指标。实验测试了20+先进LLMs,结果表明现有模型在复杂表格任务上仍有显著提升空间。数据集和评估框架已开源,为表格推理研究提供了新标准。

2025-06-30 21:39:40 973

原创 QUEST:面向商业文档的质量感知半监督表格提取

QUEST:一种质量感知半监督表格提取框架 摘要:本研究提出QUEST框架,用于解决商业文档表格提取中的标注稀缺和误差传播问题。不同于传统半监督学习依赖置信度分数,QUEST引入质量评估模型,通过分析表格结构和上下文特征预测F1分数,指导伪标签选择。结合多样性度量(DPP、Vendi分数、IntDiv),该框架在专有商业数据集(1k标注+10k未标注)上将F1从64%提升至74%,空预测减少45%;在DocILE基准上F1提高至50%(原42%),空预测降低19%。QUEST的质量评估机制特别适合商业文档处

2025-06-30 21:34:27 997

原创 合成数据增强用于表格检测:使用自动生成的文档图像重新评估TableNet性能

本文提出了一种基于LaTeX的自动化流水线,用于生成包含多样化表格布局的两栏文档图像及其真实掩码。该合成数据增强了Marmot基准数据集,支持TableNet模型在不同分辨率(256×256和1024×1024)下的系统性能研究。实验表明,在合成测试集上,TableNet的逐像素XOR错误率分别为4.04%(256×256)和4.33%(1024×1024),在Marmot基准上最佳性能达9.18%(256×256)。该方法显著减少了人工标注工作量,并为文档图像分析中的表格检测任务提供了有效的解决方案。研究

2025-06-30 21:27:58 872

原创 TableEval:一个面向复杂、多语言和多结构表格问答的真实世界基准

大型语言模型(LLMs)在自然语言处理方面取得了显著进展。然而,在表格问答(TableQA)任务中仍面临重大挑战,其中真实世界中的复杂性如多样化的表格结构、多语言数据以及领域特定推理至关重要。现有的TableQA基准通常局限于简单的平面表格,并且存在数据泄漏问题。此外,大多数基准是单语的,无法捕捉实际应用中跨语言和跨领域的可变性。为了解决这些局限性,我们引入了TableEval,一个新的基准,用于评估LLMs在真实TableQA任务上的表现。

2025-06-30 21:26:14 901

原创 WikiMixQA:一种用于表格和图表问答的多模态基准

摘要 本文提出WikiMixQA——一个包含1000个多模态选择题的基准数据集,用于评估视觉-语言大模型(VLLMs)在长文档中的跨模态推理能力。数据源自4000篇维基百科页面,涵盖表格、图表及7个主题领域。研究测试了12种VLLMs,结果显示:专有模型在直接提供上下文时准确率达70%,但需自主检索长文档信息时性能骤降(仅GPT-4-o超50%);开源模型表现更差(最高27%)。该工作揭示了当前模型处理长文档多模态推理的局限性,为文档理解研究提供了重要基准。数据集构建包含自动筛选、语义配对、AI生成问题及人

2025-06-30 20:48:53 985

原创 KaLM-Embedding-V2:卓越的训练技术和数据激发了多功能嵌入模型

本文中,我们提出了KaLM-Embedding-V2,一种多功能且紧凑的嵌入模型,通过利用卓越的训练技术和数据,在通用文本嵌入任务中取得了令人印象深刻的性能。我们的关键创新包括:(1) 为了更好地使架构与表示学习匹配,我们移除了因果注意力掩码,并采用具有简单而有效均值池化的完全双向Transformer来生成固定长度的嵌入;(2) 我们采用多阶段训练流水线:(i) 在大规模弱监督开源语料库上进行预训练;(ii) 在高质量检索和非检索数据集上进行微调;以及 (iii) 利用模型融合参数平均法实现鲁棒泛化。

2025-06-29 21:56:23 1117

原创 挑战安全极限:ATLAS挑战赛2025技术报告

摘要 ATLAS 2025对抗性测试与大模型对齐安全大奖赛聚焦多模态大语言模型(MLLMs)的安全漏洞评估,吸引了86支队伍参与两阶段挑战。第一阶段(白盒攻击)要求参赛者针对180个有害文本提示设计对抗性图文对,测试开源模型Qwen2-VL-7B和Internvl2-8B的脆弱性;第二阶段(黑盒评估)进一步升级任务复杂度。比赛揭示了MLLMs在跨模态交互中的安全风险,为防御机制创新提供了基准。相关代码与数据已开源,推动更安全的AI系统发展。该竞赛由全球多所高校及机构联合组织,成果将于CVPR 2025展示。

2025-06-29 21:38:05 1017

原创 统一的视觉-语言-动作模型

摘要: 本文提出UniVLA,一种统一的自回归模型,将视觉、语言和动作表示为离散标记进行联合建模,支持多模态任务学习。不同于传统视觉-语言-动作(VLA)模型依赖独立编码器,UniVLA通过统一框架实现跨模态深度集成,并利用视频数据捕捉时间动态。实验表明,该模型在CALVIN、LIBERO等基准上达到最先进性能,且通过世界建模增强长期任务表现。UniVLA还展示了在自动驾驶等领域的扩展潜力,为通用具身智能提供了新方向。 (字数:149)

2025-06-29 21:31:34 876

原创 MiMo-VL 技术报告

小米开源视觉语言模型MiMo-VL-7B取得突破性进展 小米团队近日开源了MiMo-VL-7B系列视觉语言模型,包含SFT和RL两个版本,在多项基准测试中表现优异。该模型通过四阶段预训练(2.4万亿token)和混合策略强化学习(MORL)方法训练而成,在40项评估任务中有35项超越Qwen2.5-VL-7B。特别在GUI定位任务中,MiMo-VL-7B-RL以56.1的成绩创下OSWorld-G新纪录,甚至超过专用模型。研究证实,将长链式思维推理数据纳入预训练阶段对提升模型性能至关重要。团队同时发布了包含

2025-06-29 21:26:35 765

原创 PsyLite 技术报告

摘要 本研究提出PsyLite,一种基于InternLM2.5-7B-chat的轻量级心理咨询大模型,通过两阶段训练(混合蒸馏数据微调+ORPO偏好优化)提升深度推理、专业咨询与对话安全能力。创新性引入条件RAG机制,动态结合相声幽默以优化用户体验,同时拒绝危险请求保障安全性。实验表明,PsyLite在CPsyCounE(专业性+47.6%)和SafeDialBench(安全性+2.4%)显著优于基线,并通过量化技术(GGUF q4_k_m)实现5GB内存的低硬件部署。研究为资源受限环境提供了可行的心理咨询

2025-06-29 21:24:12 777

原创 LGAI-EmbEDDING-PREVIEW 技术报告

摘要: LG AI Research提出了一种基于指令的统一框架(LGAI-Embedding-Preview),利用Mistral-7B模型结合上下文学习、软监督和自适应硬负样本挖掘,生成通用文本嵌入。该方法无需任务微调,通过结构化指令和少量示例,在分类、语义相似性、聚类和重排序等任务中表现优异。软标签框架从高性能检索器中提取连续相关性得分作为监督信号,而自适应硬负样本挖掘则提升训练稳定性和检索鲁棒性。在MTEB(英文v2)基准测试的41项任务中,该模型展现出强大泛化能力,Borda得分排名前列,优于更大

2025-06-29 21:22:41 742

原创 技术报告:Kaldi ASR 优化实用指南

本文提出了一种基于Kaldi的自动语音识别系统优化方法,通过声学模型增强和语言模型改进提升性能。在声学模型方面,设计了结合卷积和自注意力的定制Conformer模块,并采用多流TDNN-F结构,将输入特征从40维升级为80维log Mel滤波器组,集成SpecAugment数据增强技术。语言模型优化包括贝叶斯优化和n-gram剪枝策略,使用KenLM提高训练效率。实验表明,该系统在保持计算效率的同时显著降低了字符错误率,为语音识别任务提供了可扩展的解决方案。

2025-06-29 21:21:00 666

原创 Amazon Nova 系列模型:技术报告与模型卡片

亚马逊推出全新Nova系列AI模型,包含多款针对不同场景优化的产品:Nova Pro是多模态全能模型,Nova Lite是低成本多模态方案,Nova Micro专注文本低延迟响应,Canvas和Reel分别提供图像/视频生成能力。该系列采用Transformer架构,支持200+语言处理,通过多阶段训练确保性能与安全性。基准测试显示其在文本理解、多模态处理等任务上达到行业领先水平,同时强调负责任AI原则。模型提供知识库集成、自定义微调等功能,兼顾专业需求与成本效益。技术细节包括潜在扩散框架(生成模型)和基于

2025-06-29 21:19:24 964

原创 为现实应用设计RAG系统:设计、开发与评估

摘要:本文探讨了检索增强生成(RAG)系统在实际应用中的开发与评估,聚焦于五个特定领域:治理、网络安全、农业、工业研究和医学诊断。研究团队与芬兰多机构合作,开发了集成多语言OCR、语义检索和适配领域LLM的RAG系统,并通过100名参与者的在线评估从易用性、相关性等六个维度进行测评。基于用户反馈和开发经验,研究总结了12项关键教训,揭示了RAG系统在技术、操作和伦理层面的挑战。最终版本将由IEEE出版于第51届欧洲微型计算机会议(SEAA 2025)。 (字数:150)

2025-06-29 21:18:53 903

原创 Argoverse2 场景挖掘挑战中迭代错误纠正与空间感知提示的技术报告

本文提出RefAV框架的改进方法,用于自动驾驶场景挖掘。针对大语言模型(LLM)生成代码的运行时错误和空间关系函数理解不准确的问题,提出了两项关键技术:容错迭代代码生成(FT-ICG)机制通过错误反馈优化代码;增强的空间关系函数提示(EP-SRF)提升LLM对复杂空间关系的理解。在Argoverse 2数据集上的实验表明,采用Qwen2.5-VL-7B、Gemini 2.5 Flash和Gemini 2.5 Pro等模型时,各项指标均有显著提升,其中Gemini 2.5 Pro的HOTA-Temporal得

2025-06-29 21:17:02 529

原创 OneRec 技术报告

摘要:快手推荐团队提出端到端生成式推荐系统OneRec,突破传统级联架构局限。该系统将计算效率提升10倍,训练和推理的模型FLOPs利用率(MFU)分别达到23.7%和28.8%,接近大语言模型水平。通过基础设施优化,运营成本降至传统方案的10.6%。在快手Lite应用中,OneRec处理25%的查询量,用户停留时间提升0.54%-1.24%,核心指标全面改善。该系统还首次验证了强化学习在推荐场景的潜力,并揭示了推荐系统的扩展规律。架构整合了多模态语义分词和编码器-解码器生成框架,解决了传统推荐系统计算碎片

2025-06-29 21:16:23 585

原创 带有证明的技术报告:一致性检查中的完整图景——高效总结所有最优对齐

本文研究了SBWF网中轨迹的跳过对齐问题,提出了有限性证明和转换规则,并证明了化简规则的终止性和局部合流性。通过扩展A-STAR算法,作者实现了所有最优跳过对齐标准形式的正确性与完备性计算。关键贡献包括:1)证明跳过对齐的有限性;2)设计将任意对齐转换为跳过对齐的方法;3)建立规范化标准形式的唯一性;4)开发能计算所有最优解的改进A-STAR算法。该研究为流程挖掘中的对齐问题提供了新的理论框架和计算方法。

2025-06-29 21:14:47 613

原创 运动预测与规划的规模法则 技术报告

我们研究了一族编码器-解码器自回归Transformer模型在自动驾驶领域联合运动预测和规划任务中的经验规模法则。使用约50万小时的驾驶数据集,我们证明了与语言建模类似,随着总计算预算的增加,模型性能以幂律函数的形式提高,并且我们观察到模型训练损失和模型评估指标之间存在强相关性。最有趣的是,闭环指标也随着规模扩展而改善,这对于模型开发和优化中开放环路指标的适用性具有重要意义。我们还研究了训练计算最优模型时Transformer参数数量和训练数据规模的最佳扩展方式。

2025-06-29 21:12:39 724

原创 通义千问3技术报告

阿里巴巴达摩院通义实验室推出Qwen3系列大模型,包括密集型和MoE架构,参数规模从0.6亿到235亿,支持119种语言。关键创新包括: 整合"思考模式"和"非思考模式",实现动态切换; 引入"思考预算"机制优化计算资源分配; 通过知识迁移技术减少小模型训练成本。 评估显示,Qwen3在代码、数学和多语言任务上达到SOTA性能,MoE模型仅需1/5激活参数即可媲美密集模型。235B版本相比前代Qwen2.5,性能显著提升而参数量更少。 模型采用三阶

2025-06-26 21:26:53 1057

原创 Odin:一种用于处理模式歧义的 NL2SQL 推荐系统

摘要: NL2SQL系统将自然语言转换为SQL查询,但复杂数据库模式中的歧义(如相似表/列名)影响准确性。本文提出Odin,一种NL2SQL推荐引擎,通过生成候选SQL查询集合并动态调整推荐数量来解决模式歧义问题。Odin采用生成-选择策略:生成阶段迭代探索不同模式解释,选择阶段利用共形预测框架过滤低质量查询。用户反馈帮助系统学习偏好,实现个性化推荐。实验表明,Odin在AmbiQT基准上生成正确SQL的概率比基线高1.5-2倍,且结果集更精简。主要贡献包括歧义处理框架、高效生成-选择方法及个性化学习算法。

2025-06-26 21:05:15 657

原创 MiniMax-M1:通过闪电注意力高效扩展测试时计算能力

我们介绍了MiniMax-M1,这是世界上首个开源权重、大规模混合注意力推理模型。MiniMax-M1由混合专家(MoE)架构与闪电注意力机制共同驱动。该模型基于我们之前的MiniMax-Text-01模型(MiniMax等,2025年)开发而成,总共包含4560亿个参数,其中每个标记激活459亿个参数。M1模型原生支持1百万个标记的上下文长度,是DeepSeek R1上下文大小的8倍。

2025-06-26 20:59:46 837

原创 使用来自NL2SQL数据集的可调用API进行LLM工具调用评估

本文摘要: IBM研究院团队提出了一种将自然语言转SQL(NL2SQL)数据集自动转换为自然语言转API(NL2API)数据集的新方法。研究者开发了创新的数据生成流水线,利用SQL语法构建等效的API调用序列,并应用于BIRD-SQL数据集,创建了包含2500多个API的工具集合(SLOT/SEL/REST三种形式)。实验评估了10个公开大模型的表现,发现它们在工具调用任务上完成率仅为7-47%,即使采用ReACT代理模式也仅提升至50%。研究还分析了工具数量、名称模糊化等因素的影响,发现模型处理SQL有时

2025-06-26 20:57:27 827

原创 通过 DeepSeek 进行周期计数

本文提出了一种人机协同方法解决周期计数统计量(CEEF)的计算高效等价形式问题。研究者结合自创算法与人工智能(主要使用DeepSeek-R1)的编程能力,成功解决了这一长期存在的数学难题。通过将问题分解为识别多重图类别和递归剪枝算法两个步骤,实现了将高阶周期统计量转换为低复杂度计算形式。结果表明,尽管AI无法独立解决问题,但在明确策略指导和精心设计的提示下,可以成为数学研究的有效助手。该工作不仅为网络分析等领域提供了实用公式,也展示了AI解决开放性数学问题的潜力。

2025-06-26 20:53:12 838

原创 Qwen3 Embedding:通过基础模型推进文本嵌入和重新排序

阿里巴巴通义实验室推出Qwen3 Embedding系列模型,包括0.6B、4B和8B三种规模。该系列基于Qwen3基础模型,采用多阶段训练策略:先进行无监督预训练,再监督微调。模型支持多语言文本理解和生成,在MTEB多语言基准测试中表现优异(70.58分),代码基准测试达80.68分。Qwen3-Reranker重新排序模型在检索任务中提升显著,8B版本性能优于现有模型。模型具有指令感知能力,支持嵌入维度自定义,适用于多种应用场景。所有模型遵循Apache 2.0协议开源。

2025-06-26 20:49:25 691

原创 大型语言模型的微调与提示工程,用于构建多智能体人工智能以应对可持续蛋白质生产挑战

本文提出了一种基于多智能体人工智能框架的概念验证系统,用于支持可持续微生物蛋白生产研究。该系统由两个大型语言模型(LLM)代理组成:文献搜索代理与信息提取代理,分别负责检索科学文献和提取关键生物化学信息。研究对比了微调与提示工程两种优化方法,结果显示微调使信息提取代理的平均余弦相似度评分提升≥25%,最高达≥0.94,而提示工程则表现出更低的统计不确定性。此外,团队开发了配套的用户界面并探索了化学安全性搜索功能。该研究为加速可持续蛋白质研发提供了智能化解决方案,通过自动化文献处理克服了传统手动研究的效率瓶颈

2025-06-26 20:45:31 859

原创 高保真复杂测试数据生成在现实SQL代码生成服务中的应用

本文探讨了在工业环境中利用大型语言模型(LLMs)生成高保真测试数据的方法,以解决传统数据生成方法在测试复杂SQL代码生成服务(如NL2SQL)时的局限性。由于生产数据的访问受限,传统方法难以生成符合复杂嵌套结构且语义一致的测试数据。研究提出了一种结合LLMs(如Gemini)与预处理和后处理步骤的创新方案,能够自动生成语法正确且语义有意义的模拟数据,支持包含连接、聚合和嵌套子查询的复杂SQL查询测试。实验表明,该方法显著提高了Google SQL代码生成服务的测试覆盖率,解决了手动生成和生产数据抽样带来的

2025-06-26 20:43:32 839

NLI4DB: 数据库的自然语言接口系统综述

随着在生活各个领域中查询数据库的需求不断增长,研究人员对 自然 语言 接口 用于 数据 库 (NLIDB)给予了极大的关注。本文对最近提出的NLIDBs进行了全面的调查。我们首先简要介绍了自然语言处理技术、可执行数据库语言和自然语言与可执行语言之间的中间表示,然后提供了从自然语言到可执行数据库语言的翻译过程概述。翻译过程分为三个阶段:(i) 自然语言预处理 ,(ii) 自然语言理解 ,以及(iii) 自然语言翻译 。预处理阶段使用了传统方法和数据驱动方法。传统方法依赖于预定义的规则和语法,并涉及正则表达式、依存句法分析和命名实体识别等技术。数据驱动方法依赖于大规模数据和机器学习模型,使用包括词嵌入和模式链接在内的技术。自然语言理解方法分为三类:(i) 基于规则 ,(ii) 基于机器学习 ,以及(iii) 混合方法 。随后,我们描述了在关系数据库和时空数据库上构建可执行语言的一般过程。接下来,展示了将自然语言转换为可执行语言的常用基准和评估指标,并探讨了生成新基准的方法。最后,我们总结了NLIDB系统的分类、发展和增强,并讨论了与NLIDB相关的深度语言理解和数据库交互技术,包括(i)

2025-03-30

FutureGen:生成科学文章未来工作的LLM-RAG方法

科学文章的未来工作部分通过识别当前研究的空白和局限性来概述潜在的研究方向。这一部分为寻找未开发领域的早期职业研究人员以及寻找新项目或合作的经验丰富的研究人员提供了宝贵的资源。在本研究中,我们从科学文章的关键部分及相关论文中生成未来工作建议,并分析趋势如何演变。我们尝试了各种大型语言模型(LLMs),并集成了检索增强生成(RAG)以增强生成过程。我们结合了一个LLM反馈机制以提高生成内容的质量,并提出了一种将LLM作为评估者的做法。我们的结果显示,基于RAG的方法加上LLM反馈在定性和定量指标评估中优于其他方法。此外,我们进行了一项人工评估,以评估LLM作为提取器和评估者的性能。

2025-03-30

CausalRAG:将因果图整合到检索增强生成中

大型语言模型(LLMs)彻底改变了自然语言处理(NLP),特别是通过检索增强生成(RAG),它通过整合外部知识增强了LLM的能力。然而,传统的RAG系统存在关键限制,包括由于文本分块导致的上下文完整性中断,以及过度依赖语义相似性进行检索。为了解决这些问题,我们提出了 CausalRAG ,这是一种将因果图整合到检索过程中的新框架。通过构建和追踪因果关系, CausalRAG 保留了上下文连续性并提高了检索精度,从而生成更准确且可解释的响应。我们将 CausalRAG 与普通RAG和基于图的RAG方法进行了比较,展示了其在多个指标上的优越性。我们的研究结果表明,基于因果推理的检索为知识密集型任务提供了一种有前途的方法。

2025-03-30

RGL:一种以图为中心、模块化的高效图检索增强生成框架

近年来,图学习领域的进步见证了大量旨在增强图上检索增强生成(RAG)各个方面的方法的涌现 (Guo et al. 2024; Y. Hu et al. 2024; M. Li, Miao, and Li 2025) 。给定一个查询,RAG 从现有数据中检索相关样本(上下文),并根据检索到的信息生成响应。图上的检索增强生成(RoG)通过利用图结构更有效地检索上下文信息,扩展了 RAG 的功能。各种图应用,例如问答、节点分类和推荐——这些应用包含丰富的结构化数据(例如用户-项目交互 (J. Hu et al. 2024a) 、论文引用网络 (J. Hu, Hooi, 和 He 2024) 等)——可以潜在地受益于 RoG 技术 (He et al. 2025; Edge et al. 2024) 。 给定一个图,例如社交网络或电子商务图,我们在图 1 中展示了典型的图上 RAG 流程。该流程从 1) 索引 开始,其中节点被组织以便于高效访问。接下来,2) 节点检索 根据连通性或属性选择相关节点,然后 3) 图检索 构建子图以捕获局部结构。这些子图在 4) 分词 阶段被转

2025-03-30

在RAG-Text2SQL系统中平衡内容大小

大型语言模型(LLMs)作为一种有前景的解决方案,能够将自然语言查询转换为SQL命令,从而实现无缝的数据库交互。然而,这些文本到SQL(Text2SQL)系统面临着固有的局限性、幻觉生成、过时知识和不可追踪推理等问题。为了解决这些挑战,将检索增强生成(RAG)与Text2SQL模型集成的方法逐渐受到关注。RAG作为一个检索机制,提供必要的上下文信息,如表结构和元数据,以增强查询生成过程。尽管潜力巨大,RAG + Text2SQL系统对检索文档的质量和大小非常敏感。虽然更丰富的文档内容可以提高结构相关性和检索准确性,但同时也引入了噪声,增加了幻觉生成的风险,并随着Text2SQL模型提示大小的增加而降低了查询保真度。本研究探讨了文档大小与质量之间的微妙权衡,旨在找到优化系统性能的平衡点。确定了性能下降的关键阈值,并提出了应对这些挑战的实际策略。此外,我们还探讨了Text2SQL模型中的幻觉现象,强调精心策划的文档呈现方式在减少错误中的关键作用。我们的研究结果为增强RAG + Text2SQL系统的鲁棒性提供了路线图,为实际应用提供了实用见解。

2025-03-29

MAPQA : 开放领域地理空间问答基于地图数据

地理空间问答(QA)是导航和兴趣点(POI)搜索中的基本任务。尽管现有的地理空间QA数据集存在,但它们在规模和多样性方面受到限制,通常仅依赖于地理实体的文本描述,而未考虑其几何形状。扩大地理空间QA数据集的主要挑战在于地理空间关系的复杂性,这需要整合空间结构、拓扑依赖以及多跳推理能力,而大多数基于文本的QA数据集缺乏这些能力。为解决这些限制,我们引入了 MAPQA ,这是一个新颖的数据集,不仅提供了问题-答案对,还包含了问题中引用的地理实体的几何信息。 MAPQA 使用SQL查询模板从OpenStreetMap(OSM)中提取问题-答案对,研究区域为南加州和伊利诺伊州。它由3,154个QA对组成,涵盖九种需要地理空间推理的问题类型,如邻里推断和地理实体类型识别。与现有数据集相比, MAPQA 扩展了地理空间问题类型的数量和多样性。我们探索了两种方法来应对这一挑战:(1)基于检索的语言模型,通过嵌入相似性对候选地理实体进行排名;(2)大型语言模型(LLM),根据自然语言问题和地理实体属性生成SQL查询,并在OSM数据库上执行。我们的研究结果表明,基于检索的方法能够有效捕捉诸如

2025-03-29

基于LLM的数据分析中的洞察生成方法

从数据库中生成有见地且可操作的信息在数据分析中至关重要。本文介绍了一种使用大型语言模型(LLMs)自动生成文本洞察的新方法。给定一个多表数据库作为输入,我们的方法利用LLMs生成反映表格中有趣模式的简洁文本洞察。我们的框架包括一个假设生成器,用于制定与领域相关的问题;一个查询代理,通过生成SQL查询来回答这些问题;以及一个摘要模块,将洞察转化为自然语言。这些洞察通过结合人类判断和自动化指标的方式进行评估,确保其正确性和主观洞察性。在公共和企业数据库上的实验结果表明,我们的方法生成的洞察比其他方法更具洞察力,同时保持了准确性。

2025-03-29

V-SQL:一种基于视图的两阶段Text-to-SQL框架

Text-to-SQL任务旨在无偏地将自然语言转换为结构化查询语言(SQL)。最近,基于大语言模型(LLMs)的Text-to-SQL方法引起了广泛关注。主流Text-to-SQL框架的核心是模式链接,它将用户查询与数据库中的相关表和列对齐。以前的方法专注于模式链接,而忽略了增强LLMs对数据库模式的理解。数据库中表之间的复杂耦合关系限制了LLMs生成SQL的能力。为了解决这个问题,本文提出了一种简单而有效的策略,称为基于视图的模式。该策略通过将紧密耦合的表解耦为低耦合视图,帮助LLMs理解数据库模式。然后我们介绍了V-SQL,一种基于视图的两阶段Text-to-SQL框架。V-SQL利用基于视图的模式策略来增强LLMs对数据库模式的理解。在权威数据集Bird上的结果表明,V-SQL与现有的最先进的方法相比具有竞争力。 关键词:大语言模型,Text-to-SQL,情境学习,数据库,NLP。

2025-03-29

Genicious:用于洞察发现的情境化Few-shot提示

数据和洞察发现对于现代组织的决策至关重要。我们介绍了Genicious,这是一个基于LLM的接口,使用户能够与表格数据集交互并用自然语言提出复杂查询。通过对比多种提示策略和语言模型,我们开发了一个端到端工具,利用情境化Few-shot提示,在延迟、准确性和可扩展性方面表现出色。Genicious赋予利益相关者高效探索、分析和可视化其数据集的能力,同时通过基于角色的访问控制和Text-to-SQL方法确保数据安全。

2025-03-29

通过答案-公式联合生成实现通用表格问答

先进的表格问答(TableQA)方法提示大型语言模型(LLMs)生成答案文本、SQL查询、Python代码或自定义操作,这显著提升了TableQA任务中的复杂推理问题。然而,这些方法缺乏应对特定问题类型或表格结构的灵活性。相比之下,电子表格公式作为一种广泛使用且明确定义的操作语言,尚未被充分探索以解决TableQA问题。在本文中,我们首次尝试使用公式作为逻辑形式来解决不同结构表格上的复杂推理问题。具体而言,我们从现有数据集中构建了一个大规模的公式注释TableQA数据集 FromulaQA 。此外,我们提出了 TabAF ,这是一个用于同时解决多种类型表格上多种类型任务的通用表格回答框架。与现有方法不同, TabAF 通过单一的LLM主干解码答案和公式,展示了极高的灵活性和泛化能力。 TabAF 基于Llama3.1-70B在WikiTableQuestion、HiTab和TabFact上实现了新的最先进性能。

2025-03-29

链式思维推理是否有助于移动GUI代理?一项实证研究

推理能力显著提高了视觉语言模型(VLMs)在数学问题求解、编程和视觉问答等领域的性能。然而,它们对实际应用的影响尚不明确。本文首次对推理增强型VLMs在移动GUI代理中的有效性进行了实证研究,这是一个需要解释复杂屏幕布局、理解用户指令并执行多轮交互的领域。我们评估了两对商业模型——Gemini 2.0 Flash和Claude 3.7 Sonnet,比较了它们的基础版本和推理增强版本在两个静态基准测试(ScreenSpot和AndroidControl)以及一个交互环境(AndroidWorld)上的表现。我们惊讶地发现,Claude 3.7 Sonnet推理模型在AndroidWorld上取得了最先进的性能。然而,推理VLMs在静态基准测试中通常只提供边际改进,甚至在某些代理设置下会降低性能。值得注意的是,推理和非推理VLMs在不同的任务集上失败,这表明推理确实有影响,但其利弊相互抵消。我们将这些不一致归因于基准测试和VLMs的局限性。基于研究结果,我们为通过基准测试、VLMs及其动态调用推理VLMs的能力进一步提升移动GUI代理提供了见解。实验数据已在以下网址公开: https:/

2025-03-29

DAgent:一种基于关系数据库驱动的数据分析报告生成代理

基于关系数据库驱动的数据分析(RDB-DA)报告生成旨在通过查询关系数据库生成数据分析报告,已在金融、医疗等领域得到广泛应用。通常,这些任务由数据科学家手动完成,这使得过程非常耗时,并显示出对自动化的迫切需求。尽管现有的方法(例如表问答或文本到SQL)被提出以减少人工依赖,但它们无法处理需要多步推理、跨表关联和将见解整合为报告的复杂分析任务。此外,目前尚无可用于开发自动RDB-DA报告生成的数据集。为填补这一空白,本文提出了一种用于RDB-DA报告生成任务的大型语言模型(LLM)代理系统,称为DAgent;此外,我们还构建了一个用于自动生成数据分析报告的基准测试,包括一个新的数据集DA-Dataset和评估指标。DAgent通过集成规划、工具和记忆模块,将自然语言问题分解为逻辑独立的子查询,准确地从关系数据库中检索关键信息,并通过多步推理和有效的数据整合生成满足完整性、正确性和简洁性要求的分析报告。在DA-Dataset上的实验分析表明,DAgent在检索性能和分析报告生成质量方面具有优越性,展示了其解决复杂数据库分析报告生成任务的强大潜力。

2025-03-29

多模态大语言模型时代的代理推荐系统展望

近期大语言模型(LLMs)的突破性进展催生了超越单一模型能力的代理型人工智能系统。通过赋予LLMs感知外部环境、整合多模态信息和与各种工具交互的能力,这些代理系统在复杂任务中表现出更大的自主性和适应性。这一演变带来了推荐系统(RS)的新机遇:基于LLM的代理型推荐系统(LLM-ARS)可以提供更加互动、情境感知和主动的推荐服务,可能重塑用户体验并拓宽推荐系统的应用范围。尽管早期结果令人鼓舞,但基本挑战仍然存在,包括如何有效融入外部知识、平衡自主性与可控性以及在动态多模态环境中评估性能。在本文视角论文中,我们首先对LLM-ARS进行了系统分析:(1) 澄清核心概念和架构;(2) 强调代理能力(如规划、记忆和多模态推理)如何提升推荐质量;(3) 提出关键研究问题,涉及安全性、效率和终身个性化等领域。我们还讨论了开放问题和未来方向,认为LLM-ARS将推动推荐系统的下一轮创新。最终,我们预见推荐体验将向智能化、自主化和协作化的方向转变,更贴近用户不断变化的需求和复杂的决策过程。

2025-03-29

MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断

开发可靠的AI系统以协助人类临床医生进行多模态医学诊断一直是研究人员的主要目标。近年来,多模态大语言模型(MLLMs)受到了广泛关注,并在多个领域取得了成功。凭借强大的推理能力和根据用户指令执行多种任务的能力,它们在提升医学诊断方面具有巨大潜力。然而,直接将MLLMs应用于医学领域仍面临挑战。它们缺乏对视觉输入的详细感知能力,限制了其进行定量图像分析的能力,而这是医学诊断的关键。此外,MLLMs通常表现出幻觉和推理不一致的问题,而临床诊断必须严格遵循既定标准。为解决这些问题,我们提出了MedAgent-Pro,一个基于证据推理的代理系统,旨在实现可靠、可解释且精确的医学诊断。这通过分层工作流实现:在任务级别上,基于检索到的临床标准的知识推理生成针对特定疾病的可靠诊断计划;而在案例级别上,多个工具代理处理多模态输入,根据计划分析不同指标,并结合定量和定性证据提供最终诊断。在2D和3D医学诊断任务上的综合实验展示了MedAgent-Pro的优越性和有效性,而案例研究进一步突显了其可靠性和可解释性。代码可在以下链接获取: https://github.com/jinlab-imvr/MedA

2025-03-29

大型语言模型在问答任务中的代理综述

本文综述了基于大型语言模型(LLM)的问答(QA)代理的发展。传统代理面临显著限制,包括大量数据需求和难以推广到新环境的问题。基于LLM的代理通过利用LLM作为核心推理引擎解决了这些挑战。这些代理通过与外部环境交互,实现了比传统QA流水线和简单的LLM QA系统更优的问答效果。我们系统地回顾了LLM代理在问答任务中的设计,按关键阶段组织讨论:规划、问题理解、信息检索和答案生成。此外,本文识别了当前的挑战并探讨了未来的研究方向,以提高LLM代理问答系统的性能。

2025-03-29

SEAlign: 面向软件工程代理的对齐训练

近年来,代码生成模型在自动化软件开发任务方面展示了令人印象深刻的性能,但在现实世界的软件工程场景中仍面临挑战。尽管当前的训练方法,特别是后训练,在解决竞争性编程问题方面表现出色,但它们未能充分准备模型以应对实际软件开发的复杂性。这种错位提出了一个关键问题:现有的对齐训练方法是否适合现实世界的软件工程任务?在本研究中,我们确定了这一问题,并提出了SEAlign,这是一种新颖的对齐框架,旨在弥合代码生成模型与现实世界软件开发任务之间的差距。SEAlign利用软件工程过程的独特特征(包括高质量的工作流步骤)来增强模型能力。我们的框架进一步采用蒙特卡洛树搜索(MCTS)进行多步决策过程的细粒度对齐,并通过偏好优化关键动作确保模型满足现实需求。我们在三个标准的现实世界软件工程基准上评估了SEAlign,包括HumanEvalFix、SWE-Bench-Lite和SWE-Bench-Verified。实验结果表明,SEAlign以最少的训练开销实现了最先进的性能。此外,我们使用SEAlign开发了一个基于代理的软件开发平台,成功自动化创建了几个小型应用程序。人类对这些应用程序的评估突显了任务性能和

2025-03-29

MemInsight:大型语言模型代理的自主记忆增强

大型语言模型(LLM)代理已经进化到能够智能地处理信息、做出决策并与用户或工具进行交互。一个关键功能是整合长期记忆能力,使这些代理能够利用历史交互和知识。然而,随着记忆规模的增长和语义结构化的需求增加,这带来了显著的挑战。在本研究中,我们提出了一种自主记忆增强方法——MemInsight,以改进语义数据表示和检索机制。通过利用对历史交互的自主增强,LLM代理被证明可以提供更准确和上下文相关的响应。我们在三个任务场景中经验性地验证了所提方法的有效性:对话推荐、问答和事件总结。在LLM-REDIAL数据集上,MemInsight将推荐的说服力提升了高达14%。此外,在LoCoMo检索中,它在召回率方面比RAG基线高出34%。我们的实证结果表明,MemInsight有潜力提升LLM代理在多个任务中的上下文表现。

2025-03-29

GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战

最近在Text-to-SQL(Text-to-SQL)领域的进展,得益于大型语言模型(LLMs),正在使数据访问民主化。尽管取得了这些进展,但企业部署仍然具有挑战性,因为需要捕捉特定业务知识、处理复杂查询并满足对持续改进的期望。为了解决这些问题,我们设计并实现了GenEdit:我们的Text-to-SQL生成系统,可以通过用户反馈进行改进。GenEdit构建和维护一个公司特定的知识集,采用一系列分解SQL生成的运算符,并使用反馈更新其知识集以改善未来的SQL生成。 我们描述了GenEdit的架构,它由两个核心模块组成:(i) 分解SQL生成;以及 (ii) 基于用户反馈的知识集编辑。对于生成,GenEdit利用复合运算符来改进知识检索,并创建一个作为思维链步骤的计划来指导生成。GenEdit首先在初始检索阶段检索相关示例,其中原始SQL查询被分解成子语句、子句或子查询。然后还检索指令和模式元素。使用检索到的上下文信息,GenEdit随后生成自然语言的逐步计划,说明如何生成查询。最后,GenEdit使用该计划生成SQL,尽量减少模型推理的需求,从而增强复杂SQL的生成。如有必要,GenE

2025-03-29

用于零样本泛化到定性新任务的思考型智能体

智能生物能够解决在其一生或进化过程中从未遇到过的全新问题。这一能力的重要组成部分是“思考”的能力,即在心理上操纵对象、概念和行为,以规划和评估全新问题的可能解决方案,而无需与环境交互。为了生成真正定性新颖的问题(仍然可以通过心理模拟解决),我们利用环境的组合性质:我们在训练智能体时扣留环境元素的特定组合。基于这种组合的新测试任务因此保证是全新的,但由于智能体在训练过程中接触过每个单独元素(及其两两交互),它仍然是可以心理模拟的。我们提出了一种方法,通过选择基于智能体思考前后的性能差异的任务,来训练具有世界模型的智能体使用其心理模拟能力。当在全新的扣留问题上进行测试时,得到的智能体成功地模拟了替代场景,并利用由此产生的信息指导其在实际环境中的行为,在单一的实际环境试验中解决了新任务(零样本)。

2025-03-29

OmniNova:一个通用的多模态代理框架

将大型语言模型(LLMs)与专用工具集成,为智能自动化系统提供了新的机会。然而,由于协调困难、资源利用效率低下和信息流不一致,组织多个由LLM驱动的代理来处理复杂任务仍然具有挑战性。我们提出了OmniNova,这是一个模块化的多代理自动化框架,将语言模型与专用工具(如网络搜索、爬虫和代码执行能力)相结合。OmniNova引入了三项关键创新:(1)具有不同协调员、规划者、监督者和专家代理的分层多代理架构;(2)根据任务复杂度优化代理部署的动态任务路由机制;以及(3)分配适当模型以满足不同认知需求的多层次LLM集成系统。我们在研究、数据分析和网络交互领域的50个复杂任务上的评估表明,OmniNova在任务完成率(87% vs 基准62%)、效率(减少41%的令牌使用量)和结果质量(人类评分4.2/5 vs 基准3.1/5)方面优于现有框架。我们贡献了一个用于多代理系统设计的理论框架和一个开源实现,推动了基于LLM的自动化系统的最先进水平。

2025-03-29

【生物信息学】双向分层蛋白质多模态表示学习:融合蛋白质语言模型与图神经网络提升蛋白质相关任务预测性能

内容概要:本文提出了一种双向分层融合框架,旨在通过有效整合蛋白质语言模型(pLMs)和图神经网络(GNNs)来增强蛋白质表示学习。该框架通过注意力和门控机制,促进pLMs生成的序列表示和GNN提取的结构特征之间的交互,从而提高信息交换和增强。文中介绍了两种具体方法:局部双向分层融合带门控和全局双向分层融合带多头注意力。实验结果表明,该框架在多个蛋白质相关任务中显著优于现有技术,包括反应分类、模型质量评估、蛋白质-配体结合亲和力预测、蛋白质-蛋白质结合位点预测和B细胞表位预测。; 适合人群:从事生物信息学、蛋白质结构预测、药物设计等领域研究的专业人士,特别是对深度学习和多模态数据融合感兴趣的科研人员。; 使用场景及目标:①需要结合蛋白质序列和结构信息进行预测任务的研究;②希望提高蛋白质表示学习模型性能的研究者;③探索新型蛋白质表示方法的科学家。; 其他说明:该研究强调了双向分层融合技术在促进不同分支的蛋白质表示之间的更有效知识交流方面优于串行融合方法。此外,该框架适用于未来的各种GNN和pLMs,并可使其他GNN和pLMs受益于涉及蛋白质的其他下游任务。研究还指出了框架的局限性,即需要pLMs和GNN以某种方式表示相同层次的图节点,并且尚未找到一种方法来利用具有多尺度表示的结构。

2025-04-11

### 【自然语言处理】潜在专家混合(MoLE):用于资源高效语言模型的创新架构设计:本文介绍了潜在

内容概要:本文介绍了潜在专家混合(MoLE),一种用于资源高效语言模型的新颖架构。MoLE通过将专家模块映射到共享的低维潜在空间,减少了参数数量和计算需求。文章详细描述了MoLE的设计原理,包括专家操作的分解、共享投影和专家特定转换。此外,作者开发了一个严格的数学框架,将预训练的MoE模型转换为MoLE架构,并提出了一个两阶段算法来实现这一转换。实证评估表明,MoLE在显著减少资源需求的同时,实现了与标准MoE模型相当的性能。; 适合人群:对深度学习、自然语言处理和模型优化感兴趣的科研人员和技术开发者。; 使用场景及目标:①需要构建高效、资源节约的大规模语言模型;②希望在保持模型性能的同时减少计算资源消耗;③研究如何通过低秩近似和矩阵分解技术优化现有模型架构。; 其他说明:本文不仅提供了理论分析,还通过多个基准数据集的实验证明了MoLE的有效性。建议读者在实践中结合这些理论和实证结果,深入理解MoLE架构的优势及其在实际应用中的潜力。

2025-04-09

### 【人工智能模型压缩】MoQa:多阶段数据模型分布感知的MoE量化框架设计与优化

内容概要:本文提出了一种新的量化框架MoQa,用于解决专家混合模型(MoE)的复杂数据模型分布感知问题。MoQa通过多阶段分析解耦了MoE中的数据模型分布复杂性,定量揭示了稀疏数据激活、数据参数映射和专家间相关性的动态变化。基于这些分析,MoQa识别出特定专家和参数的重要性,并提出了适应各种数据激活和专家组合场景的一系列细粒度混合精度量化策略。实验表明,MoQa在语言建模任务中实现了困惑度的显著降低,在零样本推理任务中实现了准确率的提升。MoQa不仅解决了传统量化方法在MoE场景中的局限性,还展示了对未来MoE构建和优化的重要作用。 适合人群:对深度学习、特别是专家混合模型(MoE)和模型压缩技术感兴趣的科研人员和工程师,以及希望深入了解MoE量化方法的研究者。 使用场景及目标:①分析MoE中复杂的数据模型分布,理解稀疏数据激活、数据参数映射和专家间相关性的动态变化;②开发适应不同数据激活和专家组合场景的细粒度混合精度量化策略;③评估MoQa在语言建模和零样本推理任务中的性能,验证其优于传统量化方法的效果。 其他说明:MoQa通过多阶段数据模型分布分析,揭示了MoE量化中的独特挑战和机遇。与传统量化方法相比,MoQa不仅考虑了数据分布的复杂性,还深入探讨了专家模型的重要性及其参数相关性。因此,MoQa在确保通用性的同时实现了优越的量化性能,适用于各种数据分布和MoE架构。阅读本文时,建议重点关注多阶段分析的具体步骤和实验结果,以更好地理解MoQa的设计理念和实际效果。

2025-04-08

### 强化学习VAPO:用于高级推理任务的高效可靠强化学习框架设计与实现

内容概要:本文介绍了VAPO(基于价值的增强近端策略优化)框架,专为基于价值范式的推理模型设计,尤其适用于长链思考(long-CoT)推理任务。VAPO通过系统设计缓解了价值模型偏差、异构序列长度和奖励信号稀疏性三大挑战,显著提升了长CoT推理任务的表现。在AIME 2024数据集上,VAPO基于Qwen 32B预训练模型,仅需5,000步训练即可达到最先进水平,且多次独立运行中均未发生训练崩溃,表现出卓越的稳定性和效率。 适合人群:对强化学习和大型语言模型有兴趣的研究人员和技术人员,尤其是从事长链思考推理任务的开发者。 使用场景及目标:① 解决长链思考推理任务中的价值模型偏差、异构序列长度和奖励信号稀疏性问题;② 提升基于价值范式的推理模型的性能和稳定性;③ 通过多种技术创新(如价值预训练、解耦GAE、长度自适应GAE等)优化训练过程,实现更高的训练效率和更佳的推理能力。 其他说明:VAPO在实验中展示了显著优于现有无价值方法(如DAPO和DeepSeek-R1-Zero-Qwen-32B)的性能,特别是在处理复杂推理任务时表现出色。建议读者深入理解VAPO的设计理念和技术细节,以便更好地应用于实际项目中。

2025-04-08

### 文章标题: 【自然语言处理】基于ChatGPT的REFORMER框架:提升Text-to-SQL模型的数据合成与增强系统设计

内容概要:本文介绍了REFORMER,一个由ChatGPT驱动的数据合成框架,旨在解决Text-to-SQL模型因训练数据不足而导致的泛化能力差的问题。REFORMER通过“检索-编辑”方法,利用ChatGPT生成新的(问题,SQL查询)对,无需额外训练。该框架还引入了问题-查询-问题循环一致性验证,确保生成数据的质量。此外,REFORMER探索了两种数据增强技术:带模式信息的直接改写和使用构造SQL查询描述的改写。实验结果表明,REFORMER在多个评估指标上均优于之前的增强方法。 适合人群:对自然语言处理和SQL查询生成感兴趣的科研人员、工程师,尤其是从事Text-to-SQL模型开发和优化的专业人士。 使用场景及目标:①生成更多样化和高质量的(问题,SQL查询)对以增强Text-to-SQL模型的训练数据;②通过ChatGPT生成新的SQL查询和问题改写,提升模型的泛化能力和适应新领域的能力;③验证生成数据的一致性和质量,确保其符合预期。 阅读建议:本文不仅展示了REFORMER的技术细节和实验结果,还讨论了其局限性和未来研究方向。读者应重点关注框架的设计思路、实验设置和结果分析,以理解ChatGPT在数据增强中的应用潜力。同时,建议结合实际应用场景,思考如何利用REFORMER提升现有Text-to-SQL系统的性能。

2025-04-08

### 【多智能体系统】基于强化学习的集中式多智能体协调框架:联合动作顺序构造方法设计与实验评估

内容概要:本文提出了一种集中式的多智能体学习框架,旨在通过引入一个名为“监督器”的元智能体,将联合动作抽象为顺序动作分配,从而解决集中式方法常见的动作空间爆炸问题。监督器将多智能体问题转化为单智能体问题,通过强化学习训练,简化了集中控制下的多智能体协调。实验结果显示,该方法在不同规模的多智能体环境中成功协调了智能体行为,尤其在智能体间交互较少的任务中表现优异。 适合人群:对多智能体系统、强化学习及深度学习感兴趣的科研人员和工程师,特别是那些希望深入了解集中式多智能体学习方法及其应用的人群。 使用场景及目标:①解决集中式多智能体学习中的可扩展性问题;②通过监督器实现多智能体行为的有效协调;③在智能体交互较少的任务中提升协调效果。 其他说明:该方法适用于多种多智能体任务,如交通管理、战斗模拟等。实验结果表明,该方法在智能体数量增加时仍能保持良好的性能,但在智能体间交互频繁的任务中可能遇到挑战。未来工作将探索更多智能体交互的任务,并与其他联合动作空间方法进行比较。

2025-04-08

### 【人工智能领域】基于自原则批评调整的通用奖励建模推理时间扩展研究题:基于自

内容概要:本文探讨了通过自原则批评调整(SPCT)方法提升生成式奖励模型(GRM)的推理时间可扩展性,从而改进大型语言模型(LLMs)的奖励建模(RM)。研究团队提出了逐点生成式奖励建模(GRM),通过基于规则的在线强化学习(RL)自适应生成原则和批评,以提高奖励质量。此外,通过并行采样和元RM引导投票,实现了更有效的推理时间扩展。实验证明,SPCT显著提升了DeepSeek-GRM模型的质量和可扩展性,在多个RM基准测试中表现优异,尤其在推理时间扩展方面优于现有方法。 适合人群:具备一定机器学习和自然语言处理基础,尤其是对强化学习和奖励建模感兴趣的科研人员和技术开发者。 使用场景及目标:①用于改进大型语言模型在推理时间扩展中的奖励建模;②提升生成式奖励模型在不同领域中的通用性和性能;③通过并行采样和元RM引导投票,实现更高效的推理时间扩展。 其他说明:本文详细介绍了SPCT方法的理论背景、实现细节和实验结果,并讨论了其局限性和未来研究方向。DeepSeek-GRM模型及相关资源将被开源,以促进社区进一步的研究和发展。

2025-04-08

### 【人工智能与物理学】基于MASS模型的AI科学家在物理系统中的理论一致性研究

内容概要:本文探讨了两位AI科学家是否能在同一科学任务上达成一致。研究提出了MASS(作为AI科学家的哈密顿-拉格朗日神经网络),通过训练多个AI科学家在经典力学问题上学习不同理论,并通过实验验证了AI科学家在不同物理系统上学习理论的一致性和多样性。研究表明,AI科学家倾向于学习相似的理论,尤其是在复杂系统上,拉格朗日描述表现出了更好的泛化能力。此外,研究还展示了MASS在高维物理问题上的适用性,如混沌双摆和多体引力问题。 适合人群:对机器学习、物理学和AI科学家感兴趣的科研人员,尤其是从事物理系统建模和机器学习算法设计的研究者。 使用场景及目标:①理解AI科学家在不同物理系统上学习理论的一致性和多样性;②探索AI科学家在复杂物理问题上的表现,如拉格朗日描述的优越性;③评估MASS在高维物理问题上的适用性和准确性。 其他说明:本文不仅展示了AI科学家在学习物理理论方面的潜力,还强调了拉格朗日描述在复杂物理系统中的优势。研究结果为进一步构建更具可解释性和能力的AI科学家奠定了基础。未来工作可以扩展到更高维度问题、不同坐标系下的实验,以及探索不同的损失函数和模型架构。

2025-04-08

### 文章标题: 【AI助手与知识图谱】基于思维知识图(KGoT)的高效AI助手架构设计:降低运营成本与提升任务成功率摘要: 本文介绍

内容概要:本文介绍了思维知识图(KGoT),一种创新的AI助手架构,旨在通过将大型语言模型(LLM)推理与动态构建的知识图谱(KGs)集成,提供一种经济高效且高性能的AI助手解决方案。KGoT通过将任务相关知识结构化为KG表示,并通过外部工具(如数学求解器、网络爬虫和Python脚本)迭代增强,使低成本模型能够有效解决复杂任务。评估结果显示,KGoT在GAIA基准测试中比Hugging Face Agents等现有方案提高了任务成功率,同时降低了运营成本。KGoT的架构包括图存储模块、控制器和集成工具,支持模块化和可扩展设计。 适合人群:对AI助手开发感兴趣的科研人员、工程师和技术爱好者,尤其是关注高性能和低成本解决方案的人群。 使用场景及目标:①需要解决复杂任务,如网页导航、代码执行、图像推理、科学问答和多模态任务;②希望在不影响性能的前提下大幅降低运营成本;③寻求可扩展、经济实惠且高性能的AI助手解决方案。 其他说明:KGoT不仅在任务成功率上超越了现有LLM驱动的代理解决方案,还在成本效益方面表现出显著优势。其灵活的设计使其适用于多种应用场景,如自动化研究、数据驱动决策和多模态推理。未来工作可以探索将KGoT与更多外部工具集成或与高级图预测方案结合,以进一步提升其性能和适用性。

2025-04-08

### 【自然语言处理】大型语言模型推理能力的预训练扩展规律研究:基于知识图谱的多跳推理任务分析

内容概要:文章探讨了大型语言模型(LLMs)推理能力与模型扩展之间的关系,特别是在预训练阶段。作者通过构建合成知识图谱(KGs)来模拟真实世界的推理场景,设计了一种多跳推理任务,旨在评估模型在不完整图中推断缺失边的能力。研究发现,随着模型大小的增加,推理性能呈现出U形曲线,即存在一个最佳模型大小,过大或过小的模型都会导致推理性能下降。作者还提出了一种经验性扩展规律,将知识图谱的搜索熵线性映射到最佳模型大小,为优化LLMs的推理能力提供了理论依据。 适合人群:对自然语言处理、深度学习尤其是大型语言模型有兴趣的研究人员和工程师;从事机器学习模型设计和优化的专业人士。 使用场景及目标:①帮助研究人员理解语言模型在推理任务中的行为模式;②为模型设计者提供优化推理性能的实际指导;③探索如何通过调整模型大小和数据结构来提升特定任务的表现。 阅读建议:本文涉及大量实验和数据分析,建议读者先快速浏览全文以了解研究背景和主要结论,再深入阅读感兴趣的具体实验部分。对于技术细节,如图生成算法和扩展规律的推导,可以结合附录和相关文献进行更深入的理解。

2025-04-08

【计算机教育】DeepSeek-V3在计算机网络教育中的实证研究:评估模型效能与跨语言适应性

内容概要:本文研究了DeepSeek-V3在计算机网络教育中的应用效果,通过使用CCNA模拟题库和中国网络工程师认证考试题库作为评估标准,揭示了模型的优势和局限性。研究发现,DeepSeek-V3在低阶事实记忆任务中表现优异,但在高阶推理问题上存在明显局限;其在中文和英文问题上的表现一致,显示出良好的跨语言适应能力;模型在安全性基础方面表现出高精度,但在复杂内容如IP连接性和网络访问方面存在不足;此外,模型回答的一致性与其准确性呈强相关关系,可作为评估模型可靠性的有效指标。 适合人群:从事计算机网络和安全领域教学的教师、研究人员以及希望了解大型语言模型在教育领域应用的学生和专业人士。 使用场景及目标:①评估DeepSeek-V3在计算机网络教育中的具体表现;②为改进大型语言模型在教育中的应用提供实证依据;③探索如何通过模型优化提升其在复杂主题和高阶推理问题上的表现。 其他说明:本研究不仅为DeepSeek-V3在计算机网络教育中的应用提供了实证支持,还指出了未来研究的方向,特别是如何增强模型的推理能力和跨领域适应性,以更好地满足专业教育的需求。

2025-04-04

医疗领域大型语言模型DeepSeek R1医疗推理能力分析:评估模型推理过程及错误模式以提升临床决策支持系统性能

内容概要:本文深入探讨了大型语言模型(LLM)在医疗推理中的应用潜力及其局限性,以DeepSeek R1为例进行了详尽分析。研究表明,LLM在医学考试中表现优秀,但在实际临床推理中仍面临挑战,如锚定偏见、整合矛盾数据困难等。研究通过分析DeepSeek R1处理100个临床问题的表现,发现其诊断准确率达93%,且推理长度越长往往正确性越低。这提示推理长度可作为逆置信度评分,帮助医生判断模型输出的可靠性。此外,研究还提出了通过检索增强生成(RAG)、特定医学领域提示优化等方法进一步提升模型性能的建议。 适合人群:对人工智能和医疗领域感兴趣的科研人员、临床医生、医疗AI开发者及相关政策制定者。 使用场景及目标:①理解大型语言模型在医疗推理中的优势与不足;②学习如何利用推理长度评估模型输出的可靠性;③探索通过优化提示策略和微调方法提升模型性能的具体途径。 其他说明:本研究强调了开发更透明和可解释的LLM的重要性,并提出了未来研究方向,包括构建稳健的评估框架、探索动态实时交互可能性以及开发人工智能-临床医生协作模型,以期使LLM成为可靠的决策支持工具。

2025-04-04

【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程

内容概要:本文由MIT CSAIL、加州大学伯克利分校、康奈尔大学和斯坦福大学等机构的研究人员共同撰写,探讨了面向软件工程的人工智能(AI)所面临的挑战与路径。文章首先介绍了AI在软件工程领域取得的显著进展,并指出要实现高度自动化,使人类能够专注于关键决策,而大多数常规开发工作可以被自动化取代,仍需学术界和工业界的共同努力。文章随后提供了一个面向软件工程的AI具体任务的结构化分类法,涵盖代码生成、代码转换、软件测试与程序分析、软件维护、支架与元代码、形式化验证等多个方面。每个任务根据范围、逻辑复杂性和人类干预水平进行衡量。接着,文章概述了当前AI方法面临的九个关键瓶颈,包括评估与基准、工具的有效使用、人机协作、长期代码规划、大规模范围和长上下文、代码库的语义理解、低资源语言和专用库、库和API版本更新、高逻辑复杂性和OOD域等。最后,文章提出了应对这些挑战的一系列研究方向,如数据收集、训练、推理时间方法等,以期推动AI在软件工程中的进一步发展。 适合人群:对软件工程和人工智能感兴趣的科研人员、工程师及高校师生。 使用场景及目标:①帮助科研人员了解AI在软件工程中的现状与挑战;②为工程师提供改进自动化工具的思路;③指导高校师生开展相关领域的研究与教学。 其他说明:本文不仅总结了当前AI在软件工程中的进展,还指出了未来研究的方向,鼓励学术界和工业界共同努力,以实现AI在软件工程中的更大潜力。文章引用了大量最新的研究成果和案例,为读者提供了详实的参考资料。

2025-04-03

### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升

内容概要:本文介绍了一种名为Reasoning-SQL的新方法,它使用SQL定制部分奖励的强化学习(RL)以增强Text-to-SQL任务。Text-to-SQL任务涉及自然语言理解、数据库模式理解和精确的SQL查询生成,传统方法依赖于监督微调(SFT),在复杂推理上表现不佳。Reasoning-SQL通过引入部分奖励(如模式链接、AI反馈、n-gram相似性和语法检查)和组相对策略优化(GRPO)来克服奖励稀疏性问题,显著提升了模型的推理能力和泛化能力。实验结果显示,该方法在多个基准测试中超越了现有方法,特别是在BIRD基准测试中,14B参数的模型性能优于更大规模的专有模型。 适合人群:具备一定机器学习和自然语言处理基础的研究人员和技术人员,尤其是对强化学习和Text-to-SQL任务感兴趣的读者。 使用场景及目标:①理解如何通过部分奖励和RL优化Text-to-SQL模型的推理能力;②学习如何设计和实现适合Text-to-SQL任务的奖励函数;③评估Reasoning-SQL方法在不同基准测试中的表现,特别是在泛化和推理效率方面。 其他说明:此方法不仅在性能上优于传统的SFT方法,还在成本效益方面表现出色,能够在单个GPU上部署的情况下达到最先进的性能。实验还表明,RL训练促进了模型的结构化推理能力,使其在复杂查询中表现更好。

2025-04-03

ActionStudio:轻量级动作模型数据与训练框架

内容概要:本文介绍了ActionStudio,一个专为动作模型设计的轻量且可扩展的数据与训练框架。ActionStudio通过标准化格式统一了异构代理轨迹,支持多种训练范式(如LoRA、全微调和分布式设置),并集成了强大的预处理和验证工具。它在公共和现实行业的基准测试中展示了强大的性能和实际的可扩展性。ActionStudio的贡献包括:1)轻量且可扩展的训练框架,支持模块化的训练工作流;2)实现自动化的数据管道,涵盖数据收集、格式统一、质量过滤和格式转换;3)在公共和现实行业基准测试中验证了有效性。; 适合人群:具备一定编程基础,对动作模型和代理系统感兴趣的开发者和研究人员。; 使用场景及目标:①支持多样化的代理数据源转换为标准化、训练就绪的格式;②支持多种训练范式,包括LoRA、全微调和分布式训练;③提高模型训练效率和可扩展性,特别是在现实世界代理应用中;④提供即用型数据集,加速模型训练。; 其他说明:ActionStudio旨在解决现有基础设施对可扩展、特定代理的微调支持有限的问题。它不仅提供了高效的训练管道,还开源了代码和数据以促进社区研究。在NexusRaven和Salesforce CRM代理基准上的评估证明了其有效性和实用性。用户可以在GitHub上找到开源代码和数据。

2025-04-02

Unicorn: 用于视觉语言模型训练的纯文本数据合成

视觉语言模型(VLMs)的快速发展 (H. Liu 等人, 2023, 2024; Zhu 等人, 2023) 进一步强调了大规模高质量图像-文本对训练数据的重要性 (Chen 等人, 2023; Zhao, Zhou 和 Shou, 2024; Bai 等人, 2024) 。然而,扩大这种高质量数据的规模仍然是一个持续的挑战,限制了 VLMs 的进一步突破。 获取图像-文本对的传统方法主要依赖于两种策略:(1) 手动标注 (Lin 等人, 2015; Plummer 等人, 2016) 。手动标注确保质量但受限于成本、规模和多样性。(2) 大规模网络爬取 (Sharma 等人, 2018) 可扩展但引入了数据质量问题不一致、合规风险和版权问题。最近的研究,如 ShareGPT4V (Chen 等人, 2023) ,探索了使用高级模型(如 GPT-4v)生成细粒度标题来增强真实图像的方法,从而生成高质量的数据集,在视觉-语言任务中取得了显著改进。然而,这些合成数据方法仍然面临巨大的成本约束。相比之下,文本数据 (Wu 等人, 2024; Long 等人, 2024

2025-03-31

基于大型模型的多任务语义通信

人工智能(AI)有望彻底改变下一代通信系统的 设计、优化和管理。在本文中,我们探讨了通过利用大型AI模型(LAMs)的多模态数据处理和生成能力将其集成到语义通信(SemCom)中。尽管LAMs具备前所未有的从原始数据中提取语义的能力,但这种集成带来了多方面的挑战,包括 高资源需求、模型复杂性以及跨 多样模态和任务的适应性需求。为克服这些挑战,我们提出了一种基于LAM的多任务SemCom(MTSC)架构,其中包括一种自适应模型压缩策略和一种联合分割微调 方法,以促进在 资源受限 网络中高效部署基于LAM的语义模型。此外,还实现了一种检索增强生成方案,通过综合最新的本地和全局知识库 来 提高语义提取和内容生成的准确性,从而改善推理性能。最后,仿真结果证明了所提出的基于LAM的MTSC架构的有效性,突显了在不同信道条件下各种下游任务性能 的提升。

2025-03-31

Dewey 长上下文嵌入模型:技术报告

本技术报告介绍了开源dewey_en_beta嵌入模型的训练方法和评估结果。随着检索增强生成(RAG)系统的日益需求以及大型语言模型(LLMs)上下文窗口能力的扩展,传统嵌入模型面临了关键挑战。当前的方法在处理超出典型序列长度限制的文档时,往往难以保持语义连贯性,这显著影响了知识密集型应用中的检索性能。本文介绍了dewey_en_beta,一种新型文本嵌入模型,在MTEB(Eng, v2)(Enevoldsen等,2025) 和 LongEmbed基准测试(Zhu等,2024)中表现出色,并支持128K令牌序列。我们的技术贡献集中在块对齐训练上,这是一种创新方法,通过蒸馏同时生成局部块嵌入和全局文档级表示 (Zhang等,2025)。有关模型发布的更多信息,请访问 https://huggingface.co/infgrad /dewey_en_beta.

2025-03-30

实时评估模型在RAG中的应用:谁最能检测到幻觉?

本文调查了用于自动检测检索增强生成(RAG)中幻觉的评估模型,并对这些模型在六个RAG应用中的表现进行了全面基准测试。我们研究中包含的方法有:LLM-as-a-Judge、Prometheus、Lynx、Hughes 幻觉评估模型(HHEM)和可信语言模型(TLM)。这些方法都不需要参考标准答案/标签即可捕捉到不正确的LLM响应。我们的研究表明,在各种RAG应用中,其中一些方法能够以高精度/召回率一致地检测到不正确的RAG响应。用于重现我们基准测试的代码可在此处获取:https://github.com/cleanlab/cleanlab-tools/tree/main/benchmarking_hallucination_model

2025-03-30

我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡

快速的技术演变加速了各领域的软件开发,导致全球碳排放量不断增加。尽管大型语言模型(LLMs)声称可以帮助开发人员优化代码以提高性能和能源效率,但它们在现实世界中的实际效果仍需进一步探索,特别是在科学和工程领域,这些领域的编码实践和环境差异较大,而绿色编码意识较低。此外,对于LLMs所应用的优化策略及其与人类推理的一致性程度知之甚少。 为填补这些空白,我们评估了LLMs在减少现实世界Matlab项目环境足迹方面的有效性——Matlab是一种在学术界和工业界广泛用于科学和工程应用的语言。与之前关于玩具程序或基准测试的研究不同,我们分析了来自100个顶级GitHub仓库的400个Matlab脚本的能量优化。领先的LLMs——GPT-3、GPT-4、Llama和Mixtral——以及一位资深Matlab开发人员对这些脚本进行了优化,我们从能耗、内存使用、执行时间消耗和代码正确性等方面对其进行了评估。开发人员作为现实世界的基线,用于比较典型的人类和LLM生成的优化。 我们将2176个提出的优化方案映射到13个高级主题,发现LLMs提出了广泛的改进——超越了能源效率——包括改善代码可读性和可维护性

2025-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除