- 博客(1201)
- 收藏
- 关注
原创 梯度自适应策略优化:迈向大型语言模型的多目标对齐
【摘要】针对大型语言模型(LLMs)与多样化人类偏好对齐的挑战,本文提出梯度自适应策略优化(GAPO)方法。传统强化学习人类反馈(RLHF)在处理冲突偏好时存在局限,GAPO将问题建模为多目标优化,通过多梯度下降算法自适应调整各目标梯度权重,实现帕累托最优。扩展版本P-GAPO进一步融入用户偏好权重,生成定制化解决方案。理论证明GAPO具有收敛性,在Mistral-7B上的实验显示,其在有用性和无害性平衡上超越现有方法。该研究为复杂偏好对齐提供了新思路,相关成果由中科院计算所与浙江大学团队联合完成。
2025-07-03 22:26:26
779
原创 探测语言模型的评估意识
研究发现,语言模型能够识别评估与部署环境(评估意识),这可能影响AI安全评估的有效性。通过Llama-3.3-70B-Instruct实验表明,线性探测器可从模型内部表示中区分评估提示与真实部署提示(最佳AUROC达0.829),当前安全评估常被识别为"测试类"(如Insider Trading数据集100%被分类为测试)。研究揭示了现有安全评估方法可能因模型识别测试环境而失效,建议利用内部表示分析补充传统评估,为可信AI治理提供新工具。
2025-07-03 22:17:22
705
原创 MuRating:一种面向多语言大语言模型预训练的高质量数据选择方法
摘要 本文提出MuRating框架,解决多语言大语言模型(LLM)预训练中的数据质量评估问题。现有方法主要针对英语,而MuRating通过聚合多个英语评分器的成对比较结果(Bradley-Terry模型),学习统一质量评分,并将判断通过翻译投射到17种语言,构建单语、跨语言和并行文本对,训练多语言评估模型。实验表明,基于MuRating选择的5000亿token预训练的12亿参数LLaMA模型,在英语基准(ARC、MMLU等)上比基线方法提升1-3.4%,在多语言任务(XNLI、Flores等)上平均提升1
2025-07-03 22:15:18
840
原创 BranchNet:一种用于结构化多类别分类的神经符号学习框架
本文提出BranchNet,一种将决策树集成转换为稀疏神经网络的神经符号学习框架。该框架通过将决策路径映射为隐藏神经元,保留符号结构并支持梯度优化。实验表明,BranchNet在结构化多类分类任务中准确率显著优于XGBoost,同时保持可解释性。方法核心包括:1)根据数据集特性自动确定树的数量和大小;2)将决策路径映射为稀疏连接的隐藏层;3)冻结输出层以保持符号可解释性;4)通过批量归一化和权重缩放稳定训练。BranchNet无需手动调整架构,在符号可解释性和性能之间取得平衡,为结构化数据分类提供了新思路。
2025-07-03 22:10:45
542
原创 AI代理与Agentic AI:为未来制造导航众多概念
摘要: 随着生成式AI(GenAI)、大语言模型(LLMs)和多模态大语言模型(MLLMs)的发展,AI代理在语义理解、复杂推理和自主决策方面的能力显著提升。基于LLM和MLLM的AI代理(LLM-Agents、MLLM-Agents)以及新兴的Agentic AI范式,为智能制造提供了新的可能性,但其定义、应用边界及挑战仍需明确。本文系统回顾了AI与代理技术的发展历程,探讨了LLM-Agents、MLLM-Agents和Agentic AI的核心概念与技术进展,并分析了其在制造业中的潜在应用与面临的挑战。
2025-07-03 22:09:03
696
原创 为制造商赋能的隐私保护AI工具:一个隐私保护机器学习解决现实问题的案例研究
本文提出了一种面向中小型制造业的隐私保护数据共享平台,该平台允许制造商安全地共享专有数据,研究人员在此基础上开发创新工具并回馈给制造商使用。以食品晶体质量控制为例,研究团队针对显微镜图像分析开发了自动化解决方案:针对旧相机采用改进的图像处理流水线(包含自适应阈值和小簇去除模块),针对新相机数据采用基于StarDist的机器学习模型。最终工具通过Web应用程序部署,并在隐私保护平台中运行,确保数据安全。案例表明,该方法能有效解决制造业中的实际痛点(如人工晶体计数效率低),同时保护企业敏感信息。研究为中小企业利
2025-07-03 22:07:44
510
原创 LoRA 微调无需 GPU:一种适用于 CPU 的高效元生成 LLM 框架
本文提出了一种专为计算资源有限用户设计的CPU高效LoRA微调方法。该方法通过学习元操作符,将输入数据集映射到预训练LoRA权重的组合,无需GPU即可生成适配器。理论分析表明,该方案能有效识别最优LoRA混合系数,在下游任务中始终优于基础模型。实验验证了该方法在标准CPU上的可行性,为无法使用GPU的用户提供了实用替代方案。核心贡献包括:1) 轻量级LoRA生成流水线;2) 理论保证最优组合系数识别;3) 无神经网络的近似最优解决方案。
2025-07-03 22:06:34
658
原创 代理构思:一种利用代理式人工智能从专利中生成产品创意的框架
摘要 本研究提出Agent Ideate框架,利用大语言模型(LLMs)和自主代理从专利中生成创新产品概念。针对计算机科学、自然语言处理和材料化学三个领域的专利数据,实验对比了基于提示的LLM方法、无工具代理方法和带工具代理方法的性能。评估采用LLM-as-a-judge策略,结果显示带工具代理方法在创意质量、相关性和新颖性上显著优于其他方法,尤其在NLP和材料化学领域表现突出。这表明结合LLMs与多代理工作流能有效挖掘专利中的技术潜力,增强创新流程。代码已开源。
2025-07-03 22:04:26
714
原创 桥接UI设计与聊天机器人交互:将基于表单的原则应用于对话代理
本文提出一种将GUI交互隐喻(提交/重置)引入特定领域聊天机器人的方法,通过显式建模确认和上下文切换任务来改善多轮对话的清晰度。研究团队利用大型语言模型(LLM)生成结构化输出,结合链式思维(CoT)推理,使系统能够更准确地跟踪用户意图。该方法在酒店预订和客户管理场景中验证了有效性,显著提升了任务连贯性、用户满意度和操作效率。关键词:GUI启发的CoT、提交|重置隐喻、特定领域聊天机器人
2025-07-03 22:03:33
608
原创 Text2VectorSQL:统一自然语言查询的文本到SQL和向量搜索的桥梁
尽管Text-to-SQL技术能够实现与结构化数据库的自然语言交互,但由于其严格的语法限制和表达能力有限,在处理非结构化数据或模糊查询时效果不佳。同时,向量搜索已经成为语义检索的强大范式,特别是针对非结构化数据。然而,现有的VectorSQL实现仍然严重依赖手动编写,并且缺乏专门的评估框架,导致理论潜力与实际部署之间存在显著差距。
2025-07-02 21:05:30
1126
原创 Map&Make:基于模式引导的文本到表格生成
本文提出Map&Make框架,用于将非结构化文本转换为可解释的表格。该方法通过分解文本为原子命题,提取表格模式并填充内容,有效解决了复杂信息提取和模式推断问题。在Rotowire和Livesum数据集上的实验表明,该方法在表格生成质量和信息覆盖率方面优于现有技术。研究还修正了Rotowire基准中的幻觉问题,并通过消融实验验证了框架的有效性。该工作为结构化文本摘要提供了通用解决方案,在信息检索和知识管理领域具有应用价值。
2025-06-30 22:32:49
590
原创 TableMoE:用于多模态表格理解的结构化专家推理的神经符号路由
本文提出TableMoE框架,针对现实场景中结构复杂、视觉退化的多模态表格理解问题。通过神经符号混合连接专家(MoCE)架构,创新性地结合语义角色预测和符号推理图,动态路由表格元素至专用专家(表格转HTML/JSON/代码)。配套构建了包含120万组跨领域数据的TableMoE-Align预训练数据集,并发布四个WildStruct基准测试(WMMFinQA等)用于评估模型在真实退化条件下的表现。实验表明TableMoE显著优于现有方法,精确匹配率提升高达9.2%,同时具备良好的可解释性。代码和基准已开源。
2025-06-30 22:10:33
925
原创 自动化文本到表格的推理密集型表格问答任务:流程设计与基准测试洞察
本文提出了一种自动化生成流程AutoT2T,将数学文字问题转化为表格推理任务,解决了现有表格问答评估中人工标注成本高和表格异质性大两大瓶颈。通过神经符号方法,AutoT2T实现了语义解耦、表格转换和增强三个关键步骤,并支持生成包含噪声的表格变体。基于此构建的TabularGSM基准系统评估了不同复杂度表格下的模型表现,揭示了大型语言模型在推理与检索耦合任务中的关键失败因素。实验表明,模型需要发展协同推理能力才能有效应对复杂表格问答。该研究为推理密集型表格任务提供了标准化评估工具和深入分析。
2025-06-30 21:51:24
611
原创 $\mathbf{T}^{2}$-RAGBench: 用于评估检索增强生成的文本与表格基准
本文提出$\mathbf{T}^{2}$-RAGBench基准数据集,包含32,908个金融领域问题-上下文-答案三元组,用于评估检索增强生成(RAG)系统处理文本和表格混合数据的能力。不同于现有问答数据集依赖已知上下文,该基准要求模型先检索正确上下文再进行数值推理。作者将上下文依赖问题转换为独立格式,并全面评估主流RAG方法,发现混合BM25方法表现最佳。实验表明,即使最先进方法在该基准上仍具挑战性。该工作填补了文本表格RAG评估的空白,为相关研究提供了严格基准。数据集和代码已公开。
2025-06-30 21:45:33
628
原创 TReB:评估大语言模型表格推理能力的综合基准
本文提出了一种全面评估大语言模型(LLMs)表格推理能力的基准TReB,包含26个子任务,覆盖6大核心技能(自然语言理解、表格理解、表格基本操作、表格计算操作、数据分析和高级数据分析)。针对现有基准在数据质量、推理模式和评估指标方面的不足,TReB构建了高质量数据集(含人工验证的5,000+表格问答对),支持三种推理模式(TCoT、PoT、ICoT),并设计了多维度评估指标。实验测试了20+先进LLMs,结果表明现有模型在复杂表格任务上仍有显著提升空间。数据集和评估框架已开源,为表格推理研究提供了新标准。
2025-06-30 21:39:40
973
原创 QUEST:面向商业文档的质量感知半监督表格提取
QUEST:一种质量感知半监督表格提取框架 摘要:本研究提出QUEST框架,用于解决商业文档表格提取中的标注稀缺和误差传播问题。不同于传统半监督学习依赖置信度分数,QUEST引入质量评估模型,通过分析表格结构和上下文特征预测F1分数,指导伪标签选择。结合多样性度量(DPP、Vendi分数、IntDiv),该框架在专有商业数据集(1k标注+10k未标注)上将F1从64%提升至74%,空预测减少45%;在DocILE基准上F1提高至50%(原42%),空预测降低19%。QUEST的质量评估机制特别适合商业文档处
2025-06-30 21:34:27
997
原创 合成数据增强用于表格检测:使用自动生成的文档图像重新评估TableNet性能
本文提出了一种基于LaTeX的自动化流水线,用于生成包含多样化表格布局的两栏文档图像及其真实掩码。该合成数据增强了Marmot基准数据集,支持TableNet模型在不同分辨率(256×256和1024×1024)下的系统性能研究。实验表明,在合成测试集上,TableNet的逐像素XOR错误率分别为4.04%(256×256)和4.33%(1024×1024),在Marmot基准上最佳性能达9.18%(256×256)。该方法显著减少了人工标注工作量,并为文档图像分析中的表格检测任务提供了有效的解决方案。研究
2025-06-30 21:27:58
872
原创 TableEval:一个面向复杂、多语言和多结构表格问答的真实世界基准
大型语言模型(LLMs)在自然语言处理方面取得了显著进展。然而,在表格问答(TableQA)任务中仍面临重大挑战,其中真实世界中的复杂性如多样化的表格结构、多语言数据以及领域特定推理至关重要。现有的TableQA基准通常局限于简单的平面表格,并且存在数据泄漏问题。此外,大多数基准是单语的,无法捕捉实际应用中跨语言和跨领域的可变性。为了解决这些局限性,我们引入了TableEval,一个新的基准,用于评估LLMs在真实TableQA任务上的表现。
2025-06-30 21:26:14
901
原创 WikiMixQA:一种用于表格和图表问答的多模态基准
摘要 本文提出WikiMixQA——一个包含1000个多模态选择题的基准数据集,用于评估视觉-语言大模型(VLLMs)在长文档中的跨模态推理能力。数据源自4000篇维基百科页面,涵盖表格、图表及7个主题领域。研究测试了12种VLLMs,结果显示:专有模型在直接提供上下文时准确率达70%,但需自主检索长文档信息时性能骤降(仅GPT-4-o超50%);开源模型表现更差(最高27%)。该工作揭示了当前模型处理长文档多模态推理的局限性,为文档理解研究提供了重要基准。数据集构建包含自动筛选、语义配对、AI生成问题及人
2025-06-30 20:48:53
985
原创 KaLM-Embedding-V2:卓越的训练技术和数据激发了多功能嵌入模型
本文中,我们提出了KaLM-Embedding-V2,一种多功能且紧凑的嵌入模型,通过利用卓越的训练技术和数据,在通用文本嵌入任务中取得了令人印象深刻的性能。我们的关键创新包括:(1) 为了更好地使架构与表示学习匹配,我们移除了因果注意力掩码,并采用具有简单而有效均值池化的完全双向Transformer来生成固定长度的嵌入;(2) 我们采用多阶段训练流水线:(i) 在大规模弱监督开源语料库上进行预训练;(ii) 在高质量检索和非检索数据集上进行微调;以及 (iii) 利用模型融合参数平均法实现鲁棒泛化。
2025-06-29 21:56:23
1117
原创 挑战安全极限:ATLAS挑战赛2025技术报告
摘要 ATLAS 2025对抗性测试与大模型对齐安全大奖赛聚焦多模态大语言模型(MLLMs)的安全漏洞评估,吸引了86支队伍参与两阶段挑战。第一阶段(白盒攻击)要求参赛者针对180个有害文本提示设计对抗性图文对,测试开源模型Qwen2-VL-7B和Internvl2-8B的脆弱性;第二阶段(黑盒评估)进一步升级任务复杂度。比赛揭示了MLLMs在跨模态交互中的安全风险,为防御机制创新提供了基准。相关代码与数据已开源,推动更安全的AI系统发展。该竞赛由全球多所高校及机构联合组织,成果将于CVPR 2025展示。
2025-06-29 21:38:05
1017
原创 统一的视觉-语言-动作模型
摘要: 本文提出UniVLA,一种统一的自回归模型,将视觉、语言和动作表示为离散标记进行联合建模,支持多模态任务学习。不同于传统视觉-语言-动作(VLA)模型依赖独立编码器,UniVLA通过统一框架实现跨模态深度集成,并利用视频数据捕捉时间动态。实验表明,该模型在CALVIN、LIBERO等基准上达到最先进性能,且通过世界建模增强长期任务表现。UniVLA还展示了在自动驾驶等领域的扩展潜力,为通用具身智能提供了新方向。 (字数:149)
2025-06-29 21:31:34
876
原创 MiMo-VL 技术报告
小米开源视觉语言模型MiMo-VL-7B取得突破性进展 小米团队近日开源了MiMo-VL-7B系列视觉语言模型,包含SFT和RL两个版本,在多项基准测试中表现优异。该模型通过四阶段预训练(2.4万亿token)和混合策略强化学习(MORL)方法训练而成,在40项评估任务中有35项超越Qwen2.5-VL-7B。特别在GUI定位任务中,MiMo-VL-7B-RL以56.1的成绩创下OSWorld-G新纪录,甚至超过专用模型。研究证实,将长链式思维推理数据纳入预训练阶段对提升模型性能至关重要。团队同时发布了包含
2025-06-29 21:26:35
765
原创 PsyLite 技术报告
摘要 本研究提出PsyLite,一种基于InternLM2.5-7B-chat的轻量级心理咨询大模型,通过两阶段训练(混合蒸馏数据微调+ORPO偏好优化)提升深度推理、专业咨询与对话安全能力。创新性引入条件RAG机制,动态结合相声幽默以优化用户体验,同时拒绝危险请求保障安全性。实验表明,PsyLite在CPsyCounE(专业性+47.6%)和SafeDialBench(安全性+2.4%)显著优于基线,并通过量化技术(GGUF q4_k_m)实现5GB内存的低硬件部署。研究为资源受限环境提供了可行的心理咨询
2025-06-29 21:24:12
777
原创 LGAI-EmbEDDING-PREVIEW 技术报告
摘要: LG AI Research提出了一种基于指令的统一框架(LGAI-Embedding-Preview),利用Mistral-7B模型结合上下文学习、软监督和自适应硬负样本挖掘,生成通用文本嵌入。该方法无需任务微调,通过结构化指令和少量示例,在分类、语义相似性、聚类和重排序等任务中表现优异。软标签框架从高性能检索器中提取连续相关性得分作为监督信号,而自适应硬负样本挖掘则提升训练稳定性和检索鲁棒性。在MTEB(英文v2)基准测试的41项任务中,该模型展现出强大泛化能力,Borda得分排名前列,优于更大
2025-06-29 21:22:41
742
原创 技术报告:Kaldi ASR 优化实用指南
本文提出了一种基于Kaldi的自动语音识别系统优化方法,通过声学模型增强和语言模型改进提升性能。在声学模型方面,设计了结合卷积和自注意力的定制Conformer模块,并采用多流TDNN-F结构,将输入特征从40维升级为80维log Mel滤波器组,集成SpecAugment数据增强技术。语言模型优化包括贝叶斯优化和n-gram剪枝策略,使用KenLM提高训练效率。实验表明,该系统在保持计算效率的同时显著降低了字符错误率,为语音识别任务提供了可扩展的解决方案。
2025-06-29 21:21:00
666
原创 Amazon Nova 系列模型:技术报告与模型卡片
亚马逊推出全新Nova系列AI模型,包含多款针对不同场景优化的产品:Nova Pro是多模态全能模型,Nova Lite是低成本多模态方案,Nova Micro专注文本低延迟响应,Canvas和Reel分别提供图像/视频生成能力。该系列采用Transformer架构,支持200+语言处理,通过多阶段训练确保性能与安全性。基准测试显示其在文本理解、多模态处理等任务上达到行业领先水平,同时强调负责任AI原则。模型提供知识库集成、自定义微调等功能,兼顾专业需求与成本效益。技术细节包括潜在扩散框架(生成模型)和基于
2025-06-29 21:19:24
964
原创 为现实应用设计RAG系统:设计、开发与评估
摘要:本文探讨了检索增强生成(RAG)系统在实际应用中的开发与评估,聚焦于五个特定领域:治理、网络安全、农业、工业研究和医学诊断。研究团队与芬兰多机构合作,开发了集成多语言OCR、语义检索和适配领域LLM的RAG系统,并通过100名参与者的在线评估从易用性、相关性等六个维度进行测评。基于用户反馈和开发经验,研究总结了12项关键教训,揭示了RAG系统在技术、操作和伦理层面的挑战。最终版本将由IEEE出版于第51届欧洲微型计算机会议(SEAA 2025)。 (字数:150)
2025-06-29 21:18:53
903
原创 Argoverse2 场景挖掘挑战中迭代错误纠正与空间感知提示的技术报告
本文提出RefAV框架的改进方法,用于自动驾驶场景挖掘。针对大语言模型(LLM)生成代码的运行时错误和空间关系函数理解不准确的问题,提出了两项关键技术:容错迭代代码生成(FT-ICG)机制通过错误反馈优化代码;增强的空间关系函数提示(EP-SRF)提升LLM对复杂空间关系的理解。在Argoverse 2数据集上的实验表明,采用Qwen2.5-VL-7B、Gemini 2.5 Flash和Gemini 2.5 Pro等模型时,各项指标均有显著提升,其中Gemini 2.5 Pro的HOTA-Temporal得
2025-06-29 21:17:02
529
原创 OneRec 技术报告
摘要:快手推荐团队提出端到端生成式推荐系统OneRec,突破传统级联架构局限。该系统将计算效率提升10倍,训练和推理的模型FLOPs利用率(MFU)分别达到23.7%和28.8%,接近大语言模型水平。通过基础设施优化,运营成本降至传统方案的10.6%。在快手Lite应用中,OneRec处理25%的查询量,用户停留时间提升0.54%-1.24%,核心指标全面改善。该系统还首次验证了强化学习在推荐场景的潜力,并揭示了推荐系统的扩展规律。架构整合了多模态语义分词和编码器-解码器生成框架,解决了传统推荐系统计算碎片
2025-06-29 21:16:23
585
原创 带有证明的技术报告:一致性检查中的完整图景——高效总结所有最优对齐
本文研究了SBWF网中轨迹的跳过对齐问题,提出了有限性证明和转换规则,并证明了化简规则的终止性和局部合流性。通过扩展A-STAR算法,作者实现了所有最优跳过对齐标准形式的正确性与完备性计算。关键贡献包括:1)证明跳过对齐的有限性;2)设计将任意对齐转换为跳过对齐的方法;3)建立规范化标准形式的唯一性;4)开发能计算所有最优解的改进A-STAR算法。该研究为流程挖掘中的对齐问题提供了新的理论框架和计算方法。
2025-06-29 21:14:47
613
原创 运动预测与规划的规模法则 技术报告
我们研究了一族编码器-解码器自回归Transformer模型在自动驾驶领域联合运动预测和规划任务中的经验规模法则。使用约50万小时的驾驶数据集,我们证明了与语言建模类似,随着总计算预算的增加,模型性能以幂律函数的形式提高,并且我们观察到模型训练损失和模型评估指标之间存在强相关性。最有趣的是,闭环指标也随着规模扩展而改善,这对于模型开发和优化中开放环路指标的适用性具有重要意义。我们还研究了训练计算最优模型时Transformer参数数量和训练数据规模的最佳扩展方式。
2025-06-29 21:12:39
724
原创 通义千问3技术报告
阿里巴巴达摩院通义实验室推出Qwen3系列大模型,包括密集型和MoE架构,参数规模从0.6亿到235亿,支持119种语言。关键创新包括: 整合"思考模式"和"非思考模式",实现动态切换; 引入"思考预算"机制优化计算资源分配; 通过知识迁移技术减少小模型训练成本。 评估显示,Qwen3在代码、数学和多语言任务上达到SOTA性能,MoE模型仅需1/5激活参数即可媲美密集模型。235B版本相比前代Qwen2.5,性能显著提升而参数量更少。 模型采用三阶
2025-06-26 21:26:53
1057
原创 Odin:一种用于处理模式歧义的 NL2SQL 推荐系统
摘要: NL2SQL系统将自然语言转换为SQL查询,但复杂数据库模式中的歧义(如相似表/列名)影响准确性。本文提出Odin,一种NL2SQL推荐引擎,通过生成候选SQL查询集合并动态调整推荐数量来解决模式歧义问题。Odin采用生成-选择策略:生成阶段迭代探索不同模式解释,选择阶段利用共形预测框架过滤低质量查询。用户反馈帮助系统学习偏好,实现个性化推荐。实验表明,Odin在AmbiQT基准上生成正确SQL的概率比基线高1.5-2倍,且结果集更精简。主要贡献包括歧义处理框架、高效生成-选择方法及个性化学习算法。
2025-06-26 21:05:15
657
原创 MiniMax-M1:通过闪电注意力高效扩展测试时计算能力
我们介绍了MiniMax-M1,这是世界上首个开源权重、大规模混合注意力推理模型。MiniMax-M1由混合专家(MoE)架构与闪电注意力机制共同驱动。该模型基于我们之前的MiniMax-Text-01模型(MiniMax等,2025年)开发而成,总共包含4560亿个参数,其中每个标记激活459亿个参数。M1模型原生支持1百万个标记的上下文长度,是DeepSeek R1上下文大小的8倍。
2025-06-26 20:59:46
837
原创 使用来自NL2SQL数据集的可调用API进行LLM工具调用评估
本文摘要: IBM研究院团队提出了一种将自然语言转SQL(NL2SQL)数据集自动转换为自然语言转API(NL2API)数据集的新方法。研究者开发了创新的数据生成流水线,利用SQL语法构建等效的API调用序列,并应用于BIRD-SQL数据集,创建了包含2500多个API的工具集合(SLOT/SEL/REST三种形式)。实验评估了10个公开大模型的表现,发现它们在工具调用任务上完成率仅为7-47%,即使采用ReACT代理模式也仅提升至50%。研究还分析了工具数量、名称模糊化等因素的影响,发现模型处理SQL有时
2025-06-26 20:57:27
827
原创 通过 DeepSeek 进行周期计数
本文提出了一种人机协同方法解决周期计数统计量(CEEF)的计算高效等价形式问题。研究者结合自创算法与人工智能(主要使用DeepSeek-R1)的编程能力,成功解决了这一长期存在的数学难题。通过将问题分解为识别多重图类别和递归剪枝算法两个步骤,实现了将高阶周期统计量转换为低复杂度计算形式。结果表明,尽管AI无法独立解决问题,但在明确策略指导和精心设计的提示下,可以成为数学研究的有效助手。该工作不仅为网络分析等领域提供了实用公式,也展示了AI解决开放性数学问题的潜力。
2025-06-26 20:53:12
838
原创 Qwen3 Embedding:通过基础模型推进文本嵌入和重新排序
阿里巴巴通义实验室推出Qwen3 Embedding系列模型,包括0.6B、4B和8B三种规模。该系列基于Qwen3基础模型,采用多阶段训练策略:先进行无监督预训练,再监督微调。模型支持多语言文本理解和生成,在MTEB多语言基准测试中表现优异(70.58分),代码基准测试达80.68分。Qwen3-Reranker重新排序模型在检索任务中提升显著,8B版本性能优于现有模型。模型具有指令感知能力,支持嵌入维度自定义,适用于多种应用场景。所有模型遵循Apache 2.0协议开源。
2025-06-26 20:49:25
691
原创 大型语言模型的微调与提示工程,用于构建多智能体人工智能以应对可持续蛋白质生产挑战
本文提出了一种基于多智能体人工智能框架的概念验证系统,用于支持可持续微生物蛋白生产研究。该系统由两个大型语言模型(LLM)代理组成:文献搜索代理与信息提取代理,分别负责检索科学文献和提取关键生物化学信息。研究对比了微调与提示工程两种优化方法,结果显示微调使信息提取代理的平均余弦相似度评分提升≥25%,最高达≥0.94,而提示工程则表现出更低的统计不确定性。此外,团队开发了配套的用户界面并探索了化学安全性搜索功能。该研究为加速可持续蛋白质研发提供了智能化解决方案,通过自动化文献处理克服了传统手动研究的效率瓶颈
2025-06-26 20:45:31
859
原创 高保真复杂测试数据生成在现实SQL代码生成服务中的应用
本文探讨了在工业环境中利用大型语言模型(LLMs)生成高保真测试数据的方法,以解决传统数据生成方法在测试复杂SQL代码生成服务(如NL2SQL)时的局限性。由于生产数据的访问受限,传统方法难以生成符合复杂嵌套结构且语义一致的测试数据。研究提出了一种结合LLMs(如Gemini)与预处理和后处理步骤的创新方案,能够自动生成语法正确且语义有意义的模拟数据,支持包含连接、聚合和嵌套子查询的复杂SQL查询测试。实验表明,该方法显著提高了Google SQL代码生成服务的测试覆盖率,解决了手动生成和生产数据抽样带来的
2025-06-26 20:43:32
839
NLI4DB: 数据库的自然语言接口系统综述
2025-03-30
FutureGen:生成科学文章未来工作的LLM-RAG方法
2025-03-30
CausalRAG:将因果图整合到检索增强生成中
2025-03-30
RGL:一种以图为中心、模块化的高效图检索增强生成框架
2025-03-30
在RAG-Text2SQL系统中平衡内容大小
2025-03-29
MAPQA : 开放领域地理空间问答基于地图数据
2025-03-29
基于LLM的数据分析中的洞察生成方法
2025-03-29
V-SQL:一种基于视图的两阶段Text-to-SQL框架
2025-03-29
Genicious:用于洞察发现的情境化Few-shot提示
2025-03-29
通过答案-公式联合生成实现通用表格问答
2025-03-29
链式思维推理是否有助于移动GUI代理?一项实证研究
2025-03-29
DAgent:一种基于关系数据库驱动的数据分析报告生成代理
2025-03-29
多模态大语言模型时代的代理推荐系统展望
2025-03-29
MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断
2025-03-29
大型语言模型在问答任务中的代理综述
2025-03-29
SEAlign: 面向软件工程代理的对齐训练
2025-03-29
MemInsight:大型语言模型代理的自主记忆增强
2025-03-29
GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战
2025-03-29
用于零样本泛化到定性新任务的思考型智能体
2025-03-29
OmniNova:一个通用的多模态代理框架
2025-03-29
【生物信息学】双向分层蛋白质多模态表示学习:融合蛋白质语言模型与图神经网络提升蛋白质相关任务预测性能
2025-04-11
### 【自然语言处理】潜在专家混合(MoLE):用于资源高效语言模型的创新架构设计:本文介绍了潜在
2025-04-09
### 【人工智能模型压缩】MoQa:多阶段数据模型分布感知的MoE量化框架设计与优化
2025-04-08
### 强化学习VAPO:用于高级推理任务的高效可靠强化学习框架设计与实现
2025-04-08
### 文章标题: 【自然语言处理】基于ChatGPT的REFORMER框架:提升Text-to-SQL模型的数据合成与增强系统设计
2025-04-08
### 【多智能体系统】基于强化学习的集中式多智能体协调框架:联合动作顺序构造方法设计与实验评估
2025-04-08
### 【人工智能领域】基于自原则批评调整的通用奖励建模推理时间扩展研究题:基于自
2025-04-08
### 【人工智能与物理学】基于MASS模型的AI科学家在物理系统中的理论一致性研究
2025-04-08
### 文章标题: 【AI助手与知识图谱】基于思维知识图(KGoT)的高效AI助手架构设计:降低运营成本与提升任务成功率摘要: 本文介绍
2025-04-08
### 【自然语言处理】大型语言模型推理能力的预训练扩展规律研究:基于知识图谱的多跳推理任务分析
2025-04-08
【计算机教育】DeepSeek-V3在计算机网络教育中的实证研究:评估模型效能与跨语言适应性
2025-04-04
医疗领域大型语言模型DeepSeek R1医疗推理能力分析:评估模型推理过程及错误模式以提升临床决策支持系统性能
2025-04-04
【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程
2025-04-03
### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升
2025-04-03
ActionStudio:轻量级动作模型数据与训练框架
2025-04-02
Unicorn: 用于视觉语言模型训练的纯文本数据合成
2025-03-31
基于大型模型的多任务语义通信
2025-03-31
Dewey 长上下文嵌入模型:技术报告
2025-03-30
实时评估模型在RAG中的应用:谁最能检测到幻觉?
2025-03-30
我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡
2025-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人