- 博客(215)
- 收藏
- 关注
原创 通宵刷完 GPT-OSS 技术报告:OpenAI,还是你狠
最接近 o4-mini 的开源模型维度社区体感参数量116.8 B(激活 5.1 B)20.9 B(激活 3.6 B)20 B 就能跑 16 GB 机器,真香上下文YaRN + Rotary,长度管够推理强度同上三挡可调,CoT 长度平滑提升工具浏览器 + Python + 任意函数同上官方给了参考 Harness,可插拔量化同上120 B 单卡 80 GB 就能跑协议Apache 2.0Apache 2.0商用无门槛对开发者对研究社区对行业。
2025-08-06 09:31:48
1447
原创 主流大模型推理框架全景解析:vLLM、SGLang、TensorRT-LLM、Ollama、XInference 横向对决
本文系统梳理了当前主流的大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM等。vLLM通过PagedAttention和Continuous Batching技术显著提升显存利用率和吞吐量,适合高并发场景;SGLang采用RadixAttention技术优化多轮对话性能,吞吐量比vLLM提升5倍;TensorRT-LLM通过预编译和量化支持,在NVIDIA GPU上实现高效推理。这些框架各有优势,适用于不同场景,为开发者选择合适的大模型部署方案提供了重要参考。
2025-07-28 20:24:31
1034
原创 告别镜像拉取慢!CNB无痛加速方案,一键起飞
腾讯云原生构建平台CNB提供免费算力与镜像加速服务,配合"CNB镜像同步助手"Chrome插件,可便捷拉取国内外镜像。用户只需注册CNB账号、Fork镜像同步项目,即可通过浏览器插件快速同步Docker镜像到个人仓库,实现高速下载。该方案解决了海外镜像源访问慢的问题,支持一键同步nginx、tomcat等常用镜像,大幅提升开发效率。
2025-07-26 12:00:44
762
原创 大模型架构终极横评:Llama/Qwen/DeepSeek等6大主流框架全维度技术拆解
本文对比分析了当前主流大型语言模型(LLM)的架构发展,重点关注DeepSeek V3、OLMo 2、Gemma 3等模型的创新设计。DeepSeek V3采用多头潜在注意力(MLA)和专家混合(MoE)技术,MLA通过压缩KV缓存降低内存占用,MoE通过稀疏激活提升推理效率。OLMo 2在归一化层位置和QK-范数方面做出改进。Gemma 3则引入滑动窗口注意力机制。文章指出,尽管LLM架构保持核心Transformer结构,但在位置编码、注意力机制和归一化层等细节上持续优化,这些改进共同推动模型性能提升。
2025-07-25 18:59:14
1101
原创 Qwen-MT:翻得快,译得巧
阿里云推出全新机器翻译模型Qwen-MT,基于Qwen3模型优化,支持92种语言互译,覆盖全球95%人口。该模型采用强化学习和MoE架构,兼具高质量翻译与低成本优势(每百万token仅2元),在中英、英德等多语种翻译任务中表现优异,评测显示其翻译质量与GPT-4等顶级大模型相当。Qwen-MT提供术语干预、领域提示等专业功能,适用于高并发场景,并通过API开放服务。人工测评由专业译员验证,显示其在实际应用中的卓越表现。
2025-07-25 18:50:23
1510
原创 LangChain 入门:手把手教你搭建第一个 AI Agent
基于LangChain框架开发AI Agent的核心功能与实践案例。文章首先阐述了Agent开发的三大关键能力:大模型接入、工具决策和任务管理,并对比了主流开源框架LangChain、AutoGen和Google ADK的特点。 重点分析了LangChain框架对Agent核心能力的支持:1)丰富的工具库支持多模型和数据源接入;2)嵌入预筛选+LLM决策的智能工具选择机制;3)ReAct循环实现的任务管理能力。通过一个自然语言查询SQLite数据库的实践案例,展示了如何构建具备智能推理、工具协作...
2025-07-21 10:10:58
955
原创 破解LLM“最后一公里”:后训练技术如何突破通用模型场景局限
本文系统梳理了大型语言模型后训练技术(PoLMs)的发展脉络与应用框架。文章首先区分了预训练(PLMs)与后训练(PoLMs)的定位差异,指出PoLMs专注于将通用模型适配到具体任务。通过时间轴展现了2018-2025年技术演进:从早期的SFT、预训练到RLHF、多模态的兴起,再到当前DPO、推理和MoE的火热发展。核心内容围绕后训练的五大方面展开:微调(监督/自适应/强化学习)、对齐(人类/AI反馈、直接优化)、推理增强、效率提升及多模态集成。重点解析了RLHF的反馈机制设计、奖励模型构建等关键技术,并对
2025-07-16 22:39:21
1022
原创 芒果TV-影视语音多语种翻译赛-TOP10总结
本文介绍了影视多语言自动翻译比赛的解决方案。该赛题要求将中文影视音频实时翻译为英、马、泰三语字幕,面临语音识别(口音、背景音)、文化专有项翻译、多轮对话上下文理解等技术难点。团队采用两阶段方案:基于Qwen2.5-Omni-3B的语音识别模块(LoRA微调)和Qwen3-14B的多语言翻译模块,通过滑动窗口处理对话上下文,使用vLLM加速推理。关键创新包括:文化梗标注、多轮对话数据构造和并行推理优化,最终在A/B榜均进入Top10。
2025-07-16 20:32:15
1266
原创 WWW 2025 EReL@MIR 多模态检索挑战赛:竞赛总结
MIRC 2025 (Multimodal Information Retrieval Challenge) 是与 The Web Conference 2025 (WWW 2025) 联合举办的第一次 EReL@MIR 研讨会 中的一个重要比赛。WWW 2025 将于 2025年4月28日至5月2日 在澳大利亚悉尼举行。
2025-07-15 16:00:13
1239
原创 一网打尽:requests、aiohttp、httpx 谁才是你的真命 HTTP 库?
本文对比了Python中三个HTTP客户端库(requests、aiohttp、httpx)的性能差异。测试以发送100次POST请求为基准,结果显示:requests库在不保持连接时耗时2.7秒,保持连接后缩短至1.4秒;httpx同步模式耗时1.3秒;aiohttp异步模式最快仅0.5秒,httpx异步模式也表现优异耗时0.6秒。结论表明,对于需要高频请求的场景,异步请求方式(aiohttp和httpx)具有明显性能优势,其中aiohttp最快,而httpx兼具同步/异步两种模式,使用更为灵活。
2025-07-14 14:13:53
1097
原创 零前端?3分钟上线!用Streamlit把AI模型变「可点击」的神器
Streamlit是一个开源Python框架,无需前端知识即可快速构建数据应用。它支持丰富的数据展示形式(表格、图表、文本等)和交互组件(滑块、输入框等),通过简单Python代码即可控制应用逻辑。本文介绍了Streamlit的安装方法(pip install streamlit)和基本使用流程,并以Iris分类器为例展示了如何创建交互式机器学习应用。文章还详细讲解了Streamlit的核心API,包括数据展示(write、markdown、dataframe等)和用户输入组件,帮助开发者快速上手。
2025-07-14 13:56:21
1069
原创 「AI Agent」≠「Agentic AI」!
本文探讨了AI Agent与Agentic AI的区别与发展。AI Agent是具备工具调用能力的独立智能体,能完成特定任务(如预订机票),但仍面临推理能力不足、幻觉等问题。而Agentic AI则是由多个AI Agent组成的协同系统,通过智能协调完成复杂目标(如智能家居管理),展现集体智能优势,但也带来错误放大、通信瓶颈等新挑战。两者代表了AI从"工具"到"组织"的演进,将推动下一代AI系统向更自主、协同的方向发展。
2025-07-14 11:32:19
881
原创 2025大模型面试60题终极指南
本文梳理了大模型相关的核心概念与常见面试题,重点解析了Transformer架构、自注意力机制、分词策略等关键技术。
2025-07-14 08:56:06
736
原创 炸裂!Kimi K2「开源核弹」:代码王者+Agent 超脑,今日上线
月之暗面发布并开源万亿参数Kimi K2模型,采用MoE架构(激活参数32B),在代码、Agent和数学推理任务中达到开源模型SOTA水平。关键技术包括MuonClip优化器提升训练效率、大规模工具使用数据合成及通用强化学习机制。模型具备128K长上下文支持和兼容OpenAI的API接口(输入/输出tokens分别4元/16元每百万)。同步开源基础版和指令微调版,在风格化写作、知识推理等场景表现优异,未来将扩展视觉理解等能力。用户可通过官网或App体验,开发者可部署开源模型或调用API服务。
2025-07-12 11:09:10
1315
原创 pip 安装加速指南:配置国内镜像源(中国科技大学、清华、阿里云等)
摘要 国内使用pip安装Python包时,默认国外PyPI源常导致下载慢、超时问题。推荐使用国内镜像源提升安装效率,如中国科技大学、清华大学等镜像。可通过临时-i参数或永久修改pip.conf/ini文件配置镜像源。Conda用户也可通过命令添加清华镜像。注意HTTPS协议、镜像同步延迟等细节。合理使用国内镜像能显著改善Python包管理体验。
2025-07-09 18:14:38
1153
原创 模型融合:协同创新的未来趋势
模型融合(Model Merging)是一种无需额外训练就能组合不同模型能力的技术。通过计算任务向量(Task Vector),即微调模型与基础模型的参数差值,可以实现不同能力的加减组合。例如将中文能力与安全对齐能力融合,或让模型忘记特定知识。该方法在大模型上效果更佳,因为参数更新更分散。未来可能形成任务向量交易市场,让用户自由组合模型能力。研究显示,当模型能力差异较大且参数更新不重叠时,融合成功率更高。这一技术为快速构建多功能模型提供了新思路。
2025-07-08 11:10:03
1066
原创 通义WebSailor开源Agent多榜夺魁,向OpenAI BrowseComp高难度基准发起挑战
阿里巴巴通义实验室 RAG 团队推出了最新研究成果 WebSailor。WebSailor 带来了完整的后训练方案来弥补这一差距,使开源模型在超复杂的信息检索任务上实现突破。通过创新的数据构造和训练方法,WebSailor 成功赋予开源 Web Agent 以超人类推理能力,在 BrowseComp 等长期未解的挑战上取得了前所未有的成绩,大幅度缩小了开源模型与顶级封闭系统之间的差距。
2025-07-08 10:57:49
1040
原创 GitHub 5.4k+ Star项目爆火,构建生产级Agent的12个秘密武器
资深AI工程师Dex在GitHub发布5.3k+星标技术文档《12-Factor Agents》,揭示从AI原型到生产级产品的关键洞见。通过分析主流Agent框架(LangChain/LangGraph/CrewAI等)和YC创业公司的实际案例,Dex发现: 成功AI产品往往采用务实模块化方法,而非依赖现有框架 原型阶段可达80%效果,但最后20%需深度定制甚至重构 类比《12-Factor Apps》方法论,提出12条生产级AI应用原则。
2025-07-06 22:50:30
1237
原创 Jina Embeddings V4:专为搜索打造,多模态多语言向量模型助力精准检索
Jina AI发布全新多模态向量模型jina-embeddings-v4,参规模达38亿,首次实现文本与图像同步处理。该模型内置任务专用LoRA适配器,在MTEB等多项基准测试中展现出顶尖性能,尤其在视觉内容理解方面表现突出。相比前代v3,v4采用Qwen2.5-VL-3B-Instruct作为底座模型,支持单/多向量输出模式,并优化了适配器结构。测试显示,其性能全面超越主流闭源模型,如比OpenAI text-embedding-3-large多语言检索性能高12%,成为当前最强大的开源通用向量模型。
2025-07-04 15:52:48
872
原创 基于Cox风险比例模型的会员用户流失预测研究
银行用户留存率下降原因分析 本文针对银行用户次日留存率持续下降问题,提出了一套系统的分析方法论: 问题验证:首先确认数据真实性,排除季节性、营销活动等因素影响 用户画像分析:通过RFM模型和5维度属性(社会、商业、行为、内容、设备)细分用户群体 流失路径定位:结合OSM框架和AARRR模型,分析用户在获取、激活、留存等环节的行为数据 因果关系推断:运用XGBoost和Cox风险模型进行特征归因和流失预测 解决方案验证:通过AB测试验证优化策略的有效性 案例展示了如何从数据验证到策略制定的完整分析流程。
2025-07-02 10:55:21
1225
原创 11大顶级AI Agent框架全览
本文介绍了11个适用于软件开发者的最佳AI智能体框架,帮助构建能够自主推理、规划和执行复杂任务的智能系统。重点分析了三个主流框架:LangChain以其模块化设计支持多模型集成;微软的AutoGen专注于多智能体协作;CrewAI则擅长模拟真实团队协作。各框架在灵活性、易用性和应用场景上各有侧重,开发者需根据项目复杂度、编程能力等需求选择合适方案。文中还提供了各框架的代码示例,展示其核心功能实现方式。
2025-07-02 10:18:55
1282
原创 本地模型接入本地MCP:实践操作与经验分享
Anthropic公司(就是发布Claude大模型的公司),在2024年11月,发布了Model Context Protocol协议,简称MCP。MCP协议就像Type-C扩展坞,让海量的软件和工具,能够插在大语言模型上,供大模型调用。
2025-07-01 10:27:09
609
原创 玩转AI知识检索:三大Query变形术,爆改RAG检索力
通过Query变形术提升RAG(检索增强生成)系统的检索效果。首先指出用户提问质量对检索结果的关键影响,接着详细介绍了三种Query变形方法:Query重写,让问题更专业、具体;Step-back Prompting,将问题泛化获取全景背景;Sub-query Decomposition,把复杂问题拆分为多个子问题逐一检索。通过实战案例对比,发现Sub-query Decomposition效果最佳,能全面、细致地回答复杂问题。最后给出实战建议,强调学会Query变形术能让RAG检索更精准、高效。
2025-06-30 11:12:19
743
原创 2017年Transformer后,LLM领域重要论文梳理
Andrej Karpathy认为自然语言将成为新的编程接口,AI模型负责执行任务,这一变革将重塑软件开发范式。文章精选了22篇关键论文回顾LLM发展历程:2017年Transformer架构问世,奠定现代AI基础;2020年GPT-3验证了大模型的通用能力;2022年InstructGPT引入RLHF技术,催生ChatGPT;2023年GPT-4实现多模态突破,LLaMA推动开源生态发展。这些里程碑式研究揭示了从传统编程到自然语言交互的范式转变,展现了AI技术快速演进的内在逻辑。
2025-06-30 10:45:08
787
原创 LLM炒股能否跑赢大盘?深度剖析带你揭开谜底
摘要: 大型语言模型(LLM)在金融投资领域被广泛研究,但其短期、窄范围的评估可能因幸存者偏差和数据窥探偏差而高估性能。爱丁堡大学等机构提出FINSABER框架,通过长达20年、覆盖100多只股票的回测发现,LLM策略在长期泛化性和风险控制上显著弱于传统方法(如“买入并持有”)。尽管LLM在特定场景(如特斯拉股票)表现突出,但综合评估显示其优势具有局限性,且更大模型未必更优。研究强调需改进LLM的风险管理能力,并呼吁更严格的评估标准以避免误导性结论。
2025-06-29 12:13:24
788
原创 升级GRPO:赋能dLLM高效强化学习
苹果团队研究扩散语言模型(dLLM)在代码生成中的应用,推出DiffuCoder模型。该模型基于掩码扩散模型(MDM),训练参数达70亿,性能媲美同规模自回归模型。研究发现dLLM解码具有非顺序特性,代码生成比数学文本更灵活。团队提出新算法coupled-GRPO优化训练,通过局部和全局自回归指标分析模型行为,发现dLLM在高质量数据训练后能超越自回归依赖。DiffuCoder在HumanEval等基准测试表现优异,为扩散模型的代码生成能力提供了新见解。
2025-06-27 14:31:43
685
原创 能办成事的Agent:实时交互与经验学习
Agent模型是人工智能领域中的一个概念,指的是具有自主性、反应性、主动性和社交能力等特性的计算实体。这种实体能够使用传感器感知周围环境,做出决策,然后使用执行器采取行动。
2025-06-26 22:49:30
808
原创 AI自动化神器n8n,保姆级教程带你玩转高效流程
n8n 是 nodemation 的简称,是一个开源的、高度可扩展的工作流自动化工具。GitHub 仓库为 https://github.com/n8n-io/n8n ,当前 Star 数已经达到 108K。它允许你通过一个直观的可视化界面,将不同的应用、服务和数据连接起来,创建复杂的自动化流程,从而提升效率、减少重复性工作。
2025-06-26 15:51:55
1319
原创 Dify MCP 保姆级教程
MCP(Model Context Protocol,模型上下文协议) ,2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大模型与外部数据源和工具之间的通信协议。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题,MCP 使得 AI 应用能够安全地访问和操作本地及远程数据,为 AI 应用提供了连接万物的接口。
2025-06-26 15:41:08
1027
原创 PagedAttention面试细节
上周群里有位同学在大模型面试时被问了这样一道题:“能不能手写一下 PagedAttention 的实现逻辑,并讲讲它和的区别与优化点?他当场愣住了,只能尴尬地回答“没听过”。这类底层优化相关的考点,其实在近一年的大模型岗位面试中频频出现,尤其是服务端推理、部署方向的岗位中,PagedAttention、KV Cache、,基本上成了面试官判断“你是否真的做过大模型实战”的标志性问题。如果你正在准备大模型相关岗位的面试,。
2025-06-20 10:42:37
966
原创 Langchain入门指南:一次讲清基本用法
本文介绍了LangChain的基础语法,重点讲解了ChatModel、PromptTemplate和OutputParser的使用方法。主要内容包括:1)如何加载LLM模型并调用;2)RunnableSequence的概念及其invoke、batch等通用接口;3)Message消息类型及其四种角色分类;4)PromptTemplate模板的使用和初始化方式。文章还提供了官方文档参考和开发环境配置建议,强调这些基础组件是构建Agent系统的基本单元。通过简单示例展示了从模型调用到模板拼接的完整流程。
2025-06-17 20:04:44
830
原创 无需微调!提升 RAG 准确性的关键策略
本文探讨了提升RAG(检索增强生成)系统性能的关键方法。首先将RAG流程分解为检索前、检索和检索后三个阶段进行优化。在检索前阶段,通过数据清洗、添加元数据、优化分块技术(如父文档检索和句子窗口检索)来提升数据质量。检索阶段采用查询重写技术,如多查询检索器和Hyde方法,以增强查询与文档的语义对齐。检索后阶段则利用提示工程优化LLM的上下文理解。这些方法共同解决了RAG在信息检索和生成答案过程中的核心挑战,显著提高了系统的准确性和效率。
2025-06-16 16:41:37
864
原创 swift-Qwen3 Embeding模型Lora微调实战
Qwen3推出全新开源Embedding系列模型,在MTEB排行榜中取得多项第一。该系列包含Embedding模型和Reranking模型,采用三阶段分层训练机制,实现了RAG技术栈的统一。文章重点介绍了如何通过LoRA方式微调Qwen3-Embedding模型,将其优化为特定领域(农林牧渔)的语义搜索模型。其中详细讲解了负样本挖掘方法、InfoNCE损失原理,以及使用ms-swift进行微调的具体流程。
2025-06-16 16:23:48
912
原创 FastAPI-MCP构建自定义MCP工具实操指南
FastAPI-MCP是一个基于Python FastAPI框架的开源工具,可将FastAPI接口自动转换为MCP协议服务。它保留FastAPI的异步高并发、OpenAPI文档等特性,支持SSE和远程接入,并提供授权访问功能。安装简单,通过pip或uv即可完成。开发者只需编写常规FastAPI接口并设置operation_id,就能创建MCP工具。示例展示了时间查询和用户信息获取两个接口,后者需要Token验证。启动服务后,既可通过标准API访问,也能在Cherry Studio等MCP客户端中使用。
2025-06-15 22:30:34
1291
原创 华为天才少年李博杰打造“办成事”智能体:动态交互+经验进化,让AI真正解决问题
目前大部分 AI Agent 主要执行批处理任务,难以实现真正实时交互。其面临两大核心挑战:一是实时交互延迟高;二是难以从经验中学习。Agent 的能力依赖基础模型和静态知识,无法根据任务成败积累经验,导致每次任务执行方式可能不同,无法提升熟练度。关键在于让 Agent 能从经验中学习,越用越熟练,从而在语音和电脑操作等任务中达到真人级响应速度,并积累成功与失败经验,提升技能熟练度。
2025-06-15 22:24:13
1052
原创 MCP核心原理,一篇文章带你轻松上手
本文介绍MCP协议,旨在统一AI模型与外部数据源和工具的交互。文章首先阐述了MCP的基本工作原理,包括Host、Client和Server的交互流程。接着分析了MCP Server的两种通信协议:STDIO(本地进程通信)和SSE(HTTP远程调用),并通过配置示例说明了两者的差异。文章还解读了MCP Server配置中的命令参数,以npx和uvx为例展示了如何调用npm和Python工具包,并通过实际命令演示了STDIO协议的数据传输格式,说明了MCP如何将结构化参数传递给工具包执行。
2025-06-12 10:57:43
1170
原创 OpenAI凌晨重磅出击!o3-pro正式登场
它总是向前看是垂直的,向后看是平坦的,但它是一条平滑的曲线。一千年前,一位自给自足的农民会看着我们许多人的所作所为,说我们所做的工作是虚假的,认为我们只是在玩游戏自娱自乐,因为我们拥有充足的食物和难以想象的奢侈品。另外,根据模型文档,o3-pro 支持文本和图像两种输入模态,上下文窗口大小为 200k,最大输出 token 数为 100k,知识的截至时间为 2024 年 6 月 1 日,所以它本身并不具备近一年内的信息,但用户可以通过搜索和知识库等工具为其提供更多上下文。更多的人将能够创作软件,以及艺术。
2025-06-11 11:18:49
589
原创 Qwen3-Embedding技术报告解读
文本嵌入和重排序在网络搜索、问答系统和推荐系统等自然语言处理 (NLP) 和信息检索 (IR) 应用中至关重要。高质量的嵌入使模型能够捕获文本之间的语义关系,而有效的重排序机制可确保最相关的结果获得优先权。该论文介绍了 Qwen3 Embedding 系列,旨在提升文本嵌入和重排序能力。
2025-06-10 21:10:20
647
Deepseek给我们带来的创业机会
2025-02-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人