小敢摘葡萄-CSDN博客

原创告别选择困难症！在 Cline 中如何为不同开发阶段挑选最合适的 AI 模型？

自己画的最近 Cline 发表了一篇文章，他讲到，如何在众多 AI 模型中，选择适合自己的一个模型。用过 AI 编程的开发者，可能都会碰到像我一样的烦恼：“这么多的顶级 AI 模型（Anthropic、Google Gemini、OpenAI 等），我到底该选哪个呢？确实，选择太多有时候反而让人眼花缭乱。有没有一个放之四海而皆准的“万能模型”呢？根据 Cline 博客的观点，答案是：没有！在软件开发整个开发周期，。一个在某个环节表现出色的模型，可能在另一个环节就显得大材小用或者力不从心。

2025-05-06 11:19:17 802

原创基于dify评测qwen3的整体效果

Qwen3是阿里巴巴于2025年4月29日发布的一款开源混合推理模型，其特点和性能在多个方面都取得了显著突破.一张图给大家看懂Qwen3。

2025-05-06 11:15:58 795

原创最新指南：国内外大模型下载网站全攻略（附避坑技巧）

今天为大家带来。

2025-05-05 11:56:57 622

原创阿里突放大招！8 款免费大模型开放，还把快思考和慢思考结合了！

豪横的阿里又甩出王炸——通义千问Qwen3系列模型，不仅一口气推出8个不同参数规模的模型，还全部免费开放！可以说，这次阿里把不差钱做到极致，一款模型做了八个不同参数规模，小到一个AI客服大到科研团队研究任务都能应用。有能在手机平板上运行的轻量模型，0.6B、1.7B参数模型，*****写作文、翻译外文短信，画图，解数学题，甚至编代码。*****8B、14B参数的模型，适合中小企业或普通开发者。

2025-05-05 11:53:40 526

原创一文看懂---通义千问Qwen3系列全家桶

国人等待了一个通宵的Qwen3发布了，实测下来，效果确实非常不错，本地部署成本低，云端访问速度快。通义实验室正式发布新一代大语言模型Qwen3，包含多个规格的模型版本，涵盖从超大规模到轻量级模型，满足不同场景需求：：超大规模旗舰级模型，总参数235B，每次推理激活22B参数。小型旗舰模型，总参数30B，每次推理激活3B参数。\2. 六款密集模型（Dense Models）：- 参数范围从0.6B到32B，覆盖低资源设备到高性能计算场景。\1. 性能表现。

2025-04-30 15:41:57 566

原创最强开源大模型？Qwen3 系列深度解析 + 本地部署指南！

Qwen3 支持在一个模型中无缝切换“

2025-04-30 11:45:16 1801

原创《Handy-Multi-Agent》毕业，从零入门超火的多智能体系统！

CAMEL**，不仅深入剖析Agent的各个组成构件，更提供完整代码实现与详细讲解，让每位学习者都能真正理解并掌握多智能体系统的开发能力。我们不只是教你"用"，更教你"懂"——从理论到实践，从单Agent到多Agent协作，打造一套真正可实践的多智能体应用开发全景图。

2025-04-28 11:32:26 766

原创高手请忽略，端午节海报，deepseek+即梦AI轻松拿捏！

以前玩AI不会写关键词，不会构思画面，现在有了deepseek，这些东西完全不用担心。一起来看看，deepseek+即梦AI，能给我们带来什么样的端午节海报吧。关键词：插画风格，雨巷石板上浮着薄薄水烟，老灶台蒸汽氤氲出竹叶清香。祖母布满皱纹的手将糯米填入箬叶，八仙桌上的青瓷盘盛着咸蛋黄，窗棂外闪过孩童追逐的五彩丝绦。关键词：插画风格，莫高窟藻井图案活了起来，飞天手持粽形箜篌穿梭在经变画中。九色鹿衔着艾草奔跑，千佛洞窟的眼眸随龙舟鼓点开合，壁画里的供养人正在包量子纠缠粽。

2025-04-28 10:48:08 673

原创 DeepSeek分布式训练框架中的混合精度计算：硬件成本优化的技术实践

DeepSeek通过混合精度计算构建了精度-效率-成本动态精度缩放解决了FP16数值稳定性问题多精度存储策略平衡了显存占用与计算精度分布式通信优化降低了大规模集群的训练成本随着FP8技术的成熟应用（如DeepSeek-R1），硬件成本有望进一步降低50%以上。这种技术演进不仅推动了大模型训练的平民化，更为AI技术的产业化落地提供了关键支撑。

2025-04-27 14:00:41 680

原创 SmolDocling：256M参数的轻量级多模态文档处理利器，10分钟搞定百页PDF

SmolDocling 是一个由 IBM 研究院 Docling 团队开发的开源视觉语言模型，专为文档光学字符识别（OCR）和转换而设计。该模型具有256M参数，能够在消费级 GPU 上快速处理文档，每页文档的处理时间仅需0.35 秒，使用不到500MB的显存。SmolDocling 的目标是通过端到端的方式将图像文档转换为结构化文本，同时保留文档的原始布局和复杂元素，如代码块、数学公式、图表等。SmolDocling 以其轻量级的设计和强大的多模态文档处理能力，为文档处理领域带来了新的可能性。

2025-04-27 11:42:59 681

原创 SCIENCE ADVANCES 2025 | 使用潜在扩散模型的人工智能能够产生多种多样且有效的抗菌肽

今天介绍一篇发表在SCIENCE ADVANCES上的论文：“Artificial intelligence using a latent diffusion model enables the generation of diverse and potent antimicrobial peptides”。抗生素的广泛使用导致抗生素耐药性问题日益严重，抗菌肽（AMPs）因其快速、强大的膜活性和多样的抑制机制，成为开发新型抗菌药物的有前景的候选物。

2025-04-18 11:10:43 917

原创创新跨模态结构对齐模块！3DAffordSplat：首个专为3DGS设计的大规模多模态功能数据集

给定一个三维高斯泼溅（3DGS）表示，其中表示高斯中心位置，表示尺度参数，表示旋转参数（统称为结构特征），以及不透明度和基于球谐函数的颜色特征（统称为外观特征）。我们假设物体的功能属性主要来源于局部结构特征，因此模型仅处理结构特征。对于给定的文本查询，模型输出文本响应和对应的三维高斯功能掩码，其中表示高斯数量。

2025-04-18 11:01:38 919

原创【2万字】一文搞懂：大模型是怎么被训练出来的？AI大模型落地必读

从整体上看，训练LLM主要包括两个关键阶段：预训练（Pre-training）后训练（Post-training）：微调、RL和RLHF。上述流程整合了预训练、微调、RLHF等核心阶段，适用于自然语言处理和多模态大模型：1.

2025-04-17 13:47:19 666

原创 2025年大模型2.0产业发展报告

2025年大模型2.0产业发展报告》由国家工业信息安全发展研究中心标准所与联想集团联合发布，深度剖析大模型2.0产业发展状况，涵盖技术演进、产业生态、应用场景及未来趋势等关键领域。人工智能历经探索期、起步期、发展期后，大模型从1.0的探索迈向2.0的应用阶段。2.0阶段技术上，模型理解能力更强、知识储备更全面、训练模式更高效低碳、产业应用能力更广泛；商业上，在个人和企业场景找到可行商业模式；产业层面，以个人和企业为核心的生态体系逐渐形成。

2025-04-17 11:50:25 658

原创可以封神了！这个国产开源的Graph RAG chatwiki，可以打造微信里的聊天机器人

*系统基于大语言模型（LLM ）和检索增强生成（RAG）和GraphRAG知识图谱构建，提供开箱即用的数据处理、模型调用等能力。企业知识场景全覆盖，比如教育、金融、法律、医疗健康、政务部门等行业上传企业私有文档，由ChatWiki负责对文档进行分段清洗，由DeepSeek等AI大模型负责根据知识库已有内容快速给出精准回答。目前支持DeepSeek R1、doubao pro、qwen max、Openai、Claude 等全球20多种主流模型。比如单独问DeepSeek“xx乡村规划许可证怎么办理？

2025-04-15 13:38:56 832

原创 7 个最近很火的开源项目「GitHub 热点速览」

可能很多人昨天都刷到了消息：GitHub 抽风，导致中国区未登录的用户无法访问，现在问题已经修复。看到这个消息时，我的第一反应也是“被制裁了？”从震惊到平静，不过短短几分钟，随即就开始思考如何应对。尽管事后证明这是一场乌龙，但也让人深刻反思：只需调整一个配置文件，就能让你无法访问，开源是否真的无国界？回顾上周的热门开源项目，Google 开源的 A2A 智能体互联协议，在短短不到一周的时间，Star 数就即将破万。这是继 MCP 之后，又一科技巨头推出的提升 LLM 应用能力的新协议。。

2025-04-15 11:34:44 1263

原创 OneEval：OpenKG发布大模型知识增强综合能力评测榜单

OneEval是一个侧重于“大模型 + 知识库（LLM+KB）” 的融合能力评估的评测体系。第一批发布的V1.0包含十个核心任务数据集，涵盖了文本、表格、知识图谱、代码等四种类型的知识形态，以及通用、医疗、政务、科学、法律与编程等六大领域数据集。基于模型在 OneEval 各项任务中的表现，我们进一步归纳出当前大语言模型在知识推理类任务中可能面临的五个关键问题，为理解其能力边界及未来研究方向提供有益参考依据。展望未来，

2025-04-12 10:47:40 1066

原创 CVPR 2025 | 清华团队提出MambaIRv2：Mamba＋注意力混合架构突破SOTA，推理效率提升300%！

基于状态空间模型（SSM）的线性计算架构，Mamba在长序列建模领域展现出与Transformer相当的竞争力。清华大学研究团队最新提出的MambaIRv2创新融合两种技术优势，在图像复原领域实现了计算效率与全局精度的双重突破。该方案通过硬件感知扫描优化策略（HASS）实现关键技术改进：将传统四阶段扫描流程优化为单次扫描流程，结合动态注意力加权机制，在DIV2K数据集测试中，不仅维持97.3%的像素信息完整性，更实现58%的能耗降低。

2025-04-12 10:32:38 773

原创 RAG 准确率告急？金融大佬 Mike Conover 亲授：构建高保真知识智能体的实战秘笈

尤其是在金融、法律等高风险领域，一个微小的错误都可能带来难以估量的代价。这不仅是技术挑战，更是业务应用的生死线。当前，利用 RAG (Retrieval-Augmented Generation) 技术加速知识获取看似是捷径，但如何跨越。

2025-04-11 11:49:33 679

原创商汤甩出具身智能大招！最强多模态大模型登场，给机器人装上大脑和眼睛

在日常生活和办公场景中，应用了「日日新SenseNova V6」系列模型后，也能带来更多便利和生产力的提升。比如上传时长10分钟以内的网课、旅游、生活类视频，就可以让AI快速整理重点、回答与视频内容相关的问题。商家可以收集顾客对新品的评论吐槽截图，让「日日新SenseNova V6」做专业的经营分析。它还能解决真实办公场景里繁琐但重要的需求，包括信息管理、报告生成、运维日志生成、数学建模等。

2025-04-11 11:46:32 840

原创利用Langchain实现表格与文本的检索增强生成（RAG）教程与实战案例！

通过本文的介绍，您应该对如何使用Langchain进行表格和文本的检索增强生成有了更深入的了解。无论是通过直接的函数调用，还是利用Langchain的Agent和Chain，您都可以灵活地处理各种数据源，提升信息检索的效率。

2025-04-10 11:00:51 710

原创一文读懂CNN卷积神经网络从基本概念、模型定义、训练、验证全流程指南

卷积神经网络（CNN）受到人类视觉皮层的启发，在从结构化网格数据（如图像）中提取特征的空间层次结构方面特别有效。图像自然地被表示为多维阵列-通常是具有对应于高度、宽度和颜色通道的维度的3D张量（例如，红色、绿色和蓝色）。这种结构化表示使图像成为CNN的理想候选者，CNN利用卷积运算来有效地处理输入数据的局部区域。img尺寸为4x 4x 3的红绿蓝（RGB）图像的3D张量。与将输入数据视为平面向量的传统神经网络不同，CNN通过应用在图像上滑动的过滤器（或内核）来保留数据中的空间关系。

2025-04-10 10:59:02 780

原创智谱大模型算法面试，有点质量！！！

项目介绍部分是面试的重点之一，面试官让我详细讲解我之前参与的一个项目。

2025-04-09 11:12:14 1951

原创 “是我创造了第一个LLM“！Kaggle前首席科学家一句话引发AI学术圈考古行动

论如何在技术圈争论中一句话噎到对方：哥们，是我创造了第一个大语言模型。发言者为澳大利亚昆士兰大学名誉教授、曾任Kaggle创始总裁和首席科学家，现answer.ai与fast.ai创始人，。事情的起因是有人质疑他最近的项目在帮助大模型爬取互联网信息上并没太大作用，从而引发了这段争论，迅速引起众人围观。闻讯而来的“赛博考古学家们”一番考据之后，发现第一个大语言模型这个说法还真有理有据：2018年初，Jeremy Howard发表的论文，使用非监督预训练-微调范式达到当时NLP领域的SOTA。

2025-04-09 10:34:53 809

转载合合信息大模型加速器2.0：构建智能知识库，助力大模型减少“幻觉”

合合信息 “大模型加速器 2.0” 的推出，无疑为大模型应用领域带来了新的曙光。其在文档解析、图表处理、溯源功能以及知识库构建等方面的创新与升级，切实解决了行业内诸多痛点问题。从技术实力上看，无论是对复杂版面的精准解析，还是图表数据的 “逆还原”，都展现出其强大的处理能力，有效降低了大模型的 “幻觉” 风险，为数据的可靠性提供了坚实保障。而溯源功能更是让大模型的黑箱操作变得透明，增强了用户对大模型输出结果的信任度。在实际应用场景中，其开源的知识库组件为不同行业和个人开发者提供了广阔的拓展空间。

2025-04-08 20:19:46 34

转载 ChatGPT 4：解锁AI文案、绘画与视频创作新纪元

12 大专题讲解 +31 个温馨提示＋ 70 多个效果文件 +208 页 PPT 教学课件＋ 210 多分钟教学视频＋280 多张精美插图，随书还提供了 200 多个提示词等资源，帮助读者从入门到精通 ChatGPT 4 的全部应用。AI 提示篇介绍了 ChatGPT 4 的基本操作，以及优化 AI 提示让回答更加精准等内容。AI 文案篇介绍了 ChatGPT 4 生成优质文案的方法，以及电商、新媒体等常见案例。

2025-04-08 20:18:51 53

原创 Deepresearch核心技术：如何通过强化学习增强推理大模型搜索规划及反馈能力？

现在关于Deepresearch的复现和应用越来越多，也对大模型的规划能力有了越来越多的要求。假设大模型能力很强，我们可以使用，仅使用Chain-of-Thought (CoT)推理生成答案，不访问任何外部参考上下文。或者使用，结合Chain-of-Thought推理和检索到的参考上下文来指导答案生成过程，进一步的，也有Search-o1融合推理模型完成搜索增强。但是，。因此，我们来看看最近的几个代表工作，包括Search-R1、R1-Searcher以及DeepResearcher。

2025-04-07 11:24:55 874

原创你了解大模型的生态体系吗？大模型从技术到应用的内容梳理

神经网络技术从理论到应用是一个庞大的体系，我们需要知道的是这个体系是怎么构成的，每一层都有哪些内容关于大模型我想很多人都会有这样或那样的问题，最基础的就是不知道大模型是什么，技术场景和业务场景分不清楚；也不知道大模型有哪些能力，然后利用大模型能做些什么。因此，今天我们就来梳理一下大模型体系，从技术到应用之间的关系，以及各个环节所涉及到的技术。大模型体系——从技术到应用大家之所以搞不明白大模型，最根本的原因就是对大模型没有一个完整的认知；所以我们今天从多个维度来了解一下大模型的构成和应用。

2025-04-07 10:02:38 265

原创一篇文章让你彻底学会Docker的使用！(全文4w+字)

Dockerfile 是一个文本文件，包含了构建 Docker 镜像的所有指令。Dockerfile 是一个用来构建镜像的文本文件，文本内容包含了一条条构建镜像所需的指令和说明。通过定义一系列命令和参数，Dockerfile 指导 Docker 构建一个自定义的镜像。Compose 是用于定义和运行多容器 Docker 应用程序的工具。通过 Compose，您可以使用 YML 文件来配置应用程序需要的所有服务。然后，使用一个命令，就可以从 YML 文件配置中创建并启动所有服务。

2025-04-05 07:45:00 630

原创一篇文章带你入门Docker 基础知识，Docker 入门万字详解！新手也能看懂！

Docker 是一个开源的应用容器引擎，基于并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口（类似 iPhone 的 app）,更重要的是容器性能开销极低。

2025-04-04 11:30:00 658

原创满满干货！Docker最新安装教程~

Docker 并非是一个通用的容器工具，它依赖于已存在并运行的 Linux 内核环境。Docker 实质上是在已经运行的 Linux 下制造了一个隔离的文件环境，因此它执行的效率几乎等同于所部署的 Linux 主机。因此，Docker 必须部署在 Linux 内核的系统上。如果其他系统想部署 Docker 就必须安装一个虚拟 Linux 环境。在 Windows 上部署 Docker 的方法都是先安装一个虚拟机，并在安装 Linux 系统的的虚拟机中运行 Docker。

2025-04-04 10:30:00 808

原创 FinMamba：用于股票趋势预测的市场感知增强型多层次 Mamba 模型

结合股票特征与股票间相关性已成为有效的股票走势预测方法，但金融数据面临低信噪比和市场动态复杂性挑战。现有模型未能适应市场条件下股票间关系的动态变化，且难以从长历史数据中提取有益模式，效率和内存消耗问题突出。本文提出FinMamba框架，基于Mamba-GNN，进行市场感知和多层次混合股票走势预测。通过动态图学习股票间关系的变化，结合市场趋势的修剪模块，提升模型适应性。多层次Mamba机制选择性丢弃无关信息，重置状态以高效回忆多时间尺度的历史模式，优化预测。

2025-04-02 09:59:45 1097

原创国产AI起号两周就开始自己赚钱了，全球首个“边想边干”的Agent | 免费无限次

什么？！用AI Agent搞的账号，竟然14天，还开始了？？？你没看错，这是真事。据说啊，你只需要跟这个Agent说一个想讨论的话题，例如“怎么选咖啡”、“化妆品成分对比”等等，它就可以自己去小红书、知乎等平台上搜索上百个信源做总结。而且是可以出一个完整报告的那种，可想而知账号是有多**“高产”**了。那么这个Agent，到底是何方AI是也？不卖关子，它就是刚刚发布的新功能——。简单来说呢，就是它会基于一个开放式的问题，然后一边推理一边搜索超多的信源，最后生成相当完整的内容。

2025-04-02 09:58:50 266

原创探域科技如何用扣子 Coze 打造 AI 客服？

在传统电商客服体系中，服务流程通常由智能客服系统与人工客服团队协同完成，并衍生出一系列前后端的配套服务。尽管大模型已经诞生近两年半，目前 AI 客服大都还停留在 SOP 辅助模式或 Copilot 协作模式。“不配置就回复不了”、“机械式单轮问答”、“幻觉问题误导客户”、“无法识别判读意图，答非所问”等问题仍然普遍存在。为了让 AI 客服更智能化，抖音电商客服团队基于扣子Coze 平台，提供了 Agent 模式下的全新解决方案，在 AI 客服场景构建了人机协作的新型服务范式。

2025-04-01 09:56:18 1195

原创零基础企业主必看！AI客服落地四步走：省下90%人力成本！保姆级教程来了

一晃眼今年第一个季度马上就结束了，年初DeepSeek这波刷屏算是给国内AI市场整了波大的，C端用户玩得飞起，B端老板们也开始拍桌子：“这玩意儿必须搞进业务里！”要说企业里哪个场景能最快见效？AI客服必须榜上有名——毕竟谁还没被“人工智障”气到摔手机呢？想想看，之前的那些传统智能客服有多离谱？今年315晚会还直接扒了底裤：话术库里的复读机、永远在迷宫的转人工按钮、遇到复杂问题就装死的机械应答… 说白了就是个带语音包的树洞，别说解决问题，能把客户血压稳住都算超常发挥。

2025-04-01 09:53:19 986

原创一手实测智谱「AutoGLM沉思」：NB

详细过程，我录了一个视频。，时长08:30这一万字论文，我也放今天二条了，欢迎大家前往阅读。

2025-03-31 21:56:17 1270

原创第一个免费可用的智能Agent产品全量上线，中国公司智谱打造，推理模型比肩R1

国产 AI 领域，从今天起有了既能深度研究又能动手操作的自主智能体产品。这款神器叫做，来自中国公司智谱。我们来看一个非常经典的案例：只需要输出你想讨论的话题，AI 就能自动去小红书、知乎等平台上深度查询、总结完整报告，并转化为面向大众的传播内容。「起号」，从未如此简单高效：3 月 31 日，智谱官宣了新一代 Agent 产品「AutoGLM 沉思」。相比于此前 OpenAI 的 Deep Research 等产品，**「动手能力」**是 AutoGLM 沉思最大的亮点之一。

2025-03-31 21:53:51 731

原创学术分享丨Agent太火！看这一篇综述，知识就不会学杂了

火，Agent可太火了！关于Agent的进展俯拾皆是，根本看不过来……但怎么让它真正变强，看过来——这篇综述可能能帮你厘清很多问题：来自华东师大和东华大学的研究团队发表了“（大模型智能体的优化方法综述）”，首次从系统化视角对LLM智能体优化策略进行了全面梳理与分析。与。前者包括基于监督微调、强化学习（如PPO、DPO）以及微调与RL结合的混合策略，重点讨论了轨迹数据构建、奖励函数设计、优化算法等关键模块。

2025-03-29 11:46:23 571

原创 GPT-4o “吉卜力”爆火，Prompt、SD 白学了？！大模型能力进化碾压一切

ChatGPT 的新 AI 图像生成功能上线仅两天，社交媒体上便已充斥着以日本动画工作室吉卜力风格的 AI 生成梗图，埃隆·马斯克、《指环王》和美国总统唐纳德·特朗普都没“逃过”，甚至 OpenAI 首席执行官萨姆·奥尔特曼也将他的新头像设置为吉卜力风格的图片。（吉卜力工作室以制作《龙猫》和《千与千寻》等热门影片而闻名。大量用户正在将现有的图像上传到 ChatGPT，并要求聊天机器人以新的风格重新创作这些图像。

2025-03-29 10:21:52 993

原创阿里开源首个全模态大模型Qwen2.5-Omni！蚂蚁开源Ling模型，国产芯片训练成本降低20%

3 月 27 日凌晨，阿里通义千问团队开源全新多模态大模型。是一个端到端的多模态大语言模型，能够理解文本、音频、视觉和视频，并进行实时语音生成。现在，开发者和企业可免费下载商用 Qwen2.5-Omni，手机等终端智能硬件也可轻松部署运行。简单来说，，7B参数就能完成看、听、说、写，把「语音聊天 + 视频聊天」都实现了。图：Qwen 2.5-Omni 是一个端到端的多模态大语言模型在具体技术上，采用了通义团队。

2025-03-29 10:20:21 1049

空空如也

空空如也