- 博客(965)
- 收藏
- 关注

原创 LLM大模型:从新手到专家:AI大模型学习与实践完全指南
大模型,通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑,这些大脑通过阅读大量的文本、图片、声音等信息,学习到了世界的知识。这些大脑(模型)非常大,有的甚至有几千亿个参数,这些参数就像是大脑中的神经元,它们通过复杂的计算来理解和生成语言、图片等。举个例子,你可能听说过GPT-3,它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问题,然后给出回答,或者根据你给它的提示,生成一篇文章、一个故事,甚至是一段代码。
2024-09-06 10:30:00
2720

原创 更高级的 RAG 架构:提升 AI 大模型回答准确性的前沿技术
本文介绍了更高级的 RAG 架构,也详细介绍了更多的 RAG 技术,希望对你有所帮助。RAG 技术依然还在快速发展中,也还存在诸多挑战。前段时间微软发布了 GraphRAG 让 RAG 的应用延伸到了图领域。我相信,在今后 RAG 的应用将会越来越广泛,与 LLM 的结合越来越紧密,我们所使用的 AI 功能也肯定会更加强大。
2024-09-06 09:00:00
1648

原创 深入剖析:从落地场景到实现路径——14份报告揭秘大模型热点问题
生成式AI通过学习大量原始内容,生成新的、原本并不存在的数据、文本、图像或其他类型的内容,具有一定的创造性和想象力。生成式AI对企业带来了创新的机会和自动化的潜力,提高了产品设计、广告创作和个性化服务的水平,使企业能够更高效地自动生成内容、提供个性化的客户体验。2023年是生成式AI的突破时刻,也是中国大模型的发展“元年”。通用大模型的快速迭代推动着生成式AI市场的发展。当前,企业的重点已经从围绕基础大模型的兴奋点转向推动投资回报率的用例。
2024-09-01 12:45:00
2043

原创 从零到精通:详解如何训练大模型的完整指南,非常详细,收藏我这一篇就够了
尽管可以使用一些技巧方法来构造一些看起来特别平滑的指标来反对大模型涌现这个词汇,但是不可否认的事实是,在不同的尺寸变化或者数据量、计算量变化之后,人们可以非常明显地感知到大模型表现的巨大差异,这就是一个相变的结果,就像是炼制一门18连环刃的法器,从第一把的炼制到第18把,从个数的指标上来说是非常平滑的,但是从威力上来说,18把可以构建一个法阵,极大地增加了武器的威力,与之前不可同日而语。以及,另外一个可能,小模型每一层cos都小,有可能每一层在干不同的事,或者每一层都会注意到新的东西。
2024-08-21 22:06:26
3005

原创 【深入探讨】AI大模型的学习路径:理论构建、技术创新与应用实践
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。随着技术的不断进步和理论的不断完善,相信AI大模型学习将会在更多的领域展现出强大的应用潜力,为人类社会带来更多的便利和进步。算法优化是提升模型性能的重要手段。总的来说,AI大模型学习在医疗健康领域的应用将为医疗诊断、治疗和管理带来革命性的变革,有望提高医疗服务的效率和质量,最终造福于人类的健康。
2024-08-16 17:03:58
1751
原创 AI产品经理的工作流程与现有产品经理的区别,想要转行AI产品经理【附AI产品经理学习路线】
与互联网传统的产品经理不同,AI产品经理的能力要求、门槛等相对会更高。本文作者梳理了AI产品经理的工作流程与现有产品经理的区别,可以帮助大家更好理解这个岗位。以下是自己在学习AI产品经理过程中的简单总结,欢迎交流。
2025-05-06 17:48:16
807
原创 2025版最新转型大模型产品经理指南(非常详细)存一下吧很难找齐的!
转行做大模型所面临的机会和挑战,以及如何把握和应对,如:转行做大模型所面临的机会主要有:大模型是AI领域的一个重要趋势,具有强大的泛化能力和适应能力,在多个任务和领域上表现出惊人的成就。大模型可以利用海量的数据来学习通用的知识和能力,从而在多个场景和需求上提供高效的解决方案。大模型可以带来更好的用户体验和商业价值,在各个行业和领域中创造更多的创新和变革转行做。大模型所面临的挑战主要有:大模型需要海量的数据和计算资源来训练和运行,对于硬件设备、网络带宽、存储空间等方面有很高的要求。
2025-05-06 17:46:26
505
原创 面试产品经理需要注意什么?
最近面了十余位1-5年的产品经理,我这儿的通过率勉强1/3。我认为对于初阶产品经理(0-5年资),面试题几乎是开卷考试,有价值的问题跑不出一个很狭窄的范畴,于是整理了一下自己常用的面试问题如下。我自己常用的面试套路就是1+3+1,全程40-60分钟不等。第一个“1”,在简单的开场白之后,我会让候选人“简单”介绍一下自己。这道题一般情况下不扣分,只加分。首先,我会强调“用几句话简单介绍一下自己”,所以唯一的扣分点是,候选人洋洋洒洒把自己的简历念一遍。
2025-05-06 17:43:09
474
原创 《图解大模型》配套阅读——大模型面试题 200 问
我在面试候选人和参加业内研讨会时,常常发现很多人有大量实战经验,但对模型的基本原理知之甚少。为了帮助大家更好地理解本书,也为了方便部分有面试需求的朋友更有针对性地阅读本书,围绕本书各章主题,我系统梳理了大模型领域常见的面试题。其中的大多数问题都可以在书中直接找到答案,部分进阶问题可以从本书的参考文献或网络上的最新论文中找到答案。希望所有的朋友都能够带着这些问题阅读本书。top_p</s>(注:图解推理型大语言模型的大多数内容将包括在我的下一部译作《图解 DeepSeek》中)
2025-05-06 17:39:05
479
原创 基于诉讼工作流重塑律师使用AI指南:如何使用AI大模型审查合同效力
Foreword年初,笔者拙作《DeepSeek赋能律师:从入门到精通,打造高效工作流》侥幸获得法律同行认可,阅读量亦有数万。时值五月,经过长时间的深度使用、学习和交流,笔者的认知已发生根本性转变。同时,我也发现一个令人不安的现状:市面上的各种关于“法律AI”的教程、文章、图书,几乎无一不停留于将各种零碎的应用场景进行无规则的整合:泛滥的提示词模板、割裂的应用场景、过度包装的文书生成术——这些零敲碎打的“技巧”,正在将AI技术异化为新型的“法律表演道具”。
2025-05-06 17:35:15
783
原创 DeepSeek R2 或将发布,压力给到梁文锋
大约100天前,DeepSeek R1横空出世,火爆出圈,被一向傲慢的硅谷科技圈称为“神秘东方力量”,并忧心忡忡地高呼AI领域的“斯普尼克时刻”来了。这款由中国初创公司开发的大模型,用低至600万美元的训练成本,产生足以挑战OpenAI o1的极佳性能,7天内用户数破亿,登顶美国iOS App Store免费应用榜首,更要命的是它还开源……DeepSeek种种杀伤力叠加,难怪让硅谷AI圈觉得“天塌了”。
2025-05-06 17:33:29
654
原创 大模型全攻略!多模态模型学习路径,掌握AI的未来!
(Frankly speaking,博主太懒了)章节一只对CLIP、BLIP、BLIP2、InstructBLIP进行了整理,章节二以CLIP、VisualGLM作为实践案例。实际上多模态模型除了CLIP、BLIP、BLIP2、InstructBLIP,还有LLaVA、miniGPT4,以及国内清华的VisualGLM、阿里的Qwen-VL等。(更多多模态原理可以看文末的参考说明)一、多模态模型 & 理论。
2025-05-05 13:56:07
1416
原创 大模型RAG入门到精通(实战教程),非常详细收藏这一篇就好了!
RAG(Retrieval Augmented Generation, 检索增强生成)是一种技术框架,其核心在于当 LLM 面对解答问题或创作文本任务时,首先会在大规模文档库中搜索并筛选出与任务紧密相关的素材,继而依据这些素材精准指导后续的回答生成或文本构造过程,旨在通过此种方式提升模型输出的准确性和可靠性。RAG 技术架构图介绍:富文本 主要存储于 txt 文件中,因为排版比较整洁,所以获取方式比较简单实战技巧:【版面分析——富文本txt读取】
2025-05-05 13:54:00
849
原创 从0到1搭建自己的知识库(AI智能体)看这篇就够了!赶紧收藏!
"扣子"是由字节跳动公司于2024年2月1日推出的一款集成AI智能体开发平台。它开创了国内AI聊天机器人快速开发的先河。▲扣子首页下面是扣子平台创建Bot的页面,对于初次使用的伙伴来说功能确实很多,但不知道从何下手搭建智能体。▲扣子智能体搭建页面。
2025-05-05 13:51:04
816
原创 AI大模型零基础入门到精通(非常详细)一文让你搞懂什么是AI大模型,收藏这篇就好
近年来,人工智能(AI)技术飞速发展,特别是大模型的出现,给各行各业带来了巨大的变革。无论是自然语言处理、图像识别,还是自动驾驶,AI大模型都展现出了强大的能力和广泛的应用前景。那么,什么是AI大模型?它们有哪些特点和应用场景?本文将带你一探究竟。AI大模型(Large AI Models)是指具有大量参数和复杂结构的人工智能模型。这些模型通常基于深度学习技术,能够处理大量数据并从中学习复杂的模式和关系。大模型的出现,极大地提升了AI在各个领域的表现能力。
2025-05-05 13:49:05
764
原创 2025年中国AIGC应用全景图谱报告|附54页文件下载
本文主要介绍了2025年中国AIGC应用全景图谱报告的内容,包括C端消费市场、B端产业应用和开发层工具三大核心维度,共涵盖50+细分赛道及400+头部产品。报告指出,AI智能助手、AI搜索、AI 2D生图和AI直接生成视频成为本轮最受关注的AI原生场景。AI硬件侧仍在市场教育的探索阶段,以搭载多形式的AI智能助手或实时翻译/总结/修图等单点AI功能为主。在AI软件的Web端,头部产品主要由互联网大厂掌控,业务矩阵联通和一站式AI工作流特色明显。而在AI软件的APP端,则有更多初创公司和创新场景出现。
2025-05-05 13:45:39
576
原创 零门槛AIGC应用实战报告:Serverless+AI 轻松玩转高频AIGC场景|附287页文件下载
本书旨在整理和介绍函数计算如何构建各类AI应用,以及如何基于函数计算结合其他云产品来部署各种AI大模型。主要内容包括:【构建个人专属AI助手】【AI生图】、【AI内容创作】、【打造多形态全天候AI客服】、【使用AI快速完成文本信息处理】、【使用AI快速完成图像信息处理】六大章节,20余篇AI技术解决方案。通过这些内容,希望能够帮助您全面理解并掌握AI与函数计算结合的最佳实践。......文│阿里云。
2025-05-05 13:44:13
765
原创 LangChain4j + MCP:让你的 AI 轻松调用外部工具(内附GitHub-MCP实战)
LangChain4j 支持模型上下文协议(MCP),用于与符合 MCP 标准的服务器通信,从而调用并执行工具。该协议支持两种通信方式,LangChain4j 均已支持:HTTP 模式:客户端通过 SSE 通道接收服务端事件,并通过 HTTP POST 请求发指令stdio 模式:客户端可将 MCP 服务器作为本地子进程运行,并通过标准输入/输出与其通信想让聊天模型或 AI 服务使用 MCP 服务器提供的工具,先得创建一个 MCP 工具提供者实例。
2025-05-05 13:42:43
679
原创 多模态大模型轻量化探索-视觉大模型SAM的视觉编码器
往期,笔者基于LLava的数据对齐训练,搞了一个多模态大模型,并且看了些多模态大模型,相关开源的多模态大模型如:KimiVL、Internvl、QwenVL等,其视觉编码器的尺寸都比较大,如:MoonViT-SO-400M、InternViT-6B-448px-V2_5 等都非常大,对于特定的垂直场景(或者是端侧落地都不大友好),也许并不需要这么大视觉编码器。如:当时笔者用了一个8B参数的模型及百万表格数据进行训练达到了不错的效果。近期,因此思考一些模型轻量化的方案,,下面来看看SAM,供参考。
2025-05-05 13:40:20
541
原创 成为一名优秀的AI产品经理必备相关的技术知识,详细的AI产品经理学习路线!(2025最新)
成为一名优秀的AI产品经理不仅需要掌握相关的技术知识,还需要具备良好的产品思维、市场洞察力以及跨部门沟通协调能力。下面是一个详细的AI产品经理学习路线,旨在帮助有志于从事该职业的人士快速成长。
2025-05-04 19:04:32
1006
原创 大模型训练突刺是什么_大模型训练为什么会出现loss突刺 _大模型训练出现loss 突刺怎么解决?
根据公式可以减小ε大小,或者直接设置ε为0,\4.
2025-05-04 19:02:37
556
原创 大模型入门必备指南:应用开发极简入门PDF版
人工智能大潮已来,不加入就可能被淘汰。就好像现在职场里谁不会用PPT和excel一样,基本上你见不到。而大模型是人工智能代表,潜力与使用方式有关。使用好大模型可提高效率,让人获得更好的待遇和更多机会。你发现PPT和excel用的好的PPT一看就惊艳,excel用的特别熟练,你这个数据分析用的非常的到位,你的待遇会远远高于那些用的不好的。差距非常明显,有人就可一人干两人活,那待遇肯定远高于能保持原效率的人。
2025-05-04 19:00:51
729
原创 大模型提示词注入防护与安全评估(含代码)
是框架的第一道防线,这个轻量级 BERT 分类器专注于快速识别直接的提示注入攻击。它以超低延迟处理用户输入和不可信数据,特别擅长捕捉经典的越狱模式和社会工程学攻击,为高吞吐量环境提供了理想的安全保障。作为框架的深度监控层,通过实时审计 LLM 代理的推理过程,利用少样本提示和语义分析技术检测目标劫持和间接提示注入。它能够确保 AI 系统的决策始终与用户意图保持一致,即使是面对不透明或黑盒模型也能有效工作。提供了灵活的自定义安全规则层,通过配置正则表达式和简单 LLM 提示来识别已知攻击模式和不良行为。
2025-05-04 18:57:20
721
原创 L1 用 1.5B 参数干翻 GPT-4o | LcPo训练突破推理长度可控难题,让强化学习实现精准控长
推理语言模型展现出一种令人惊讶的能力,通过“思考更长”——即生成更长的思维链序列,从而使用更多的计算资源——在测试时提高性能。然而,它们思维链推理的长度是不可控的,这使得无法分配测试时的计算资源以达到期望的性能水平。作者引入了长度可控策略优化(LcPo),这是一种简单的强化学习方法,旨在优化准确性和遵守用户指定的长度约束。作者使用LcPo训练了L1,这是一种推理语言模型,能够根据其 Prompt 生成满足长度约束的输出。
2025-05-04 18:55:35
624
原创 从零开始Python 构建GPT-4o多模态模型(附源码及全过程)
这篇文章的目标是帮助你详细理解每一步的实现过程,而不是提供一个完美的模型。以下是多模态模型将具备的功能:像 LLM 一样通过文本聊天(使用 Transformer)通过图片、视频和音频聊天(使用 Transformer + ResNet)从文本提示生成图片(使用 Transformer + ResNet + 特征方法)
2025-05-04 18:54:04
787
原创 测试一个医疗多模态大模型HealthGPT,据说是目前最强医疗视觉模型
测试一个医疗多模态大模型HealthGPT,据说是目前最强医疗视觉模型前段时间,我在业余时间折腾了一下AI病理识别,然后我的好朋友红薯CTO就在模力方舟上整了个专门做医疗视觉识别的多模态大模型HealthGPT,由浙江大学、新加坡国立大学等机构联合研发,是一个专注于医疗领域的多模态大语言模型(Med-LVLM),旨在通过统一框架整合视觉理解和生成能力。功能特点:多任务支持:支持 7 种医学理解任务(如诊断问答、报告生成)和 5 种生成任务(如医学图像超分辨率、CT转MRI)。
2025-05-04 18:52:03
588
原创 AI产品经理入门到精通,收藏这一篇就够了!转行AI产品经理,零基础也能轻松入门教程(非常详细)
AI产品经理是对AI技术应用和功能落地负责,并为公司带来商业价值的一群人,主要集中在。
2025-05-03 17:49:47
922
原创 Mac本地运行Dify并连接qwq 32b大模型:从零开始的教学
运行环境git下载dify访问官方直接下载安装没啥需要配置的,都是下一步下一步安装完成先把通义千问跑起来dify启动完成之后访问本地 localhost或者127.0.0.1就可以了,默认绑定443和80端口这里输入信息进行注册,然后就可以看到下面的界面登录进来之后点击头像位置,打开设置点击模型供应商、选择Ollama添加完成之后就可以看到在这里会有显示创建聊天助手至此,本地运行Dify配置本地大模型已经完成。
2025-05-03 17:48:21
720
原创 百度大模型构建智能问答系统:技术实践与案例分析
从技术工程角度来看,利用向量数据库结合大型 AI 模型来构建领域知识库系统的实现并不复杂,然而,这一领域仍然面临着不少挑战和潜在的改进空间。在本文中,我们已经讨论了一些解决方案和技术,但仍然有许多可能的改进和未来发展方向值得深入研究。首先我们认为关键点还是解决向量检索的召回准确性和超长文本处理能力是两个难点,这些方面可能还有更好的方式。此外,大模型本身的能力和文档质量是系统性能的关键因素,因此需要不断升级和维护模型,同时确保文档的及时性和准确性。
2025-05-03 17:46:49
1191
原创 实现高效AI应用开发:LangChain、LLamaIndex 、HuggingFace
在大数据时代,如何快速、准确地从海量的原始数据中提取出有价值的信息,并进行总结与分析,是企业在运营决策中面临的一个重要问题。在这种情况下,
2025-05-03 17:44:53
766
原创 提升RAG(检索增强生成)效果的一点经验
搜索效果演示:刘备在讨伐黄巾后就没打赢过作为《三国演义》问答机器人,罗灌水肯定需要搜索《三国演义》原文,最简单的搜索方式是把《三国演义》各章内容存到ElasticSearch搜索引擎里,把用户的问题传进去搜,这个方案至少存在两个缺点。一是用户提问时使用的是现代汉语,《三国演义》原文是半文言文,二者对同一概念使用的词语不一致。用户提问时使用的现代汉语词汇,可能整部演义里根本就没出现过。虽然ElasticSearch支持配置同义词,但制作一份《三国演义》用词和现代汉语用词的词典很难。
2025-05-03 17:43:49
872
原创 从DeepSeek->Kimi->豆包->Qwen3,看Reasoning model之路
自DeepSeek-R1发布以来,Reasoning model(推理模型)可谓是大火。同时,LLM领域近期也发生了三件事:• 字节团队发布Seed-Thinking-v1.5技术报告;• 清华&上交团队在paper中提出:RL并不能真正提升LLM的推理能力;• 具备Reasoning能力的Qwen3问世,号称思考更深、行动更快。既然推理模型如此重要,笔者本次就针对几款主流的模型做一个总结,主要回答两个问题:• RL能否提升LLM的推理能力?• 如何让LLM具备Reasoning能力?
2025-05-03 17:41:00
688
原创 告别熬夜搜文献!我用 Gemini 造了个 2 分钟出深度研究报告的 AI 神器!
平时呢,我就喜欢琢磨各种技术,不光是看它表面怎么用,更爱挖挖它底层的原理,想想怎么用这些技术来解决咱们工作、生活里遇到的实际问题。比如,大家是不是跟我一样,经常为了写个报告、做个方案,或者就是单纯想深入了解某个新领域,需要查阅大量的资料?打开搜索引擎,关键词输进去,哗啦啦出来几十页结果,眼睛都看花了。好不容易找到几篇相关的,还得一篇篇读,筛选信息、整理思路、最后汇总成文... 这一套流程下来,少则半天,多则几天,效率低不说,还特别熬人。
2025-05-03 17:39:25
671
原创 2025年大模型赛道转型机遇:程序员、产品经理、项目经理们的最佳选择
当今的大经济环境下,AI是少数的上升赛道,虽然商业化曲折,但毕竟寄托了“全村的希望”。不少人跟随潮水的方向,转行到AI行业:深夜求职直播间里,人们问“今年AI赛道值不值得去”,小红书上不少互联网从业者分享如何转到AI产品经理。转行人有着不同面貌:那些想转行、但在风险面前迟疑的,那些下决心抛掉安稳、纵身一跃的,那些在尝试之后又返回原轨的……有人把转行看作在无数分岔路口做出最优解的战争,也有人当作临时起意的漫游。而站在浪头的,是那种并非半途跟风,而是在风口与狂热来临之前,就有勇气在黑暗中独自前行的人。
2025-04-30 20:16:18
980
原创 DeepSeek R1与V3全面对比:选择合适模型,避免走弯路
AI不会淘汰人,但会用AI的人正在淘汰不会正确使用AI的你!从今天起,用对R1和V3,选择合适的模型,让你的工作效率飞跃提升!选择DeepSeek的两款核心模型,帮助你在繁杂的职场任务中游刃有余,成为第一批掌握AI职场制胜法宝的赢家!
2025-04-30 20:14:23
964
原创 AI智能体创建指南:史上最全教程,手把手带你搭建
智能体简介会在首页以及名片页展示,需要简洁明了的介绍智能体用途。用第三人称的角度去说明你的智能体可以解决哪个问题,比如,输入一个课程题目为你生成课程大纲、说出一个主题为你生成一段脚本等。
2025-04-30 20:11:34
1207
原创 Ollama本地部署运行全球最强开源大模型 Qwen3
在大型语言模型日益普及的今天,如何在本地设备上轻松运行这些模型成为了许多开发者和技术爱好者关注的问题。Ollama正是为解决这一挑战而生的开源项目,它致力于简化大语言模型(LLM)的本地运行和部署过程,为用户提供了一种轻量级方式,让大家能够在个人电脑上运行各种开源大语言模型。
2025-04-30 20:08:31
674
原创 开发者Day 0上手指南:使用vLLM Ascend 部署 Qwen3
今天阿里巴巴推出了全新一代Qwen大语言模型,在多个方面对Qwen系列进行了升级。其中主要包含2个版本:Qwen3,包括Qwen3-0.6B, Qwen3-1.7B, Qwen3-4B, Qwen3-8BQwen3-MoE,包括Qwen3-MoE-15B-A2B、Qwen3-30B-A3B、Qwen3-235B-A22BQwen3 是 Qwen 系列的最新一代大型语言模型,提供了一系列密集型和专家混合(MoE)模型。
2025-04-30 20:02:37
906
原创 多agent代理的7种设计模式
智能客服中心。当用户提出一个复杂问题时,“协调者”智能体首先理解问题的类型(例如,账单问题、技术故障、产品咨询)。然后,它将该问题“分发”给专门处理该领域的“专家”智能体(如账单专家、技术支持专家、产品知识专家)。协调者不直接解决问题,而是确保问题被路由到最合适的处理者那里,并可能跟踪问题的解决状态。第一个智能体接收原始数据(如销售记录),并验证其格式是否正确、数据是否完整。第二个智能体接收验证后的数据,进行统计分析、计算关键指标(如月度增长率、销售额)。
2025-04-30 20:00:59
669
原创 大模型入门学习必备:四本书让你从新手到专家,非常详细!
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。当前大模型学习的一大误区在于,过于强调工具和技术的掌握,而忽略了底层逻辑的思考。
2025-04-29 22:19:18
963
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人