自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1027)
  • 收藏
  • 关注

原创 coze功能详解!AI保姆级入门教程!

本地文档包含三种:1、文本格式:word, pdf, txt2、表格格式:excel, csv3、照片类型以上传本地文档为例,上传后,选择自动分段与清洗,coze会自动对数据进行处理上传后,我们在bot或工作流中,就能使用该知识库。

2025-01-04 17:32:07 15605 2

原创 没钱买GPU!本地还想跑大模型的终极工具Ollama!

Ollama 是一个开源平台,它允许我们在本地机器上轻松设置和运行 LLM。它简化了下载、安装和与 LLM 交互的过程。至少应该有 8 GB内存 的 Intel i5处理器才能运行7B型号,如果需要运行13B 的型号CPU起码得至少需要16 GB 的是i5。以此类推32 GB 的 RAM 来运行 33B 型号。

2024-11-22 17:30:34 9774

原创 大模型训练(超全面!超详细!)收藏这一篇就够了!

大模型训练被分解成了预训练,监督调优,对齐等阶段。先看预训练,预训练,即Pre-training。预训练的目的是让模型学习语言的特性,主要是学习语言表达的流畅性和规则。至于具体的语言任务,比如对话,角色扮演,信息抽取,翻译,阅读理解,问答等,则需要放到监督调优。预训练是大模型的基础和核心,预训练阶段决定了模型的基础能力和上限。

2024-09-23 15:27:15 5157

原创 一键部署本地私人专属知识库,开源免费!可接入GPT-4、Llama 3、Gemma、Kimi等几十种大模型,零代码集成。

今天跟大家分享的内容是,如何在本地搭建自己的本地知识库问答系统MaxKB,与其他问答知识库相比,他真正做到了开箱即用,零代码集成,支持ChatGPT、百度千帆、Lama2、Lama3,通义千问等几十种大语言模型,操作界面简介,小白也能快速上手。【注意在正式搭建知识库问答系统之前,请确保你的Windows系统已经升级到了专业版本,同时拥有一张独立的显卡!!】

2024-06-13 17:24:12 5070 1

原创 AI大模型:国内外大模型发展情况梳理

随即引爆社交网络,大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精 进,开源模型打造庞大应用生态,端侧模型小而美。国内大模型也进入加速成长期,在过去一年中取得了实质性突破。百度文心一言、 讯飞星火、清华智谱、商汤“日日新”整体表现逼近,开源模型快速进步,文生视频、文生音乐等多模态 也取得突破。国内大模型网页流量和应用下载量节节攀升,大模型已经成为日常生活中的重要助手。。国外大模型主要分为三个层级:性能强劲的闭源模型,具备生态优势的开源模 型,以及专注端侧应用的轻量模型。

2024-05-17 15:01:07 6711 1

原创 什么是大模型?一文读懂大模型的基本概念

什么是大模型?一文读懂大模型的基本概念

2024-04-18 09:57:13 5748

原创 作为普通程序员,我们该如何学习大模型(LLM),学习路线和知识体系

原谅我的后知后觉,才开始从头写,我是已经上了一阶段大模型的课,也搜集了些资料,并自己做了小部分实践,回过头来,才想开始整理些文章。起初,大家都在写,都在发,我那会在焦虑。自chatgpt爆火以来,AI技术又被广泛关注,国内外各大厂商也纷纷布局,作为我们每一个普通人,也无不时刻感受着AI一波又一波的冲击。尤其是作为程序员的我,相信绝大多数程序员也有和我一样的感受,从一开始的新奇,到焦虑,到试图去了解他,到去尝试,并致力于应用。

2024-04-12 11:19:13 9092

原创 大模型部署工具 llama.cpp 介绍与安装使用

另外一个是量化,量化是通过牺牲模型参数的精度,来换取模型的推理速度。llama.cpp 提供了大模型量化的工具,可以将模型参数从 32 位浮点数转换为 16 位浮点数,甚至是 8、4 位整数。训练的过程,实际上就是在寻找模型参数,使得模型的损失函数最小化,推理结果最优化的过程。训练完成之后,模型的参数就固定了,这时候就可以使用模型进行推理,对外提供服务。大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约。llama.cpp 提供了模型量化的工具。

2024-04-07 18:31:27 10908

原创 AI大模型·白皮书 | 脉脉:2024大模型人才报告(PPT 可编辑)(附大模型应用开发 动手做AI Agent下载)

由脉脉高聘人才智库发布,指出大模型领域未现“抢人大战”,整体人才饱和,部分技术岗位紧缺。大模型五虎员工规模均在数百人,技术研发人才占多数。大模型相关内容热度持续增长,人才集中在一线城市,北京领先。整体人才供大于求,新发岗位平均月薪小幅上涨,招聘高峰在3月,算法工程师等高技术岗位紧缺,云计算人才最紧缺。互联网大模型岗位需求居首,字节跳动、小红书等企业在大模型人才招聘中表现突出,大模型高薪岗位分布广泛。近3成新发岗位要求硕博学历,远超新经济行业平均水平。

2025-05-07 14:24:03 320

原创 AI 入门,从零搭建完整 AI 开发环境,并写出第一个 AI 应用

手写数字识别是 AI 领域一个经典的入门项目。我们将使用 TensorFlow 构建一个简单的神经网络模型,训练它识别 0 - 9 的手写数字图像。

2025-05-07 14:21:19 501

原创 大模型人工智能Agent到底是什么,一文搞懂智能体相关概念及原理

简单来说,AI Agent 就像是一个能在数字世界中自主行动的 “智能小助手”。它可以是一个软件程序,也可以是一个具备一定智能的系统。它能够感知周围环境,根据自身的目标和规则,自主地做出决策并采取行动,就像我们人类在生活中会根据不同的情况做出反应一样。比如,你手机里的智能语音助手,它就是一个 AI Agent,它能听懂你的指令,然后帮你完成打电话、设置闹钟等任务。

2025-05-06 13:45:05 784

原创 为什么一定要做Agent智能体?

Agent智能体不是选择题,而是必答题。它正在重构人类与技术的协作模式:从“人找工具”到“工具找人”,从“被动执行”到“主动规划”。尽管面临技术和商业化挑战,但正如智能手机从实验室走向大众只用了十年,Agent智能体也将在未来五年内深刻改变我们的工作与生活。现在投入Agent研发,就是在抢占下一代生产力革命的制高点。

2025-05-06 12:02:24 718

原创 大模型入门必读书籍,《动手做AI Agent》从基础理论到项目实操!(含PDF)

ChatCPT的横空出世,让人工智能进入一个新的纪元,而LLM大模型也成为人人炙手可热的话题。然后光有LLM大模型并不能真正的能够普及和应用。AI Agent概念,才是真正将AI热潮推向了新的高度,未来可以说你不懂LLM大模型,但是你一定要懂AI agent。《动手做AI Agent》是一本由黄佳老师创作的新书,旨在从零开始手把手教读者制作AI Agent。书中不仅介绍了Agent的定义、特性与技术架构,还详细讲解了构建Agent的AI技术工具,并以7个实战项目展示了Agent开发的方法。

2025-05-05 14:51:42 687

原创 终于清楚了!机器学习、深度学习、强化学习、迁移学习、集成学习和关联规则学习大解析

简单来说,机器学习就是让计算机通过数据来学习,而不是直接告诉它该怎么做。就像我们人类一样,不是每件事都需要别人告诉我们怎么做,有时候我们通过观察和实践就能学会。

2025-05-05 14:40:10 794

原创 一文彻底搞懂Fine-tuning - 预训练和微调(Pre-training vs Fine-tuning)

在SFT的基础上,通过强化学习和人类反馈来进一步微调模型,使其输出更加符合人类的偏好或期望。

2025-05-04 09:30:00 603

原创 2025年人人懂AI之从机器学习到大模型报告(附下载)

AI 正快速融入日常生活,影响工作、学习和娱乐等多方面。本书面向 IT 从业者和学生,旨在通俗易懂地讲解 AI 基础知识,包括机器学习、深度学习和神经网络等原理,并分享大语言模型(LLM)等 AIGC 应用。报告首先介绍了 AI 的定义,将其视为基于数学和统计学的工程实践,通过从数据中挖掘规律实现预测。AI 的训练过程涉及数据收集、模型选择、损失函数定义和参数优化。以房价预测为例,通过线性回归模型,利用梯度下降算法最小化损失函数,从而训练出预测模型。

2025-05-04 08:00:00 1375

原创 2025年大模型时代:类脑智能赋能电力应用场景的新模式报告 (附下载

该报告围绕类脑智能在电力领域的应用展开,介绍了类脑计算的背景、发展、与大模型的融合,以及在电力行业的具体应用和成果。类脑计算的背景与优势:随着数字信息爆炸和人工智能发展,冯·诺依曼架构面临瓶颈,类脑计算应运而生。它借鉴生物脑科学原理,具有存算一体、分布式计算等特性,能效优势明显,被视为应对人工智能挑战的新芯片架构,有望实现脑启发的通用智能。类脑计算的布局和成果:类脑计算是国家顶层战略规划方向,中国围绕其理论、芯片、系统、软件、应用等布局项目。

2025-05-03 08:30:00 1489

原创 一文彻底搞懂大模型 - LLM四阶段技术

在探讨大模型(LLM)的四阶段技术时,我们可以从Prompt Engineering(提示工程)、AI Agent(人工智能代理)、Fine-tuning(微调)以及Pre-training(预训练)这四个关键阶段来详细阐述,这四个阶段技术层层递进。

2025-05-03 08:15:00 23

原创 互联网大厂推荐算法实战 附代码 PDF

包括召回、粗排、精排、重排四个模块。还对推荐算法实践中经常遇到的难题给出了应对之道。这部分内容极具价值,因为书中对多任务推荐、多场景推荐、新用户冷启动、新物料冷启动、评估模型效果等实际应用场景进行细致的分析,定位并解决问题,是作者对大厂经验的直接分享。最后一部分是。

2025-05-02 08:45:00 654

原创 大模型入门必看系列——初识大模型

大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果,如自然语言处理,图片生成,工业数字化等。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。

2025-05-02 07:45:00 954

原创 一张图,讲透AI智能体平台的全部核心技术(建议收藏)

如果你对“大模型Agent平台”还有些模糊,这篇文章,建议你一定要看到最后。在AI圈子里,“Agent”(智能体)正在成为下一个风口。不论是开源社区爆火的AutoGPT,还是各大厂争相推出的“AI助手”、“智能客服”,背后核心其实是一件事:构建一个“能听懂、能思考、能执行”的AI智能体平台。但问题是,这个平台怎么搭?大模型怎么选?语音识别、知识库、角色个性要怎么整合?这张《AI大模型Agent平台架构图》给出了一个系统答案:我将用七大章节,带你层层拆解这张图,让你真正理解大模型Agent平台的“骨架”与“灵

2025-05-01 10:00:00 785

原创 华为昇腾DeepSeek解决方案PPT(华为昇腾打造AI全栈生态)

把握DeepSeek时刻:华为昇腾AI解决方案》系统解析了DeepSeek大模型的发展现状及其在华为昇腾AI计算平台上的优化适配。报告指出,DeepSeek作为中国AI技术路线的重要突破,其V3和R1模型在推理能力、算力效率和开源生态方面均取得重大进展。

2025-05-01 08:00:00 291

原创 大模型微调是什么,大模型微调全面指南,看完不迷路!

在深入讲解之前,我们先来简单地理解一下“微调”的概念:大模型微调(Fine-tuning),就是在预训练好的大语言模型(例如Qwen、GPT系列、DeepSeek等)基础上,利用特定的数据集对模型的参数进行小规模训练,以更好地适应特定任务或领域。比如,你有一个通用的语言模型,但你想专门用来写金融报告或者进行客服问答,那么通过微调,这个模型就能更高效地完成这些特定任务。

2025-04-30 11:54:17 658

原创 李飞飞HAI团队456页《2025年AI指数报告》:AI直逼人类天花板,钱都烧到哪去了?

想不想来个上帝视角,看看AI现在发展得怎么样了?技术进展如何、钱都去哪了、对不同人的影响又咋样?这些问题众说纷纭,不过一份非常权威的报告来了,就在2025年4月初,由李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI),发布了最新的《报告内容巨丰富,长达 456 页,分成八个大章节,把AI的现状算是给说明白了,无论是想深度了解AI在全球的最新发展状况,还是做PPT、汇报的时候用作资料,都非常棒。

2025-04-30 11:42:15 897

原创 BERT面试题(大模型必问)

BERT(Bidirectional Encoder Representations from Transformers)是一种基于。

2025-04-29 14:31:59 621

原创 阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源!一经问世,它立刻登顶全球最强开源模型王座。它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。Qwen3是国内首个「混合推理模型」,「快思考」与「慢思考」集成进同一个模型,对简单需求可低算力「秒回」答案,对复杂问题可多步骤「深度思考」,大大节省算力消耗。它采用混合专家(MoE)架构,总参数量235B,激活仅需22B。

2025-04-29 14:24:25 685

原创 OpenAI开源34页Agents最佳实践白皮书

OpenAI 明确了 Agent 的核心特征。它不仅仅是聊天机器人或简单的 LLM 调用,关键在于能够。

2025-04-28 14:20:16 1181

原创 检索增强RAG中有哪些好用的Chunk切分方法?

按照惯例,知行合一,理论完了上代码,代码基于Markdown的AST进行实现。后续补充完测试后,考虑提交到 llama-index 中。

2025-04-28 14:07:25 826

原创 【大模型学习分享】人人都能学会的AI指南:从机器学习到大模型全流程解析(附98页文件下载)

是一份面向IT从业者和学生的实用AI学习手册,由阿里云数据库团队出品。本书通过通俗易懂的语言,系统地介绍了AI、机器学习、深度学习和大模型的基本原理,并提供了丰富的实践案例和动手指导。

2025-04-27 14:56:12 432

原创 【大模型入门分享】——利用ollama搭建本地大模型服务(DeepSeek-R1)

以上就是关于如何使用Ollama搭建本地大模型服务并在浏览器中Web访问的分享,内容还是很简单的,也算是我们大模型系列的第一篇文章,以后会将我工作学习中的大模型相关的经验一并写出来和大家分享交流,感兴趣大家可以点个关注~

2025-04-27 14:37:07 759

原创 湖南大学:《我们该如何看待DeepSeek》(免费下载)

湖南大学陈果教授的《我们该如何看待DeepSeek》这份技术文档(文末有报告免费获取方式)不仅解构了DeepSeek-R1作为全球首个开源推理大模型的技术密码——其创新的MoE架构与思维链可视化设计,正在重写AI民主化的游戏规则,我们正见证硅基文明与碳基智慧的首次真正握手。DeepSeek-R1 到底厉害在哪呢?它是首个展示思维链过程的推理模型,就像一个会 “思考” 的智能伙伴。比如写拜年诗,它能根据用户的需求,一步步调整内容,巧妙地融入各种元素。

2025-04-25 14:19:18 793

原创 大模型部署框架Ollama和vLLM不知怎么选?一文讲透两大框架的优缺点和适用场景

如果你想在本地或远程服务器上快速试验大模型,Ollama是理想之选,其易用性让初次使用大型语言模型的开发者能平滑入门。而对于注重性能、可扩展性和资源优化的生产环境,vLLM表现出色,高效处理并行请求和优化GPU利用,且文档完备,使其成为生产环境大规模部署的强力候选者,尤其在充分挖掘硬件性能方面。

2025-04-25 14:08:08 698

原创 533页 复旦大学 :《大语言模型从理论到实践》(免费pdf分享)

大规模语言模型:从理论到实践》一书通过预训练、微调、奖励建模和强化学习四个阶段,深入讲解了关键算法、数据处理、挑战及实践经验。书中不仅深入技术细节,也广泛覆盖实际应用,从需要大量数据和计算资源的预训练,到精细的微调,再到通过强化学习优化模型。此外,探讨了如何整合大模型与外部知识,以及如何评估模型在复杂任务中的表现。适合不同层次的读者,本书旨在提供全面的理论基础和实践指导,同时避免未经广泛认可的观点,确保内容的权威性和实用性。

2025-04-24 14:36:38 477

原创 手把手教你用DeepSeek + Cherry Studio 打造本地AI+API个人知识库!

Cherry Studio,一款聚合主流大语言模型服务的桌面工具。它通过直观的可视化界面和远程API接口 ,实现了跨平台调用各类模型,既降低了对本地硬件的依赖,又大幅提升了使用效率,为大家搭建高效知识库提供了全新思路。打开Cherry Studio官网:https://cherry-ai.com/download选择适配自己操作系统的版本进行下载下载完成后,默认安装就可以安装路径根据自身操作系统需求进行调整安装完成后,如下显示打开Cherry Studio,显示如下打开设置,配置相应的API本次以硅基流动

2025-04-24 14:26:19 520

原创 【顶级白嫖指南】教你低成本用上最好的 AI 模型

相信很多人都跟我有一样的感觉,知道了有更好的模型就不能接受自己用差的,但是由于 AI 行业还在早期,所以最好的模型一般都会频繁变化。大部分 AI 软件都是包月,很容易浪费钱,而且 Open AI 这种对我们还有各种歧视,要不限速要不封号,用的实在难受。好不容易等到一个低成本的免费 Deepseek R1,官方平台也被挤爆了,其他的平台要不就是只有 API ,不能联网,能联网的可能也没有 Deepseek 的效果好。Deepseek R1 本身也有不擅长的部分,比如涉及到视频和图片的多模态等。

2025-04-23 14:49:56 1207

原创 普通人也能看懂的MCP入门指南!超详细(6000字+6个案例)

这里不过多解释,毕竟我们只是使用而不是实现。简单来说 LLM使用不同工具时,以前需要同时修改模型和工具,因为各工具的API数据格式不统一,导致适配成本高、功能添加慢。MCP协议统一了数据格式标准,规定了应用向LLM传输数据的方式。任何模型只要兼容MCP协议,就能与所有支持MCP的应用交互。这将适配工作从双向简化为单向(仅应用端),且对于已有API的应用,第三方开发者也可基于其API进行MCP封装适配,无需官方支持。可以看下面 Claude 画的这个图,虽然糙但是也可以理解了,哈哈。

2025-04-23 14:47:12 1163

原创 Browser Use - 让AI能够控制你的浏览器

在科技飞速发展的当下,人工智能(AI)已经渗透到我们生活的方方面面,而AI智能体与浏览器的连接,正逐渐成为互联网发展的全新趋势,引发了大众对上网体验变革的无限期待。这种创新的融合,就像是为传统浏览器插上了智能的翅膀,将为我们带来前所未有的互联网交互感受。本篇将介绍将你的AI代理与浏览器轻松连接,通过AI智能体访问各类网站的自动化框架 - Browser Use。

2025-04-22 15:16:33 1118

原创 Dify + RAGFlow 知识库,解锁超强外挂

如果知识库配置RAPTOR策略的话,需要配置大模型,此处跟Dify上配置模型类似,rerank模型,embedding模型已经默认配置好,无需再配置,只需配置chat模型即可,配置上后,方便其他地方使用。

2025-04-22 15:11:50 581

原创 【科普】RAG和知识库工作原理

RAG(Retrieval Augmented Generation),即检索增强生成,是一种将外部数据检索结果与大模型相结合的技术,旨在提升答案的生成能力。主要起到解决以下4个方面的问题:缓解大模型的幻觉问题;确保数据的实时性,因为大模型的训练数据通常是过去的;满足私有数据的保密性要求,确保数据安全;提高答案的可解释性,使答案来源可追溯。

2025-04-21 15:43:22 566

原创 一文看懂LlamaIndex 与 LangChain 的区别

是一个开源的自然语言处理(NLP)框架,它提供了一种灵活的方式来构建基于大型预训练语言模型(LLM)的应用。LangChain的核心优势在于其强大的扩展性和可定制性,它允许开发者根据自己的需求,轻松地添加、修改或删除组件,从而构建出符合特定任务需求的模型。此外,LangChain还提供了丰富的API和工具,使得开发者能够轻松地与其他技术栈进行集成,如TensorFlow、PyTorch等。这使得LangChain在实际应用中具有很高的灵活性和可扩展性。

2025-04-21 15:23:05 1136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除