利用本地DeepSeek R1和n8n框架,创建AI智能体

如今,AI 越来越智能。在本地部署个人 AI 智能体,是一件意义重大的事:无需云服务和 API,就能完全自主掌控私人 AI,保障数据安全和隐私,还能个性化定制。

借助n8n、Ollama和DeepSeek-R1这三款超实用工具,你能在自己电脑上实现工作流程自动化、处理数据、与 AI 聊天。

本文详细介绍如何安装这些工具、实现工具间的连接配置,以及在 Windows 电脑上搭建并运行本地 AI 智能体的步骤。

操作前,需一台配备至少 16GB 显存 GPU 的 Windows 电脑,本文用的是英伟达 Quadra RTX A4500 GPU,供大家参考。

一、安装Ollama和DeepSeek-r1

从https://ollama.com/download/windows下载适用于Windows系统的Ollama,安装过程简单。

Ollama安装完成后,在Windows桌面右键点击,就能打开命令行界面(CLI)。当菜单出现时,选择“在终端中打开”。要是菜单里没有这个选项,可在桌面其他位置再次右键尝试。

在命令行界面中,输入以下指令:

ollama run deepseek-r1:8b   

上述指令会通过Ollama完成DeepSeek-R1的安装与运行。你可以输入这条指令,检查DeepSeek-R1大语言模型是否安装成功:

ollama list   

二、安装Docker Desktop

接下来,需要为Windows系统安装Docker Desktop。你可以从https://docs.docker.com/desktop/setup/install/windows-install/获取该软件,在这个页面,还有许多关于安装流程的详细文档。

安装过程中,系统会提示你选择使用WSL 2还是Hyper-V,建议选择WSL 2。

三、安装n8n并首次运行

在Windows系统上安装好Docker Desktop后,就可以安装n8n并搭配Docker使用。

确保Docker Desktop软件处于运行状态,接着在命令行界面中输入以下两条指令:

docker volume create n8n_data
docker run -it --rm --name n8n -p 5678:5678 -v n8n_data:/home/node/.n8n docker.n8n.io/n8nio/n8n

这些指令会完成以下操作:

  • 创建名为n8n_data的持久存储(卷)

  • 生成名为n8n的Docker容器和镜像

当第二条指令执行完毕,你应该会看到这样一条提示信息:

Editor is now accessible via: 
http://localhost:5678/

打开网络浏览器,访问localhost:5678

这时,你会看到n8n的注册表单。填写表单,创建用于登录n8n服务器的凭证,这些凭证同时也用于登录n8n的网页账户。

记得获取免费的许可证密钥。

完成注册后,你会看到一个空白的工作流程画布,如下所示:

在Docker Desktop中,你看到的内容大概如下:

要是你点击方块停止n8n容器,它就会从菜单里消失。

四、从Docker Desktop运行n8n

您可以使用上文提到的命令从 CLI 运行 n8n:

docker run -it --rm --name n8n -p 5678:5678 -v n8n_data:/home/node/.n8n docker.n8n.io/n8nio/n8n   

不过,从Docker Desktop软件运行n8n可能会更便捷。

先确保现有的n8n容器已停止并删除。

接着进入“Images”选项卡,你会看到类似下面这样的内容:

点击启动图标(三角形),按照下面示例填写对话框:

填好后点击“Run”(运行)。

再回到浏览器,访问localhost:5678。这时,你应该会看到n8n的登录界面,或者是之前的工作区。

从这之后,你就能在容器选项卡启动n8n的Docker容器,而且停止后它不会再消失。

五、在n8n中创建人工智能智能体

登录n8n后,你会看到一个标题为“My workflow”的空白工作区。

在屏幕正中间,有个加号。点击它,右侧会弹出如下菜单:

选择“On chat message”,然后点击“Back to canvas”。此时,画布中央会出现一个新节点:

点击该节点右侧的加号,选择“Advanced AI”:

选择“Basic LLM Chain”,再次点击“Back to canvas”。你会看到如下内容:

现在,点击“Basic LLM Chain”节点下方的加号:

选择“Ollama Chat Model”:

点击“Select Credential”,接着点击“Create new credential”。按照下面的示例填写对话框(假设你在11434端口运行Ollama):

你得把基本URL设置为http://host.docker.internal:11434。要是填http://localhost:11434http://127.0.0.1:11434,将无法正常工作。

填完点击“Save”保存。这时会出现一条绿色提示消息“Connection tested successfully”。

点击右上角的叉号。现在,你可以从下拉列表中挑选想用的大语言模型。我在系统里装了多个大语言模型,所以列表会比你的长些。从列表里选择deepseek-r1:8b

再次回到画布,你会看到以下内容:

点击底部的“Chat”,输入“Hello”。你应该会收到如下回复:

至此,你已经能和DeepSeek-R1愉快聊天了。此外,利用n8n,你还能在本地Windows电脑上构建各种复杂的人工智能智能体。


六、如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

<think>嗯,用户问的是关于深度求索(DeepSeek)在训练大语言模型时没有直接用CUDA,而是用底层汇编优化的问题。首先,我需要确认用户的问题核心在哪里。他们可能听说这种做法,想知道这种方法具体是什么,如何定义,以及怎么理解这样的优化方式。 首先,用户可能对CUDA汇编的关系不太清楚。CUDA是NVIDIA提供的并行计算平台API,允许开发者使用高级语言如C++来利用GPU进行加速。而汇编语言更底层,直接对应机器码,控制硬件更精细。所以,如果DeepSeek不用CUDA而用汇编,可能是在某些关键部分绕过CUDA抽象层,直接优化硬件指令,提升性能。 接下来,我需要考虑用户可能的背景。他们可能有一定的技术基础,知道CUDA汇编的基本概念,但不太清楚为什么在训练大模型时要这样做。用户可能想了解这种优化方法的优缺点,或者这种技术是否普遍适用,或者对模型训练效果的影响。 然后,我需要验证信息的真实性。确实,有些高性能计算场景会使用汇编优化,比如在游戏引擎、数学库中常见。但在大模型训练中,是否真的有人这么做?需要确认是否有公开资料或论文支持这一点。假设DeepSeek确实做了这样的优化,那么背后的动机可能是为了极致性能,尤其是在大规模分布式训练中,减少延迟,提高吞吐量。 接下来,要解释如何定义这种优化方法。这可能包括直接操作硬件指令,绕过高级框架的开销,针对特定硬件特性(如Tensor Core)进行定制,或者优化内存访问模式。需要详细说明汇编优化的具体应用场景实现方式。 然后是如何理解这种方式。用户可能想知道,这样做的好处是什么,比如更高的性能、更低的延迟,但同时也需要权衡开发成本、可维护性等问题。需要比较使用CUDA汇编的优缺点,说明为什么在某些情况下后者更优。 此外,用户可能还想知道这种优化是否适用于其他项目,或者是否有普适性。需要指出,汇编优化通常用于关键路径,而不是整个项目,因为开发效率低,但性能关键部分可能值得这样做。 最后,总结这种优化方式的意义,强调软硬件协同的重要性,以及在不同层次优化对整体性能的影响。可能还要提到未来的趋势,比如更高级的编译器技术能否替代手动汇编优化,或者硬件架构的变化是否会改变这种需求。 需要注意的是,用户的问题可能存在假设,即DeepSeek确实做了这样的优化。如果实际情况并非如此,回答时需要指出这一点,但根据假设进行解释。同时,避免使用过于专业的术语,保持解释的易懂性,同时提供足够的技术细节满足用户的好奇心。</think>关于DeepSeek(深度求索)在训练大语言模型时是否直接使用底层汇编语言进行优化,目前并无公开技术细节证实这一说法。但若假设其存在类似优化策略,我们可以从技术角度解析这种思路的本质与意义: --- ### 一、**如何定义这种优化方式?** 1. **绕过抽象层的“极限压榨”** - **CUDA的局限性**:CUDA是NVIDIA提供的GPU编程框架,其API库(如cuBLAS)虽然易用,但存在一定性能损耗(如函数调用开销、内存访问模式固化)。 - **汇编级优化**:直接编写GPU指令(如NVIDIA PTX/SASS汇编)或CPU的SIMD指令(如AVX-512),可绕过框架限制,精确控制硬件行为。 2. **针对性硬件适配** - **定制指令流水线**:根据芯片物理特性(如寄存器数量、缓存延迟)调整指令顺序,最大化吞吐量。 - **内存访问优化**:手动设计数据加载模式,规避缓存抖动(Cache Thrashing)等问题。 --- ### 二、**如何理解这种技术路径?** #### 1. **性能与开发成本的权衡** | **优化层级** | **优势** | **劣势** | |--------------------|----------------------------------|----------------------------------| | **CUDA框架** | 开发效率高、兼容性好 | 性能受限于框架设计 | | **汇编/硬件指令** | 极限性能(可能提升10%-30%) | 开发周期长、可维护性差、硬件绑定 | - **适用场景**:仅对计算密集的核心模块(如矩阵乘法、注意力机制)进行汇编级优化,而非全链路重写。 #### 2. **硬件特性的深度挖掘** - **案例1:Tensor Core指令** NVIDIA GPU的Tensor Core支持混合精度矩阵运算(如FP16/FP32),通过汇编直接调用`HMMA`(混合精度矩阵乘加)指令,可超越CUDA库的默认性能。 ```ptx // 示例:PTX汇编调用Tensor Core mma.sync.aligned.m16n8k16.f16.f16.f16.f16 {%r0, %r1}, {%r2, %r3}, {%r4, %r5}, {%r6, %r7}; ``` - **案例2:CPU SIMD优化** 在数据预处理阶段,使用AVX-512指令并行处理文本分词,减少CPU端瓶颈。 #### 3. **与编译器的协作** - **编译器定向优化**:通过LLVM或NVCC生成中间代码后,手动修改关键部分的汇编输出,再重新编译。 - **静态调度与循环展开**:手动调整指令并行度,避免编译器自动优化的保守策略。 --- ### 三、**技术争议与挑战** 1. **性价比问题** - 单卡训练中CUDA已足够高效,汇编优化收益可能不显著; - 但在超大规模集群训练中(如千卡并行),0.1%的性能提升可节省数万美元算力成本。 2. **硬件迭代风险** - 汇编代码高度依赖特定芯片架构(如NVIDIA Ampere vs. Hopper),硬件升级后需重新适配。 3. **生态依赖** - 需深度掌握GPU微架构知识(如SM单元调度、Warp调度策略),技术门槛极高。 --- ### 四、**行业实践参考** 1. **高性能计算领域** - 数学库(如Intel MKL、NVIDIA cuDNN)的核心函数常使用汇编优化。 2. **游戏引擎** - 图形渲染管线中的着色器代码会针对GPU指令集手动调优。 3. **区块链计算** - 矿机算法(如SHA-256)普遍采用ASIC或FPGA的硬件级优化。 --- ### 五、**总结:如何看待这种优化?** - **本质**:通过牺牲通用性开发效率,换取对硬件资源的绝对控制权。 - **价值**:在大模型训练等**边际成本敏感**的场景中,这种优化可能成为核心竞争力。 - **趋势**:随着AI芯片定制化(如TPU、NPU)编译器技术进步(如MLIR),未来或出现更高效的自动化优化方案,逐步替代手动汇编编码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值