- 博客(37)
- 收藏
- 关注
原创 OpenManus极速部署指南:从零到AI智能体实战
这是一个简洁的实现方案,使用起来可能会不太稳定,比如说定位本地位置时,经常输错位置,或者找不到位置,然后用默认NewYork代替…虽说山寨Manus, 而且不稳定, 但实践思路很值得我们学习。
2025-03-10 10:04:42
1963
原创 基于Prometheus+Grafana的Deepseek性能监控实战
在/data/sda/deploy/vllm/prometheus 文件夹下面创建 prometheus.yml 文件。传统监控方案难以捕捉LLM服务特性,本文将展示如何构建针对vLLM的定制化监控体系。(这里用http://localhost:3008/login 貌似是有点问题的)访问 http://192.168.0.110:3008/login。连续批处理:动态合并请求,GPU利用率提升至92%+智能警报路由:支持分级通知(企业微信/邮件/短信)Deepseek:大语言模型(可替换本地大模型)
2025-03-07 08:06:14
1986
2
原创 Manus:技术突破还是营销泡沫?一场关于AI Agent的争议风暴
Manus的横空出世,既折射出中国AI团队在应用层的创新能力,也暴露了技术宣传与市场现实的落差。其究竟是AGI里程碑还是泡沫化产物,仍需时间验证。对于普通用户,可将其视为一种“增强型工具”而非革命性突破;对于行业观察者,则需关注其后续技术透明度、用户反馈与商业化落地能力。正如某业内人士所言:“AI的星辰大海需要真金白银的技术,而非自嗨的营销。
2025-03-07 08:02:09
1670
原创 在Ubuntu 20上使用vLLM部署DeepSeek大模型的完整指南
前言随着大语言模型(LLM)的快速发展,如何高效部署和运行这些模型成为开发者关注的重点。本文将演示在Ubuntu 20系统环境下:使用huggingface-cli下载DeepSeek模型通过vLLM实现高性能模型推理创建简单的API服务环境准备系统要求NVIDIA显卡驱动 ≥ 515.48.07CUDA 11.8+基础依赖安装。
2025-02-22 13:02:45
6224
1
原创 Python并发编程实践:asyncio与多进程深度解析
在单核处理器时代,程序性能提升主要依赖时钟频率的提升。但随着摩尔定律逐渐失效(2005年后CPU主频增长停滞),单核性能提升空间收窄至每年约3%。结构化并发:引入类似Trio的nursery概念,确保所有子任务在父任务退出前完成。分布式任务队列:集成Celery与asyncio,支持跨节点任务分发。跨语言互操作:通过PyO3与Rust集成,提升异步任务性能。性能优化:asyncio核心性能提升40%适用场景:GUI事件处理、轻量级IO任务。优势:超高并发密度(可管理10K+任务)
2025-02-22 12:55:19
1057
原创 部署LLM模型到云端
压测实验结果显示,由于本地设备算力有限,本地部署的模型服务无法满足低延迟和高并发的需求。针对这类线上业务,可以考虑云端部署。下面先来看看本地部署和云端部署的特点对比。由上可知,相比本地部署,云端部署提供了高可扩展性、灵活的资源管理以及稳定的服务,从而能够快速适应业务变化。此外,线上模型服务还需要解决模型管理问题,如上线与下线、扩缩容和推理加速策略等,因此,云上部署是更优的选择。下面将介绍四种常见的阿里云部署平台,支持不同的模型部署需求,帮助你快速搭建模型服务。
2025-02-07 23:33:10
1228
原创 通过vLLM部署LLM模型到生产环境中
./output/qwen2_5-1_5b-instruct/v0-202xxxxx-xxxxxx/checkpoint-xxx-merged”:替换为真实的微调模型路径。该服务提供的HTTP接口兼容OpenAI API,可以通过调用HTTP接口,如/v1/chat/completions,让你快速体验大模型的推理能力。然后,在终端窗口执行wrk压测命令,分别设置chat接口的并发量(-c)为1和10,压测时间(-d)均为10s,观察两个实验的压测结果。请注意,关闭终端窗口将会立即终止服务。
2025-02-07 23:20:41
1764
原创 大模型高级工程师实践 - 将课程内容转为视频
当前的大模型文生视频或图生视频方案还不足以直接生成符合我们预期的科普课程视频,因此,我们会采用传统的方案,使用音视频处理工具进行合成。本次课程除了上次课程用到的 moviepy 外,你还将用到以下工具:ffmpeg:一个开源的跨平台音视频处理工具,它提供了强大的音视频编解码功能、转换格式、录制和流媒体功能。FFmpeg 包含了丰富的命令行工具和库,使用户能够灵活地处理各种媒体文件。
2025-02-04 10:35:10
1459
原创 大模型高级工程师实践 - 将课程内容转为音频
除了之前用到的 Qwen-Max, 本次课程你将用到以下模型和工具:CosyVoice:CosyVoice 是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。moviepy:一个 Python 库,用于视频编辑和处理。它提供了许多方便的功能,可以帮助开发者创建、修改和合成视频文件。
2025-02-04 10:20:38
1412
原创 大模型高级工程师实践 - 将课程内容转为PPT
一个基于 Markdown 的幻灯片生成工具,旨在简化创建演示文稿的过程。它允许用户使用轻量级的 Markdown 语法编写幻灯片,生成美观的演示,无需使用复杂的幻灯片编辑器。这使得 Marp 特别适合技术人员、开发者和喜欢使用 Markdown 的用户。
2025-02-03 09:15:35
1022
原创 大模型高级工程师实践 - 翻译课程内容
本次课程使用了文本生成模型 Qwen-Turbo。它是通义千问系列速度最快、成本很低的模型,适合简单任务。我们可以通过反思方法改善 Qwen-Turbo 的输出质量。
2025-02-03 08:56:02
934
原创 大模型高级工程师实践 - 生成课程内容
本次课程用到了以下模型:**Qwen-Max:**通义千问2.5系列千亿级别超大规模语言模型,支持中文、英文等不同语言输入。随着模型的升级,qwen-max将滚动更新升级。如果希望使用固定版本,请使用历史快照版本。**Flux-Merged:**FLUX.1-merged模型结合了"DEV"在开发阶段探索的深度特性和"Schnell"所代表的高速执行优势。通过这一举措,FLUX.1-merged不仅提升了模型的性能界限,还拓宽了其应用范围。
2025-02-02 11:04:35
1322
原创 从零开始玩转 Docker:用 Node.js 打印“Hello World”
在本文中,我们系统地探讨了 Docker 的基本概念、核心操作以及其在实际应用中的优势。通过编写 Dockerfile、构建镜像和运行容器,我们展示了如何利用 Docker 实现应用程序的快速部署和高效管理。Docker 的轻量级、可移植性和一致性使其成为现代软件开发和运维中不可或缺的工具。Docker 作为容器化技术的代表,已经深刻改变了软件开发和运维的方式。通过本文的学习,读者应该已经掌握了 Docker 的基本操作和应用场景。然而,Docker 的生态系统非常庞大,本文只是冰山一角。
2025-02-02 10:59:46
963
原创 工业级 RAG 实现 - QAnything
QAnything 官方文档QAnything (Question and Answer based on Anything) 是致力于支持任意格式文件或数据库的本地知识库问答系统,可断网安装使用。您的任何格式的本地文件都可以往里扔,即可获得准确、快速、靠谱的问答体验。特点数据安全,支持全程拔网线安装使用。支持文件类型多,解析成功率高,支持跨语种问答,中英文问答随意切换,无所谓文件是什么语种。
2025-01-28 12:02:40
1222
原创 工业级 RAG 实现 - Dify
Dify是苏州语灵人工智能科技有限公司的产品。该公司是一家先进的大型语言模型(LLM)应用技术栈服务商,旗下产品Dify是一款广受欢迎的开源LLMOps平台,可以帮助开发者更简单、快速地创建AI应用。
2025-01-28 11:57:24
2253
原创 通过图形界面展现基于本地知识库构建RAG应用
1. 本地 embedding 模型不影响召回效率, CPU 性能足够,建议采用2. 本地 (chat)大模型对内容的理解非常有限,实际工作中可以采用 LLMs Gateway 切换,RAG环境建议采用在线的模型3. FastAPI + Gradio + Llamaindex + qwen-plus 全栈 Python 可以实现较好的 PoC 基本需要,但是在 RAG 整个过程都需要打补丁
2025-01-19 23:02:14
850
原创 AI基于YOLO的文档布局分析
在大语言模型应用开发中,我们往往会用到RAG技术, 但读取的文件包含图片时,传统技术是直接通过OCR(Optical Character Recognition,光学字符识别)技术读取文字,但这里会有个弊端, 如低分辨率图像、模糊图像和多语言混合文本中, 特别是文本划分负责,OCR技术的识别准确性大大减弱。这时,我们就需要文档布局分析来模仿人眼看到的区域,再对区域内的文字进行提取。
2025-01-16 02:25:30
835
原创 Pytorch基础教程:从零实现手写数字分类
分类和回归是机器学习中两种基本的预测方法,它们的核心区别在于预测的输出类型。需要注明的是,线性关系不仅仅指存在于两个变量之间,它也可以存在于三个或者更多变量之间。比如y = a + bx1 + cx2,这条直线可以在三维空间中表达。但实际情况是,我们在真实世界的数据不会完美的落在一个直线上,即使两个数据存在线性关系,它们或多或少离完美的直线都还有一些偏差。图像表示如下:以上直线表达的是predictor和outcome之间近似的线性关系:y ≈ ax + b。
2025-01-14 19:45:58
2020
1
原创 AI模型:追求全能还是专精?
全能模型是指具备广泛适用性、灵活任务转换能力以及潜在多任务学习能力的AI模型。这类模型通常采用大规模的神经网络架构,具备高度的参数化和复杂的连接模式,如Transformer架构在自然语言处理领域的广泛应用就为其提供了基础。专精模型是指专注于某一特定任务或领域进行深度优化和训练的AI模型。这类模型的设计目标是针对特定需求实现高性能,而非追求广泛的适用性。
2025-01-10 08:20:39
946
原创 为答疑机器人扩展问题分类与路由功能
在这文章了,我们实现了一个小小的大语言agent功能,相对于Assistants一些工具类,我更喜欢重新用大语言去进行意图识别,因为还能进行多意图识别,并按顺序返回并按顺序执行任务。当然,也可以借助类似Dify这些智能体流程编排。
2025-01-09 22:43:05
543
原创 优化提示词改善答疑机器人回答质量
load_key()# 加载索引# 设置query engine# 自定义prompt模板"你是贾维斯,你回答问题时,需要在回答前加上贾维斯说:""注意事项:\n""1. 根据上下文信息而非先验知识来回答问题。\n""2. 如果是工具咨询类问题,请务必给出下载地址链接。\n""以下是参考信息。"问题:{query_str}\n。"回答:贾维斯说:""""执行问答"""qa_v2('我们公司项目管理应该用什么工具', query_engine=query_engine)
2025-01-08 22:32:43
1155
原创 LLM大语言模型多智能体(Multi-Agent)的概念与构建方法
构建多智能体的目的:如果工具函数增多,一个Agent可能很难同时完成对工具的决策与对问题的回答。如果用户提问了一个需要使用多个工具函数的问题,那答疑机器人也将无法给出正确答案。比如:“张三的HR是谁?给他请三天假”
2025-01-07 08:51:36
1791
原创 LLM大语言模型构建 Agent 的基本流程
'''输入用户提问,输出员工信息查询结果'''# 1. 首先根据用户提问,使用NL2SQL生成SQL语句ChatMessage(role=MessageRole.SYSTEM, content='''你有一个表叫employees,记录公司的员工信息,这个表有department(部门)、name(姓名)、HR三个字段。你需要根据用户输入生成sql语句进行查询,你一定不能生成sql语句之外的内容,也不要把```sql```这个信息加上。'''),# 打印出SQL语句。
2025-01-06 23:43:59
824
原创 LLM大模型RAG内容安全合规检查
我们先回顾一下智能答疑机器人的问答流程。问答流程主要包括用户、智能答疑机器人、知识库、大语言模型这四个主体。:用户发起提问。:机器人返回回答。:从知识库中召回相关的topK文本。针对RAG应用,内容安全合规检查方案的设计将围绕这三个阶段展开。为此,我们可以设计一套通用的合规检查机制,支持不同内容类型的检查,且适用于问答过程中的任意阶段。针对输入的内容合规检查,可将其放在用户提问后的阶段;而针对输出的内容合规检查,则应置于用户接收回答之前的阶段。
2025-01-05 21:16:54
3017
原创 LLM大语言模型中RAG切片阶段改进策略
没有最好的切片方法,只有最适合你场景的方法。你可以尝试不同的切片方法,观察Ragas评估结果,找到最适合你需求的方案。学习的过程就是不断尝试和调整的过程!
2025-01-05 19:54:13
2545
原创 微调还是RAG
微调(Fine-tuning)是一种常见的训练技术,用于将预训练的大型语言模型(如GPT)适应特定任务。通过在任务特定的数据上微调预训练模型,我们可以获得更具针对性的模型,以便执行特定的文本生成任务。通过这个过程,模型能够学习特定领域的知识,提高在特定任务上的表现。具体来说,微调的原理如下:1.基础模型选择:首先,我们选择一个已经预训练好的大型模型,例如Llama2、OrionStarAI等。2.微调目标:我们的目标是在特定任务上优化模型的性能,使其更好地适应和完成特定领域的任务。
2025-01-01 22:28:48
943
1
原创 利用vLLM本地安装和配置大语言模型-猎户星空
这次本地安装和配置是通过一系列Dockerfile指令,构建了一个兼容OpenAI接口标准的vLLM推理框架镜像。这意味着用户可以轻松地在自己的电脑上设置并启动大语言模型的推理服务。如果你是第一次使用Docker(一个可以让软件在隔离环境运行的工具),不用担心。你可以去Docker的官方网站,那里有很多教程可以帮助你开始。确保你已经在你的电脑上安装了Docker。
2025-01-01 22:17:41
2242
原创 LLM大语言模型自动化测试(ROUGE和RAGAS)及优化方案
正确预测的比例。:用于衡量二分类或多分类问题中正类别的识别效果。:主要用于机器翻译等自然语言处理任务中,通过比较候选翻译与一个或多个参考翻译之间的n-gram重叠来计算得分。:常用于自动摘要评价,它基于n-gram召回率、精确率以及F-measure。:用来衡量概率分布模型预测样本的不确定程度;越低越好。:两个边界框相交部分面积与并集面积之比。:平均精度均值,广泛应用于物体检测任务中是基于召回率的评估指标,特别适用于 文本摘要、问答生成 和 机器翻译 等任务。
2025-01-01 19:20:58
1752
原创 使用Text-Generation-WebUI本地微调Llama3大模型
Llama3Llama3是由Meta公司发布的大型语言模型,已经在多个行业基准测试中展现了最先进的性能。Llama3采用了标准的仅解码(decoder-only)式Transformer架构,使用包含128K token词汇表的分词器。该模型在Meta自制的两个24K GPU集群上进行预训练,使用了超过15T的公开数据,其中5%为非英文数据,涵盖30多种语言。
2025-01-01 18:45:38
1966
原创 简单三步做一个基于Embedding的单词小游戏
下面用简单三步做一个小demo。首先网页段这一块很久没碰的很多技术生疏了,这次的页面我尝试用大语言模型帮我生成。像它这样炫酷的效果做不到,做个简单的效果作为展示吧。以上就是我的提示词, 我用了文心一言和GPT对比了一下,两个模型都能生成网页代码,但文心一言的代码有很多需要自己去修改。GPT也有自己的错误,但错误率很小,基本生成就能用。 如果大家有什么看法欢迎在评论区评论。这是Copilot帮我生成的静态代码效
2024-03-01 20:09:14
1104
原创 《真实世界自然语言处理(Real-World Natural Language Processing)》代码实现
《真实世界自然语言处理》中代码的实现
2024-02-03 19:20:31
1153
原创 利用人工智能预测乐高包装的LEGO商标尺寸,深入研究竟有惊人发现
不知道大家会不会有天突发奇想,想知道乐高包装上的经典红底白字LOGO的尺寸,到底是标准统一的,还是设计师随缘用PS拖拽出来的?
2022-02-22 23:06:24
1324
原创 AndrewNg机器学习编程作业python实现及心得总结
作业结构:Week2 ex1:ex1必做题:warmUpExercise.py:from numpy import *;def warmUpExercise(): # % ============= YOUR CODE HERE ============== # % Instructions: Return the 5x5 identity matrix # % In octave, we return values by defining w
2021-08-20 21:01:08
1827
1
原创 用高中的知识点徒手推导逻辑回归中的反向梯队
知识点回顾:导数公式及运算法则:导数公式:运算法则:减法法则:(f(x)-g(x))’=f’(x)-g’(x)加法法则:(f(x)+g(x))’=f’(x)+g’(x)乘法法则:(f(x)g(x))’=f’(x)g(x)+f(x)g’(x)除法法则:(g(x)/f(x))’=(g’(x)f(x)-f’(x)g(x))/(f(x))^2运算法则:假设多个向量存在依赖关系,比如三个向量x→y→zx→y→z存在依赖关系,则我们有下面的链式求导法则:逻辑回归算法:正向传递过程:代价函数
2021-07-27 05:30:24
531
原创 利用AI强化学习训练50级比卡超单挑70级超梦!
强化学习(Reinforcement Learning, RL),是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。OpenAI Gym是一款用于研发和比较强化学习算法的工具包,它支持训练智能体(agent)做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。 这次我会仿照Gym的游戏模式,再根据pokemon官网给出的战斗数据,创建一个pokemon的对战系统, 再利用强化学习训练50级比卡超单挑70级超梦。如果之
2021-05-18 07:35:40
7432
38
转载 利用Python进行数字识别
思路通过Python实现KNN算法。而KNN算法就是K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。详情可在上一篇文章开头有介绍:https://www.jianshu.com/p/bddf84a60efc转载请注明出处:Michael孟良准备在Java项目里写了一个RGBUtils的class,将32x32像素的图
2020-12-27 17:43:40
9906
转载 利用MapReduce仿QQ音乐实现“今日推荐歌曲“系统
大数据无处不在,推荐系统无处不在。QQ音乐的今日推荐歌曲;人人网的好友推荐;新浪微博的你可能感觉兴趣的人;优酷,土豆的电影推荐;豆瓣的图书推荐;大从点评的餐饮推荐;世纪佳缘的相亲推荐;天际网的职业推荐等都用到了大数据。今天利用MapReduce简单写个仿QQ音乐的推荐系统,希望能给在座各位在工作中或面试中一点帮助!转载请注明出处:Michael孟良今日推荐歌曲原理:通过历史对歌曲操作记录,计算得出每首歌相对其他歌曲同时出现在同一用户的次数,每件歌曲都有自己相对全部歌曲的同现列表,用户会对部分歌曲有
2020-09-07 22:26:05
868
1
360文档布局分析模型,用于文档布局分析
2025-01-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人