
大模型
文章平均质量分 86
AI小任
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python----大模型(GPT-2介绍)
摘要:GPT-2是OpenAI于2019年发布的基于Transformer架构的语言模型,擅长自然语言文本生成。该模型通过大规模无监督预训练,能够处理多种文本类型。其核心架构采用12-48层Transformer模块,包含自注意力机制(CausalSelfAttention)和多层感知机(MLP)。技术特点包括:预激活残差结构、层归一化优化、位置嵌入矩阵(wpe)和词嵌入矩阵(wte)。模型实现展示了从Block模块构建完整网络的过程,包括注意力掩码处理、参数初始化策略等。代码示例演示了如何从Hugging原创 2025-08-05 13:41:57 · 688 阅读 · 0 评论 -
Python----大模型(量化 Quantization)
大模型量化技术通过降低参数精度来压缩模型,提高推理效率。主要方法包括FP16/INT8/INT4等不同精度的转换,可显著减少存储空间和计算开销。GPTQ采用逐层分组量化策略,结合INT4权重和FP16激活值的混合精度,兼顾效率与精度。AWQ则通过分析激活分布识别关键权重通道,保留少量FP16参数以降低量化误差。两种方法均能在保持模型性能的同时实现4-8倍的压缩比,适用于边缘计算、服务器部署等场景,推动大模型在资源受限设备上的应用。量化技术面临精度损失和硬件适配等挑战,但对模型轻量化具有重要意义。原创 2025-08-04 14:22:44 · 835 阅读 · 0 评论 -
Python----大模型(从预训练到分布式优化的核心技术解析)
本文系统介绍了大语言模型(LLM)的训练流程与分布式训练优化技术。LLM训练分为四个阶段:预训练(构建基础语言能力)、监督微调(指令遵循)、奖励模型训练(人类偏好对齐)和强化学习微调(优化输出质量)。针对分布式训练,详细分析了数据并行(DP)、张量并行、流水线并行等加速方法,重点比较了DP与分布式数据并行(DDP)的差异,并介绍了DeepSpeed的ZeRO优化技术和混合精度训练方案。这些技术通过合理分配GPU计算资源、优化内存使用和通信效率,显著提升了大规模模型训练的速度和扩展性。原创 2025-08-03 11:03:56 · 1031 阅读 · 0 评论 -
Python----大模型(基于LLaMA Factory角色扮演模型微调)
LLaMAFactory是一个无需编码即可微调大模型的开源平台,支持LLaMA、Qwen等上百种预训练模型,提供多种训练算法(PPO、DPO等)和优化技术(LoRA、QLoRA等)。项目提供WebUI界面,简化了模型微调流程。使用步骤包括:1)安装依赖环境;2)从魔搭社区下载基础模型;3)准备并配置训练数据集;4)通过WebUI进行模型微调、评估和导出。该项目支持从7B到70B参数的模型,并提供多种精度选择(16bit到8bit),适合不同硬件条件的用户。原创 2025-08-02 11:15:14 · 952 阅读 · 0 评论 -
Python----MCP(MCP 简介、uv工具、创建MCP流程、MCP客户端接入Qwen、MCP客户端接入vLLM)
MCP(ModelContextProtocol)是一个标准化协议,旨在简化AI应用与大语言模型(LLM)的集成。它通过统一接口(类似USB-C)连接各类数据源和工具,降低Agent开发复杂度。开发流程包括:1)使用uv工具管理Python环境和依赖;2)创建MCP客户端基础框架;3)接入云服务(如硅基流动的Qwen模型)或本地vLLM服务。示例代码展示了如何构建交互式聊天客户端,支持通过.env文件配置API密钥和模型参数,实现与不同LLM后端的无缝对接。该系统采用异步编程架构,确保高效资源管理和响应能力原创 2025-08-01 09:39:57 · 1568 阅读 · 0 评论 -
Python----大模型(Hugging Face)
HuggingFace是领先的NLP开源平台,提供Transformers、Tokenizers和Datasets三大核心工具,支持从模型开发到部署的全流程。其发展历程从2016年的聊天机器人到如今的AI生态系统,托管超50万模型和10万数据集。平台通过标准化工具链和模型共享机制,显著降低NLP开发门槛,支持文本、图像、音频等多模态任务。用户可通过pipeline快速调用模型,或手动加载进行精细控制。文章详细介绍了HuggingFace的特点、本地模型调用方法、任务处理流程及模型微调步骤,展现了其在AI民主原创 2025-07-31 09:19:36 · 929 阅读 · 0 评论 -
Python----大模型(大模型微调--BitFit、Prompt Tuning、P-tuning、Prefix-tuning、LORA)
本文系统介绍了大模型微调技术及其参数高效微调(PEFT)方法。主要内容包括:1)大模型微调的基本概念、流程与核心价值,强调其在特定领域性能提升、资源效率等方面的优势;2)参数高效微调技术,对比分析BitFit、PromptTuning、PrefixTuning、P-Tuning、LoRA等主流方法的原理、适用场景及实现步骤;3)重点阐述了LoRA及其变体QLoRA的低秩适配机制,通过冻结原始参数、仅训练低秩矩阵实现高效微调。这些方法在不同资源条件和任务需求下,为大型语言模型的领域适配提供了灵活高效的解决方案原创 2025-07-30 09:09:09 · 834 阅读 · 0 评论 -
Python----大模型(RAG 的智能评估-Ragas)
RAGAs(Retrieval-Augmented Generation Assessment)是一个用于评估RAG(检索增强生成)系统性能的框架。它通过四个核心指标衡量系统表现:Context Precision(上下文精度)。Context Recall(上下文召回)Response Relevancy(响应相关性)Faithfulness(忠诚度)原创 2025-07-29 10:20:40 · 832 阅读 · 0 评论 -
Python----大模型(基于Fastapi+gradio的对话机器人)
本文介绍了如何搭建一个基于通义千问7B模型的聊天机器人系统。系统采用三部分架构:1) 使用ModelScope下载大模型并启动vLLM服务;2) 通过FastAPI构建后端接口,支持流式响应和参数调节;3) 采用Gradio设计交互界面,包含对话历史管理和生成参数控制。重点讲解了temperature和top_p参数的作用机制及不同场景下的推荐配置值,如代码生成(0.2/0.1)、创意写作(0.7/0.8)等。系统实现了完整的模型部署、API服务和用户交互流程,可作为智能对话应用的开发参考。原创 2025-07-28 07:39:06 · 1077 阅读 · 0 评论 -
Python----大模型(RAG--(文本加载,文本分割,向量化,向量数据库,检索,文本生成))
本文介绍了基于LangChain框架实现RAG(检索增强生成)技术的完整流程。首先通过TextLoader加载文本文件并进行递归式文本分割,然后使用HuggingFace的BGE中文嵌入模型进行向量化处理。接着构建FAISS向量数据库并实现检索功能,最后结合Qwen2.5-7B大语言模型构建问答系统。整个流程包含文本加载、分割、向量化、数据库构建、检索和生成六个核心步骤,通过链式调用实现了"黑熊精自称为什么"等问题的智能问答功能。该方案展示了如何将检索技术与大模型结合,提升问答系统的准确原创 2025-07-28 07:34:50 · 129 阅读 · 0 评论 -
Python----大模型(Agent----编写一个简单的Agent)
摘要: React框架是构建智能代理(Agent)的核心逻辑,通过推理(Reasoning)与执行(Acting)的循环实现复杂任务处理。LLM负责推理分析,外部工具(如API)增强执行能力,Prompt设计是关键桥梁。工作流程包括输入接收、推理决策、工具调用、结果反馈及最终输出。示例代码展示了温度查询Agent的实现:定义工具函数(如get_current_temperature),配置工具系统,解析模型输出并执行工具调用,最终整合结果生成响应。该框架结合了LLM的智能推理与工具的精准执行,适用于多样化任原创 2025-07-28 07:34:21 · 347 阅读 · 0 评论 -
Python----大模型(基于Agent的私人AI助理项目)
本文介绍了一个基于自然语言处理的智能问答系统开发方案。系统采用Gradio搭建WebUI界面,支持聊天对话和文件传输功能。后端通过FastAPI实现,包含天气查询、联网搜索、时间服务和代码执行等Agent工具。系统使用心知天气API和SerpAPI进行数据获取,并通过CodeBox沙箱环境安全执行Python代码。关键技术包括自然语言处理、API集成、前后端交互(Gradio+FastAPI)和代码沙箱隔离,实现了多功能智能问答服务。原创 2025-07-28 07:33:56 · 793 阅读 · 0 评论 -
Python----大模型(RAG 的智能评估-LangSmith)
LangSmith是大模型应用开发平台,提供构建、测试、评估和监控LLM应用的全流程工具。文章详细介绍了使用LangSmith进行自动化评估的完整流程:1)安装配置LangSmith环境;2)连接本地LLM模型(如Qwen2.5-7B-Instruct);3)构建RAG应用链;4)定义多种评估器(包括简洁度、余弦相似度等);5)执行自动化评估并上传结果。文中还演示了如何创建数据集、配置评估指标,以及连接向量数据库实现检索增强生成(RAG)。该平台支持开发者从原型到生产环境的全生命周期管理,显著提升大模型应用原创 2025-07-26 10:35:07 · 660 阅读 · 0 评论 -
Python----大模型( langchain部署简单rag应用)
本文介绍了基于LangChain框架实现的两种本地文档问答系统方案:RetrievalQA链和管道式(LECL)实现。两种方案均采用文本分块处理、bge-large-zh中文嵌入模型、FAISS向量检索和Qwen2.5-7B本地大模型等技术。RetrievalQA链方案更适合快速原型开发,具有模块化封装、自动化流程等优势;而管道式实现则提供了更高的灵活性和可调试性,支持自定义处理流程和中间结果检查。对比分析显示,RetrievalQA链适用于POC验证和标准问答场景,而管道式实现更适合生产环境和复杂逻辑需求原创 2025-07-25 09:03:16 · 874 阅读 · 0 评论 -
Python----大模型( RAG的向量化(embedding))
摘要:本文介绍了向量化在RAG(检索增强生成)系统中的应用。通过预训练模型(如BERT)将文本转换为高维向量,实现语义检索。主要步骤包括数据预处理、向量生成、存储索引和相似度计算。文章演示了使用bge-large-zh模型进行中文文本向量化,并比较了不同句子的余弦相似度。还展示了如何利用FAISS进行高效向量检索,以及LangChain集成方案。这种方法显著提升了信息检索的语义理解能力,适用于问答系统、推荐系统等多种场景。原创 2025-07-24 08:56:36 · 705 阅读 · 0 评论 -
Python----大模型(基于Fastapi+streamlit的机器人对话)
本文介绍了基于FastAPI和Streamlit构建通义千问大模型对话系统的实现方案。首先从魔搭社区下载Qwen2.5-7B-Instruct模型,使用vLLM启动本地服务。然后通过FastAPI构建高性能后端API,支持流式响应和参数调节(温度、top_p等)。最后利用Streamlit开发交互式前端界面,包含历史记录管理、参数控制和实时对话展示功能。系统采用异步通信架构,实现了模型推理、API服务和用户界面的高效协同,为LLM应用提供了完整的开发范例。原创 2025-07-22 08:59:32 · 477 阅读 · 0 评论 -
Python----大模型( Langchain-agent代理(使用Langchain Agent代理来查询天气信息) )
本文介绍了在Langchain中实现天气预报Agent的开发过程。首先通过心知天气API获取天气数据,包括温度、天气状况等信息。然后使用Langchain框架构建智能代理,该代理能够理解用户查询,自动调用天气API工具获取数据,并生成格式化的响应。开发过程涉及工具类封装、LLM模型配置、提示词模板设计以及代理执行器的创建。最终实现了一个能够智能响应天气查询的自动化系统,如查询"北京"时能够返回"晴朗,33°C"的天气信息。原创 2025-07-21 08:46:01 · 316 阅读 · 0 评论 -
Python----大模型( Langchain-memory记忆 )
ConversationBufferMemory 适合简单的短对话。ConversationSummaryMemory 适合需要记住长期对话核心内容的场景。ConversationBufferWindowMemory 适合只需要记住最近几轮对话的场景。原创 2025-07-21 08:44:34 · 474 阅读 · 0 评论 -
Python----大模型(Langchain-chain链)
本文介绍了LangChain框架中的几种关键链类型及其应用。首先阐述了"链"的基本概念,即通过有序连接NLP任务构建复杂AI应用的模块化组件。重点解析了LLMChain(大语言模型链)和RetrievalQA(检索问答链)的实现方法,后者结合了向量数据库实现检索增强生成(RAG)。文章详细演示了如何利用HuggingFace嵌入模型和FAISS向量数据库构建知识库问答系统,包括文本加载、分块处理、向量化存储及检索的全流程。最后介绍了通过LCEL表达式自定义链的方法,展示了从提示模板到模型原创 2025-07-21 08:42:38 · 294 阅读 · 0 评论 -
Python----大模型(Langchain-OutputParser输出解析器)
本文介绍了LangChain中的多种输出解析器及其应用场景:1. 基础OutputParser用于将非结构化自然语言转换为结构化数据。2. 列表解析器(CommaSeparatedListOutputParser和ListOutputParser)将文本转换为Python列表。3. datetime解析器将时间字符串转化为datetime对象。4. 枚举解析器将文本映射到预定义的枚举值。5. 结构化输出解析器(StructuredOutputParser和PydanticOutputParser)将输出转换原创 2025-07-21 08:42:07 · 1355 阅读 · 0 评论 -
Python----大模型(RAG的评估方法——(精确度和召回率、排名质量、平均准确率))
RAG系统评估方法综述 RAG(检索增强生成)系统性能评估主要分为检索和生成两个维度。检索评估采用精确度、召回率、F1-score等指标衡量相关性,同时引入MRR(平均倒数排名)和MAP(平均精度均值)评估结果排序质量。生成评估则关注文本质量,使用BLEU和ROUGE等指标衡量生成内容与参考答案的匹配度。此外,评估还应关注四个关键维度:响应与参考答案的准确性、响应与输入的相关性、响应与检索文档的匹配度,以及检索文档与查询的关联性。这些综合指标共同构成了RAG系统的完整评估框架。原创 2025-07-21 08:41:32 · 722 阅读 · 0 评论 -
Python----算法移植(RK3588部署多模态大模型)
本文详细介绍了在RK3588开发板上部署多模态大模型的全流程。主要内容包括:1) 硬件环境要求(Ubuntu20.04虚拟机/RK3588开发板)和软件环境配置(Python3.8、rkllm-toolkit等);2) 模型转换方法,支持LLaMA、ChatGLM3等多种模型及多种量化方式;3) 具体部署步骤:从HuggingFace获取模型、安装转换工具、模型格式转换(ONNX到RKNN/RKLLM)、交叉编译C++程序;4) 性能基准测试数据,展示了不同模型在RK3588上的推理速度、内存占用等指标;5原创 2025-07-18 08:46:03 · 1086 阅读 · 0 评论 -
Python----算法移植(RK3588部署deepseek对话大模型)
本文详细介绍了在RK3588开发板上部署大语言模型的完整流程,包括从HuggingFace下载模型、使用RKLLM-Toolkit工具进行模型转换和量化,到在开发板上通过C++程序或Python服务(Flask/Gradio)进行推理部署的全过程。方案支持TinyLLAMA、Qwen等多种模型,并提供性能优化技巧,如NPU定频和量化选择,最终实现在边缘计算设备上高效运行大语言模型,适用于低功耗、高性能的AI应用场景。原创 2025-07-15 08:51:54 · 1272 阅读 · 0 评论 -
Python----算法移植(将YOLOV8移植到RK3588)
本文详细介绍了利用Rockchip的RKNN工具链(包括RKNN-Toolkit2、RKNN-Toolkit-Lite2、RKNN Runtime和RKNPU驱动)在NPU硬件平台上部署YOLO模型的完整流程,涵盖环境配置(Python 3.8+特定依赖库)、模型转换(ONNX到RKNN格式)、多线程推理优化、实时视频处理实现(含后处理算法和性能统计)以及自定义模型适配方法,为开发者提供了从环境搭建到部署优化的全链路技术方案,特别强调版本兼容性和边缘计算场景的性能调优策略。原创 2025-07-14 09:19:59 · 554 阅读 · 0 评论 -
Python----大模型( 常见向量数据库的介绍 )
本文比较了三种文本向量相似度计算方法(余弦相似度、内积和L2距离)并介绍了三种主流向量数据库。Pinecone提供易用API和实时更新功能;FAISS是高效的CPU/GPU开源库;Chroma支持多类型数据存储。通过示例代码演示了各数据库的向量嵌入生成、索引创建和相似度查询流程,其中Pinecone和Chroma使用余弦相似度,FAISS支持内积和L2距离计算。三种工具均能有效实现语义相似性搜索,开发者可根据项目需求选择合适方案。原创 2025-07-14 09:18:35 · 470 阅读 · 0 评论 -
Python----大模型( RAG的文本分割,文本分割方法 )
RAG模型中的文本分割技术及其应用 RAG(检索增强生成)模型通过合理分割文本来提高检索效率与生成质量。文本分割在RAG中具有关键作用:提升检索精度、优化信息匹配、增强生成连贯性并降低计算复杂度。主要分割方法包括:1)字符分割,按固定长度划分;2)递归字符分割,根据优先级对分隔符进行多级细分;3)特定文档分割(如Markdown),利用文档结构信息。实践表明,结合中文标点的递归分割法能有效保持语义连贯性,为中文NLP任务提供更优的文本处理方案。原创 2025-07-14 09:18:19 · 740 阅读 · 0 评论 -
Python----大模型(RAG--RAG的介绍,RAG的工作流程,RAG的文本加载 )
RAG(检索增强生成)是一种结合检索与生成技术的自然语言处理方法,通过外部知识库增强语言模型的输出准确性。其核心包含检索器(从知识库检索相关文档)和生成器(基于检索信息生成回答)。工作流程包括:检索器将用户问题转换为向量并搜索相似文档,生成器结合检索结果生成最终答案。LangChain提供了多种文本加载器(如TXT、CSV、PDF、Markdown、JSON、HTML等),支持从不同文件格式加载和分割内容,便于后续处理和检索。该方法动态扩展模型知识库,适用于需要实时更新或专业知识的场景。原创 2025-07-14 09:17:59 · 817 阅读 · 0 评论 -
Python----大模型(Langchain-Prompt提示词)
本文介绍了LangChain中的Prompt模板使用方法,包括: 单个变量PromptTemplate的两种创建方式(自动提取变量和显式声明) 多个变量PromptTemplate的应用场景和格式化方法 聊天提示模板ChatPromptTemplate的组成要素(系统消息、用户消息和AI消息模板) 各类消息模板的具体用途和使用示例 重点说明了不同模板的特性差异、适用场景和最佳实践,帮助开发者灵活构建符合需求的提示词模板。原创 2025-07-13 09:39:00 · 897 阅读 · 0 评论 -
Python----大模型(Langchain部署本地大模型)
本文介绍了Langchain框架的安装与使用,包括三种安装方式:基础框架(langchain)、社区扩展(langchain_community)和OpenAI集成(langchain_openai)。框架支持两种语言模型:纯文本补全(LLMs)和对话专用(ChatModels),后者采用消息列表交互。文章重点演示了在本地部署通义千问2.5-7B-Instruct模型的两种方案:通过vLLM服务器兼容OpenAI API,或手动封装HuggingFace模型实现自定义LLM类。两种方案都包含代码示例,展示了原创 2025-07-12 11:00:13 · 563 阅读 · 0 评论 -
Python----大模型(使用vllm进行推理加速优化,构建多轮对话机器人)
本文介绍了使用vLLM部署Qwen2.5-7B-Instruct模型并实现多轮对话机器人的流程。首先创建Python3.11虚拟环境并安装torch、vLLM等依赖包。通过vLLM启动OpenAI兼容的API服务器,指定模型路径和端口(10222)。然后编写Python脚本,通过OpenAI客户端连接本地API,构建包含系统角色设定和6轮对话上下文的聊天系统。用户输入触发API调用,模型返回响应后更新对话历史。系统支持参数调节(temperature=0.5)和退出指令检测,实现持续交互的萌妹助手功能。原创 2025-07-11 08:13:39 · 214 阅读 · 0 评论 -
Python----大模型(使用vllm进行推理加速优化——本部所有操作均在linux上完成)
本文介绍了使用vLLM框架部署通义千问2.5-7B-Instruct大模型的完整流程。首先通过conda创建虚拟环境并安装PyTorch、vLLM等依赖包;然后从魔塔社区下载模型,利用vLLM的PagedAttention技术进行推理加速,实现模型加载和文本生成;最后部署OpenAI兼容API服务器,通过标准接口调用模型。文章包含环境配置、模型推理优化和API服务搭建三个核心环节,提供了完整的代码示例和参数说明,实现了从本地推理到服务化部署的全流程解决方案。原创 2025-07-09 08:52:52 · 605 阅读 · 0 评论 -
Python----大模型(ollama部署Qwen2.5-0.5B)
Ollama是一款开源的大语言模型管理工具,简化了本地部署和运行流程。支持MacOS、Linux和Windows系统,通过简单命令即可操作。安装默认在C盘,可修改环境变量更换安装路径(需重启生效)。基本操作包括模型部署(如Qwen2.5-0.5B)、启动服务、查看/删除模型等,常用命令如ollama run/pull/list等。使用前需验证安装(ollama list),适合快速搭建本地大模型环境。原创 2025-07-09 08:52:30 · 320 阅读 · 0 评论 -
Python----大模型(Qwen2.5-0.5B本地部署)
Qwen2.5-0.5B是阿里云开发的轻量级语言模型,具有0.5亿参数,适用于移动设备和边缘计算。基于Transformer架构,支持29种语言和128K长文本处理,在知识量、数学和编码能力上有显著提升。模型采用指令微调,擅长结构化输出和角色扮演。部署时可通过魔搭社区下载,使用transformers库进行推理,支持CUDA加速。典型应用包括生成故事、代码辅助和多语言翻译等场景,完整代码展示了从加载模型到生成文本的全流程。原创 2025-07-08 08:36:27 · 956 阅读 · 0 评论 -
Python----大模型(大模型相关库)
本文介绍了大模型相关的主流开发库和核心概念。在开发库方面,重点讲解了HuggingFace Transformers、ModelScope、OpenAI API、LangChain、SentenceTransformers和DeepSpeed等工具的功能特点和使用方法。在核心概念部分,详细解析了因果语言模型的原理、不同模型架构的对比、预训练与微调的区别,以及Tokenization技术(特别是BPE算法)的实现方式。文章还探讨了控制Token和对话模板的应用,以及Qwen模型在长度限制方面的具体表现。这些内原创 2025-07-05 08:21:26 · 860 阅读 · 1 评论 -
Python----大模型(使用api接口调用大模型)
本文介绍了调用硅基流动(SiliconFlow)AI API的四种方法:1) Ubuntu终端cURL请求;2) Windows CMD cURL命令;3) Python requests库调用(支持流式与非流式响应);4) OpenAI接口方式调用(同样支持流式与非流式)。所有方法都使用Qwen/QwQ-32B模型,设置角色为"二次元助手",并处理用户"你好"的问候。响应示例展示了模型生成的活泼回复及其推理过程,体现了二次元风格和情节推进能力。每种调用方式都详细展示原创 2025-07-04 11:16:28 · 1016 阅读 · 0 评论 -
Python----大模型(大模型基础)
本文概述了大模型与人工智能的关系及其关键技术。AIGC(生成式AI)和LLM(大语言模型)有交集但非包含关系,如扩散模型属AIGC但不属LLM,而BERT等模型属LLM但不用于生成。文章详述了Transformer架构如何通过位置编码、Embedding和编解码器解决RNN的顺序处理与记忆丢失问题,实现上下文无关的词相关性学习。发展历程部分对比了从规则模型到超大规模预训练模型的演进,列举了超50个开源/闭源模型的参数规模、训练数据等关键指标,如GPT-3(175B参数)、LLaMA-2(70B参数)等,并指原创 2025-06-09 23:16:27 · 1178 阅读 · 0 评论