
python机器学习
文章平均质量分 93
墨尘游子
无能为力的事,当断;生命中无缘的人,当舍;心中凡欲执念,当离;目之所及皆是回忆,心之所得皆是过往。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
20-大预言模型—RAG 系统的进化:从模型 “空想” 到 “有据可依”—如何赋予它精准知识调用能力
本文介绍了检索增强生成(RAG)技术的基本原理和实现方法。RAG通过为生成模型提供外部知识源,解决其知识老化和不准确的问题。系统包含索引、检索优化、生成等模块,采用模块化设计支持不同任务需求。文章详细阐述了线性、条件、分支、循环四种RAG流程模式,并提出了嵌入模型微调、查询优化等改进方法。最后给出了基于IMDB影评数据的完整RAG系统实现代码,通过实验验证了该技术在信息检索和内容生成方面的有效性。原创 2025-08-05 09:33:44 · 300 阅读 · 0 评论 -
跟 “乱数据” 说拜拜:10 个妙招让模型学得更好
为什么必须做预处理?数据预处理是指在数据分析或建模前,对原始数据进行清洗、转换、整合等操作的过程。它就像烹饪前的备菜 ——去除杂质(清洗)、切割加工(转换)、搭配食材(整合),最终让数据符合模型 "口味",提升分析或预测效果。原始数据往往存在问题:重复、缺失、异常值等模型对数据格式有要求:只能处理数字,不能直接用文字未经处理的数据会导致模型效果差:预测不准、过拟合等。原创 2025-08-03 20:56:01 · 504 阅读 · 0 评论 -
19 - 大模型智能体养成记(4):电影助手的蜕变:从固定答案到活学活用 —— 大模型如何让它拥有自主决策力
智能电影信息助手是一款融合自主决策框架与大模型智能体的智能系统。其核心优势在于:通过自主决策引擎判断用户意图,结合大模型的自然语言理解能力,实现从 “用户输入→意图识别→资源调度→结果生成” 的全流程自动化处理。系统突破了传统规则引擎的局限性,通过大模型的上下文理解能力增强自主决策的灵活性,同时保留模块化设计的高效性,形成 “规则决策 + 大模型理解” 的混合智能架构。原创 2025-07-31 14:50:46 · 1297 阅读 · 0 评论 -
18 - 大模型智能体养成记(3):电影助手进化全解析:从静态知识库到具备上下文理解、长效记忆、推理与自学习能力的混合智能体
这种协同让系统从 “规则驱动的查询工具” 升级为 “具备记忆、学习、推理能力的智能体”,更贴近人类的交互习惯 —— 能记住历史、能学习新知、能逻辑推导。《流浪地球2》是2023年上映的中国大陆科幻电影,影片改编自刘慈欣的小说《流浪地球》,由郭帆执导、刘慈欣担任监制,吴京及李雪健领衔主演,刘德华特别出演。《流浪地球2》是由郭帆执导,杨治学、龚格尔、郭帆、叶濡畅编剧,吴京、李雪健、沙溢、宁理、王智、朱颜曼滋领衔主演、刘德华特别演出的科幻灾难电影。:结合历史对话理解用户当前输入的真实意图,避免 “断章取义”。原创 2025-07-31 13:20:34 · 749 阅读 · 0 评论 -
17 - 大模型智能体养成记(2):从孤立知识库到简单混合智能体,构建 AI 像人一样 “理解 - 决策 - 融合响应” 的实战指南
功能模块核心能力应用场景示例电影信息查询基于本地向量库的精准检索查询《肖申克的救赎》的导演、主演等数学计算支持复杂表达式解析与安全计算计算 "(25+35)×4÷2" 等数学问题网络搜索集成 SERPAPI 接口获取实时网络信息查询 2024 年新上映电影、实时热点等import os"""自定义嵌入模型类,继承LangChain的Embeddings接口""""""初始化模型,自动检测设备(GPU/CPU)"""原创 2025-07-31 07:56:01 · 583 阅读 · 0 评论 -
16 - 大模型智能体养成记(1):从 “死板程序” 到 “会思考的数字助手”,教 AI 像人一样 “感知 - 思考 - 行动” 的全过程
自主决策与输出 - 无需人工干预,自动完成 "接收问题→处理→回答" 的闭环,符合 "智能体" 的定义。原创 2025-07-30 17:48:25 · 939 阅读 · 0 评论 -
15 - 多模态大语言模型 — 图文 “牵线” 系统 “成长记”:借 CLIP 练本领,从图像与文字里精准 “搭鹊桥” 的全过程 (呆瓜版 - 2 号)
普通大模型(比如 ChatGPT)只能处理文字,而多模态大语言模型(简称 “多模态 LLM”)能同时 “看懂图、听懂声、读得懂字”,还能用文字回答你所有问题。以前的 AI 是 “偏科生”:有的只能看图(比如识别图片里的猫),有的只能处理文字(比如写作文),但多模态 LLM 是 “全能选手”—— 它用语言把所有信息打通了。这样能逼它更认真地 “看” 和 “想”,减少胡说八道(专业叫 “减少幻觉”)。给它喂海量 “图文配对” 的资料:比如 “猫的图片 +‘这是一只猫’”“汽车图片 +‘四个轮子的交通工具’”。原创 2025-07-30 10:29:12 · 1208 阅读 · 0 评论 -
14 - 大语言模型 — 抽取式问答系统 “成长记”:靠 BERT 学本事,从文本里精准 “揪” 答案的全过程(呆瓜版-1号)
简单来说,问答系统是一种能 “听懂” 人类问题,并给出准确答案的智能系统。比如我们平时用的智能助手(如 Siri、小爱同学),输入 “今天天气怎么样?” 就能得到答案,这就是最常见的问答系统应用。接收自然语言问题,结合已有信息(如上下文、知识库),返回简洁准确的答案。原创 2025-07-29 22:12:01 · 980 阅读 · 0 评论 -
13-大语言模型—机器翻译欢乐盖楼:数据先 “洗洗澡“ 变干净地基,模型 “哼哧哼哧“ 砌墙,BLEU“举牌子“ 说行才行
机器翻译就是让 AI 模仿人类,把一种语言(比如中文)转换成另一种语言(比如英文)的技术。但 AI 没人的思维,它靠 “数学公式 + 海量数据” 实现 —— 就像教小孩学翻译,但小孩是 “死记硬背找规律” 的机器人。原创 2025-07-29 13:02:36 · 830 阅读 · 0 评论 -
12-大语言模型—Transformer 打地基,下游任务盖出百样房,指标来验收|下游任务白话指南
想彻底搞懂 Transformer 如何玩转自然语言处理(NLP)任务?这就把模型原理、实战案例和核心公式揉在一起,用 “大白话 + 数学逻辑” 讲透,让每个知识点都能 “落地”!原创 2025-07-29 08:38:26 · 1194 阅读 · 0 评论 -
11-大语言模型—Transformer 盖楼,BERT 装修,RoBERTa 直接 “拎包入住”|预训练白话指南
"""定义模型配置"""# RoBERTa 模型的配置vocab_size=52_000, #词汇表大小:模型能够处理的唯一词元(tokens)数量 这个值应与之前训练的分词器(Tokenizer)的词汇表大小一致max_position_embeddings=514, #最大位置编码:模型能够处理的最大序列长度(包含特殊标记)num_attention_heads=12,#注意力头数量:多头注意力机制中的并行注意力头数量。原创 2025-07-28 19:42:43 · 1034 阅读 · 0 评论 -
别再死磕理论!十大分类算法:公式讲透 + 场景踩坑指南(附可复用代码)(2)
快速上手:先用逻辑回归 / 朴素贝叶斯做基准,再试随机森林(效果好且稳定)。小样本 / 高维:选 SVM(文本)或朴素贝叶斯(文本)。大数据 / 高精度:XGBoost(结构化数据)或 LightGBM(超大数据)。需解释性:逻辑回归(系数)或决策树(规则),避免神经网络 / XGBoost。实时预测:朴素贝叶斯(快)或 LightGBM(兼顾速度和精度)。每种算法都有其 “擅长领域”,没有 “最好” 只有 “最合适”。理解原理 + 多实战,才能灵活运用十大算法解决实际问题。t=P4F5。原创 2025-07-28 17:00:39 · 769 阅读 · 0 评论 -
别再死磕理论!十大分类算法:公式讲透 + 场景踩坑指南(附可复用代码)(1)
快速上手:先用逻辑回归 / 朴素贝叶斯做基准,再试随机森林(效果好且稳定)。小样本 / 高维:选 SVM(文本)或朴素贝叶斯(文本)。大数据 / 高精度:XGBoost(结构化数据)或 LightGBM(超大数据)。需解释性:逻辑回归(系数)或决策树(规则),避免神经网络 / XGBoost。实时预测:朴素贝叶斯(快)或 LightGBM(兼顾速度和精度)。每种算法都有其 “擅长领域”,没有 “最好” 只有 “最合适”。理解原理 + 多实战,才能灵活运用十大算法解决实际问题。%20bp_ky_i。原创 2025-07-28 14:39:50 · 1024 阅读 · 0 评论 -
10 - 大语言模型 —Transformer 搭骨架,BERT 装 “双筒镜”|解密双向理解的核心
双向理解:突破传统模型 “单向” 局限,真正像人一样结合上下文;迁移能力强:预训练一次,就能通过微调适配几十种语言任务,不用为每个任务从头训练;语义理解深:能处理一词多义、歧义句等复杂语言现象,比如区分 “打酱油” 是 “买酱油” 还是 “凑数”。Matthews 相关系数(Matthews Correlation Coefficient,简称 MCC)1 表示预测完全正确;0 表示预测结果与随机猜测无异;-1 表示预测完全错误。MCC 的优势在于对不平衡数据。原创 2025-07-28 09:30:12 · 1046 阅读 · 0 评论 -
9-大语言模型—Transformer 核心:多头注意力的 10 步拆解与可视化理解
输入嵌入层是模型的第一部分,主要用于将离散的输入数据,如文本数据中的单词或字符,转换为连续的数值向量形式。这样的转换是必要的,因为深度学习模型需要处理数值数据。此外,嵌入向量还能捕捉和编码单词的语义信息,相似的单词在嵌入空间中会有相似的向量表示,并且在某些情况下,还可以是上下文相关的。同时,嵌入向量通常比原始数据的维度低,有助于减少模型参数数量,减轻过拟合风险,提高训练效率。接下来,将假设所有输入都有一个w_query、w_key、和w_value权重矩阵。这3个权重矩阵将应用于此模型中的所有输入。原创 2025-07-27 17:51:05 · 934 阅读 · 0 评论 -
随机森林与 PCA 的协同:高维数据建模的优化路径—实践算法(2)
设原始数据矩阵为样本数为 n,特征数为 d矩阵形式:其中表示第 i 个样本的 d 维特征向量PCA 通过中心化消除量纲→协方差矩阵描述特征关系→特征值分解提取主成分→映射得到低维数据的流程,实现高维数据的高效压缩。原创 2025-07-27 13:35:42 · 937 阅读 · 0 评论 -
基于 LSTM 与 SVM 融合的时间序列预测模型:理论框架与协同机制—实践算法(1)
时间序列预测是金融、气象、交通等领域的核心问题,其本质是。。本文基于 “LSTM+SVM” 混合模型的实现逻辑,从理论层面阐述其设计原理、协同机制及应用价值,揭示混合模型如何突破单一模型的瓶颈。原创 2025-07-27 10:00:10 · 1103 阅读 · 0 评论 -
一文读懂强化学习的六大核心技术:从模仿到多智能体,细节全解析—强化学习基础篇结尾(22)
强化学习就像 “教智能体做决策” 的工具箱,不同问题需要不同工具。下面从最基础的 “模仿人类” 到复杂的 “多智能体协作”,用生活化的例子拆解六大技术方向,包括细分方法、核心区别、优缺点和应用场景,确保每个技术的细节都讲透。原创 2025-07-26 08:29:05 · 1143 阅读 · 0 评论 -
多智能体协作的 “军师与将领” 模式:CTDE 框架下四大经典算法解析—强化学习(21)
不管是 “算价值” 还是 “演员评论家”,CTDE 的聪明之处在于:训练时集中所有信息把策略练精,执行时让每个智能体独立决策。这就像军队训练 —— 演习时指挥官能看到全局,调整战术;实战时,前线士兵只能靠自己和训练成果作战。原创 2025-07-26 08:11:08 · 959 阅读 · 0 评论 -
多智能体强化学习入门:从基础到 IPPO 算法—强化学习(20)
多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)是研究多个智能体在同一环境中交互、协作或竞争,并通过学习优化各自策略的领域。和单智能体强化学习(如 AlphaGo 独自学习围棋)不同,MARL 的核心是智能体之间的相互影响:比如自动驾驶中多辆车的避障(协作)、团队游戏中 5v5 的对抗(竞争 + 协作)、无人机群的协同搜救(纯协作)。举个例子。原创 2025-07-25 16:39:09 · 830 阅读 · 0 评论 -
从 “纸上谈兵” 到 “稳健决策”:离线强化学习的两大核心算法拆解—强化学习(18)
BCQ 和 CQL 从不同角度解决了离线 RL 的 “分布偏移” 和 “过度乐观” 问题:BCQ 靠 “物理隔离” 陌生动作保证安全,适合对稳定性要求极高的场景;CQL 靠 “价值打压” 让策略主动回避陌生动作,更适合动作空间大、数据复杂的场景。原创 2025-07-25 14:10:29 · 778 阅读 · 0 评论 -
目标导向的强化学习:问题定义与 HER 算法详解—强化学习(19)
目标导向的强化学习(Goal-Conditioned Reinforcement Learning)是一类让智能体通过学习策略,从初始状态达到特定目标的任务。与传统强化学习不同,这类任务的核心是 “目标”—— 智能体的行为需围绕 “达成目标” 展开,而目标本身可能随任务变化(如 “机械臂抓取 A 物体”“机械臂抓取 B 物体” 是两个不同目标)。状态(State):环境的观测信息,记为是状态空间)。例如:机械臂的关节角度、物体的坐标。目标(Goal):智能体需要达成的状态,记为。原创 2025-07-25 14:39:46 · 1062 阅读 · 0 评论 -
MBPO 算法:让智能体像人一样 “先模拟后实操”—强化学习(17)
人类学习的高效,在于我们会 “在脑子里模拟后果” 再行动:炒菜前想 “火大了会糊”,走路前看 “台阶高不高”。MBPO 的核心,就是给智能体加上这个 “虚拟思考” 的能力 —— 用模拟器代替 “脑子”,用真实反馈修正 “想法”,最终实现 “少试错、学得快”。原创 2025-07-24 17:53:14 · 747 阅读 · 0 评论 -
PETS 算法工程化价值:从 Pendulum - v1 实验看模型强化学习的收敛效率与鲁棒性根基—强化学习(16)
想象你在下棋时,不会一次性规划完所有步数,而是每次想 3-5 步,选当前最优的一步走,走完后再根据新的棋局重新规划。MPC 就是这样一种 “滚动决策” 的控制思路 ——它不追求全局最优,而是通过 “有限视野内的优化” 实现动态调整。原创 2025-07-24 15:30:27 · 734 阅读 · 0 评论 -
从离散到连续动作:11 种强化学习算法的关联脉络与适用领域(附通俗解读)—强化学习(14)
简单离散场景(如网格迷宫):优先 Q-learning(最基础)或 DYNA-Q(想加速);高维离散场景(如图像类游戏):DQN 及改进版(Double/Dueling DQN);连续动作场景(如机器人控制):优先 PPO(简单稳定)或 SAC(鲁棒性强);高维连续 + 动态环境(如自动驾驶):SAC(探索性强,抗干扰);工程落地:PPO(易实现)和 SAC(稳定性好)是目前最常用的选择。原创 2025-07-24 08:29:17 · 1013 阅读 · 0 评论 -
SAC 算法入门:用 “学开车” 理解强化学习的 “平衡艺术”—强化学习(13)
如果你把强化学习算法想象成一个 “学本事” 的智能体,那就是个既聪明又谨慎的 “优等生”—— 它不仅想把任务做好(比如开车不撞墙),还想多尝试不同方法(比如偶尔换条路走)。这种 “平衡” 正是 SAC 的核心,接下来我们用 “学开车” 的例子一步步拆透它。原创 2025-07-24 08:27:45 · 1015 阅读 · 0 评论 -
一文读懂 DDPG 算法:连续动作控制的 “智能驾驶员“—强化学习(12)
在强化学习领域,连续动作空间的控制问题一直是一个挑战。深度确定性策略梯度(DDPG)算法的出现,为解决这一问题提供了强有力的工具。本文将从核心原理、关键技术、算法流程到实际应用,全面拆解 DDPG 算法,帮助读者深入理解其本质与实现。如果你想让机器人关节平滑转动、无人机稳定悬停,或者让自动驾驶汽车精准控制油门和方向盘,那一定要了解 DDPG 算法。作为强化学习中处理连续动作的 "利器",DDPG 能像人类驾驶员一样,根据环境输出具体的控制量(比如 "方向盘转 30 度"),而不是模糊的概率。原创 2025-07-23 15:36:11 · 1179 阅读 · 0 评论 -
一文读懂 PPO 算法:强化学习中的 “实用派” 明星—强化学习(11)
PPO 的成功,在于它完美平衡了简单性、稳定性和效率用 “截断目标函数” 替代 TRPO 的复杂约束,实现了策略的稳定更新;允许同一批数据多次更新,大幅提高了数据利用率;仅需普通梯度下降即可实现,工程落地门槛极低。理解 PPO 的核心 ——“在保证策略不突变的前提下,用数据高效地更新”,不仅能掌握一个强大的工具,更能体会到强化学习中 “实用主义” 的设计哲学。用最简单的办法,让策略更新既稳又快。它不追求数学上的完美,而是把 “好用” 做到了极致 —— 普通人能实现,效果还顶尖。原创 2025-07-23 14:21:29 · 703 阅读 · 0 评论 -
一文读懂 TRPO 算法:策略目标、近似求解、共轭梯度、线性搜索、广义优势估计—强化学习(10)
训练不稳定:策略参数一变,环境分布剧变,奖励波动大,甚至崩溃。步长难选:步长太大策略直接报废,太小又学不动。TRPO 用“信任区域(限制策略突变) + 共轭梯度(高效找方向) + 线性搜索(合理选步长) + GAE(精准评优势)”,把这些问题全解决了,让强化学习训练更稳定、更高效。简单说:TRPO 就像给强化学习加了个 “稳定器”+“导航仪”,让智能体学策略时,又稳又快~原创 2025-07-23 10:10:45 · 1051 阅读 · 0 评论 -
一文读懂Actor-Critic算法—强化学习(9)
目录1、先懂两个基础:价值法与策略法1.1、 基于价值(Value-based)的方法:学 “好坏”1.2、 基于策略(Policy-based)的方法:学 “概率”2、Actor-Critic:让 “演员” 和 “评论家” 合作2.1、 Actor(演员):负责 “做动作”2.2、 Critic(评论家):负责 “评好坏”3、Actor-Critic 的工作流程:边演边评,持续改进4、关键:用 TD 误差让评价更准确5、核心公式5.1、核心符号先明确5.2、Actor(演员):策略函数与更新公式5.2.1原创 2025-07-23 08:22:15 · 744 阅读 · 0 评论 -
一文详解策略梯度算法(REINFORCE)—强化学习(8)
1.1、基于价值的方法(Value-based Methods):先算 “好处”,再选行动想象你在玩一款闯关游戏,每一步选择(比如往左走、往右走、打怪)都会影响你最终能不能通关、能拿多少分。基于价值的方法会先给每个 “局面” 打分 —— 这个分数代表 “在这个局面下,只要好好玩,最后能得到的好处有多大”。在当前局面下,选那些能让你进入 “更高分局面” 的行动。现在你面前有两条路,左边的路对应的 “未来好处分” 是 80 分,右边是 60 分。那它就会选左边的路。原创 2025-07-22 17:19:17 · 1073 阅读 · 0 评论 -
一文读懂DQN改进算法(Double DQN+Dueling DQN)—强化学习(7)
避免 “过度自信”,通过 “先选后评估” 提高稳定性。原创 2025-07-22 15:43:53 · 928 阅读 · 0 评论 -
一文读懂DQN算法—强化学习(6)
DQN(Deep Q-Network),即深度 Q 网络,是强化学习领域中一个非常经典且具有开创性的算法。它将深度学习和 Q 学习相结合,用于解决状态空间和动作空间较大的问题。在强化学习里,有智能体、环境、状态、动作、奖励这些关键元素。可以把智能体想象成一个游戏玩家,环境就是游戏世界,状态是游戏玩家当前所处的局面,动作是玩家可以采取的操作,奖励则是执行动作后获得的分数或者惩罚。原创 2025-07-22 10:24:11 · 1148 阅读 · 0 评论 -
一文读懂Dyna-Q算法—强化学习(5)
真实交互→更新 Q 值→记到模型里→用模型模拟→再更新 Q 值”,循环重复,直到学会最优策略。原创 2025-07-22 09:08:45 · 698 阅读 · 0 评论 -
一文读懂时序差分算法(Q-learning算法)—强化学习(4)
Q-learning 是 “理想主义者”,只追求最终最优;Sarsa 是 “现实主义者”,会考虑实际执行中的每一步。在需要安全探索的场景(如机器人避障),Sarsa 更合适;在追求最终最大奖励的场景(如游戏得分),Q-learning 更有优势。,核心是通过 “试错” 学习在不同状态下选择最优动作,最终找到能获得最大累积奖励的策略。老鼠不管下一步会不会碰壁,只要知道某个方向 “理论上” 能到奶酪就会尝试。老鼠会先看下一步要走的方向是否安全,再决定当前动作是否值得更新。Q-learning 是一种经典的。原创 2025-07-22 08:42:51 · 590 阅读 · 0 评论 -
一文读懂时序差分算法(Sarsa算法)—强化学习(3)
打个比方:你在迷宫里找出口,每走一步(比如向东),会得到反馈(比如吃到金币或撞到墙),然后你会看下一步打算往哪走(比如接下来向北),再根据 “当前步的反馈 + 下一步的计划”,来修正 “向东这一步到底好不好” 的想法。比如它计划下一步要向上走(a'),就会用 “向上走的预期” 来修正现在的判断,而不是空想 “如果下一步走最好的路会怎样”。最后公式写成: Q(s,a) = Q(s,a) + α × [r + γ × Q(s',a') - Q(s,a)],而且判断的依据和你实际要走的下一步是绑定的。原创 2025-07-22 08:30:58 · 787 阅读 · 0 评论 -
一文读懂动态规划算法(策略迭代+价值迭代+完整代码)—强化学习(2)
在马尔可夫决策过程(MDP)中,动态规划(Dynamic Programming, DP)算法是求解最优策略和最优价值函数的经典方法。其核心思想是利用,通过迭代更新价值函数或策略,最终收敛到最优解。和。原创 2025-07-21 17:24:30 · 736 阅读 · 0 评论 -
一文读懂马尔可夫决策过程—强化学习(1)
就是 “逛超市时,你现在在哪,决定了你下一步可能去哪,并且每到一个地方能攒多少积分,最后算清楚每个地方到底值多少分拆成 4 个你能摸到的东西:状态:超市里的位置,比如 “入口、零食区、生鲜区、收银台(结账走人)”。转移:从当前位置能走到哪。比如 “在零食区,60% 概率去生鲜区,40% 概率回入口”(只和现在在哪有关,和你之前去过玩具区没关系 —— 这就是 “马尔可夫性”)。奖励:到每个位置给的积分。原创 2025-07-21 14:15:10 · 845 阅读 · 0 评论 -
8-大语言模型—指令理解:基于 LoRA 的大语言模型指令微调框架
方法实现难度效果适用场景典型应用增加上下文的微调高优有长文本数据和计算资源专业长文档模型(如 Claude 2)位置编码优化中良模型支持动态位置编码(如 RoPE)LLaMA、ChatGLM 扩展至 100k+插值法低中快速验证或资源有限场景GPT-2 临时扩展至更长序。原创 2025-07-21 09:57:13 · 1040 阅读 · 0 评论 -
7-大语言模型—指令理解:指令微调训练+模型微调
传统微调:给大模型 “全身体检 + 重训”,贵且麻烦;LoRA:只给大模型 “局部小手术”,快又省;AdaLoRA:“智能小手术”,哪里重要修哪里;QLoRA:“压缩后小手术”,普通设备也能做。原创 2025-07-20 16:06:20 · 1064 阅读 · 0 评论