- 博客(601)
- 收藏
- 关注

原创 【人工智能】人工智能的数学基础
人工智能(AI)的学习路线通常分为几个阶段,涉及数学基础、编程技能、机器学习、深度学习以及相关工具的掌握。本文是对数学基础部分的整理和总结,目前不断学习整理更新中.....
2024-11-12 10:43:43
405

原创 【机器学习】机器学习中用到的高等数学知识
机器学习是一个跨学科领域,涉及多种高等数学知识。掌握这些高等数学知识可以帮助理解机器学习算法的工作原理和实现过程。在实际应用中,建议结合编程实践,如使用 Python 中的 NumPy 和 SciPy 库进行线性代数和数值计算,使用 scikit-learn 进行统计分析和机器学习建模。通过理论与实践相结合,能够更深入地理解机器学习的核心概念和应用。
2024-11-07 09:38:28
877

原创 人工智能学习路线
人工智能学习的过程是循序渐进的,先打好数学和编程基础,然后逐步深入机器学习和深度学习,最后通过实际项目和工具框架的使用巩固知识。
2024-10-30 14:08:07
1010
1
原创 【第四章:大模型(LLM)】04.Transfomer: The foundation of LLM-(8)训练与推理
Transformer模型的训练与推理是大语言模型(LLM)构建的核心环节。训练阶段通过token嵌入、位置编码处理输入,采用交叉熵损失和Adam优化器,结合正则化技术和并行训练方法。推理阶段则采用自回归生成方式,包含贪婪解码、束搜索等策略,并运用KV缓存、量化等技术提升效率。两者在数据处理、资源消耗和解码策略上存在差异。实际应用中通过预训练、微调等策略优化模型性能,并采用动态推理技术提升效率。理解这些机制对掌握LLM架构至关重要。
2025-08-08 09:55:35
266
原创 【第四章:大模型(LLM)】04.Transfomer: The foundation of LLM-(7)ResNet 与 Feed Forward:残差结构与前馈网络
本文深入解析了Transformer架构中前馈网络(FFN)和残差连接的核心作用。FFN通过两层全连接网络(如BERT-base采用768→3072→768维度变换)实现非线性特征增强,配合GELU激活函数提升模型表达能力。残差连接采用"x+F(x)"结构,有效缓解梯度消失问题,其与LayerNorm的结合方式(Pre-Norm优于Post-Norm)显著提升了深层模型的训练稳定性。文章对比了ResNet与Transformer在残差应用上的差异,指出Pre-Norm结构已成为现代LLM
2025-08-08 09:38:25
418
原创 【第四章:大模型(LLM)】04.Transfomer: The foundation of LLM-(6)层归一化:不同的归一化机制
本文介绍了Transformer模型中使用的层归一化(LayerNorm)机制。相比批归一化(BatchNorm),LayerNorm独立对每个样本进行特征维度的归一化,更适合处理变长序列数据。文章对比了主流归一化方法,详细解析了LayerNorm的计算原理及其在Transformer架构中的两种应用方式(Pre-Norm和Post-Norm),指出Pre-Norm在现代大语言模型中更常用。通过PyTorch代码示例展示了LayerNorm的实现,并强调其对训练稳定性的重要作用,特别是在深层网络结构中。
2025-08-07 11:16:16
530
原创 【第四章:大模型(LLM)】04.Transfomer: The foundation of LLM-(5)Multihead Attention: 从单头到多头注意力机制
本文介绍了Transformer中的多头注意力机制(Multi-Head Attention)。相比单头注意力,多头机制通过并行计算多个注意力头,分别从不同子空间捕捉信息,增强了模型的表达能力。每个头独立计算后,结果拼接并通过线性变换输出。文章详细阐述了多头注意力的数学原理、优势特点,并提供了PyTorch实现代码,包括线性变换、注意力计算和结果拼接等关键步骤。多头注意力机制能同时关注不同层次的语义信息,是Transformer架构的核心组件,在大模型中发挥重要作用。
2025-08-07 11:00:14
371
原创 【第四章:大模型(LLM)】04.Transfomer: The foundation of LLM-(4)Attention:注意力机制是如何运作的
本文介绍了Transformer模型中的注意力机制(Attention),包括其动机、计算方式和应用。传统RNN/LSTM在长序列处理中存在信息遗失问题,而注意力机制通过可学习权重动态聚焦关键部分。核心是缩放点积注意力(Q、K、V矩阵计算)和多头注意力(并行捕捉多维度信息)。在Transformer中,注意力机制用于编码器(自注意力)和解码器(编码器-解码器注意力),并配合位置编码感知顺序。
2025-08-06 10:41:53
334
原创 【第四章:大模型(LLM)】04.Transfomer: The foundation of LLM-(3)分词:英文分词与中文分词
本节介绍了 分词(Tokenization) 在自然语言处理中的重要性,并重点分析了 英文分词 与 中文分词 的差异。英文单词天然由空格分隔,但仍存在词形变化、缩写等问题,需要进一步处理。而中文没有显式分隔符,需依赖统计、词典或深度学习模型进行切分。
2025-08-06 10:21:13
736
原创 泰国外卖平台 LINE MAN 产品调查报告-全面分析LINE MAN的市场地位、用户特征与运营策略
泰国外卖市场由LINEMAN(44%)和GrabFood(39.4%)主导,LINEMAN用户主要为31-35岁城市白领,月收入500-1000美元,55.5%为办公室职员。作为超级App,LINEMAN提供餐饮配送、便利购物、打车和同城快递服务,2022年收入78亿泰铢(增长88%),但亏损27亿泰铢。用户评价普遍积极(AppStore评分4.8),主要认可其快捷服务和丰富优惠。竞争对手GrabFood服务稳定但费用较高,Foodpanda已退出市场。
2025-08-05 12:21:29
241
原创 【第四章:大模型(LLM)】04.Transfomer: The foundation of LLM-(2)词 Embedding 与 Position Embedding 的原理
本文介绍了Transformer模型中词嵌入(Word Embedding)和位置编码(Position Embedding)的原理与应用。词嵌入通过将词语映射为低维稠密向量,使语义相似的词在向量空间中接近,常用Word2Vec、GloVe等方法训练。位置编码则弥补了自注意力机制缺乏顺序感知的缺陷,包括绝对位置编码(使用正弦/余弦函数)、可学习位置编码(参数矩阵)和相对位置编码(关注词间距离)三种主要实现方式。最终输入是词向量与位置向量的加和,使模型同时理解语义和顺序信息。
2025-08-05 10:32:44
895
原创 【第四章:大模型(LLM)】04.Transfomer: The foundation of LLM-(1)Transfomer整体架构
Transformer架构彻底革新了自然语言处理领域。该模型通过自注意力机制解决了传统RNN/LSTM的并行计算困难、长距离依赖和梯度问题。其核心创新包括多头注意力、位置编码和残差连接,支持完全并行训练。Transformer采用编码器-解码器结构,编码器通过多层自注意力提取特征,解码器结合掩码自注意力和交叉注意力生成输出。这种设计使其成为GPT、ChatGPT等大语言模型的基础,并广泛应用于机器翻译、文本生成、代码补全等多个领域。Transformer的成功奠定了现代大模型发展的技术基础。
2025-08-04 10:45:01
1114
原创 【第四章:大模型(LLM)】03.Attention is all you need-(3)Attention机制的本质理解与实际应用
注意力机制(Attention)是深度学习处理序列数据的重要方法,其核心是通过动态权重分配选择关键信息,解决传统RNN/LSTM的长距离依赖问题。主要类型包括Bahdanau、Luong和自注意力(Self-Attention)等,广泛应用于机器翻译、文本摘要、图像描述和推荐系统等领域。Transformer模型采用多头注意力(MHA)机制,推动了GPT、BERT等大语言模型的发展。一个简单的PyTorch实现展示了注意力权重计算和上下文向量生成过程。注意力机制通过加权聚合有效提升了模型的信息处理能力
2025-08-04 10:15:37
617
原创 【第四章:大模型(LLM)】03.Attention is all you need-(2)Encoder-Decoder 中的attention机制与原理详解
本文详解了Encoder-Decoder框架中的Attention机制原理与应用。传统Seq2Seq模型仅使用编码器最后一个隐藏状态,存在信息压缩问题。Attention机制通过计算解码器状态与编码器各隐藏状态的相关性,形成注意力分布并生成上下文向量,显著改善了模型性能。文章介绍了Dot Product、General和Additive三种score函数,以及Bahdanau和Luong两种典型Attention形式,并展示了注意力权重矩阵在机器翻译任务中的可视化效果。该机制在翻译、语音识别等任务中表现出色
2025-08-01 13:55:01
482
原创 【第四章:大模型(LLM)】03.Attention is all you need-(1)Why do we need attention? Seq2Seq中的Attention
Attention机制有效解决了传统Seq2Seq模型的三大痛点:固定长度瓶颈、梯度消失和信息利用不足。其核心是通过动态加权编码器所有隐状态,使解码器能选择性关注输入序列的关键部分。Bahdanau提出的Additive Attention使用前馈网络计算相关性得分,显著提升了机器翻译等任务中长序列的处理能力。该机制不仅提高了模型性能,还增强了可解释性,为Transformer架构奠定了基础。
2025-08-01 13:43:01
482
原创 【第四章:大模型(LLM)】02.神经网络中的 NLP-(3)文本情感分类实战
本文介绍了文本情感分类的完整实现流程,包括数据准备、模型选择和PyTorch实战应用。重点讲解了传统方法(TF-IDF+分类器)、深度学习方法(RNN/CNN)和预训练模型(BERT)三种技术路线的优缺点。通过LSTM模型示例展示了从数据预处理到模型训练的全过程,并指出使用BERT等大模型可显著提升分类效果。该技术可广泛应用于社交媒体分析、产品评论等领域,结合预训练语言模型微调能获得最优性能。
2025-07-29 10:46:44
598
原创 《纳瓦尔宝典》知识卡片
《纳瓦尔宝典》汇集科技投资人纳瓦尔的财富与幸福智慧。核心观点:财富源于股权和被动收入,而非单纯出卖时间;幸福是内在选择,需培养平和心态;人生复利来自持续学习与独特价值创造。书中强调杠杆效应、自我认知和理性决策的重要性,为现代人提供实用的人生跃迁指南。
2025-07-29 10:17:10
207
原创 颠覆原型设计!Figma Make 实测:AI 真的能帮你写完前端吗?
FigmaMake是Figma推出的AI工具,可将自然语言或设计稿转换为可交互原型或网页,支持通过聊天界面修改。基于Claude3.7模型,能生成代码并允许逐元素编辑。主要功能包括对话式UI生成、设计稿转代码、元素级迭代和原型测试,但视觉质量不稳定,复杂交互支持有限。适合快速原型验证和团队协作,未来或优化代码质量并扩展集成能力。目前虽不完善,但展现了设计开发融合的潜力,建议搭配设计系统使用。
2025-07-28 11:17:18
2247
原创 【第四章:大模型(LLM)】02.神经网络中的 NLP-(2)Seq2Seq 原理及代码解析
本文介绍了Seq2Seq(序列到序列)模型的基本原理及其在自然语言处理中的应用。Seq2Seq模型由编码器和解码器组成,通过编码器将输入序列转换为上下文向量,再由解码器生成目标序列。文章详细阐述了模型架构、数学公式及训练流程,并针对传统模型的不足引入了注意力机制。通过PyTorch代码示例演示了编码器、解码器和完整Seq2Seq模型的实现方法。该模型在机器翻译、文本摘要、对话系统和语音识别等领域有广泛应用。
2025-07-28 10:39:48
533
原创 LSTM 长短期记忆网络:从原理到实战,一文读懂深度学习中的“记忆大师”
LSTM(长短期记忆网络)是一种改进的循环神经网络,专门解决传统RNN处理长序列时出现的梯度消失和梯度爆炸问题。其核心在于记忆单元和三个门控机制(遗忘门、输入门、输出门),通过选择性记忆和更新信息来保持长期依赖关系。LSTM广泛应用于时间序列预测、自然语言处理等领域,相比普通RNN具有更好的稳定性和表现力。主要变体包括GRU等简化版本。实现时可以使用Keras或PyTorch框架,通过调整参数和正则化来优化模型性能。
2025-07-28 10:10:47
602
原创 【第四章:大模型(LLM)】02.神经网络中的 NLP-(1)RNN、LSTM 和 GRU 的基本原理和应用
本文介绍了循环神经网络(RNN)及其改进模型LSTM和GRU在自然语言处理中的应用。传统前馈神经网络难以处理序列数据的上下文依赖,RNN通过引入隐藏状态解决了这一问题。针对RNN存在的梯度消失/爆炸问题,LSTM通过门控机制(遗忘门、输入门、输出门)有效控制信息流,GRU则进一步简化结构为两个门(更新门和重置门)。这些模型在语言建模、文本分类、机器翻译等任务中表现优异,为现代NLP奠定了基础。尽管Transformer已成为主流,LSTM和GRU在小型模型和特定场景中仍具重要价值。
2025-07-25 13:33:36
479
原创 【第四章:大模型(LLM)】01.Embedding is all you need-(6)从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)
摘要:本文探讨了Embedding技术在AI发展中的核心作用。从Word2Vec的词向量表示开始,Embedding实现了从离散符号到连续向量的转变,构建了语义空间基础。随后在推荐系统(如淘宝的item2vec)和广告系统(如Wide&Deep模型)中得到广泛应用,解决了高维稀疏特征的处理问题。随着技术演进,Transformer模型(BERT/GPT)实现了动态上下文相关的Embedding表示。最终,Embedding成为连接词向量、推荐系统和大语言模型的统一语义基础,支撑了现代AI的理解、推理
2025-07-25 11:18:09
658
原创 【第四章:大模型(LLM)】01.Embedding is all you need-(5)Word2vec代码实现及应用
本文介绍了Word2vec词向量模型的原理与实现。Word2vec通过CBOW或Skip-Gram架构将词语转换为向量,使语义相近的词在向量空间中距离更近。文章以Skip-Gram为例,详细展示了使用PyTorch实现Word2vec的完整流程,包括数据预处理、模型构建、训练过程和词向量可视化。通过PCA降维将词向量投影到二维空间,直观展示词语间的语义关系。最后介绍了词向量在相似词推荐、情感分析等NLP任务中的应用,并提供了余弦相似度计算示例。
2025-07-15 10:15:56
486
原创 【第四章:大模型(LLM)】01.Embedding is all you need-(4)Word2Vec之 CBOW 与 Skip-Gram
Word2Vec是自然语言处理中重要的词嵌入技术,包含两种模型架构:CBOW通过上下文预测中心词,训练速度快,适合处理高频词;Skip-Gram通过中心词预测上下文,能更好学习罕见词表示但训练较慢。二者都需要设置上下文窗口,核心思想是将语义相似的词映射到邻近向量空间。实际应用中可采用负采样和层次Softmax优化计算效率。建议使用gensim等工具实现,调整窗口大小、向量维度等参数提升效果,中文需先进行分词处理。
2025-07-15 09:56:19
822
原创 【第四章:大模型(LLM)】01.Embedding is all you need-(3)该如何做Embedding?Onehot to word2vec
本文介绍了从One-hot编码到Word2Vec的词嵌入方法演变。指出One-hot编码存在高维稀疏、无法表达语义关系等缺陷。重点讲解Word2Vec的两种模型结构(CBOW和Skip-Gram)及训练方法,包括负采样等技术优化。Word2Vec通过低维稠密向量捕捉词语语义,支持"向量算术"等特性。最后对比了两种编码方式的优缺点,为后续更先进的嵌入方法(如GloVe、Transformer)奠定基础。
2025-07-09 09:30:00
570
原创 【第四章:大模型(LLM)】01.Embedding is all you need-(2)如何直觉理解Embedding
Embedding是将非结构化数据(如文本、图像)转换为低维稠密向量的技术,类似于将概念映射为数字坐标。通过距离和方向表达语义关系,解决了传统编码无法表示相似性的问题。常见应用包括Word2Vec、BERT等,通过神经网络学习实现,可用于分类、聚类等任务。可视化显示相似概念在向量空间中聚集,方向反映语义关联。作为大模型的基础,Embedding是理解复杂信息的关键第一步。
2025-07-08 10:41:07
495
原创 【第四章:大模型(LLM)】01.Embedding is all you need-(1)Why embedding is all you need?
大模型的核心基石:Embedding技术解析 摘要:Embedding(嵌入表示)是现代大模型处理离散数据的核心技术,它将文本、图像等转化为连续的向量表示。作为连接原始数据与神经网络的桥梁,Embedding不仅能捕捉语义关系和上下文信息,还具有强大的通用性和迁移能力。在Transformer架构中,注意力机制等核心操作都在Embedding空间完成。研究表明,构建高质量的表示空间可以简化模型结构,使许多任务仅需在向量空间进行简单计算即可完成。该技术已广泛应用于NLP、CV、推荐系统等多领域。
2025-07-08 10:28:35
574
原创 模型微调(Fine-tuning)详解
模型微调(Fine-tuning)是迁移学习的重要技术,通过在预训练模型(如BERT、ResNet)基础上针对特定任务进行二次训练,显著降低训练成本。核心流程包括:选择预训练模型、调整输出层、冻结参数(可选)、设置优化器。微调策略分为冻结特征层、部分微调或全参数调整,关键技巧包括小学习率、正则化和数据增强。PyTorch示例展示了ResNet的微调方法。轻量化微调技术(如LoRA、Adapter)进一步降低大模型微调成本。该技术广泛应用于图像分类、NLP等领域,是实现高效AI迁移的核心手段。
2025-07-07 09:34:51
1235
原创 【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(6)Pytorch进阶训练(自定义loss、模型微调、数据增强)
本文介绍了PyTorch进阶训练的三大关键技术:1)自定义Loss函数,通过继承nn.Module实现特定任务的损失计算;2)模型微调方法,包括冻结预训练模型参数和替换输出层;3)数据增强技术,使用torchvision.transforms进行图像变换以提升模型泛化能力。文中提供了代码示例,并对比了三种技术的作用场景,如加权MSE损失、ResNet迁移学习和随机旋转/翻转等数据增强方式。这些方法能有效优化模型性能,是深度学习实践中的重要技能。
2025-07-07 09:17:56
602
原创 【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(5)PyTorch 实战——使用 RNN 进行人名分类
本文介绍了使用PyTorch实现RNN进行人名分类任务的完整流程。首先通过Unicode标准化处理原始数据,构建字符级one-hot输入张量。然后实现了一个单层RNN模型,包含输入层、隐藏层和LogSoftmax输出层。训练过程采用负对数似然损失和手动梯度下降。最后展示了预测函数的使用方法,并建议扩展为LSTM/GRU模型,使用优化器以及可视化训练过程。该案例完整呈现了字符级序列分类任务的实现要点。
2025-07-06 09:45:00
516
原创 【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战
本文介绍了PyTorch中神经网络模型的构建与修改方法。主要内容包括:1)通过继承nn.Module类构建复杂网络结构,示例演示了CNN的实现;2)模型动态修改技巧,如替换现有层或添加新层;3)模型保存与加载的两种方式,推荐使用state_dict保存权重参数;4)完整训练流程回顾。重点强调了自定义网络结构、灵活修改模型层以及正确的模型保存/加载方法,为深度学习实践提供了基础框架。
2025-07-06 09:30:00
282
原创 【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(3)Pytorch实战
本文详解了PyTorch框架下ResNet残差网络的实现原理与应用。首先介绍了ResNet通过残差连接解决深层网络梯度消失问题的核心思想。随后解析了ResNet18的关键代码模块,包括BasicBlock结构、_make_layer方法和网络初始化过程。并以FashionMNIST数据集为例,完整演示了数据预处理、模型训练和评估的全流程。通过调整输入尺寸、定义损失函数和优化器,实现了图像分类任务,最终在测试集上评估模型准确率。该案例展示了PyTorch构建深度神经网络的标准流程和ResNet的核心优势。
2025-07-05 09:45:00
252
原创 【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(2)Pytorch主要组成模块
PyTorch作为主流深度学习框架,提供四大核心模块支持神经网络开发。数据读取模块(torch.utils.data)通过Dataset类实现自定义数据源,DataLoader进行批量加载;模型构建模块(torch.nn)采用继承nn.Module的方式定义网络结构;损失函数模块(torch.nn)提供MSELoss、CrossEntropyLoss等常见损失计算;优化器模块(torch.optim)包含SGD、Adam等参数优化算法。
2025-07-05 09:30:00
268
原创 【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(1)Pytorch安装与基础知识
PyTorch是由Meta开发的开源深度学习框架,以其动态计算图和易用性著称。本文介绍了PyTorch的两种安装方式(pip和conda),并提供了CUDA版本指定方法。同时讲解了基础概念如张量操作、自动求导机制和GPU加速使用,演示了创建张量、运算和梯度计算示例。文章还预览了torch.nn等核心模块,为后续神经网络构建打下基础,最后通过代码验证了安装成功性。这些内容为深度学习实践提供了必要的工具准备。
2025-07-04 09:45:55
371
原创 【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(4)神经网络中的重要组件
本文详细介绍了神经网络中的关键组件及其作用,包括激活函数(Sigmoid、Tanh、ReLU等)、损失函数(MSE、交叉熵等)、Dropout正则化技术,以及梯度消失/爆炸问题与过拟合/欠拟合现象的成因与解决方案。这些组件共同决定了神经网络的性能和稳定性,合理选择与优化这些组件是构建高效神经网络模型的基础。文章还提供了各类组件的数学公式、特点分析和常见优化策略,如使用ReLU激活函数缓解梯度消失、采用Dropout防止过拟合等,为神经网络的设计与调优提供了实用指导。
2025-07-04 09:36:14
1152
原创 MySQL 中两个请求同时操作相同的表或记录时,发生一个处理失败或超时的问题的原因分析和解决办法
MySQL并发操作锁冲突问题分析及解决方案:常见问题包括事务锁冲突、死锁和显式表锁,导致请求失败或超时。解决方案建议:1)缩短锁定时间,及时提交事务;2)调整innodb_lock_wait_timeout参数;3)捕获并重试事务失败;4)保持一致的访问顺序避免死锁;5)使用行级锁替代表锁;6)分析死锁日志。通过这些措施可以有效减少并发操作时的锁冲突问题。
2025-07-03 16:13:11
285
原创 【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(3)神经网络中的前向传播、反向传播的原理与实现
本文详细讲解了神经网络中的前向传播和反向传播原理。前向传播将输入数据逐层计算得到预测值,并通过损失函数衡量预测误差。反向传播利用链式法则从输出层到输入层逐层计算梯度,最终通过梯度下降法更新网络权重参数。文中还给出了PyTorch实现示例,展示了神经网络训练的基本流程:前向计算、损失计算、反向传播和参数更新。这些内容为理解自动微分和深度学习框架的实现奠定了基础。
2025-07-03 15:44:30
696
原创 【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(2)神经网络整体结构
本文详细介绍了神经网络的基本原理与结构。首先讲解单层感知机模型及其线性分类能力,进而扩展到多层感知机(MLP)前馈神经网络结构,包括输入层、隐藏层和输出层的组成。重点阐述了激活函数(如ReLU、Sigmoid、Tanh)的非线性作用,以及神经网络的前向传播和反向传播机制。最后展示了使用PyTorch框架构建简单MLP网络的代码示例,通过nn.Sequential模块可快速实现包含线性层和激活函数的神经网络结构。
2025-07-03 15:29:47
1319
原创 【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(1)神经网络预备知识(线性代数、微积分、概率等)
本文系统介绍了神经网络所需的三大数学基础:线性代数、微积分和概率统计。线性代数支撑神经网络的矩阵运算,微积分实现反向传播和参数优化,概率统计则用于建模不确定性。文章详细解析了向量运算、常见函数导数、链式法则以及概率分布等核心概念,并阐明了其在神经网络各环节的应用。掌握这些数学知识是理解和构建神经网络模型的基础前提,为后续深度学习实践奠定理论基础。
2025-07-02 11:42:13
901
原创 【第二章:机器学习与神经网络概述】04.回归算法理论与实践 -(4)模型评价与调整(Model Evaluation & Tuning)
本文介绍了机器学习回归任务中的模型评价与调整方法。主要内容包括:1)常用回归性能指标如MSE、MAE、R²的计算原理与应用场景;2)交叉验证方法(K折和留一法)的实现与作用;3)三种模型调参技术(手动调参、网格搜索和随机搜索)的Python实现示例。文章通过具体代码演示了指标计算和参数优化过程,强调应根据任务特点选择合适的评价指标和调参方法。最后总结指出,综合运用这些技术可以有效评估模型性能并优化超参数选择。
2025-07-02 10:41:53
966
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人