自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(487)
  • 收藏
  • 关注

原创 【人工智能】人工智能的数学基础

人工智能(AI)的学习路线通常分为几个阶段,涉及数学基础、编程技能、机器学习、深度学习以及相关工具的掌握。本文是对数学基础部分的整理和总结,目前不断学习整理更新中.....

2024-11-12 10:43:43 358

原创 【机器学习】机器学习中用到的高等数学知识

机器学习是一个跨学科领域,涉及多种高等数学知识。掌握这些高等数学知识可以帮助理解机器学习算法的工作原理和实现过程。在实际应用中,建议结合编程实践,如使用 Python 中的 NumPy 和 SciPy 库进行线性代数和数值计算,使用 scikit-learn 进行统计分析和机器学习建模。通过理论与实践相结合,能够更深入地理解机器学习的核心概念和应用。

2024-11-07 09:38:28 790

原创 人工智能学习路线

人工智能学习的过程是循序渐进的,先打好数学和编程基础,然后逐步深入机器学习和深度学习,最后通过实际项目和工具框架的使用巩固知识。

2024-10-30 14:08:07 835 1

原创 【漫话机器学习系列】247.当 N=整个母体(WHEN N=POPULATION)

这听起来似乎是个合理的质疑。毕竟,如果数据已经完整,直观上我们似乎可以直接进行确定性的分析,何需再依赖概率与推断?但实际上,答案并不如此简单。本文将详细解释这个问题的本质,并帮助大家深入理解。

2025-05-08 12:18:16 590

原创 【漫话机器学习系列】246.何时有缺失值的样本才可删除?(When Can We Delete Observations With Missing Values )

判断缺失机制:是随机的,还是有模式的?评估缺失对整体数据的影响:是否会引入偏差?谨慎处理:不要一刀切地删除所有缺失样本,应根据具体情况决定删除、填充或建模。“如果缺失是随机的或者可以在其他特征中体现,那么可以删除;否则,缺失本身是信息的一部分,删除可能带来偏差。

2025-05-08 12:15:12 359

原创 【漫话机器学习系列】245.权重衰减(Weight Decay)

权重衰减,又叫作L2正则化,本质上是在原始损失函数(Loss)中,添加一项关于模型参数(权重)大小的惩罚项。简单来说,除了最小化预测误差之外,还希望模型的参数(即权重)本身不要太大。这样做的目的,是避免模型过度依赖某些特征,提升模型的稳定性和泛化能力。项目内容定义在损失函数中增加权重平方惩罚项目的防止过拟合,提高泛化能力数学表达式常见应用深度学习模型训练、岭回归权重衰减是一个简单但非常有效的正则化方法,尤其适合用来改善深度学习模型的训练效果。

2025-05-07 10:23:39 894

原创 【漫话机器学习系列】244.弱学习器(Weak Learners)

弱学习器,英文为,指的是性能略优于随机猜测的学习模型。也就是说,它的预测准确率只需要比随机分类器稍好一点就可以了,不要求很高。例如,对于一个二分类问题,随机猜测的准确率是 50%。只要一个模型能达到50%以上的准确率(比如 51%、55%),它就可以被称为弱学习器。在集成学习中,尤其是在Boosting算法(如 AdaBoost、Gradient Boosting、XGBoost)中,弱学习器通过反复迭代、加权组合,可以被提升成一个强大的整体模型(Strong Learner)。关键点内容。

2025-05-07 10:22:58 1425

原创 【漫话机器学习系列】243.数值下溢(Underflow)

在计算机中,数值都是以有限位数进行存储和计算的。当某个数字太小,小到计算机无法用浮点格式精确表示时,就会出现数值下溢(Underflow)。通常,计算机处理下溢的方法是直接将这些无法表示的小数值四舍五入到0。虽然看起来合理,但这种处理方式会引发严重的问题,因为0与极小数在数学特性上存在巨大差异。如图所示:数值太小 → 无法表示 → 被置为0极小的非零数 ≠ 0,它仍然可以影响后续计算!数值下溢(Underflow)是计算机科学中重要而微妙的问题,特别是在现代机器学习、科学计算等领域。

2025-05-06 10:08:55 574

原创 【漫话机器学习系列】242.欠拟合(Underfitting)

在机器学习中,当模型无法充分捕捉训练数据中的潜在模式时,就会发生欠拟合(Underfitting)现象。简单来说,欠拟合的模型在训练集上的表现就已经很差,自然无法在测试集上有好的效果。如上图所示,一条红色的直线勉强穿过了稀疏的样本点,但显然未能合理拟合数据的实际分布。这就是典型的欠拟合模型。关键词高偏差(High Bias)低复杂度学习不足欠拟合(Underfitting)是深度学习和机器学习训练中常见的挑战之一。

2025-05-06 09:50:36 634

原创 【漫话机器学习系列】241.典型丢弃概率(Typical Dropout Probabilities)

Dropout是深度学习中防止过拟合的经典手段之一。不同层次的神经元应采用不同的Dropout概率设置:输入层建议Dropout率为20%。隐藏层建议Dropout率为50%。实际应用时,应结合模型规模、数据量和具体任务灵活调整。希望本文能帮助你在构建神经网络时,合理使用Dropout,提高模型的鲁棒性和泛化能力!

2025-05-05 09:34:57 767

原创 【漫话机器学习系列】240.真正类率(True Positive Rate,TPR)

在机器学习与深度学习模型评估中,"真正类率"(True Positive Rate,简称TPR)是一个非常重要的指标。TPR反映了分类器对正样本识别能力的强弱,也常常被称为召回率(Recall)或灵敏度(Sensitivity)。

2025-05-05 09:28:00 788

原创 【漫话机器学习系列】239.训练错误率(Training Error Rate)

在机器学习模型训练过程中,评估模型性能是至关重要的一个环节。其中,训练错误率(Training Error Rate) 是最基础也最重要的性能指标之一。

2025-05-04 09:38:24 903

原创 【漫话机器学习系列】238.训练误差与测试误差(Training Error And Test Error)

在机器学习的学习和实践过程中,我们经常会遇到两个重要的概念:训练误差(Training Error)和测试误差(Test Error)。理解这两个误差的区别和联系,是掌握模型性能评估、调优的基础。本文将从定义、意义、差异和常见误区等方面,系统地讲解训练误差与测试误差。

2025-05-04 09:19:12 573

原创 【漫话机器学习系列】237. TSS总平方和

在机器学习与统计建模领域,评价模型好坏的重要指标之一就是方差与误差分析。其中,TSS(Total Sum of Squares,总平方和)扮演着非常关键的角色。今天我们就来深入剖析 TSS,从公式理解到实际应用,一步步搞懂它!

2025-05-03 08:38:15 982

原创 【漫话机器学习系列】236.邻域链接(Tomek Link)

在处理机器学习中的分类问题时,我们经常会遇到数据不平衡或噪声数据过多的问题。尤其是在过采样(如SMOTE)或欠采样之前,如何对数据进行合理清洗,是影响模型性能的关键因素之一。

2025-05-03 08:28:42 1208

原创 【漫话机器学习系列】235.切分文本(Tokenize Text)

单词(word)子词(subword)字符(character)句子(sentence)段落(paragraph)“我”, “喜欢”, “小鸟”这就是一种基于“词”的切分方式。

2025-05-01 09:19:20 1679

原创 【漫话机器学习系列】234.阈值类特征的方差分析(Thresholding Categorical Feature Variance)

类别特征的方差越大,说明其携带的信息越丰富。这与我们在统计学中的认知是一致的:方差越大,代表数据分布越分散、不集中,信息熵更高;相反,如果某个变量几乎都集中在一个取值上,它几乎对模型没有什么帮助。

2025-05-01 08:55:14 778

原创 【漫话机器学习系列】233.激活阈(Threshold Activation)

在深度学习(Deep Learning)中,激活函数(Activation Function)决定了神经网络每个神经元的输出形式。没有激活函数,神经网络就只是一堆线性叠加,无法拟合复杂的非线性关系。而在众多激活函数中,阈值激活函数(Threshold Activation Function)是最早被提出的一种,它简单粗暴,却也奠定了后续复杂模型的基础。今天,让我们从这幅生动的手绘图出发,深度理解阈值激活的本质。虽然阈值激活函数简单、粗糙,但它是神经网络发展的起点。

2025-04-30 11:47:26 917

原创 【漫话机器学习系列】232.所以/因为的表示符号(Therefore And Because Notation)

在数学推理、逻辑推导、证明过程中,我们经常会遇到各种符号。其中,“所以”(∴)与“因为”(∵)这两个符号虽然简单,却在逻辑表达中起着重要作用。尤其是在手写证明、课堂笔记、学术交流中,它们被广泛使用,能够极大地提高表达的简洁性和清晰度。今天,我们就结合一张简洁可爱的图,详细讲讲它们的由来、写法和应用场景。虽然 ∴ 和 ∵ 是非常小巧的符号,但背后蕴含着数学推理的基本精神 ——因果分明,推理严谨。它们以最简洁的方式,体现了逻辑思维的力量。

2025-04-30 11:47:13 705

原创 【漫话机器学习系列】231.随机森林中的随机性(The Random In Random Forest)

在机器学习中,随机森林作为一种强大且灵活的集成学习方法,常被应用于分类、回归、特征选择等任务。随机森林的优秀表现,很大程度上源自于其中引入的随机性。那么,这种“随机”到底体现在哪里?又是如何提升模型性能的呢?对数据的随机性(Bagging,有放回抽样)对特征的随机性(每次分裂时随机选择特征)正是这双重随机策略,让随机森林在众多机器学习任务中表现出色,成为工业界和学术界广泛应用的重要算法。

2025-04-29 09:42:21 924

原创 【漫话机器学习系列】230.模型复杂度对训练和测试误差的影响(The Effect Of Model Complexity Training And Test Error)

在实际建模过程中,我们需要在欠拟合和过拟合之间找到平衡,选出合适的模型复杂度。常见的方法包括:使用交叉验证选择最佳模型。采用学习曲线观察误差随训练样本数变化的趋势。添加正则化项控制模型自由度。通过早停法(Early Stopping)在训练过程中动态监控验证集误差。找到最佳复杂度点,才能训练出既能在训练集上表现良好,又能在未见数据上有强大泛化能力的模型。这张小小的图,其实涵盖了机器学习中模型选择最本质的智慧。如果你能真正理解这幅图,那么你在建模、调参的道路上,已经走在了正确的方向上。

2025-04-29 09:42:00 821

原创 【漫话机器学习系列】229.特征缩放对梯度下降的影响(The Effect Of Feature Scaling Gradient Descent)

在机器学习和深度学习中,梯度下降是最常用的优化算法之一。然而,很多人在训练模型时会遇到收敛速度慢、训练不稳定的问题,其中一个重要原因就是特征未进行适当的缩放。

2025-04-28 10:52:35 837

原创 【漫话机器学习系列】228.丢弃对于隐含单元的影响(The Effect Of Dropout On Hidden Units)

在深度学习中,Dropout(随机失活)是一种非常常见且有效的正则化技术,广泛应用于防止神经网络的过拟合。今天,我们结合一张来自 Chris Albon 的图,来详细解读一下 Dropout 对神经网络中隐藏单元(hidden units)的具体影响。

2025-04-28 10:46:49 977

原创 【漫话机器学习系列】227.信息检索与数据挖掘中的常用加权技术(TF-IDF)

在自然语言处理(NLP)、信息检索(IR)和数据挖掘(DM)领域中,TF-IDF 是一种非常经典且常用的加权技术。无论是搜索引擎排序、文本挖掘,还是特征工程,TF-IDF都扮演着重要角色。

2025-04-27 09:38:06 801

原创 【漫话机器学习系列】226.测试集、训练集、验证集(test,training,validation sets)

在机器学习或深度学习中,合理划分和使用训练集、验证集与测试集,是保证模型开发科学性和最终效果的基石。尤其在大模型训练和工业应用中,一个细小的划分失误,就可能导致模型上线后性能大幅下降。

2025-04-27 09:32:47 809

原创 【漫话机器学习系列】225.张量(Tensors)

在机器学习和深度学习领域,无论是使用 TensorFlow、PyTorch 还是其他框架,我们都会频繁遇到一个术语:张量(Tensor)。但很多初学者对张量的理解只停留在“好像是数组?”的阶段。实际上,张量既简单又强大,它是支撑现代深度学习系统的基础。

2025-04-26 09:29:57 771

原创 【漫话机器学习系列】224.双曲正切激活函数(Hyperbolic Tangent Activation Function)

在构建神经网络时,激活函数是非常关键的一环。本文将带大家深入了解一种常见但常被忽视的激活函数:双曲正切函数(Hyperbolic Tangent Function,简称 tanh)。通过图解和数学表达,我们来剖析它的性质及在实际中的应用。

2025-04-26 09:16:44 457

原创 【漫话机器学习系列】223. T 统计量(t-statistics)

在统计学与机器学习的建模过程中,我们常常会遇到一个非常关键的统计量——T 统计量(t-statistics)。它是进行假设检验的基础之一,尤其在检验某个参数是否显著时扮演着核心角色。T 统计量是用来对一个参数是否与某个理论值(通常是 0)显著不同进行检验的一种统计量。简而言之,它衡量的是“我们估计出来的参数和理论值之间的偏离,是否足够大到可以认为这个参数是显著的”。

2025-04-25 10:55:07 619

原创 【漫话机器学习系列】222.SVM 的径向基函数核(SVC Radioal Basis Function Kernel)

本文通过一张经典的手绘图(来自 Chris Albon)来深入讲解支持向量机(SVM)中的非线性核方法之一——径向基函数核(RBF Kernel)。如果你曾疑惑“核函数到底在做什么?”“它真的能解决非线性问题吗?”,那么本文会给你一个直观、形象的答案!

2025-04-25 10:54:44 894

原创 【漫话机器学习系列】220.支持向量机的软间隔分类(Soft-Margin SVM Classification)

支持向量机(SVM)是一种经典的监督学习方法,特别适用于小样本、高维度的数据分类任务。相比于硬间隔 SVM,软间隔 SVM(Soft-Margin SVM)更适合处理现实中常见的、不可完全线性可分的数据。本篇文章将结合一张手绘图,深入浅出地讲解软间隔 SVM 的目标函数、核心变量及其含义。

2025-04-24 09:13:43 625

原创 【漫话机器学习系列】221.支持向量(Support Vectors)

SVM 并不是一个“黑盒模型”,其决策边界是完全由少数的支持向量决定的。理解支持向量的概念,有助于我们深入理解 SVM 的学习机制、优化方式,以及它在实际工程中的表现。在模型调优时,比如使用 soft-margin SVM 或核 SVM,支持向量的变化也能直观反映模型的复杂度与过拟合程度。

2025-04-24 09:13:11 998

原创 【漫话机器学习系列】219.支持向量机分类器(Support Vector Classifier)

在机器学习的分类模型中,支持向量机(Support Vector Machine,SVM)是一种功能强大且广泛应用的监督学习算法。它尤其擅长解决小样本、高维度的数据问题,并且对结果具有较好的泛化能力。本文将结合一张手绘图,通俗而深入地讲解 SVM 中的核心概念 —— 支持向量分类器(Support Vector Classifier)。

2025-04-23 12:16:18 918

原创 【漫话机器学习系列】218.监督学习 vs 非监督学习(Supervised VS Unsupervised)

在机器学习领域,“监督学习(Supervised Learning)”和“非监督学习(Unsupervised Learning)”是最基础、也是最常用的两大类方法。很多初学者刚接触这些概念时容易混淆,本篇将结合图像内容,用简单通俗的语言,帮助你快速建立起直觉理解。

2025-04-23 12:12:05 864

原创 【漫话机器学习系列】217.监督式深度学习的核心法则(Supervised Deep Learning Rule Of Thumb)

在进行深度学习项目时,我们常常面临一个核心问题:我到底需要多少训练数据?这是许多初学者甚至资深工程师都会困惑的问题。图中给出了一个非常实用的“监督式深度学习样本数量经验法则”,可以作为我们评估数据需求时的参考依据。

2025-04-22 12:27:19 1674

原创 【漫话机器学习系列】215.处理高度不平衡数据策略(Strategies For Highly Imbalanced Classes)

在机器学习与数据挖掘任务中,“类别不平衡”问题几乎无处不在。无论是信用卡欺诈检测、医疗异常诊断,还是网络攻击识别,正负样本的比例往往严重失衡。比如一个欺诈检测数据集中,可能只有不到 1% 的交易是欺诈行为。

2025-04-22 12:21:18 953

原创 【漫话机器学习系列】216.应对高方差(过拟合)的策略详解(Strategies When You Have High Variance)

在机器学习的建模过程中,我们常常会面对一种令人头疼的问题——过拟合(Overfitting)。过拟合的本质是模型对训练数据“记得太多”,导致在新数据上表现不佳,也就是所谓的高方差问题(High Variance)。那么,如何有效应对这一问题呢?本文将基于 Chris Albon 总结的思维导图,深入探讨几种常见且有效的技术手段。

2025-04-21 12:01:58 687

原创 【漫话机器学习系列】214.停用词(Stop Words)

在处理自然语言数据时,我们常常会遇到一个看似简单却至关重要的步骤——移除停用词(Stop Words)。本文将深入探讨停用词的概念、为什么要移除它们、常见的停用词有哪些,以及它们在自然语言处理(NLP)中的应用。

2025-04-21 11:50:27 780

原创 【漫话机器学习系列】213.随机梯度下降(SGD)

在现代机器学习训练中,梯度下降(Gradient Descent)是优化模型参数最核心的算法之一,而其中的“随机梯度下降(SGD)”则是高效处理大规模数据的关键技术。本文通过一张直观手绘图,拆解随机梯度下降背后的数学逻辑、更新机制和执行流程,帮助你用最清晰的方式理解这个看似简单却至关重要的优化策略。

2025-04-20 09:08:20 780

原创 【漫话机器学习系列】212.词干(Stemming Words)

在自然语言处理(NLP)中,我们经常遇到一个任务:如何将形态各异的单词转化为“标准形式”以便分析?**词干提取(Stemming)**就是实现这一目标的一种基础技术手段。如图所示,词干提取是指通过削减单词的某些部分(如词缀)来获得它的“词根”或“词干(stem)”。这项技术尽管可能会影响词语的可读性,却能大大提高文本处理时的可比性和归一性。

2025-04-20 09:07:54 797

原创 【漫话机器学习系列】211.驻点(Stationary Points)

在数学分析、机器学习优化、物理建模等领域中,驻点(Stationary Points)是一个非常重要的概念。它们是函数图像中“停下来的点”,即导数为零的点,往往也是我们寻找极值(最大值、最小值)或判断函数走向变化的关键。

2025-04-19 12:36:41 1070

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除