
李航统计学习方法读书笔记
文章平均质量分 70
《统计学习方法(第二版)》
及时行樂_
方向:航空数据异常/攻击检测及分析,欢迎私信交流,共同进步~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《统计学习方法》-读书笔记汇总贴(汇总27/27)
文章主要用来记录学习李航老师《统计学习方法(第二版)》的学习笔记,主要根据课本内容来,初步打算先把附录的一些知识点整理了,然后按章节整理内容,希望能互相学习,共同提高!目录(…暂定)统计学习方法读书笔记(一)-绪论(待更新)统计学习方法读书笔记(二)-统计学习及监督学习概述(待更新)⋮\vdots⋮...原创 2021-01-09 18:25:36 · 1136 阅读 · 1 评论 -
统计学习方法读书笔记(二十二)-无监督学习方法总结
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》一、无监督学习算法统计学习方法读书笔记(十三)-无监督学习概述统计学习方法读书笔记(十四)-聚类方法统计学习方法读书笔记(十五)-奇异值分解统计学习方法读书笔记(十六)-主成分分析统计学习方法读书笔记(十七)-潜在语义分析统计学习方法读书笔记(十八)-概率潜在语义分析统计学习方法读书笔记(十九)-马尔科夫链蒙特卡洛方法统计学习方法读书笔记(二十)-潜在迪利克雷分布统计学习方法读书笔记(二十一)-Pag原创 2021-01-28 19:52:27 · 315 阅读 · 0 评论 -
统计学习方法读书笔记(二十一)-PageRank算法
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》在实际应用中许多数据都以图(graph)的形式存在,比如,互联网、社交网络都可 以看作是一个图。图数据上的机器学习具有理论与应用上的重要意义。PageRank 算法是图的链接分析 (link analysis)的代表性算法,属于图数据上的无监督学习方法。PageRank 算法的基本想法是在有向图上定义一个随机游走模型, 即 一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下,极限情况访问每个原创 2021-01-28 19:47:29 · 457 阅读 · 0 评论 -
统计学习方法读书笔记(二十)-潜在迪利克雷分布
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》潜在狄利克雷分配(Latent Dirichlet allocation, LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展。LDA模型是文本集合的生成概率模型。一、迪利克雷分布二、潜在迪利克雷分配模型潜在狄利克雷分配(LDA) 是文本集合的生成概率模型。模型假设话题由单词的多项分布表示,文本由话题的多项分布表示,单词分布和话题分布的先验分布都是狄 利克雷分布。文本内容的不原创 2021-01-28 19:40:17 · 647 阅读 · 0 评论 -
统计学习方法读书笔记(二十七)-附录E KL散度的定义和迪利克雷分布的性质
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》一、KL散度的定义二、迪利克雷分布的性质原创 2021-01-27 21:27:04 · 355 阅读 · 0 评论 -
统计学习方法读书笔记(二十六)-附录D 矩阵的基本子空间
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》呃…感觉没啥好说的,主要就是看看书,用到的话就再琢磨琢磨就行。一、向量空间的子空间二、向量空间的基和维数三、矩阵的行空间和列空间四、矩阵的零空间五、子空间的正交补六、矩阵的基本子空间...原创 2021-01-27 21:23:48 · 274 阅读 · 0 评论 -
统计学习方法读书笔记(十九)-马尔科夫链蒙特卡洛方法
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》这个可以先看看,有视频,讲的还挺细:白板推导系列笔记(十三)-马尔科夫链蒙特卡洛方法蒙特卡罗法(Monte Carlo method ),也称为统计模拟方法( statistical simulation method ),是通过从概率模型的随机抽样进行近似数值计算的方法。马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo, MCMC),则是以马尔可夫链(Markov chain)为概率模型的蒙原创 2021-01-27 20:42:50 · 656 阅读 · 0 评论 -
统计学习方法读书笔记(十八)-概率潜在语义分析
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》概率潜在语义分析(PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点是用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。一、概率潜在语义分析模型二、概率潜在语义分析的算法概率潜在语义分析模型是含有隐变量的模型,其学习通常使用EM算法。EM算法是一种迭代算法,每次迭代包括交替原创 2021-01-26 17:36:40 · 488 阅读 · 0 评论 -
统计学习方法读书笔记(十七)-潜在语义分析
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》潜在语义分析 Clatent semantic analysis,. LSA)是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。一、单词向量空间与话题向量空间向量空间模型的基本想法是,给定一个文本,用一个向量表示该文本的 “语义”,向量的每一维对应一个单词,其数值为该单词在该文本中出现的颇数或权值。直观上,在两个文本中共同出现的单词越多,其语义内容就越相近,原创 2021-01-26 17:30:59 · 393 阅读 · 0 评论 -
统计学习方法读书笔记(十六)-主成分分析
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》主成分分析(principal component analysis, PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。一、总体主成分分析数据的变量之间可能存在相关性,以致增加了分析的难度。考虑由少数不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的大部分信息。主成分分析的主要目的是降维,原创 2021-01-24 17:58:17 · 591 阅读 · 0 评论 -
统计学习方法读书笔记(十五)-奇异值分解
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》可以直接看这篇文章,关于奇异值分解讲的很清楚,还有个例子:奇异值分解奇异值分解(singular value decomposition, SVD)是一种矩阵因子分解方法,是线性代数的概念,但在统计学习中被广泛使用,成为其重要工具。一、奇异值分解的定义与性质在看完上面那篇文章的例子之后,可以再看看书上的例15.1。二、奇异值分解的计算先求ATAA^TAATA的特征值和特征向量求nnn阶正交矩阵VVV求m原创 2021-01-24 14:07:47 · 423 阅读 · 0 评论 -
统计学习方法读书笔记(二十五)-附录C 拉格朗日对偶性
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》一、原始问题如果考虑极小化,原始问题的最优值p∗=minxθp(x)=minxmaxα,β:αi≥0L(x,α,β)p^*=\min_x\theta_p(x)=\min_x\max_{\alpha,\beta:\alpha_i\ge0}L(x,\alpha,\beta)p∗=xminθp(x)=xminα,β:αi≥0maxL(x,α,β)二、对偶问题简单来说,就是由先考虑极大再考虑极小,变为原创 2021-01-24 13:39:26 · 235 阅读 · 0 评论 -
统计学习方法读书笔记(二十四)-附录B 牛顿法和拟牛顿法
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》一、牛顿法存在的几个问题:H−1H^{-1}H−1不存在,导致(4)无意义;H−1H^{-1}H−1存在但不正定,导致fk+1≥fkf_{k+1}\ge f_kfk+1≥fkH−1H^{-1}H−1存在且正定,但若pkp_kpk很大,由(5)可知,不能保证fk+1<fkf_{k+1}< f_kfk+1<fk给个例子:和上一节的例子一样,我们用牛顿法求解。f(x)=12x原创 2021-01-24 13:13:44 · 433 阅读 · 0 评论 -
统计学习方法读书笔记(十四)-聚类方法
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》聚类的目的是通过得到的类或簇来发现数据的特点或对数据进行处理,在数据挖掘、模式识别等领域有着广泛的应用。一、聚类的基本概念聚类的核心概念是相似度或距离。闵可夫斯基距离dij=(∑k=1m∣xki−xkj∣p)1p 这里p≥1d_{ij}=\Big(\sum_{k=1}^m|x_{ki-x_{kj}}|^p\Big)^{\frac1p}\\\;\\这里p\ge1dij=(k=1∑m∣xki−xkj∣p)原创 2021-01-22 19:28:21 · 358 阅读 · 0 评论 -
统计学习方法读书笔记(十三)-无监督学习概述
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》一、无监督学习基本原理聚类降维概率估计无监督学习是一个困难的任务,因为数据没有标注,也就是说没有人的指导,机器需要自己从数据中找出规律。二、基本问题聚类(clustering)是将样本集合中相似的样本(实例)分配到相同的类,不相似的样本分配到不同的类。降维(dimensionality reduction)是将训练数据中的样本(实例)从高维空间转换到低维空间。概率模型估计(probability原创 2021-01-22 18:03:06 · 304 阅读 · 0 评论 -
统计学习方法读书笔记(十二)-监督学习方法总结
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》一、监督学习算法统计学习方法读书笔记(二)-感知机统计学习方法读书笔记(三)-k近邻法统计学习方法读书笔记(四)-朴素贝叶斯法统计学习方法读书笔记(五)-决策树统计学习方法读书笔记(六)-逻辑斯蒂回归与最大熵模型统计学习方法读书笔记(七)-支持向量机统计学习方法读书笔记(八)-提升方法统计学习方法读书笔记(九)-EM算法及其推广统计学习方法读书笔记(十)-隐马尔可夫模型统计学习方法读书笔记(十一)-原创 2021-01-22 15:42:56 · 286 阅读 · 0 评论 -
统计学习方法读书笔记(十一)-条件随机场
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》条件随机场(conditional random field CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。白板推导系列笔记(十七)-条件随机场一、概率无向图模型概率无向图模型(probabilistic undirected graphical model) ,又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。成对马尔可夫性(p原创 2021-01-22 15:30:31 · 242 阅读 · 0 评论 -
统计学习方法读书笔记(十)-隐马尔可夫模型
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》原创 2021-01-20 22:14:06 · 276 阅读 · 0 评论 -
统计学习方法读书笔记(九)-EM算法及其推广
全部笔记的汇总贴:统计学习方法读书笔记汇总贴PDF免费下载:《统计学习方法(第二版)》EM算法用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望(expectation) ; M步,求极大(maximization)。一、EM算法的引入三硬币模型假设有三枚硬币,分别记为A、B、C。这些硬币正面的概率分别为π,p,qπ,p,qπ,p,q,进行如下的抛硬币实验:先掷硬币A,根据其结果选出硬币B或者硬币C,正面选硬原创 2021-01-20 16:38:24 · 300 阅读 · 0 评论 -
统计学习方法读书笔记(八)-提升方法
全部笔记的汇总贴:统计学习方法读书笔记汇总贴提升方法是一种常用的统计学习方法,应用广泛且有效。一、提升方法AdaBoost算法提升方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(????号分类器)要比求精确的分类规则(强分类器)容易得多。提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数的提升原创 2021-01-20 11:18:29 · 257 阅读 · 0 评论 -
统计学习方法读书笔记(二十三)-附录A 梯度下降法
全部笔记的汇总贴:统计学习方法读书笔记汇总贴一、算法描述输入:目标函数f(x)f(x)f(x),梯度函数g(x)=∇f(x)g(x)=\nabla f(x)g(x)=∇f(x),计算精度ε\varepsilonε;输出:f(x)f(x)f(x)的极小点x∗x^*x∗。取初始值x(0)∈Rnx^{(0)}\in\R^nx(0)∈Rn,置k=0k=0k=0。计算f(x(k))f(x^{(k)})f(x(k))。计算梯度gk=g(x(k))g_k=g(x^{(k)})gk=g(x(k)),当∣∣g原创 2021-01-19 12:40:05 · 412 阅读 · 1 评论 -
统计学习方法读书笔记(七)-支持向量机
全部笔记的汇总贴:统计学习方法读书笔记汇总贴支持向量机(support vector machines, SVM)是 一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。本文的大体内容可以参考白板推导系列笔记(六)-支持向量机和白板推导系列笔记(七)-核方法一、线性可分的支持向量机与硬间隔最大化支持向量机就是找到最大的间隔分离超平面。构造一个约束最优化问题并求解{minw,b12wTws.t.原创 2021-01-18 18:15:24 · 348 阅读 · 0 评论 -
统计学习方法读书笔记(六)-逻辑斯蒂回归与最大熵模型(迭代尺度法(IIS))
全部笔记的汇总贴:统计学习方法读书笔记汇总贴逻辑斯谛回归 (logistic regression )是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model) 。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。一、逻辑斯谛回归模型设XXX是连续随机变量,XXX服从逻辑斯谛分布是指XXX具有下列分布函数和密度函数:F(x)=P(X≤x)=11+e−(x−μ)γf(x)=F′(x)=e−(x−μ)γγ(1+e−(x−μ)γ)原创 2021-01-18 16:35:35 · 576 阅读 · 0 评论 -
统计学习方法读书笔记(五)-决策树
全部笔记的汇总贴:统计学习方法读书笔记汇总贴决策树(decision tree )是一种基本的分类与回归方法。一、决策树模型与学习可以将决策树看成一个if-then规则的集合。将决策树转换成if-then规则的过程是这样的:由决策树的根结点到叶结点的每一条路径构建一条规则:路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。二、特征选择特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。通常特征选择的准则是信息增益或信息增益比。则随机变量XXX的熵定义为H原创 2021-01-17 21:29:45 · 377 阅读 · 0 评论 -
统计学习方法读书笔记(四)-朴素贝叶斯法
全部笔记的汇总贴:统计学习方法读书笔记汇总贴朴素贝叶斯 (naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。一、朴素贝叶斯法的学习与分类朴素贝叶斯法对条件概率分布作了条件独立性的假设。P(X=x∣Y=ck)=P(X(1)=x(1),⋯ ,X(n)=x(n)∣Y=ck)=∏j=1nP(X(j)=x(j)∣Y=ck)P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)\\=\prod_{j=1}^nP(X^{(j)原创 2021-01-17 17:43:33 · 293 阅读 · 1 评论 -
统计学习方法读书笔记(三)-k近邻法
全部笔记的汇总贴:统计学习方法读书笔记汇总贴一、kkk近邻算法给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的kkk个实例, 这kkk个实例的多数属于某个类,就把该输入实例分为这个类。kkk近邻法没有显式的学习过程。k近邻法的特殊情况是k=1k=1k=1的情形,称为最近邻算法。对于输入的实例点(特征向量)xxx,最近邻法将训练数据集中与xxx最邻近点的类作为xxx的类。二、kkk近邻模型模型由三个基本要素一一 距离度量、kkk值的选择和分类决策规则决定。(一)模型kkk近原创 2021-01-16 13:04:52 · 320 阅读 · 0 评论 -
统计学习方法读书笔记(二)-感知机
全部笔记的汇总贴:统计学习方法读书笔记汇总贴一、感知机模型假设输入空间(特征空间)是X⊆RnX\subseteq \R^nX⊆Rn, 输出空间是 Y={+1,−1}Y=\{+1,-1\}Y={+1,−1}。输入x∈Xx\in Xx∈X表示实例的特征向量,对应于输入空间(特征空间)的点; 输出y∈Yy\in Yy∈Y表示实例的类别。 由输入空间到输出空间的如下函数:f(x)=sign(w⋅x+b)f(x)=sign(w\cdot x+b)f(x)=sign(w⋅x+b)称为感知机。其中,www和bbb原创 2021-01-15 16:15:25 · 379 阅读 · 0 评论 -
统计学习方法读书笔记(一)-统计学习及监督学习概述
全部笔记的汇总贴:统计学习方法读书笔记汇总贴一、统计学习统计学习以计算机及网络为平台,是建立在计算机及网络上的;统计学习以数据为研究对象,是数据驱动的学科;统计学习的目的是对数据进行预测与分析;统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。二、统计学习的分类分为监督学习(supervised learning)、无监督学习(unsupe原创 2021-01-15 15:17:38 · 624 阅读 · 0 评论