
机器学习专栏
文章平均质量分 82
这里提供了从入门到高级的全面内容,以满足各种水平的学习需求。我们将带您深入学习机器学习算法、数据预处理、模型训练、评估等方面的关键知识。此外,我们还将关注最新的机器学习趋势和实际应用,以帮助您应对不断变化的领域需求。无论您是数据科学家、工程师、学生还是企业家,这个专栏将为您提供宝贵的学习资源,助您在
.whl
博客不仅仅是一个技术记录本,更是一个分享知识和经验的平台。毕设指导、程序开发、算法创新、专业助力!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PyTorch学习资料与常见错误积累
它可以接收一个子模块的有序字典(OrderedDict)或者一系列子模块作为参数来逐一添加Module的实例模型的前向计算就是将这些实例按添加的顺序逐一计算# view相当于reshape,这里的img.shape[0]是batch_size,-1代表自动计算出来的H*W*Channels。原创 2024-12-06 10:30:00 · 77 阅读 · 0 评论 -
深度神经网络Pytorch图像增强
数据增强对深度神经网络的训练来说是非常重要的,尤其是在数据量较小的情况下能起到扩充数据的效果。本文总结了pytorch中使用torchvision提供的transform模块中进行数据增强常用的7种方式。原创 2024-12-05 17:01:22 · 147 阅读 · 0 评论 -
DenseNet pytorch版本解析
DenseNet是CVPR2017的best paper,之前写过论文笔记,详见博文。本文先回顾DenseNet的网络架构与思想,再使用Pytorch框架实现该网络。原创 2024-12-05 16:59:47 · 99 阅读 · 0 评论 -
深度学习小麦头检测-基于Faster-RCNN的小麦头检测——附项目源码
csv_remake.py:根据csv文件并返回train_df和valid_dfWheatData.py:通过df文件载入image和targets,目标检测的数据集载入可参考issueevaluate.py:评估计算Iou和Map等指标train.py:训练代码WheaTesttData.py:载入测试数据predict.py:加载训练模型进行预测,并保存画出矩形框的图像。原创 2024-12-05 16:35:16 · 323 阅读 · 0 评论 -
不确定性、先验概率_后验概率、概率密度、贝叶斯法则、朴素贝叶斯_、最大似然估计
PA∣B。原创 2024-02-18 17:15:00 · 378 阅读 · 5 评论 -
博弈、极小极大值、α-β剪枝、截断测试
在扩展完第一棵子树后,根结点能确定他能得到的收益最小为3,此时第二层为了选择一个最小值,但第一层会选择第二层所有值中的最大值,所以在d图中扩展了得到2已经小于3,所以剩下的 不用扩展,在e中,因为先扩展了14,大于3为了不让第一层得到14所以继续扩展,最后也变成2,这样第一层最多得到3。剪枝可以用来忽略一些分支。原创 2024-02-18 09:15:00 · 198 阅读 · 1 评论 -
贝叶斯网络、概率图模型、全局语义、因果链、朴素贝叶斯模型、枚举推理、变量消元
图模型是概率分布的图表表示。它是概率论和图论的结合。也被称为概率图模型(Probabilistic Graphical Models)。它们增强了分析,而不是使用纯代数。原创 2024-02-17 21:50:32 · 367 阅读 · 1 评论 -
CSP约束满足问题、回溯搜索、最少剩余值MRV、度启发式、最少约束值启发式
回溯搜索是CSP的基本无信息算法。可以解决n≈25的n皇后问题。具有单变量赋值的CSP的深度优先搜索称为回溯搜索。解决:应该按照什么顺序尝试它的值。解决:下一步应该分配哪个变量。解决:下一步应该分配哪个变量。原创 2024-02-17 21:49:53 · 346 阅读 · 8 评论 -
机器学习、深度学习、自然语言处理基础知识总结
机器学习、深度学习、自然语言处理基础知识总结。目前主要参考李航老师的《统计学习方法》一书,也有一些内容例如等是书中未提及的。由于github的markdown解析器不支持latex,因此笔记部分需要在本地使用Typora才能正常浏览,也可以直接访问下面给出的博客链接。Document文件夹下为笔记,Code文件夹下为代码,Data文件夹下为某些代码所使用的数据集,Image文件夹下为笔记部分所用到的图片。原创 2024-01-23 09:15:00 · 102 阅读 · 0 评论 -
最大熵原理
(上式中最后一个约束条件与《统计学习方法》中给出的不同,参考https://zhuanlan.zhihu.com/p/83765331,我认为书中给出的有误,而应该像上式这样才能得出最后的结果。用特征函数f(x,y)描述输入x和输出y之间的某一个事实,特征函数是一个二值函数,当x与y满足某一事实时取1,否则取0。最大熵原理是概率模型学习的一个准则,其认为学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。就是最大熵模型,w是最大熵模型的参数向量,每一维度为对应特征函数的权重。原创 2024-01-23 12:00:00 · 172 阅读 · 0 评论 -
LDA是什么
隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA),是由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出的一种主题模型,是一种无监督机器学习技术,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。基于主题之间的相似度:计算主题向量之间的余弦距离,KL距离等,如果存在过于相似的主题,则降低主题数目。箭头表示两变量间的条件依赖性。原创 2024-01-22 12:45:00 · 323 阅读 · 0 评论 -
隐马尔可夫模型理解
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可检测的状态随机序列(状态序列),再由各个状态生成一个观测而产生观测随机序列(观测序列)。假设仅能获取到观测数据O,不能获取到状态序列I,此时可以应用EM算法对隐马尔可夫模型进行参数估计。根据训练数据是包括观测序列和对应的状态序列还是只有观测序列,可以分别由监督学习和非监督学习实现。近似算法的优点是计算简单,缺点是不能保证预测的状态概率整体式最有可能的状态序列。,其中T为序列长度。为观测集合,N和M分别为状态和观测的数量。原创 2024-01-20 17:30:00 · 83 阅读 · 0 评论 -
一文搞懂--什么是线性回归
人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。在我们发现用L1正则化太过(太多特征被稀疏为0),而L2正则化也正则化的不够(回归系数衰减太慢)的时候,可以考虑使用ElasticNet回归来综合,得到比较好的结果。局部加权线性回归的基本思想:设计代价函数时,待预测点附近的点拥有更高的权重,权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。原创 2024-01-22 14:30:00 · 108 阅读 · 0 评论 -
特征工程之特征选择
但是L1正则化没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验,具体具体操作为:若一个特征在L1中的权值为1,选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值。递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据模型的系数来选择),把选出来的特征放到一遍,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。原创 2024-01-21 18:00:00 · 98 阅读 · 0 评论 -
特征工程之降维算法
数据降维简介数据降维即对原始数据特征进行变换,使得特征的维度减少。依据降维过程是否可以用一个线性变换表示,降维算法可以分为线性降维算法和非线性降维算法,下图展示了各种降维算法及其类别:降维的必要性:降维的目的:SVD对于n阶实对称矩阵A,若非零向量x和数λ\lambdaλ使得:Ax=λxAx=\lambda xAx=λx则称x和λ\lambdaλ为A的特征向量和对应的特征值。对于A的n个特征值λ1≤λ2...≤λn\lambda_1\le\lambda_2...\le\lambda_nλ1≤λ2原创 2024-01-21 12:00:00 · 85 阅读 · 0 评论 -
一文弄懂什么是-随机森林
由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立)。bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,把这1/3的数据称为。bagging方法得到的各子模型是有一定相关性的,属于上面两个极端状况的中间态,因此可以一定程度降低variance。两个随机的引入(样本与属性选择的随机),使得模型不容易过拟合,并且模型抗噪声能力很强。原创 2024-01-20 16:00:00 · 233 阅读 · 0 评论 -
神经网络学习
对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数老在变,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate shift问题只发生在输入层。若参数W初始化得很大,那么多个大于1的数相乘会使得结果很大,使得接近输入层的所有层的梯度非常大,权重和偏差参数的更新量非常大,无法被正确更新。原创 2024-01-19 14:00:00 · 88 阅读 · 0 评论 -
深度学习中的优化方法
Adagrad虽然减少了学习率的手动调节,但二阶动量的不断累积会使得学习率越来越小,可能会使训练过程提前结束,即使后续有数据也无法学到必要的知识。Adagrad对历史梯度一视同仁,简单的把所有梯度的平方加起来来衡量参数的更新频率,这中导致学习率单调递减的方式过于激进,RMSProp对其进行了改进。Adagrad,RMSprop,Adam是比较相近的算法,在相似的情况下表现差不多。优点:由于每次迭代只使用了一个样本计算梯度,训练速度快,包含一定随机性,从期望来看,每次计算的梯度基本是正确的导数的。原创 2024-01-19 11:00:00 · 90 阅读 · 0 评论 -
机器学习-线性回归
人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。在我们发现用L1正则化太过(太多特征被稀疏为0),而L2正则化也正则化的不够(回归系数衰减太慢)的时候,可以考虑使用ElasticNet回归来综合,得到比较好的结果。局部加权线性回归的基本思想:设计代价函数时,待预测点附近的点拥有更高的权重,权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。原创 2024-01-18 16:00:00 · 89 阅读 · 0 评论 -
特征工程之特征选择
但是L1正则化没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验,具体具体操作为:若一个特征在L1中的权值为1,选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值。递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据模型的系数来选择),把选出来的特征放到一遍,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。原创 2024-01-18 11:00:00 · 77 阅读 · 0 评论 -
特征工程之降维算法
数据降维简介数据降维即对原始数据特征进行变换,使得特征的维度减少。依据降维过程是否可以用一个线性变换表示,降维算法可以分为线性降维算法和非线性降维算法,下图展示了各种降维算法及其类别:降维的必要性:降维的目的:SVD对于n阶实对称矩阵A,若非零向量x和数λ\lambdaλ使得:Ax=λxAx=\lambda xAx=λx则称x和λ\lambdaλ为A的特征向量和对应的特征值。对于A的n个特征值λ1≤λ2...≤λn\lambda_1\le\lambda_2...\le\lambda_nλ1≤λ2原创 2024-01-16 14:08:31 · 145 阅读 · 0 评论 -
工智能基础知识总结--隐马尔可夫模型
隐马尔可夫模型的定义隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可检测的状态随机序列(状态序列),再由各个状态生成一个观测而产生观测随机序列(观测序列)。隐马尔可夫模型由初始概率分布、状态转移概率分布、观测概率分布确定。设Q={q1,q2,...,qN}Q=\{q_1,q_2,...,q_N\}Q={q1,q2,...,qN}为状态集合,V={v1,v2,..,vM}V=\{v_1,v_2,..,v_M\}V={v1,v2,..,vM}为观测集合,N和M分别为状态和观原创 2024-01-17 05:30:00 · 119 阅读 · 0 评论 -
工智能基础知识总结--线性回归
人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。在我们发现用L1正则化太过(太多特征被稀疏为0),而L2正则化也正则化的不够(回归系数衰减太慢)的时候,可以考虑使用ElasticNet回归来综合,得到比较好的结果。局部加权线性回归的基本思想:设计代价函数时,待预测点附近的点拥有更高的权重,权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。原创 2024-01-17 09:00:00 · 100 阅读 · 0 评论 -
工智能基础知识总结--特征工程之特征选择
但是L1正则化没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验,具体具体操作为:若一个特征在L1中的权值为1,选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值。递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据模型的系数来选择),把选出来的特征放到一遍,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。原创 2024-01-15 16:00:00 · 110 阅读 · 0 评论 -
工智能基础知识总结--特征工程之降维算法
数据降维简介数据降维即对原始数据特征进行变换,使得特征的维度减少。依据降维过程是否可以用一个线性变换表示,降维算法可以分为线性降维算法和非线性降维算法,下图展示了各种降维算法及其类别:降维的必要性:降维的目的:SVD对于n阶实对称矩阵A,若非零向量x和数λ\lambdaλ使得:Ax=λxAx=\lambda xAx=λx则称x和λ\lambdaλ为A的特征向量和对应的特征值。对于A的n个特征值λ1≤λ2...≤λn\lambda_1\le\lambda_2...\le\lambda_nλ1≤λ2原创 2024-01-16 14:30:00 · 95 阅读 · 0 评论 -
工智能基础知识总结--随机森林
由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立)。bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,把这1/3的数据称为。bagging方法得到的各子模型是有一定相关性的,属于上面两个极端状况的中间态,因此可以一定程度降低variance。两个随机的引入(样本与属性选择的随机),使得模型不容易过拟合,并且模型抗噪声能力很强。原创 2024-01-16 10:30:00 · 91 阅读 · 0 评论 -
工智能基础知识总结--神经网络
对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数老在变,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate shift问题只发生在输入层。若参数W初始化得很大,那么多个大于1的数相乘会使得结果很大,使得接近输入层的所有层的梯度非常大,权重和偏差参数的更新量非常大,无法被正确更新。原创 2024-01-15 17:15:00 · 103 阅读 · 0 评论 -
工智能基础知识总结--深度学习中的优化方法
Adagrad虽然减少了学习率的手动调节,但二阶动量的不断累积会使得学习率越来越小,可能会使训练过程提前结束,即使后续有数据也无法学到必要的知识。Adagrad对历史梯度一视同仁,简单的把所有梯度的平方加起来来衡量参数的更新频率,这中导致学习率单调递减的方式过于激进,RMSProp对其进行了改进。Adagrad,RMSprop,Adam是比较相近的算法,在相似的情况下表现差不多。优点:由于每次迭代只使用了一个样本计算梯度,训练速度快,包含一定随机性,从期望来看,每次计算的梯度基本是正确的导数的。原创 2024-01-14 16:00:00 · 133 阅读 · 0 评论 -
工智能基础知识总结--朴素贝叶斯
伯努利朴素贝叶斯和多项式朴素贝叶斯应用在文本分类时区别较大,详情可以参考:https://zhuanlan.zhihu.com/p/96007193。适用于连续变量,其假定各个特征在各个类别下服从正态分布,通过训练集估计正态分布的参数。适用于离散变量,其假设各个特征在各个类别下是服从多项式分布的,每个特征值不能是负数。适用于离散变量,假设各变量取值只有0、1两种,因此首先要对特征值进行二值化处理。由于朴素贝叶斯学习到了联合概率分布,因此为生成模型。朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。原创 2024-01-15 09:00:00 · 131 阅读 · 0 评论 -
工智能基础知识总结--逻辑回归
可以看出,输出y=1的对数几率是输入x的线性组合,即逻辑回归实际上是在对对数几率进行回归,这也是逻辑回归名称的由来。当输入为0时输出为0.5,当输入分别趋向正无穷和负无穷时,输出分别趋向1和0。逻辑回归一般指二项逻辑回归,是一种用于二分类的判别式模型。所以链式求导也很容易。所以链式求导也很容易。原创 2024-01-14 09:00:00 · 153 阅读 · 0 评论 -
工智能基础知识总结--决策树
按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。预剪枝:其中的核心思想就是,在每一次实际对结点进行进一步划分之前,先采用某一种指标来判断划分是否能提高增益,如验证集的数据的准确性、信息增益是否大于最低标准、样本个数是否小于最低标准等,如果是,就把结点标记为叶结点并退出进一步划分,否则就继续递归生成结点。原创 2024-01-13 10:45:00 · 106 阅读 · 0 评论 -
工智能基础知识总结--聚类算法
我们可以观察聚类误差是否随聚类类别数量的增加而单调变化,如果数据是基本随机的,即不存在非随机簇结构,那么聚类误差随聚类类别数量增加而变化的幅度应该较不显著,并且也找不到一个合适 的K对应数据的真实簇数。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。在无监督的情况下,我们可以通过考察簇的分离情况和簇的紧 凑情况来评估聚类的效果。DBSCAN的聚类定义很简单:由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个类别,或者说一个簇。原创 2024-01-12 18:45:00 · 102 阅读 · 0 评论 -
工智能基础知识总结--感知机
由于感知机的前提是原数据集线性可分,这意味着必须存在一个正确的超平面。那么,不管几何距离还是函数距离,损失函数最后都要等于0,因此感知机并不关心点到超平面之间的间隔,关心的是误分类的点的个数。感知机算法的对偶形式主要适用于训练数据的特征维度远大于训练样本数的场景,此时原始形式每次更新都需要计算w和x的内积,但对偶形式可以将所有样本间的内积预先计算好以矩阵的形式存储(Gram矩阵),这样会节省训练耗时。其中,w叫做权重,是分类超平面的法向量;的线性组合的形式,通过求解其系数而求得w和b。原创 2024-01-12 13:15:00 · 90 阅读 · 0 评论 -
工智能基础知识总结--词嵌入之Word2Vec
因为Word2Vec的最终目的是得到词向量矩阵U,因此训练任务并非仅仅只能是根据输入词预测输出词的概率,可以将任务修改为预测某一个词是否是输入词的上下文词的概率。层次Softmax存在的问题是人为增强了词与词之间的耦合性。一般为小于1的正数起到放缩作用,使得频率小的词被采样的几率得到提升,频率大的词被采样的几率被降低,这样能增加低频词被采样到的机会,可以显著提高低频词的词向量的准确度。词的分布式表示的核心思想是:一个词是由这个词的周边词汇一起来构成精确的语义信息,因此可以用一个词附近的其他词来表示该词。原创 2024-01-11 15:00:00 · 584 阅读 · 0 评论 -
工智能基础知识总结--词嵌入之GloVe
Word2Vec每次都是利用局部窗口内的信息进行更新,而GloVe每次更新都利用到了共现矩阵中所统计的全局共现信息,所以理论上来说GloVe抗噪声能力更强,对语料的利用更加充分,效果也应当更好。从原论文给出的实验结果来看,GloVe的性能是远超Word2Vec的,但网上也有人说GloVe和Word2Vec实际表现其实差不多。为为单词k出现在单词i的上下文中的概率与为单词k出现在单词j的上下文中的概率的比值。类似,也是为了提高共现次数小的两个词的权重,进而提高低频词的词向量的准确度。为词i和词j的偏置项。原创 2024-01-11 08:59:23 · 392 阅读 · 0 评论 -
有信息搜索、最佳优先搜索、贪心搜索、A_搜索详解
最小的边界结点,因此它的等值线是从初始结点以扇形向外扩展的,而一致代价搜索因为只有。搜索等值线的概念更接近于地理上的等高线。如下图所示,在标记为400的等值线内,有。时间复杂度:A*算法对于任何给定的启发函数都是效率最优,但仍然是指数级。评估函数:Evaluation function。空间复杂度:要保存所有结点在内存中。完备性:满足(除非存在无限多个。,因此是以圆形向外扩展的。达到目标状态的真实成本。由于A*搜索扩展的是。原创 2024-01-09 23:42:30 · 1305 阅读 · 0 评论 -
人脸三维重建调研
和model-free。以[A Morphable Model For The Synthesis Of 3D Faces,1999](A Morphable Model For The Synthesis Of 3D Faces)为基准,旨在训练相对于平均人脸的参数,通过参数来改变平均脸,从而生成新的三维模型。在CNN被广泛应用之前主要使用非线性优化来拟合参数,这类研究很多。这类方法主要依赖训练集的人脸数据,不同人种的识别效果影响很大,对新的数据容错率尚待考虑。[详写]model-free。原创 2024-01-09 23:41:43 · 604 阅读 · 0 评论 -
工智能基础知识总结--词嵌入之FastText
FastText是Facebook于2016年开源的一个词向量计算和文本分类工具,它提出了子词嵌入的方法,试图在词嵌入向量中引入构词信息。一般情况下,使用fastText进行文本分类的同时也会产生词的embedding,即embedding是fastText分类的产物。FastText的核心思想就是:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。使用Word2Vec一节中介绍的层次Softmax输出文档类别,霍夫曼树的构造基于每个类别出现的频数。原创 2024-01-08 19:00:00 · 425 阅读 · 0 评论 -
工智能基础知识总结--什么是XGBoost
就这样,训练出了2棵树tree1和tree2,类似之前gbdt的原理,两棵树的结论累加起来便是最终的结论,所以小孩的预测分数就是两棵树中小孩所落到的结点的分数相加:2 + 0.9 = 2.9。,我们要预测一家人对电子游戏的喜好程度,考虑到年轻和年老相比,年轻更可能喜欢电子游戏,以及男性和女性相比,男性更喜欢电子游戏,故先根据年龄大小区分小孩和大人,然后再通过性别区分开是男是女,逐一给各人在电子游戏喜好程度上打分,如下图所示。XGBoost把缺失值当做稀疏矩阵来对待,本身的在节点分裂时不考虑的缺失值的数值。原创 2024-01-08 10:15:00 · 843 阅读 · 0 评论 -
工智能基础知识总结--什么是Transformer
类似于传统的Seq2Seq,Transformer的Decoder部分的每一个子模块都会有一个self-attention部分来接受Encoder最后一个子模块的输出,self-attention的Key、Value来自Encoder,Query来自Decoder。与Encoder在一开始就给定了完整的句子不同,Decoder在预测的时候存在一个解码过程,即输出序列是一个接一个生成的,因此在处理序列中的第t个单词时,模型只能看到第t个单词和它之前的单词。该分数的计算方法是Query与Key做点乘。原创 2024-01-07 16:45:00 · 1661 阅读 · 0 评论