评价指标相关入口

本文介绍了特征选择的重要性和常用方法,包括过滤法、包装法和集成方法,并对比了生成模型与判别模型、线性与非线性分类器的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文本生成指标评估–下游准确度,相似度(余弦), 翻译质量(BLEU,ROUGE、ROUGE-N,-L, -W,-S,-SU)/ 多样性(self-bleu,MMD,distinct)

回归评价指标–MAE平均绝对误差,MSE均方误差,RMSE均方根误差,MAPE平均绝对百分比误差,MASE平均平方百分比误差,R2决定系数 ,SSE和方误差

分类评价指标-(P、R、F1、TPR、FPR、混淆矩阵,BACC、AP、AUC)–二分类(马修斯相关系数、PR曲线、ROC曲线)/多分类(kappa系数)/多标签(汉明,覆盖误差,排序损失)

损失函数【0-1损失,绝对值L1,平方L2,log对数,指数,Hinge,感知,交叉熵,Huber,Log-Cosh】

距离度量-欧式/马氏/汉明/曼哈顿/切比雪夫/闵可夫斯基/杰卡德距离/Sørensen-Dice指数
距离度量-Chamfer距离、Fréchet距离

常见的相似度(系数)算法(余弦/皮尔森/杰卡德/Sørensen-Dice指数/Tanimoto系数/对数似然/互信息/信息增益,相对熵/KL散度/TF-IDF/PMI)

二:特征选择的方法

特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位

特征选择方法举例
计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性
构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征
通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;
训练能够对特征打分的预选模型:RandomForest和Logistic
Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;
通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机视觉领域,原因是深度学习具有自动学习特征的能力.

特征选择方法分类
在这里插入图片描述

Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
方差选择法:使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征
相关系数法:使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值
卡方检验:经典的卡方检验是检验定性自变量对定性因变量的相关性
互信息法:经典的互信息也是评价定性自变量对定性因变量的相关性的

Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
递归特征消除法

Embedded:集成方法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。
基于惩罚项的特征选择法 :L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个
基于树模型的特征选择法: 树模型中GBDT也可用来作为基模型进行特征选择

降维:PCA LDA等。
将原始的样本映射到维度更低的样本空间中。
PCA是为了让映射后的样本具有最大的发散性;而LDA是为了让映射后的样本有最好的分类性能。所以说PCA是一种无监督的降维方法,而LDA是一种有监督的降维方法

分类与回归的区别
分类和回归的区别在于输出变量的类型。
定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。

生成模型与判别模型的区别
有监督机器学习方法可以分为生成方法和判别方法(常见的生成方法有混合高斯模型、朴素贝叶斯法和隐形马尔科夫模型等,常见的判别方法有SVM、LR等),生成方法学习出的是生成模型,判别方法学习出的是判别模型。
监督学习,预测时,一般都是在求p(Y|X)
生成模型: 从数据中学习联合概率分布p(X,Y),然后利用贝叶斯公式求:,比如说朴素贝叶斯
判别模型:直接学习P(Y|X), 它直观输入什么特征X,就直接预测出最可能的Y; 典型的模型包括:LR,SVM,CRF,Boosting,Decision tree…

生成方法的特点:生成方法可以还原联合概率分布,而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学习的模型可以更快的收敛于真实的模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

判别方法的特点:判别方法直接学习的是条件概率或者决策函数,直接面对预测,往往学习的准确率更高;由于直接学习或者,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

线性分类器与非线性分类器的区别以及优劣
如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。
常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归 常见的非线性分类器:决策树、RF、GBDT、多层感知机
SVM两种都有(看线性核还是高斯核)
线性分类器速度快、编程方便,但是可能拟合效果不会很好
非线性分类器编程复杂,但是效果拟合能力强

特征比数据量还大时,选择什么样的分类器?
线性分类器,因为维度高的时候,数据一般在维度空间里面会比较稀疏,很有可能线性可分
对于维度很高的特征,你是选择线性还是非线性分类器?
理由同上 对于维度极低的特征,你是选择线性还是非线性分类器?
非线性分类器,因为低维空间可能很多特征都跑到一起了,导致线性不可分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值