特征选择算法之 chisquare 算法

本文介绍了卡方(Chi-Squared)特征选择算法,用于评估特征与目标变量的相关性。通过计算卡方值,可以确定特征的重要性。公式为X^2 = ∑ ((YA - YB)^2 / YB),其中YA是实际值,YB是假设无关时的理想值。当卡方值较大,表示特征与目标变量的相关性较强。在数据挖掘工具如Weka中,有内置的ChiSquaredAttributeEval函数来实现这一检验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

chisquare特征选择算法:

通过计算各个特征的卡方值,进行排序后得到。

步骤如下: 1. 假设该特征与目标特征无关。 2. 计算卡方值,若卡方值较小,则相关性较小; 若较大,则相关性较大。


每个特征的卡方值计算应如下:

             X^2 = ∑ ((YA - YB)^ 2 / YB)

其中,YA是每个样本中,YA的实际值,而YB为理想值,即假设无关成立时,理想的值。

由于假设该特征与目标特征无关,则应当在该特征的范围上,目标特征值均匀分布。

例如:

假设X 有三种分类,XA,XB,XC. Y 有两种分类, Y1,Y2

则对于卡方值计算有

  Y1 Y2 合计
XA a b a+b
XB c d c+d
XC e f e+f
合计 a+c+e b+d+f  

由于X属性与Y属性无关, 则有, (a+b) * (a+c+e)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值