Sklearn 机器学习 数值离散化 区间标签

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖

在这里插入图片描述

本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】


在这里插入图片描述

🎯 Sklearn 机器学习:数值离散化之区间标签设置详解

在机器学习中,连续数值型特征并不总是最优选择,尤其是在面对一些对数值大小不敏感的模型(如决策树、朴素贝叶斯)时。此时,我们常常希望将连续变量离散化(Discretization),转换成类别特征,便于建模与解释。

Scikit-learn 中的 KBinsDiscretizer 提供了强大灵活的数值离散化功能,本文将重点聚焦于 如何自定义区间标签,以提升模型可读性与解释性。


📚 一、什么是数值离散化?

数值离散化(Discretization),是将连续变量分成有限数量的区间(bins),并为每个区间赋予一个类别或标签。

举个例子:

年龄(Age) 离散化结果
23 青年
45 中年
67 老年

离散化方式主要有三类:

  • 等宽(uniform):每个区间的宽度相同
  • 等频(quantile):每个区间的样本数量大致相同
  • 基于聚类(kmeans):根据样本聚类划分区间

⚙️ 二、Sklearn 中的 KBinsDiscretizer 简介

from sklearn.preprocessing import KBinsDiscretizer

KBinsDiscretizer 的常用参数如下:

参数 说明
n_bins 要分的区间个数
encode 输出格式,如 'ordinal', 'onehot', 'onehot-dense'
strategy 离散化策略:'uniform''quantile''kmeans'
subsample 采样数量(用于 kmeans)
dtype 返回结果的数据类型

✅ 示例

import numpy as np
from sklearn.preprocessing import KBinsDiscretizer

data = np.array(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Thomas Kant

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值