Sklearn 机器学习数值离散化区间标签

最新推荐文章于 2025-08-01 21:47:57 发布

Thomas Kant

最新推荐文章于 2025-08-01 21:47:57 发布

阅读量1k

点赞数 28

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：机器学习 sklearn 人工智能

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖

在这里插入图片描述

在这里插入图片描述

🎯 Sklearn 机器学习：数值离散化之区间标签设置详解

在机器学习中，连续数值型特征并不总是最优选择，尤其是在面对一些对数值大小不敏感的模型（如决策树、朴素贝叶斯）时。此时，我们常常希望将连续变量离散化（Discretization），转换成类别特征，便于建模与解释。

Scikit-learn 中的 KBinsDiscretizer 提供了强大灵活的数值离散化功能，本文将重点聚焦于 如何自定义区间标签，以提升模型可读性与解释性。

数值离散化（Discretization），是将连续变量分成有限数量的区间（bins），并为每个区间赋予一个类别或标签。

举个例子：

离散化方式主要有三类：

from sklearn.preprocessing import KBinsDiscretizer

KBinsDiscretizer 的常用参数如下：

参数	说明
`n_bins`	要分的区间个数
`encode`	输出格式，如 `'ordinal'`, `'onehot'`, `'onehot-dense'`
`strategy`	离散化策略：`'uniform'`、`'quantile'`、`'kmeans'`
`subsample`	采样数量（用于 kmeans）
`dtype`	返回结果的数据类型

import numpy as np
from sklearn.preprocessing import KBinsDiscretizer

data = np.array(

200万优质内容无限畅学