【DBSCAN】聚类方法与代码实现

Tech沉思录

于 2020-07-30 18:16:51 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：聚类算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/suyunzzz/article/details/107695346

目录

算法简介
算法实现
- 算法效果
参考

算法简介

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。
　　　DBSCAN是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。
通过将紧密相连的样本划为一类，这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别，则我们就得到了最终的所有聚类类别结果。

算法输入

待聚类的数据 $D$
邻域半径 $ϵ$
邻域内的点的数量阈值，表示密度MinPts

算法输出

每一个点的label

基本概念

$ϵ$ -邻域：对于xj∈D，其 $ϵ$ -邻域包含样本集 $D$ 中与 $x_j$ 的距离不大于 $ϵ$ 的子样本集，即 $Nϵ(x_j)={x_i∈D|distance(x_i,x_j)≤ϵ}$ , 这个子样本集的个数记为 $∣ N ϵ (x j) ∣$
核心对象：对于任一样本 $x_j∈D$ ，如果其 $ϵ$ -邻域对应的 $Nϵ(x_j)$ 至少包含MinPts个样本，即如果 $Nϵ(x_j)|≥MinPts$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Tech沉思录 点赞加投币，感谢您的资瓷~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。