CLustering Methods

Uploaded by

Dagfinn

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views

CLustering Methods

Uploaded by

Dagfinn

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Chapter 15

CLUSTERING METHODS

Lior Rokach
Department of lndustrial Engineering
Tel-Aviv University
liorrOeng.tau.ac.il

Oded Maimon
Department of Industrial Engineering
Tel-Aviv University
[email protected]

Abstract This chapter presents a tutorial overview of the main clustering methods used
in Data Mining. The goal is to provide a self-contained review of the concepts
and the mathematics underlying clustering techniques. The chapter begins by
providing measures and criteria that are used for determining whether two ob-
jects are similar or dissimilar. Then the clustering methods are presented, di-
vided into: hierarchical, partitioning, density-based, model-based, grid-based,
and soft-computing methods. Following the methods, the challenges of per-
forming clustering in large data sets are discussed. Finally, the chapter presents
how to determine the number of clusters.

Keywords: Clustering, K-means, Intra-cluster homogeneity, Inter-cluster separability,

1. Introduction
Clustering and classification are both fundamental tasks in Data Mining.
Classification is used mostly as a supervised learning method, clustering for
unsupervised learning (some clustering models are for both). The goal of clus-
tering is descriptive, that of classification is predictive (Veyssieres and Plant,
1998). Since the goal of clustering is to discover a new set of categories, the
new groups are of interest in themselves, and their assessment is intrinsic. In
classification tasks, however, an important part of the assessment is extrinsic,
since the groups must reflect some reference set of classes. "Understanding
322 DATA MINING AND KNOWLEDGE DISCOVERY HANDBOOK

our world requires conceptualizing the similarities and differences between the
entities that compose it" (Tyron and Bailey, 1970).
Clustering groups data instances into subsets in such a manner that simi-
lar instances are grouped together, while different instances belong to differ-
ent groups. The instances are thereby organized into an efficient representa-
tion that characterizes the population being sampled. Formally, the clustering
structure is represented as a set of subsets C = Cl, . . . ,Ck of S, such that:
S = u:=, Ci and Ci n Cj = 0 for i # j. Consequently, any instance in S
belongs to exactly one and only one subset.
Clustering of objects is as ancient as the human need for describing the
salient characteristics of men and objects and identifying them with a type.
Therefore, it embraces various scientific disciplines: from mathematics and
statistics to biology and genetics, each of which uses different terms to describe
the topologies formed using this analysis. From biological "taxonomies", to
medical "syndromes" and genetic "genotypes" to manufacturing "group tech-
nology" - the problem is identical: forming categories of entities and assign-
ing individuals to the proper groups within it.

2. Distance Measures
Since clustering is the grouping of similar instances/objects, some sort of
measure that can determine whether two objects are similar or dissimilar is
required. There are two main type of measures used to estimate this relation:
distance measures and similarity measures.
Many clustering methods use distance measures to determine the similarity
or dissimilarity between any pair of objects. It is useful to denote the distance
between two instances xi and x j as: d(xi,xj). A valid distance measure should
be symmetric and obtains its minimum value (usually zero) in case of identical
vectors. The distance measure is called a metric distance measure if it also
satisfies the following properties:

1. Triangle inequality d(xa,xk)5 d(xi,xj) + d(xj,xk) Vxi,xjcj,xkE S.

2.1 Minkowski: Distance Measures for Numeric

Attributes
Given two pdimensional instances, xi = (xil7xi27. . . ,zip) and x j =
(xj1, xj2,. . . ,xjp), The distance between the two data instances can be cal-
culated using the Minkowski metric (Han and Kamber, 2001):

Rx82 Sub Cont Pre Qualification-Log Sheet
No ratings yet
Rx82 Sub Cont Pre Qualification-Log Sheet
1 page
LMA Website User Guide
No ratings yet
LMA Website User Guide
16 pages
Clustering Examples
No ratings yet
Clustering Examples
47 pages
Clustering Techniques
No ratings yet
Clustering Techniques
30 pages
Data mining, Vipin Kumar, Pang-Ning Tan, Michael Steinback, Anuj Karpatne - Introduction to Data Mining-Pearson (1)
No ratings yet
Data mining, Vipin Kumar, Pang-Ning Tan, Michael Steinback, Anuj Karpatne - Introduction to Data Mining-Pearson (1)
81 pages
Bs 31267274
No ratings yet
Bs 31267274
8 pages
fuzzy meaning
No ratings yet
fuzzy meaning
6 pages
Cluster Analysis
No ratings yet
Cluster Analysis
6 pages
DataMining_Unit4_notes
No ratings yet
DataMining_Unit4_notes
27 pages
Clustering Analysis
No ratings yet
Clustering Analysis
2 pages
Unit 4
No ratings yet
Unit 4
40 pages
Lectures 5 and 6 - Data Anaysis in Management - MBM
No ratings yet
Lectures 5 and 6 - Data Anaysis in Management - MBM
61 pages
Unit 4
No ratings yet
Unit 4
23 pages
6 IJAEST Volume No 2 Issue No 2 Representative Based Method of Categorical Data Clustering 152 156
No ratings yet
6 IJAEST Volume No 2 Issue No 2 Representative Based Method of Categorical Data Clustering 152 156
5 pages
Clustering
No ratings yet
Clustering
9 pages
HierarchicalClusterAnalysis1
No ratings yet
HierarchicalClusterAnalysis1
13 pages
rohini_69115191178
No ratings yet
rohini_69115191178
3 pages
AI26
No ratings yet
AI26
3 pages
Data Clustering: 50 Years Beyond K-Means
No ratings yet
Data Clustering: 50 Years Beyond K-Means
35 pages
Data Mining Unit-4
No ratings yet
Data Mining Unit-4
27 pages
Survey of Clustering Algorithms: Rui Xu, Student Member, IEEE and Donald Wunsch II, Fellow, IEEE
No ratings yet
Survey of Clustering Algorithms: Rui Xu, Student Member, IEEE and Donald Wunsch II, Fellow, IEEE
59 pages
Statistical Considerations On The K - Means Algorithm
No ratings yet
Statistical Considerations On The K - Means Algorithm
9 pages
Paper - Hierarchical Cluster
No ratings yet
Paper - Hierarchical Cluster
13 pages
A Two Step Clustering Method For Mixed Categorical and Numerical Data
No ratings yet
A Two Step Clustering Method For Mixed Categorical and Numerical Data
9 pages
Clustering
No ratings yet
Clustering
5 pages
2023 - Chapitre 3 - Cours IA - Version Englais - 2023
No ratings yet
2023 - Chapitre 3 - Cours IA - Version Englais - 2023
24 pages
Chapter-8 (Cluster Analysis Basic Concepts and Algorithms)
No ratings yet
Chapter-8 (Cluster Analysis Basic Concepts and Algorithms)
73 pages
YEAH
No ratings yet
YEAH
2 pages
Survey of Clustering Data Mining Techniques: Pavel Berkhin
100% (1)
Survey of Clustering Data Mining Techniques: Pavel Berkhin
56 pages
K Prototype Mixed
No ratings yet
K Prototype Mixed
1 page
Cluster Analysis
No ratings yet
Cluster Analysis
15 pages
A Thorough Investigation On The Clustering and Classification Techniques in Various Applications
No ratings yet
A Thorough Investigation On The Clustering and Classification Techniques in Various Applications
4 pages
Data Clustering Seminar
No ratings yet
Data Clustering Seminar
34 pages
Data Clustering: A Review
No ratings yet
Data Clustering: A Review
60 pages
Biocluster MB05
No ratings yet
Biocluster MB05
26 pages
A Hybrid Approach To Speed-Up The NG20 Data Set Clustering Using K-Means Clustering Algorithm
No ratings yet
A Hybrid Approach To Speed-Up The NG20 Data Set Clustering Using K-Means Clustering Algorithm
8 pages
G Lavanya Computerscience
No ratings yet
G Lavanya Computerscience
51 pages
Iv Unit DM
No ratings yet
Iv Unit DM
26 pages
Ambo University Inistitute of Technology Department of Computer Science
No ratings yet
Ambo University Inistitute of Technology Department of Computer Science
13 pages
Running Head:: Data Mining 1
No ratings yet
Running Head:: Data Mining 1
7 pages
Cluster_analysis
No ratings yet
Cluster_analysis
22 pages
Survey of Clustering Algorithms: Rui Xu, Student Member, IEEE and Donald Wunsch II, Fellow, IEEE
No ratings yet
Survey of Clustering Algorithms: Rui Xu, Student Member, IEEE and Donald Wunsch II, Fellow, IEEE
34 pages
Recent Advances in Clustering A Brief Survey
No ratings yet
Recent Advances in Clustering A Brief Survey
9 pages
Prevention of Security Concerns During Outlier Detection
No ratings yet
Prevention of Security Concerns During Outlier Detection
3 pages
TwoStep Cluster Analysis
No ratings yet
TwoStep Cluster Analysis
35 pages
Usage of Cluster Analysis in Consumer Behavior Res
No ratings yet
Usage of Cluster Analysis in Consumer Behavior Res
7 pages
Module 4 ML
No ratings yet
Module 4 ML
11 pages
Comparison of Graph Clustering Algorithms
No ratings yet
Comparison of Graph Clustering Algorithms
6 pages
Cluster Quilting Spectral Clustering for Patchwork Learning
No ratings yet
Cluster Quilting Spectral Clustering for Patchwork Learning
43 pages
Unit 5
No ratings yet
Unit 5
66 pages
Unit IV Cluster Analysis
No ratings yet
Unit IV Cluster Analysis
7 pages
Learning Predictive Clustering Rules
No ratings yet
Learning Predictive Clustering Rules
12 pages
IOSR Journals
No ratings yet
IOSR Journals
7 pages
A New Decision Tree Learning Approach For Novel Class Detection in Concept Drifting Data Stream Classification
No ratings yet
A New Decision Tree Learning Approach For Novel Class Detection in Concept Drifting Data Stream Classification
8 pages
05. UNIT-V(DMWH6EM)
No ratings yet
05. UNIT-V(DMWH6EM)
30 pages
PSO and WDO Data Clusterin
No ratings yet
PSO and WDO Data Clusterin
19 pages
Chapter 1 Introduction
No ratings yet
Chapter 1 Introduction
49 pages
unit4_ml[1]
No ratings yet
unit4_ml[1]
20 pages
Clustering Importante
No ratings yet
Clustering Importante
12 pages
Ijcttjournal V1i1p12
No ratings yet
Ijcttjournal V1i1p12
3 pages
Survey of Clustering Algorithms: IEEE Transactions On Neural Networks June 2005
No ratings yet
Survey of Clustering Algorithms: IEEE Transactions On Neural Networks June 2005
35 pages
Emergence III
From Everand
Emergence III
Larry Matthews
No ratings yet
Aggregates PPT - Aa
No ratings yet
Aggregates PPT - Aa
28 pages
5CS4-AOA-Unit-1_ppt @zammers
No ratings yet
5CS4-AOA-Unit-1_ppt @zammers
75 pages
Jeppview For Windows: List of Pages in This Trip Kit
No ratings yet
Jeppview For Windows: List of Pages in This Trip Kit
16 pages
Ppt Ағылшын 1-Тоқсан 7-Сынып
No ratings yet
Ppt Ағылшын 1-Тоқсан 7-Сынып
133 pages
Example 5:: Table 3: The Truth Table of (P Q) (P Q)
No ratings yet
Example 5:: Table 3: The Truth Table of (P Q) (P Q)
3 pages
Chapter 4 Three Phase Uncontrolled Rectifier (Compatibility Mode)
No ratings yet
Chapter 4 Three Phase Uncontrolled Rectifier (Compatibility Mode)
17 pages
VSD, HPS Spoc Brochure
No ratings yet
VSD, HPS Spoc Brochure
2 pages
Arabic Course - 11 - Lecture11
No ratings yet
Arabic Course - 11 - Lecture11
12 pages
Charger Test Report: Electrical Tests
No ratings yet
Charger Test Report: Electrical Tests
2 pages
JOBSHET 2 Sumahendra
No ratings yet
JOBSHET 2 Sumahendra
9 pages
Does IT Payoff? Case Study
No ratings yet
Does IT Payoff? Case Study
4 pages
Himanshu Training Report
No ratings yet
Himanshu Training Report
33 pages
Fees Statement_2023_05074
No ratings yet
Fees Statement_2023_05074
1 page
Aws Certified Ai Practitioner Aif c01 (1)
No ratings yet
Aws Certified Ai Practitioner Aif c01 (1)
50 pages
Living in A Network Centric World: Network Fundamentals - Chapter 1 Ccesc
No ratings yet
Living in A Network Centric World: Network Fundamentals - Chapter 1 Ccesc
61 pages
Milesight AIoT Indoor Parking Management Suite Datasheet en
No ratings yet
Milesight AIoT Indoor Parking Management Suite Datasheet en
11 pages
Students' Readiness For E-Learning: A Case Study of Sukhothai Thammathirat Open University, Thailand
No ratings yet
Students' Readiness For E-Learning: A Case Study of Sukhothai Thammathirat Open University, Thailand
8 pages
MSS SP-146-2014
No ratings yet
MSS SP-146-2014
12 pages
Data Gathering Procedure
No ratings yet
Data Gathering Procedure
2 pages
React - Js MCQ (Multiple Choice Questions) - Javatpoint
No ratings yet
React - Js MCQ (Multiple Choice Questions) - Javatpoint
17 pages
Design and Modeling of Ball Valve FinalVersion
No ratings yet
Design and Modeling of Ball Valve FinalVersion
27 pages
ChemDraw Product Activation User Guide
No ratings yet
ChemDraw Product Activation User Guide
17 pages
TD10008
No ratings yet
TD10008
5 pages
Thunderbolt Ac DC
No ratings yet
Thunderbolt Ac DC
44 pages
Data Post-Processing For Above-Burden Infrared Camera (ABirC) System
No ratings yet
Data Post-Processing For Above-Burden Infrared Camera (ABirC) System
14 pages
Literature Review: Modern Public Library
100% (3)
Literature Review: Modern Public Library
8 pages
Admit Card: Instructions To The Candidate
No ratings yet
Admit Card: Instructions To The Candidate
1 page
Question Paper Code: 12115: 15ISC02 Safety in Engineering Industry
No ratings yet
Question Paper Code: 12115: 15ISC02 Safety in Engineering Industry
2 pages

CLustering Methods

Uploaded by

CLustering Methods

Uploaded by

Chapter 15

Keywords: Clustering, K-means, Intra-cluster homogeneity, Inter-cluster separability,

1. Triangle inequality d(xa,xk)5 d(xi,xj) + d(xj,xk) Vxi,xjcj,xkE S.

2.1 Minkowski: Distance Measures for Numeric

You might also like