Seminar On Data Mining and Data Warehousing Concepts of Second Module Chapter Two

This document discusses issues in proximity calculation when performing data mining and discusses some approaches to address those issues. It discusses how to handle attributes with different scales and correlations, and how to calculate proximity between objects with different attribute types. It presents the Mahalanobis distance formula as a way to account for correlation between attributes. It also discusses combining similarities for heterogeneous attributes by computing a weighted average similarity between objects based on each attribute's similarity value and importance weight. The document emphasizes selecting the right proximity measure that accounts for differences in attribute scales, types and importance weights.

Uploaded by

Ajay C Hiremath

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views

Seminar On Data Mining and Data Warehousing Concepts of Second Module Chapter Two

Uploaded by

Ajay C Hiremath

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 7

Seminar on Data Mining and data Warehousing

concepts of second module chapter two

Ajay C H
USN- 2JH17CS004
2.4.6 Issues in Proximity Calculation

1.How to handle the case in which attributes have

different scales and/or are correlated?

2.How to calculate proximity between objects

that are composed of different types of?
Attributes

3.And how to handle proximity calculation when

attributes have different weights?
 Standardization and Correlation for Distance
Measures

Mahalanobis Distance Formulae:

mahalanobis(x , y)=
where,

is the matrix whose entry is the covariance of

the and attributes.
 Example 1: In figure 2.4.1 there are 1000 points, whose x and y attributes have a correlation of 0.6 .The
distance between the two large points at the opposite ends of the long axis of the ellipse is 14.7 in terms of
Euclidean distance, but only 6 with respect to Mahalanobis distance. In practice, computing the Mahalanobis
distance is expensive, but can be worthwhile for data whose attributes are correlated. If the attributes are
relatively uncorrelated, but have different ranges, then standardizing the variables is sufficient.
 Combining Similarities for Heterogeneous Attributes
Algorithm
 2.1: Similarities of heterogeneous object
1. For the attribute, compute a similarity , (x, y), in the range {0, 1}.
2. Define an indicator variable, , for attribute as follows:
0 if the attribute is an asymmetric attribute and
= both the objects have a values of 0, or if one of the objects
has a missing values for the attribute
1 otherwise
3. Compute the overall similarity between the two objects using the following formula:
Similarity(x , y) = (1)
the formulas for proximity can be modified by weighting the contribution of each attribute.
If the weights sum to 1, then equation (1) becomes
Similarity(x , y) = (2)
The definition of the Minkowski distance can also be modified as follows:
(3)
2.4.7 Selecting the Right Proximity
Measure
THANK YOU

The mathematics of quantum mechanics
From Everand
The mathematics of quantum mechanics
Alessio Mangoni
No ratings yet
CS-DM MODULE- 3
No ratings yet
CS-DM MODULE- 3
27 pages
Lec09 466 PDF
No ratings yet
Lec09 466 PDF
5 pages
APznzaaN7_CY3hhfhbJRXjYJ1BR6-NtGzIkO6tA99bBiITMP7edAeijYM4WIPHTX6qmgs05QF3M-ALsy0PRS_TYvyugVy6R2kjYnK0BCBRm9Wtq_9FaGq4pVaH_pFWQ-CutgWY_nI5HsUACQNIaD3Gu0gxaanUrACiGy2qvKlVDZgXatZgVnQ_WWUQGN5GK3MgGPyk7wNYpPtuWmopw0KMKDCQDXsrCNzmu9V5rqcPBmZE4z
No ratings yet
APznzaaN7_CY3hhfhbJRXjYJ1BR6-NtGzIkO6tA99bBiITMP7edAeijYM4WIPHTX6qmgs05QF3M-ALsy0PRS_TYvyugVy6R2kjYnK0BCBRm9Wtq_9FaGq4pVaH_pFWQ-CutgWY_nI5HsUACQNIaD3Gu0gxaanUrACiGy2qvKlVDZgXatZgVnQ_WWUQGN5GK3MgGPyk7wNYpPtuWmopw0KMKDCQDXsrCNzmu9V5rqcPBmZE4z
50 pages
Data Science: Department of Computer Science & Engineering
No ratings yet
Data Science: Department of Computer Science & Engineering
31 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
DMi_03-Proximity
No ratings yet
DMi_03-Proximity
51 pages
Knowing Your Data
No ratings yet
Knowing Your Data
43 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
Evaluation of Similarity Measurement For Image Retrieval
No ratings yet
Evaluation of Similarity Measurement For Image Retrieval
4 pages
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
No ratings yet
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
4 pages
L13
No ratings yet
L13
19 pages
Lab 2
No ratings yet
Lab 2
21 pages
Lecture 6 Clustring
No ratings yet
Lecture 6 Clustring
7 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-2
No ratings yet
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-2
16 pages
Similarity Measures
No ratings yet
Similarity Measures
11 pages
Cluster Analysis Introduction (Unit-6)
No ratings yet
Cluster Analysis Introduction (Unit-6)
20 pages
Data Mining: Similarity and Distance
No ratings yet
Data Mining: Similarity and Distance
6 pages
rsfinal (1)
No ratings yet
rsfinal (1)
30 pages
Similarity and Dissimilarity
No ratings yet
Similarity and Dissimilarity
34 pages
CSE-1-PPT-MiniTest-12feb24-Similarity (6)
No ratings yet
CSE-1-PPT-MiniTest-12feb24-Similarity (6)
11 pages
2 Similarity Disimilarity Measure
No ratings yet
2 Similarity Disimilarity Measure
35 pages
Dist
No ratings yet
Dist
14 pages
Materi 7.1. Distance Measurement
No ratings yet
Materi 7.1. Distance Measurement
14 pages
Similarity_Based_learning_(part_2_)__
No ratings yet
Similarity_Based_learning_(part_2_)__
15 pages
Class-Data Preprocessing-IV
No ratings yet
Class-Data Preprocessing-IV
28 pages
Measure of Proximity
No ratings yet
Measure of Proximity
11 pages
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 1
No ratings yet
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 1
6 pages
CS2209 Similarity Distances
No ratings yet
CS2209 Similarity Distances
23 pages
Similarity
No ratings yet
Similarity
19 pages
29.measuring Data Similarity and Dissimilarity Introduction
No ratings yet
29.measuring Data Similarity and Dissimilarity Introduction
43 pages
ML Co4 Session 29
No ratings yet
ML Co4 Session 29
36 pages
DistancesSimilarities
No ratings yet
DistancesSimilarities
39 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
CS822-DataMining-Week4 (2)
No ratings yet
CS822-DataMining-Week4 (2)
45 pages
CSC_522_Lecture10_5f0e8c83dce359ee001691c737303b46
No ratings yet
CSC_522_Lecture10_5f0e8c83dce359ee001691c737303b46
30 pages
Cluster
No ratings yet
Cluster
13 pages
Introduction To Classification - KNN
No ratings yet
Introduction To Classification - KNN
29 pages
Clustering Lecture 1: Basics: Jing Gao
No ratings yet
Clustering Lecture 1: Basics: Jing Gao
62 pages
Clustering
0% (1)
Clustering
127 pages
Distance Measures
No ratings yet
Distance Measures
10 pages
Similarity
No ratings yet
Similarity
20 pages
Similarity
No ratings yet
Similarity
20 pages
Lecture 8-9 - Clustering
No ratings yet
Lecture 8-9 - Clustering
43 pages
DSB- Unit3
No ratings yet
DSB- Unit3
87 pages
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-1
No ratings yet
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-1
11 pages
Chap 5 1 NN Classification
0% (1)
Chap 5 1 NN Classification
22 pages
Lesson 6 Similarities KNN
No ratings yet
Lesson 6 Similarities KNN
25 pages
Image Processing Mahalanobis Distance
No ratings yet
Image Processing Mahalanobis Distance
17 pages
Lecture 7 Clustring
No ratings yet
Lecture 7 Clustring
10 pages
Similarity Analysis
No ratings yet
Similarity Analysis
85 pages
An Empirical Study of Distance Metrics For K-Nearest Neighbor Algorithm
No ratings yet
An Empirical Study of Distance Metrics For K-Nearest Neighbor Algorithm
6 pages
DS5 Statistics
No ratings yet
DS5 Statistics
67 pages
IDS4
No ratings yet
IDS4
50 pages
A_Comparative_Study_on_Distance_Measuring_Approach
No ratings yet
A_Comparative_Study_on_Distance_Measuring_Approach
3 pages
Introduction To Data Science: Tom A S Horv Ath
No ratings yet
Introduction To Data Science: Tom A S Horv Ath
39 pages
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
No ratings yet
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
25 pages
Gauss Nodes Revolution: Numerical Integration Theory Radically Simplified And Generalised
From Everand
Gauss Nodes Revolution: Numerical Integration Theory Radically Simplified And Generalised
Rob Porter
No ratings yet
K Nearest Neighbor Algorithm: Fundamentals and Applications
From Everand
K Nearest Neighbor Algorithm: Fundamentals and Applications
Fouad Sabry
No ratings yet