100% found this document useful (1 vote)

191 views16 pages

Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2

Literary Digest incorrectly predicted the 1936 US presidential election results. They predicted 55% for Alf Landon and 41% for Franklin Roosevelt, but the actual results were 61% for Roosevelt and 37% for Landon. The problem was that Literary Digest based its survey on names from phone books and car registration lists, which overrepresented Republicans since Democrats were less likely to be listed. This led to an inaccurate sample that failed to predict Roosevelt's victory.

Uploaded by

Mohammed Ahmed Ali

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

191 views16 pages

Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2

Uploaded by

Mohammed Ahmed Ali

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

Data Mining: Data

Lecture Notes for Chapter 2

Introduction to Data Mining
by
Tan, Steinbach, Kumar
(Modified by P
P. Radivojac for I211)

What went wrong in 1936?

Literary Digest successively conducted surveys since 1920 and

predicted an elected president every time correctly

IIn 1936 they

th predicted
di t d 55% off vote
t ffor Alf L
Landon
d and
d 41% ffor
Franklin Roosevelt

actual elections showed that Roosevelt won 61% vs. 37%

M th d l
Methodology
for
f data
d t collection
ll ti

Literary digest sent 10 million ballots to voters in the USA

about
b
2
2.3
3 million
illi were returned
d

names obtained from phone registries and automobile licensing

p
departments

So, what was the problem ?

What went wrong in 1936 (1)

Source: Peverill Squire, Why the 1936 Literary Digest Poll Failed.

What went wrong in 1936 (2)

What went wrong in 1936 (3)

What is Data?
z

Collection of data objects and

their attributes

An attribute is a property or
characteristic of an object

Attributes

E
Examples:
l
eye color
l off a
person, temperature, etc.
Attribute is also known as
feature variable,
feature,
variable variate
z

A collection of attributes
describe a data point
data point is also known as
object, record, instance, or
example

Data
points

Class

Tid Home
Owner

Marital
Status

Taxable
Income Cheat

Yes

Single
g

125K

Married

100K

Single

70K

Yes

Married

120K

Divorced 95K

Yes

Married

Yes

Divorced 220K

Single

85K

Yes

Married

75K

Single

90K

Yes

60K

Similarity and Dissimilarity

Similarity
Numerical measure of how alike two data points are
are.
Is higher when objects are more alike.
Often falls in the range
g [[0,1]
, ]

Dissimilarity
Numerical measure of how different are two data
points
Lower when objects are more alike
Minimum dissimilarity is often 0
Upper limit varies

P i it refers
Proximity
f
tto a similarity
i il it or di
dissimilarity
i il it

Similarity/Dissimilarity for Simple Attributes

p and q are the attribute values for two data objects.

Euclidean distance in 2D
dist ( p, q ) = a 2 + b 2 = (6 3) 2 + (1 5) 2 =
= 32 + (4) 2 = 25 = 5

Pythagoras' theorem:
p = (3, 5)

a2 + b2 = c2

5
c = dist(p, q)
b

q = (6, 1)

a
3

Euclidean Distance in n dimensions

Euclidean Distance

dist =

(p
k =1

qk )

Where n is the number of dimensions (attributes) and pk and qk

are, respectively, the kth attributes (components) or data
objects
bj t p and
d q.
z

Standardization is necessary, if scales differ.

Euclidean Distance
3

point
p1
p2
p3
p4

1
p2
p

0
0

y
2
0
1
1

p1
p1
p2
p3
p4

x
0
2
3
5

0
2.828
3.162
5.099

p2
2.828
0
1.414
3.162

Distance Matrix

p3
3.162
1.414
0
2

p4
5.099
3.162
2
0

More about Euclidean distance

dist ( p, q) =

2
(
p

q
)
k k =
k =1

p = (3, 5)

q = (0, 0)

2
p
k= p
k =1

length of vector p

Minkowski Distance
z

Minkowski Distance is a generalization of Euclidean

Distance

dist = ( | pk qk
k =1

1
r r
|)

Where r is a parameter, n is the number of dimensions

(attributes) and pk and qk are, respectively, the kth attributes
(components) or data objects p and q.

Minkowski Distance: Examples

r = 1. Cityy block ((Manhattan, taxicab, L1 norm)) distance.

A common example of this is the Hamming distance, which is just the
number of bits that are different between two binary vectors

z
z

r = 2. Euclidean distance
r . supremum (Lmax norm, L norm) distance.
This is the maximum difference between any component of the vectors

Do not confuse r with n, i.e., all these distances are

defined for all numbers of dimensions.

From Wikipedia

Minkowski Distance

point
p1
p2
p3
p4
p

x
0
2
3
5

y
2
0
1
1

L1
p1
p2
p3
p4

p1
0
4
4
6

p2
4
0
2
4

p3
4
2
0
2

p4
6
4
2
0

L2
p1
p2
p3
p4

p11

p22
2.828
0
1.414
3.162

p33
3.162
1.414
0
2

p44
5.099
3.162
2
0

L
p1
p
p2
p3
p4

0
2.828
3.162
5.099

0
2
3
5

2
0
1
3

Distance Matrix

3
1
0
2

5
3
2
0

Common Properties of a Distance

Distances, such as the Euclidean distance,

have some well known properties.
1.

d(p, q) 0 for all p and q and d(p, q) = 0 only if

p = q. (Positive definiteness)

d(p, q) = d(q, p) for all p and q. (Symmetry)

d(p, r) d(p, q) + d(q, r) for all points p, q, and r.

((Triangle
g Inequality)
q
y)

where d(p, q) is the distance (dissimilarity) between

points, p and q.
z

A distance that satisfies these properties is a

metric

Lecture 4
No ratings yet
Lecture 4
33 pages
Mod 4 Types of Data in Cluster Analysis
No ratings yet
Mod 4 Types of Data in Cluster Analysis
31 pages
03 - Data Mining
No ratings yet
03 - Data Mining
37 pages
Lec09 466 PDF
No ratings yet
Lec09 466 PDF
5 pages
Similarty and Dissimilarity
No ratings yet
Similarty and Dissimilarity
11 pages
Data Mining Lecture 1 - Summary
No ratings yet
Data Mining Lecture 1 - Summary
3 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
Lec 5
No ratings yet
Lec 5
24 pages
Materi 7.1. Distance Measurement
No ratings yet
Materi 7.1. Distance Measurement
14 pages
Data Science: Department of Computer Science & Engineering
No ratings yet
Data Science: Department of Computer Science & Engineering
31 pages
class 1c -DataFundamentals
No ratings yet
class 1c -DataFundamentals
27 pages
2 Similarity Disimilarity Measure
No ratings yet
2 Similarity Disimilarity Measure
35 pages
DMi 03 Proximity
No ratings yet
DMi 03 Proximity
9 pages
Clustering Lecture 1: Basics: Jing Gao
No ratings yet
Clustering Lecture 1: Basics: Jing Gao
62 pages
29.measuring Data Similarity and Dissimilarity Introduction
No ratings yet
29.measuring Data Similarity and Dissimilarity Introduction
43 pages
02 Tinh Khoang Cach - Compatibility Mode
No ratings yet
02 Tinh Khoang Cach - Compatibility Mode
14 pages
Chapter 2: Getting To Know Your Data
No ratings yet
Chapter 2: Getting To Know Your Data
30 pages
Data Similarity
0% (1)
Data Similarity
18 pages
Lecture 3-Know Your Data - M
No ratings yet
Lecture 3-Know Your Data - M
19 pages
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
No ratings yet
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
4 pages
9-2 Data analysis and pre-processing part 2.pdf
No ratings yet
9-2 Data analysis and pre-processing part 2.pdf
27 pages
Dist
No ratings yet
Dist
14 pages
DMi_03-Proximity
No ratings yet
DMi_03-Proximity
51 pages
Reachable Distance Function For KNN Classification
No ratings yet
Reachable Distance Function For KNN Classification
152 pages
Similarity
No ratings yet
Similarity
19 pages
L13
No ratings yet
L13
19 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
02data Part4
No ratings yet
02data Part4
28 pages
4
No ratings yet
4
26 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
RL3.2 Data Similarity 1
No ratings yet
RL3.2 Data Similarity 1
17 pages
DS5 Statistics
No ratings yet
DS5 Statistics
67 pages
Lab 2
No ratings yet
Lab 2
21 pages
Measure of Proximity
No ratings yet
Measure of Proximity
11 pages
Lecture No 1 Introduction
No ratings yet
Lecture No 1 Introduction
77 pages
Chapter - 2 Data Mining
No ratings yet
Chapter - 2 Data Mining
21 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
DistancesSimilarities
No ratings yet
DistancesSimilarities
39 pages
distance-and-similarity
No ratings yet
distance-and-similarity
33 pages
distance-and-similarity
No ratings yet
distance-and-similarity
33 pages
ML Co4 Session 29
No ratings yet
ML Co4 Session 29
36 pages
Data Mining: Similarity and Distance
No ratings yet
Data Mining: Similarity and Distance
6 pages
Showfile
No ratings yet
Showfile
130 pages
Introduction To Classification - KNN
No ratings yet
Introduction To Classification - KNN
29 pages
X Chapter 02 Data
No ratings yet
X Chapter 02 Data
67 pages
Lesson 6 Similarities KNN
No ratings yet
Lesson 6 Similarities KNN
25 pages
Pattern Recognition - Clustering - Classification
No ratings yet
Pattern Recognition - Clustering - Classification
177 pages
Similarity
No ratings yet
Similarity
20 pages
Similarity
No ratings yet
Similarity
20 pages
Introduction To Data Science: Tom A S Horv Ath
No ratings yet
Introduction To Data Science: Tom A S Horv Ath
39 pages
DWDM Unit6-Data Similarity Measures
No ratings yet
DWDM Unit6-Data Similarity Measures
40 pages
lec3
No ratings yet
lec3
60 pages
Distance Functions
No ratings yet
Distance Functions
7 pages
Cluster Analysis Introduction (Unit-6)
No ratings yet
Cluster Analysis Introduction (Unit-6)
20 pages
Data Mining: Data: Lecture Notes For Chapter 2
No ratings yet
Data Mining: Data: Lecture Notes For Chapter 2
34 pages
CS2209 Similarity Distances
No ratings yet
CS2209 Similarity Distances
23 pages
Clustering
0% (1)
Clustering
127 pages
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-2
No ratings yet
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-2
16 pages
Mathematical Functions
From Everand
Mathematical Functions
Oliver Linton
No ratings yet
The Red Book of Mathematical Problems
From Everand
The Red Book of Mathematical Problems
Kenneth S. Williams
No ratings yet
Data Collection
No ratings yet
Data Collection
40 pages
The Concept of Research Refers To
No ratings yet
The Concept of Research Refers To
4 pages
A New Era in Designing and Managing The Wireless Network
No ratings yet
A New Era in Designing and Managing The Wireless Network
6 pages
ICCR Scholarships 2014 15
No ratings yet
ICCR Scholarships 2014 15
15 pages
a, b → ε b, a → ε: count count
No ratings yet
a, b → ε b, a → ε: count count
10 pages
cs3100 Test 1 October 12, 2004
No ratings yet
cs3100 Test 1 October 12, 2004
7 pages
1.1 Why Study Theory?
No ratings yet
1.1 Why Study Theory?
5 pages
Web Programming.
No ratings yet
Web Programming.
6 pages
Training Canter: ( (Library System) )
No ratings yet
Training Canter: ( (Library System) )
1 page
التحكم بالريجستري لفتح الياهو باكثر من نسخه
No ratings yet
التحكم بالريجستري لفتح الياهو باكثر من نسخه
6 pages
CIVL101: Lecture-29 Test of Significance of Large Samples Z-Statistic
No ratings yet
CIVL101: Lecture-29 Test of Significance of Large Samples Z-Statistic
21 pages
Jurnal TKSDL m12
No ratings yet
Jurnal TKSDL m12
248 pages
Questionnaire Design Sharambei
No ratings yet
Questionnaire Design Sharambei
33 pages
04 Unit 3B FRQ Probability Distributions Review Videos
No ratings yet
04 Unit 3B FRQ Probability Distributions Review Videos
3 pages
Auditing Theory - Chapter 1 and 2
No ratings yet
Auditing Theory - Chapter 1 and 2
4 pages
Rosel, Charlene. Bpp Research Proposal
No ratings yet
Rosel, Charlene. Bpp Research Proposal
13 pages
Psicothema2013UsingR MAPE
No ratings yet
Psicothema2013UsingR MAPE
8 pages
Electromagnetic Methods in Geophysics
100% (2)
Electromagnetic Methods in Geophysics
120 pages
EE Guidebook - Class of 2024
No ratings yet
EE Guidebook - Class of 2024
14 pages
Hansen 等 - Simulating the Survey of Professional Forecasters-update
No ratings yet
Hansen 等 - Simulating the Survey of Professional Forecasters-update
55 pages
Research - A Way of Thinking: Chapter 1 - Research Methodology, Ranjit Kumar
100% (1)
Research - A Way of Thinking: Chapter 1 - Research Methodology, Ranjit Kumar
36 pages
Sustainability 09 01494
No ratings yet
Sustainability 09 01494
10 pages
Sample SIP Report
No ratings yet
Sample SIP Report
51 pages
Contoh-ToR Baseline - Survey Institutiion
No ratings yet
Contoh-ToR Baseline - Survey Institutiion
7 pages
Chapter 7 of TU BBA 8th Semester Marketing Research
No ratings yet
Chapter 7 of TU BBA 8th Semester Marketing Research
33 pages
Estimation and Sampling Answer by WWW - Studyrift.info
No ratings yet
Estimation and Sampling Answer by WWW - Studyrift.info
14 pages
Teaching Learning Activities
No ratings yet
Teaching Learning Activities
10 pages
Research Proposal 1
No ratings yet
Research Proposal 1
12 pages
SOCIAL NETWORK ANALYSIS in Project Management - A Case Study of Analysing Stakeholder Networks
No ratings yet
SOCIAL NETWORK ANALYSIS in Project Management - A Case Study of Analysing Stakeholder Networks
5 pages
A Quantitative Risk Assessment Methodology For Construction Project
No ratings yet
A Quantitative Risk Assessment Methodology For Construction Project
16 pages
Kasikci Yildirim 2024 Interventions To Improve Ethical Decision Making Skills in Nursing Students A Systematic Review
No ratings yet
Kasikci Yildirim 2024 Interventions To Improve Ethical Decision Making Skills in Nursing Students A Systematic Review
13 pages
Momentum Re-Teach Form
No ratings yet
Momentum Re-Teach Form
2 pages
Astm D6299 - 22
No ratings yet
Astm D6299 - 22
35 pages
Jurnal Pro Environment Behavior - 3
No ratings yet
Jurnal Pro Environment Behavior - 3
3 pages
cat-2-year-7-2nd-term-maths
No ratings yet
cat-2-year-7-2nd-term-maths
3 pages
Lesson 6-7 - (Draw Conclusions From Patterns and Themes) (Formulating Recommendations Based On Conclusions)
No ratings yet
Lesson 6-7 - (Draw Conclusions From Patterns and Themes) (Formulating Recommendations Based On Conclusions)
7 pages
Ganti Juudl PDF
No ratings yet
Ganti Juudl PDF
7 pages
Marketing Strategy Suzuki
No ratings yet
Marketing Strategy Suzuki
42 pages
Randomised Clinical Trialof The Effectivenessof BIprism VSplacebo
No ratings yet
Randomised Clinical Trialof The Effectivenessof BIprism VSplacebo
7 pages
Econometrics and Softwar Applications (Econ 7031) Assignment
No ratings yet
Econometrics and Softwar Applications (Econ 7031) Assignment
8 pages

Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2

Uploaded by

Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2

Uploaded by

Data Mining: Data

Lecture Notes for Chapter 2

What went wrong in 1936?

Literary Digest successively conducted surveys since 1920 and

IIn 1936 they

actual elections showed that Roosevelt won 61% vs. 37%

Literary digest sent 10 million ballots to voters in the USA

names obtained from phone registries and automobile licensing

So, what was the problem ?

What went wrong in 1936 (1)

What went wrong in 1936 (2)

What went wrong in 1936 (3)

Collection of data objects and

Similarity and Dissimilarity

Similarity/Dissimilarity for Simple Attributes

p and q are the attribute values for two data objects.

Euclidean Distance in n dimensions

Where n is the number of dimensions (attributes) and pk and qk

Standardization is necessary, if scales differ.

More about Euclidean distance

Minkowski Distance is a generalization of Euclidean

Where r is a parameter, n is the number of dimensions

Minkowski Distance: Examples

r = 1. Cityy block ((Manhattan, taxicab, L1 norm)) distance.

Do not confuse r with n, i.e., all these distances are

Common Properties of a Distance

Distances, such as the Euclidean distance,

d(p, q) 0 for all p and q and d(p, q) = 0 only if

d(p, q) = d(q, p) for all p and q. (Symmetry)

d(p, r) d(p, q) + d(q, r) for all points p, q, and r.

where d(p, q) is the distance (dissimilarity) between

A distance that satisfies these properties is a

You might also like