DM Ch3 Data Preprocessing
DM Ch3 Data Preprocessing
INF 489
I". • • • 4 4 I t
Of*, r a l * c a ,
0, i t 4 4?) g o
4t 4
In structor:
t r a l k " A l % 7 A %
Dr. Mohamed H. Farrag DATA MINING
Concepts a n d Techniques
Tan, Steinbach,
Karpatne, Kumar
01 I
lit_t'Pilib,4 Aim
q rI
I I 4 1
4 ! fig d i
OData Preprocesdng I P I I APIIt l i A v \. i.t odrv _ 0 4
t V
• ,,,,i,... A ollikow d i a f f 4
DATA MINING
Concepts a n d Techniques
• Sampling
• Dimensionality Reduction
• Feature creation
• Attribute Transformation
180
160
g 140
0 120
-CI 1 0 0
_J 8 0
in'g:17) 60
z 40
20
0 5 10 1 5 la 1 2 1 4 1 0 1 0 2 0
•
• .• • •• ••
•, ...VI, • • • • •!' 4 • • • • •
• . 4 • • : * : • •
• • ! .••tts'1••?••••• • • • • • %.• • : '
•
; • • ••Te•••?4,3••• •
I t , . . 4 11 - • • •••• • • • i • • t t r I . N : . : * •• • %tot' •s " ••1•••• •••••%. •
rg • • •
4'••1
• ••• ,• -••• -• .• •
• givi••• ••••••: tws •
•
••••• .•!%„n : ▪ A m • •••:•••• 544 .•••
• • •• *0°
•4••
•
••• • •••
••*,,• • • • •
• 5-1 •-•.'
•
00
• %
,
t.:••b• •'•. • • • :;e•
:'e' ;•••:i .•-% '<i'...
; ;At••!,%: SE.1.••••
.„:". *0'; % . . t " ; A t ,
. ft.,. z .•
N.1 0•;„•• •• % • • • •• * • • •
•
• t• Pi * h . : I r y % . . . . * t e l . . 0 . • •• •
• t k**
: tV, . .f•. 1• 1 • s•. •. •b• 2•••
T. 2 • 1 4 1 : 7 . : f : : • vvii141*
• •-s, •
•• ;",/ • , h:,-: . . 0 . - •si•, .:• •• .• •-•tt:•••0
.4. ...: •• • •• • •• ' • ••• • • • •••••
-• • • • • ••
.••:.•• . .•4 at': 41•'%.1
•?....;.••• ::.t•l'?,
74 -..I3,;:-1.4.1.-..4
i•A••z-•ss.r.•
•kZ% •••4 •• 441-';';:l .•%•••• •
•,.,• le: :At-es:*
• • • • • •.:
•••:-.4.'
w•••,•••.c.,. • •••• i v 4• •
•
• • •• •
•••• • • . •
• Techniques
—Principal Components Analysis (PCA)
—Singular Value Decomposition
—Others: supervised and non-linear techniques
Dr. Mohamed H. Farrag 2 1 C o u r s e : Data Mining Ch2: Getdng to Know Your Data
Cri)_
Similarity/Dissimilarity for Simple Attributes
Instructor: Dr. Mohamed H. Farrag 22 C o u r s e : Data Mining Ch2: Getting to Know Your Data C o t , _
Data Mining: Exploring Data
—Summary statistics
—Visualization
—Online Analytical Processing (OLAP)
15
Nut Width
Explorer
Preprocess Classify I Cluster I Associate I Select attributes I Visualize
rliter
Choose ( N o n e
Remove
4
3
petal width petal length
-4— outlier
• B o x Plots
—Invented by J.
4— 90th percentile
Tukey
—Another way of
displaying the
distribution of 4— 75th percentile
data
4— 50th percentile
—Following figure
4— 25th percentile
shows the basic
part of a box plot
4— 10th percentile
E
0
sepal length s e p a l width p e t a l length p e t a l width
00
0
0 at9
4 4 / Ii9 ' t 0 +
xx,,,§4k0<ack
4
7 8 2 4 2 4 6 0
sepal length sepal width p e t a l length p e t a l width
a Setosa
Versicolor
Virginica - - Setosa
Versicolor
Virginica
i (
sepal? length sepal width petal length petal width s e p 3 width sepal length petal length petal width
A I A L Dsa
2 3 4 5
51 5
<I>
2 5 3
' W
54 55
sicolour
102 1 0 3
<le 1 0 4 1 0 5
lmica
Virginica
Versicolour
Setosa
high
medium
•ec.'
low c-)9
Petal 0
Width
Date
Product ID
[
-•
Instructor: Dr. Mohamed H. Farrag 4 5 C o u r s e : Data Mining Ch3: Data Pleprocessing -