Lecture # 13 Data_Transformation_Techniques

The document discusses various data transformation techniques essential for preparing data for analysis, including feature encoding methods like One-Hot, Label, and Binary Encoding. It also covers normalization techniques such as Min-Max Scaling, Z-Score Normalization, and Robust Scaling, highlighting their applications and best practices. Challenges in data transformation and the importance of maintaining data integrity and consistency are also addressed.

Uploaded by

Ezza Mehmood

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views

Lecture # 13 Data_Transformation_Techniques

Uploaded by

Ezza Mehmood

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 36

Data Transformation

and Feature Scaling

Data Science
Feature Encoding - Overview
• Feature encoding is converting categorical data into numerical
format. It's necessary because most machine learning
algorithms can only handle numerical values.
One-Hot Encoding
• One-Hot Encoding creates new columns indicating the
presence of each possible value from the original data. It's
ideal for categorical variables where no ordinal relationship
exists.
Label Encoding
• Label Encoding converts each value in a column to a number.
It’s useful for ordinal data, i.e., where the categorical values
hold a mathematical significance.
Binary Encoding
• Binary Encoding converts categories into binary digits. Each
binary digit creates one feature column. If there are n unique
categories, you get log2(n) new features, making it efficient for
high cardinality features.
Handling Mixed Data Types
• Handling mixed data types involves applying different
transformations to different types of data within the same
dataset. Techniques include using different scalers or encoders
based on the nature of the data.
Challenges in Data
Transformation
• Challenges include maintaining data integrity, handling
transformation of mixed data types, dealing with outliers, and
scalability issues in large datasets.
Best Practices in Data Transformation
• Ensure consistency in methods applied, document
transformations clearly, test transformations on small data
before full application, and always keep the raw data before
transformation.
Conclusion
• Data transformation is a foundational step in preparing data
for analysis. It helps improve the quality and efficiency of data
analysis, leading to more accurate insights.
Introduction to Data Transformation
• Data transformation involves converting data from one format
or structure into another. This process is crucial for data
cleaning, data integration, and preparation of data for
analysis. It enhances the data quality and makes it suitable for
specific analytical or operational purposes.
Why Transform Data?
• Data transformation is essential for several reasons: it
normalizes scale, converts data types, handles missing values,
and prepares data for analysis, ensuring that the results of
machine learning models are accurate and reliable. It's crucial
for comparing data that originates from different sources.
Normalization - Concept
• Normalization adjusts the scale of data without distorting
differences in the ranges of values. It brings all the data into a
specific range, usually 0 to 1, making it easier to process by
analytical methods.
Min-Max Scaling
• Min-Max Scaling is a simple method where values are shifted
and rescaled so that they end up ranging from 0 to 1.
• Formula:
• It is useful for algorithms that assume data is on the same
scale.
Z-Score Normalization (Standardization)
• Z-Score Normalization involves rescaling data to have a mean
(μ) of 0 and a standard deviation (σ) of 1. Formula: (X - μ) / σ.
This method standardizes the range of independent variables
or features of data.
Mean Scaling
• Mean Normalization is a technique used to scale data such
that the features have a mean of zero and are scaled within a
range. This technique shifts the data to center it around the
mean and then scales it by the range (difference between the
maximum and minimum values).
Mean Scaling
When do we use Mean Normalization?
• When we need the data to be centered around zero.
• When the features have different units and we want to make
them comparable.
• When the dataset includes both positive and negative values
(it can be useful for algorithms like k-nearest neighbors or
linear regression).
Mean Scaling
Sample Height (cm) Weight (kg)
1 170 70
2 180 80
3 160 60
What is MaxAbs Scaling?
• MaxAbs Scaling is another technique for scaling data where
each feature is scaled by its maximum absolute value, making
the values fall within the range [−1,1][-1, 1][−1,1].

When to use MaxAbs Scaling?

• When your data is sparse (i.e., many zero values).
• When your features already have a positive and negative
range, but you want to scale them into the range [−1,1]
without shifting them.
• When you don’t want to change the sign of your data.
Example

Sample Height (Scaled)

1 0.944
2 1
3 0.889
Robust Scaling
• Robust Scaling uses the median and the interquartile range for
scaling.
• Formula:
• It's beneficial for datasets with outliers.

Employee Attrition Study Case
No ratings yet
Employee Attrition Study Case
88 pages
Unit 4 Basics of Feature Engineering
No ratings yet
Unit 4 Basics of Feature Engineering
33 pages
Data Transformation
No ratings yet
Data Transformation
5 pages
3_AML _Lecture 3_Feature Engg
No ratings yet
3_AML _Lecture 3_Feature Engg
39 pages
4 Data Pre Processing II
No ratings yet
4 Data Pre Processing II
26 pages
DAI101 4 Data Preparation (1)
No ratings yet
DAI101 4 Data Preparation (1)
45 pages
23.-Scaling-Techniques
No ratings yet
23.-Scaling-Techniques
30 pages
1737527078055
No ratings yet
1737527078055
111 pages
ML - WEEK 04
No ratings yet
ML - WEEK 04
33 pages
Week 10
No ratings yet
Week 10
50 pages
Data Normalization
No ratings yet
Data Normalization
7 pages
Lecture 7 Data Transformation and Dimensionality Reduction
No ratings yet
Lecture 7 Data Transformation and Dimensionality Reduction
22 pages
Eda
No ratings yet
Eda
48 pages
Normalization and Standardization: Methods To Preprocess Data To Have Consistent Scales and Distributions
No ratings yet
Normalization and Standardization: Methods To Preprocess Data To Have Consistent Scales and Distributions
10 pages
CH1
No ratings yet
CH1
64 pages
FeatureEngineering (1)
No ratings yet
FeatureEngineering (1)
50 pages
DS Day 5
No ratings yet
DS Day 5
11 pages
Unit-2Exploratory-Analysis
No ratings yet
Unit-2Exploratory-Analysis
37 pages
5 Data Pre Processing II
No ratings yet
5 Data Pre Processing II
26 pages
data processing
No ratings yet
data processing
19 pages
Machine Learning - Lec4 - 5
No ratings yet
Machine Learning - Lec4 - 5
41 pages
Data Preparation.2
No ratings yet
Data Preparation.2
18 pages
ML Unit 2
No ratings yet
ML Unit 2
90 pages
Data Transformation (1)
No ratings yet
Data Transformation (1)
16 pages
3 1 Chapter 3 Normalization
No ratings yet
3 1 Chapter 3 Normalization
22 pages
Data Transformation and standardization
No ratings yet
Data Transformation and standardization
5 pages
Lecture-11 - Feature Scaling
No ratings yet
Lecture-11 - Feature Scaling
26 pages
Feature Engineering For Machine Learning
No ratings yet
Feature Engineering For Machine Learning
41 pages
Unit 2 ML 2019
No ratings yet
Unit 2 ML 2019
91 pages
Summary Chap 1 & 2
No ratings yet
Summary Chap 1 & 2
5 pages
Unit 2
No ratings yet
Unit 2
9 pages
Unit 1
No ratings yet
Unit 1
8 pages
Data Normalization in Data Mining
No ratings yet
Data Normalization in Data Mining
8 pages
Data Mining
No ratings yet
Data Mining
33 pages
Feature Scaling in Machine Learning
No ratings yet
Feature Scaling in Machine Learning
4 pages
Week 3
No ratings yet
Week 3
2 pages
5 Data Preprocessing III Editted Notes
No ratings yet
5 Data Preprocessing III Editted Notes
17 pages
JAVA Advanced 3
No ratings yet
JAVA Advanced 3
19 pages
1.3.2. Feature Engineering and Variable - Transformation
No ratings yet
1.3.2. Feature Engineering and Variable - Transformation
29 pages
Exploratory Data Analysis - Satyajit
No ratings yet
Exploratory Data Analysis - Satyajit
35 pages
Ds 5
No ratings yet
Ds 5
9 pages
Normalization: Normalization Techniques at A Glance
No ratings yet
Normalization: Normalization Techniques at A Glance
5 pages
Data Transformation
No ratings yet
Data Transformation
12 pages
Mod1 DM Part2
No ratings yet
Mod1 DM Part2
34 pages
4 - Finding and Fixing Data Quality Issues
No ratings yet
4 - Finding and Fixing Data Quality Issues
48 pages
Feature Scaling (Standardization & Normalization)
No ratings yet
Feature Scaling (Standardization & Normalization)
35 pages
FDS CH 3
No ratings yet
FDS CH 3
2 pages
feature scaling
No ratings yet
feature scaling
6 pages
Data Preparation.
No ratings yet
Data Preparation.
36 pages
Data Transformation
No ratings yet
Data Transformation
16 pages
Xplore Feature Engineering
No ratings yet
Xplore Feature Engineering
9 pages
Data Analytics Course Session 1-5
100% (1)
Data Analytics Course Session 1-5
252 pages
IDS5
No ratings yet
IDS5
56 pages
Feature Scaling Techniques: Machine Learning
No ratings yet
Feature Scaling Techniques: Machine Learning
27 pages
CH2 Data Integration_Transformation
No ratings yet
CH2 Data Integration_Transformation
16 pages
DMDW 5
No ratings yet
DMDW 5
25 pages
chap3
No ratings yet
chap3
26 pages
WINSEM2024-25_MCSE615L_TH_VL2024250502897_2025-01-11_Reference-Material-I
No ratings yet
WINSEM2024-25_MCSE615L_TH_VL2024250502897_2025-01-11_Reference-Material-I
11 pages
Study+Material+Unit 4+Data+Preprocessing+
No ratings yet
Study+Material+Unit 4+Data+Preprocessing+
8 pages
Unit 4 4407 Data Mining Discussion
No ratings yet
Unit 4 4407 Data Mining Discussion
2 pages
Practical Data Strategies and Recipes
From Everand
Practical Data Strategies and Recipes
Tom Henricksen
No ratings yet
Data Science Bootcamp (Day-01) (1) - Compressed
No ratings yet
Data Science Bootcamp (Day-01) (1) - Compressed
161 pages
Data Pre-Processing Python For Beginner
No ratings yet
Data Pre-Processing Python For Beginner
12 pages
StarterNotebook - Jupyter Notebook
No ratings yet
StarterNotebook - Jupyter Notebook
12 pages
Assignment 12
No ratings yet
Assignment 12
4 pages
Data Preprocessing Techniques in ML
No ratings yet
Data Preprocessing Techniques in ML
12 pages
DS&BD Lab Manul
No ratings yet
DS&BD Lab Manul
98 pages
DSBDA Lab Manual
No ratings yet
DSBDA Lab Manual
155 pages
CGAN
No ratings yet
CGAN
13 pages
ENCODING & Logistic Regression
No ratings yet
ENCODING & Logistic Regression
3 pages
CISC 867 Deep Learning: 14. Text Classification With Recurrent Neural Networks and Word Embeddings
No ratings yet
CISC 867 Deep Learning: 14. Text Classification With Recurrent Neural Networks and Word Embeddings
28 pages
Data Pre-Processing Python For Beginner
No ratings yet
Data Pre-Processing Python For Beginner
12 pages
Comp2712 l05 ML Feature
No ratings yet
Comp2712 l05 ML Feature
20 pages
Chisel Cheatsheet
No ratings yet
Chisel Cheatsheet
2 pages
Introduction To Scikit Learn
100% (1)
Introduction To Scikit Learn
108 pages
CS230 Midterm Solutions Fall 2022
No ratings yet
CS230 Midterm Solutions Fall 2022
20 pages
A Deep-Learned Embedding Technique For Categorical Features Encoding
No ratings yet
A Deep-Learned Embedding Technique For Categorical Features Encoding
11 pages
7-8 Feature Engineering 101-Normalization
No ratings yet
7-8 Feature Engineering 101-Normalization
8 pages
CATEGORICAL FEATURES With PYTHON
No ratings yet
CATEGORICAL FEATURES With PYTHON
24 pages
Unit 4 Basics of Feature Engineering
100% (1)
Unit 4 Basics of Feature Engineering
33 pages
(Articulo) A Comparative Study of Categorical Variable Encoding PDF
No ratings yet
(Articulo) A Comparative Study of Categorical Variable Encoding PDF
4 pages
Ansh Rohatgi 20csu169 AI ML WorkTag
No ratings yet
Ansh Rohatgi 20csu169 AI ML WorkTag
68 pages
Machine Learning For Beginners
No ratings yet
Machine Learning For Beginners
25 pages
Jntuk ML RECORD Full
No ratings yet
Jntuk ML RECORD Full
46 pages
Data Science Manual
No ratings yet
Data Science Manual
155 pages
CS 461 - Fall 2021 - Neural Networks - Machine Learning
No ratings yet
CS 461 - Fall 2021 - Neural Networks - Machine Learning
5 pages
30 Questions for Google Cloud Professional Machine Learning Engineer Exam _ Mikael Ahonen
No ratings yet
30 Questions for Google Cloud Professional Machine Learning Engineer Exam _ Mikael Ahonen
12 pages
Verilog FAQ Interview Questions
No ratings yet
Verilog FAQ Interview Questions
11 pages
01 - Feature Engg
No ratings yet
01 - Feature Engg
43 pages

Lecture # 13 Data_Transformation_Techniques

Uploaded by

Lecture # 13 Data_Transformation_Techniques

Uploaded by

Data Transformation

and Feature Scaling

When to use MaxAbs Scaling?

Sample Height (Scaled)

You might also like