Session 2 on Discreatization - Binning Notes

Discretization is the process of converting continuous features into discrete or categorical variables in machine learning, which helps reduce overfitting, handle non-linear relationships, and improve interpretability. While it offers advantages such as better model compatibility and easier interpretation, it also has drawbacks like loss of information and challenges in choosing bin sizes. Various methods of discretization include custom binning, uniform binning, quantile binning, K-means binning, threshold binning, and decision tree-based binning.

Uploaded by

akhilesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views

Session 2 on Discreatization - Binning Notes

Uploaded by

akhilesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

What is Discretization?

15 February 2024 06:35

Discretization or Binning in the context of machine learning and feature engineering is a

process that involves converting continuous features or variables into discrete or categorical
ones.
Why learn Discretization?
16 February 2024 08:26

1. Reduces Overfitting
By converting continuous variables into discrete bins, discretization effectively simplifies
the feature space. This simplification means the model has fewer nuances to learn from
the training data. While this might lead to a loss in detail or granularity, it also means
there's less chance for the model to learn noise or overly complex patterns that don't
generalize well to unseen data.
Discretization acts as a form of regularization, imposing a constraint on the model's
complexity. By reducing the number of unique values a feature can take, it limits the
model's ability to fit the training data too closely.

2. Handling non linear relationships

Linear models inherently assume a linear relationship between features and the target
variable. Discretization allows these models to approximate non-linear relationships by
fitting separate slopes to each bin, which can collectively approximate a non-linear trend.

3. Handling outliers
When you discretize the data, you categorize these continuous values into bins based on
their range. An outlier's impact is diluted because it's grouped with other values in the
same bin, reducing its ability to disproportionately influence the analysis. Essentially,
within each bin, the data points are treated equivalently, regardless of their specific
values.

4. Better interpretability
By grouping continuous data into bins, each bin can be treated as a distinct category with
its own effect on the model's predictions. This categorical interpretation allows for
straightforward explanations, such as "being in age group 30-40 increases the likelihood
of buying a new car compared to age group 20-30," which is more intuitive than
interpreting the effect of a one-year increase in age.

5. Model Compatibility
Discretization works particularly well with certain algorithms because it transforms
continuous variables into discrete ones, which can align better with the way these
algorithms process and interpret data. The effectiveness of discretization largely depends
on the nature of the algorithm, the specific data being analysed, and the problem being
solved.

Here's why discretization is favourable for some algorithms:

1. Decision Trees and Ensemble Methods:

○ Algorithms like decision trees (and by extension, ensemble methods like Random
Forests and Gradient Boosting Machines) inherently split data into branches based
on conditions. Discretization can make these splits more meaningful, especially if the
continuous data does not have a clear linear relationship with the target variable.
Pre-discretized features can lead to simpler trees that are easier to interpret and
possibly more generalizable.
continuous data does not have a clear linear relationship with the target variable.
Pre-discretized features can lead to simpler trees that are easier to interpret and
possibly more generalizable.

2. Naive Bayes:

○ Naive Bayes classifiers, particularly in their basic forms, assume that features are
independent and often deal better with categorical data. Discretization can help
when applying Naive Bayes to continuous data by fitting its assumption of category-
based probabilities, potentially improving model performance and interpretability.
Disadvantages of Discretization
16 February 2024 17:31

1. Loss of information
2. Model Incompatibility
3. Difficulty in choosing bin size
Types of Discretization
16 February 2024 16:54
1. Custom Binning
15 February 2024 06:57

Custom binning, also known as domain binning, is a data pre-processing technique where the
bins are defined based on domain knowledge, specific criteria, or predefined thresholds rather
than through an automated or algorithmic process. This method allows for the creation of bins
that have meaningful interpretations in the context of the specific problem domain or analysis
goals.

Examples

1. Tax Slabs
2. Credit Score for Loan Eligibility
3. Healthcare - BMI Indexing
4. Educational Grading System
5. Air Quality Reporting
2. Uniform Binning
15 February 2024 06:56

Advantages:

1. Simple
2. Uniform Coverage

When to use:

1. Evenly distributed data

2. Use as a baseline
3. Quantile Binning
15 February 2024 06:57

Quantile binning, also known as equal-frequency binning, is a method of binning continuous

variables into categories with an equal number of data points. Unlike uniform binning, which
divides the range of the data into intervals of equal size, quantile binning divides the data such
that each bin has the same number of observations, regardless of the interval width. This
approach is particularly useful for dealing with skewed data or when the aim is to normalize
the distribution of the data for further analysis.

Advantages:

1. Mitigates the impact of outlier

2. Handles skewed distribution

Disadvantages

1. Difficulty in bins interpretation

2. True info about the data distribution is lost.
3. Finding number of bins is still a challenge
4. Computationally expensive
4. K-Means Binning
15 February 2024 06:57

Advantages

1. Adaptive
2. Minimizes within-bin variance
3. You can find the ideal number of bins

Disadvantages

1. Sensitive to initialization
2. Computationally extensive
3. Assumption of similar sized and density clusters
4. Handling of outliers
5. Interpretability
5. Threshold Binning (Binarization)
15 February 2024 06:57
6. Decision Tree Based Binning
15 February 2024 06:57

4 Popular Discretization Techniques You Need to Know in Data Science (1)
No ratings yet
4 Popular Discretization Techniques You Need to Know in Data Science (1)
17 pages
Data Discretization
No ratings yet
Data Discretization
4 pages
Improved Discretization Based Decision Tree For Continuous Attributes
No ratings yet
Improved Discretization Based Decision Tree For Continuous Attributes
5 pages
Discretization Techniques A Recent Survey
No ratings yet
Discretization Techniques A Recent Survey
12 pages
4 Binning
No ratings yet
4 Binning
19 pages
Binning or Discretization
No ratings yet
Binning or Discretization
9 pages
1.9-b - Discretization - Concept-Hierarchy
No ratings yet
1.9-b - Discretization - Concept-Hierarchy
2 pages
IDS5
No ratings yet
IDS5
56 pages
Binning
No ratings yet
Binning
4 pages
4 - Discretization and Concept Hierarchy
No ratings yet
4 - Discretization and Concept Hierarchy
26 pages
A Survey of Discretization Techniques Taxonomy and Empirical Analysis in Supervised Learning
No ratings yet
A Survey of Discretization Techniques Taxonomy and Empirical Analysis in Supervised Learning
17 pages
4_Discretization and Concept Hierarchy
No ratings yet
4_Discretization and Concept Hierarchy
27 pages
Data Discretization and Concept Hierarchy Generation_PPT
No ratings yet
Data Discretization and Concept Hierarchy Generation_PPT
21 pages
Data Discretization
No ratings yet
Data Discretization
9 pages
DSBDA
No ratings yet
DSBDA
18 pages
DWDM AR16 Unit 1.2
No ratings yet
DWDM AR16 Unit 1.2
14 pages
Feature Eng Cheat Sheet
No ratings yet
Feature Eng Cheat Sheet
5 pages
insem notes
No ratings yet
insem notes
8 pages
Data Discretization
No ratings yet
Data Discretization
32 pages
4 - Finding and Fixing Data Quality Issues
No ratings yet
4 - Finding and Fixing Data Quality Issues
48 pages
2-Binning-Techniques-in-Data-Mining-with-Examples
No ratings yet
2-Binning-Techniques-in-Data-Mining-with-Examples
10 pages
what is data science and cpare data science and information science
No ratings yet
what is data science and cpare data science and information science
11 pages
Online Entropy-Based Discretization For Data Streaming Classification
No ratings yet
Online Entropy-Based Discretization For Data Streaming Classification
12 pages
Discretization of Continuous Attributes
No ratings yet
Discretization of Continuous Attributes
38 pages
Entropy-Based Algorithm For Discretization: April 2011
No ratings yet
Entropy-Based Algorithm For Discretization: April 2011
9 pages
Data Discretization Unification
No ratings yet
Data Discretization Unification
14 pages
3-Data Pre-Processing
No ratings yet
3-Data Pre-Processing
18 pages
Slide 2 - Data Preprocessing
100% (1)
Slide 2 - Data Preprocessing
39 pages
5 Data Preprocessing III Editted Notes
No ratings yet
5 Data Preprocessing III Editted Notes
17 pages
Data Mining - Discretization
100% (1)
Data Mining - Discretization
5 pages
#CH-2.1.5
No ratings yet
#CH-2.1.5
19 pages
Exp 5
No ratings yet
Exp 5
11 pages
Normalization
No ratings yet
Normalization
35 pages
Lecture 5 # Effective Data Denoising Techniques
No ratings yet
Lecture 5 # Effective Data Denoising Techniques
18 pages
Intro Data Binning
No ratings yet
Intro Data Binning
19 pages
A Discretization Algorithm For Uncertain Data
No ratings yet
A Discretization Algorithm For Uncertain Data
15 pages
Data Pre Processing - NG
No ratings yet
Data Pre Processing - NG
43 pages
Algorithms 20130703 PDF
No ratings yet
Algorithms 20130703 PDF
53 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
Decision Tree Pruning: Fundamentals and Applications
From Everand
Decision Tree Pruning: Fundamentals and Applications
Fouad Sabry
No ratings yet
02 - ML - Data Presentation-24-03-09
No ratings yet
02 - ML - Data Presentation-24-03-09
21 pages
w2-Data_Preparation
No ratings yet
w2-Data_Preparation
46 pages
Types of Data (Qualitative and Quantitative)
No ratings yet
Types of Data (Qualitative and Quantitative)
89 pages
CAIM Discretization Algorithm: Lukasz A. Kurgan, Member, IEEE, and Krzysztof J. Cios, Senior Member, IEEE
No ratings yet
CAIM Discretization Algorithm: Lukasz A. Kurgan, Member, IEEE, and Krzysztof J. Cios, Senior Member, IEEE
9 pages
Spatial and Temporal Data Mining
No ratings yet
Spatial and Temporal Data Mining
52 pages
Data Mining Discretization Methods and Performances
No ratings yet
Data Mining Discretization Methods and Performances
3 pages
Data Mining: Practical Machine Learning Tools and Techniques
No ratings yet
Data Mining: Practical Machine Learning Tools and Techniques
69 pages
ML_Notes
No ratings yet
ML_Notes
44 pages
Data Transformation (1)
No ratings yet
Data Transformation (1)
16 pages
Chi Merge
No ratings yet
Chi Merge
5 pages
Study of Discretization Methods in Classification
No ratings yet
Study of Discretization Methods in Classification
6 pages
Feature Engineering
No ratings yet
Feature Engineering
43 pages
Binning
No ratings yet
Binning
6 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
Data Preprocessing Techniques in ML
No ratings yet
Data Preprocessing Techniques in ML
12 pages
Discretization From The Top-Down
No ratings yet
Discretization From The Top-Down
3 pages
Naive Bayes Classifier: Fundamentals and Applications
From Everand
Naive Bayes Classifier: Fundamentals and Applications
Fouad Sabry
No ratings yet
A Data Pre Processing
No ratings yet
A Data Pre Processing
7 pages
01 - Feature Engg
No ratings yet
01 - Feature Engg
43 pages
Contextual Image Classification: Understanding Visual Data for Effective Classification
From Everand
Contextual Image Classification: Understanding Visual Data for Effective Classification
Fouad Sabry
No ratings yet
metra dic
No ratings yet
metra dic
10 pages
Overview of Oncology Studies
No ratings yet
Overview of Oncology Studies
7 pages
Clinical Sas Notes
No ratings yet
Clinical Sas Notes
2 pages
Clinical Notes
No ratings yet
Clinical Notes
47 pages
DSAPB1_RunningNotes_8PM
No ratings yet
DSAPB1_RunningNotes_8PM
149 pages
clinstdtktug
No ratings yet
clinstdtktug
512 pages
DSAPB1Addon
No ratings yet
DSAPB1Addon
4 pages
Airflow Class 2 Rough Notes
No ratings yet
Airflow Class 2 Rough Notes
9 pages
Project 3 - Airline Data Ingestion
No ratings yet
Project 3 - Airline Data Ingestion
1 page
Databricks_Class_2_Rough_Notes
No ratings yet
Databricks_Class_2_Rough_Notes
9 pages
adam and sdtm datasets
No ratings yet
adam and sdtm datasets
9 pages
Advanced Programming Sas94
No ratings yet
Advanced Programming Sas94
4 pages
adam sas
No ratings yet
adam sas
12 pages
2408.00118v3
No ratings yet
2408.00118v3
21 pages
Cite
No ratings yet
Cite
1 page
Human_Activity_Recognition_Poster
No ratings yet
Human_Activity_Recognition_Poster
1 page
Session 13 - Summary 9th March 2023
No ratings yet
Session 13 - Summary 9th March 2023
10 pages
Editable_Human_Activity_Recognition_Poster
No ratings yet
Editable_Human_Activity_Recognition_Poster
1 page
Human Activity Recognition Poster Editable
No ratings yet
Human Activity Recognition Poster Editable
1 page
3years SAMPLE
No ratings yet
3years SAMPLE
3 pages
Routing
No ratings yet
Routing
1 page
JAVA SCRIPT SUDHAKAR SHARMA(1)
0% (1)
JAVA SCRIPT SUDHAKAR SHARMA(1)
111 pages
CSE GATE 2021 Questions With Detailed Solutions ForeNoon Session
No ratings yet
CSE GATE 2021 Questions With Detailed Solutions ForeNoon Session
38 pages
Indicators Observations/Explanations: Fluency
No ratings yet
Indicators Observations/Explanations: Fluency
6 pages
How The Mind Arises Scientific American PDF
No ratings yet
How The Mind Arises Scientific American PDF
96 pages
2021 SPM Modul Perak Bahasa Inggeris K2
100% (2)
2021 SPM Modul Perak Bahasa Inggeris K2
68 pages
PITP JG Approved November 2016
No ratings yet
PITP JG Approved November 2016
2 pages
Library Dissertation in Conservative Dentistry and Endodontics
100% (1)
Library Dissertation in Conservative Dentistry and Endodontics
5 pages
S3 Material 1
No ratings yet
S3 Material 1
94 pages
Table Completion. Complete The Tables Below With Appropriate Terms
No ratings yet
Table Completion. Complete The Tables Below With Appropriate Terms
2 pages
Proposed BSTM Curriculum 2018-2019
No ratings yet
Proposed BSTM Curriculum 2018-2019
2 pages
m2 CH 2 Mi Supp Ex
No ratings yet
m2 CH 2 Mi Supp Ex
1 page
Analysis of Complex Sample Survey Data
No ratings yet
Analysis of Complex Sample Survey Data
20 pages
Antioxidant and Antiinflammatory Properties of Curcumin PDF
No ratings yet
Antioxidant and Antiinflammatory Properties of Curcumin PDF
21 pages
Dehp 780 MP
No ratings yet
Dehp 780 MP
104 pages
Suraj - Cover Letter
No ratings yet
Suraj - Cover Letter
1 page
Structural Behaviour of Cable - Stayed Bridge With Different Pylons Using STAAD Pro
No ratings yet
Structural Behaviour of Cable - Stayed Bridge With Different Pylons Using STAAD Pro
11 pages
Role of Media Essay
100% (2)
Role of Media Essay
6 pages
Blue Print Skala LSCS
No ratings yet
Blue Print Skala LSCS
2 pages
Accurate Packing
No ratings yet
Accurate Packing
9 pages
riordan_Ghosts in theory
No ratings yet
riordan_Ghosts in theory
17 pages
FindvolumeofasphereorhemisphereWorksheet (1)
No ratings yet
FindvolumeofasphereorhemisphereWorksheet (1)
3 pages
A Level Physics Unit 3 Mark Scheme Jan20
No ratings yet
A Level Physics Unit 3 Mark Scheme Jan20
9 pages
Natal Chart Report
No ratings yet
Natal Chart Report
26 pages
Scheme-History-Form 2
No ratings yet
Scheme-History-Form 2
6 pages
Experiments in Telepathy From Outer Space
No ratings yet
Experiments in Telepathy From Outer Space
2 pages
Ballistic Protection Against Armour Piercing Projectiles Using Titanium Base Armour
No ratings yet
Ballistic Protection Against Armour Piercing Projectiles Using Titanium Base Armour
17 pages
Divided by a common language – seven questions and eight answers about disaster risk reduction, finance and climate change adaptation — Centre for Disaster Protection
No ratings yet
Divided by a common language – seven questions and eight answers about disaster risk reduction, finance and climate change adaptation — Centre for Disaster Protection
4 pages
PPE LINGUAGENS 2a Fase
No ratings yet
PPE LINGUAGENS 2a Fase
3 pages
St. Adelaide School Philippines
No ratings yet
St. Adelaide School Philippines
2 pages
MOTI Fibre Reference Guide
No ratings yet
MOTI Fibre Reference Guide
70 pages
Introduction To Social Psychology
No ratings yet
Introduction To Social Psychology
82 pages
Approximate Value: Directions: What Approximate Value Will Come in Place of The
No ratings yet
Approximate Value: Directions: What Approximate Value Will Come in Place of The
2 pages