handling missing values

The document discusses various approaches for handling missing values in datasets, including Complete Case Analysis (CCA), Simple Imputation, Random Imputation, Missing Indicators, and Univariate Imputation methods like KNN and Iterative Imputer. Each method has its advantages and disadvantages, with CCA being simple but potentially leading to data loss, while imputation methods aim to preserve data distribution and improve model performance. Missing indicators are highlighted as a useful technique to capture information about missingness without altering the dataset's distribution.

Uploaded by

mriga jain

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views

handling missing values

Uploaded by

mriga jain

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 5

Handling Missing Values

For handling missing values different approaches are used from CCA, Simple imputation (For
Numerical -Mean/Median, Random, End of distribution and Categorical-Mode, missing category),
Random imputation for both numerical and categorical, Missing indicator, univariate -KNN imputer
and iterative imputer

Load and Explore Data: - Load your chosen dataset into a pandas DataFrame. - Use .info()
and .describe() to understand the structure and summary statistics of the dataset, including
missing values.

1. Complete Case Analysis (CCA)

 Description: Excludes any records with missing values.

 Advantages: Simple and ensures that only complete data is used.
 Disadvantages: Can lead to significant data loss if many records have missing values,
potentially biasing the analysis.

2. Simple Imputation

For Numerical Data:

 Mean Imputation: Replaces missing values with the mean of the available values.
 Median Imputation: Replaces missing values with the median of the available values.
 Random Imputation: Replaces missing values with randomly selected values from the
available data.
 End of Distribution: Replaces missing values with extreme values (e.g., very high or very
low values).

For Categorical Data:

 Mode Imputation: Replaces missing values with the most frequent value (mode).
 Missing Category: Introduces a new category to indicate missing values.

3. Random Imputation

 Description: Missing values are replaced by randomly selected values from the observed
values.
 Advantages: Maintains the distribution of the data.
 Disadvantages: Introduces randomness, which might not be appropriate for all datasets.

4. Missing Indicator

 Description: Adds a binary indicator variable for each feature with missing values to denote
the presence or absence of missing data.
 Advantages: Allows the model to learn patterns of missingness.
 Disadvantages: Increases the dimensionality of the dataset.
5. Univariate Imputation

KNN Imputer

 Description: Uses k-nearest neighbors to impute missing values. The missing value is
predicted based on the mean (or other statistics) of the neighbors.
 Advantages: Captures relationships between features and is generally more accurate than
simple imputation.
 Disadvantages: Computationally expensive and can be influenced by irrelevant features.

Iterative Imputer

 Description: Imputes missing values by modeling each feature with missing values as a
function of other features iteratively.
 Advantages: Often provides more accurate imputation by considering the multivariate
relationships between features.
 Disadvantages: Computationally intensive and requires careful handling to avoid overfitting.

Summary

 CCA: Good for datasets with few missing values; otherwise, may result in data loss.
 Simple Imputation: Easy to implement; may not capture the underlying data distribution.
 Random Imputation: Maintains data distribution but adds randomness.
 Missing Indicator: Useful for models that can handle increased dimensionality.
 Univariate Imputation (KNN, Iterative): More accurate but computationally intensive.
Missing Indicator

Creating a missing indicator involves the following steps:

1. Identify Missing Values: Determine which columns or features in your dataset have
missing values.
2. Create Indicator Variable: For each feature with missing values, create a new
binary column that indicates whether the original value was missing (1 for missing, 0
for not missing).
3. Include in Dataset: Add these indicator variables as additional features in your
dataset alongside the original features.
4. Apply to Different Types of Features: Missing indicators can be applied to both
numerical and categorical features to capture missing values effectively.

Purpose of Missing Indicators:

1. Preservation of Information: Missing indicators ensure that information about the

presence of missing values is not lost during data pre-processing. Instead of simply
imputing missing values, which might alter the distribution of the data, missing
indicators provide an additional feature that explicitly flags missingness.
2. Improved Model Performance: Including missing indicators as features in your
dataset allows machine learning algorithms to learn patterns associated with missing
values. This can sometimes lead to improved model performance, as the presence or
absence of missing values might be informative for predicting the target variable.
3. Flexibility in Modelling: Some algorithms, particularly tree-based models like
decision trees and random forests, can naturally handle missing values. Including
missing indicators allows these models to leverage information about missingness
without requiring imputation strategies that might introduce bias.
4. Decision Making in Imputation:When deciding how to handle missing values (e.g.,
impute with mean, median, or a specific value), analysts can use the missing indicator
to guide their decisions. For example, they might choose to impute missing values
differently depending on whether a missing indicator is present or not.
Cols
_with_missing)
# Create
missing
indicators

SOP-Quality Control Process For Fabric v4-1
67% (3)
SOP-Quality Control Process For Fabric v4-1
9 pages
Machine Learning
100% (2)
Machine Learning
136 pages
Simple Present Tense PowerPoint
100% (1)
Simple Present Tense PowerPoint
21 pages
Missing Data
No ratings yet
Missing Data
14 pages
Centraltendencywhattoconsider 1
No ratings yet
Centraltendencywhattoconsider 1
6 pages
FDS_U4.pptx
No ratings yet
FDS_U4.pptx
93 pages
Missing Data
No ratings yet
Missing Data
25 pages
EXP-12_IAIML
No ratings yet
EXP-12_IAIML
13 pages
DA unit 2 15m handling missing data
No ratings yet
DA unit 2 15m handling missing data
3 pages
Adsl Exp 3 2024
No ratings yet
Adsl Exp 3 2024
11 pages
CH 02 Data Handling Technique
No ratings yet
CH 02 Data Handling Technique
105 pages
Missing Data Values and How To Handle It
No ratings yet
Missing Data Values and How To Handle It
5 pages
Unit 3
No ratings yet
Unit 3
30 pages
Data Imputation for Missing Values
No ratings yet
Data Imputation for Missing Values
14 pages
Data - Preprocessing - 2
No ratings yet
Data - Preprocessing - 2
10 pages
DT - Missing Values
No ratings yet
DT - Missing Values
11 pages
DADM S5 Imputation of Missing Data
No ratings yet
DADM S5 Imputation of Missing Data
15 pages
Data Cleaning Workshop:: Club Data Science and Cloud Computing
No ratings yet
Data Cleaning Workshop:: Club Data Science and Cloud Computing
6 pages
Data Cleaning_Project work
No ratings yet
Data Cleaning_Project work
10 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
6 pages
3 -Missing Values-1
No ratings yet
3 -Missing Values-1
9 pages
Machine Learning Based Missing Data Imputation
No ratings yet
Machine Learning Based Missing Data Imputation
13 pages
Handling The Missing Values
No ratings yet
Handling The Missing Values
4 pages
Missing Data Imputation Using Singular Value Decomposition
No ratings yet
Missing Data Imputation Using Singular Value Decomposition
6 pages
Missing Data Handling
No ratings yet
Missing Data Handling
19 pages
platias2020-Greece
No ratings yet
platias2020-Greece
10 pages
Machine Learning Techniques Lesson 1
No ratings yet
Machine Learning Techniques Lesson 1
9 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
12 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
10 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Missing Data Analysis: University College London, 2015
No ratings yet
Missing Data Analysis: University College London, 2015
37 pages
Unit - 3 - R Programming
No ratings yet
Unit - 3 - R Programming
16 pages
Handling Missing Values in Python
No ratings yet
Handling Missing Values in Python
9 pages
WINSEM2018-19 - MGT1051 - TH - SJTG23 - VL2018195003627 - Reference Material I - 12-12 - C1 - BAE
No ratings yet
WINSEM2018-19 - MGT1051 - TH - SJTG23 - VL2018195003627 - Reference Material I - 12-12 - C1 - BAE
20 pages
"Handling and Mitigation of Missing Data in Sensors" Course: Business Data Mining Group 13
No ratings yet
"Handling and Mitigation of Missing Data in Sensors" Course: Business Data Mining Group 13
12 pages
MIssing Data Imputation Using Machine Learning Algorithm
No ratings yet
MIssing Data Imputation Using Machine Learning Algorithm
11 pages
Missing Values
No ratings yet
Missing Values
3 pages
FDS Unit 2
No ratings yet
FDS Unit 2
8 pages
Lecture 8 Handling Missing Values
No ratings yet
Lecture 8 Handling Missing Values
25 pages
04 05 PDE Missing Value
No ratings yet
04 05 PDE Missing Value
3 pages
v93b01
No ratings yet
v93b01
4 pages
Unit2 _Data Cleaning and Multivariate Techniques_26_01_2025
No ratings yet
Unit2 _Data Cleaning and Multivariate Techniques_26_01_2025
42 pages
Assignment 1
No ratings yet
Assignment 1
4 pages
Handling Missing Data
No ratings yet
Handling Missing Data
23 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
6 pages
The Negative Impact of Missing Value Imputation in Classification of Diabetes Dataset and Solution For Improvement
No ratings yet
The Negative Impact of Missing Value Imputation in Classification of Diabetes Dataset and Solution For Improvement
8 pages
Lecture 2.3.10
No ratings yet
Lecture 2.3.10
30 pages
10 Missing Values Option
No ratings yet
10 Missing Values Option
49 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Handling Missing Value
No ratings yet
Handling Missing Value
12 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
10 pages
Imputation
No ratings yet
Imputation
10 pages
8 Hron Et Al 2010
No ratings yet
8 Hron Et Al 2010
13 pages
AI351 Lecture 1 - Data Preprocessing
No ratings yet
AI351 Lecture 1 - Data Preprocessing
8 pages
What Are the Different Ways to Handle Missing Values
No ratings yet
What Are the Different Ways to Handle Missing Values
2 pages
Unit2
No ratings yet
Unit2
76 pages
DM Missing Value
No ratings yet
DM Missing Value
21 pages
Data Wrangling and Preprocessing
100% (1)
Data Wrangling and Preprocessing
41 pages
Chapter 1. Data Preparation (2)
No ratings yet
Chapter 1. Data Preparation (2)
74 pages
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
From Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
No ratings yet
Building A Low-Cost Weather Station
No ratings yet
Building A Low-Cost Weather Station
13 pages
Power Factor Improvement Effects
100% (2)
Power Factor Improvement Effects
9 pages
GTK Drugs
No ratings yet
GTK Drugs
5 pages
Sertel T PAN 300 Catalogue
50% (2)
Sertel T PAN 300 Catalogue
2 pages
Python Model Paper 2 Bplck105b
No ratings yet
Python Model Paper 2 Bplck105b
27 pages
2013 01 90411 PDF
No ratings yet
2013 01 90411 PDF
11 pages
Spreadsheet Based Simulation of Single Server Model
No ratings yet
Spreadsheet Based Simulation of Single Server Model
19 pages
Gujarati General Knowledge Question Paper With Answers (Paper 4-10)
75% (4)
Gujarati General Knowledge Question Paper With Answers (Paper 4-10)
32 pages
KNR13
No ratings yet
KNR13
7 pages
Usp Compounding Compendium Toc
0% (1)
Usp Compounding Compendium Toc
5 pages
Basic Material Science Lecture - 1
No ratings yet
Basic Material Science Lecture - 1
22 pages
Paul-Professional-Resume (Revised)
No ratings yet
Paul-Professional-Resume (Revised)
3 pages
Saffire Welding Cutting and Process Nozzles 1
No ratings yet
Saffire Welding Cutting and Process Nozzles 1
2 pages
Art Deco The Period The Jewelry
No ratings yet
Art Deco The Period The Jewelry
9 pages
Penawaran Harga Ac Deni
No ratings yet
Penawaran Harga Ac Deni
2 pages
Important Buildings 21 Print
100% (3)
Important Buildings 21 Print
100 pages
Coin Sorter111
No ratings yet
Coin Sorter111
23 pages
Products Containing Substances That Trigger Genetic Disorders
No ratings yet
Products Containing Substances That Trigger Genetic Disorders
4 pages
Dial Caliper
No ratings yet
Dial Caliper
5 pages
B9876 PDF
No ratings yet
B9876 PDF
21 pages
Catalogo Appeton
No ratings yet
Catalogo Appeton
56 pages
1 - Lecture - GP - Introduction To Psychology
No ratings yet
1 - Lecture - GP - Introduction To Psychology
5 pages
The Taino
100% (2)
The Taino
6 pages
Introduction
No ratings yet
Introduction
49 pages
Fiat Sedici
100% (1)
Fiat Sedici
270 pages
Comprehensive Exam in BOT 132
No ratings yet
Comprehensive Exam in BOT 132
7 pages
Spreying and Seeding Robo".: Design and Operation of Agriculture Based Pesticide Spraying and Seeding Robot
No ratings yet
Spreying and Seeding Robo".: Design and Operation of Agriculture Based Pesticide Spraying and Seeding Robot
16 pages
The X Factor 9
No ratings yet
The X Factor 9
31 pages