0% found this document useful (0 votes)

13 views

Pre-Processing techniques.ipynb - Colab

The document outlines various data pre-processing techniques essential for preparing raw data for analysis or machine learning, including attribute selection, handling missing values, discretization, and outlier elimination. It provides code examples using Python libraries such as pandas, numpy, and sklearn to demonstrate these techniques on sample datasets. The document emphasizes improving dataset quality through these methods to enhance analysis outcomes.

Uploaded by

mgiri63021

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views

Pre-Processing techniques.ipynb - Colab

Uploaded by

mgiri63021

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

2/13/25, 10:11 AM Pre-Processing techniques.

ipynb - Colab

keyboard_arrow_down Data Pre-Processing

Transforming raw data into a clean and structured format suitable for analysis or machine learning models.
It includes techniques such as handling missing values, removing duplicates, normalizing data, encoding categorical variables, and
eliminating outliers to improve the dataset’s quality.

Attribute Selection: Selecting the most relevant features.

Handling Missing Values: Filling or removing missing data.

Discretization: Converting continuous data into categorical bins.

Elimination of Outliers: Removing extreme values.

import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import KBinsDiscretizer
from scipy import stats

# Sample dataset
data = {
'A': [10, 20, 30, np.nan, 50, 60, 70, 800], # Outlier at 800, missing value at index 3
'B': [5, 15, np.nan, 25, 35, 45, 55, 65], # Missing value at index 2
'C': [1, 2, 3, 4, 5, 6, 7, 8], # Continuous data
'Target': [0, 1, 0, 1, 0, 1, 0, 1] # Target variable (classification)
}

df = pd.DataFrame(data)
print("Original Dataset:\n", df)

# 1. Attribute Selection
X = df.drop(columns=['Target']) # Features
y = df['Target']
selector = SelectKBest(score_func=f_classif, k=2) # Select top 2 best features
X_new = selector.fit_transform(X.fillna(X.mean()), y)
selected_features = X.columns[selector.get_support()]
print("\nSelected Features:", selected_features)

# 2. Handling Missing Values

imputer = SimpleImputer(strategy='mean') # Replace NaN with column mean
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print("\nDataset after handling missing values:\n", df_imputed)

# 3. Discretization
discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
df_imputed['C_binned'] = discretizer.fit_transform(df_imputed[['C']])
print("\nDataset after discretization:\n", df_imputed[['C', 'C_binned']])

# 4. Elimination of Outliers (Z-score method)

z_scores = np.abs(stats.zscore(df_imputed.drop(columns=['Target'])))
df_no_outliers = df_imputed[(z_scores < 3).all(axis=1)]
print("\nDataset after outlier removal:\n", df_no_outliers)

Original Dataset:
A B C Target
0 10.0 5.0 1 0
1 20.0 15.0 2 1
2 30.0 NaN 3 0
3 NaN 25.0 4 1
4 50.0 35.0 5 0
5 60.0 45.0 6 1
6 70.0 55.0 7 0
7 800.0 65.0 8 1

Selected Features: Index(['A', 'C'], dtype='object')

Dataset after handling missing values:

A B C Target
0 10.000000 5.0 1.0 0.0
1 20.000000 15.0 2.0 1.0
2 30.000000 35.0 3.0 0.0
3 148.571429 25.0 4.0 1.0

https://colab.research.google.com/drive/1TNr6rVAg-_e7072NwFMWAJIkZ3ZuNDCE#scrollTo=4tijQ9eTbVw-&printMode=true 1/3
2/13/25, 10:11 AM Pre-Processing techniques.ipynb - Colab
4 50.000000 35.0 5.0 0.0
5 60.000000 45.0 6.0 1.0
6 70.000000 55.0 7.0 0.0
7 800.000000 65.0 8.0 1.0

Dataset after discretization:

C C_binned
0 1.0 0.0
1 2.0 0.0
2 3.0 0.0
3 4.0 1.0
4 5.0 1.0
5 6.0 2.0
6 7.0 2.0
7 8.0 2.0

Dataset after outlier removal:

A B C Target C_binned
0 10.000000 5.0 1.0 0.0 0.0
1 20.000000 15.0 2.0 1.0 0.0
2 30.000000 35.0 3.0 0.0 0.0
3 148.571429 25.0 4.0 1.0 1.0
4 50.000000 35.0 5.0 0.0 1.0
5 60.000000 45.0 6.0 1.0 2.0
6 70.000000 55.0 7.0 0.0 2.0
7 800.000000 65.0 8.0 1.0 2.0

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import KBinsDiscretizer
from scipy import stats

# Load Iris dataset

iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Introduce missing values for demonstration

df.iloc[2, 1] = np.nan

print("Original Dataset:\n", df.head())

# 1. Attribute Selection
X = df.drop(columns=['target']) # Features
y = df['target']
selector = SelectKBest(score_func=f_classif, k=2) # Select top 2 best features
X_new = selector.fit_transform(X.fillna(X.mean()), y)
selected_features = X.columns[selector.get_support()]
print("\nSelected Features:", selected_features)

# 2. Handling Missing Values

imputer = SimpleImputer(strategy='mean') # Replace NaN with column mean
df_imputed = pd.DataFrame(imputer.fit_transform(df.iloc[:, :-1]), columns=df.columns[:-1])
df_imputed['target'] = df['target']
print("\nDataset after handling missing values:\n", df_imputed.head())

# 3. Discretization
discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
df_imputed['sepal length (cm)_binned'] = discretizer.fit_transform(df_imputed[['sepal length (cm)']])
print("\nDataset after discretization:\n", df_imputed[['sepal length (cm)', 'sepal length (cm)_binned']].head())

# 4. Elimination of Outliers (Z-score method)

z_scores = np.abs(stats.zscore(df_imputed.drop(columns=['target'])))
df_no_outliers = df_imputed[(z_scores < 3).all(axis=1)]
print("\nDataset after outlier removal:\n", df_no_outliers.head())

Original Dataset:
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) \
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 NaN 1.3 0.2
3 4.6 3.1 1.5 0.2
4 5.0 3.6 1.4 0.2

target
0 0

https://colab.research.google.com/drive/1TNr6rVAg-_e7072NwFMWAJIkZ3ZuNDCE#scrollTo=4tijQ9eTbVw-&printMode=true 2/3
2/13/25, 10:11 AM Pre-Processing techniques.ipynb - Colab
1 0
2 0
3 0
4 0

Selected Features: Index(['petal length (cm)', 'petal width (cm)'], dtype='object')

Dataset after handling missing values:

sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) \
0 5.1 3.500000 1.4 0.2
1 4.9 3.000000 1.4 0.2
2 4.7 3.056376 1.3 0.2
3 4.6 3.100000 1.5 0.2
4 5.0 3.600000 1.4 0.2

target
0 0
1 0
2 0
3 0
4 0

Dataset after discretization:

sepal length (cm) sepal length (cm)_binned
0 5.1 0.0
1 4.9 0.0
2 4.7 0.0
3 4.6 0.0
4 5.0 0.0

Dataset after outlier removal:

sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) \
0 5.1 3.500000 1.4 0.2
1 4.9 3.000000 1.4 0.2
2 4.7 3.056376 1.3 0.2
3 4.6 3.100000 1.5 0.2
4 5.0 3.600000 1.4 0.2

target sepal length (cm)_binned

0 0 0.0
1 0 0.0
2 0 0.0
3 0 0.0
4 0 0.0

https://colab.research.google.com/drive/1TNr6rVAg-_e7072NwFMWAJIkZ3ZuNDCE#scrollTo=4tijQ9eTbVw-&printMode=true 3/3

Credit Card Fraud Detection (Data Analyst)
No ratings yet
Credit Card Fraud Detection (Data Analyst)
22 pages
Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
MIL Module 1 (Ien)
72% (18)
MIL Module 1 (Ien)
21 pages
Extreme Wireless Cloud Troubleshooting Student Guide Mar 2020
0% (1)
Extreme Wireless Cloud Troubleshooting Student Guide Mar 2020
354 pages
Normalization and PCA
No ratings yet
Normalization and PCA
12 pages
LAB-3
No ratings yet
LAB-3
3 pages
Implementing Logistic Regression For Iris Using Sklearn and Checking The Accuracy Using Confusion Matrix
No ratings yet
Implementing Logistic Regression For Iris Using Sklearn and Checking The Accuracy Using Confusion Matrix
7 pages
random forest
No ratings yet
random forest
2 pages
Trabajo
No ratings yet
Trabajo
5 pages
Electrical Machine Learning Tool
No ratings yet
Electrical Machine Learning Tool
3 pages
exp_3_ml
No ratings yet
exp_3_ml
3 pages
K Nearest Neighbours
No ratings yet
K Nearest Neighbours
4 pages
Heart: Our "Goal" Predict The Presence of Heart Disease in The Patient
100% (1)
Heart: Our "Goal" Predict The Presence of Heart Disease in The Patient
73 pages
230103-ECON209_S2025__Lab_2.ipynb-Colab
No ratings yet
230103-ECON209_S2025__Lab_2.ipynb-Colab
10 pages
02 - Email - Spam - Ipynb - Colab
No ratings yet
02 - Email - Spam - Ipynb - Colab
11 pages
Support Vector Machine
No ratings yet
Support Vector Machine
7 pages
45B Ahmed Shaikh AIML Prac05
No ratings yet
45B Ahmed Shaikh AIML Prac05
4 pages
Question- 2-Interview Question ML
No ratings yet
Question- 2-Interview Question ML
13 pages
EXP2-DM - KS
No ratings yet
EXP2-DM - KS
9 pages
Covid-19 Prediction - Jupyter Notebook
No ratings yet
Covid-19 Prediction - Jupyter Notebook
6 pages
DSBDA_prac4_2
No ratings yet
DSBDA_prac4_2
1 page
Jamboree
No ratings yet
Jamboree
56 pages
L3_Classification_RandomForest - Jupyter Notebook
No ratings yet
L3_Classification_RandomForest - Jupyter Notebook
6 pages
SPPUML3
No ratings yet
SPPUML3
12 pages
Practica 9
No ratings yet
Practica 9
24 pages
Ass_10.ipynb - Colab
No ratings yet
Ass_10.ipynb - Colab
8 pages
Feature Engineering On Banks' Private Credit Data - Ipynb - Colab
No ratings yet
Feature Engineering On Banks' Private Credit Data - Ipynb - Colab
6 pages
Supervised Learning With Scikit-Learn: Preprocessing Data
No ratings yet
Supervised Learning With Scikit-Learn: Preprocessing Data
32 pages
Regression Prac 9
No ratings yet
Regression Prac 9
8 pages
Loading The Dataset: 'Churn - Modelling - CSV'
No ratings yet
Loading The Dataset: 'Churn - Modelling - CSV'
6 pages
Build - CIFAR - 10 - Dataset - Classifier - Ipynb - Colaboratory
No ratings yet
Build - CIFAR - 10 - Dataset - Classifier - Ipynb - Colaboratory
8 pages
python-Copy1
No ratings yet
python-Copy1
5 pages
ML Lab6.Ipynb - Colaboratory
100% (1)
ML Lab6.Ipynb - Colaboratory
5 pages
vertopal.com_MSML_Project_1
No ratings yet
vertopal.com_MSML_Project_1
8 pages
Data Munging - Ipynb - Colaboratory - Yodhi Adhi Sanjaya
No ratings yet
Data Munging - Ipynb - Colaboratory - Yodhi Adhi Sanjaya
4 pages
# Diabetes: Pandas PD Numpy NP Seaborn Sns
No ratings yet
# Diabetes: Pandas PD Numpy NP Seaborn Sns
4 pages
SVM and Kmeans -Iris Dataset.ipynb - Colab
No ratings yet
SVM and Kmeans -Iris Dataset.ipynb - Colab
5 pages
Exp5_naive.ipynb - Colab
No ratings yet
Exp5_naive.ipynb - Colab
4 pages
IRIS BPNN - Ipynb - Colaboratory
100% (1)
IRIS BPNN - Ipynb - Colaboratory
4 pages
Hasil Rendi
No ratings yet
Hasil Rendi
11 pages
Data Entry
No ratings yet
Data Entry
4 pages
dsbda-assignment-6
No ratings yet
dsbda-assignment-6
5 pages
Boston House Prediction - Colab1
No ratings yet
Boston House Prediction - Colab1
10 pages
ML0101EN Clas Logistic Reg Churn Py v1
100% (1)
ML0101EN Clas Logistic Reg Churn Py v1
13 pages
Supervised Learning Project - Ipynb - Colab
No ratings yet
Supervised Learning Project - Ipynb - Colab
14 pages
E21CSEU0770 Lab4
No ratings yet
E21CSEU0770 Lab4
4 pages
Data Analysis Report With EDA
No ratings yet
Data Analysis Report With EDA
71 pages
Ash 4
No ratings yet
Ash 4
8 pages
Descriptive Analytics2.Ipynb - Colab
No ratings yet
Descriptive Analytics2.Ipynb - Colab
9 pages
Dsbda 4
No ratings yet
Dsbda 4
4 pages
6.AIML - To Develop Classification Model and Evaluate Its Performance
No ratings yet
6.AIML - To Develop Classification Model and Evaluate Its Performance
4 pages
Nlp2.ipynb - Colab
No ratings yet
Nlp2.ipynb - Colab
3 pages
Linear - Regression - Ipynb - Colaboratory
No ratings yet
Linear - Regression - Ipynb - Colaboratory
4 pages
Data Preprocessing & Visualization1
No ratings yet
Data Preprocessing & Visualization1
2 pages
Implementing KNN Algorithm on the Iris Dataset
No ratings yet
Implementing KNN Algorithm on the Iris Dataset
7 pages
Glass Classification
100% (2)
Glass Classification
3 pages
Unsupervised ML
No ratings yet
Unsupervised ML
17 pages
Generative AI Binary Classification
No ratings yet
Generative AI Binary Classification
7 pages
Lecture 3 StudentRecommedSystem
No ratings yet
Lecture 3 StudentRecommedSystem
2 pages
Boston Dataset
No ratings yet
Boston Dataset
6 pages
Emllab
No ratings yet
Emllab
6 pages
Python Course Cheat Sheet
No ratings yet
Python Course Cheat Sheet
30 pages
Hostel Management System Hostel Management System
No ratings yet
Hostel Management System Hostel Management System
12 pages
FAQs - Vepaar
No ratings yet
FAQs - Vepaar
2 pages
Wazuh
No ratings yet
Wazuh
22 pages
DBMS Lab File - Udit - Dumka
No ratings yet
DBMS Lab File - Udit - Dumka
44 pages
Intel Processor Identification and The CPUID Instruction
No ratings yet
Intel Processor Identification and The CPUID Instruction
124 pages
CH 17
No ratings yet
CH 17
3 pages
Readme
No ratings yet
Readme
16 pages
Mid Term Questions Bank
No ratings yet
Mid Term Questions Bank
7 pages
Scan and Pay Playbook For Facilities
No ratings yet
Scan and Pay Playbook For Facilities
2 pages
Tao of React 2nd Edition Alex Kondov - The ebook is available for instant download, no waiting required
No ratings yet
Tao of React 2nd Edition Alex Kondov - The ebook is available for instant download, no waiting required
74 pages
PT2315 1
No ratings yet
PT2315 1
21 pages
Docu59090 - VNX Family Monitoring and Reporting 2.2 User Guide PDF
No ratings yet
Docu59090 - VNX Family Monitoring and Reporting 2.2 User Guide PDF
62 pages
4 Probability
No ratings yet
4 Probability
18 pages
Catálogos Junction Box
No ratings yet
Catálogos Junction Box
68 pages
Com - Cherisher.beauty - Camera.videocall Logcat
No ratings yet
Com - Cherisher.beauty - Camera.videocall Logcat
5 pages
Bske 2023 - Annexes e - F - Sangguniang Kabataan Inventory and Turnover Forms
No ratings yet
Bske 2023 - Annexes e - F - Sangguniang Kabataan Inventory and Turnover Forms
4 pages
Freightliner Business Class M2 Truck Fault Codes DTC
100% (2)
Freightliner Business Class M2 Truck Fault Codes DTC
163 pages
Canon Laser Class 710 730i 720i Service and Parts Manual
No ratings yet
Canon Laser Class 710 730i 720i Service and Parts Manual
436 pages
Osciloscop DS5000 Manual
No ratings yet
Osciloscop DS5000 Manual
122 pages
Installation Procedure NX-6
No ratings yet
Installation Procedure NX-6
1 page
ONGC SAMSUNG EPP July 2023 Macintel Solutions
No ratings yet
ONGC SAMSUNG EPP July 2023 Macintel Solutions
4 pages
Rajasthan PWD Electric BSR 2022 PDF
No ratings yet
Rajasthan PWD Electric BSR 2022 PDF
200 pages
Cultural Function Ideas
No ratings yet
Cultural Function Ideas
7 pages
NFPA (2006 Edition)
No ratings yet
NFPA (2006 Edition)
40 pages
Samsung UE32K5500AW Chassis UWK60
No ratings yet
Samsung UE32K5500AW Chassis UWK60
117 pages
Current & Saving Account Statement: Parimalarajan Dno 70 Middle Street Mangalur Rettakurichi Po Thittakudi TK Cuddalore
No ratings yet
Current & Saving Account Statement: Parimalarajan Dno 70 Middle Street Mangalur Rettakurichi Po Thittakudi TK Cuddalore
35 pages
SOSIOLOGI PROFETIK (Sufisme Transformatif Komunitas Maiyah Nusantara) - 1
No ratings yet
SOSIOLOGI PROFETIK (Sufisme Transformatif Komunitas Maiyah Nusantara) - 1
163 pages
Sss Log 10 11 2024 17 24 47
No ratings yet
Sss Log 10 11 2024 17 24 47
6 pages