0% found this document useful (0 votes)

24 views18 pages

Lecture 2

The document discusses machine learning techniques for chemical engineering applications. It covers topics like data preprocessing, characteristics of industrial data, dealing with missing values and outliers. The key steps in data preprocessing are discussed as extracting relevant data from databases, identifying missing values and outliers, and ensuring variables are on comparable scales before model building. Common techniques for handling missing data like deletion, mean replacement and interpolation are also summarized.

Uploaded by

sdsdsd

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views18 pages

Lecture 2

Uploaded by

sdsdsd

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 18

Machine Learning for Chemical Engineers

CHE F315

Ajaya Kumar Pani

BITS Pilani Department of Chemical Engineering
B.I.T.S-Pilani, Pilani Campus
Pilani Campus
Lecture-2
12-01-2024
BITS Pilani
Pilani Campus
Data Preprocessing
BITS Pilani
Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Outline

Industrial data characteristics

Missing values
Outlier

16 January 2024 4
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Industrial data characteristics

and treatment
• Wide use of distributed control system, increasing use of
online sensors with low sampling time, improved data
transmission and storage facility have resulted in
availability of huge amount of past process data
• Data-driven process modeling, monitoring, prediction
and control have received much attention in recent
years.
• By analyzing the patterns of process data and
relationships among variables, useful information can be
extracted, based on which statistical models can then be
developed for various applications, such as process
monitoring, fault diagnosis, mode clustering, soft sensing
of key variables/quality variables, etc.

16 January 2024 5
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Industrial data characteristics

and treatment
• Big Data in process industries is characterized by
volume, variety, and velocity, or simply V3
• volume refers to size of ever-growing data sets which
range from terabytes (1012 bytes) to zettabytes (1021
bytes)
• “variety” describes various types of data: process
measurements, text, audio, and images
• “velocity” refers to the speed of big data generation

16 January 2024 6
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Industrial data characteristics

and treatment
• Data preparation is an initial step for machine learning model
development
• The main tasks of this step are to extract the dataset from the
historical database, examine the structure of the dataset, and
make data selections through sample and variable directions,
etc.
• In order to extract an effective dataset from the historical
database, the operating regions of the process need to be
analyzed, and any changes of operating condition also need
to be identified.
• To ensure the efficiency for the information extraction step,
the natures or characteristics of the process data should be
analyzed, such as non-Gaussianity, linear/nonlinear
relationships among different variables, time-series
correlations, etc.

16 January 2024 7
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Industrial data characteristics

and treatment

Thebelt, A., Wiebe, J., Kronqvist, J., Tsay, C., & Misener, R. (2022). Maximizing information from chemical
engineering data sets: Applications to machine learning. Chemical Engineering Science, 252, 117469.

16 January 2024 8
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Industrial data characteristics

and treatment
Normal Distribution
• The normal distribution is also known as the Gaussian
distribution.

Probabilities associated with the normal distribution

16 January 2024 9
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing

Data pre-processing is carried out in order to improve the

quality of the data
outliers and gross errors should be removed from the
modeling dataset, which will otherwise greatly
deteriorate the performance of the machine learning
model
missing values need to be addressed, e.g. deletion of the
sample, missing value estimation, Bayesian inference,
etc
the scale difference among process variables needs to be
considered

16 January 2024 10
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing

The raw data of different formats stored in databases are

not useful until they are cleaned and transformed
Data cleaning consists of four steps:
• missing data imputation
• Outlier detection and noise removal
• time alignment
• Delay estimation

16 January 2024 11
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing
Missing data imputation
Missing values in process industries refer to entries in the
data set that have no connection with the real state of
the process and take values such as ±∞, 0, nan (not a
number)
There are generally three missing patterns:
Missing completely at random (MCAR)
Missing at random (MAR)
Missing not at random (MNAR)

16 January 2024 12
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing
Missing data imputation
A and C – missing values for
single/multiple variables 
due to sensor failure
B – values of some variables
missing at same time
instances  fault
D – single variable showing
regular missing values 
multirate sampling

Common missing patterns in the process industries

Xu, S., Lu, B., Baldea, M., Edgar, T. F., Wojsznis, W., Blevins, T., & Nixon, M. (2015). Data cleaning in the process
industries. Reviews in Chemical Engineering, 31(5), 453-490.
16 January 2024 13
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing

Missing data imputation

Deletion
eliminate any time point that contains missing values
Works well for large datasets
Will sacrifice a large amount of data, reduce the statisti
cal power, and lead to biased parameter estimation with
more uncertainty
Replacement
Mean replacement
Interpolation replacement

16 January 2024 14
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing
Outlier detection and removal

• Observations or subsets of
observations that do not show a
consistent behavior with the rest
of the data set from a statistical
perspective
• Causes: malfunction of sensors
Pani, A. K., & Mohanta, H. K. (2016). Online monitoring of cement
and inappropriate treatment of clinker quality using multivariate statistics and Takagi-Sugeno fuzzy-
missing data inference technique. Control Engineering Practice, 57, 1-17.

• Two types of outliers: univariate

and multivariate

16 January 2024 15
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing

Univariate outlier detection

3σ rule: The 3σ rule is widely used for detecting outliers
from an i.i.d. data set {xk} subject to a normal distribution
N(μ, σ2 ). If the following condition holds:
xk is an outlier if
Hampel identifier: Instead of using mean and standard
deviation, the Hampel identifier uses the median med
and MAD:
|xk-med| > 3×1.483MAD

16 January 2024 16
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing
Quartile-based identifier and boxplots:
Uses the interquartile distance Q as the scale parameter
Q = Q3 – Q1
where Q1 is the lower quartile, x0.25 and Q3 is the upper quartile,
x0.75
13
med = (Q1+ Q3)/2
For a symmetric data distribution, the following condition to detect
outliers:
|xk -med| >2Q
A boxplot is used as a graphical demonstration
of the quartile-based detector
In the plot, any point that lies outside the
upper or lower fences, is considered as an
outlier.

16 January 2024 17
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

16 January 2024
18 BITS Pilani, Pilani Campus

Lecture 3
No ratings yet
Lecture 3
10 pages
Lecture 4
No ratings yet
Lecture 4
14 pages
Lecture 9
No ratings yet
Lecture 9
16 pages
mlche_lec_1-31
No ratings yet
mlche_lec_1-31
384 pages
S1-21 - DSECLZC415 Data Pre-Processing: BITS Pilani
No ratings yet
S1-21 - DSECLZC415 Data Pre-Processing: BITS Pilani
54 pages
RL2.1 Data Preprocessing Concepts 1
No ratings yet
RL2.1 Data Preprocessing Concepts 1
16 pages
S2-19 - DSECLZC415 Data Pre-Processing: BITS Pilani
No ratings yet
S2-19 - DSECLZC415 Data Pre-Processing: BITS Pilani
47 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
253777
No ratings yet
253777
66 pages
DS Unit 2
No ratings yet
DS Unit 2
42 pages
3 Ravi
No ratings yet
3 Ravi
82 pages
Lecture 8
No ratings yet
Lecture 8
13 pages
Preprocessing - M2
No ratings yet
Preprocessing - M2
53 pages
Estimasi Anggaran Biaya Google Adwords Iklan Website
No ratings yet
Estimasi Anggaran Biaya Google Adwords Iklan Website
54 pages
04 DM BI Data Preprocessing
No ratings yet
04 DM BI Data Preprocessing
93 pages
02 Data_preprocessing -4,5,6
No ratings yet
02 Data_preprocessing -4,5,6
54 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
Handout CHE F315
No ratings yet
Handout CHE F315
3 pages
Unit3
No ratings yet
Unit3
41 pages
Data Binning
No ratings yet
Data Binning
9 pages
Data Mining Assignment
No ratings yet
Data Mining Assignment
8 pages
2023 VL4 Data Preparation
No ratings yet
2023 VL4 Data Preparation
52 pages
L4 Data Preprocessing
No ratings yet
L4 Data Preprocessing
40 pages
Lecture 5
No ratings yet
Lecture 5
16 pages
Data Preprocessing - 1: Course Leader
No ratings yet
Data Preprocessing - 1: Course Leader
22 pages
Preprocessing
No ratings yet
Preprocessing
90 pages
Lecture 02
No ratings yet
Lecture 02
41 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
2 DMiningKuliah 2A DPreparation
No ratings yet
2 DMiningKuliah 2A DPreparation
32 pages
Lec06 7 Feature Engineering 08112022 100115am
No ratings yet
Lec06 7 Feature Engineering 08112022 100115am
44 pages
AI351 Lecture 1
No ratings yet
AI351 Lecture 1
32 pages
CHE_F315_2615_20250106141654
No ratings yet
CHE_F315_2615_20250106141654
3 pages
Why Data Preprocessing?
No ratings yet
Why Data Preprocessing?
3 pages
Lecture - 04 - Data Understanding and Preparation
No ratings yet
Lecture - 04 - Data Understanding and Preparation
59 pages
Data preprocessing (1)
No ratings yet
Data preprocessing (1)
77 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
33 pages
CSC 3301-Lecture06 Introduction To Machine Learning
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
56 pages
Lecture 7 - Data Cleaning
No ratings yet
Lecture 7 - Data Cleaning
36 pages
L3 Overview of ML Model Development Lifecycle-1
No ratings yet
L3 Overview of ML Model Development Lifecycle-1
30 pages
Practical Guide and Concepts Data Mining
No ratings yet
Practical Guide and Concepts Data Mining
63 pages
DMiningKuliah 2A DPreparation
No ratings yet
DMiningKuliah 2A DPreparation
32 pages
3-Data Preprocessing
No ratings yet
3-Data Preprocessing
32 pages
Lect 04 Preprocessing Structured
No ratings yet
Lect 04 Preprocessing Structured
39 pages
Success Stories in The Process Industries: Big Data
No ratings yet
Success Stories in The Process Industries: Big Data
5 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Outliners
No ratings yet
Outliners
15 pages
Unit - II
No ratings yet
Unit - II
56 pages
Lecture-4-HCL-DSE - Sumita Narang
No ratings yet
Lecture-4-HCL-DSE - Sumita Narang
31 pages
DS Module2 L3 L13
No ratings yet
DS Module2 L3 L13
43 pages
Data Mining and Data Warehousing - Data Preprocessing - L03
No ratings yet
Data Mining and Data Warehousing - Data Preprocessing - L03
10 pages
Lec 3 Data Preprocessing and Transformation(1)
No ratings yet
Lec 3 Data Preprocessing and Transformation(1)
73 pages
Lec2 - Data Preprocessing
No ratings yet
Lec2 - Data Preprocessing
30 pages
Data Pre Processing - NG
No ratings yet
Data Pre Processing - NG
43 pages
CS L03 MachineLearning Basics 01
No ratings yet
CS L03 MachineLearning Basics 01
66 pages
3b. Data Pre-Processing
No ratings yet
3b. Data Pre-Processing
84 pages
DWM Exp6 C49
No ratings yet
DWM Exp6 C49
15 pages
13 - Chapter 4 PDF
No ratings yet
13 - Chapter 4 PDF
46 pages
Process Analytical Technology in Modern Manufacturing: Definitive Reference for Developers and Engineers
From Everand
Process Analytical Technology in Modern Manufacturing: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Application Performance Management in Modern Systems: Definitive Reference for Developers and Engineers
From Everand
Application Performance Management in Modern Systems: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Artificial Intelligence and Natural Algorithms
From Everand
Artificial Intelligence and Natural Algorithms
PublishDrive
No ratings yet
Uncertainty in Measurement
100% (1)
Uncertainty in Measurement
136 pages
CIEM Assignment
0% (1)
CIEM Assignment
3 pages
R300 Advanced Econometrics Methods Lecture Slides
No ratings yet
R300 Advanced Econometrics Methods Lecture Slides
362 pages
Mca C104
No ratings yet
Mca C104
3 pages
Sta301 Solved Subjective Final Term by Junaid
No ratings yet
Sta301 Solved Subjective Final Term by Junaid
16 pages
Stat Prob Q4 Module 3
60% (5)
Stat Prob Q4 Module 3
21 pages
ee5110-lecture-limit-theorems
No ratings yet
ee5110-lecture-limit-theorems
9 pages
AP Stats Practices
No ratings yet
AP Stats Practices
28 pages
School of Engineering and Physical Sciences North South University, Bashundhara, Dhaka-1229, Bangladesh
No ratings yet
School of Engineering and Physical Sciences North South University, Bashundhara, Dhaka-1229, Bangladesh
4 pages
Analytics PrepBook AnSoc 2017 PDF
100% (1)
Analytics PrepBook AnSoc 2017 PDF
41 pages
Problem Set 4
No ratings yet
Problem Set 4
9 pages
8614 Solved Assignment 1
No ratings yet
8614 Solved Assignment 1
26 pages
Statistics 101
100% (1)
Statistics 101
28 pages
Practice Midterm 3
No ratings yet
Practice Midterm 3
7 pages
Sampling Distribution of Difference Between Two Sample Means
No ratings yet
Sampling Distribution of Difference Between Two Sample Means
3 pages
Hand Dheje
No ratings yet
Hand Dheje
21 pages
Multinomial Goodness-of-Fit Based On U - Statistics: High-Dimensional Asymptotic and Minimax Optimality
No ratings yet
Multinomial Goodness-of-Fit Based On U - Statistics: High-Dimensional Asymptotic and Minimax Optimality
29 pages
CO3 Normal Probability Distribution
No ratings yet
CO3 Normal Probability Distribution
42 pages
Normal Distribution and Standardization 1
No ratings yet
Normal Distribution and Standardization 1
14 pages
Advanced Probability Theory For Biomedical Engineers
No ratings yet
Advanced Probability Theory For Biomedical Engineers
106 pages
DA 2016 Problem Set 2
No ratings yet
DA 2016 Problem Set 2
4 pages
7 OLS Assumptions
No ratings yet
7 OLS Assumptions
37 pages
Biostatistics Unit 5. Measure of Skew
No ratings yet
Biostatistics Unit 5. Measure of Skew
38 pages
ELEC E8409 Answers 5
No ratings yet
ELEC E8409 Answers 5
6 pages
Unit 2 - Inference
No ratings yet
Unit 2 - Inference
41 pages
Excel NormS Functions Spreadsheet
No ratings yet
Excel NormS Functions Spreadsheet
16 pages
DIP+Important+Questions+ +solutions
50% (2)
DIP+Important+Questions+ +solutions
20 pages
Exam SRM Tables
No ratings yet
Exam SRM Tables
3 pages
MM_UDF_Guide_v3.0
No ratings yet
MM_UDF_Guide_v3.0
5 pages
Safety Stock Formula & Calculation - AbcSupplyChain
No ratings yet
Safety Stock Formula & Calculation - AbcSupplyChain
19 pages

Lecture 2

Uploaded by

Lecture 2

Uploaded by

Machine Learning for Chemical Engineers

Ajaya Kumar Pani

Industrial data characteristics

Industrial data characteristics

Industrial data characteristics

Industrial data characteristics

Industrial data characteristics

Industrial data characteristics

Probabilities associated with the normal distribution

Data pre-processing is carried out in order to improve the

The raw data of different formats stored in databases are

Common missing patterns in the process industries

Missing data imputation

• Two types of outliers: univariate

Univariate outlier detection

You might also like