3. Cross Validation

Uploaded by

a4584851

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views

3. Cross Validation

Uploaded by

a4584851

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 16

Understanding Cross-

Validation
Introduction
• Machine learning validation methods provide a means for us to estimate
generalization error.
• This is crucial for determining what model provides the most best
predictions for unobserved data.
• In cases where large amounts of data are available, machine learning
data validation begins with splitting the data into three separate
datasets:
1. A training set is used to train the machine learning model(s) during
development.
2. A validation set is used to estimate the generalization error of the
model created from the training set for the purpose of model selection.
Cross-Validation in Machine Learning
• The model validation process in the previous section
works when we have large datasets.
• When data is limited we must instead use a technique
called cross-validation.
• The purpose of cross-validation is to provide a
better estimate of a model's ability to perform on
unseen data.
• It provides an unbiased estimate of the generalization
error, especially in the case of limited data.
There are many reasons we may want to do this i.e.
Cross Validation

• There are many reasons we may want to do this:

1. To have a clearer measure of how our model performs.
2. To tune hyperparameters.
3. To make model selections.
• The intuition behind cross-validation is simple - rather
than training our models on one training set we train
our model on multiple subsets of data.
The basic steps of cross-validation
are:
1.Split data into portions.
2.Train our model on a subset of the portions.
3.Test our model on the remaining subsets of the data.
4.Repeat steps 2-3 until the model has been trained and
tested on the entire dataset.
5.Average the model performance across all iterations of
testing to get the total model performance.
Common Cross-Validation Methods
• Though the basic concept of cross-validation is fairly
simple, there are several ways to go about each step.
• A few examples of cross-validation methods include
1. k-Fold Cross-Validation
2. Stratified k-Fold Cross-Validation
3. Leave-One-Out Cross-Validation
4. Time-Series Cross-Validation
k-Fold Cross-Validation
• In k-fold cross-validation:
• The dataset is divided into k equal sized-folds.
• The model is trained on k-1 folds and tested on the
remaining fold.
• The process is repeated k times, with each fold serving
as the test set exactly once.
• The performance metrics are averaged over the k
iterations.
Stratified k-Fold Cross-
Validation
• This process is similar to k-fold cross-validation with
minor but important exceptions:
• The class distribution in each fold is preserved.
• It is useful for imbalanced datasets.
Leave-One-Out Cross-Validation
• The Leave-one-out cross-validation process:
• Trains the model using all data observations except one.
• Tests the data using the unused data point.
• Repeats this for n iterations until each data point is used
exactly once as a test set.
Time-Series Cross-Validation
• This cross-validation method, designed specifically for
time-series:Splits the data into training and testing sets
in a chronologically ordered manner, such as sliding or
expanding windows.
• Trains the model on past data and tests the model on
future data, based on the splitting point.
Method Advantages Disadvantage
s
k-Fold Cross- •Provides a good •Can be
Validation estimate of the computationally
model's expensive,
performance by especially for
using all the data large datasets or
for both training complex models.
and testing. •May not work well
•Reduces the for imbalanced
variance in datasets or when
performance there is a specific
estimates order to the data.
compared to other
methods.
Method Advantages Disadvantages

Stratified k-Fold •Ensures that each •Can still be

Cross-Validation fold has a computationally
representative expensive,
distribution of especially for large
classes, which can datasets or
improve complex models.
performance •May not be
estimates for necessary for
imbalanced balanced datasets
datasets. where class
•Reduces the distribution is
variance in already even.
performance
Method Advantages Disadvantages

Leave-One-Out • Provides the least • Can be

Cross-Validation biased estimate computationally
(LOOCV) of the model's expensive, as it
performance, as requires training
the model is and testing the
tested on every model n times.
data point. • May have high
• Can be useful variance in
when dealing performance
with very limited estimates, due to
data. the small size in
the test set.
Method Advantages Disadvantages

Time Series • Accounts for • May not be

Cross- temporal applicable for
Validation dependencies non-time
in time series series data.
data. • Can be
• Provides a sensitive to
realistic the choice of
estimate of the window size
model's and data
performance in splitting
real-world strategy.

Frequency by Penney Peirce
No ratings yet
Frequency by Penney Peirce
6 pages
Chapter 5 Observing Learning and Teaching in The Second Language Classroom Natural and Instructional Settings
No ratings yet
Chapter 5 Observing Learning and Teaching in The Second Language Classroom Natural and Instructional Settings
16 pages
Lecture Note #6_PEC-CS701E
No ratings yet
Lecture Note #6_PEC-CS701E
11 pages
ADS
No ratings yet
ADS
20 pages
CH 05 Optimization Technique
No ratings yet
CH 05 Optimization Technique
58 pages
K Fold and Other Cross-Validation Techniques
No ratings yet
K Fold and Other Cross-Validation Techniques
10 pages
Cross Validation: Chandan B K Mrs. S Asst Professor, Department of Computer Science Engineering
No ratings yet
Cross Validation: Chandan B K Mrs. S Asst Professor, Department of Computer Science Engineering
21 pages
Cross Validation in ML
No ratings yet
Cross Validation in ML
5 pages
Module 6_ML
No ratings yet
Module 6_ML
30 pages
cross validation
No ratings yet
cross validation
5 pages
Cross Validation
No ratings yet
Cross Validation
4 pages
Module3-Ensemble Learning
No ratings yet
Module3-Ensemble Learning
107 pages
Chapter2 1 33
No ratings yet
Chapter2 1 33
18 pages
Cross-Validation in Machine Learning - Javatpoint
No ratings yet
Cross-Validation in Machine Learning - Javatpoint
8 pages
P-2.1.2 Cross Validation and Regularization
No ratings yet
P-2.1.2 Cross Validation and Regularization
37 pages
Cross Validation - Notes
No ratings yet
Cross Validation - Notes
10 pages
Validation Over Under Fir Unit 5
No ratings yet
Validation Over Under Fir Unit 5
6 pages
Resampling Methods
No ratings yet
Resampling Methods
15 pages
ML m5_2
No ratings yet
ML m5_2
24 pages
Cross-Validation in Machine Learning
No ratings yet
Cross-Validation in Machine Learning
18 pages
Answer-4 Shreyansh
No ratings yet
Answer-4 Shreyansh
4 pages
Unit 5 New
No ratings yet
Unit 5 New
9 pages
Unit 2
No ratings yet
Unit 2
28 pages
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
No ratings yet
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
17 pages
model-validation
No ratings yet
model-validation
5 pages
All Types of Cross Validation
No ratings yet
All Types of Cross Validation
9 pages
Cofusion Matrix Cross- Validation
No ratings yet
Cofusion Matrix Cross- Validation
34 pages
6 Model Evalution
No ratings yet
6 Model Evalution
16 pages
Cross Validation
No ratings yet
Cross Validation
5 pages
Comparison Between Performance of Classifiers
No ratings yet
Comparison Between Performance of Classifiers
5 pages
Unit V
No ratings yet
Unit V
12 pages
UNIT4 Cross Validation
No ratings yet
UNIT4 Cross Validation
16 pages
Lec - 4
No ratings yet
Lec - 4
43 pages
Cross Validation
No ratings yet
Cross Validation
6 pages
Section 1: Cross-Validation and Model Performance
No ratings yet
Section 1: Cross-Validation and Model Performance
33 pages
ADS-Methodology and Data Visualization
No ratings yet
ADS-Methodology and Data Visualization
12 pages
3.1. Cross-Validation - Evaluating Estimator Performance - Scikit-Learn 1.3.0 Documentation
No ratings yet
3.1. Cross-Validation - Evaluating Estimator Performance - Scikit-Learn 1.3.0 Documentation
12 pages
Module 3 - ML
No ratings yet
Module 3 - ML
101 pages
K Fold
No ratings yet
K Fold
21 pages
4-ResamplingMethods 1
No ratings yet
4-ResamplingMethods 1
23 pages
8
No ratings yet
8
56 pages
Ovefitting, Generalization, Cross Validation
No ratings yet
Ovefitting, Generalization, Cross Validation
20 pages
Data Splitting and Bias Variance Tradeoff
No ratings yet
Data Splitting and Bias Variance Tradeoff
14 pages
ML Module Iii
No ratings yet
ML Module Iii
12 pages
ML Nithish
No ratings yet
ML Nithish
16 pages
Ml Unit4 Notes
No ratings yet
Ml Unit4 Notes
20 pages
Model Cross Validation
No ratings yet
Model Cross Validation
11 pages
Cross Validation LN 12
No ratings yet
Cross Validation LN 12
11 pages
Cross Validation LN 12
No ratings yet
Cross Validation LN 12
11 pages
Crossvalidation - 1
No ratings yet
Crossvalidation - 1
30 pages
EDA Module 2
No ratings yet
EDA Module 2
28 pages
ml_pyq_ans
No ratings yet
ml_pyq_ans
37 pages
Lec 16
No ratings yet
Lec 16
18 pages
Cross Validation
No ratings yet
Cross Validation
13 pages
Bias Varience Trade Off
100% (2)
Bias Varience Trade Off
35 pages
ch-3 FML
No ratings yet
ch-3 FML
14 pages
Analysis of K-Fold Cross-Validation Over Hold-Out
No ratings yet
Analysis of K-Fold Cross-Validation Over Hold-Out
6 pages
Unit IV
No ratings yet
Unit IV
51 pages
Research Trends in Machine Learning: Muhammad Kashif Hanif
No ratings yet
Research Trends in Machine Learning: Muhammad Kashif Hanif
20 pages
T1 ML QB Soln
No ratings yet
T1 ML QB Soln
23 pages
Mastering Partial Least Squares Structural Equation Modeling (Pls-Sem) with Smartpls in 38 Hours
From Everand
Mastering Partial Least Squares Structural Equation Modeling (Pls-Sem) with Smartpls in 38 Hours
Ken Kwong-Kay Wong
3/5 (1)
IT Specialist: Artificial Intelligence Exam Prep - 500 Questions for Certification Success (0225)
From Everand
IT Specialist: Artificial Intelligence Exam Prep - 500 Questions for Certification Success (0225)
Satou Takahiro
No ratings yet
1. Introduction
No ratings yet
1. Introduction
28 pages
3. Classification Trees,
No ratings yet
3. Classification Trees,
48 pages
13. Box jenkins method of forecasting
No ratings yet
13. Box jenkins method of forecasting
10 pages
4. Cross-Validation eg
No ratings yet
4. Cross-Validation eg
3 pages
14. Tmeporal Reasoning
No ratings yet
14. Tmeporal Reasoning
19 pages
2. Predictive, descriptive and prescriptive models what they are and how to apply them in business.pptx
No ratings yet
2. Predictive, descriptive and prescriptive models what they are and how to apply them in business.pptx
27 pages
16 PF Quesl
0% (1)
16 PF Quesl
9 pages
Benz Et Al. (2016) Coaching Cues For Sprint Performance
No ratings yet
Benz Et Al. (2016) Coaching Cues For Sprint Performance
11 pages
D de I Conference Proceedings Lite
No ratings yet
D de I Conference Proceedings Lite
356 pages
Chapter Three General Psychology
No ratings yet
Chapter Three General Psychology
13 pages
Module 1 Lesson 3 Abstraction Part UTS
No ratings yet
Module 1 Lesson 3 Abstraction Part UTS
3 pages
Digital Preservation of Indigenous Knowledge Through Artificial Neural Network A Study
No ratings yet
Digital Preservation of Indigenous Knowledge Through Artificial Neural Network A Study
5 pages
2014 Ela Grade 7 Sample Annotated Passages
No ratings yet
2014 Ela Grade 7 Sample Annotated Passages
18 pages
zna2HKf9y0dzsrU4FtGI6CfHgTUaPJTXejgNhJxG
No ratings yet
zna2HKf9y0dzsrU4FtGI6CfHgTUaPJTXejgNhJxG
166 pages
Subject Verb Agreement
No ratings yet
Subject Verb Agreement
28 pages
lesson 5 INSTRUCTIONAL PLANNING COMPONENTS
No ratings yet
lesson 5 INSTRUCTIONAL PLANNING COMPONENTS
2 pages
WHAT IS SIM Final
No ratings yet
WHAT IS SIM Final
21 pages
Structure Skills 1 5
No ratings yet
Structure Skills 1 5
33 pages
Task I
No ratings yet
Task I
6 pages
Young Learners Lesson Plan (16 To 24.7.22)
No ratings yet
Young Learners Lesson Plan (16 To 24.7.22)
3 pages
Introduction To UX Design Assessment
No ratings yet
Introduction To UX Design Assessment
8 pages
Bayes Classifier PDF
100% (1)
Bayes Classifier PDF
18 pages
Personality Development
No ratings yet
Personality Development
20 pages
Commo Mistakes and Speaking Success System
No ratings yet
Commo Mistakes and Speaking Success System
11 pages
Jiddu Krishnamurthy Teachings
No ratings yet
Jiddu Krishnamurthy Teachings
11 pages
Artificial Intelligence in Practice
No ratings yet
Artificial Intelligence in Practice
4 pages
Chapter 10 - Planning For Teaching
No ratings yet
Chapter 10 - Planning For Teaching
10 pages
Quiz 3 Again
No ratings yet
Quiz 3 Again
4 pages
Do's and Don'Ts of Business Writing
No ratings yet
Do's and Don'Ts of Business Writing
2 pages
Group 2
No ratings yet
Group 2
13 pages
DLP Sci. 6 Q1 - W2 - D2-3
No ratings yet
DLP Sci. 6 Q1 - W2 - D2-3
2 pages
Rubric For Critical Analysis Essay: Maximum: 100 Points
No ratings yet
Rubric For Critical Analysis Essay: Maximum: 100 Points
1 page
Comparative and Superlative Adjectives - List and Example Sentences
No ratings yet
Comparative and Superlative Adjectives - List and Example Sentences
4 pages
Sekolah Kebangsaan Paya Rumput SKK
No ratings yet
Sekolah Kebangsaan Paya Rumput SKK
3 pages