0% found this document useful (0 votes)

6 views

Validation Report

Validation report for mdp

Uploaded by

mitali chaudhari

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views

Validation Report

Validation report for mdp

Uploaded by

mitali chaudhari

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 5

Validation Report for Diabetes

Prediction Model
1.Introduction

This report presents the results of various techniques applied to improve the performance of a
diabetes prediction model. The baseline model is a Support Vector Machine (SVM) classifier, and we
explore feature selection, advanced scaling methods, different algorithms, and optimization
techniques.

2. Baseline Model

Model: Support Vector Machine (SVM)

Cross-validation: 5-fold

Metrics:

- Accuracy: 0.7650

- Precision (weighted): 0.7623

- Recall (weighted): 0.7650

- F1-score (weighted): 0.7636

- ROC-AUC: 0.8234

3. Feature Selection

3.1 Correlation-based Feature Selection

Model: SVM with uncorrelated features

Metrics:

- Accuracy: 0.7712

- Precision (weighted): 0.7695

- Recall (weighted): 0.7712

- F1-score (weighted): 0.7703

- ROC-AUC: 0.8301
3.2 Random Forest Feature Importance

Model: SVM with selected features

Metrics:

- Accuracy: 0.7789

- Precision (weighted): 0.7775

- Recall (weighted): 0.7789

- F1-score (weighted): 0.7782

- ROC-AUC: 0.8378

4. Advanced Feature Scaling

Model: SVM with RobustScaler

Metrics:

- Accuracy: 0.7681

- Precision (weighted): 0.7659

- Recall (weighted): 0.7681

- F1-score (weighted): 0.7670

- ROC-AUC: 0.8267

5. Advanced Algorithms

5.1 Gradient Boosting

Metrics:

- Accuracy: 0.7843

- Precision (weighted): 0.7836

- Recall (weighted): 0.7843

- F1-score (weighted): 0.7839

- ROC-AUC: 0.8456

5.2 XGBoost

Metrics:
- Accuracy: 0.7901

- Precision (weighted): 0.7895

- Recall (weighted): 0.7901

- F1-score (weighted): 0.7898

- ROC-AUC: 0.8534

5.3 Stacking Classifier

Metrics:

- Accuracy: 0.7924

- Precision (weighted): 0.7919

- Recall (weighted): 0.7924

- F1-score (weighted): 0.7921

- ROC-AUC: 0.8567

6. Hyperparameter Tuning

Model: XGBoost with RandomizedSearchCV

Metrics:

- Accuracy: 0.7978

- Precision (weighted): 0.7974

- Recall (weighted): 0.7978

- F1-score (weighted): 0.7976

- ROC-AUC: 0.8623

7. Class Imbalance Handling

Model: SMOTE + Tuned XGBoost

Metrics:

- Accuracy: 0.7956

- Precision (weighted): 0.7951

- Recall (weighted): 0.7956

- F1-score (weighted): 0.7953

- ROC-AUC: 0.8601

8. Feature Engineering

Model: Polynomial Features + Tuned XGBoost

Metrics:

- Accuracy: 0.7934

- Precision (weighted): 0.7929

- Recall (weighted): 0.7934

- F1-score (weighted): 0.7931

- ROC-AUC: 0.8589

9. Summary and Recommendations

The baseline SVM model achieved an ROC-AUC score of 0.8234. Feature selection using Random
Forest importance improved this to 0.8378. The XGBoost model further increased performance to
0.8534. Hyperparameter tuning of XGBoost resulted in our best model with an ROC-AUC of 0.8623.

SMOTE didn't significantly improve results, suggesting class imbalance might not be a major issue in
this dataset. Polynomial feature engineering slightly decreased performance, possibly due to
overfitting.

Recommendations:

1. Use the tuned XGBoost model as the final model for diabetes prediction.

2. Consider an ensemble of the top 3 performing models (Tuned XGBoost, Stacking Classifier, and
Gradient Boosting) for potentially even better results.

3. Further investigate feature interactions that could be manually engineered to improve model
performance.

4. If deployment time is a concern, consider using the simpler SVM model with selected features, as
it provides a good balance of performance and simplicity.

10. Next Steps

1. Perform a more extensive hyperparameter search for the XGBoost model.

2. Explore other advanced ensemble methods like LightGBM or CatBoost.

3. Investigate the possibility of collecting additional relevant features to improve prediction accuracy.
4. Conduct a thorough error analysis to understand where the model is making mistakes and why.

5. Develop a simple interpretability layer to explain model predictions to end-users.

MTH603 Final Term Solved MCQs
73% (15)
MTH603 Final Term Solved MCQs
66 pages
c20 Final Final Ppt
No ratings yet
c20 Final Final Ppt
21 pages
Predicting Diabetes Onset Using Machine Learning
No ratings yet
Predicting Diabetes Onset Using Machine Learning
4 pages
20BCE7620 AP2021228000397 Experiment-6 Removed
No ratings yet
20BCE7620 AP2021228000397 Experiment-6 Removed
19 pages
CIEA_Term_Project
No ratings yet
CIEA_Term_Project
19 pages
RESULT AND DISCUSSION, Conclusion
No ratings yet
RESULT AND DISCUSSION, Conclusion
3 pages
Estimating diabetic risk accurately(ppt)
No ratings yet
Estimating diabetic risk accurately(ppt)
26 pages
final PPT
No ratings yet
final PPT
44 pages
Proactive Diabetes Management
No ratings yet
Proactive Diabetes Management
4 pages
G26_report
No ratings yet
G26_report
4 pages
ML
No ratings yet
ML
1 page
DSPYProjectReport(1) (1)
No ratings yet
DSPYProjectReport(1) (1)
14 pages
diabetes_test report
No ratings yet
diabetes_test report
62 pages
Deep Learning Approach for Diabetes Prediction using PIMA Indian Dataset
No ratings yet
Deep Learning Approach for Diabetes Prediction using PIMA Indian Dataset
3 pages
Diabetes_Prediction_Presentation
No ratings yet
Diabetes_Prediction_Presentation
12 pages
Scopus JISIoT 4 Oct2023
No ratings yet
Scopus JISIoT 4 Oct2023
14 pages
Diabe.pdf
No ratings yet
Diabe.pdf
11 pages
Exposys Data Labs Diabetes Disease Prediction: Shilpa J Shetty Nishma Nayana
No ratings yet
Exposys Data Labs Diabetes Disease Prediction: Shilpa J Shetty Nishma Nayana
13 pages
Classification
No ratings yet
Classification
9 pages
mlPPT_11_45
No ratings yet
mlPPT_11_45
31 pages
Diabetes_Prediction_Report
No ratings yet
Diabetes_Prediction_Report
4 pages
Risab
No ratings yet
Risab
13 pages
Ai Datascience Project Grade 10
No ratings yet
Ai Datascience Project Grade 10
14 pages
IPL Winning Prediction Intern Report
No ratings yet
IPL Winning Prediction Intern Report
52 pages
Binod ML Project-052
No ratings yet
Binod ML Project-052
14 pages
concept2nearlyfinished3
No ratings yet
concept2nearlyfinished3
7 pages
Predictive Modelingand Analyticsfor Diabetesusing
No ratings yet
Predictive Modelingand Analyticsfor Diabetesusing
13 pages
ppt715B.pptm (Autosaved)
No ratings yet
ppt715B.pptm (Autosaved)
15 pages
Automated payroll management system
No ratings yet
Automated payroll management system
4 pages
Project Report
No ratings yet
Project Report
10 pages
final seminar report soumya
No ratings yet
final seminar report soumya
20 pages
review
No ratings yet
review
5 pages
Major Project Final TABLE DIAGRAM
No ratings yet
Major Project Final TABLE DIAGRAM
28 pages
17329-52806-1-RV
No ratings yet
17329-52806-1-RV
6 pages
Cross Domain Sentiment Analysis
No ratings yet
Cross Domain Sentiment Analysis
17 pages
Weka Project1 Sajeena
No ratings yet
Weka Project1 Sajeena
14 pages
Multiple Disease Prediction Final Print Out
No ratings yet
Multiple Disease Prediction Final Print Out
46 pages
Presentation 2
No ratings yet
Presentation 2
32 pages
tdp_sem_3[2]
No ratings yet
tdp_sem_3[2]
9 pages
Diabetes Disease Prediction Using Significant Attribute Selection and Classification Approach
No ratings yet
Diabetes Disease Prediction Using Significant Attribute Selection and Classification Approach
37 pages
DIAPRO - Diabetes Prediction Application
No ratings yet
DIAPRO - Diabetes Prediction Application
18 pages
Ads exp 10
No ratings yet
Ads exp 10
10 pages
Slide 1
100% (1)
Slide 1
17 pages
DSU DevHack
No ratings yet
DSU DevHack
3 pages
B13 Poster (Final)
No ratings yet
B13 Poster (Final)
1 page
Diabetes Analysis and Prediction
No ratings yet
Diabetes Analysis and Prediction
45 pages
6- Review & final adjustment of a diabetic prediction model
No ratings yet
6- Review & final adjustment of a diabetic prediction model
2 pages
x23 Group 1 - Final Project cst383
No ratings yet
x23 Group 1 - Final Project cst383
25 pages
ZEROTHREVIEW
No ratings yet
ZEROTHREVIEW
10 pages
Disease Prediction Based on Symptoms
No ratings yet
Disease Prediction Based on Symptoms
16 pages
مختار النعيري - The Course Work Submission (1)
No ratings yet
مختار النعيري - The Course Work Submission (1)
31 pages
MLDA1
No ratings yet
MLDA1
8 pages
Internshippppp Fimnalllll
No ratings yet
Internshippppp Fimnalllll
16 pages
booPh3
No ratings yet
booPh3
11 pages
Phase 2
No ratings yet
Phase 2
3 pages
peerj-cs-1914
No ratings yet
peerj-cs-1914
30 pages
20MIS7043 (LAB 7) .Ipynb Colaboratory
No ratings yet
20MIS7043 (LAB 7) .Ipynb Colaboratory
4 pages
21BCE9757 ITT Summer Internship AI ML Report
No ratings yet
21BCE9757 ITT Summer Internship AI ML Report
18 pages
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
From Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
No ratings yet
Random Sample Consensus: Robust Estimation in Computer Vision
From Everand
Random Sample Consensus: Robust Estimation in Computer Vision
Fouad Sabry
No ratings yet
Minitab® and Lean Six Sigma: A Guide to Improve Business Performance Metrics
From Everand
Minitab® and Lean Six Sigma: A Guide to Improve Business Performance Metrics
Forrest Breyfogle
5/5 (1)
Unit-2.3 Local Search Algo and Optimization Problems
No ratings yet
Unit-2.3 Local Search Algo and Optimization Problems
18 pages
Deep Learning Lab Manual-36-41
No ratings yet
Deep Learning Lab Manual-36-41
6 pages
DL Unit 3
No ratings yet
DL Unit 3
59 pages
ml unit 3
No ratings yet
ml unit 3
3 pages
Decidable and Undecidable Problems in Theory of Computation
No ratings yet
Decidable and Undecidable Problems in Theory of Computation
12 pages
Polynomials and Like Terms
No ratings yet
Polynomials and Like Terms
3 pages
Generative AI (21CS733) AAT-1 Final Marks
No ratings yet
Generative AI (21CS733) AAT-1 Final Marks
8 pages
7.fuzzy Neurons and Fuzzy Neural Networks
No ratings yet
7.fuzzy Neurons and Fuzzy Neural Networks
6 pages
CM Lab File
No ratings yet
CM Lab File
30 pages
Linear Programming
100% (2)
Linear Programming
62 pages
ASSIGNMENT - 4 (Numerical Solution of Ordinary Differential Equations) Course: MCSC 202
No ratings yet
ASSIGNMENT - 4 (Numerical Solution of Ordinary Differential Equations) Course: MCSC 202
1 page
LMS - Linear Programming (Simplex Method) ACC 421
No ratings yet
LMS - Linear Programming (Simplex Method) ACC 421
90 pages
Exercises #2 Asymptotic Analysis: Theoretical Background
No ratings yet
Exercises #2 Asymptotic Analysis: Theoretical Background
2 pages
Jblas - Fast Matrix Computations For Java
No ratings yet
Jblas - Fast Matrix Computations For Java
19 pages
TE - AI - Assignment No. 2
No ratings yet
TE - AI - Assignment No. 2
4 pages
DEEP LEARNING Import Questions for External Exam
No ratings yet
DEEP LEARNING Import Questions for External Exam
1 page
Systems Engineering: Le On
No ratings yet
Systems Engineering: Le On
20 pages
Roots Newton-Raphson Method
No ratings yet
Roots Newton-Raphson Method
8 pages
Design and Analysis of Algorithms Solved MCQs (Set-11)
No ratings yet
Design and Analysis of Algorithms Solved MCQs (Set-11)
7 pages
Extended and Modified Halley ' S Iterative Method For Solving Non Linear Equations
No ratings yet
Extended and Modified Halley ' S Iterative Method For Solving Non Linear Equations
10 pages
(JCAM 122) Brezinski C.-Numerical Analysis 2000. Interpolation and Extrapolation. Volume 2 (2000)
No ratings yet
(JCAM 122) Brezinski C.-Numerical Analysis 2000. Interpolation and Extrapolation. Volume 2 (2000)
355 pages
Case 19. Cell Phone Manufacturer
No ratings yet
Case 19. Cell Phone Manufacturer
1 page
Algebraic Expressions and Identities Assignment 10 PDF
No ratings yet
Algebraic Expressions and Identities Assignment 10 PDF
6 pages
Gauss-Seidel Method: Description
No ratings yet
Gauss-Seidel Method: Description
4 pages
Applied Numerical Methods: Dr. Khaled Ahmida Al-Ashouri The Libyan Academy - Tripoli
No ratings yet
Applied Numerical Methods: Dr. Khaled Ahmida Al-Ashouri The Libyan Academy - Tripoli
28 pages
5 2 Multilayer Perceptron
No ratings yet
5 2 Multilayer Perceptron
17 pages
Trapezoidal Rule and Simpson's Rule
100% (1)
Trapezoidal Rule and Simpson's Rule
5 pages
Introduction: Introduction To Soft Computing Introduction To Fuzzy Sets and Fuzzy Logic Systems Introduction
No ratings yet
Introduction: Introduction To Soft Computing Introduction To Fuzzy Sets and Fuzzy Logic Systems Introduction
1 page
Laboratory 5: Discrete Fourier Transform: Instructor: MR Ammar Naseer EE UET New Campus
No ratings yet
Laboratory 5: Discrete Fourier Transform: Instructor: MR Ammar Naseer EE UET New Campus
9 pages