0% found this document useful (0 votes)

7 views

DS Assignment

The assignment focuses on using machine learning techniques to predict diseases based on patient data, requiring students to preprocess data, conduct exploratory analysis, and develop a classification model. Students will work with real-world datasets, such as those for heart disease or diabetes, and will be evaluated on various tasks including feature engineering, model training, evaluation, and deployment of a web application. The final deliverables include a Jupyter Notebook, a report summarizing the project, and a link to a GitHub repository.

Uploaded by

prachinpatil19

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views

DS Assignment

Uploaded by

prachinpatil19

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Assignment Title: Disease Prediction Using Machine Learning

Course: Data Science

Level: Undergraduate (T.Y.BSc in Information Technology)

Assignment Type: Individual

Total Marks: 150

Submission Mode: Online via Classroom

Deadline: 15-03-2025

Objective

This assignment will help students apply machine learning techniques to predict
diseases using patient data. The focus will be on data preprocessing, exploratory data
analysis (EDA), feature engineering, training simple ML models with hyperparameter
tuning, and deploying a prediction web app using Flask/Streamlit.

Problem Statement

You are a Data Scientist working for a healthcare analytics company. Your task is to
build a machine learning model that predicts whether a patient is at risk of a
particular disease based on their health parameters. The dataset contains medical
records such as age, BMI, glucose levels, and other diagnostic features. Your goal is to
develop a classification model that can accurately predict the presence or absence of
a disease.

Dataset

You will use a real-world but simple dataset such as:

• Heart Disease Prediction Dataset

• Diabetes Prediction Dataset

• Chronic Kidney Disease Dataset

These datasets are available on Kaggle/UCI Machine Learning Repository. The dataset
typically includes:

• Age

• Gender

• Blood Pressure

• Cholesterol Levels

• Glucose Levels

• BMI (Body Mass Index)

• Smoking/Alcohol Consumption Status

• Family History of Disease

• Target Variable (0 = No Disease, 1 = Disease Present)

Students can choose one of these datasets or any similar real-world dataset.

Assignment Tasks & Marking Scheme

Part 1: Data Preprocessing & Exploration (30 Marks)

1. Load the dataset and display the first few rows.

2. Handle missing values appropriately.

3. Perform Exploratory Data Analysis (EDA):

• Summary statistics

• Data distributions (histograms, box plots)

• Correlation matrix

• Outlier detection & handling

4. Normalize/standardize numerical features if needed.

Deliverables:
• Python code with EDA

• Summary of insights from the data

Criteria Full Marks Good Needs Poor (7-14) No

(30) (22-29) Improveme Submission
nt (15-21) (0)

Data Thorough Good EDA Basic EDA Poor No

Preprocessi EDA, with minor with handling of submission
ng & EDA missing issues minimal missing
values insights values,
handled weak EDA
well,
insightful
analysis

Part 2: Feature Engineering & Selection (25 Marks)

1. Handle categorical variables (one-hot encoding, label encoding).

2. Identify and remove highly correlated features.

3. Apply feature selection techniques (e.g., SelectKBest, Mutual

Information).

Deliverables:

• Python code with feature selection

• Justification for chosen features

Criteria Full Marks Good Needs Poor (6-11) No

(25) (18-24) Improveme Submission
nt (12-17) (0)
Feature Excellent Good Basic Poor or No
Engineering feature selection selection, incorrect submission
& Selection selection with minor limited selection
with issues justification
justification

Part 3: Model Development & Training (35 Marks)

1. Split the dataset into training and testing sets (80-20 or 70-30 split).

2. Train at least two models from the following:

• Logistic Regression

• Decision Tree

• Random Forest

• k-Nearest Neighbors (KNN)

• Support Vector Machine (SVM)

3. Tune hyperparameters using GridSearchCV or RandomizedSearchCV.

4. Train and evaluate models using metrics such as accuracy, precision,
recall, and F1-score.

Deliverables:

• Python code for model training

• Performance comparison table

• Explanation of chosen models and hyperparameters

Criteria Full Marks Good Needs Poor (9-17) No

(35) (26-34) Improveme Submission
nt (18-25) (0)
Model Two models Two models One model Poor model No models
Developme implemente implemente implemente selection, implemente
nt & d with d, limited d, no tuning weak d
Training hyperparam tuning implementa
eter tuning tion

Part 4: Model Evaluation & Optimization (30 Marks)

1. Evaluate models using confusion matrix, Precision Recall Curve.

2. Interpret results and suggest improvements.

3. Apply feature selection techniques and retrain the model if necessary.

Deliverables:

• Evaluation metrics & visualizations

• Comparison and interpretation of results

Criteria Full Marks Good Needs Poor (7-14) No

(30) (22-29) Improveme Submission
nt (15-21) (0)

Model Thorough Good Basic Poor No

Evaluation evaluation evaluation evaluation evaluation, evaluation
& with clear with some with limited missing key
Optimizatio improveme insights explanation metrics
n nts

Part 5: Model Deployment & Report (30 Marks)

1. Save the best model using Pickle/Joblib.

2. Develop a Flask or Streamlit web application where users can input
patient details and receive a disease prediction.
3. Write a report summarizing:

• Problem statement

• Data preprocessing & insights

• Model training & evaluation

• Challenges faced and possible improvements

Deliverables:

• Flask/Streamlit app source code

• Screenshots of working app

• Final report summarizing the project

Criteria Full Marks Good Needs Poor (7-14) No

(30) (22-29) Improveme Submission
nt (15-21) (0)

Deployment Fully Working Basic app Poor No

& Report functional app with with weak execution of deployment
app with a minor report deployment or report
well-structu issues in & report
red report report

Submission Instructions

1. Upload a Jupyter Notebook (.ipynb) with:

• Well-commented Python code

• Explanations and visualizations

2. Upload a report (.pdf) covering:

• Problem statement, methodology, snapshots of output and results

• Discussion on model performance as per Confusion Matrix

• Provide a link to GitHub repository containing project files.

• Naming Convention:
StudentID_LastName_FirstName_ML_Assignment.pdf

Additional Notes

• Plagiarism/Use of ChatGpt will result in zero marks.

• Use Python (Pandas, NumPy, Scikit-Learn, Matplotlib/Seaborn,

Flask/Streamlit).

• Bonus Marks: For additional feature selection or an Explainable AI

technique (SHAP, LIME).

Akaike Technologies Structured Data Assignment
33% (3)
Akaike Technologies Structured Data Assignment
4 pages
ISTQB Advanced Level Technical Test Analyst- Exam Insights: Q&A with Explanations
From Everand
ISTQB Advanced Level Technical Test Analyst- Exam Insights: Q&A with Explanations
SUJAN
No ratings yet
Disease Prediction and Drug Recommendation Using Machine Learning
100% (1)
Disease Prediction and Drug Recommendation Using Machine Learning
26 pages
Reid 618hr Ins Man Part List
No ratings yet
Reid 618hr Ins Man Part List
20 pages
ICT583 Data Science Applications - Final Assignment - Individual - UPDATED!!! - Explanation
0% (1)
ICT583 Data Science Applications - Final Assignment - Individual - UPDATED!!! - Explanation
5 pages
EPB2.4 + V3f20 Installation - Start-Up Proc
75% (4)
EPB2.4 + V3f20 Installation - Start-Up Proc
30 pages
MLPC Midterm
No ratings yet
MLPC Midterm
18 pages
Final Project Guidelines: Dataset Selection & Planning
No ratings yet
Final Project Guidelines: Dataset Selection & Planning
3 pages
SUB Final Question
No ratings yet
SUB Final Question
2 pages
SL_Problem Statement
No ratings yet
SL_Problem Statement
3 pages
CSL7620_A2
No ratings yet
CSL7620_A2
2 pages
Assignment_1_Machine Learning
No ratings yet
Assignment_1_Machine Learning
3 pages
Personalized Healthcare Recommendations
No ratings yet
Personalized Healthcare Recommendations
6 pages
Rahul Phase 4...
No ratings yet
Rahul Phase 4...
13 pages
Theory (10 Marks)
No ratings yet
Theory (10 Marks)
4 pages
Heart Disease Detection - Newreport
No ratings yet
Heart Disease Detection - Newreport
57 pages
HDD New Report
No ratings yet
HDD New Report
95 pages
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
No ratings yet
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
38 pages
ML File External File
No ratings yet
ML File External File
25 pages
Python Cod1
No ratings yet
Python Cod1
3 pages
KR&AI-ML-DM Practical Journal ANS
No ratings yet
KR&AI-ML-DM Practical Journal ANS
64 pages
Syllabus AIML
No ratings yet
Syllabus AIML
14 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
Ml Projects Part c
No ratings yet
Ml Projects Part c
8 pages
Datascience
No ratings yet
Datascience
8 pages
Thyroid Disease Classification Using Machine Learning Project
No ratings yet
Thyroid Disease Classification Using Machine Learning Project
34 pages
ETHICS AND AI LAB FINAL
No ratings yet
ETHICS AND AI LAB FINAL
31 pages
FINAL YEAR MINOR PROJECT
No ratings yet
FINAL YEAR MINOR PROJECT
9 pages
ML Project
No ratings yet
ML Project
11 pages
ASSIGNMENT 2 REPORT
No ratings yet
ASSIGNMENT 2 REPORT
3 pages
Worksheet 8 (AIML) 5 TH Semester
No ratings yet
Worksheet 8 (AIML) 5 TH Semester
6 pages
Thyroid Disease Classification Using ML
No ratings yet
Thyroid Disease Classification Using ML
37 pages
AIML Hard
No ratings yet
AIML Hard
22 pages
A1991370857_65680_10_2025_CSM355CA1
No ratings yet
A1991370857_65680_10_2025_CSM355CA1
6 pages
Heart_disease _ppt
No ratings yet
Heart_disease _ppt
9 pages
YUKI ENDO - FInalexam
No ratings yet
YUKI ENDO - FInalexam
2 pages
1_1_Assignment - Part 2 - Marking Criteria (Rubric)
No ratings yet
1_1_Assignment - Part 2 - Marking Criteria (Rubric)
4 pages
BUS2004 Ass3 Sem2 2024
No ratings yet
BUS2004 Ass3 Sem2 2024
2 pages
COS10022 Data Science Assignment 1 Question
No ratings yet
COS10022 Data Science Assignment 1 Question
3 pages
Assignment 3-PDS Python-24S3
No ratings yet
Assignment 3-PDS Python-24S3
5 pages
FYMCA IDSLab A6 Submission
No ratings yet
FYMCA IDSLab A6 Submission
9 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
2 pages
BDA miniproject
No ratings yet
BDA miniproject
5 pages
PAMLSET1new.docx (1)
No ratings yet
PAMLSET1new.docx (1)
4 pages
Machine File
No ratings yet
Machine File
27 pages
ML (Lab 8) Tasks Bilal Habib (5th Semester)
No ratings yet
ML (Lab 8) Tasks Bilal Habib (5th Semester)
16 pages
Au953721103009 Font
No ratings yet
Au953721103009 Font
26 pages
ds
No ratings yet
ds
28 pages
DMS5
No ratings yet
DMS5
1 page
IS675 Assignment1
No ratings yet
IS675 Assignment1
2 pages
PythonHeartDisease FirstReview
No ratings yet
PythonHeartDisease FirstReview
4 pages
JIGYANSHU AGRAWAL
No ratings yet
JIGYANSHU AGRAWAL
3 pages
Ce473 Project - Fall 2024
No ratings yet
Ce473 Project - Fall 2024
8 pages
Project Questions
No ratings yet
Project Questions
3 pages
Assignment - #4 - Decision Tree and Ensemble - Final
No ratings yet
Assignment - #4 - Decision Tree and Ensemble - Final
2 pages
PROJECTS
No ratings yet
PROJECTS
6 pages
Big Data & Predictive Analytics: How To Submit
No ratings yet
Big Data & Predictive Analytics: How To Submit
4 pages
Supervised Learning - Milestones
No ratings yet
Supervised Learning - Milestones
2 pages
Heart Disease Prediction System Using Machine Learning 1
No ratings yet
Heart Disease Prediction System Using Machine Learning 1
17 pages
COMP551 Fall 2020 P1
No ratings yet
COMP551 Fall 2020 P1
4 pages
Assignment 3
No ratings yet
Assignment 3
3 pages
Ai ML Exp1
No ratings yet
Ai ML Exp1
8 pages
TS AEC GP Series Final - Rev05.02.2018
No ratings yet
TS AEC GP Series Final - Rev05.02.2018
4 pages
8474 22 Milea Roxana-Ecaterina en
No ratings yet
8474 22 Milea Roxana-Ecaterina en
1 page
Aida3 Advanced Freediver - Course Outline: 1.1 Prerequisites
100% (1)
Aida3 Advanced Freediver - Course Outline: 1.1 Prerequisites
5 pages
42 8pd
No ratings yet
42 8pd
136 pages
Motor Run Capacitors PDF
No ratings yet
Motor Run Capacitors PDF
6 pages
Sabina Spielrein Forgotten Pioneer of Psychoanalysis 1st Edition Coline Covington 2024 scribd download
100% (1)
Sabina Spielrein Forgotten Pioneer of Psychoanalysis 1st Edition Coline Covington 2024 scribd download
67 pages
RAL Colour Reference Description Colour Sample
No ratings yet
RAL Colour Reference Description Colour Sample
6 pages
Material Ledger Configuration
No ratings yet
Material Ledger Configuration
7 pages
Correcting Penoscrotal Web With The V-Y Advancement Technique
No ratings yet
Correcting Penoscrotal Web With The V-Y Advancement Technique
2 pages
Interline MSDS
No ratings yet
Interline MSDS
4 pages
Archana K Raghunath 12yrs Management Role
No ratings yet
Archana K Raghunath 12yrs Management Role
4 pages
"Case Comment: Ratan Lal vs. The State of Madhaya Pradesh": Final Draft Criminal Law
No ratings yet
"Case Comment: Ratan Lal vs. The State of Madhaya Pradesh": Final Draft Criminal Law
9 pages
Solubilities Sulfur Dioxide and Ammonia in Water': Vzos
No ratings yet
Solubilities Sulfur Dioxide and Ammonia in Water': Vzos
3 pages
Catalog Casting and Forging Products
No ratings yet
Catalog Casting and Forging Products
7 pages
Top 10 Stress Management Techniques For Students
No ratings yet
Top 10 Stress Management Techniques For Students
27 pages
Nursing Care Plan Intervention Rationale Evaluation/Expecte D Outcome DX: STO
No ratings yet
Nursing Care Plan Intervention Rationale Evaluation/Expecte D Outcome DX: STO
2 pages
9.4 Giant Ionic Structures
100% (1)
9.4 Giant Ionic Structures
2 pages
Business Ethics-Yubal Angelica S. 12 Abm Aphrodite
No ratings yet
Business Ethics-Yubal Angelica S. 12 Abm Aphrodite
3 pages
W2 DCI Global Report
No ratings yet
W2 DCI Global Report
6 pages
Helipad Standart
No ratings yet
Helipad Standart
169 pages
SDL Reflection Lecture
No ratings yet
SDL Reflection Lecture
11 pages
Xview Trident
No ratings yet
Xview Trident
8 pages
Clinical Chemistry Laboratory Methods
No ratings yet
Clinical Chemistry Laboratory Methods
6 pages
Cascade 35D - MT Parts
No ratings yet
Cascade 35D - MT Parts
101 pages
Bio Set 1 (Answer Key)
100% (1)
Bio Set 1 (Answer Key)
5 pages
Product Mix Amul
100% (1)
Product Mix Amul
25 pages
Petition For Legal Separation: Details of Spouse 1
No ratings yet
Petition For Legal Separation: Details of Spouse 1
7 pages
M45
No ratings yet
M45
6 pages

DS Assignment

Uploaded by

DS Assignment

Uploaded by

Assignment Title: Disease Prediction Using Machine Learning

Course: Data Science

Level: Undergraduate (T.Y.BSc in Information Technology)

Assignment Type: Individual

Total Marks: 150

Submission Mode: Online via Classroom

You will use a real-world but simple dataset such as:

​ •​ Heart Disease Prediction Dataset

​ •​ Diabetes Prediction Dataset

​ •​ Chronic Kidney Disease Dataset

​ •​ BMI (Body Mass Index)

​ •​ Smoking/Alcohol Consumption Status

​ •​ Family History of Disease

​ •​ Target Variable (0 = No Disease, 1 = Disease Present)

Assignment Tasks & Marking Scheme

Part 1: Data Preprocessing & Exploration (30 Marks)

​ 2.​ Handle missing values appropriately.

​ 3.​ Perform Exploratory Data Analysis (EDA):

​ •​ Data distributions (histograms, box plots)

​ •​ Outlier detection & handling

​ 4.​ Normalize/standardize numerical features if needed.

​ •​ Summary of insights from the data

Criteria Full Marks Good Needs Poor (7-14) No

Data Thorough Good EDA Basic EDA Poor No

Part 2: Feature Engineering & Selection (25 Marks)

​ 1.​ Handle categorical variables (one-hot encoding, label encoding).

​ 2.​ Identify and remove highly correlated features.

​ 3.​ Apply feature selection techniques (e.g., SelectKBest, Mutual

​ •​ Python code with feature selection

​ •​ Justification for chosen features

Criteria Full Marks Good Needs Poor (6-11) No

Part 3: Model Development & Training (35 Marks)

​ 2.​ Train at least two models from the following:

​ •​ k-Nearest Neighbors (KNN)

​ •​ Support Vector Machine (SVM)

​ 3.​ Tune hyperparameters using GridSearchCV or RandomizedSearchCV.

​ •​ Python code for model training

​ •​ Performance comparison table

​ •​ Explanation of chosen models and hyperparameters

Criteria Full Marks Good Needs Poor (9-17) No

Part 4: Model Evaluation & Optimization (30 Marks)

​ 1.​ Evaluate models using confusion matrix, Precision Recall Curve.

​ 2.​ Interpret results and suggest improvements.

​ •​ Evaluation metrics & visualizations

​ •​ Comparison and interpretation of results

Criteria Full Marks Good Needs Poor (7-14) No

Model Thorough Good Basic Poor No

Part 5: Model Deployment & Report (30 Marks)

​ 1.​ Save the best model using Pickle/Joblib.

​ •​ Data preprocessing & insights

​ •​ Model training & evaluation

​ •​ Challenges faced and possible improvements

​ •​ Flask/Streamlit app source code

​ •​ Screenshots of working app

​ •​ Final report summarizing the project

Criteria Full Marks Good Needs Poor (7-14) No

Deployment Fully Working Basic app Poor No

1.​ Upload a Jupyter Notebook (.ipynb) with:

​ •​ Well-commented Python code

​ •​ Explanations and visualizations

2.​ Upload a report (.pdf) covering:

​ •​ Problem statement, methodology, snapshots of output and results

​ •​ Provide a link to GitHub repository containing project files.

​ •​ Plagiarism/Use of ChatGpt will result in zero marks.

​ •​ Use Python (Pandas, NumPy, Scikit-Learn, Matplotlib/Seaborn,

​ •​ Bonus Marks: For additional feature selection or an Explainable AI

You might also like

• Heart Disease Prediction Dataset

• Diabetes Prediction Dataset

• Chronic Kidney Disease Dataset

• BMI (Body Mass Index)

• Smoking/Alcohol Consumption Status

• Family History of Disease

• Target Variable (0 = No Disease, 1 = Disease Present)

2. Handle missing values appropriately.

3. Perform Exploratory Data Analysis (EDA):

• Data distributions (histograms, box plots)

• Outlier detection & handling

4. Normalize/standardize numerical features if needed.

• Summary of insights from the data

1. Handle categorical variables (one-hot encoding, label encoding).

2. Identify and remove highly correlated features.

3. Apply feature selection techniques (e.g., SelectKBest, Mutual

• Python code with feature selection

• Justification for chosen features

2. Train at least two models from the following:

• k-Nearest Neighbors (KNN)

• Support Vector Machine (SVM)

3. Tune hyperparameters using GridSearchCV or RandomizedSearchCV.

• Python code for model training

• Performance comparison table

• Explanation of chosen models and hyperparameters

1. Evaluate models using confusion matrix, Precision Recall Curve.

2. Interpret results and suggest improvements.

• Evaluation metrics & visualizations

• Comparison and interpretation of results

1. Save the best model using Pickle/Joblib.

• Data preprocessing & insights

• Model training & evaluation

• Challenges faced and possible improvements

• Flask/Streamlit app source code

• Screenshots of working app

• Final report summarizing the project

1. Upload a Jupyter Notebook (.ipynb) with:

• Well-commented Python code

• Explanations and visualizations

2. Upload a report (.pdf) covering:

• Problem statement, methodology, snapshots of output and results

• Provide a link to GitHub repository containing project files.

• Plagiarism/Use of ChatGpt will result in zero marks.

• Use Python (Pandas, NumPy, Scikit-Learn, Matplotlib/Seaborn,

• Bonus Marks: For additional feature selection or an Explainable AI