Testing in Data Science

This document discusses testing in data science. It outlines two main types of tests: 1) tests for data analysis and 2) tests for machine learning models. For data analysis, tests validate code on previously unseen data by checking properties of the outcome rather than the values. Libraries like Hypothesis generate random test data and check that it satisfies specified properties. For machine learning, tests validate non-ML code with PyTest and use techniques like blackbox testing and metrics to indirectly test models by checking output data properties and model quality.

Uploaded by

Sajal Khandelwal

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views2 pages

Testing in Data Science

Uploaded by

Sajal Khandelwal

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Testing in Data Science

This is what you need for testing, btw.

In Data Science, two types of tests can be written, in addition to the usual
tests written using the PyTest Library:
1. For Data Analysis
2. For Machine Learning
In Data analysis, you need to test the code for previously unseen data
(basically data validation).
You do that by checking the properties of the outcome rather than the value
of the outcome. There are libraries for that:
I found 4 of them, there are obviously more:
1. En garde
2. Hypothesis
3. Feature Forge
4. Voluptuous
These libraries check for properties of output data, rather than the data itself.
In addition, NumPy and Pandas have builtin data validation libraries that you
can use for this.
For example, Hypothesis (which seems to be the most useful in our case),
create random data given some specifications and runs it through our code to
assert some properties that we want to check for. It also looks for most edge
cases on its own and provides feedback.

This blog basically confirms your doubts

An example of Hypothesis
These talks would help:
1. Testing for Properties

Testing in Data Science 1

2. Data Validation
NumPy builtin data validation
In testing ML models, there are a couple steps involved. You need to PyTest all
the non machine learning code.
Since models cannot be tested directly, there are ways to get around it.
1. Blackbox Testing for Machine Learning
2. QA for ML Models

You can still do the property checks on the output data. Feature Forge is
specifically used in ML.
Then there are the Metrics we talked about in class yesterday that are used to
check the quality of the model.
In our specific problem, we could use the Hypothesis library to get a random
Dataframe to pass through our function and check if any rows still have
correlation more than a certain number. Since the data is random but
parameters can be defined, we can get exactly the kind of test we want.
I'll write a test for this later. I'll share the code once it works.
Hope this helps.

Testing in Data Science 2

Company Wise Data Science Interview Questions
100% (2)
Company Wise Data Science Interview Questions
39 pages
Data Science - CS109: Joe Blitzstein, Verena Kaynig-Fittkau, Hanspeter Pfister
No ratings yet
Data Science - CS109: Joe Blitzstein, Verena Kaynig-Fittkau, Hanspeter Pfister
47 pages
Developing a machine learning or a deep learning model
No ratings yet
Developing a machine learning or a deep learning model
24 pages
03_ml_testing
No ratings yet
03_ml_testing
51 pages
Data Science Course in Hyderabad - Innomatics
No ratings yet
Data Science Course in Hyderabad - Innomatics
10 pages
Industrialreport
No ratings yet
Industrialreport
26 pages
Kaggle Competitions - How To Win
No ratings yet
Kaggle Competitions - How To Win
74 pages
Roadmap Geeksforgeeks
No ratings yet
Roadmap Geeksforgeeks
24 pages
On Testing Machine Learing Programs - Braiek & Khomh
No ratings yet
On Testing Machine Learing Programs - Braiek & Khomh
15 pages
Common DS Interview Questions and Answers - 5
No ratings yet
Common DS Interview Questions and Answers - 5
4 pages
Data Science With Python-Sasmita PDF
67% (3)
Data Science With Python-Sasmita PDF
9 pages
Data Science Checklist
No ratings yet
Data Science Checklist
22 pages
20 Questions On Feature Engineering and Eda
No ratings yet
20 Questions On Feature Engineering and Eda
9 pages
ML_DA
No ratings yet
ML_DA
55 pages
WIP - ML-22-DEC Weekend
No ratings yet
WIP - ML-22-DEC Weekend
40 pages
Data Science
No ratings yet
Data Science
24 pages
chapter 1 capstone project ai class 12
No ratings yet
chapter 1 capstone project ai class 12
5 pages
Machine Learning Online Bootcamp Beginners Track Curriculum
No ratings yet
Machine Learning Online Bootcamp Beginners Track Curriculum
9 pages
Workflow of A Machine Learning Project
No ratings yet
Workflow of A Machine Learning Project
12 pages
Data Prep and Cleaning For Machine Learning
No ratings yet
Data Prep and Cleaning For Machine Learning
22 pages
Module 5.pptx_20250608_201231_0000
No ratings yet
Module 5.pptx_20250608_201231_0000
43 pages
Part 1 Lectures
No ratings yet
Part 1 Lectures
100 pages
Getting Started With Data Science Using Python
100% (1)
Getting Started With Data Science Using Python
25 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
Tips_for_Testing_in_Python_1646539645
No ratings yet
Tips_for_Testing_in_Python_1646539645
23 pages
Zen Data Science Syllabus
No ratings yet
Zen Data Science Syllabus
13 pages
Week 7 Laboratory Activity
No ratings yet
Week 7 Laboratory Activity
12 pages
AI_SYLLABUS
No ratings yet
AI_SYLLABUS
7 pages
APS1070 Lecture (3) Slides
No ratings yet
APS1070 Lecture (3) Slides
70 pages
Air quality prediction using machine learning
No ratings yet
Air quality prediction using machine learning
29 pages
Course Curriculum Batch 2025 - ML FEBRUARY (1)
No ratings yet
Course Curriculum Batch 2025 - ML FEBRUARY (1)
3 pages
Machine learning with pythone_syllabus
No ratings yet
Machine learning with pythone_syllabus
13 pages
Machine Learning Lecture1 - 26-27 Aug
No ratings yet
Machine Learning Lecture1 - 26-27 Aug
30 pages
AI Project Report: By: Neha Kalra (17csu122) and Prerna Pathak (17csu143)
No ratings yet
AI Project Report: By: Neha Kalra (17csu122) and Prerna Pathak (17csu143)
22 pages
Testing Machine Learning Systems - Code, Data and Models - Made With ML
No ratings yet
Testing Machine Learning Systems - Code, Data and Models - Made With ML
33 pages
Cab112:Introduction To Data Science: Session 2024-25 Page:1/2
No ratings yet
Cab112:Introduction To Data Science: Session 2024-25 Page:1/2
2 pages
Preparing Data For Machine Learning - Pluralsight PDF
No ratings yet
Preparing Data For Machine Learning - Pluralsight PDF
74 pages
DATA 2024_dist
No ratings yet
DATA 2024_dist
72 pages
Python
100% (1)
Python
635 pages
Data Science
No ratings yet
Data Science
30 pages
Unit 4_Question Bank and answers
No ratings yet
Unit 4_Question Bank and answers
23 pages
Data Validation in ML
No ratings yet
Data Validation in ML
3 pages
ML Ex 5
No ratings yet
ML Ex 5
6 pages
Data Science - 2 Sets
No ratings yet
Data Science - 2 Sets
10 pages
ML Unit 2
No ratings yet
ML Unit 2
33 pages
DS&a + AI ML Nov 23 6868 - Calendar
No ratings yet
DS&a + AI ML Nov 23 6868 - Calendar
9 pages
000+ +curriculum+ +Complete+Data+Science+and+Machine+Learning+Using+Python
No ratings yet
000+ +curriculum+ +Complete+Data+Science+and+Machine+Learning+Using+Python
10 pages
Syllabus AIML
No ratings yet
Syllabus AIML
14 pages
Data Science & Machine Learning 2024
No ratings yet
Data Science & Machine Learning 2024
2 pages
230208 MLOps Getting From Good to Great
No ratings yet
230208 MLOps Getting From Good to Great
41 pages
InfynasLeaningSolutions AI Machine Learining SDC
No ratings yet
InfynasLeaningSolutions AI Machine Learining SDC
6 pages
Master+Data+Science,+Data+Analytics+and+Machine+Learning+Using+Python (1)
No ratings yet
Master+Data+Science,+Data+Analytics+and+Machine+Learning+Using+Python (1)
16 pages
Data Science Course Outline CES LUMS
No ratings yet
Data Science Course Outline CES LUMS
4 pages
Kaggle Course Notes
No ratings yet
Kaggle Course Notes
87 pages
Lec 1
No ratings yet
Lec 1
9 pages
Datanest - Data Science Interview
No ratings yet
Datanest - Data Science Interview
19 pages
SWE 227 Slide 01
No ratings yet
SWE 227 Slide 01
21 pages
Unit6 Part3 General Procedure
No ratings yet
Unit6 Part3 General Procedure
19 pages
Test Driven Machine Learning: Control your machine learning algorithms using test-driven development to achieve quantifiable milestones
From Everand
Test Driven Machine Learning: Control your machine learning algorithms using test-driven development to achieve quantifiable milestones
Justin Bozonier
No ratings yet
Machine Learning with Python: A Comprehensive Guide with a Practical Example
From Everand
Machine Learning with Python: A Comprehensive Guide with a Practical Example
MARTIN NEEL
No ratings yet
Who Says Akbar Was Great
0% (1)
Who Says Akbar Was Great
222 pages
Rare Books
100% (1)
Rare Books
11 pages
Who Says Akbar Was Great
0% (1)
Who Says Akbar Was Great
222 pages
Gravitational Time Dilation
No ratings yet
Gravitational Time Dilation
1 page
Qsdfty 78 Iuytrewq
No ratings yet
Qsdfty 78 Iuytrewq
3 pages
4th Storey Plumbing Layout Plan Rev 0
No ratings yet
4th Storey Plumbing Layout Plan Rev 0
1 page
Sample Resume-Mechanical Engineer
No ratings yet
Sample Resume-Mechanical Engineer
1 page
24V-200AH
No ratings yet
24V-200AH
5 pages
Drive System Quotation - Modern Corporation
No ratings yet
Drive System Quotation - Modern Corporation
5 pages
002 - MCQ - Enercon
No ratings yet
002 - MCQ - Enercon
20 pages
Computer Network Questions-I
No ratings yet
Computer Network Questions-I
4 pages
ESP
No ratings yet
ESP
5 pages
Courses AT 2016-2017 Core Courses AT 2016-2017 Department Code Title Lecturer Ects Quartile Timeslot
0% (1)
Courses AT 2016-2017 Core Courses AT 2016-2017 Department Code Title Lecturer Ects Quartile Timeslot
1 page
226 (7) Manip-June 1983
No ratings yet
226 (7) Manip-June 1983
2 pages
Little Data Book on Information and Communication Technology 2008 1st Edition by World Bank ISBN 9780821374023 0821374028 pdf download
100% (3)
Little Data Book on Information and Communication Technology 2008 1st Edition by World Bank ISBN 9780821374023 0821374028 pdf download
76 pages
2022 CIP Records Confirmation Briefing
No ratings yet
2022 CIP Records Confirmation Briefing
9 pages
Ade7518 PDF
No ratings yet
Ade7518 PDF
128 pages
9626 Topical p3 Emerging 13
No ratings yet
9626 Topical p3 Emerging 13
35 pages
Huawei E5885ls 93a
No ratings yet
Huawei E5885ls 93a
5 pages
Mis Assignment 2 Final
No ratings yet
Mis Assignment 2 Final
7 pages
XM Ac2100 Datasheet
No ratings yet
XM Ac2100 Datasheet
2 pages
State Board of Technical Education, Bihar
No ratings yet
State Board of Technical Education, Bihar
1 page
PAGA Public Adress and General Alarm System
No ratings yet
PAGA Public Adress and General Alarm System
1 page
Din 19704-3
No ratings yet
Din 19704-3
7 pages
Basic Concepts of Project
No ratings yet
Basic Concepts of Project
21 pages
Barcode and QR Code Scanner
No ratings yet
Barcode and QR Code Scanner
27 pages
Multibeam Echo Sounder
No ratings yet
Multibeam Echo Sounder
2 pages
Image To Image Translation Using Generative Adversarial Network
No ratings yet
Image To Image Translation Using Generative Adversarial Network
5 pages
R Programming 1
No ratings yet
R Programming 1
71 pages
Project Information
No ratings yet
Project Information
3 pages
Time Signal Receiver Module
No ratings yet
Time Signal Receiver Module
4 pages
Topical Past Papers For Alevels Computer Science
No ratings yet
Topical Past Papers For Alevels Computer Science
16 pages
Action Plan in SIO
No ratings yet
Action Plan in SIO
5 pages
Data Driven Business Report
No ratings yet
Data Driven Business Report
5 pages

Testing in Data Science

Uploaded by

Testing in Data Science

Uploaded by

Testing in Data Science

This is what you need for testing, btw.

This blog basically confirms your doubts

Testing in Data Science 1

Testing in Data Science 2

You might also like