0% found this document useful (0 votes)

47 views

07 ML Classificaion Advanced Kappa

This document discusses various machine learning classification topics taught by Dr. Hikmat Ullah Khan. It includes examples of calculating classification metrics like accuracy, sensitivity and specificity using a confusion matrix. It also discusses evaluating classifier accuracy using holdout and cross-validation methods, issues that can affect model selection, and techniques for increasing accuracy like ensemble methods and addressing the no free lunch theorem.

Uploaded by

In Tech

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views

07 ML Classificaion Advanced Kappa

Uploaded by

In Tech

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 18

Classification

Advanced Topics
Dr. Hikmat Ullah Khan

1 (Dr Hikmat Ullah Khan)

Actual Class\Predicted cancer = yes cancer = no Total
class
cancer = yes 90 210 300

cancer = no 140 9560 9700

Total 230 9770 10000

Calculate
1. Proper PEMs

2 (Dr Hikmat Ullah Khan)

Classifier Evaluation Metrics: Example

Actual Class\Predicted cancer = cancer = Total Recognition(

class yes no %)
cancer = yes 90 210 300 30.00
(sensitivity
cancer = no 140 9560 9700 98.56
(specificity)
Total 230 9770 10000 96.40
(accuracy)

 Precision = 90/230 = 39.13%

 Recall = 90/300 = 30.00%

3
3
Class Labelling

• Amazon Mechanical Turk

– https://www.mturk.com/mturk/welcome
– https://en.wikipedia.org/wiki/Amazon_Mechanical_Turk
• Doing what Computers can not do (so far)…
– Opportunities
• Is Class Labelling a Sensitive task?
– Health
– Social Issues?
• R u interested in labelling?
• R u doing it already?

4 (Dr Hikmat Ullah Khan)

5 (Dr Hikmat Ullah Khan)
Problems in Labelling
 If we take labelling from multiple judges
 What happens if the agreement does not occur?
 How to solve it?
 How to measure it Statistically?

6 (Dr Hikmat Ullah Khan)

Kappa Statistics

7 (Dr Hikmat Ullah Khan)

Interpretation of Cohen’s kappa.

Value of Kappa Level of Agreement % of Data that are Reliable

0–.20 None 0–4%

.21–.39 Minimal 4–15%

.40–.59 Weak 15–35%

.60–.79 Moderate 35–63%

.80–.90 Strong 64–81%

Above.90 Almost Perfect 82–100%

8 (Dr Hikmat Ullah Khan)

Use of Cohen Kappa Statistics
 Agreement between Raters or Annotators
 May also be applied for Agreed results of Human vs
Classifiers

 Exercise

9 (Dr Hikmat Ullah Khan)

Exercise

 The following hypothetical data come from a medical test where

two radiographers rated 50 images for needing further study.
The researchers (A and B) either said Yes (for further study) or
No (No further study needed).
 20 images were rated Yes by both and 15 images were rated No
by both.
 Overall, rater A said Yes to 25 images and No to 25. Overall,
Rater B said Yes to 30 images and No to 20.
 Computer Kappa Statistics using K=OA-AC/(1-AC)
equation.

10 (Dr Hikmat Ullah Khan)

Evaluating Classifier Accuracy:
Holdout Methods
 Holdout method
 Given data is randomly partitioned into two independent sets
 Training set (e.g., 2/3) for model construction
 Test set (e.g., 1/3) for accuracy estimation
 Overfitting and under-fitting can be based on wrong split
 90-10
 50-50
 Standard usually 70-30
 Random sampling:
 a variation of holdout
 Repeat holdout k times,
 accuracy = avg. of the accuracies obtained

11 (Dr Hikmat Ullah Khan)

11
Evaluating Classifier Accuracy:
Cross-Validation Methods
 Cross-validation
 (k-fold, where k = 10 is most popular)
 Randomly partition the data into k mutually exclusive subsets,
 Each approximately equal size
 At i-th iteration, use Di as test set and others as training set

 Which is better, Hold out or Cross Validation?

 Why?

12 (Dr Hikmat Ullah Khan)

12
Issues and Improving Accuracy

Insight into Improvement

13 (Dr Hikmat Ullah Khan)

Issues Affecting Model Selection
 Accuracy
 classifier accuracy: predicting class label
 Speed
 time to construct the model (training time)
 time to use the model (classification/prediction time)
 Robustness:
 Handling noise and missing values
 Scalability:
 Efficiency in disk-resident databases

14 (Dr Hikmat Ullah Khan)

14
Ensemble Methods:
Increasing the Accuracy

 Ensemble methods
 Use a combination of models to increase accuracy
 Combine a series of k learned models, M1, M2, …, Mk, with the
aim of creating an improved model M*

15 (Dr Hikmat Ullah Khan)

15
Ensemble Methods: Increasing the Accuracy

 Ensemble:
 combining a set of heterogeneous classifiers

 Popular ensemble methods

 Bagging: (Bootstrap Aggregation)
 Averaging the prediction over a collection of
classifiers
 Boosting:
 weighted vote with a collection of classifiers
16 (Dr Hikmat Ullah Khan)
16
No Free Lunch Theorem

• RELATIVITY
• Learning algorithm 1 is better than learning
algorithm 2 ?
• Such statements are true about the relevant target
functions
• THUMB S RULE
• Experience with a broad range of techniques is the
best insurance for solving arbitrary new
classification problems

17 (Dr Hikmat Ullah Khan)

18 (Dr Hikmat Ullah Khan)

Predicting Churn
100% (10)
Predicting Churn
14 pages
BusinessStatistics Assign 1
100% (1)
BusinessStatistics Assign 1
17 pages
SMDM Extended Project Report
No ratings yet
SMDM Extended Project Report
9 pages
Lecture 01-Model Selection and Evaluation
No ratings yet
Lecture 01-Model Selection and Evaluation
29 pages
CSC4316 9
No ratings yet
CSC4316 9
40 pages
DM 09 Classification and Prediction 19112024 102854am
No ratings yet
DM 09 Classification and Prediction 19112024 102854am
21 pages
Lecture 5 Evaluation_Classifer
No ratings yet
Lecture 5 Evaluation_Classifer
61 pages
2 Supervised Learning
No ratings yet
2 Supervised Learning
48 pages
Model Evaluation and Selection
No ratings yet
Model Evaluation and Selection
37 pages
Data Mining Models and Evaluation Techniques
No ratings yet
Data Mining Models and Evaluation Techniques
59 pages
Bilal Ahmed Shaik Data Mining
No ratings yet
Bilal Ahmed Shaik Data Mining
88 pages
Classification Evaluation
No ratings yet
Classification Evaluation
28 pages
19-Introduction classification algorithm-18-09-2024
No ratings yet
19-Introduction classification algorithm-18-09-2024
102 pages
Lectures3 5
No ratings yet
Lectures3 5
57 pages
DL_IT324a_4
No ratings yet
DL_IT324a_4
52 pages
Introduction To Artificial Intelligence: Amna Iftikhar Spring ' 2021
No ratings yet
Introduction To Artificial Intelligence: Amna Iftikhar Spring ' 2021
40 pages
Cardiovascular Disease Slides
No ratings yet
Cardiovascular Disease Slides
35 pages
CST 42315 Dam - L9 1
No ratings yet
CST 42315 Dam - L9 1
15 pages
Xchapter 1
No ratings yet
Xchapter 1
31 pages
Classification - Performance Evlaution
No ratings yet
Classification - Performance Evlaution
13 pages
TensorFlow Classification
No ratings yet
TensorFlow Classification
68 pages
Unit 5 Classification PDF
No ratings yet
Unit 5 Classification PDF
131 pages
Classification
No ratings yet
Classification
33 pages
ML Model Evaluation
No ratings yet
ML Model Evaluation
17 pages
Accuracy and Error Measures
No ratings yet
Accuracy and Error Measures
46 pages
Unit 4 Classification
No ratings yet
Unit 4 Classification
87 pages
2 Supervised Learning
No ratings yet
2 Supervised Learning
52 pages
27 ShivangiSrivastava ML Lab
No ratings yet
27 ShivangiSrivastava ML Lab
52 pages
Chp8 Classification Basic Concepts - Lecture#8
No ratings yet
Chp8 Classification Basic Concepts - Lecture#8
40 pages
ML FDP Over All Summary
No ratings yet
ML FDP Over All Summary
44 pages
Lesson 6 Analytics Methods
No ratings yet
Lesson 6 Analytics Methods
12 pages
04 - Model Selection
No ratings yet
04 - Model Selection
62 pages
IntroClassificationDA-2024
No ratings yet
IntroClassificationDA-2024
129 pages
Lec07 Classification ModelEvaluation Ensemble
No ratings yet
Lec07 Classification ModelEvaluation Ensemble
62 pages
Introduction To Artificial Intelligence: Amna Iftikhar Fall ' 2019 1
No ratings yet
Introduction To Artificial Intelligence: Amna Iftikhar Fall ' 2019 1
33 pages
APA Chapter3 T20
No ratings yet
APA Chapter3 T20
24 pages
Unit 4 Learning
No ratings yet
Unit 4 Learning
100 pages
IEEE Conference Team ATOM
No ratings yet
IEEE Conference Team ATOM
5 pages
ML-chap-2
No ratings yet
ML-chap-2
60 pages
Unit 4 DS
No ratings yet
Unit 4 DS
16 pages
Chapter 3 Model Evaluation Final
No ratings yet
Chapter 3 Model Evaluation Final
30 pages
06 - ML - Classificaion Performance Evaluation Measures
No ratings yet
06 - ML - Classificaion Performance Evaluation Measures
19 pages
Chap 5 Learning
No ratings yet
Chap 5 Learning
56 pages
FML - KNN
No ratings yet
FML - KNN
64 pages
Topic 09 - Evaluation
No ratings yet
Topic 09 - Evaluation
26 pages
9b. Evaluation of Classifiers
No ratings yet
9b. Evaluation of Classifiers
4 pages
Model Evaluation and Selection
No ratings yet
Model Evaluation and Selection
41 pages
Lecture 11
No ratings yet
Lecture 11
61 pages
Week 5
No ratings yet
Week 5
72 pages
Evaluation Metrics
No ratings yet
Evaluation Metrics
25 pages
Unit-4
No ratings yet
Unit-4
52 pages
Basics of ML and Evaluation
No ratings yet
Basics of ML and Evaluation
42 pages
Model Evaluation and Selection
No ratings yet
Model Evaluation and Selection
22 pages
IE 527 Intelligent Engineering Systems: Basic Concepts Model/performance Evaluation Overfitting
No ratings yet
IE 527 Intelligent Engineering Systems: Basic Concepts Model/performance Evaluation Overfitting
18 pages
06 EnsembleLearning
No ratings yet
06 EnsembleLearning
65 pages
Ai DS 2 Book-Chpt-5
No ratings yet
Ai DS 2 Book-Chpt-5
17 pages
Unit-6: Classification and Prediction
No ratings yet
Unit-6: Classification and Prediction
63 pages
CH 8 Data Mining
No ratings yet
CH 8 Data Mining
30 pages
Combining Classifiers: Outline
No ratings yet
Combining Classifiers: Outline
15 pages
ML Acti
No ratings yet
ML Acti
23 pages
Decision Tree Part 1
No ratings yet
Decision Tree Part 1
16 pages
Acceptance-Rejection Sampling and Multi-dimensional Monte Carlo Integrations Utilizing Mathematica®
From Everand
Acceptance-Rejection Sampling and Multi-dimensional Monte Carlo Integrations Utilizing Mathematica®
SUJAUL CHOWDHURY
No ratings yet
AQA Psychology A Level – Research Methods: Practice Questions
From Everand
AQA Psychology A Level – Research Methods: Practice Questions
Sheila Thomas
No ratings yet
Applied Longitudinal Analysis 2nd ed. Edition Fitzmaurice download
100% (1)
Applied Longitudinal Analysis 2nd ed. Edition Fitzmaurice download
53 pages
Fluids Engineering
No ratings yet
Fluids Engineering
29 pages
Saheaw 2020
No ratings yet
Saheaw 2020
4 pages
What Is A Data Scientist
No ratings yet
What Is A Data Scientist
21 pages
17 KRM Om10 Tif ch14
No ratings yet
17 KRM Om10 Tif ch14
64 pages
Multivariate Analysis of Variance
No ratings yet
Multivariate Analysis of Variance
62 pages
Stats Homework Solutions
100% (1)
Stats Homework Solutions
4 pages
Checklist For Quasi-Experimental Appraisal Tool
No ratings yet
Checklist For Quasi-Experimental Appraisal Tool
10 pages
The Relationship Between Learning Environment and Scholastic Performance of Grade 10 Students in Matictic Integrated School
No ratings yet
The Relationship Between Learning Environment and Scholastic Performance of Grade 10 Students in Matictic Integrated School
50 pages
Sampling Techniques And
No ratings yet
Sampling Techniques And
30 pages
Liver Disease Prediction using Machine learning and Deep Learning
No ratings yet
Liver Disease Prediction using Machine learning and Deep Learning
73 pages
Pro-Quality Associates: Trg. Date(s) - TRAINING ASSESSMENT - SPC / 00
No ratings yet
Pro-Quality Associates: Trg. Date(s) - TRAINING ASSESSMENT - SPC / 00
4 pages
Thesis On Employee Engagement
100% (1)
Thesis On Employee Engagement
67 pages
Probability Math
No ratings yet
Probability Math
3 pages
Econometrics Syllabus
No ratings yet
Econometrics Syllabus
4 pages
Year 1 Maths
No ratings yet
Year 1 Maths
8 pages
Practical Research 2 Module Nov. 2 6 Data Collection Techniques
No ratings yet
Practical Research 2 Module Nov. 2 6 Data Collection Techniques
27 pages
Name: Udaya Bir Saha Batch: 61D Student ID: 50 Marks: Out of 60 SPRING 2021
No ratings yet
Name: Udaya Bir Saha Batch: 61D Student ID: 50 Marks: Out of 60 SPRING 2021
21 pages
Forecasting
100% (1)
Forecasting
3 pages
Module 6 Research
100% (2)
Module 6 Research
6 pages
Research Design Research Design General Characteristics
No ratings yet
Research Design Research Design General Characteristics
11 pages
Statistic DLL 5
100% (1)
Statistic DLL 5
5 pages
China Thesis Database
100% (3)
China Thesis Database
7 pages
C202 PDF
No ratings yet
C202 PDF
4 pages
Reflection Paper Establishing Efficacy Based Single Arm Trials Submitted Pivotal Evidence Marketing - en
No ratings yet
Reflection Paper Establishing Efficacy Based Single Arm Trials Submitted Pivotal Evidence Marketing - en
15 pages
Introduction To Statistics Module
100% (1)
Introduction To Statistics Module
120 pages
Prob&Stats Problems PDF
No ratings yet
Prob&Stats Problems PDF
38 pages