0% found this document useful (0 votes)

201 views30 pages

Fraud Detection in Python Chapter2

The document discusses various machine learning classification methods that are commonly used for fraud detection, including logistic regression, neural networks, decision trees, and random forests. It covers evaluating model performance using metrics like precision, recall, F1 score, and confusion matrices. Finally, it discusses techniques like adjusting class weights, hyperparameter tuning, and ensemble methods like stacking and voting classifiers that can be used to improve fraud detection models.

Uploaded by

Fgpeqw

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

201 views30 pages

Fraud Detection in Python Chapter2

Uploaded by

Fgpeqw

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 30

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Review of classiﬁcation
methods for fraud
detection
Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

What is classiﬁcation?

Goal of classiﬁcation: Use known fraud cases to train a model to

recognise new fraud cases

Examples:

Email Spam/Not spam

Transaction online fraudulent Yes/No
Tumor Malignant/Benign?

Variable to predict: y ∈ 0, 1

0: Negative class ("majority" normal cases)

1: Positive class ("minority" fraud cases)

DataCamp Fraud Detection in Python

Classiﬁcation methods commonly used for fraud detection

Logistic Regression
DataCamp Fraud Detection in Python

Classiﬁcation methods commonly used for fraud detection

Neural Network
DataCamp Fraud Detection in Python

Classiﬁcation methods commonly used for fraud detection

Decision trees
Random Forests
DataCamp Fraud Detection in Python

Decision Trees and Random Forests

Random forests are a collection of trees on random subsets of
features
DataCamp Fraud Detection in Python

Random Forests for fraud detection

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42)

model.fit(X_train, y_train)

predicted = model.predict(X_test)

print (metrics.accuracy_score(y_test, predicted))

0.991324200913242
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Measuring fraud
detection performance

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Accuracy isn't everything

Throw accuracy out of the window when working on fraud detection

problems
DataCamp Fraud Detection in Python

False positives, false negatives and actual fraud caught

DataCamp Fraud Detection in Python

Precision Recall trade-oﬀ

DataCamp Fraud Detection in Python

Obtaining performance metrics

# Import the packages
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import average_precision_score

# Calculate average precision and the PR curve

average_precision = average_precision_score(y_test, predicted)

# Obtain precision and recall

precision, recall, _ = precision_recall_curve(y_test, predicted)
DataCamp Fraud Detection in Python

Precision-Recall Curve
DataCamp Fraud Detection in Python

ROC curve to compare algorithms

DataCamp Fraud Detection in Python

Confusion matrix and classiﬁcation report

from sklearn.metrics import classification_report, confusion_matrix

# Obtain predictions
predicted = model.predict(X_test)

# Print classification report using predictions

print(classification_report(y_test, predicted))

precision recall f1-score support

0.0 0.99 1.00 1.00 2099

1.0 0.96 0.80 0.87 91

avg / total 0.99 0.99 0.99 2190

# Print confusion matrix using predictions

print(confusion_matrix(y_test, predicted))

[[2096 3]
[ 18 73]]
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Adjusting your
algorithms for fraud
detection
Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Balanced weights
model = RandomForestClassifier(class_weight='balanced')

model = RandomForestClassifier(class_weight='balanced_subsample')

model = LogisticRegression(class_weight='balanced')

model = SVC(kernel='linear', class_weight='balanced', probability=True)

DataCamp Fraud Detection in Python

Hyperparameter tuning for fraud detection

model = RandomForestClassifier(class_weight={0:1,1:4},random_state=1)

model = LogisticRegression(class_weight={0:1,1:4}, random_state=1)

model = RandomForestClassifier(n_estimators=10,
criterion=’gini’,
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
max_features=’auto’,
n_jobs=-1, class_weight=None)
DataCamp Fraud Detection in Python

Using GridSearchCV
from sklearn.model_selection import GridSearchCV

# Create the parameter grid

param_grid = {
'max_depth': [80, 90, 100, 110],
'max_features': [2, 3],
'min_samples_leaf': [3, 4, 5],
'min_samples_split': [8, 10, 12],
'n_estimators': [100, 200, 300, 1000]
}

# Define which model to use

model = RandomForestRegressor()

# Instantiate the grid search model

grid_search_model = GridSearchCV(estimator = model,
param_grid = param_grid, cv = 5,
n_jobs = -1, scoring='f1')
DataCamp Fraud Detection in Python

Finding the best model with GridSearchCV

# Fit the grid search to the data
grid_search_model.fit(X_train, y_train)

# Get the optimal parameters

grid_search_model.best_params_

{'bootstrap': True,
'max_depth': 80,
'max_features': 3,
'min_samples_leaf': 5,
'min_samples_split': 12,
'n_estimators': 100}

# Get the best_estimator results

grid_search.best_estimator_
grid_search.best_score_
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Using ensemble
methods to improve
fraud detection
Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

What are Ensemble Methods: Bagging versus Stacking

DataCamp Fraud Detection in Python

Stacking Ensemble Methods

DataCamp Fraud Detection in Python

Why use ensemble methods for fraud detection

Ensemble methods:

Are robust
Can help you avoid overﬁtting
Can typically improve prediction performance
Are a winning formula at prestigious Kaggle competitions
DataCamp Fraud Detection in Python

Voting Classiﬁer
from sklearn.ensemble import VotingClassifier

clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()

ensemble_model = VotingClassifier(estimators=[('lr', clf1),

('rf', clf2), ('gnb', clf3)], voting='hard')

ensemble_model.fit(X_train, y_train)
ensemble_model.predict(X_test)

VotingClassifier(estimators=[('lr', clf1), ('rf', clf2),

('gnb', clf3)], voting='soft', weights=[2,1,1])
DataCamp Fraud Detection in Python

Reliable labels for fraud detection

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice

Credit Card Fraud Detection (Data Analyst)
No ratings yet
Credit Card Fraud Detection (Data Analyst)
22 pages
Credit Risk Modeling in Python Chapter3
No ratings yet
Credit Risk Modeling in Python Chapter3
35 pages
Credit Card Fraud Detection
100% (1)
Credit Card Fraud Detection
20 pages
Introduction To Data Visualization With Seaborn Chapter3
100% (1)
Introduction To Data Visualization With Seaborn Chapter3
32 pages
Designing Machine Learning Workflows in Python Chapter2
No ratings yet
Designing Machine Learning Workflows in Python Chapter2
39 pages
Fraud Detection in Python Chapter1
No ratings yet
Fraud Detection in Python Chapter1
25 pages
Fraud Detection in Python Chapter3
No ratings yet
Fraud Detection in Python Chapter3
33 pages
Fraud Detection in Python Chapter4
No ratings yet
Fraud Detection in Python Chapter4
33 pages
ANN, KNN & Decision Tree
No ratings yet
ANN, KNN & Decision Tree
13 pages
Module 3.4 Classification Models, Case Study
No ratings yet
Module 3.4 Classification Models, Case Study
12 pages
B17 Discrete Report
No ratings yet
B17 Discrete Report
16 pages
Machine Learning
No ratings yet
Machine Learning
12 pages
Session 5
No ratings yet
Session 5
21 pages
Presentation Credit Card
No ratings yet
Presentation Credit Card
25 pages
Case Study Stock Market Prediciton
No ratings yet
Case Study Stock Market Prediciton
10 pages
Project Report
No ratings yet
Project Report
34 pages
Machine Learning
No ratings yet
Machine Learning
16 pages
IEEE Conference Template
No ratings yet
IEEE Conference Template
3 pages
Credit Card Fraud Detection Using Machine Learning
No ratings yet
Credit Card Fraud Detection Using Machine Learning
28 pages
Credit Card Fraud Detection
100% (1)
Credit Card Fraud Detection
14 pages
Group Assignment - Fraud Detection-1
No ratings yet
Group Assignment - Fraud Detection-1
15 pages
Aifb Lab Manual Exp 6 - Aids
No ratings yet
Aifb Lab Manual Exp 6 - Aids
3 pages
Journal Paper
No ratings yet
Journal Paper
5 pages
Credit Card Fraud Detection
No ratings yet
Credit Card Fraud Detection
34 pages
Fraud Detection in Banking Data Using Machine Learning
No ratings yet
Fraud Detection in Banking Data Using Machine Learning
17 pages
Phase 3
No ratings yet
Phase 3
19 pages
Credit Card Fraud Analysis Ashutosh
No ratings yet
Credit Card Fraud Analysis Ashutosh
3 pages
Internship Reportfinal
No ratings yet
Internship Reportfinal
21 pages
Presentation 1
No ratings yet
Presentation 1
22 pages
Reseach Paper 2023
No ratings yet
Reseach Paper 2023
9 pages
Capstone Project - Credit Card Fraud Prediction - Alexandre Daltro
No ratings yet
Capstone Project - Credit Card Fraud Prediction - Alexandre Daltro
15 pages
Urtc45901.2018.9244782
No ratings yet
Urtc45901.2018.9244782
4 pages
Presentation Slides
No ratings yet
Presentation Slides
16 pages
Introduction of Phase 4
No ratings yet
Introduction of Phase 4
14 pages
Irjet V10i12130
No ratings yet
Irjet V10i12130
5 pages
Report
No ratings yet
Report
14 pages
Presentation Slides
No ratings yet
Presentation Slides
16 pages
Catboost ET Comparaison
No ratings yet
Catboost ET Comparaison
20 pages
Fraud Prediction Random Forest
No ratings yet
Fraud Prediction Random Forest
22 pages
Phase 5
No ratings yet
Phase 5
10 pages
Credit Card Fraud Detection
No ratings yet
Credit Card Fraud Detection
72 pages
Credit Card Fraud Detection
No ratings yet
Credit Card Fraud Detection
16 pages
04 1a-Checkpoint1
No ratings yet
04 1a-Checkpoint1
6 pages
Artigo Fraud-Creditcard
No ratings yet
Artigo Fraud-Creditcard
14 pages
Random Forest
No ratings yet
Random Forest
8 pages
Untitled Presentation
No ratings yet
Untitled Presentation
21 pages
Major Project Report
No ratings yet
Major Project Report
11 pages
Instagram Fake Spammer Genuine Accounts - ML, DA, FA Project
No ratings yet
Instagram Fake Spammer Genuine Accounts - ML, DA, FA Project
46 pages
Perform Prediction Using Regression Algorithm: Ex No: 1 Date
No ratings yet
Perform Prediction Using Regression Algorithm: Ex No: 1 Date
13 pages
PPT Dự án cuối kỳ nhóm 8
No ratings yet
PPT Dự án cuối kỳ nhóm 8
38 pages
04 03 Behavior Cluster Credit Card
No ratings yet
04 03 Behavior Cluster Credit Card
24 pages
Anu Presentation
No ratings yet
Anu Presentation
16 pages
CC Fraud
No ratings yet
CC Fraud
14 pages
Industrial Oriented Mini Project - Summer Internship On
No ratings yet
Industrial Oriented Mini Project - Summer Internship On
14 pages
Presentation Slides
No ratings yet
Presentation Slides
16 pages
Credit Card Fraud Detection Using Naive Bayesian and C4.5 Decision
No ratings yet
Credit Card Fraud Detection Using Naive Bayesian and C4.5 Decision
5 pages
Credit Card Fraud Detection System
100% (1)
Credit Card Fraud Detection System
7 pages
Link For Google Colab Note Book: Pa Ge
No ratings yet
Link For Google Colab Note Book: Pa Ge
17 pages
10 Techniques To Deal With Class Imbalance in Machine Learning
No ratings yet
10 Techniques To Deal With Class Imbalance in Machine Learning
10 pages
SQR Da 2
No ratings yet
SQR Da 2
11 pages
Random Sample Consensus: Robust Estimation in Computer Vision
From Everand
Random Sample Consensus: Robust Estimation in Computer Vision
Fouad Sabry
No ratings yet
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet
DATA MINING and MACHINE LEARNING. CLASSIFICATION PREDICTIVE TECHNIQUES: SUPPORT VECTOR MACHINE, LOGISTIC REGRESSION, DISCRIMINANT ANALYSIS and DECISION TREES: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. CLASSIFICATION PREDICTIVE TECHNIQUES: SUPPORT VECTOR MACHINE, LOGISTIC REGRESSION, DISCRIMINANT ANALYSIS and DECISION TREES: Examples with MATLAB
César Pérez López
No ratings yet
Spoken Language Processing in Python Chapter1
No ratings yet
Spoken Language Processing in Python Chapter1
17 pages
Spoken Language Processing in Python Chapter3
No ratings yet
Spoken Language Processing in Python Chapter3
26 pages
Spoken Language Processing in Python Chapter4
No ratings yet
Spoken Language Processing in Python Chapter4
46 pages
Preparing Your Gures To Share With Others: Ariel Rokem
No ratings yet
Preparing Your Gures To Share With Others: Ariel Rokem
35 pages
Spoken Language Processing in Python Chapter2
No ratings yet
Spoken Language Processing in Python Chapter2
23 pages
Designing Machine Learning Workflows in Python Chapter3
No ratings yet
Designing Machine Learning Workflows in Python Chapter3
42 pages
Changing Plot Style and Color: Erin Case
No ratings yet
Changing Plot Style and Color: Erin Case
54 pages
Chapter3 PDF
No ratings yet
Chapter3 PDF
36 pages
Introduction To Data Visualization With Matplotlib: Ariel Rokem
No ratings yet
Introduction To Data Visualization With Matplotlib: Ariel Rokem
30 pages
Introduction To Data Visualization With Seaborn Chapter2
No ratings yet
Introduction To Data Visualization With Seaborn Chapter2
38 pages
Introduction To Data Visualization With Matplotlib Chapter2
No ratings yet
Introduction To Data Visualization With Matplotlib Chapter2
27 pages
Designing Machine Learning Workflows in Python Chapter4
No ratings yet
Designing Machine Learning Workflows in Python Chapter4
38 pages
Introduction To Data Visualization With Seaborn Chapter1
No ratings yet
Introduction To Data Visualization With Seaborn Chapter1
26 pages
Customer Segmentation in Python Chapter3
No ratings yet
Customer Segmentation in Python Chapter3
25 pages
Cleaning Data With PySpark Chapter3
No ratings yet
Cleaning Data With PySpark Chapter3
25 pages
Designing Machine Learning Workflows in Python Chapter1
No ratings yet
Designing Machine Learning Workflows in Python Chapter1
32 pages
Customer Segmentation in Python Chapter4
No ratings yet
Customer Segmentation in Python Chapter4
37 pages
Credit Risk Modeling in Python Chapter4
100% (1)
Credit Risk Modeling in Python Chapter4
35 pages
Cleaning Data With PySpark Chapter1
0% (1)
Cleaning Data With PySpark Chapter1
20 pages
Cleaning Data With PySpark Chapter4
No ratings yet
Cleaning Data With PySpark Chapter4
23 pages
Cleaning Data With PySpark Chapter2
100% (1)
Cleaning Data With PySpark Chapter2
25 pages
Building Chatbots in Python Chapter2 PDF
No ratings yet
Building Chatbots in Python Chapter2 PDF
41 pages
Analyzing IoT Data in Python Chapter3
No ratings yet
Analyzing IoT Data in Python Chapter3
30 pages
Building Chatbots in Python Chapter4
No ratings yet
Building Chatbots in Python Chapter4
20 pages
Analyzing IoT Data in Python Chapter4
No ratings yet
Analyzing IoT Data in Python Chapter4
34 pages
Analyzing IoT Data in Python Chapter2
No ratings yet
Analyzing IoT Data in Python Chapter2
35 pages
Analyzing IoT Data in Python Chapter1
100% (1)
Analyzing IoT Data in Python Chapter1
27 pages
Eco Basic 1-8
No ratings yet
Eco Basic 1-8
156 pages
Supervisory Behavior Description Questionnaire
No ratings yet
Supervisory Behavior Description Questionnaire
139 pages
Rifkipbi, 166-175 THE EFFECTIVENESS OF DIGITAL STORY TELLING (1)
No ratings yet
Rifkipbi, 166-175 THE EFFECTIVENESS OF DIGITAL STORY TELLING (1)
9 pages
Omar 1993
No ratings yet
Omar 1993
9 pages
Met 2020 Syllabus For Mtech Me
No ratings yet
Met 2020 Syllabus For Mtech Me
2 pages
Levels of Data
100% (1)
Levels of Data
26 pages
ML Practical
No ratings yet
ML Practical
61 pages
Collins - Situational Stratification
No ratings yet
Collins - Situational Stratification
28 pages
Non Parametric Tests
No ratings yet
Non Parametric Tests
37 pages
Mathematics 11 02872
No ratings yet
Mathematics 11 02872
16 pages
The Impact of Social Media On Self-Esteem Among Universty Students - Fareeha Raza
No ratings yet
The Impact of Social Media On Self-Esteem Among Universty Students - Fareeha Raza
11 pages
The Potential For Collaboration Between AI and Archival Science
No ratings yet
The Potential For Collaboration Between AI and Archival Science
12 pages
Classification in WEKA: Petra Kralj Novak Petra - Kralj@ijs - Si
No ratings yet
Classification in WEKA: Petra Kralj Novak Petra - Kralj@ijs - Si
27 pages
Chapter 6 17
No ratings yet
Chapter 6 17
6 pages
Intro To Analytics Modeling Homework 2
No ratings yet
Intro To Analytics Modeling Homework 2
22 pages
Perplexed by Quality: A Perplexity-Based Method For Adult and Harmful Content Detection in Multilingual Heterogeneous Web Data
No ratings yet
Perplexed by Quality: A Perplexity-Based Method For Adult and Harmful Content Detection in Multilingual Heterogeneous Web Data
14 pages
ST221 Notes
No ratings yet
ST221 Notes
9 pages
Moni Cecilia Eluzai
No ratings yet
Moni Cecilia Eluzai
98 pages
Applied Statistics Syllabus 2021 2022 Revised
No ratings yet
Applied Statistics Syllabus 2021 2022 Revised
94 pages
RSH - Qam11 - ch01 GE
No ratings yet
RSH - Qam11 - ch01 GE
35 pages
OPPORTUNITY AND CHALLENGE OF INTER CASTE MARRIAGE Proposal
No ratings yet
OPPORTUNITY AND CHALLENGE OF INTER CASTE MARRIAGE Proposal
24 pages
Comparison of Prediction Provisions For Drying Shrinkage and Creep of Normal Strength Concretes
No ratings yet
Comparison of Prediction Provisions For Drying Shrinkage and Creep of Normal Strength Concretes
31 pages
R Programming Cheat Sheet
No ratings yet
R Programming Cheat Sheet
15 pages
Section - V Interpretation Report Writng
No ratings yet
Section - V Interpretation Report Writng
46 pages
International (EMEA) Market Research and Business Intelligence On SAP Adoption
No ratings yet
International (EMEA) Market Research and Business Intelligence On SAP Adoption
29 pages
Statistics - Functions, Importance & Limitations 4th Sem
No ratings yet
Statistics - Functions, Importance & Limitations 4th Sem
47 pages
The Impact of The Pandemic On Grade 8 Academic Performance - A Comprehensive Analysis (RESEARCH)
No ratings yet
The Impact of The Pandemic On Grade 8 Academic Performance - A Comprehensive Analysis (RESEARCH)
22 pages
Examining The Importance of STEM Education in Enhancing Student Outcomes From The Perspective of ACLC Teachers
No ratings yet
Examining The Importance of STEM Education in Enhancing Student Outcomes From The Perspective of ACLC Teachers
33 pages
Impact of Educational Resources On Students' Academic Performance in Economics: A Study of Some Senior Secondary Schools in Lagos State Educational District One
No ratings yet
Impact of Educational Resources On Students' Academic Performance in Economics: A Study of Some Senior Secondary Schools in Lagos State Educational District One
26 pages
Ii Ii Ece RVSP
No ratings yet
Ii Ii Ece RVSP
2 pages