0% found this document useful (0 votes)

70 views

Section B: R Programming Output

The document provides output from R programming code that analyzes loan default data. Specifically, it: 1) Removes outliers from variables in the train and test datasets and standardizes the variables. 2) Fits logistic regression and decision tree models to predict loan defaults. 3) Evaluates the model performance on the test data using metrics like accuracy, true positive rate, and false positive rate. 4) Oversamples the minority class in the train data using SMOTE and refits the logistic regression model.

Uploaded by

prashantarora18

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

70 views

Section B: R Programming Output

Uploaded by

prashantarora18

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 19

Section B: R programming Output

Box Plot for DebitRatio for Train before removing outlier

Box Plot for DebitRatio for Train after removing outlier

Box Plot for MonthlyIncome for Train before removing outlier

Box Plot for MonthlyIncome for Train after removing outlier

Box Plot for Age for Train before removing outlier

Box Plot for Age for Test before removing outlier

Box Plot for DebitRatio for Test before removing outlier

Box Plot for DebitRatio for Test after removing outlier

Box Plot for MonthlyIncome for Test before removing outlier

Box Plot for MonthlyIncome for Test after removing outlier

table(clean_data$SeriousDlqin2yrs)
0 1
3243 235

Number of zero and ones

Logistic regression output
glm(formula = SeriousDlqin2yrs ~ Std_age + Std_DebtRatio + Std_MonthlyIncome +
Std_NumberOfTimes90DaysLate, family = "binomial", data = clean_data)
Deviance Residuals:
Min
1Q Median
3Q
Max
-6.3684 -0.4000 -0.3441 -0.2921 2.8287
Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept)
-2.71336 0.07317 -37.084 < 2e-16 ***
Std_age
-0.29011 0.07387 -3.928 8.58e-05 ***
Std_DebtRatio
0.27867 0.06197 4.497 6.89e-06 ***
Std_MonthlyIncome
-0.08991 0.07656 -1.174 0.24027
Std_NumberOfTimes90DaysLate 0.56293 0.17482 3.220 0.00128 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1720.2 on 3477 degrees of freedom
Residual deviance: 1658.1 on 3473 degrees of freedom
AIC: 1668.1
Number of Fisher Scoring iterations: 5

Interpretation Age, Debit ratio and NumberOfTimes90DaysLate are significant

where Monthly income is not significant
Confusion Matrix
confusion_matrix=table(clean_dataTest$SeriousDlqin2yrs,predictTest>0.5)
> confusion_matrix
FALSE TRUE
0 618 4
1 50 6

#TPR
6/(50+6)
#FPR

4/(618+4)
ROCR Curve

Logistic Result after Smoting

glm(formula = SeriousDlqin2yrs ~ Std_age + Std_DebtRatio + Std_MonthlyIncome +
Std_NumberOfTimes90DaysLate, family = "binomial", data = loanTrainSMOTE)
Deviance Residuals:
Min
1Q Median
3Q
Max
-4.9167 -0.8254 -0.6840 0.9253 2.1068
Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept)
-0.68604 0.03950 -17.369 < 2e-16 ***
Std_age
-0.25637 0.04139 -6.193 5.89e-10 ***
Std_DebtRatio
0.26412 0.03631 7.274 3.49e-13 ***
Std_MonthlyIncome
-0.02660 0.04048 -0.657 0.511
Std_NumberOfTimes90DaysLate 5.25962 0.29107 18.070 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 4975.0 on 3759 degrees of freedom

Residual deviance: 4124.7 on 3755 degrees of freedom

AIC: 4134.7
Number of Fisher Scoring iterations: 7
predictTest1=predict(modelTrain1,newdata=clean_dataTest,type="response")
> summary(predictTest1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.06081 0.12210 0.15380 0.20190 0.18560 1.00000

>
confusion_matrix1=table(clean_dataTest$SeriousDlqin2yrs,predictTest1>0.5)
> confusion_matrix1
FALSE TRUE
0 604 18
1 37 19

TPR
19/(19+37)
FPR
18/(18+604)

R Code
getwd()
loanDefault=read.csv("end_term_train.csv")
loanTest=read.csv("end_term_test.csv")
nrow(loanDefault)
nrow(loanTest)
#cleaned data
clean_data=na.omit(loanDefault)
clean_dataTest=na.omit(loanTest)
nrow(clean_data)
nrow(clean_dataTest)
# Outlier for train
boxplot(clean_data$DebtRatio)
boxplot(clean_data$age)
boxplot(clean_data$MonthlyIncome)
upperValue = quantile(clean_data$DebtRatio,.90)+1.5*IQR(clean_data$DebtRatio)
# Manually Set the lower value for outliers
lowerValue = .01
clean_data$DebtRatio[ clean_data$DebtRatio > upperValue ] <- NA
clean_data$DebtRatio[ clean_data$DebtRatio < lowerValue ] <- NA
clean_data = na.omit(clean_data)
nrow(clean_data)
boxplot(clean_data$DebtRatio)

upperValue =
quantile(clean_data$MonthlyIncome,.90)+1.5*IQR(clean_data$MonthlyIncome)

lowerValue = quantile(clean_data$MonthlyIncome,.10)1.5*IQR(clean_data$MonthlyIncome)

clean_data$MonthlyIncome[ clean_data$MonthlyIncome > upperValue ] <- NA

clean_data$MonthlyIncome[ clean_data$MonthlyIncome < lowerValue ] <- NA
clean_data = na.omit(clean_data)
nrow(clean_data)
boxplot(clean_data$MonthlyIncome)

# Outlier for test

boxplot(clean_dataTest$DebtRatio)
boxplot(clean_dataTest$age)
boxplot(clean_dataTest$MonthlyIncome)
upperValue =
quantile(clean_dataTest$DebtRatio,.90)+1.5*IQR(clean_dataTest$DebtRatio)
# Manually Set the lower value for outliers
lowerValue = .01
clean_dataTest$DebtRatio[ clean_dataTest$DebtRatio > upperValue ] <- NA
clean_dataTest$DebtRatio[ clean_dataTest$DebtRatio < lowerValue ] <- NA
clean_dataTest = na.omit(clean_dataTest)
nrow(clean_dataTest)
boxplot(clean_dataTest$DebtRatio)
upperValue =
quantile(clean_dataTest$MonthlyIncome,.90)+1.5*IQR(clean_dataTest$MonthlyInco
me)
lowerValue = quantile(clean_dataTest$MonthlyIncome,.10)1.5*IQR(clean_dataTest$MonthlyIncome)
clean_dataTest$MonthlyIncome[ clean_dataTest$MonthlyIncome > upperValue ] <NA

clean_dataTest$MonthlyIncome[ clean_dataTest$MonthlyIncome < lowerValue ] <NA

clean_dataTest = na.omit(clean_dataTest)
nrow(clean_dataTest)
boxplot(clean_dataTest$MonthlyIncome)

#standardizing train data

#standardizing age
mean(clean_data$age)
sd(clean_data$age)
clean_data$Std_age=(clean_data$age-mean(clean_data$age))/sd(clean_data$age)
mean(clean_data$Std_age)
sd(clean_data$Std_age)

#standardizing DebtRatio
mean(clean_data$DebtRatio)
sd(clean_data$DebtRatio)
clean_data$Std_DebtRatio=(clean_data$DebtRatiomean(clean_data$DebtRatio))/sd(clean_data$DebtRatio)
mean(clean_data$Std_DebtRatio)
sd(clean_data$Std_DebtRatio)

#standardizing MonthlyIncome
mean(clean_data$MonthlyIncome)
sd(clean_data$MonthlyIncome)
clean_data$Std_MonthlyIncome=(clean_data$MonthlyIncomemean(clean_data$MonthlyIncome))/sd(clean_data$MonthlyIncome)

mean(clean_data$Std_MonthlyIncome)
sd(clean_data$Std_MonthlyIncome)

#standardizing NumberOfTimes90DaysLate
mean(clean_data$NumberOfTimes90DaysLate)
sd(clean_data$NumberOfTimes90DaysLate)
clean_data$Std_NumberOfTimes90DaysLate=(clean_data$NumberOfTimes90DaysL
atemean(clean_data$NumberOfTimes90DaysLate))/sd(clean_data$NumberOfTimes90D
aysLate)
mean(clean_data$Std_NumberOfTimes90DaysLate)
sd(clean_data$Std_NumberOfTimes90DaysLate)

#standardizing test data

#standardizing age
mean(clean_dataTest$age)
sd(clean_dataTest$age)
clean_dataTest$Std_age=(clean_dataTest$agemean(clean_dataTest$age))/sd(clean_dataTest$age)
mean(clean_dataTest$Std_age)
sd(clean_dataTest$Std_age)

#standardizing DebtRatio
mean(clean_dataTest$DebtRatio)
sd(clean_dataTest$DebtRatio)
clean_dataTest$Std_DebtRatio=(clean_dataTest$DebtRatiomean(clean_dataTest$DebtRatio))/sd(clean_dataTest$DebtRatio)
mean(clean_dataTest$Std_DebtRatio)

sd(clean_dataTest$Std_DebtRatio)

#standardizing MonthlyIncome
mean(clean_dataTest$MonthlyIncome)
sd(clean_dataTest$MonthlyIncome)
clean_dataTest$Std_MonthlyIncome=(clean_dataTest$MonthlyIncomemean(clean_dataTest$MonthlyIncome))/sd(clean_dataTest$MonthlyIncome)
mean(clean_dataTest$Std_MonthlyIncome)
sd(clean_dataTest$Std_MonthlyIncome)

#standardizing NumberOfTimes90DaysLate
mean(clean_dataTest$NumberOfTimes90DaysLate)
sd(clean_dataTest$NumberOfTimes90DaysLate)
clean_dataTest$Std_NumberOfTimes90DaysLate=(clean_dataTest$NumberOfTimes9
0DaysLatemean(clean_dataTest$NumberOfTimes90DaysLate))/sd(clean_dataTest$NumberOfTi
mes90DaysLate)
mean(clean_dataTest$Std_NumberOfTimes90DaysLate)
sd(clean_dataTest$Std_NumberOfTimes90DaysLate)

#plotting scatterplot
plot(clean_data[,3],clean_data[,4],pch=1+as.integer(clean_data[,3],
col=2+as.integer(clean_data[,3],main="Raw
data",xlab="x1",ylab="x2")))

table(clean_data$SeriousDlqin2yrs)
235/(235+3243)

#logistic regression
modelTrain=glm(SeriousDlqin2yrs~Std_age+Std_DebtRatio+Std_MonthlyIncome+St
d_NumberOfTimes90DaysLate,data=clean_data,family="binomial")
summary(modelTrain)

predictTest=predict(modelTrain,newdata=clean_dataTest,type="response")
predictTest
confusion_matrix=table(clean_dataTest$SeriousDlqin2yrs,predictTest>0.5)
confusion_matrix

#accuracy
(4+760)/(4+760+3+51)
#TPR
4/(4+3)
#FPR
51/(51+760)

#Evaluating model performance

ROCRTest=prediction(predictTest,clean_dataTest$SeriousDlqin2yrs)
ROCRTest_perf=performance(ROCRTest,"tpr","fpr")

#plot ROC curve

plot(ROCRTest_perf,colorize=TRUE)
plot(ROCRTest_perf,colorize=TRUE,print.cutoffs.at=seq(0,1,0.1),text.adj=c(-0.2,1.7))

----------------------------#so we SMOTE the data

clean_data$SeriousDlqin2yrs=as.factor(clean_data$SeriousDlqin2yrs)
loanTrainSMOTE=SMOTE(SeriousDlqin2yrs~Std_Age+Std_DebtRatio+Std_MonthlyIn
come+Std_NumberOfTimes90DaysLate,clean_data,perc.over=500)
plot(loanTrainSMOTE[,1],loanTrainSMOTE[,2],pch=as.integer(loanTrainSMOTE[,4]),co
l=2+as.integer(loanTrainSMOTE[,4]))
clean_data$SeriousDlqin2yrs=as.numeric(clean_data$SeriousDlqin2yrs)

modelTrain1=glm(SeriousDlqin2yrs~Std_age+Std_DebtRatio+Std_MonthlyIncome+
Std_NumberOfTimes90DaysLate,data=loanTrainSMOTE,family="binomial")
summary(modelTrain1)

predictTest1=predict(modelTrain1,newdata=clean_dataTest,type="response")
summary(predictTest1)
confusion_matrix1=table(clean_dataTest$SeriousDlqin2yrs,predictTest1>0.5)
confusion_matrix1
#accuracy
(24+632)/(24+632+131+31)
#TPR
24/(24+131)
#FPR
31/(31+632)

#CART

library(tree)
clean_data$SeriousDlqin2yrs=as.factor(clean_data$SeriousDlqin2yrs)
str(clean_data)

#fitting a tree to our data

treemodel=tree(SeriousDlqin2yrs~Std_age+Std_DebtRatio+Std_MonthlyIncome+St
d_NumberOfTimes90DaysLate,data=clean_data)
library(rpart)
library(rpart.plot)
treemodel=rpart(SeriousDlqin2yrs~Std_age+Std_DebtRatio+Std_MonthlyIncome+S
td_NumberOfTimes90DaysLate,method="class",data=clean_data)
summary(treemodel)
prp(treemodel)
library(rattle)
library(RColorBrewer)
fancyRpartPlot(treemodel2)

UNIVERSAL BANK CASE SOLUTION
No ratings yet
UNIVERSAL BANK CASE SOLUTION
9 pages
Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
Formula Sheet - Quantitative Analysis
100% (1)
Formula Sheet - Quantitative Analysis
11 pages
6 Sigma Sample Quest
No ratings yet
6 Sigma Sample Quest
12 pages
Assignment 1
No ratings yet
Assignment 1
43 pages
Computerized Rorschach Structural Summary System: ( Needed For Constellations Worksheet Adjustments)
0% (1)
Computerized Rorschach Structural Summary System: ( Needed For Constellations Worksheet Adjustments)
25 pages
Assignment 2 Sol
No ratings yet
Assignment 2 Sol
19 pages
Logistic Regression With R
No ratings yet
Logistic Regression With R
5 pages
FRA Assignment - India Credit Model
No ratings yet
FRA Assignment - India Credit Model
14 pages
Predictive Modelling - Logistic Regression - Mentor Version-1 - Jupyter Notebook
No ratings yet
Predictive Modelling - Logistic Regression - Mentor Version-1 - Jupyter Notebook
22 pages
Coding Activity 3.ipynb - Colaboratory
No ratings yet
Coding Activity 3.ipynb - Colaboratory
7 pages
Note 4
No ratings yet
Note 4
18 pages
BA Project - Section 1 Group 1
No ratings yet
BA Project - Section 1 Group 1
27 pages
Quiz 1 - Econometrics 2
No ratings yet
Quiz 1 - Econometrics 2
8 pages
R Code Default Data PDF
No ratings yet
R Code Default Data PDF
10 pages
DS535 Note 4 (With Marks)
No ratings yet
DS535 Note 4 (With Marks)
18 pages
Intro LOGIT
No ratings yet
Intro LOGIT
46 pages
Predictive Analytics Group Assignment
No ratings yet
Predictive Analytics Group Assignment
21 pages
Assignment 2
No ratings yet
Assignment 2
5 pages
Machine Learning and Data Science For Actuaries
No ratings yet
Machine Learning and Data Science For Actuaries
242 pages
GLM in R
No ratings yet
GLM in R
6 pages
BDA MSC It
No ratings yet
BDA MSC It
35 pages
FRA Milestone 1
No ratings yet
FRA Milestone 1
33 pages
7708 - MBA PredAnanBigDataNov21
No ratings yet
7708 - MBA PredAnanBigDataNov21
11 pages
GLM Sol
No ratings yet
GLM Sol
11 pages
Personal Loan Risk Model: Answer Key Template
No ratings yet
Personal Loan Risk Model: Answer Key Template
18 pages
DwightTimothie Assignment04
No ratings yet
DwightTimothie Assignment04
5 pages
FRA Milestone 1
No ratings yet
FRA Milestone 1
33 pages
Lab 6
No ratings yet
Lab 6
7 pages
Regn_lect_5
No ratings yet
Regn_lect_5
9 pages
Financial Risk Analytics: Assignment
No ratings yet
Financial Risk Analytics: Assignment
35 pages
A Note On R
No ratings yet
A Note On R
90 pages
CS1B April 2024
No ratings yet
CS1B April 2024
9 pages
Chap 6 MultipleLinearRegression Adjusted
No ratings yet
Chap 6 MultipleLinearRegression Adjusted
30 pages
Group Assignment - Data Mining
No ratings yet
Group Assignment - Data Mining
28 pages
Sukanya Linear LogisticRegression Report
100% (1)
Sukanya Linear LogisticRegression Report
23 pages
Logistic Regression Implementation in R: The Dataset
No ratings yet
Logistic Regression Implementation in R: The Dataset
8 pages
Probit and Logit Models Stata Program and Output PDF
No ratings yet
Probit and Logit Models Stata Program and Output PDF
10 pages
R Code For Logistic Regression
No ratings yet
R Code For Logistic Regression
3 pages
Bussiness Report PM
No ratings yet
Bussiness Report PM
44 pages
GROUP 9
No ratings yet
GROUP 9
9 pages
BAUDM Assignment2
No ratings yet
BAUDM Assignment2
16 pages
Logistic Regression EBay
No ratings yet
Logistic Regression EBay
10 pages
LP III Lab Manual
100% (1)
LP III Lab Manual
8 pages
Individual Assignment Business Intelligence & Analytics: Indian Institute of Management Shillong
No ratings yet
Individual Assignment Business Intelligence & Analytics: Indian Institute of Management Shillong
32 pages
FYMCA IDSLab A6 Submission
No ratings yet
FYMCA IDSLab A6 Submission
9 pages
ml_6_7_8 (1)
No ratings yet
ml_6_7_8 (1)
10 pages
PA Univariate R Solution
No ratings yet
PA Univariate R Solution
6 pages
Aquif Ibrar 1212
No ratings yet
Aquif Ibrar 1212
9 pages
Untitled4 Assigment 3
No ratings yet
Untitled4 Assigment 3
9 pages
Assignment Report - Group A
No ratings yet
Assignment Report - Group A
31 pages
Machine Learning Project On Cars
92% (13)
Machine Learning Project On Cars
22 pages
GLM Mid Answer Arnol Styven
No ratings yet
GLM Mid Answer Arnol Styven
23 pages
cor
No ratings yet
cor
6 pages
Solutions Week 10
No ratings yet
Solutions Week 10
7 pages
Logistic Regression Lecture Notes
No ratings yet
Logistic Regression Lecture Notes
11 pages
CH 5 - Multicollearity
No ratings yet
CH 5 - Multicollearity
27 pages
FRA Group Assignment - Report
No ratings yet
FRA Group Assignment - Report
22 pages
Codes
No ratings yet
Codes
14 pages
Linear Regression in R
No ratings yet
Linear Regression in R
19 pages
Reading Material - Module-5 - Introduction To Special Topics
No ratings yet
Reading Material - Module-5 - Introduction To Special Topics
27 pages
Logistic Binary Classification
No ratings yet
Logistic Binary Classification
3 pages
Three Gold Coins or Too Young to Die This Rich!: Book 1 of the Mel Dread Series
From Everand
Three Gold Coins or Too Young to Die This Rich!: Book 1 of the Mel Dread Series
John Kaufman
No ratings yet
Dating Advice Book
From Everand
Dating Advice Book
Taylor S. Westbrook
No ratings yet
Introduction To Error Analysis:: Lecture 1: The Basics
No ratings yet
Introduction To Error Analysis:: Lecture 1: The Basics
14 pages
Chapter 3 - Central Tendency & Variability
No ratings yet
Chapter 3 - Central Tendency & Variability
16 pages
Confidence Interval Curve
100% (1)
Confidence Interval Curve
4 pages
Walden University RSCH 8210: Quantitative Reasoning and Analysis Dr. Randy Heinrich September 19, 2021
No ratings yet
Walden University RSCH 8210: Quantitative Reasoning and Analysis Dr. Randy Heinrich September 19, 2021
9 pages
Chapter 4 Data Visualization
No ratings yet
Chapter 4 Data Visualization
21 pages
Performance-Task-in-Probability-and-Statistics
No ratings yet
Performance-Task-in-Probability-and-Statistics
2 pages
Bessel's Correction
No ratings yet
Bessel's Correction
8 pages
Gage R&R Part Number Average & Range Method 1
100% (1)
Gage R&R Part Number Average & Range Method 1
20 pages
Statement of Problem, Scope and Limitations
100% (1)
Statement of Problem, Scope and Limitations
6 pages
Computing The Variance of A Discrete Probability Distribution
No ratings yet
Computing The Variance of A Discrete Probability Distribution
12 pages
Solar Data
No ratings yet
Solar Data
15 pages
Evans Analytics2e PPT 04
No ratings yet
Evans Analytics2e PPT 04
63 pages
Stat 3
No ratings yet
Stat 3
42 pages
Variable Control Charts
No ratings yet
Variable Control Charts
3 pages
TUGAS 1_Metode Penelitian_FADYA AM
No ratings yet
TUGAS 1_Metode Penelitian_FADYA AM
7 pages
12 How To Analyse Rainfall Data
100% (1)
12 How To Analyse Rainfall Data
40 pages
Assignment #2 Template - Descriptive Statistics Data Analysis
No ratings yet
Assignment #2 Template - Descriptive Statistics Data Analysis
3 pages
Statistical Analysis with Software Application
100% (1)
Statistical Analysis with Software Application
6 pages
Tofik Rahmeto Issa
No ratings yet
Tofik Rahmeto Issa
100 pages
Practical Statistics for Nursing Using SPSS 1st Edition Knapp Solutions Manualpdf download
100% (4)
Practical Statistics for Nursing Using SPSS 1st Edition Knapp Solutions Manualpdf download
59 pages
Lesson 5 Measure of Spread 1
No ratings yet
Lesson 5 Measure of Spread 1
9 pages
Lesson-7-Organization-of-Test-Data-Using-Tables-and-GraphsDDDD
No ratings yet
Lesson-7-Organization-of-Test-Data-Using-Tables-and-GraphsDDDD
24 pages
[2008000205020002][1]
No ratings yet
[2008000205020002][1]
2 pages
MQB 10 WS 2
No ratings yet
MQB 10 WS 2
4 pages
Descriptive Statistics
No ratings yet
Descriptive Statistics
17 pages
Workplacediscipline PDF
No ratings yet
Workplacediscipline PDF
5 pages

Section B: R Programming Output

Uploaded by

Section B: R Programming Output

Uploaded by

Section B: R programming Output

Box Plot for DebitRatio for Train before removing outlier

Box Plot for DebitRatio for Train after removing outlier

Box Plot for MonthlyIncome for Train before removing outlier

Box Plot for MonthlyIncome for Train after removing outlier

Box Plot for Age for Train before removing outlier

Box Plot for Age for Test before removing outlier

Box Plot for DebitRatio for Test before removing outlier

Box Plot for DebitRatio for Test after removing outlier

Box Plot for MonthlyIncome for Test before removing outlier

Box Plot for MonthlyIncome for Test after removing outlier

Number of zero and ones

Estimate Std. Error z value Pr(>|z|)

Interpretation Age, Debit ratio and NumberOfTimes90DaysLate are significant

Logistic Result after Smoting

Estimate Std. Error z value Pr(>|z|)

Residual deviance: 4124.7 on 3755 degrees of freedom

clean_data$MonthlyIncome[ clean_data$MonthlyIncome > upperValue ] <- NA

# Outlier for test

clean_dataTest$MonthlyIncome[ clean_dataTest$MonthlyIncome < lowerValue ] <NA

#standardizing train data

#standardizing test data

#Evaluating model performance

#plot ROC curve

----------------------------#so we SMOTE the data

#fitting a tree to our data

You might also like