0% found this document useful (0 votes)

128 views

Q 2

This document loads various libraries and packages for data analysis and machine learning. It then loads and preprocesses a bank marketing dataset to perform k-nearest neighbors (KNN) classification with different values of k. It evaluates the KNN models using accuracy on validation data and confusion matrices. Finally, it splits the data into train, validation, and test sets to evaluate and compare KNN models on each.

Uploaded by

Mohit Jain

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

128 views

Q 2

Uploaded by

Mohit Jain

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 3

setwd("S:/NSB subjects/Term4/Business Analysis Data Mining5/BADM_R/q2")

library("dplyr")
library("tidyr")
library("ggplot2")
library("ROCR")
library("rpart")
library("rpart.plot")
library("caret")
library("randomForest")
library("tidyverse")
library("tm")
library("SnowballC")
library("softImpute")
library("glmnet")
library("Hmisc")
library("dummies")
library('tinytex')
library('GGally')
library('gplots')
library('FNN')
library("dplyr")
library("tidyr")
library("caTools")
library("ggpubr")
library("reshape")

rm(list=ls())
bank = read.csv("UniversalBank.csv")
bank$Education = as.factor(bank$Education)

bank_dummy = dummy.data.frame(select(bank,-c(ZIP.Code,ID)))
bank_dummy$Personal.Loan = as.factor(bank_dummy$Personal.Loan)
bank_dummy$CCAvg = as.integer(bank_dummy$CCAvg)

set.seed(1)
train.index <- sample(row.names(bank_dummy), 0.6*dim(bank_dummy)[1]) ## need to
look at hints
test.index <- setdiff(row.names(bank_dummy), train.index)
train.df <- bank_dummy[train.index, ]
valid.df <- bank_dummy[test.index, ]

new.df = data.frame(Age = as.integer(40), Experience = as.integer(10), Income =

as.integer(84), Family = as.integer(2), CCAvg = as.integer(2), Education1 =
as.integer(0), Education2 = as.integer(1), Education3 = as.integer(0), Mortgage =
as.integer(0), Securities.Account = as.integer(0), CD.Account = as.integer(0),
Online = as.integer(1), CreditCard = as.integer(1))

norm.values <- preProcess(train.df[, -c(10)], method=c("center", "scale"))

train.df[, -c(10)] <- predict(norm.values, train.df[, -c(10)])
valid.df[, -c(10)] <- predict(norm.values, valid.df[, -c(10)])
new.df <- predict(norm.values, new.df)

knn.1 <- knn(train = train.df[,-c(10)],test = new.df, cl = train.df[,10], k=5,

prob=TRUE)
knn.attributes <- attributes(knn.1)
knn.attributes[1]
knn.attributes[3]
#part B
accuracy.df <- data.frame(k = seq(1, 14, 1), accuracy = rep(0, 14))

for(i in 1:14) {
knn.2 <- knn(train = train.df[,-10],test = valid.df[,-10], cl = train.df[,10],
k=i, prob=TRUE)
accuracy.df[i, 2] <- confusionMatrix(knn.2, valid.df[,10])$overall[1]
}
accuracy.df

#partc
knn.3 <- knn(train = train.df[,-10],test = valid.df[,-10], cl = train.df[,10], k=3,
prob=TRUE)
confusionMatrix(knn.3, valid.df[,10])

#part d

customer.df= data.frame(Age = 40, Experience = 10, Income = 84, Family = 2, CCAvg =

2, Education_1 = 0, Education_2 = 1, Education_3 = 0, Mortgage = 0,
Securities.Account = 0, CD.Account = 0, Online = 1, CreditCard = 1)
knn.4 <- knn(train = train.df[,-10],test = customer.df, cl = train.df[,10], k=3,
prob=TRUE)
knn.4

###part e

bank_dummy = dummy.data.frame(select(bank,-c(ZIP.Code,ID)))
bank_dummy$Personal.Loan = as.factor(bank_dummy$Personal.Loan)
bank_dummy$CCAvg = as.integer(bank_dummy$CCAvg)

set.seed(1)
train.index <- sample(rownames(bank_dummy), 0.5*dim(bank_dummy)[1]) ## need to
look at hints
set.seed(1)
valid.index <- sample(setdiff(rownames(bank_dummy),train.index),
0.3*dim(bank_dummy)[1])
test.index = setdiff(rownames(bank_dummy), union(train.index, valid.index))

train.df <- bank_dummy[train.index, ]

valid.df <- bank_dummy[valid.index, ]
test.df <- bank_dummy[test.index, ]

norm.values <- preProcess(train.df[, -c(10)], method=c("center", "scale"))

train.df[, -c(10)] <- predict(norm.values, train.df[, -c(10)])
valid.df[, -c(10)] <- predict(norm.values, valid.df[, -c(10)])
test.df[,-c(10)] <- predict(norm.values, test.df[,-c(10)])

testknn <- knn(train = train.df[,-c(10)],test = test.df[,-c(10)], cl =

train.df[,10], k=3, prob=TRUE)
validknn <- knn(train = train.df[,-c(10)],test = valid.df[,-c(10)], cl =
train.df[,10], k=3, prob=TRUE)
trainknn <- knn(train = train.df[,-c(10)],test = train.df[,-c(10)], cl =
train.df[,10], k=3, prob=TRUE)

confusionMatrix(testknn, test.df[,10])

confusionMatrix(validknn, valid.df[,10])
confusionMatrix(trainknn, train.df[,10])

UNIVERSAL BANK CASE SOLUTION
No ratings yet
UNIVERSAL BANK CASE SOLUTION
9 pages
Supervised Learning
100% (1)
Supervised Learning
15 pages
Charles River IMS Overview Brochure WEB US
No ratings yet
Charles River IMS Overview Brochure WEB US
16 pages
Galaxy Dx5 X 1 Printhead Update 1.39 Headboard
100% (1)
Galaxy Dx5 X 1 Printhead Update 1.39 Headboard
22 pages
Thera Bank-Project
100% (12)
Thera Bank-Project
26 pages
A Note On R
No ratings yet
A Note On R
90 pages
FRA Assignment - India Credit Model
No ratings yet
FRA Assignment - India Credit Model
14 pages
Codes
No ratings yet
Codes
14 pages
Project On Data Mining-Raveendra Babu Gaddam
No ratings yet
Project On Data Mining-Raveendra Babu Gaddam
29 pages
Cart Project
75% (4)
Cart Project
17 pages
Final Project
No ratings yet
Final Project
9 pages
DM Assignment - Thena Bank
No ratings yet
DM Assignment - Thena Bank
39 pages
BDA MSC It
No ratings yet
BDA MSC It
35 pages
Project3: Loading Library
No ratings yet
Project3: Loading Library
17 pages
BA Project - Section 1 Group 1
No ratings yet
BA Project - Section 1 Group 1
27 pages
R Assignment
No ratings yet
R Assignment
8 pages
Janani Prakash Loan Prediction Study
No ratings yet
Janani Prakash Loan Prediction Study
97 pages
Credit Card Default
No ratings yet
Credit Card Default
30 pages
Financial Risk Analytics: Assignment
No ratings yet
Financial Risk Analytics: Assignment
35 pages
R All Program
No ratings yet
R All Program
10 pages
(Practical) Programming With R
No ratings yet
(Practical) Programming With R
5 pages
ANZ Virtual Internship Module Model Answer For Task 1
No ratings yet
ANZ Virtual Internship Module Model Answer For Task 1
7 pages
Tarea de Ciencia de Datos
No ratings yet
Tarea de Ciencia de Datos
32 pages
Supervised Learning in R Classification
No ratings yet
Supervised Learning in R Classification
7 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
Section B: R Programming Output
No ratings yet
Section B: R Programming Output
19 pages
Importing the Necessary Libraries
No ratings yet
Importing the Necessary Libraries
3 pages
21nku14 - Data Visualization Assignment
No ratings yet
21nku14 - Data Visualization Assignment
10 pages
Thera Bank PRJ
100% (10)
Thera Bank PRJ
79 pages
ml_all_projectpdf_removed
No ratings yet
ml_all_projectpdf_removed
41 pages
4063 Final复习资料
No ratings yet
4063 Final复习资料
6 pages
saurabh
No ratings yet
saurabh
22 pages
Building Logistic regression model in python
No ratings yet
Building Logistic regression model in python
24 pages
Activity Sheet
No ratings yet
Activity Sheet
2 pages
DS EXP8
No ratings yet
DS EXP8
5 pages
Bank Marketing Targets 1724510938
No ratings yet
Bank Marketing Targets 1724510938
13 pages
Week 4 LAB
No ratings yet
Week 4 LAB
26 pages
Bank Loan Title
No ratings yet
Bank Loan Title
7 pages
Classification - Bank - Marketing - Dataset - Jupyter Notebook
No ratings yet
Classification - Bank - Marketing - Dataset - Jupyter Notebook
23 pages
Rstudio Study Notes For PA 20181126
No ratings yet
Rstudio Study Notes For PA 20181126
6 pages
Group Assignment - Data Mining
No ratings yet
Group Assignment - Data Mining
28 pages
R Codes
No ratings yet
R Codes
23 pages
Summary and Context
No ratings yet
Summary and Context
51 pages
Project 3 Thera Bank
100% (1)
Project 3 Thera Bank
24 pages
EXP4-DM-1
No ratings yet
EXP4-DM-1
3 pages
1
No ratings yet
1
19 pages
Logistics Regression
0% (1)
Logistics Regression
3 pages
Stats101a Homework8
No ratings yet
Stats101a Homework8
7 pages
7708 - MBA PredAnanBigDataNov21
No ratings yet
7708 - MBA PredAnanBigDataNov21
11 pages
'Universalbank - CSV': #Reading The File
No ratings yet
'Universalbank - CSV': #Reading The File
4 pages
Data Mining Case Study PDF
100% (1)
Data Mining Case Study PDF
21 pages
Data Mining Case Study PDF
No ratings yet
Data Mining Case Study PDF
21 pages
Credit_Scores_classification
No ratings yet
Credit_Scores_classification
104 pages
Praktikum Modul 3
No ratings yet
Praktikum Modul 3
5 pages
et
No ratings yet
et
3 pages
Exam Cheatsheet For R Langauge Coding
No ratings yet
Exam Cheatsheet For R Langauge Coding
2 pages
Python Code For Loan Default Prediction
No ratings yet
Python Code For Loan Default Prediction
4 pages
R Programs: Bank - Name.STRBI Bank - Name.STRBI
No ratings yet
R Programs: Bank - Name.STRBI Bank - Name.STRBI
13 pages
PreProcessing With R
No ratings yet
PreProcessing With R
6 pages
LOan final (1)
No ratings yet
LOan final (1)
6 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Essential n8n Playbook
From Everand
Essential n8n Playbook
Leandro Calado
No ratings yet
Lazards Levelized Cost of Hydrogen Analysis VF
No ratings yet
Lazards Levelized Cost of Hydrogen Analysis VF
16 pages
1
No ratings yet
1
1 page
Tata Consultancy Services Analysis
100% (1)
Tata Consultancy Services Analysis
73 pages
Management Information System (MIS) : Credit Card
No ratings yet
Management Information System (MIS) : Credit Card
4 pages
4.SIEM Logs & Events
No ratings yet
4.SIEM Logs & Events
18 pages
Computational Thinking Lesson Plan
No ratings yet
Computational Thinking Lesson Plan
3 pages
Administration Activities 2: - Relocating Services
No ratings yet
Administration Activities 2: - Relocating Services
6 pages
D Link Configuratiuon
No ratings yet
D Link Configuratiuon
250 pages
WAVENCE Presentation
82% (11)
WAVENCE Presentation
116 pages
Scientific Development of Smart Farming Technologies and Their Application in Brazil
No ratings yet
Scientific Development of Smart Farming Technologies and Their Application in Brazil
12 pages
Skin Blender User Guide
No ratings yet
Skin Blender User Guide
9 pages
Advanced Military Spying and Bomb Disposal Robot: Senthamizh.R1, Subbu Lakshmi.P1, Subhashree.P1, Prof. M.Priyadarshini2
No ratings yet
Advanced Military Spying and Bomb Disposal Robot: Senthamizh.R1, Subbu Lakshmi.P1, Subhashree.P1, Prof. M.Priyadarshini2
3 pages
Ansys Commands
No ratings yet
Ansys Commands
1,928 pages
Matlab Presentation 204
No ratings yet
Matlab Presentation 204
11 pages
27.1 Record Tracking Satellite
No ratings yet
27.1 Record Tracking Satellite
22 pages
Scadad & Hmi PDF
No ratings yet
Scadad & Hmi PDF
34 pages
PRPC 5 4 Enterprise Class Structure 0
No ratings yet
PRPC 5 4 Enterprise Class Structure 0
25 pages
Chintan Resume
No ratings yet
Chintan Resume
1 page
Service Oriented Architecture For Enterp
No ratings yet
Service Oriented Architecture For Enterp
7 pages
2017 and 2018 Batch Students Data
No ratings yet
2017 and 2018 Batch Students Data
12 pages
2022 Training On Intro To Data Analytics
No ratings yet
2022 Training On Intro To Data Analytics
2 pages
Settings Provider
No ratings yet
Settings Provider
16 pages
380-Series IOM 380CSHS 880102
No ratings yet
380-Series IOM 380CSHS 880102
4 pages
Ptu PHD Thesis Format
100% (3)
Ptu PHD Thesis Format
8 pages
Alaska Hybrid Start For Clipper Programmer
100% (4)
Alaska Hybrid Start For Clipper Programmer
17 pages
Read The Following Announcements and Choose The Best Answer To Each Question. Announcement 1
No ratings yet
Read The Following Announcements and Choose The Best Answer To Each Question. Announcement 1
9 pages
Objective: Shaik Salman Sarosh
No ratings yet
Objective: Shaik Salman Sarosh
1 page
Aruba Electronic Key License Installation Guide
No ratings yet
Aruba Electronic Key License Installation Guide
8 pages
Cursor Tips and Triks
No ratings yet
Cursor Tips and Triks
10 pages
Get STRATEGIZE 2ND EDITION Roman Pichler free all chapters
100% (1)
Get STRATEGIZE 2ND EDITION Roman Pichler free all chapters
77 pages
Indian PHD Thesis Online
100% (3)
Indian PHD Thesis Online
7 pages
Nepal Higher Seconday School Rathnanagar 2, Tandi, Chitwan Second Terminal Examination - 2073 (Mangshir)
No ratings yet
Nepal Higher Seconday School Rathnanagar 2, Tandi, Chitwan Second Terminal Examination - 2073 (Mangshir)
2 pages

Q 2

Uploaded by

Q 2

Uploaded by

setwd("S:/NSB subjects/Term4/Business Analysis Data Mining5/BADM_R/q2")

new.df = data.frame(Age = as.integer(40), Experience = as.integer(10), Income =

norm.values <- preProcess(train.df[, -c(10)], method=c("center", "scale"))

knn.1 <- knn(train = train.df[,-c(10)],test = new.df, cl = train.df[,10], k=5,

customer.df= data.frame(Age = 40, Experience = 10, Income = 84, Family = 2, CCAvg =

train.df <- bank_dummy[train.index, ]

norm.values <- preProcess(train.df[, -c(10)], method=c("center", "scale"))

testknn <- knn(train = train.df[,-c(10)],test = test.df[,-c(10)], cl =

You might also like