0% found this document useful (0 votes)

4 views

Supervised_classi_&_regression

The document provides a comprehensive guide on data preprocessing and modeling techniques in Python using libraries such as pandas and scikit-learn. It covers methods for handling missing values, scaling features, encoding categorical variables, and visualizing data, as well as implementing various machine learning models like Linear Regression, Logistic Regression, Decision Trees, and ensemble methods. Additionally, it includes performance metrics for evaluating model accuracy and effectiveness.

Uploaded by

hetvibhora192

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

Supervised_classi_&_regression

Uploaded by

hetvibhora192

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

lc5s5kseo

December 22, 2024

[ ]: #numerical cols
df['col'] = df['col'].fillna(df['col'].mean()) # Replace with mean
df['col'] = df['col'].fillna(df['col'].median()) # Replace with median

[ ]: # Categorical columns
df['col'] = df['col'].fillna(df['col'].mode()[0]) # Replace with mode

[ ]: from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=5)
df_imputed = imputer.fit_transform(df)

[ ]: df['col'] = df['col'].fillna(method='ffill') # Forward fill

df['col'] = df['col'].fillna(method='bfill') # Backward fill

[ ]: from sklearn.experimental import enable_iterative_imputer

from sklearn.impute import IterativeImputer

imputer = IterativeImputer()
df_imputed = imputer.fit_transform(df)

[ ]: from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df_scaled = scaler.fit_transform(df)

[ ]: from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)

[ ]: from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
df_scaled = scaler.fit_transform(df)

[ ]: from sklearn.preprocessing import MaxAbsScaler

1
scaler = MaxAbsScaler()
df_scaled = scaler.fit_transform(df)

[ ]: from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
df['col'] = encoder.fit_transform(df['col'])

[ ]: df_encoded = pd.get_dummies(df, columns=['col'],drop_first=True)

[ ]: mean_encoding = df.groupby('col')['target'].mean()
df['col'] = df['col'].map(mean_encoding)

[ ]: freq_encoding = df['col'].value_counts()
df['col'] = df['col'].map(freq_encoding)

[ ]: import matplotlib.pyplot as plt

df['col'].hist(bins=20)
plt.title('Histogram')
plt.xlabel('Values')
plt.ylabel('Frequency')
plt.show()

[ ]: import seaborn as sns

sns.boxplot(data=df, x='col') # only num_cols

plt.title('Boxplot')
plt.show()

[ ]: plt.scatter(df['col1'], df['col2']) # x=pc1,y=pc2

plt.title('Scatter Plot')
plt.xlabel('col1')
plt.ylabel('col2')
plt.show()

[ ]: import seaborn as sns

sns.heatmap(df.corr(), annot=True, cmap='coolwarm') # only num_cols

plt.title('Heatmap')
plt.show()

[ ]: from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train, y_train)

2
y_pred = model.predict(X_test)

# Metrics
print("R-squared:", r2_score(y_test, y_pred))
print("Mean Absolute Error:", mean_absolute_error(y_test, y_pred))
print("Mean Squared Error:", mean_squared_error(y_test, y_pred))
print("Root Mean Squared Error:", np.sqrt(mean_squared_error(y_test, y_pred)))

[ ]: from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score, precision_score, recall_score,␣
↪f1_score, roc_auc_score,roc_auc_score

model = LogisticRegression(penalty='l2', C=1.0, solver='lbfgs', random_state=42)

model.fit(X_train, y_train)
y_pred = model.predict(X_test)

y_pred_prob = model.predict_proba(X_test)[:, 1]
auc = roc_auc_score(y_test, y_pred_prob)
print(auc)

# Metrics
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1-Score:", f1_score(y_test, y_pred))
print("ROC-AUC Score:", roc_auc_score(y_test, y_pred_prob)) # also -␣
↪classification report,confusion matrix same way

[ ]: from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import accuracy_score, precision_score, recall_score,␣
↪f1_score

model = DecisionTreeClassifier(max_depth=5, criterion='gini', random_state=42)␣

↪# min_samples_split, min_samples_leaf

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print(model.feature_importances_)

# Metrics
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1-Score:", f1_score(y_test, y_pred)) # also - classification ␣
↪report,confusion matrix same way

3
[ ]: from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

model = RandomForestClassifier(n_estimators=100, max_depth=None,␣

↪oob_score=True, random_state=42)

model.fit(X_train, y_train)

print(model.feature_importances_)
print(model.oob_score_)

y_pred = model.predict(X_test)

print("Accuracy:", accuracy_score(y_test, y_pred))

[ ]: from xgboost import XGBClassifier

from sklearn.metrics import log_loss

model = XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=6,␣

↪random_state=42)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)
y_pred_prob = model.predict_proba(X_test)[:, 1]

# Metrics
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Log Loss:", log_loss(y_test, y_pred_prob))
print("ROC-AUC Score:", roc_auc_score(y_test, y_pred_prob)) # also -␣
↪classification report,confusion matrix same way

from xgboost import plot_importance

plot_importance(model)
plt.show()

[ ]: from sklearn.ensemble import AdaBoostClassifier

from sklearn.metrics import accuracy_score, log_loss

model = AdaBoostClassifier(n_estimators=50, learning_rate=1.0, random_state=42)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)
y_pred_prob = model.predict_proba(X_test)[:, 1]

# Metrics
print("Accuracy:", accuracy_score(y_test, y_pred))

4
print("Log Loss:", log_loss(y_test, y_pred_prob))

[ ]: from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

model = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print("Accuracy:", accuracy_score(y_test, y_pred))

print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1-Score:", f1_score(y_test, y_pred))

[ ]:

Polytechnic University of The Philippines Statistical Analysis With Software Application
No ratings yet
Polytechnic University of The Philippines Statistical Analysis With Software Application
9 pages
Simple Linear Ordinary Least Squares Regression: JTMS-03 Applied Statistics With R
No ratings yet
Simple Linear Ordinary Least Squares Regression: JTMS-03 Applied Statistics With R
39 pages
7 Ass
No ratings yet
7 Ass
4 pages
Slip Regression Classification
No ratings yet
Slip Regression Classification
2 pages
Machine
100% (1)
Machine
45 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
11 pages
Seguridad ML
No ratings yet
Seguridad ML
7 pages
Slip
No ratings yet
Slip
5 pages
Assignment 4 Instructions
No ratings yet
Assignment 4 Instructions
5 pages
SVM
No ratings yet
SVM
8 pages
Tous Les Algo de ML
No ratings yet
Tous Les Algo de ML
7 pages
ML Lab Programs
No ratings yet
ML Lab Programs
23 pages
Machine Learnin
100% (2)
Machine Learnin
23 pages
21brs1474 ML Lab 2
No ratings yet
21brs1474 ML Lab 2
25 pages
Estiven - Hurtado.Santos - Regresión Con Varios Algoritmos
No ratings yet
Estiven - Hurtado.Santos - Regresión Con Varios Algoritmos
16 pages
20MIS1025 - DecisionTree - Ipynb - Colaboratory
No ratings yet
20MIS1025 - DecisionTree - Ipynb - Colaboratory
4 pages
Codes for Project
No ratings yet
Codes for Project
8 pages
Exp 6
No ratings yet
Exp 6
6 pages
Big Data Merged
No ratings yet
Big Data Merged
7 pages
If With: February 26, 2024
No ratings yet
If With: February 26, 2024
7 pages
ML MANUAL WITH OUTPUTS (2)
No ratings yet
ML MANUAL WITH OUTPUTS (2)
30 pages
History of Code
No ratings yet
History of Code
37 pages
Correction
No ratings yet
Correction
3 pages
ml_code_output
No ratings yet
ml_code_output
38 pages
Slip Clustering
No ratings yet
Slip Clustering
2 pages
Machine Learning Model Building
No ratings yet
Machine Learning Model Building
6 pages
Slip
No ratings yet
Slip
2 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Codes
No ratings yet
Codes
6 pages
Lab 7
No ratings yet
Lab 7
14 pages
SL Classification For Data Science..
No ratings yet
SL Classification For Data Science..
4 pages
Aiml Record From 1 To 10
No ratings yet
Aiml Record From 1 To 10
10 pages
23BCE7199 ML Lab Assignment[1]
No ratings yet
23BCE7199 ML Lab Assignment[1]
15 pages
Vertopal.com Experiment5
No ratings yet
Vertopal.com Experiment5
7 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
Project Notes
No ratings yet
Project Notes
2 pages
ML Practicals
No ratings yet
ML Practicals
11 pages
PythonFile[1]
No ratings yet
PythonFile[1]
5 pages
Apply Logistic Regression To Amazon Reviews Data Set (M)
No ratings yet
Apply Logistic Regression To Amazon Reviews Data Set (M)
11 pages
3 Classification
No ratings yet
3 Classification
16 pages
Data analytics
No ratings yet
Data analytics
10 pages
AI ML - Cycle 2 Programs (1)
No ratings yet
AI ML - Cycle 2 Programs (1)
15 pages
AI Lab M.Tech
No ratings yet
AI Lab M.Tech
29 pages
Online Payment Fraud Detection Using Machine Learning
No ratings yet
Online Payment Fraud Detection Using Machine Learning
2 pages
Regression Model
No ratings yet
Regression Model
6 pages
ML
No ratings yet
ML
7 pages
Import As Import As From Import Import As Matplotlib Import Import
No ratings yet
Import As Import As From Import Import As Matplotlib Import Import
5 pages
lab-5-nguyenngocmaithi-20130120
No ratings yet
lab-5-nguyenngocmaithi-20130120
20 pages
Exp 4
No ratings yet
Exp 4
10 pages
Naive - Bayes - Ipynb - Colab
No ratings yet
Naive - Bayes - Ipynb - Colab
3 pages
Minor_lab
No ratings yet
Minor_lab
4 pages
Variosalgoritmos - Jupyter Notebook
100% (1)
Variosalgoritmos - Jupyter Notebook
9 pages
Deep Learning Assignments
No ratings yet
Deep Learning Assignments
6 pages
Soft Sensor Code
No ratings yet
Soft Sensor Code
4 pages
Soft Sensor Code
No ratings yet
Soft Sensor Code
4 pages
22se02cs039 DS P-11
No ratings yet
22se02cs039 DS P-11
10 pages
Code
No ratings yet
Code
6 pages
Scikit
No ratings yet
Scikit
4 pages
202203103510493
No ratings yet
202203103510493
6 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
C Language Programming Codes
From Everand
C Language Programming Codes
Durgesh
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
5_AML Lecture 5_Linear regression
No ratings yet
5_AML Lecture 5_Linear regression
56 pages
4_Outliers_+Transformaations ML
No ratings yet
4_Outliers_+Transformaations ML
28 pages
3_AML _Lecture 3_Feature Engg
No ratings yet
3_AML _Lecture 3_Feature Engg
39 pages
2_Machine Learning_130824
No ratings yet
2_Machine Learning_130824
81 pages
1_AML _Manish
No ratings yet
1_AML _Manish
72 pages
IMP_Hierarchical_Clustering
No ratings yet
IMP_Hierarchical_Clustering
3 pages
Week 14: Exam Preparation: Slide 1
No ratings yet
Week 14: Exam Preparation: Slide 1
48 pages
The Glejser Test and The Median Regression: Marilena Furno
No ratings yet
The Glejser Test and The Median Regression: Marilena Furno
24 pages
HW 4 - Arief Wicaksono
No ratings yet
HW 4 - Arief Wicaksono
10 pages
Data Mining - Sem 3 - Assignment - 2
No ratings yet
Data Mining - Sem 3 - Assignment - 2
5 pages
Week 4
No ratings yet
Week 4
24 pages
SASA
No ratings yet
SASA
4 pages
Package Rugarch
No ratings yet
Package Rugarch
108 pages
5 Correlation and Cofficient 2023
No ratings yet
5 Correlation and Cofficient 2023
51 pages
ES 209 Engineering Data Analysis - Long Quiz
No ratings yet
ES 209 Engineering Data Analysis - Long Quiz
3 pages
Generalized Kappa Statistic
No ratings yet
Generalized Kappa Statistic
11 pages
Lumen OHM 4
No ratings yet
Lumen OHM 4
5 pages
Test 1-past paper
No ratings yet
Test 1-past paper
8 pages
Nordis Final
No ratings yet
Nordis Final
6 pages
1 ORSolution Manual Ch01
No ratings yet
1 ORSolution Manual Ch01
8 pages
Topic03 Correlation Regression
No ratings yet
Topic03 Correlation Regression
81 pages
Hypothesis Testing
No ratings yet
Hypothesis Testing
33 pages
University of Toronto Scarborough Department of Computer and Mathematical Sciences December 2013 Sample Exam STAC50H3: Data Collection
No ratings yet
University of Toronto Scarborough Department of Computer and Mathematical Sciences December 2013 Sample Exam STAC50H3: Data Collection
8 pages
MULTICOLLINEARITY
No ratings yet
MULTICOLLINEARITY
12 pages
Variabel Moderat
No ratings yet
Variabel Moderat
26 pages
Hsslive-Xii-Statistics-1. Correlation Analysis-English
No ratings yet
Hsslive-Xii-Statistics-1. Correlation Analysis-English
6 pages
CH 6 The 2 K Factorial Design
No ratings yet
CH 6 The 2 K Factorial Design
56 pages
Precision+and+recall
No ratings yet
Precision+and+recall
5 pages
Chapter 8 Sampling and Estimation
No ratings yet
Chapter 8 Sampling and Estimation
14 pages
Module 4 - Assignment
No ratings yet
Module 4 - Assignment
4 pages
BL RSCH 2122 LEC 1922S Inquiries, Investigations and Immersion (VICTOR)
No ratings yet
BL RSCH 2122 LEC 1922S Inquiries, Investigations and Immersion (VICTOR)
11 pages
TJC H2 2021 Math Prelim P2 Solutions
No ratings yet
TJC H2 2021 Math Prelim P2 Solutions
19 pages
Instant Download Quantitative Research Methods for Communication: A Hands-On Approach 4th Edition (eBook PDF) PDF All Chapters
100% (4)
Instant Download Quantitative Research Methods for Communication: A Hands-On Approach 4th Edition (eBook PDF) PDF All Chapters
55 pages
Analysis of Correlation Structures Using Generalized Estimating Equation Approach For Longitudinal Binary Data
No ratings yet
Analysis of Correlation Structures Using Generalized Estimating Equation Approach For Longitudinal Binary Data
13 pages

Supervised_classi_&_regression

Uploaded by

Supervised_classi_&_regression

Uploaded by

lc5s5kseo

December 22, 2024

[ ]: from sklearn.impute import KNNImputer

[ ]: df['col'] = df['col'].fillna(method='ffill') # Forward fill

[ ]: from sklearn.experimental import enable_iterative_imputer

[ ]: from sklearn.preprocessing import MinMaxScaler

[ ]: from sklearn.preprocessing import StandardScaler

[ ]: from sklearn.preprocessing import RobustScaler

[ ]: from sklearn.preprocessing import MaxAbsScaler

[ ]: from sklearn.preprocessing import LabelEncoder

[ ]: df_encoded = pd.get_dummies(df, columns=['col'],drop_first=True)

[ ]: import matplotlib.pyplot as plt

[ ]: import seaborn as sns

sns.boxplot(data=df, x='col') # only num_cols

[ ]: plt.scatter(df['col1'], df['col2']) # x=pc1,y=pc2

[ ]: import seaborn as sns

sns.heatmap(df.corr(), annot=True, cmap='coolwarm') # only num_cols

[ ]: from sklearn.linear_model import LinearRegression

[ ]: from sklearn.linear_model import LogisticRegression

model = LogisticRegression(penalty='l2', C=1.0, solver='lbfgs', random_state=42)

[ ]: from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(max_depth=5, criterion='gini', random_state=42)␣

model = RandomForestClassifier(n_estimators=100, max_depth=None,␣

print("Accuracy:", accuracy_score(y_test, y_pred))

[ ]: from xgboost import XGBClassifier

model = XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=6,␣

from xgboost import plot_importance

[ ]: from sklearn.ensemble import AdaBoostClassifier

model = AdaBoostClassifier(n_estimators=50, learning_rate=1.0, random_state=42)

[ ]: from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2)

print("Accuracy:", accuracy_score(y_test, y_pred))

You might also like