0% found this document useful (0 votes)

60 views

Scikit-Learn Cheat Sheet

This document provides an overview of preprocessing techniques, model evaluation metrics, and machine learning algorithms in scikit-learn. It discusses standardization, normalization, binarization, imputing missing values, encoding categorical features, generating polynomial features, and loading data. For model evaluation, it covers classification metrics like accuracy score, classification report, confusion matrix and regression metrics like mean absolute error, mean squared error, and R2 score. It also lists clustering evaluation metrics like adjusted rand index, homogeneity, and V-measure. Scikit-learn is an open source Python machine learning library that implements preprocessing, modeling, validation, and visualization algorithms.

Uploaded by

Gurudutt Mishra

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

60 views

Scikit-Learn Cheat Sheet

Uploaded by

Gurudutt Mishra

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

> Preprocessing The Data > Evaluate Your Model’s Performance

Python For Data Science

Standardization Classification Metrics

Scikit-Learn Cheat Sheet >>>

>>>
>>>
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().fit(X_train)

standardized_X = scaler.transform(X_train)

Accuracy Score
>>> knn.score(X_test, y_test) #Estimator score method

>>> from sklearn.metrics import accuracy_score #Metric scoring functions

>>> standardized_X_test = scaler.transform(X_test) >>> accuracy_score(y_test, y_pred)

Learn Scikit-Learn online at www.DataCamp.com
Classification Report
Normalization >>> from sklearn.metrics import classification_report #Precision, recall, f1-score and support

>>> print(classification_report(y_test, y_pred))

>>> from sklearn.preprocessing import Normalizer

Confusion Matrix
>>> scaler = Normalizer().fit(X_train)

Scikit-learn >>>
>>>
normalized_X = scaler.transform(X_train)

normalized_X_test = scaler.transform(X_test)
>>> from sklearn.metrics import confusion_matrix

>>> print(confusion_matrix(y_test, y_pred))

Scikit-learn is an open source Python library that implements a range of Binarization Regression Metrics
machine learning, preprocessing, cross-validation and visualization

algorithms using a unified interface. >>> from sklearn.preprocessing import Binarizer

Mean Absolute Error
>>> binarizer = Binarizer(threshold=0.0).fit(X)
>>> from sklearn.metrics import mean_absolute_error

>>> binary_X = binarizer.transform(X)

A Basic Example >>> y_true = [3, -0.5, 2]

>>> mean_absolute_error(y_true, y_pred)

>>> from sklearn import neighbors, datasets, preprocessing

Encoding Categorical Features Mean Squared Error

>>> from sklearn.model_selection import train_test_split
>>> from sklearn.metrics import mean_squared_error

>>> from sklearn.metrics import accuracy_score

>>> from sklearn.preprocessing import LabelEncoder
>>> mean_squared_error(y_test, y_pred)
>>> iris = datasets.load_iris()
>>> enc = LabelEncoder()

>>> X, y = iris.data[:, :2], iris.target

R² Score
>>> y = enc.fit_transform(y)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33)
>>> from sklearn.metrics import r2_score

>>> scaler = preprocessing.StandardScaler().fit(X_train)

>>> r2_score(y_true, y_pred)
>>>
>>>
X_train = scaler.transform(X_train)

X_test = scaler.transform(X_test)

Imputing Missing Values

>>> knn = neighbors.KNeighborsClassifier(n_neighbors=5)

>>> from sklearn.preprocessing import Imputer

Clustering Metrics
>>> knn.fit(X_train, y_train)

>>> y_pred = knn.predict(X_test)

>>> imp = Imputer(missing_values=0, strategy='mean', axis=0)

>>> imp.fit_transform(X_train) Adjusted Rand Index

>>> accuracy_score(y_test, y_pred)
>>> from sklearn.metrics import adjusted_rand_score

Generating Polynomial Features >>> adjusted_rand_score(y_true, y_pred)

> Loading The Data Also see NumPy & Pandas

>>> from sklearn.preprocessing import PolynomialFeatures

Homogeneity

>>> from sklearn.metrics import homogeneity_score

>>> poly = PolynomialFeatures(5)

>>> homogeneity_score(y_true, y_pred)
Your data needs to be numeric and stored as NumPy arrays or SciPy sparse matrices. Other types that are >>> poly.fit_transform(X)
convertible to numeric arrays, such as Pandas DataFrame, are also acceptable. V-measure
>>> import numpy as np
>>> from sklearn.metrics import v_measure_score

> Create Your Model

>>> X = np.random.random((10,5))
>>> metrics.v_measure_score(y_true, y_pred)
>>> y = np.array(['M','M','F','F','M','F','M','M','F','F','F'])

>>> X[X < 0.7] = 0

Cross-Validation
Supervised Learning Estimators
> Training And Test Data Linear Regression
>>> from sklearn.cross_validation import cross_val_score

>>> print(cross_val_score(knn, X_train, y_train, cv=4))

>>> print(cross_val_score(lr, X, y, cv=2))

>>> from sklearn.linear_model import LinearRegression

>>> from sklearn.model_selection import train_test_split

>>> lr = LinearRegression(normalize=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X,

random_state=0)
Support Vector Machines (SVM)
>>> from sklearn.svm import SVC

> Tune Your Model

>>> svc = SVC(kernel='linear')

Grid Search
> Model Fitting
Naive Bayes
>>> from sklearn.naive_bayes import GaussianNB

>>> gnb = GaussianNB() >>> from sklearn.grid_search import GridSearchCV

>>> params = {"n_neighbors": np.arange(1,3),

Supervised learning KNN "metric": ["euclidean", "cityblock"]}

>>> lr.fit(X, y) #Fit the model to the data

>>> from sklearn import neighbors
>>> grid = GridSearchCV(estimator=knn,

>>> knn.fit(X_train, y_train)

>>> knn = neighbors.KNeighborsClassifier(n_neighbors=5) param_grid=params)

>>> svc.fit(X_train, y_train) >>> grid.fit(X_train, y_train)

>>> print(grid.best_score_)

Unsupervised Learning
Unsupervised Learning Estimators >>> print(grid.best_estimator_.n_neighbors)
>>> k_means.fit(X_train) #Fit the model to the data

>>> pca_model = pca.fit_transform(X_train) #Fit to data, then transform it

Principal Component Analysis (PCA) Randomized Parameter Optimization
>>> from sklearn.decomposition import PCA

>>> pca = PCA(n_components=0.95) >>> from sklearn.grid_search import RandomizedSearchCV

> Prediction K Means

>>> params = {"n_neighbors": range(1,5), "weights": ["uniform", "distance"]}

>>> rsearch = RandomizedSearchCV(estimator=knn, param_distributions=params,

>>> from sklearn.cluster import KMeans

cv=4, n_iter=8, random_state=5)

Supervised Estimators >>> k_means = KMeans(n_clusters=3, random_state=0) >>> rsearch.fit(X_train, y_train)

>>> print(rsearch.best_score_)
>>> y_pred = svc.predict(np.random.random((2,5))) #Predict labels

>>> y_pred = lr.predict(X_test) #Predict labels

>>> y_pred = knn.predict_proba(X_test) #Estimate probability of a label

Unsupervised Estimators
Learn Data Skills Online at www.DataCamp.com
>>> y_pred = k_means.predict(X_test) #Predict labels in clustering algos

Statistical Process Control Demystified
From Everand
Statistical Process Control Demystified
Paul A. Keller
No ratings yet
Scikit-Learn Cheat Sheet
No ratings yet
Scikit-Learn Cheat Sheet
1 page
Scikit-Learn Cheat Sheet Python For Data Science: Preprocessing The Data Evaluate Your Model's Performance
100% (1)
Scikit-Learn Cheat Sheet Python For Data Science: Preprocessing The Data Evaluate Your Model's Performance
1 page
Scikit Learn Cheat Sheet Python
No ratings yet
Scikit Learn Cheat Sheet Python
1 page
Scikit-Learn: Scikit-Learn Is An Open Source Python Library That
100% (1)
Scikit-Learn: Scikit-Learn Is An Open Source Python Library That
1 page
Python数据科学速查表 - Scikit-Learn
No ratings yet
Python数据科学速查表 - Scikit-Learn
1 page
Python For Data Science Cheat Sheet: Scikit-Learn Create Your Model Evaluate Your Model's Performance
100% (1)
Python For Data Science Cheat Sheet: Scikit-Learn Create Your Model Evaluate Your Model's Performance
1 page
Scikit-Learn Cheatsheet For Machine Learning
No ratings yet
Scikit-Learn Cheatsheet For Machine Learning
1 page
Python Scikit-Learn Cheat Sheet For Machine Learning
No ratings yet
Python Scikit-Learn Cheat Sheet For Machine Learning
3 pages
Scikit Learn Cheat Sheet
No ratings yet
Scikit Learn Cheat Sheet
9 pages
Regression Final
No ratings yet
Regression Final
10 pages
Cheat Sheet: Python For Data Science
100% (1)
Cheat Sheet: Python For Data Science
1 page
Scikit-Learn Cyber Security CheatSheet
No ratings yet
Scikit-Learn Cyber Security CheatSheet
2 pages
Keras Cheat Sheet Python
No ratings yet
Keras Cheat Sheet Python
1 page
Keras Cheat Sheet Python For Data Science: Model Architecture Inspect Model
No ratings yet
Keras Cheat Sheet Python For Data Science: Model Architecture Inspect Model
1 page
Keras Cheat Sheet Python For Data Science: Model Architecture Inspect Model
No ratings yet
Keras Cheat Sheet Python For Data Science: Model Architecture Inspect Model
1 page
Python-Cheatsheets Merged 230118 192222
No ratings yet
Python-Cheatsheets Merged 230118 192222
22 pages
Binary Classification
No ratings yet
Binary Classification
2 pages
Implementing KNN Algorithm: Importing Libraries
No ratings yet
Implementing KNN Algorithm: Importing Libraries
6 pages
Advanced Scikit Learn
No ratings yet
Advanced Scikit Learn
98 pages
ml using python programs
No ratings yet
ml using python programs
12 pages
ML Lab Manual
No ratings yet
ML Lab Manual
6 pages
Module_5
No ratings yet
Module_5
5 pages
Lab Manual 8
No ratings yet
Lab Manual 8
5 pages
Credit Card Fraud Detection
100% (1)
Credit Card Fraud Detection
14 pages
SVM(686) (1)
No ratings yet
SVM(686) (1)
5 pages
01 Machine Learning
No ratings yet
01 Machine Learning
25 pages
Answer 1722791857 NLP and Classification Practical MCQ 4991
No ratings yet
Answer 1722791857 NLP and Classification Practical MCQ 4991
26 pages
Unit 2
No ratings yet
Unit 2
5 pages
Amazon-Fine-Food-Review - K-Means, Agglomerative & DBSCAN Clustering
No ratings yet
Amazon-Fine-Food-Review - K-Means, Agglomerative & DBSCAN Clustering
79 pages
ML 4,5,6 (Sample1)
No ratings yet
ML 4,5,6 (Sample1)
6 pages
Python数据科学速查表 - Keras
No ratings yet
Python数据科学速查表 - Keras
1 page
Internal
No ratings yet
Internal
3 pages
Machine Learning With Python - Machine Learning Algorithms - KNN
No ratings yet
Machine Learning With Python - Machine Learning Algorithms - KNN
15 pages
Experiment 6 Code
No ratings yet
Experiment 6 Code
3 pages
Indi - Colab
No ratings yet
Indi - Colab
11 pages
supervised learning using python - chapter3
No ratings yet
supervised learning using python - chapter3
47 pages
EXAMEN TP
No ratings yet
EXAMEN TP
2 pages
Machine Learning Practicals
No ratings yet
Machine Learning Practicals
7 pages
Ml-Exp-2 - Jupyter Notebook
No ratings yet
Ml-Exp-2 - Jupyter Notebook
2 pages
ML Usar Manual-2
No ratings yet
ML Usar Manual-2
21 pages
data preprocessing
No ratings yet
data preprocessing
9 pages
pratham ML
No ratings yet
pratham ML
14 pages
CART Practical 6
No ratings yet
CART Practical 6
2 pages
AIML Practical 02 22105A2021
No ratings yet
AIML Practical 02 22105A2021
8 pages
Case Study - Classifier
No ratings yet
Case Study - Classifier
5 pages
ML Assignment 4
No ratings yet
ML Assignment 4
7 pages
phase 3
No ratings yet
phase 3
5 pages
2021BCS0103_ML
No ratings yet
2021BCS0103_ML
1 page
Scipy Cheat Sheet Python For Data Science: Linear Algebra
No ratings yet
Scipy Cheat Sheet Python For Data Science: Linear Algebra
1 page
Scipy Cheat Sheet Python For Data Science: Linear Algebra
No ratings yet
Scipy Cheat Sheet Python For Data Science: Linear Algebra
1 page
eBay Auction Case Solution
No ratings yet
eBay Auction Case Solution
9 pages
J2EE AntiPatterns
From Everand
J2EE AntiPatterns
Bill Dudney
4/5 (2)
Technical Math Demystified
From Everand
Technical Math Demystified
Stan Gibilisco
4/5 (2)
Mastering C++ Network Automation: Run Automation across Configuration Management, Container Orchestration, Kubernetes, and Cloud Networking
From Everand
Mastering C++ Network Automation: Run Automation across Configuration Management, Container Orchestration, Kubernetes, and Cloud Networking
Justin Barbara
No ratings yet
Mastering C++ Network Automation
From Everand
Mastering C++ Network Automation
Justin Barbara
No ratings yet
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
César Pérez López
No ratings yet
MATLAB Demystified
From Everand
MATLAB Demystified
David McMahon
5/5 (1)
ISA/IEC 61511 Safety Instrumented Systems (SIS) Fundamentals: Certification Exam Prep
From Everand
ISA/IEC 61511 Safety Instrumented Systems (SIS) Fundamentals: Certification Exam Prep
Steve Brown
No ratings yet
DATA MINING and MACHINE LEARNING. CLASSIFICATION PREDICTIVE TECHNIQUES: SUPPORT VECTOR MACHINE, LOGISTIC REGRESSION, DISCRIMINANT ANALYSIS and DECISION TREES: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. CLASSIFICATION PREDICTIVE TECHNIQUES: SUPPORT VECTOR MACHINE, LOGISTIC REGRESSION, DISCRIMINANT ANALYSIS and DECISION TREES: Examples with MATLAB
César Pérez López
No ratings yet
Nicd 327
No ratings yet
Nicd 327
40 pages
TEITA170 Saral Mane Seminar Report
No ratings yet
TEITA170 Saral Mane Seminar Report
23 pages
OBIKE Final Year Project
No ratings yet
OBIKE Final Year Project
49 pages
Probabilistic ML Crash Course - Leblanc, Mason
No ratings yet
Probabilistic ML Crash Course - Leblanc, Mason
95 pages
Lecture15 Learning Ranking
No ratings yet
Lecture15 Learning Ranking
46 pages
Deepfake Audio Detection Via MFCC Features Using M
No ratings yet
Deepfake Audio Detection Via MFCC Features Using M
11 pages
Customer Churn by Chen2014
No ratings yet
Customer Churn by Chen2014
20 pages
Arabic Text Classification: The Need For Multi-Labeling Systems
No ratings yet
Arabic Text Classification: The Need For Multi-Labeling Systems
25 pages
Blood Group Detection Using Image Processing
No ratings yet
Blood Group Detection Using Image Processing
4 pages
malekloo-et-al-2021-machine-learning-and-structural-health-monitoring-overview-with-emerging-technology-and-high
No ratings yet
malekloo-et-al-2021-machine-learning-and-structural-health-monitoring-overview-with-emerging-technology-and-high
50 pages
An Optimized Crossover Framework for Social Media Sentiment Analysis
No ratings yet
An Optimized Crossover Framework for Social Media Sentiment Analysis
30 pages
Machine Learning and Its Application in Food Science and Technology
No ratings yet
Machine Learning and Its Application in Food Science and Technology
32 pages
10.1007@s11590 020 01546 7
No ratings yet
10.1007@s11590 020 01546 7
16 pages
Final Report Template
No ratings yet
Final Report Template
28 pages
Career_guidance_system_for_students_using_machine_
No ratings yet
Career_guidance_system_for_students_using_machine_
6 pages
Instant Download (Ebook) Java for Data Science by Reese, Richard M., Reese, Jennifer L. ISBN 9781785280115, 1785280112 PDF All Chapters
100% (7)
Instant Download (Ebook) Java for Data Science by Reese, Richard M., Reese, Jennifer L. ISBN 9781785280115, 1785280112 PDF All Chapters
67 pages
Important Question of Introduction of Data Science
No ratings yet
Important Question of Introduction of Data Science
10 pages
Ijrpr Paper Templatev1
No ratings yet
Ijrpr Paper Templatev1
17 pages
Download ebooks file Data analytics Anil Maheshwari all chapters
100% (1)
Download ebooks file Data analytics Anil Maheshwari all chapters
47 pages
Backorder Prediction in The Supply Chain Using Machine Learning
No ratings yet
Backorder Prediction in The Supply Chain Using Machine Learning
6 pages
Prediction of Poultry Yield Using Data Mining Techniques
No ratings yet
Prediction of Poultry Yield Using Data Mining Techniques
17 pages
Algorithm
No ratings yet
Algorithm
27 pages
Khayyam Offline Persian Handwriting Dataset
No ratings yet
Khayyam Offline Persian Handwriting Dataset
15 pages
Unit 4 MCQ
No ratings yet
Unit 4 MCQ
10 pages
Development of A QGIS Plugin To Obtain Parameters
No ratings yet
Development of A QGIS Plugin To Obtain Parameters
20 pages
Machine Learning Algorithms Overview
No ratings yet
Machine Learning Algorithms Overview
6 pages
Malaria Detection Using Image Processing and Machine Learning
No ratings yet
Malaria Detection Using Image Processing and Machine Learning
11 pages
Get Data Analytics for the Social Sciences: Applications in R 1st Edition Garson free all chapters
100% (3)
Get Data Analytics for the Social Sciences: Applications in R 1st Edition Garson free all chapters
65 pages
Detection of Cyber Attack in Network Using Machine Learning Techniques New PDF
No ratings yet
Detection of Cyber Attack in Network Using Machine Learning Techniques New PDF
31 pages
@vtucode.in-21AI63-model-set-1-paper
No ratings yet
@vtucode.in-21AI63-model-set-1-paper
2 pages

Scikit-Learn Cheat Sheet

Uploaded by

Scikit-Learn Cheat Sheet

Uploaded by

> Preprocessing The Data > Evaluate Your Model’s Performance

Python For Data Science

Scikit-Learn Cheat Sheet >>>

>>> from sklearn.metrics import accuracy_score #Metric scoring functions

>>> standardized_X_test = scaler.transform(X_test) >>> accuracy_score(y_test, y_pred)

>>> print(classification_report(y_test, y_pred))

>>> print(confusion_matrix(y_test, y_pred))

algorithms using a unified interface. >>> from sklearn.preprocessing import Binarizer

>>> binary_X = binarizer.transform(X)

>>> mean_absolute_error(y_true, y_pred)

>>> from sklearn import neighbors, datasets, preprocessing

Encoding Categorical Features Mean Squared Error

>>> from sklearn.metrics import accuracy_score

>>> X, y = iris.data[:, :2], iris.target

>>> scaler = preprocessing.StandardScaler().fit(X_train)

Imputing Missing Values

>>> from sklearn.preprocessing import Imputer

>>> y_pred = knn.predict(X_test)

>>> imp.fit_transform(X_train) Adjusted Rand Index

Generating Polynomial Features >>> adjusted_rand_score(y_true, y_pred)

> Loading The Data Also see NumPy & Pandas

>>> from sklearn.metrics import homogeneity_score

>>> poly = PolynomialFeatures(5)

> Create Your Model

>>> X[X < 0.7] = 0

>>> print(cross_val_score(knn, X_train, y_train, cv=4))

>>> print(cross_val_score(lr, X, y, cv=2))

>>> from sklearn.model_selection import train_test_split

> Tune Your Model

>>> gnb = GaussianNB() >>> from sklearn.grid_search import GridSearchCV

>>> params = {"n_neighbors": np.arange(1,3),

Supervised learning KNN "metric": ["euclidean", "cityblock"]}

>>> lr.fit(X, y) #Fit the model to the data

>>> knn.fit(X_train, y_train)

>>> svc.fit(X_train, y_train) >>> grid.fit(X_train, y_train)

>>> pca_model = pca.fit_transform(X_train) #Fit to data, then transform it

>>> pca = PCA(n_components=0.95) >>> from sklearn.grid_search import RandomizedSearchCV

> Prediction K Means

>>> rsearch = RandomizedSearchCV(estimator=knn, param_distributions=params,

>>> from sklearn.cluster import KMeans

Supervised Estimators >>> k_means = KMeans(n_clusters=3, random_state=0) >>> rsearch.fit(X_train, y_train)

>>> y_pred = lr.predict(X_test) #Predict labels

>>> y_pred = knn.predict_proba(X_test) #Estimate probability of a label

You might also like