0% found this document useful (0 votes)

5 views

Intermediate Machine learning

The document discusses the importance of handling missing values in machine learning datasets, outlining three approaches: dropping columns, imputation, and imputation with an extension. It provides example code for each method and emphasizes the need to evaluate the effectiveness of these approaches using Mean Absolute Error (MAE). Additionally, it covers methods for handling categorical variables, including dropping, label encoding, and one-hot encoding, with corresponding example code and evaluation metrics.

Uploaded by

bikid25585

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views

Intermediate Machine learning

Uploaded by

bikid25585

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 12

Intermediate Machine learning

Step 2: Missing Values

1. Introduction:

 Importance of Handling Missing Values:

o Many datasets have missing values, which can cause issues with machine
learning models.
o Ignoring missing values can lead to errors or biases in predictions.

2. Three Approaches to Handling Missing Values:

 Approach 1: Drop Columns with Missing Values

 Approach 2: Imputation
 Approach 3: Imputation with an Extension (Add a Missing Indicator)

3. Investigating Missing Values:

 Check for Missing Values: Use pandas functions to identify missing values in the
dataset.
 Example Code:

python
Copy code
import pandas as pd

# Load data
data = pd.read_csv('train.csv')

# Select target and features

y = data.SalePrice
X = data.drop(['SalePrice'], axis=1)

# Break off validation set from training data

from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(X, y,
train_size=0.8, test_size=0.2, random_state=0)

# Shape of training data (num_rows, num_columns)

print(X_train.shape)

4. Approach 1: Drop Columns with Missing Values:

 When to Use:
o When a column has many missing values.
o When the column is not critical for analysis.
 Example Code:

python
Copy code
# Get names of columns with missing values
cols_with_missing = [col for col in X_train.columns if
X_train[col].isnull().any()]
# Drop columns in training and validation data
reduced_X_train = X_train.drop(cols_with_missing, axis=1)
reduced_X_valid = X_valid.drop(cols_with_missing, axis=1)

# Check the shape of reduced data

print(reduced_X_train.shape)

5. Approach 2: Imputation:

 Definition:
o Imputation is the process of filling in missing values with substituted values.
 Common Strategies:
o Mean Imputation: Replace missing values with the mean of the column.
o Median Imputation: Replace missing values with the median of the column.
o Most Frequent Imputation: Replace missing values with the most frequent
value in the column.
 Example Code:

python
Copy code
from sklearn.impute import SimpleImputer

# Imputation
my_imputer = SimpleImputer(strategy='median')

# Imputation on training and validation data

imputed_X_train = pd.DataFrame(my_imputer.fit_transform(X_train))
imputed_X_valid = pd.DataFrame(my_imputer.transform(X_valid))

# Imputation removed column names; put them back

imputed_X_train.columns = X_train.columns
imputed_X_valid.columns = X_valid.columns

6. Approach 3: Imputation with an Extension (Add a Missing Indicator):

 Extension of Imputation:
o Combine imputation with an additional indicator column that shows where the
missing values were.
 Why Use It:
o It allows the model to account for the fact that certain values were missing,
which might be informative.
 Example Code:

python
Copy code
from sklearn.impute import SimpleImputer

# Make copy to avoid changing original data (when imputing)

X_train_plus = X_train.copy()
X_valid_plus = X_valid.copy()

# Make new columns indicating what will be imputed

for col in cols_with_missing:
X_train_plus[col + '_was_missing'] = X_train_plus[col].isnull()
X_valid_plus[col + '_was_missing'] = X_valid_plus[col].isnull()
# Imputation
my_imputer = SimpleImputer(strategy='median')
imputed_X_train_plus =
pd.DataFrame(my_imputer.fit_transform(X_train_plus))
imputed_X_valid_plus =
pd.DataFrame(my_imputer.transform(X_valid_plus))

# Imputation removed column names; put them back

imputed_X_train_plus.columns = X_train_plus.columns
imputed_X_valid_plus.columns = X_valid_plus.columns

7. Scoring the Approaches:

 Scoring Approach: Use Mean Absolute Error (MAE) to compare the different
approaches.
 Example Code:

python
Copy code
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Function to compare MAE with different approaches

def score_dataset(X_train, X_valid, y_train, y_valid):
model = RandomForestRegressor(n_estimators=100, random_state=0)
model.fit(X_train, y_train)
preds = model.predict(X_valid)
return mean_absolute_error(y_valid, preds)

# Score for Approach 1 (Drop Columns with Missing Values)

reduced_X_train = X_train.drop(cols_with_missing, axis=1)
reduced_X_valid = X_valid.drop(cols_with_missing, axis=1)
print("MAE (Drop columns with missing values):")
print(score_dataset(reduced_X_train, reduced_X_valid, y_train,
y_valid))

# Score for Approach 2 (Imputation)

imputed_X_train = pd.DataFrame(my_imputer.fit_transform(X_train))
imputed_X_valid = pd.DataFrame(my_imputer.transform(X_valid))
imputed_X_train.columns = X_train.columns
imputed_X_valid.columns = X_valid.columns
print("MAE (Imputation):")
print(score_dataset(imputed_X_train, imputed_X_valid, y_train,
y_valid))

7. Scoring the Approaches (continued):

 Scoring Approach: Use Mean Absolute Error (MAE) to compare the different
approaches.
 Example Code (continued):

python
Copy code
# Score for Approach 2 (Imputation)
imputed_X_train = pd.DataFrame(my_imputer.fit_transform(X_train))
imputed_X_valid = pd.DataFrame(my_imputer.transform(X_valid))
imputed_X_train.columns = X_train.columns
imputed_X_valid.columns = X_valid.columns
print("MAE (Imputation):")
print(score_dataset(imputed_X_train, imputed_X_valid, y_train,
y_valid))

# Score for Approach 3 (Imputation with Extension)

imputed_X_train_plus =
pd.DataFrame(my_imputer.fit_transform(X_train_plus))
imputed_X_valid_plus =
pd.DataFrame(my_imputer.transform(X_valid_plus))
imputed_X_train_plus.columns = X_train_plus.columns
imputed_X_valid_plus.columns = X_valid_plus.columns
print("MAE (Imputation with Extension):")
print(score_dataset(imputed_X_train_plus, imputed_X_valid_plus,
y_train, y_valid))

8. Conclusion:

 Key Takeaways:
o Approach 1 (Drop Columns with Missing Values): Simple but may lose
important information.
o Approach 2 (Imputation): Retains data, but the choice of imputation strategy
can affect model performance.
o Approach 3 (Imputation with Extension): Combines the benefits of
imputation with added indicators for missing values, which can provide
additional information to the model.
 Final Thoughts: Handling missing values effectively is crucial for building accurate
and robust machine learning models. Choose the appropriate method based on the
nature of your data and the specific requirements of your analysis.

Exercise(full code)
python
Copy code
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split

# Load data
data = pd.read_csv('train.csv')

# Select target and features

y = data.SalePrice
X = data.drop(['SalePrice'], axis=1)

# Break off validation set from training data

X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8,
test_size=0.2, random_state=0)

# Shape of training data (num_rows, num_columns)

print(X_train.shape)
# Define function to measure quality of each approach
def score_dataset(X_train, X_valid, y_train, y_valid):
model = RandomForestRegressor(n_estimators=100, random_state=0)
model.fit(X_train, y_train)
preds = model.predict(X_valid)
return mean_absolute_error(y_valid, preds)

# Approach 1: Drop columns with missing values

# Get names of columns with missing values
cols_with_missing = [col for col in X_train.columns if
X_train[col].isnull().any()]

# Drop columns in training and validation data

reduced_X_train = X_train.drop(cols_with_missing, axis=1)
reduced_X_valid = X_valid.drop(cols_with_missing, axis=1)

# Score dataset
print("MAE (Drop columns with missing values):")
print(score_dataset(reduced_X_train, reduced_X_valid, y_train, y_valid))

# Approach 2: Imputation
my_imputer = SimpleImputer(strategy='median')

# Imputation on training and validation data

imputed_X_train = pd.DataFrame(my_imputer.fit_transform(X_train))
imputed_X_valid = pd.DataFrame(my_imputer.transform(X_valid))

# Imputation removed column names; put them back

imputed_X_train.columns = X_train.columns
imputed_X_valid.columns = X_valid.columns

# Score dataset
print("MAE (Imputation):")
print(score_dataset(imputed_X_train, imputed_X_valid, y_train, y_valid))

# Approach 3: Imputation with an Extension

# Make copy to avoid changing original data (when imputing)
X_train_plus = X_train.copy()
X_valid_plus = X_valid.copy()

# Make new columns indicating what will be imputed

for col in cols_with_missing:
X_train_plus[col + '_was_missing'] = X_train_plus[col].isnull()
X_valid_plus[col + '_was_missing'] = X_valid_plus[col].isnull()

# Imputation
my_imputer = SimpleImputer(strategy='median')
imputed_X_train_plus = pd.DataFrame(my_imputer.fit_transform(X_train_plus))
imputed_X_valid_plus = pd.DataFrame(my_imputer.transform(X_valid_plus))

# Imputation removed column names; put them back

imputed_X_train_plus.columns = X_train_plus.columns
imputed_X_valid_plus.columns = X_valid_plus.columns

# Score dataset
print("MAE (Imputation with Extension):")
print(score_dataset(imputed_X_train_plus, imputed_X_valid_plus, y_train,
y_valid))

Explanation:
1. Loading Data: Load the dataset from a CSV file.
2. Selecting Target and Features: Define the target variable y and the feature variables
X.
3. Splitting Data: Split the data into training and validation sets using
train_test_split.
4. Defining the Scoring Function: Define a function to measure the mean absolute
error (MAE) for each approach.
5. Approach 1 - Drop Columns with Missing Values: Identify columns with missing
values, drop them, and score the dataset.
6. Approach 2 - Imputation: Use SimpleImputer to impute missing values with the
median and score the dataset.
7. Approach 3 - Imputation with an Extension: Add indicators for missing values,
impute missing values, and score the dataset

Step 3: Categorical Variables

1. Introduction:

 Definition: Categorical variables are variables that contain label values rather than
numeric values.
 Importance: Many machine learning models require all input features to be numeric,
so categorical variables need to be converted to a suitable numeric format.

2. Methods to Handle Categorical Variables:

 Method 1: Drop Categorical Variables

 Method 2: Label Encoding
 Method 3: One-Hot Encoding

3. Investigating Categorical Variables:

 Check for Categorical Variables: Use pandas functions to identify categorical

variables in the dataset.
 Example Code:

python
Copy code
import pandas as pd

# Load data
data = pd.read_csv('train.csv')

# Select target and features

y = data.SalePrice
X = data.drop(['SalePrice'], axis=1)

# Break off validation set from training data

from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(X, y,
train_size=0.8, test_size=0.2, random_state=0)

# Get list of categorical variables

s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)
print("Categorical variables:")
print(object_cols)

4. Method 1: Drop Categorical Variables:

 When to Use:
o When categorical variables are not critical for the analysis.
 Example Code:

python
Copy code
# Drop categorical variables
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

# Define function to measure quality of each approach

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

def score_dataset(X_train, X_valid, y_train, y_valid):

model = RandomForestRegressor(n_estimators=100, random_state=0)
model.fit(X_train, y_train)
preds = model.predict(X_valid)
return mean_absolute_error(y_valid, preds)

print("MAE (Drop categorical variables):")

print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

5. Method 2: Label Encoding:

 Definition:
o Label Encoding assigns each unique value in a categorical column an integer
value.
 When to Use:
o When the categorical variable has an ordinal relationship (e.g., 'low', 'medium',
'high').
 Example Code:

python
Copy code
from sklearn.preprocessing import LabelEncoder

# Make copy to avoid changing original data

label_X_train = X_train.copy()
label_X_valid = X_valid.copy()

# Apply label encoder to each column with categorical data

label_encoder = LabelEncoder()
label_X_train[object_cols] =
label_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols] =
label_encoder.transform(X_valid[object_cols])

print("MAE (Label Encoding):")

print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))
6. Method 3: One-Hot Encoding:

 Definition:
o One-Hot Encoding creates new binary columns indicating the presence of each
possible value in the original column.
 When to Use:
o When the categorical variable does not have an ordinal relationship and has a
relatively low number of unique values.
 Example Code:

 We set handle_unknown='ignore' to avoid errors when the validation data

contains classes that aren't represented in the training data, and
 setting sparse=False ensures that the encoded columns are returned as a
numpy array (instead of a sparse matrix).

python
Copy code
from sklearn.preprocessing import OneHotEncoder

# Apply one-hot encoder to each column with categorical data

OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
OH_cols_train =
pd.DataFrame(OH_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid =
pd.DataFrame(OH_encoder.transform(X_valid[object_cols]))

# One-hot encoding removed index; put it back

OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Remove categorical columns (will replace with one-hot encoding)

num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

# Add one-hot encoded columns to numerical features

OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

print("MAE (One-Hot Encoding):")

print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))

7. Conclusion:

 Key Takeaways:
o Dropping Categorical Variables: Simple but may lose important
information.
o Label Encoding: Suitable for ordinal categorical variables.
o One-Hot Encoding: Suitable for nominal categorical variables with relatively
few unique values.
 Final Thoughts: Choose the appropriate method for handling categorical variables
based on the nature of your data and the specific requirements of your analysis.
Exercise and code with notes of this step:

Dropping Categorical Columns

Objective: Remove columns with categorical data and evaluate model performance.

python
Copy code
# Import necessary libraries and load data
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Read the data

X = pd.read_csv('../input/train.csv', index_col='Id')
X_test = pd.read_csv('../input/test.csv', index_col='Id')

# Remove rows with missing target, separate target from predictors

X.dropna(axis=0, subset=['SalePrice'], inplace=True)
y = X.SalePrice
X.drop(['SalePrice'], axis=1, inplace=True)

# To keep things simple, drop columns with missing values

cols_with_missing = [col for col in X.columns if X[col].isnull().any()]
X.drop(cols_with_missing, axis=1, inplace=True)
X_test.drop(cols_with_missing, axis=1, inplace=True)

# Break off validation set from training data

X_train, X_valid, y_train, y_valid = train_test_split(X, y,
train_size=0.8,
test_size=0.2,
random_state=0)

# Function to score the dataset using Random Forest Regressor

# Drop categorical columns in training and validation sets

drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

# Check MAE from dropping categorical columns

print("MAE from Approach 1 (Drop categorical variables):")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

Result: MAE from Approach 1 (Drop categorical variables): 17837.83

Ordinal Encoding

Objective: Use ordinal encoding for categorical variables and evaluate model performance.

python
Copy code
from sklearn.preprocessing import OrdinalEncoder

# Identify categorical columns

object_cols = [col for col in X_train.columns if X_train[col].dtype ==
"object"]

# Identify categorical columns that can be safely ordinal encoded

good_label_cols = [col for col in object_cols if
set(X_valid[col]).issubset(set(X_train[col]))]

# Identify problematic categorical columns that will be dropped

bad_label_cols = list(set(object_cols) - set(good_label_cols))

# Print categorical columns for ordinal encoding and columns to be dropped

print('Categorical columns that will be ordinal encoded:', good_label_cols)
print('\nCategorical columns that will be dropped from the dataset:',
bad_label_cols)

# Drop categorical columns that will not be encoded

label_X_train = X_train.drop(bad_label_cols, axis=1)
label_X_valid = X_valid.drop(bad_label_cols, axis=1)

# Apply ordinal encoder

ordinal_encoder = OrdinalEncoder()
label_X_train[good_label_cols] =
ordinal_encoder.fit_transform(X_train[good_label_cols])
label_X_valid[good_label_cols] =
ordinal_encoder.transform(X_valid[good_label_cols])

# Check MAE from ordinal encoding approach

print("MAE from Approach 2 (Ordinal Encoding):")
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))

Result: MAE from Approach 2 (Ordinal Encoding): 17098.02

Investigating Cardinality

Objective: Understand the cardinality of categorical variables.

python
Copy code
# Get number of unique entries in each column with categorical data
object_nunique = list(map(lambda col: X_train[col].nunique(), object_cols))
d = dict(zip(object_cols, object_nunique))

# Print number of unique entries by column, in ascending order

sorted(d.items(), key=lambda x: x[1])

Output:

css
Copy code
[('Street', 2), ('Utilities', 2), ('CentralAir', 2), ('LandSlope', 3),
('PavedDrive', 3), ('LotShape', 4), ('LandContour', 4), ('ExterQual', 4),
('KitchenQual', 4), ('MSZoning', 5), ('LotConfig', 5), ('BldgType', 5),
('ExterCond', 5), ('HeatingQC', 5), ('Condition2', 6), ('RoofStyle', 6),
('Foundation', 6), ('Heating', 6), ('Functional', 6), ('SaleCondition', 6),
('RoofMatl', 7), ('HouseStyle', 8), ('Condition1', 9), ('SaleType', 9),
('Exterior1st', 15), ('Exterior2nd', 16), ('Neighborhood', 25)]

Observations:

 Categorical variables have varying numbers of unique entries (cardinality).

 Some variables have high cardinality (>10), which may impact model performance and
dataset size if one-hot encoded.

One-Hot Encoding

Objective: Apply one-hot encoding to categorical variables with low cardinality and evaluate
model performance.

python
Copy code
from sklearn.preprocessing import OneHotEncoder

# Identify columns for one-hot encoding (low cardinality)

low_cardinality_cols = [col for col in object_cols if
X_train[col].nunique() < 10]

# Identify columns to be dropped (high cardinality)

high_cardinality_cols = list(set(object_cols) - set(low_cardinality_cols))

# Print columns for one-hot encoding and columns to be dropped

print('Categorical columns that will be one-hot encoded:',
low_cardinality_cols)
print('\nCategorical columns that will be dropped from the dataset:',
high_cardinality_cols)

# Initialize one-hot encoder and apply to low cardinality columns

OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
OH_cols_train =
pd.DataFrame(OH_encoder.fit_transform(X_train[low_cardinality_cols]))
OH_cols_valid =
pd.DataFrame(OH_encoder.transform(X_valid[low_cardinality_cols]))

# Indexing back to original indices

OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Drop categorical columns and concatenate with one-hot encoded columns

num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)

OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

# Ensure all columns have string type

OH_X_train.columns = OH_X_train.columns.astype(str)
OH_X_valid.columns = OH_X_valid.columns.astype(str)

# Check MAE from one-hot encoding approach

print("MAE from Approach 3 (One-Hot Encoding):")
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))

Result: MAE from Approach 3 (One-Hot Encoding): 17525.35

Hourglass Workout Program by Luisagiuliet 2
76% (21)
Hourglass Workout Program by Luisagiuliet 2
51 pages
12 Week Program: Summer Body Starts Now
87% (46)
12 Week Program: Summer Body Starts Now
70 pages
Read People Like A Book by Patrick King-Edited
57% (83)
Read People Like A Book by Patrick King-Edited
12 pages
Livingood, Blake - Livingood Daily Your 21-Day Guide To Experience Real Health
77% (13)
Livingood, Blake - Livingood Daily Your 21-Day Guide To Experience Real Health
260 pages
Cheat Code To The Universe
94% (79)
Cheat Code To The Universe
34 pages
Facial Gains Guide (001 081)
91% (45)
Facial Gains Guide (001 081)
81 pages
Curse of Strahd
95% (467)
Curse of Strahd
258 pages
The Psychiatric Interview - Daniel Carlat
91% (34)
The Psychiatric Interview - Daniel Carlat
473 pages
The Borax Conspiracy
91% (57)
The Borax Conspiracy
14 pages
The Secret Language of Attraction
86% (108)
The Secret Language of Attraction
278 pages
How To Develop and Write A Grant Proposal
83% (542)
How To Develop and Write A Grant Proposal
17 pages
Penis Enlargement Secret
60% (124)
Penis Enlargement Secret
12 pages
Workbook For The Body Keeps The Score
89% (53)
Workbook For The Body Keeps The Score
111 pages
Donald Trump & Jeffrey Epstein Rape Lawsuit and Affidavits
83% (1016)
Donald Trump & Jeffrey Epstein Rape Lawsuit and Affidavits
13 pages
KamaSutra Positions
78% (69)
KamaSutra Positions
55 pages
7 Hermetic Principles
93% (30)
7 Hermetic Principles
3 pages
27 Feedback Mechanisms Pogil Key
77% (13)
27 Feedback Mechanisms Pogil Key
6 pages
Frank Hammond - List of Demons
92% (92)
Frank Hammond - List of Demons
3 pages
Phone Codes
79% (28)
Phone Codes
5 pages
36 Questions That Lead To Love
91% (35)
36 Questions That Lead To Love
3 pages
How 2 Setup Trust
97% (307)
How 2 Setup Trust
3 pages
100 Questions To Ask Your Partner
78% (36)
100 Questions To Ask Your Partner
2 pages
The 36 Questions That Lead To Love - The New York Times
91% (35)
The 36 Questions That Lead To Love - The New York Times
3 pages
Satanic Calendar
25% (56)
Satanic Calendar
4 pages
The 36 Questions That Lead To Love - The New York Times
95% (21)
The 36 Questions That Lead To Love - The New York Times
3 pages
14 Easiest & Hardest Muscles To Build (Ranked With Solutions)
100% (8)
14 Easiest & Hardest Muscles To Build (Ranked With Solutions)
27 pages
Jeffrey Epstein39s Little Black Book Unredacted PDF
77% (13)
Jeffrey Epstein39s Little Black Book Unredacted PDF
95 pages
1001 Songs
70% (73)
1001 Songs
1,798 pages
The 4 Hour Workweek, Expanded and Updated by Timothy Ferriss - Excerpt
23% (954)
The 4 Hour Workweek, Expanded and Updated by Timothy Ferriss - Excerpt
38 pages
Zodiac Sign & Their Most Common Addictions
63% (30)
Zodiac Sign & Their Most Common Addictions
9 pages
Gear Box Design Assignment S2 2012
No ratings yet
Gear Box Design Assignment S2 2012
10 pages
Machine Learning
100% (2)
Machine Learning
136 pages
Missing Values
No ratings yet
Missing Values
3 pages
Machine Learning Techniques Lesson 1
No ratings yet
Machine Learning Techniques Lesson 1
9 pages
Slides on DataII
No ratings yet
Slides on DataII
26 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
12 pages
Data Wrangling and Preprocessing
100% (1)
Data Wrangling and Preprocessing
41 pages
DT - Missing Values
No ratings yet
DT - Missing Values
11 pages
Data Analytics lab manual
No ratings yet
Data Analytics lab manual
47 pages
Avinash DA 6
No ratings yet
Avinash DA 6
3 pages
Adsl Exp 3 2024
No ratings yet
Adsl Exp 3 2024
11 pages
Be A 65 Ads Exp 3
No ratings yet
Be A 65 Ads Exp 3
6 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
6 pages
EXP-12_IAIML
No ratings yet
EXP-12_IAIML
13 pages
Machine Learning Based Missing Data Imputation
No ratings yet
Machine Learning Based Missing Data Imputation
13 pages
Enhancing Missing Values Imputation through Transformer-Based Predictive Modeling
No ratings yet
Enhancing Missing Values Imputation through Transformer-Based Predictive Modeling
8 pages
AI351 Lecture 1 - Data Preprocessing
No ratings yet
AI351 Lecture 1 - Data Preprocessing
8 pages
Data - Preprocessing - 2
No ratings yet
Data - Preprocessing - 2
10 pages
Subset Selection Class Assignment
No ratings yet
Subset Selection Class Assignment
5 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
ML SELF UNIT 2
No ratings yet
ML SELF UNIT 2
20 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
6 pages
Missing Data Handling
No ratings yet
Missing Data Handling
19 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
Experiment No. 5: Objective
No ratings yet
Experiment No. 5: Objective
5 pages
handling missing values
No ratings yet
handling missing values
5 pages
platias2020-Greece
No ratings yet
platias2020-Greece
10 pages
Data Cleaning_Project work
No ratings yet
Data Cleaning_Project work
10 pages
Data Imputation for Missing Values
No ratings yet
Data Imputation for Missing Values
14 pages
The Complete Guide To Data Preprocessing
No ratings yet
The Complete Guide To Data Preprocessing
50 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
10 pages
Cse4020 ML Exp 1
No ratings yet
Cse4020 ML Exp 1
6 pages
3 -Missing Values-1
No ratings yet
3 -Missing Values-1
9 pages
Group A Assignment No2 Writeup
No ratings yet
Group A Assignment No2 Writeup
9 pages
EXP-2 ML
No ratings yet
EXP-2 ML
6 pages
DWM Exp 7
No ratings yet
DWM Exp 7
4 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Unit - 3 - R Programming
No ratings yet
Unit - 3 - R Programming
16 pages
Mida (AE)
No ratings yet
Mida (AE)
12 pages
FDA EXP2 E0323040
No ratings yet
FDA EXP2 E0323040
3 pages
Exp 01-B Feature Selection and Extraction
No ratings yet
Exp 01-B Feature Selection and Extraction
12 pages
DADM S5 Imputation of Missing Data
No ratings yet
DADM S5 Imputation of Missing Data
15 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
Centraltendencywhattoconsider 1
No ratings yet
Centraltendencywhattoconsider 1
6 pages
DA lab
No ratings yet
DA lab
27 pages
EXP-2
No ratings yet
EXP-2
6 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
10 pages
Data Cleaning Approaches in Machine Learning Algorithms
No ratings yet
Data Cleaning Approaches in Machine Learning Algorithms
8 pages
Data Analytics Lab Manual_250402_095326
No ratings yet
Data Analytics Lab Manual_250402_095326
58 pages
221FJ01056
No ratings yet
221FJ01056
4 pages
Chapter 1. Data Preparation (2)
No ratings yet
Chapter 1. Data Preparation (2)
74 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
Machine Learning Model Building
No ratings yet
Machine Learning Model Building
6 pages
2 PB
No ratings yet
2 PB
10 pages
Handling Missing Values in Python
No ratings yet
Handling Missing Values in Python
9 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
ADS_Exp2
No ratings yet
ADS_Exp2
4 pages
Machine File
No ratings yet
Machine File
27 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Pi Oks 1140 110650 en
No ratings yet
Pi Oks 1140 110650 en
2 pages
Construction Claim Management
50% (2)
Construction Claim Management
23 pages
Extend: Deepening My Concept of Globalization Activity 3: Think Skill Activities
No ratings yet
Extend: Deepening My Concept of Globalization Activity 3: Think Skill Activities
5 pages
Eaton 93ps 8 10 KW Technical Specification Rev001 en
No ratings yet
Eaton 93ps 8 10 KW Technical Specification Rev001 en
5 pages
Light Shadows and Reflections
No ratings yet
Light Shadows and Reflections
6 pages
Actuator Catalog
No ratings yet
Actuator Catalog
71 pages
Forecasting and Capacity Planning: Operations Management Training Program
No ratings yet
Forecasting and Capacity Planning: Operations Management Training Program
19 pages
Eie - Ee6301 DLC - Unit 1 Notes
No ratings yet
Eie - Ee6301 DLC - Unit 1 Notes
82 pages
Seminar 4 - Correlation and Regression Analysis
No ratings yet
Seminar 4 - Correlation and Regression Analysis
10 pages
Second Term Examination Physics Class 6.
No ratings yet
Second Term Examination Physics Class 6.
5 pages
Changelog
No ratings yet
Changelog
21 pages
Elegant Colorful Notes Paper Template
No ratings yet
Elegant Colorful Notes Paper Template
4 pages
Insulation Thickness
No ratings yet
Insulation Thickness
1 page
The Frustrating No
No ratings yet
The Frustrating No
11 pages
SR Date Time Program MOR/EVE Semester Corrse Code Course Title Teacher Name
No ratings yet
SR Date Time Program MOR/EVE Semester Corrse Code Course Title Teacher Name
1 page
Catalogo 5 KW 915 MHZ
No ratings yet
Catalogo 5 KW 915 MHZ
2 pages
BR-M775 SM-BH59: SM-RT79 SM-RT76
No ratings yet
BR-M775 SM-BH59: SM-RT79 SM-RT76
1 page
DTR Documents
No ratings yet
DTR Documents
138 pages
Book News: by Fernando A. Silva, and Marian P. Kazmierkowski
No ratings yet
Book News: by Fernando A. Silva, and Marian P. Kazmierkowski
2 pages
Time Duration and Volume of Salt Water As Alternative Energy Source To Light A Bulb
No ratings yet
Time Duration and Volume of Salt Water As Alternative Energy Source To Light A Bulb
14 pages
Connector Size: RJ-45 Connector Location: LAN1 Connector Location: USB1
No ratings yet
Connector Size: RJ-45 Connector Location: LAN1 Connector Location: USB1
30 pages
Lotus Emira Ebrochure
No ratings yet
Lotus Emira Ebrochure
8 pages
The Process of Research in Psychology 3rd Edition Dawn M. Mcbride 2024 scribd download
100% (8)
The Process of Research in Psychology 3rd Edition Dawn M. Mcbride 2024 scribd download
85 pages
Infineon-Application Note Applications For Depletion MOSFETs-AN-v01 00-EN
No ratings yet
Infineon-Application Note Applications For Depletion MOSFETs-AN-v01 00-EN
10 pages
Cramkshaft Main Bearimg Install
No ratings yet
Cramkshaft Main Bearimg Install
5 pages
3 ActivatingtheEnlightenmentCircuit
No ratings yet
3 ActivatingtheEnlightenmentCircuit
2 pages
18 Text Mining - Text Preprocessing
No ratings yet
18 Text Mining - Text Preprocessing
40 pages
(Ebook) Joint Structure and Function: A Comprehensive Analysis by Pamela K. Levangie, Cynthia C. Norkin, Michael D. Lewek ISBN 9780803658783, 0803658788 pdf download
100% (3)
(Ebook) Joint Structure and Function: A Comprehensive Analysis by Pamela K. Levangie, Cynthia C. Norkin, Michael D. Lewek ISBN 9780803658783, 0803658788 pdf download
55 pages
2024-2025 Course Guide 3
No ratings yet
2024-2025 Course Guide 3
46 pages