0% found this document useful (0 votes)

52 views

1 Import and Handling Data - Jupyter Notebook

The document discusses various ways to import and work with data in Pandas including: 1) Importing CSV data using pd.read_csv and specifying options like skiprows, nrows, na_values, and parse_dates. 2) Accessing and viewing data using commands like data.head(), data.tail(), data.columns, data.shape, and data.values. 3) Handling missing data through functions like data.isnull(), data.dropna(), and data.fillna() to identify, remove, or replace missing values.

Uploaded by

venkatesh m

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

52 views

1 Import and Handling Data - Jupyter Notebook

Uploaded by

venkatesh m

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Importing Data ¶

In [ ]: # To check the existing working directory

In [2]: import os

In [4]: os.getcwd()

Out[4]: 'C:\\Users\\rgandyala\\4 Data processing and Stats'

In [6]: import pandas as pd

In [ ]: # To change the working directory

In [6]: import os # OS module provides a way of using operating system dependent function
import pandas as pd
os.chdir("C:\\Users\\rgandyala\\4 Data processing and Stats")

In [5]: # Now place the data set in working directory and use below code to import the da

In [7]: csv1 = pd.read_csv("mba.csv")

#pd.read_CSV("C:\\Users\\rgandyala\\4 Data processing and Stats\\mba.csv")

In [8]: csv1

...

In [6]: # pd.read_csv is command use to import the data

Different ways of Importing csv

pd.read_csv("Iris.csv") is used to load our data into python

pd.read_csv("Iris.csv", skiprows=1) # Skips the first row

pd.read_csv("Iris.csv", header=1) # Skips header

pd.read_csv("Iris.csv", nrows=2) # Reading only first 2 rows

pd.read_csv("Iris.csv", na_values=["n.a.", "not available"]) # Telling what NA values are to python

pd.read_csv("Iris.csv",parse_dates=['day']) # As date column is taken as strin g we will to take as
Date dat type

In [7]: # if working directory is not set we can access the data directly from any folder

In [9]: import pandas as pd # data frame

import numpy as np # array , linear algebra ,Fourier Transfora,

In [10]: data = pd.read_csv("D:\\Course\\Python\\Datasets\\Data.csv")

In [11]: # To view the data

data

...

In [26]: data

#filename['columnname']

...

In [47]: # number of Rows

len(data)

Out[47]: 10

In [48]: # check the number of columns

len(data.columns)

...

In [21]: # To read the column in data set

data["Country"]

...

In [27]: # Viewing Data

data
...
In [28]:
data.head() # Displays first 5 rows -

#data.head(4)

Out[28]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

In [24]: data.tail() # Displays last 6 rows - we can mention the required row numbers

#data.tail(4)

Out[24]: Country Age Salary Purchased

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

In [26]: data.columns # Names of the columns

Out[26]: Index(['Country', 'Age', 'Salary', 'Purchased'], dtype='object')

In [28]: data.shape # Number of rows and columns

Out[28]: (10, 4)

In [30]: data.values # Displays values of data

...

In [32]: data.dtypes # Data Type of all columns

...

In [33]: data.info() #Information about dataset

...

Data Selection

Pandas has different data Access methods

As usual we use indexing operators"[]" and attribute operator "." for quick and easy access

.loc() which is for label based indexing - can search value based on values

.iloc() which is for integer based - can search value based on indexing

syntax - file[row,columns]

In [29]: data

Out[29]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

In [34]: data.loc[0,"Salary"] #loc[row,columns]

...

In [35]: data.loc[data["Purchased"]=="Yes"]
...

In [30]: data

...

In [37]: X = data.iloc[:, :-1].values

In [38]: X

...

In [39]: # To identiy the missing values - True means we have missing values in Data
In [40]: data.isnull()

Out[40]: Country Age Salary Purchased

0 False False False False

1 False False False False

2 False False False False

3 False False False False

4 False False True False

5 False False False False

6 False True False False

7 False False False False

8 False False False False

9 False False False False

In [41]: data.isnull().any()#True -missing value is present, #Flase missing value is not p

...

In [42]: data.isnull().sum()#count of missing values in a column

...

In [50]: # To remove the columns we can us del or drop command

data

Out[50]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

In [51]: del data['Country']

In [52]: data

...

In [53]: # To remove the Row from Data

data.drop(0)

Out[53]: Age Salary Purchased

1 27.0 48000.0 Yes

2 30.0 54000.0 No

3 38.0 61000.0 No

4 40.0 NaN Yes

5 35.0 58000.0 Yes

6 NaN 52000.0 No

7 48.0 79000.0 Yes

8 50.0 83000.0 No

9 37.0 67000.0 Yes

In [56]: # To Remove the columns

data.drop("Age",axis=1,inplace=True)#column

In [57]: data

...

In [58]: data = pd.read_csv("D:\\Course\\Python\\Datasets\\Data.csv")

In [59]: # To replace the missing values we can user fillna command

In [60]: data

Out[60]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

In [61]: data.fillna(12) # All the missing values will be replaced by 12

Out[61]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 12.0 Yes

5 France 35.0 58000.0 Yes

6 Spain 12.0 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

In [63]: data = pd.read_csv("D:\\Course\\Python\\Datasets\\Data.csv")
data

Out[63]: Country Age Salary Purchased

0 France 44.0 72000.0 No

1 Spain 27.0 48000.0 Yes

2 Germany 30.0 54000.0 No

3 Spain 38.0 61000.0 No

4 Germany 40.0 NaN Yes

5 France 35.0 58000.0 Yes

6 Spain NaN 52000.0 No

7 France 48.0 79000.0 Yes

8 Germany 50.0 83000.0 No

9 France 37.0 67000.0 Yes

In [66]: # Drop rows that are complete missing all data

data.dropna()
...

In [68]: data = pd.read_csv("D:\\Course\\Python\\Datasets\\Data.csv")

In [69]: # To Drop the columns of missing values

In [71]: #Drop columns with missing data

data.dropna(axis=1)

...

In [72]: data = pd.read_csv("D:\\Course\\Python\\Datasets\\Data.csv")

In [73]: # To Replace the missing values with mean or median

data.fillna(data.mean(), inplace=True)

In [74]: data

...

In [75]: # we can also replace value with individual Columns

In [76]: data = pd.read_csv("D:\\Course\\Python\\Datasets\\Data.csv")

In [77]: data['Age'].fillna(data['Age'].mean(), inplace=True)

In [78]: data

...

In [79]: data['Salary'].fillna(data['Salary'].mean(), inplace=True)

In [80]: data

...

In [ ]:

Machine Learning Project Problem 1 Jupyter Notebook PDF
100% (5)
Machine Learning Project Problem 1 Jupyter Notebook PDF
85 pages
How To Start Internet Riversweeps Business
No ratings yet
How To Start Internet Riversweeps Business
9 pages
Cisco CCNP Security Core Study Plan
No ratings yet
Cisco CCNP Security Core Study Plan
10 pages
13-9-23 Data Pre-Processing - Jupyter Notebook
No ratings yet
13-9-23 Data Pre-Processing - Jupyter Notebook
6 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Day 18-9-2023 - Jupyter Notebook
No ratings yet
Day 18-9-2023 - Jupyter Notebook
8 pages
Experiment 2
No ratings yet
Experiment 2
5 pages
aimllab1
No ratings yet
aimllab1
1 page
Dwdm-Lab Manual
No ratings yet
Dwdm-Lab Manual
39 pages
Pandas - Datastructures
No ratings yet
Pandas - Datastructures
19 pages
Decision Tree
No ratings yet
Decision Tree
12 pages
Machine Learning Program
No ratings yet
Machine Learning Program
12 pages
Practical 1 52
No ratings yet
Practical 1 52
4 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
SPPUML3
No ratings yet
SPPUML3
12 pages
Basic Data Processing with Pandas
No ratings yet
Basic Data Processing with Pandas
29 pages
graphs using matplotlib
No ratings yet
graphs using matplotlib
23 pages
Data Science Practicals - Ipynb
No ratings yet
Data Science Practicals - Ipynb
54 pages
Load Dataset: Import As
No ratings yet
Load Dataset: Import As
8 pages
Praktikum Modul 3
No ratings yet
Praktikum Modul 3
5 pages
AD3301 DEV Lab Manual
No ratings yet
AD3301 DEV Lab Manual
26 pages
Loading The Dataset: 'Churn - Modelling - CSV'
No ratings yet
Loading The Dataset: 'Churn - Modelling - CSV'
6 pages
Practical File Questions With Answers
No ratings yet
Practical File Questions With Answers
7 pages
Data Analysis and Visualization Using Python Libraries and Streamlit - RTF Pre Read Materials
No ratings yet
Data Analysis and Visualization Using Python Libraries and Streamlit - RTF Pre Read Materials
29 pages
Ip Worksheet 3 - Q'S
No ratings yet
Ip Worksheet 3 - Q'S
6 pages
Human Activity Recognition Using Smartphone Data
No ratings yet
Human Activity Recognition Using Smartphone Data
18 pages
Chapter1.2 PythonPandas2
No ratings yet
Chapter1.2 PythonPandas2
38 pages
P03 Introduction To Pandas Ans
No ratings yet
P03 Introduction To Pandas Ans
45 pages
04 Introduction To Python-1
No ratings yet
04 Introduction To Python-1
29 pages
Sales
No ratings yet
Sales
7 pages
DATA MINING LAB MANAUL
No ratings yet
DATA MINING LAB MANAUL
32 pages
Analysing NBA DATA
No ratings yet
Analysing NBA DATA
13 pages
Practical Record 2 PYTHON AND SQL PROGRAMS - 2023
No ratings yet
Practical Record 2 PYTHON AND SQL PROGRAMS - 2023
76 pages
Chapter 2 Data Handling using pandas - I(Series)
No ratings yet
Chapter 2 Data Handling using pandas - I(Series)
13 pages
12th IP PRACTICALS
No ratings yet
12th IP PRACTICALS
18 pages
Practical Record Programs - Solutions
No ratings yet
Practical Record Programs - Solutions
23 pages
Brush Up Python: 0.1 1. Basics
No ratings yet
Brush Up Python: 0.1 1. Basics
10 pages
Final Practical File 2022-23
No ratings yet
Final Practical File 2022-23
87 pages
Salary Prediction LinearRegression
100% (1)
Salary Prediction LinearRegression
7 pages
BigMart Sales Data Analysis
No ratings yet
BigMart Sales Data Analysis
16 pages
IP- CAPSULE
No ratings yet
IP- CAPSULE
17 pages
Pandas
No ratings yet
Pandas
27 pages
Advanced Python Unit5 Pandas
No ratings yet
Advanced Python Unit5 Pandas
24 pages
228 Sakshi Pahade Lab Manual 5
No ratings yet
228 Sakshi Pahade Lab Manual 5
13 pages
Import As Import As Import As: "Default - CSV"
No ratings yet
Import As Import As Import As: "Default - CSV"
9 pages
Experiment 8
No ratings yet
Experiment 8
9 pages
B Dummy Variables
No ratings yet
B Dummy Variables
15 pages
DS-Food
No ratings yet
DS-Food
23 pages
12 IP Practical Exampl
No ratings yet
12 IP Practical Exampl
6 pages
Tutorial Data Visualization Pandas Matplotlib Seaborn
No ratings yet
Tutorial Data Visualization Pandas Matplotlib Seaborn
32 pages
Fundamentals of Programming - Lecture 10
No ratings yet
Fundamentals of Programming - Lecture 10
26 pages
Ip Practical
No ratings yet
Ip Practical
23 pages
Unit 5 Descriptive Statistics
No ratings yet
Unit 5 Descriptive Statistics
7 pages
Practical File IP Class 12 2024 25 Sharing Removed
No ratings yet
Practical File IP Class 12 2024 25 Sharing Removed
29 pages
12th Practical
No ratings yet
12th Practical
21 pages
Billones_SebastianLuise_Week3Exercise00Series
No ratings yet
Billones_SebastianLuise_Week3Exercise00Series
5 pages
Solutions For Reference Practical Questions
No ratings yet
Solutions For Reference Practical Questions
6 pages
Python Assignment 1.ipynb - Colaboratory
No ratings yet
Python Assignment 1.ipynb - Colaboratory
3 pages
Import As: Pandas PD Titanic - Data PD - Read - CSV Titanic - Data - Head
No ratings yet
Import As: Pandas PD Titanic - Data PD - Read - CSV Titanic - Data - Head
12 pages
Practical File Python
No ratings yet
Practical File Python
25 pages
G Pandey Practical
No ratings yet
G Pandey Practical
33 pages
Math Reproducibles - Grade 2
From Everand
Math Reproducibles - Grade 2
Vicky Shiotsu
3.5/5 (3)
7 Looping Statements (While and For)
No ratings yet
7 Looping Statements (While and For)
5 pages
2 Basic of Python - Functions
No ratings yet
2 Basic of Python - Functions
3 pages
3 SVM - Jupyter Notebook
No ratings yet
3 SVM - Jupyter Notebook
4 pages
1 Basics of Python
No ratings yet
1 Basics of Python
6 pages
6 XG Boost - Jupyter Notebook
100% (1)
6 XG Boost - Jupyter Notebook
3 pages
Tuple
No ratings yet
Tuple
4 pages
Label Encoders - Jupyter Notebook
No ratings yet
Label Encoders - Jupyter Notebook
3 pages
2 MLR New - Jupyter Notebook
No ratings yet
2 MLR New - Jupyter Notebook
3 pages
Hirerachical Clustering - Jupyter Notebook
No ratings yet
Hirerachical Clustering - Jupyter Notebook
4 pages
1 KNN - Jupyter Notebook
No ratings yet
1 KNN - Jupyter Notebook
3 pages
2.basic Statistics - Jupyter Notebook
100% (1)
2.basic Statistics - Jupyter Notebook
7 pages
5 Random Forest - Jupyter Notebook
No ratings yet
5 Random Forest - Jupyter Notebook
2 pages
1 Simple Linear Regression
No ratings yet
1 Simple Linear Regression
9 pages
BE ENC Syllabus 2019
No ratings yet
BE ENC Syllabus 2019
142 pages
EEM Pillar Detailed Presentation
100% (2)
EEM Pillar Detailed Presentation
99 pages
Resume-Ajit-kumar-Gupta-1
No ratings yet
Resume-Ajit-kumar-Gupta-1
10 pages
Common Issues and Their Solution When Working With EP4CE6E22C8N FPGA
No ratings yet
Common Issues and Their Solution When Working With EP4CE6E22C8N FPGA
7 pages
Dynamic Voltage Regulator Operation With Demand Side Management For Voltage Control
No ratings yet
Dynamic Voltage Regulator Operation With Demand Side Management For Voltage Control
6 pages
Ae4440y 3
No ratings yet
Ae4440y 3
1 page
Template 1 - For Eim
No ratings yet
Template 1 - For Eim
2 pages
MSC Thesis Ofosu Robert Agyare
No ratings yet
MSC Thesis Ofosu Robert Agyare
138 pages
ZXCTN System Routine Maintenance: Training Manual
No ratings yet
ZXCTN System Routine Maintenance: Training Manual
65 pages
397 1.smart Fish Tank Using Iot
No ratings yet
397 1.smart Fish Tank Using Iot
4 pages
DXSR-1504 Ec
No ratings yet
DXSR-1504 Ec
2 pages
Synopsis Sportsclub
100% (1)
Synopsis Sportsclub
7 pages
Working Capital Mangement
No ratings yet
Working Capital Mangement
92 pages
Tape EQ
No ratings yet
Tape EQ
4 pages
01 Ab Initio Advance Concepts E2
No ratings yet
01 Ab Initio Advance Concepts E2
152 pages
Box-Corer T-Bar System - Issue 2
No ratings yet
Box-Corer T-Bar System - Issue 2
2 pages
CV Draft Himanshu
No ratings yet
CV Draft Himanshu
1 page
Lecture 1 4Emerging Trends in Entrepreneurship
No ratings yet
Lecture 1 4Emerging Trends in Entrepreneurship
59 pages
EN Operating Instructions VEGAPOINT 21 Transistor (NPN PNP)
No ratings yet
EN Operating Instructions VEGAPOINT 21 Transistor (NPN PNP)
48 pages
Exodus Headphones - Manual
No ratings yet
Exodus Headphones - Manual
24 pages
(MS-ADFSOD) : Active Directory Federation Services (AD FS) Protocols
No ratings yet
(MS-ADFSOD) : Active Directory Federation Services (AD FS) Protocols
30 pages
Noaa Satellite Images With SDR
No ratings yet
Noaa Satellite Images With SDR
24 pages
Cisco Content Security Virtual Appliance Installation Guide: Last Updated: September 24, 2020
No ratings yet
Cisco Content Security Virtual Appliance Installation Guide: Last Updated: September 24, 2020
30 pages
CS Project Front Page FINAL JANA
No ratings yet
CS Project Front Page FINAL JANA
4 pages
Slide Cam Pulley: Instructions Manual
No ratings yet
Slide Cam Pulley: Instructions Manual
5 pages
Radiodetection Rd8000 Operation Manual
No ratings yet
Radiodetection Rd8000 Operation Manual
52 pages
5.1 Fineness Developement
No ratings yet
5.1 Fineness Developement
7 pages
EWS Bluegiga Bluetooth Example
No ratings yet
EWS Bluegiga Bluetooth Example
5 pages