0% found this document useful (0 votes)

2 views7 pages

Experiment No. 1

The document outlines an experiment using pandas to compute statistical characteristics of a dataset, including methods for calculating sum, mean, and standard deviation. It provides examples of creating a DataFrame and applying various descriptive statistics functions. Additionally, it explains the use of the describe() function for summarizing data and the inclusion of different column types in the summary.

Uploaded by

tejashreegurav243

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views7 pages

Experiment No. 1

Uploaded by

tejashreegurav243

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 7

Experiment No.

: 1

Title: Program to get statistical characteristics of dataset using pandas

Theory: A large number of methods collectively compute descriptive statistics and other related
operations on DataFrame. Most of these are aggregations like sum(), mean(), but some of them,
like sumsum(), produce an object of the same size. Generally speaking, these methods take
an axis argument, just like ndarray. {sum, std, ...}, but the axis can be specified by name or
integer
 DataFrame − “index” (axis=0, default), “columns” (axis=1)
Let us create a DataFrame and use this object throughout this assignment for all the operations.
Example
import pandas as pd
import numpy as np

#Create a Dictionary of series

d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df
Its output is as follows −
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
7 34 Lee 3.78
8 40 David 2.98
9 30 Gasper 4.80
10 51 Betina 4.10
11 46 Andres 3.65

1
sum()
Returns the sum of the values for the requested axis. By default, axis is index (axis=0).
import pandas as pd
import numpy as np

#Create a Dictionary of series

#Create a DataFrame
df = pd.DataFrame(d)
print df.sum()
Its output is as follows −
Age 382
Name TomJamesRickyVinSteveSmithJackLeeDavidGasperBe...
Rating 44.92
dtype: object
Each individual column is added individually (Strings are appended).
axis=1
This syntax will give the output as shown below.
import pandas as pd
import numpy as np

#Create a Dictionary of series

#Create a DataFrame
df = pd.DataFrame(d)
print df.sum(1)
Its output is as follows −
0 29.23
1 29.24
2 28.98
3 25.56
4 33.20
5 33.60

2
6 26.80
7 37.78
8 42.98
9 34.80
10 55.10
11 49.65
dtype: float64
mean()
Returns the average value
import pandas as pd
import numpy as np

#Create a Dictionary of series

#Create a DataFrame
df = pd.DataFrame(d)
print df.mean()
Its output is as follows −
Age 31.833333
Rating 3.743333
dtype: float64
std()
Returns the Bressel standard deviation of the numerical columns.
import pandas as pd
import numpy as np

#Create a Dictionary of series

#Create a DataFrame
df = pd.DataFrame(d)
print df.std()
Its output is as follows −
Age 9.232682
Rating 0.661628

3
dtype: float64
Functions & Description
Let us now understand the functions under Descriptive Statistics in Python Pandas. The
following table list down the important functions −

Sr.No. Function Description

1 count() Number of non-null observations

2 sum() Sum of values

3 mean() Mean of Values

4 median() Median of Values

5 mode() Mode of values

6 std() Standard Deviation of the Values

7 min() Minimum Value

8 max() Maximum Value

9 abs() Absolute Value

10 prod() Product of Values

11 cumsum() Cumulative Sum

12 cumprod() Cumulative Product

Note − Since DataFrame is a Heterogeneous data structure. Generic operations don’t work with
all functions.
 Functions like sum(), cumsum() work with both numeric and character (or) string data
elements without any error. Though n practice, character aggregations are never used
generally, these functions do not throw any exception.
 Functions like abs(), cumprod() throw exception when the DataFrame contains character
or string data because such operations cannot be performed.
Summarizing Data
The describe() function computes a summary of statistics pertaining to the DataFrame columns.
import pandas as pd
import numpy as np

#Create a Dictionary of series

d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),

4
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df.describe()
Its output is as follows −
Age Rating
count 12.000000 12.000000
mean 31.833333 3.743333
std 9.232682 0.661628
min 23.000000 2.560000
25% 25.000000 3.230000
50% 29.500000 3.790000
75% 35.500000 4.132500
max 51.000000 4.800000
This function gives the mean, std and IQR values. And, function excludes the character
columns and given summary about numeric columns. 'include' is the argument which is used to
pass necessary information regarding what columns need to be considered for summarizing.
Takes the list of values; by default, 'number'.

 object − Summarizes String columns

 number − Summarizes Numeric columns
 all − Summarizes all columns together (Should not pass it as a list
value) Now, use the following statement in the program and check the output −
import pandas as pd
import numpy as np

#Create a Dictionary of series

#Create a DataFrame
df = pd.DataFrame(d)
print df.describe(include=['object'])

Its output is as follows −

Name
count 12
unique 12
top Ricky
freq 1

5
Now, use the following statement and check the output −
import pandas as pd
import numpy as np

#Create a Dictionary of series

#Create a DataFrame
df = pd.DataFrame(d)
print df. describe(include='all')
Its output is as follows −
Age Name Rating
count 12.000000 12 12.000000
uniq
ue
NaN
12
NaN
top
NaN
Rick
y
NaN
freq
NaN
1
NaN
mean 31.833333 NaN 3.743333
std 9.232682 NaN 0.661628
min 23.000000 NaN 2.560000
25% 25.000000 NaN 3.230000
50% 29.500000 NaN 3.790000
75% 35.500000 NaN 4.132500
max 51.000000 NaN 4.800000

6
Observations: Thus students are able to write a program to get statistical
characteristics of dataset using pandas.

Series and Pandas Methods
No ratings yet
Series and Pandas Methods
5 pages
Pandas
No ratings yet
Pandas
27 pages
Python Pandas II Notes XII
No ratings yet
Python Pandas II Notes XII
20 pages
609008987-EDA-Lab-Manual
No ratings yet
609008987-EDA-Lab-Manual
93 pages
Ip Practical File
No ratings yet
Ip Practical File
23 pages
2023 Data Analysis and Visualization Using Python
100% (2)
2023 Data Analysis and Visualization Using Python
9 pages
Pandas Cheat Sheet........
No ratings yet
Pandas Cheat Sheet........
11 pages
ADS LAB Merged
No ratings yet
ADS LAB Merged
86 pages
Data Science Practicals - Ipynb
No ratings yet
Data Science Practicals - Ipynb
54 pages
AIML LAB MANAUAL R23
100% (1)
AIML LAB MANAUAL R23
10 pages
IP Practical File - Reference
No ratings yet
IP Practical File - Reference
98 pages
Pandas 2
No ratings yet
Pandas 2
17 pages
Data Sci
No ratings yet
Data Sci
29 pages
12 some application of trigonometry
No ratings yet
12 some application of trigonometry
72 pages
ashjish
No ratings yet
ashjish
8 pages
Data Science Practical Book - Ipynb
No ratings yet
Data Science Practical Book - Ipynb
21 pages
DSDBAAssignment2_SUMEET (1)
No ratings yet
DSDBAAssignment2_SUMEET (1)
8 pages
DAV Practicals
No ratings yet
DAV Practicals
26 pages
guide-pandas
No ratings yet
guide-pandas
166 pages
GEC PRACTICALS
No ratings yet
GEC PRACTICALS
31 pages
ML-Lab-A1-A4
No ratings yet
ML-Lab-A1-A4
6 pages
EDA Lab Manual
100% (2)
EDA Lab Manual
93 pages
Vanshika Goyal Gec Practicals
No ratings yet
Vanshika Goyal Gec Practicals
31 pages
DataFrame Statistics
No ratings yet
DataFrame Statistics
41 pages
Lecture_2_center_tendency(Answers)
No ratings yet
Lecture_2_center_tendency(Answers)
5 pages
Descriptive Statistics With Pandas: Data Handling Using Pandas - II
100% (1)
Descriptive Statistics With Pandas: Data Handling Using Pandas - II
37 pages
Pandas Dataframe2
No ratings yet
Pandas Dataframe2
12 pages
Python Pandas-DataFrames Complete - Jupyter Notebook
No ratings yet
Python Pandas-DataFrames Complete - Jupyter Notebook
34 pages
XII - Informatics Practices (LAB MANUAL)
100% (1)
XII - Informatics Practices (LAB MANUAL)
42 pages
1.5
No ratings yet
1.5
39 pages
DAV Practical
No ratings yet
DAV Practical
12 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Practical File 2024
No ratings yet
Practical File 2024
25 pages
UNIT-4 Important Q-A
No ratings yet
UNIT-4 Important Q-A
28 pages
Ai Tools and Applications-Lab
No ratings yet
Ai Tools and Applications-Lab
33 pages
Data Science Programs
No ratings yet
Data Science Programs
6 pages
CV Calculation
71% (7)
CV Calculation
7 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
IP Practical File Project
No ratings yet
IP Practical File Project
60 pages
PythonForMachineLearning
No ratings yet
PythonForMachineLearning
66 pages
Answers Practical File
No ratings yet
Answers Practical File
19 pages
Dsbda Assignment 1
No ratings yet
Dsbda Assignment 1
5 pages
Ip Project
No ratings yet
Ip Project
27 pages
Ip Project Work 2
No ratings yet
Ip Project Work 2
52 pages
Tutorial Data Visualization Pandas Matplotlib Seaborn
No ratings yet
Tutorial Data Visualization Pandas Matplotlib Seaborn
32 pages
Practical File Python
No ratings yet
Practical File Python
25 pages
FDA_BATCH2PROGRAM
No ratings yet
FDA_BATCH2PROGRAM
18 pages
ml lab
No ratings yet
ml lab
14 pages
Practical_File (1)
No ratings yet
Practical_File (1)
19 pages
Class Return & Risk-Part-2
No ratings yet
Class Return & Risk-Part-2
24 pages
numpy_dataframe
No ratings yet
numpy_dataframe
12 pages
DS Sem 4
No ratings yet
DS Sem 4
76 pages
Complex Variables
No ratings yet
Complex Variables
15 pages
Week2 lab
No ratings yet
Week2 lab
8 pages
4 PythonPandas
No ratings yet
4 PythonPandas
8 pages
vertopal.com_12_Pandas
No ratings yet
vertopal.com_12_Pandas
14 pages
Journal of Biomechanics: Sarah Jane Hobbs, Jim Richards, Hilary M. Clayton
No ratings yet
Journal of Biomechanics: Sarah Jane Hobbs, Jim Richards, Hilary M. Clayton
9 pages
Data Science With Python
No ratings yet
Data Science With Python
12 pages
GE Python Visualization 2023
No ratings yet
GE Python Visualization 2023
16 pages
Ge Sem II Dav Upc 2344001201 Sl. No. Qp. 2012 July 2023
No ratings yet
Ge Sem II Dav Upc 2344001201 Sl. No. Qp. 2012 July 2023
16 pages
Developing athlete monitoring systems in team-sports- data analysis and visualization
No ratings yet
Developing athlete monitoring systems in team-sports- data analysis and visualization
26 pages
15.BLOOMS TAXONOMY sudha mam
No ratings yet
15.BLOOMS TAXONOMY sudha mam
9 pages
A Deeper Look at Machine Learning-Based Cryptanalysis
No ratings yet
A Deeper Look at Machine Learning-Based Cryptanalysis
32 pages
!!new Words
No ratings yet
!!new Words
68 pages
Unit 5 Descriptive Statistics
No ratings yet
Unit 5 Descriptive Statistics
7 pages
Ad3411 - Student
No ratings yet
Ad3411 - Student
27 pages
Maths Project
No ratings yet
Maths Project
5 pages
BTest 2 - Physics
No ratings yet
BTest 2 - Physics
8 pages
Quantitative Methods: "Crafting Your Cfa Triumph With Effective Summaries."
No ratings yet
Quantitative Methods: "Crafting Your Cfa Triumph With Effective Summaries."
17 pages
unit-1 (1)
No ratings yet
unit-1 (1)
55 pages
Practical File Question 28.09.2022
No ratings yet
Practical File Question 28.09.2022
15 pages
set 4
No ratings yet
set 4
2 pages
Branch Cuts For Complex Elementary Functions
No ratings yet
Branch Cuts For Complex Elementary Functions
24 pages
AP Statistics Chapter 23 Homework Answers
100% (1)
AP Statistics Chapter 23 Homework Answers
4 pages
Solids and Fluids PDF
No ratings yet
Solids and Fluids PDF
26 pages
Shayak
No ratings yet
Shayak
6 pages
Lab Manual 1
No ratings yet
Lab Manual 1
90 pages
CBSE Class 8 Maths Chapter 4 Data Handling Notes Free PDF
No ratings yet
CBSE Class 8 Maths Chapter 4 Data Handling Notes Free PDF
3 pages
20.solution QMT425 429 Finals Julai 2017
No ratings yet
20.solution QMT425 429 Finals Julai 2017
9 pages
Calculus Reflection
100% (3)
Calculus Reflection
2 pages
Chapter 1-Phy220
No ratings yet
Chapter 1-Phy220
57 pages
Mastering JMP Definitive Screening Designs
No ratings yet
Mastering JMP Definitive Screening Designs
39 pages
Ma 4111: Advanced Calculus Solutions To Homework Assignment 3
No ratings yet
Ma 4111: Advanced Calculus Solutions To Homework Assignment 3
3 pages
Sat Study Guide Problem Solving Data Analysis
No ratings yet
Sat Study Guide Problem Solving Data Analysis
18 pages
Tabel Bunga Ekonomi Teknik
No ratings yet
Tabel Bunga Ekonomi Teknik
32 pages
MIT18.650. Statistics For Applications Fall 2016. Problem Set 2
No ratings yet
MIT18.650. Statistics For Applications Fall 2016. Problem Set 2
3 pages
MIST MSc-CSE Syllabus
100% (1)
MIST MSc-CSE Syllabus
22 pages
Practice Exercise For Data Entry
No ratings yet
Practice Exercise For Data Entry
11 pages
For 30 marks _S.Y _Sample_ QP_Template_SEM V _Set-I -
No ratings yet
For 30 marks _S.Y _Sample_ QP_Template_SEM V _Set-I -
1 page
Java Interview Questions - Tutorialspoint
No ratings yet
Java Interview Questions - Tutorialspoint
18 pages
2 2005
100% (1)
2 2005
13 pages
Averaging Nonuniform Flow For A Purpose
No ratings yet
Averaging Nonuniform Flow For A Purpose
10 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Experiment No. 1

Uploaded by

Experiment No. 1

Uploaded by

Experiment No.

Title: Program to get statistical characteristics of dataset using pandas

#Create a Dictionary of series

#Create a Dictionary of series

#Create a Dictionary of series

#Create a Dictionary of series

#Create a Dictionary of series

Sr.No. Function Description

1 count() Number of non-null observations

2 sum() Sum of values

3 mean() Mean of Values

4 median() Median of Values

5 mode() Mode of values

6 std() Standard Deviation of the Values

7 min() Minimum Value

8 max() Maximum Value

9 abs() Absolute Value

10 prod() Product of Values

11 cumsum() Cumulative Sum

12 cumprod() Cumulative Product

#Create a Dictionary of series

 object − Summarizes String columns

#Create a Dictionary of series

Its output is as follows −

#Create a Dictionary of series

You might also like