0% found this document useful (0 votes)

33 views

EDA - Session-4 - Numerical Data Analysis

The document discusses analyzing and summarizing numerical data from a visa application dataset. It imports necessary packages, reads in the data, and examines columns. Descriptive statistics like count, mean, median, min, max, and percentiles are calculated for numerical columns including number of employees, year of establishment, and prevailing wage. The results are displayed together to summarize the key characteristics of the numerical fields in the dataset.

Uploaded by

jeeshu048

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

33 views

EDA - Session-4 - Numerical Data Analysis

Uploaded by

jeeshu048

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

In [1]: #Import packages and read the data

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

path=r"C:\Users\omkar\OneDrive\Documents\Data science\Naresh IT\Datafiles\Vi
visa_df=pd.read_csv(path)
visa_df.head(3)

Out[1]: case_id continent education_of_employee has_job_experience requires_job_training no_o

0 EZYV01 Asia High School N N

1 EZYV02 Asia Master's Y N

2 EZYV03 Asia Bachelor's N Y

 

In [2]: visa_df.columns

Out[2]: Index(['case_id', 'continent', 'education_of_employee', 'has_job_experienc

e',
'requires_job_training', 'no_of_employees', 'yr_of_estab',
'region_of_employment', 'prevailing_wage', 'unit_of_wage',
'full_time_position', 'case_status'],
dtype='object')

In [3]: visa_df.select_dtypes(exclude='object').columns

Out[3]: Index(['no_of_employees', 'yr_of_estab', 'prevailing_wage'], dtype='objec

t')

𝑝𝑟𝑒𝑣𝑎𝑖𝑙𝑖𝑛𝑔𝑤𝑎𝑔𝑒
In the numerical analysis
mean median std count 25p 50p

In [4]: visa_df['prevailing_wage']

Out[4]: 0 592.2029
1 83425.6500
2 122996.8600
3 83434.0300
4 149907.3900
...
25475 77092.5700
25476 279174.7900
25477 146298.8500
25478 86154.7700
25479 70876.9100
Name: prevailing_wage, Length: 25480, dtype: float64

𝑐𝑜𝑢𝑛𝑡
In [5]: len(visa_df['prevailing_wage'])

Out[5]: 25480

In [6]: visa_df['prevailing_wage'].count()

Out[6]: 25480

𝑚𝑒𝑎𝑛
In [7]: visa_df['prevailing_wage'].mean() # pandas

Out[7]: 74455.81459209183

In [8]: np.mean(visa_df['prevailing_wage'])

Out[8]: 74455.81459209183

𝑚𝑒𝑑𝑎𝑖𝑛
In [9]: visa_df['prevailing_wage'].median()

Out[9]: 70308.20999999999

In [10]: np.median(visa_df['prevailing_wage'])

Out[10]: 70308.20999999999

𝑚𝑎𝑥
In [11]: visa_df['prevailing_wage'].max()

Out[11]: 319210.27

In [12]: np.max(visa_df['prevailing_wage'])

Out[12]: 319210.27

𝑚𝑖𝑛
In [13]: visa_df['prevailing_wage'].min()

Out[13]: 2.1367

In [14]: np.min(visa_df['prevailing_wage'])

Out[14]: 2.1367

𝑠𝑡𝑑
In [16]: visa_df['prevailing_wage'].std()

Out[16]: 52815.94232687357

In [22]: ## all together

wage_count=round(visa_df['prevailing_wage'].count(),2)
wage_max=round(visa_df['prevailing_wage'].max(),2)
wage_min=round(visa_df['prevailing_wage'].min(),2)
wage_mean=round(visa_df['prevailing_wage'].mean(),2)
wage_median=round(visa_df['prevailing_wage'].median(),2)
wage_std=round(visa_df['prevailing_wage'].std(),2)

l=[wage_count,wage_max,wage_min,wage_mean,wage_median,wage_std]
cols=['prevailing_wage']
index=['count','max','min','mean','median','std']
pd.DataFrame(l,columns=cols,index=index)

Out[22]: prevailing_wage

count 25480.00

max 319210.27

min 2.14

mean 74455.81

median 70308.21

std 52815.94

𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒-𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒
perecntile and quantile available in numpy
np.percentile()
column name
percentile value between 0 to 100
np.quantile()
column name
0 to 1
In quantile 0.25 means 25 in percentile

In [23]: np.percentile(visa_df['prevailing_wage'],25)

Out[23]: 34015.479999999996

In [26]: np.quantile(visa_df['prevailing_wage'],0.25)

Out[26]: 34015.479999999996

what is the mean of 25percentile=34015.47

25percentage of total data has wage less than 34014.47

Find 25percentage of total data =25*25480/100= 6370
6370 person wages has less than 34014
In [36]: con=visa_df['prevailing_wage']<34014
len(visa_df[con])

Out[36]: 6370

In [38]: # Can you valid quickly for 50p data

wage_50=np.percentile(visa_df['prevailing_wage'],50)
con=visa_df['prevailing_wage']<wage_50
len(visa_df[con])

Out[38]: 12740

In [39]: ## all together

wage_count=round(visa_df['prevailing_wage'].count(),2)
wage_max=round(visa_df['prevailing_wage'].max(),2)
wage_min=round(visa_df['prevailing_wage'].min(),2)
wage_mean=round(visa_df['prevailing_wage'].mean(),2)
wage_median=round(visa_df['prevailing_wage'].median(),2)
wage_std=round(visa_df['prevailing_wage'].std(),2)
wage_25=np.percentile(visa_df['prevailing_wage'],25)
wage_50=np.percentile(visa_df['prevailing_wage'],50)
wage_75=np.percentile(visa_df['prevailing_wage'],75)

l=[wage_count,wage_max,wage_min,
wage_mean,wage_median,wage_std,
wage_25,wage_50,wage_75]
cols=['prevailing_wage']
index=['count','max','min',
'mean','median','std',
'25%','50%','75%']
pd.DataFrame(l,columns=cols,index=index)

Out[39]: prevailing_wage

count 25480.0000

max 319210.2700

min 2.1400

mean 74455.8100

median 70308.2100

std 52815.9400

25% 34015.4800

50% 70308.2100

75% 107735.5125
In [40]: visa_df.describe()
# 3 numerical columns

Out[40]: no_of_employees yr_of_estab prevailing_wage

count 25480.000000 25480.000000 25480.000000

mean 5667.043210 1979.409929 74455.814592

std 22877.928848 42.366929 52815.942327

min -26.000000 1800.000000 2.136700

25% 1022.000000 1976.000000 34015.480000

50% 2109.000000 1997.000000 70308.210000

75% 3504.000000 2005.000000 107735.512500

max 602069.000000 2016.000000 319210.270000

In [48]: ## all together

cols=visa_df.select_dtypes(exclude='object').columns
l=[]
for i in cols:
count=round(visa_df[i].count(),2)
maxx=round(visa_df[i].max(),2)
minn=round(visa_df[i].min(),2)
mean=round(visa_df[i].mean(),2)
median=round(visa_df[i].median(),2)
std=round(visa_df[i].std(),2)
p_25=np.percentile(visa_df[i],25)
p_50=np.percentile(visa_df[i],50)
p_75=np.percentile(visa_df[i],75)

l.append([count,maxx,minn,mean,median,std,
p_25,p_50,p_75])

print(l)
index=['count','max','min',
'mean','median','std',
'25%','50%','75%']
pd.DataFrame(zip(l[0],l[1],l[2]),columns=cols,index=index)

Out[48]: no_of_employees yr_of_estab prevailing_wage

count 25480.00 25480.00 25480.0000

max 602069.00 2016.00 319210.2700

min -26.00 1800.00 2.1400

mean 5667.04 1979.41 74455.8100

median 2109.00 1997.00 70308.2100

std 22877.93 42.37 52815.9400

25% 1022.00 1976.00 34015.4800

50% 2109.00 1997.00 70308.2100

75% 3504.00 2005.00 107735.5125

In [49]: ## all together
cols=visa_df.select_dtypes(exclude='object').columns
d={}
for i in cols:
count=round(visa_df[i].count(),2)
maxx=round(visa_df[i].max(),2)
minn=round(visa_df[i].min(),2)
mean=round(visa_df[i].mean(),2)
median=round(visa_df[i].median(),2)
std=round(visa_df[i].std(),2)
p_25=np.percentile(visa_df[i],25)
p_50=np.percentile(visa_df[i],50)
p_75=np.percentile(visa_df[i],75)

d[i]=[count,maxx,minn,mean,median,std,p_25,p_50,p_75]

index=['count','max','min',
'mean','median','std',
'25%','50%','75%']
pd.DataFrame(d,index=index)

Out[49]: no_of_employees yr_of_estab prevailing_wage

count 25480.00 25480.00 25480.0000

max 602069.00 2016.00 319210.2700

min -26.00 1800.00 2.1400

mean 5667.04 1979.41 74455.8100

median 2109.00 1997.00 70308.2100

std 22877.93 42.37 52815.9400

25% 1022.00 1976.00 34015.4800

50% 2109.00 1997.00 70308.2100

75% 3504.00 2005.00 107735.5125

In [1]: # Import the packages

# Read the data

#Import packages and read the data
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

path=r"C:\Users\omkar\OneDrive\Documents\Data science\Naresh IT\Datafiles\Vi
visa_df=pd.read_csv(path)
visa_df.head(3)

Out[1]:
tinent education_of_employee has_job_experience requires_job_training no_of_employees yr_

Asia High School N N 14513

Asia Master's Y N 2412

Asia Bachelor's N Y 44444

 
ℎ𝑖𝑠𝑡𝑜𝑔𝑟𝑎𝑚
In [5]: f,i,n=plt.hist(visa_df['prevailing_wage'],
bins=40)

In [8]: len(f),len(i),len(n)

Out[8]: (40, 41, 40)

In [ ]:

In [9]: f

Out[9]: array([2992., 871., 1005., 1170., 1242., 1434., 1385., 1443., 1444.,
1445., 1457., 1335., 1268., 1217., 1088., 978., 807., 645.,
509., 373., 264., 144., 105., 111., 107., 99., 88.,
79., 65., 64., 58., 53., 33., 33., 29., 19.,
7., 3., 6., 5.])

In [10]: i

Out[10]: array([2.13670000e+00, 7.98234003e+03, 1.59625434e+04, 2.39427467e+04,

3.19229500e+04, 3.99031534e+04, 4.78833567e+04, 5.58635600e+04,
6.38437634e+04, 7.18239667e+04, 7.98041700e+04, 8.77843734e+04,
9.57645767e+04, 1.03744780e+05, 1.11724983e+05, 1.19705187e+05,
1.27685390e+05, 1.35665593e+05, 1.43645797e+05, 1.51626000e+05,
1.59606203e+05, 1.67586407e+05, 1.75566610e+05, 1.83546813e+05,
1.91527017e+05, 1.99507220e+05, 2.07487423e+05, 2.15467627e+05,
2.23447830e+05, 2.31428033e+05, 2.39408237e+05, 2.47388440e+05,
2.55368643e+05, 2.63348847e+05, 2.71329050e+05, 2.79309253e+05,
2.87289457e+05, 2.95269660e+05, 3.03249863e+05, 3.11230067e+05,
3.19210270e+05])
In [ ]: between 2.13670000e+00 to 7.98234003e+03
we have 2992 observations

between 7.98234003e+03 to 1.59625434e+04
we have 871 observations

In [20]: l=2.13670000e+00
u=7.98234003e+03
c1=visa_df['prevailing_wage']>=l
c2=visa_df['prevailing_wage']<u
c=c1&c2
len(visa_df[c])

Out[20]: 2992

In [22]: def frquency(l,u):

c1=visa_df['prevailing_wage']>=l
c2=visa_df['prevailing_wage']<u
c=c1&c2
print(len(visa_df[c]))
frquency(7.98234003e+03,1.59625434e+04)

871

In [ ]: # Task-1
Craeate a dataframe

lower upper frquency
2.136 7.98 2992

In [ ]: # task-2:
# In seaborn how to plot histogram

𝐵𝑜𝑥𝑝𝑙𝑜𝑡
Boxplot is used to identify outliers
In box plot we have
Q1: 25p value
Q2: 50p value
Q3: 75p value
IQR: Q3-Q1
Mild outliers Q1-1.5IQR and Q3+1.5IQR
huge outliers Q1-3IQR and Q3+3IQR

Q1-1.5IQR Q1 median Q3 Q3+1.5IQR

|-----:-----|
o |--------| : |--------| o o
|-----:-----|
flier <-----------> fliers
IQR
In [28]: plt.boxplot(visa_df['prevailing_wage'],
vert=False)
plt.show()

# black dots are outliers
# orange line is median

In [ ]: CI : Part 2 statistics

EDA - Session-5 - Outlier Analysis
No ratings yet
EDA - Session-5 - Outlier Analysis
11 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Machine Learning
No ratings yet
Machine Learning
67 pages
dsba_project_main__et_easyvisa
No ratings yet
dsba_project_main__et_easyvisa
46 pages
EDP-3[2]
No ratings yet
EDP-3[2]
16 pages
EDA - Session-6 - Bi Variate Analysis
No ratings yet
EDA - Session-6 - Bi Variate Analysis
17 pages
aiml_
No ratings yet
aiml_
27 pages
code
No ratings yet
code
3 pages
MACHINE LEARNING 2 BUSINESS REPORT
No ratings yet
MACHINE LEARNING 2 BUSINESS REPORT
21 pages
Employee Info
No ratings yet
Employee Info
2 pages
DSBDA3 - Jupyter Notebook
No ratings yet
DSBDA3 - Jupyter Notebook
12 pages
ML lab manual 1-10
No ratings yet
ML lab manual 1-10
58 pages
etl_and_stats_code
No ratings yet
etl_and_stats_code
2 pages
AIML LAB MANAUAL R23
100% (1)
AIML LAB MANAUAL R23
10 pages
Project 5-EasyVisa assignment (1)
No ratings yet
Project 5-EasyVisa assignment (1)
57 pages
DS - Assig-03-Part-I - Jupyter Notebook
No ratings yet
DS - Assig-03-Part-I - Jupyter Notebook
8 pages
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
No ratings yet
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
12 pages
Python Pandas-DataFrames Complete - Jupyter Notebook
No ratings yet
Python Pandas-DataFrames Complete - Jupyter Notebook
34 pages
Data Preprocessing & Visualization1
No ratings yet
Data Preprocessing & Visualization1
2 pages
Data Analysis Using Python
No ratings yet
Data Analysis Using Python
12 pages
DALab Part-B BCU&BU
No ratings yet
DALab Part-B BCU&BU
12 pages
Eda - 1@3pm 8th Nov
No ratings yet
Eda - 1@3pm 8th Nov
2 pages
Assignment Submitted By-Srishti Bhateja 19021141116: STR (Crew - Data)
No ratings yet
Assignment Submitted By-Srishti Bhateja 19021141116: STR (Crew - Data)
11 pages
Exp1a
No ratings yet
Exp1a
5 pages
ML2 Easy Visa Project Business Report
100% (1)
ML2 Easy Visa Project Business Report
24 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Lecture 12 - Art and Science of Data Visualization
No ratings yet
Lecture 12 - Art and Science of Data Visualization
21 pages
Observation: As We Can See We Have Threwe Types of Datatypes I.E. (Int, Float, Object) That Means We Have Both Categorical and Numerical Data
No ratings yet
Observation: As We Can See We Have Threwe Types of Datatypes I.E. (Int, Float, Object) That Means We Have Both Categorical and Numerical Data
2 pages
Aastha IP Employee Project
No ratings yet
Aastha IP Employee Project
32 pages
EDA Session-3 Categorical Data Analysis
No ratings yet
EDA Session-3 Categorical Data Analysis
16 pages
4ems
No ratings yet
4ems
38 pages
Print Print Print Print: Import As
No ratings yet
Print Print Print Print: Import As
6 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
IP_Employee_Project
No ratings yet
IP_Employee_Project
31 pages
EDA - Session-2 - Data Frame Basics-2
No ratings yet
EDA - Session-2 - Data Frame Basics-2
11 pages
Kunj Project 1
No ratings yet
Kunj Project 1
34 pages
QP DAV 3rd Sem Dec 2023
No ratings yet
QP DAV 3rd Sem Dec 2023
12 pages
Week2 lab
No ratings yet
Week2 lab
8 pages
Ai Tools and Applications-Lab
No ratings yet
Ai Tools and Applications-Lab
33 pages
4 PythonPandas
No ratings yet
4 PythonPandas
8 pages
EXP-3
No ratings yet
EXP-3
10 pages
Germany Credit Analysis
No ratings yet
Germany Credit Analysis
41 pages
Visa Application Report
No ratings yet
Visa Application Report
7 pages
Titanic
No ratings yet
Titanic
22 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Jamboree
No ratings yet
Jamboree
56 pages
Unit7 Working With Pandas- Solved
No ratings yet
Unit7 Working With Pandas- Solved
12 pages
Data Preprocessing
No ratings yet
Data Preprocessing
27 pages
Ip Project File
No ratings yet
Ip Project File
46 pages
DP
No ratings yet
DP
9 pages
Program 2 Hierarchical Cluestring
No ratings yet
Program 2 Hierarchical Cluestring
5 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
17 pages
Employee Management System
No ratings yet
Employee Management System
33 pages
Loan Students
No ratings yet
Loan Students
2 pages
Kunj 3
No ratings yet
Kunj 3
34 pages
employee management-Ghanim,Rudra
No ratings yet
employee management-Ghanim,Rudra
25 pages
Name: Muhammad Sarfraz Seat: EP1850086 Section: A Course Code: 514 Course Name: Data Warehousing and Data Mining
No ratings yet
Name: Muhammad Sarfraz Seat: EP1850086 Section: A Course Code: 514 Course Name: Data Warehousing and Data Mining
39 pages
Develop Snakes & Ladders Game Complete Guide with Code & Design
From Everand
Develop Snakes & Ladders Game Complete Guide with Code & Design
Anurag Pandey
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Profound Python Libraries
From Everand
Profound Python Libraries
Onder Teker
No ratings yet
Test-1 - Python and Stat - Jupyter Notebook
0% (1)
Test-1 - Python and Stat - Jupyter Notebook
3 pages
EDA - Session-7 - Convert Categorical To Numerical
No ratings yet
EDA - Session-7 - Convert Categorical To Numerical
5 pages
Unit - 1
No ratings yet
Unit - 1
29 pages
Statistics Sampling Theoresm Session 8
No ratings yet
Statistics Sampling Theoresm Session 8
5 pages
Metamorphosis Clean
No ratings yet
Metamorphosis Clean
35 pages
Academic Performance Improvement Plan
100% (1)
Academic Performance Improvement Plan
4 pages
Effect of Absorption of Solar Radiation in Glass-Cover(s) On Heat Transfer Coefficients PDF
No ratings yet
Effect of Absorption of Solar Radiation in Glass-Cover(s) On Heat Transfer Coefficients PDF
8 pages
Week 1 Sol Merged
No ratings yet
Week 1 Sol Merged
39 pages
Algorithms
100% (1)
Algorithms
47 pages
Unit 5 Soft Computing
No ratings yet
Unit 5 Soft Computing
20 pages
Lab Report 11 EE
No ratings yet
Lab Report 11 EE
13 pages
Wafo Tutorial 2017
100% (1)
Wafo Tutorial 2017
195 pages
02. RC Column Design (EC2) by Robot Structural Analysis
No ratings yet
02. RC Column Design (EC2) by Robot Structural Analysis
8 pages
Mathematics Project 2021-2022: Name: Jhalak Gupta Class: Xi S ID: 3090 Submitted To: Mr. Ajeet Shah
No ratings yet
Mathematics Project 2021-2022: Name: Jhalak Gupta Class: Xi S ID: 3090 Submitted To: Mr. Ajeet Shah
21 pages
Me Lab Experiment 1 Datangel
No ratings yet
Me Lab Experiment 1 Datangel
17 pages
(Rohr) - Modelling and Identification
No ratings yet
(Rohr) - Modelling and Identification
11 pages
Immediate Inferences
No ratings yet
Immediate Inferences
4 pages
Python Syllabus IILM
No ratings yet
Python Syllabus IILM
4 pages
1991 JDDE Miklavcic
No ratings yet
1991 JDDE Miklavcic
20 pages
Dimension I Mi
No ratings yet
Dimension I Mi
8 pages
(Ebook) Introduction to Data Mining by Pang-Ning Tan,Michael Steinbach and Vipin Kumar ISBN 9788131764633, 813176463X - Download the full ebook now for a seamless reading experience
100% (1)
(Ebook) Introduction to Data Mining by Pang-Ning Tan,Michael Steinbach and Vipin Kumar ISBN 9788131764633, 813176463X - Download the full ebook now for a seamless reading experience
56 pages
2978idx PDF
No ratings yet
2978idx PDF
0 pages
Microeconomics Group - 2
No ratings yet
Microeconomics Group - 2
99 pages
Tool Shop Optimization
No ratings yet
Tool Shop Optimization
98 pages
Class PPT - Unit2
No ratings yet
Class PPT - Unit2
139 pages
module-5 (IIR) Tutorial Problems
No ratings yet
module-5 (IIR) Tutorial Problems
2 pages
MapmyIndia Google Distance Matrix
No ratings yet
MapmyIndia Google Distance Matrix
3 pages
Efficient CNN Accelerator on FPGA
No ratings yet
Efficient CNN Accelerator on FPGA
9 pages
Awr White Paper May 27 EM Simulation
No ratings yet
Awr White Paper May 27 EM Simulation
6 pages
Ships Hydrodynamics
No ratings yet
Ships Hydrodynamics
18 pages
Maya Character Creation - The Human Head - Great
No ratings yet
Maya Character Creation - The Human Head - Great
134 pages
B.E. Mechanical Engineering: Affiliated Institutions Anna University of Technology Chennai
No ratings yet
B.E. Mechanical Engineering: Affiliated Institutions Anna University of Technology Chennai
17 pages
Group 1 - Indirect Proof Activity
No ratings yet
Group 1 - Indirect Proof Activity
4 pages
Cambridge Lower Secondary Progression Test - Mathematics 2018 Stage 8 - Paper 1 Question
No ratings yet
Cambridge Lower Secondary Progression Test - Mathematics 2018 Stage 8 - Paper 1 Question
12 pages
CBSE Class 2 Maths Practice Worksheets C - Revision
No ratings yet
CBSE Class 2 Maths Practice Worksheets C - Revision
9 pages

EDA - Session-4 - Numerical Data Analysis

Uploaded by

EDA - Session-4 - Numerical Data Analysis

Uploaded by

In [1]: #Import packages and read the data

Out[1]: case_id continent education_of_employee has_job_experience requires_job_training no_o

0 EZYV01 Asia High School N N

1 EZYV02 Asia Master's Y N

2 EZYV03 Asia Bachelor's N Y

Out[2]: Index(['case_id', 'continent', 'education_of_employee', 'has_job_experienc

Out[3]: Index(['no_of_employees', 'yr_of_estab', 'prevailing_wage'], dtype='objec

In [22]: ## all together

what is the mean of 25percentile=34015.47

25percentage of total data has wage less than 34014.47

In [38]: # Can you valid quickly for 50p data

In [39]: ## all together

Out[40]: no_of_employees yr_of_estab prevailing_wage

count 25480.000000 25480.000000 25480.000000

mean 5667.043210 1979.409929 74455.814592

std 22877.928848 42.366929 52815.942327

min -26.000000 1800.000000 2.136700

25% 1022.000000 1976.000000 34015.480000

50% 2109.000000 1997.000000 70308.210000

75% 3504.000000 2005.000000 107735.512500

max 602069.000000 2016.000000 319210.270000

In [48]: ## all together

Out[48]: no_of_employees yr_of_estab prevailing_wage

count 25480.00 25480.00 25480.0000

max 602069.00 2016.00 319210.2700

min -26.00 1800.00 2.1400

mean 5667.04 1979.41 74455.8100

median 2109.00 1997.00 70308.2100

std 22877.93 42.37 52815.9400

25% 1022.00 1976.00 34015.4800

50% 2109.00 1997.00 70308.2100

75% 3504.00 2005.00 107735.5125

Out[49]: no_of_employees yr_of_estab prevailing_wage

count 25480.00 25480.00 25480.0000

max 602069.00 2016.00 319210.2700

min -26.00 1800.00 2.1400

mean 5667.04 1979.41 74455.8100

median 2109.00 1997.00 70308.2100

std 22877.93 42.37 52815.9400

25% 1022.00 1976.00 34015.4800

50% 2109.00 1997.00 70308.2100

75% 3504.00 2005.00 107735.5125

In [1]: # Import the packages

Asia High School N N 14513

Asia Master's Y N 2412

Asia Bachelor's N Y 44444

Out[8]: (40, 41, 40)

Out[10]: array([2.13670000e+00, 7.98234003e+03, 1.59625434e+04, 2.39427467e+04,

In [22]: def frquency(l,u):

Q1-1.5IQR Q1 median Q3 Q3+1.5IQR

You might also like