Dsbda 10

This document analyzes an iris dataset using Python. It loads the dataset, checks the number and types of features, visualizes the distributions of each feature using histograms and boxplots, and identifies potential outliers in one of the features.

Uploaded by

monaliauti2

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views

Dsbda 10

Uploaded by

monaliauti2

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

In [2]: import numpy as np

import matplotlib.pyplot as plt

import pandas as pd
import seaborn as sns

df = pd.read_csv('iris.csv')
df.head()

Out[2]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

0 1 5.1 3.5 1.4 0.2 setosa

1 2 4.9 3.0 1.4 0.2 setosa

2 3 4.7 3.2 1.3 0.2 setosa

3 4 4.6 3.1 1.5 0.2 setosa

4 5 5.0 3.6 1.4 0.2 setosa

How many features are there and what are their types
(e.g., numeric, nominal)?
In [3]: df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Id 150 non-null int64
1 SepalLengthCm 150 non-null float64
2 SepalWidthCm 150 non-null float64
3 PetalLengthCm 150 non-null float64
4 PetalWidthCm 150 non-null float64
5 Species 150 non-null object
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB

Hence the dataset contains 4 numerical columns and 1 object column

In [4]: np.unique(df["Species"])

array(['setosa', 'versicolor', 'virginica'], dtype=object)

Out[4]:

In [5]: df.describe()
Out[5]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm

count 150.000000 150.000000 150.000000 150.000000 150.000000

mean 75.500000 5.843333 3.054000 3.758667 1.198667

std 43.445368 0.828066 0.433594 1.764420 0.763161

min 1.000000 4.300000 2.000000 1.000000 0.100000

25% 38.250000 5.100000 2.800000 1.600000 0.300000

50% 75.500000 5.800000 3.000000 4.350000 1.300000

75% 112.750000 6.400000 3.300000 5.100000 1.800000

max 150.000000 7.900000 4.400000 6.900000 2.500000

Create a histogram for each feature in the dataset.

In [6]: import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

fig, axes = plt.subplots(2, 2, figsize=(12, 6), constrained_layout = True)

for i in range(4):
x, y = i � 2, i % 2
axes[x, y].hist(df[df.columns[i + 1]])
axes[x, y].set_title(f"Distribution of {df.columns[i + 1][:-2]}")

Create a boxplot for each feature in the dataset.

In [7]: data_to_plot = [df[x] for x in df.columns[1:-1]]

fig, axes = plt.subplots(1, figsize=(12,8))

bp = axes.boxplot(data_to_plot)

If we observe closely for the box 2, interquartile distance is roughly around 0.75
hence the values lying beyond this range of (third quartile + interquartile distance) i.e.
roughly around 4.05 will be considered as outliers. Similarly outliers with other
boxplots can be found.

Document Management System Report
100% (4)
Document Management System Report
33 pages
Three Level Image Password Authentication Systems
No ratings yet
Three Level Image Password Authentication Systems
15 pages
Coordinate Graphing Picture Scoobydoo
100% (3)
Coordinate Graphing Picture Scoobydoo
4 pages
Assignment No - 10
No ratings yet
Assignment No - 10
3 pages
data_visualization_3[1]
No ratings yet
data_visualization_3[1]
3 pages
10 TH
No ratings yet
10 TH
7 pages
Prac 10
No ratings yet
Prac 10
6 pages
b21 DSBDA Assignment No 10
No ratings yet
b21 DSBDA Assignment No 10
1 page
Session-24 - Jupyter Notebook
No ratings yet
Session-24 - Jupyter Notebook
13 pages
ploomber-notebook-conversion_2
No ratings yet
ploomber-notebook-conversion_2
14 pages
Exno 4
No ratings yet
Exno 4
13 pages
Part A Assignment 10
No ratings yet
Part A Assignment 10
3 pages
25 - Assignment10.ipynb - Colaboratory
No ratings yet
25 - Assignment10.ipynb - Colaboratory
13 pages
Import As Import As: "Iris - CSV"
No ratings yet
Import As Import As: "Iris - CSV"
4 pages
B Question5
No ratings yet
B Question5
5 pages
Trần Mạnh Hùng 20192643.Ipynb - Colab
No ratings yet
Trần Mạnh Hùng 20192643.Ipynb - Colab
6 pages
Experiment-2-1-Ml Kritika
No ratings yet
Experiment-2-1-Ml Kritika
11 pages
MLRecord
No ratings yet
MLRecord
24 pages
Untitled5 1
No ratings yet
Untitled5 1
13 pages
A2 60 Rohit Jakkam EDA of Iris - Ipynb - Colaboratory
No ratings yet
A2 60 Rohit Jakkam EDA of Iris - Ipynb - Colaboratory
5 pages
BDA pr2
No ratings yet
BDA pr2
2 pages
PW4 python solution
No ratings yet
PW4 python solution
6 pages
DSBDA_LA_10
No ratings yet
DSBDA_LA_10
4 pages
DSA_1
No ratings yet
DSA_1
8 pages
DL experiment - 1
No ratings yet
DL experiment - 1
10 pages
Assignment 5'
No ratings yet
Assignment 5'
4 pages
Pandas Exercises
No ratings yet
Pandas Exercises
15 pages
6 Lab
No ratings yet
6 Lab
16 pages
seaborn-VISUALISATION PYTHON - AQ
No ratings yet
seaborn-VISUALISATION PYTHON - AQ
17 pages
10(3146) (1)
No ratings yet
10(3146) (1)
2 pages
b21 DSBDA Assignment No 3
No ratings yet
b21 DSBDA Assignment No 3
3 pages
Import As Import As Import As From Import Import As Import
No ratings yet
Import As Import As Import As From Import Import As Import
7 pages
Practical No - 1
No ratings yet
Practical No - 1
5 pages
2.1 Exploratory Data Analysis Using Python
No ratings yet
2.1 Exploratory Data Analysis Using Python
12 pages
EXP 07 (ML) - Ashu
No ratings yet
EXP 07 (ML) - Ashu
4 pages
EXP 07 (ML) - Darshu
No ratings yet
EXP 07 (ML) - Darshu
4 pages
cota12-6
No ratings yet
cota12-6
4 pages
Ass_10.ipynb - Colab
No ratings yet
Ass_10.ipynb - Colab
8 pages
Exp 07 (ML)
No ratings yet
Exp 07 (ML)
4 pages
Name:-Nisha Ambike: Roll No: - 02
No ratings yet
Name:-Nisha Ambike: Roll No: - 02
2 pages
Interactive Class
No ratings yet
Interactive Class
3 pages
Iris - Ipynb - Colaboratory
No ratings yet
Iris - Ipynb - Colaboratory
8 pages
Datascience Set A
No ratings yet
Datascience Set A
7 pages
Machine Learning in Agriculture
No ratings yet
Machine Learning in Agriculture
29 pages
Experiment 3
No ratings yet
Experiment 3
4 pages
31_Pandas_02
No ratings yet
31_Pandas_02
8 pages
Dataviz Cheatsheet
No ratings yet
Dataviz Cheatsheet
9 pages
Assignment 1
No ratings yet
Assignment 1
6 pages
batch1 ds
No ratings yet
batch1 ds
15 pages
Seaborn
No ratings yet
Seaborn
17 pages
EXP 07 (ML) - Sarthak
No ratings yet
EXP 07 (ML) - Sarthak
4 pages
Assignment 10
No ratings yet
Assignment 10
7 pages
dsbda10
No ratings yet
dsbda10
8 pages
Data Visualization With Maplotlib
No ratings yet
Data Visualization With Maplotlib
8 pages
Machine Learning Group Project
No ratings yet
Machine Learning Group Project
22 pages
SESION 12 (Pandas)
No ratings yet
SESION 12 (Pandas)
41 pages
sns11 - Building Structured Multi Plot Grids
No ratings yet
sns11 - Building Structured Multi Plot Grids
12 pages
DA Basics
No ratings yet
DA Basics
6 pages
Task 1
No ratings yet
Task 1
14 pages
Session-25 - Jupyter Notebook
No ratings yet
Session-25 - Jupyter Notebook
20 pages
Mayank Chaudhary DEV Practicals
No ratings yet
Mayank Chaudhary DEV Practicals
14 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
C Program Advance
No ratings yet
C Program Advance
290 pages
Answer Sheet - 38 Functions and Procedures
No ratings yet
Answer Sheet - 38 Functions and Procedures
7 pages
Combinational Circuits
No ratings yet
Combinational Circuits
128 pages
Mettl - Accenture - Pseudocode WA
No ratings yet
Mettl - Accenture - Pseudocode WA
54 pages
Exercise 2.5 - Berongoy
100% (2)
Exercise 2.5 - Berongoy
2 pages
List Dict Set Tuple
No ratings yet
List Dict Set Tuple
23 pages
Grade7 850183 22 7701.q
No ratings yet
Grade7 850183 22 7701.q
5 pages
DA8 Modbus Manual
No ratings yet
DA8 Modbus Manual
2 pages
Red Black Trees
No ratings yet
Red Black Trees
23 pages
Day6 Enquiry
No ratings yet
Day6 Enquiry
36 pages
NLPs Lab Manual
No ratings yet
NLPs Lab Manual
30 pages
Sapmle Report Fire Detection - Python
No ratings yet
Sapmle Report Fire Detection - Python
57 pages
CD - R16 - UNIT III - Notes
No ratings yet
CD - R16 - UNIT III - Notes
33 pages
Include Include Include
No ratings yet
Include Include Include
19 pages
vt59.2708-21282868044 626785678961539 7501882681118986219 n.pdfMXT122-Learning-Module - PDF NC Cat 110&c
No ratings yet
vt59.2708-21282868044 626785678961539 7501882681118986219 n.pdfMXT122-Learning-Module - PDF NC Cat 110&c
73 pages
Using Exit Class For Characteristic Relationship With Derivation
No ratings yet
Using Exit Class For Characteristic Relationship With Derivation
2 pages
Code Tayrobot Digtal
No ratings yet
Code Tayrobot Digtal
6 pages
Unit 3
No ratings yet
Unit 3
127 pages
2 - 1 Lab Manual Final
No ratings yet
2 - 1 Lab Manual Final
183 pages
Radix Converter
No ratings yet
Radix Converter
4 pages
Class 11 CS PTIII 20-21 Set A
No ratings yet
Class 11 CS PTIII 20-21 Set A
4 pages
Co Notes Module 1
No ratings yet
Co Notes Module 1
42 pages
ITEC18: Introduction To Programming
No ratings yet
ITEC18: Introduction To Programming
2 pages
Object Oriented Programming C++
No ratings yet
Object Oriented Programming C++
656 pages
Selection Statements
No ratings yet
Selection Statements
12 pages
PULSE: Self-Supervised Photo Upsampling Via Latent Space Exploration of Generative Models
No ratings yet
PULSE: Self-Supervised Photo Upsampling Via Latent Space Exploration of Generative Models
17 pages
3 Array
No ratings yet
3 Array
16 pages