Advanced R Programming Tidyverse Notes

The document outlines the process of data wrangling, including steps such as discovering, structuring, cleaning, enriching, and validating data using the tidyverse package in R. It provides examples of filtering, selecting, and summarizing data from the 'diamonds' dataset, demonstrating various techniques for data manipulation and analysis. Key operations include filtering by cut and price, selecting specific columns, reordering, and summarizing data based on different criteria.

Uploaded by

Bekkem Lavanya Reddy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views

Advanced R Programming Tidyverse Notes

Uploaded by

Bekkem Lavanya Reddy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 3

Data Wrangling /Munging

# Data Wrangaling
1)Discovering
2)Structuring
3)Cleaning
4)Enriching
5)Validation
##Data wrangling with tidyverse package
library(tidyverse)
diamonds
View(diamonds)
#Filter subdataset
diamond_sm<-filter(diamonds,cut=="Ideal")
diamond_sm
View(diamond_sm)

diamonds_sm<-filter(diamonds,cut=="Ideal",price>10000)
diamonds_sm
View(diamonds_sm)
#Filter for missing values
print(is.na(diamonds_sm))
#subset by column
diamonds_sm<-data.frame(diamonds$cut,diamonds$color)
diamonds_sm
diamonds_sm<-select(diamonds,1:4)
View(diamonds_sm)

diamonds_c<-select(diamonds,contains("c"))
diamonds_c
View(diamonds_c)

diamonds_E<-select(diamonds,price,table,depth,everything())
View(diamonds_E)

diamonds_N<-select(diamonds,-c(price,depth,table))
diamonds_N

diamonds_sm<-diamonds %>% select(-price)

diamonds_sm

#reorder column
diamonds_arr<-diamonds %>% arrange(color,carat)
diamonds_arr
View(diamonds_arr)
#arrange in descending order
diamonds_arr<-diamonds %>% arrange(desc(carat))
View(diamonds_arr)
#add or modify columns
diamonds_new<-diamonds %>%
mutate(mass_g=0.02*carat,price_per_carat=price/carat,
cut=tolower(cut),
expensive=price>10000)
diamonds_new
View(diamonds_new)

#summarize the data

diamonds %>% group_by(cut) %>% summarize(mean(price))

diamonds %>% group_by(cut,color) %>% summarize(avg_price=mean(price),

sd_price=sd(price),
count=n())

diamonds %>% count(cut,color,clarity)

#summarize the data on the basis of expensive and nonexpensive

diamonds %>% group_by(price>10000) %>

%summarize(avg_price=mean(price),
sd_price=sd(price),
count=n())

Linear Regression: Prepared by Muralidharan N
77% (13)
Linear Regression: Prepared by Muralidharan N
34 pages
Assignment2 DataViz
No ratings yet
Assignment2 DataViz
11 pages
Predicting Diamond Price Using Linear Model
50% (2)
Predicting Diamond Price Using Linear Model
20 pages
Lab 8
No ratings yet
Lab 8
7 pages
Reating A Project IN Tudio: Steps
No ratings yet
Reating A Project IN Tudio: Steps
4 pages
Diamond Dataset Output
No ratings yet
Diamond Dataset Output
19 pages
3 DescriptiveStatistics
No ratings yet
3 DescriptiveStatistics
25 pages
EM 526_Lab Assignment 03
No ratings yet
EM 526_Lab Assignment 03
1 page
Case Study
No ratings yet
Case Study
20 pages
24 Model building _ R for Data Science
No ratings yet
24 Model building _ R for Data Science
17 pages
Predicting Diamond Price: 2 Step Method
100% (1)
Predicting Diamond Price: 2 Step Method
17 pages
DIAMOND PRICE PREDICTIONS - Ipynb - Colaboratory
No ratings yet
DIAMOND PRICE PREDICTIONS - Ipynb - Colaboratory
21 pages
Question 1: Basic Summary Statistics: Mean (Diamond$price) Median (Diamond$price) SD (Diamond$price)
No ratings yet
Question 1: Basic Summary Statistics: Mean (Diamond$price) Median (Diamond$price) SD (Diamond$price)
4 pages
Diamonds1000512i % % Filter (Color 'D') % % As - Data.frame - diamonds1000512ID
No ratings yet
Diamonds1000512i % % Filter (Color 'D') % % As - Data.frame - diamonds1000512ID
5 pages
Pred Mold Buiness Report PDF
No ratings yet
Pred Mold Buiness Report PDF
49 pages
Lab 6 Data Visualization
No ratings yet
Lab 6 Data Visualization
8 pages
10-regplot
No ratings yet
10-regplot
17 pages
Unit-Iv: Variation, Missing Values, Co Variation, Patterns and Models
No ratings yet
Unit-Iv: Variation, Missing Values, Co Variation, Patterns and Models
17 pages
Project Predictive Modeling
50% (2)
Project Predictive Modeling
69 pages
Diamond1 Script
No ratings yet
Diamond1 Script
38 pages
Data Sicence
No ratings yet
Data Sicence
3 pages
PRACTICUM, Day 1: R Graphing: Basic Plotting and Ggplot2: CRG Bioinformatics Unit, Sarah - Bonnin@crg - Eu May 6th, 2016
No ratings yet
PRACTICUM, Day 1: R Graphing: Basic Plotting and Ggplot2: CRG Bioinformatics Unit, Sarah - Bonnin@crg - Eu May 6th, 2016
52 pages
DSCreport
No ratings yet
DSCreport
11 pages
CS412 Assignment 1 Ref Solution
50% (2)
CS412 Assignment 1 Ref Solution
8 pages
Read The Data: # Load The Required Package
No ratings yet
Read The Data: # Load The Required Package
25 pages
Diamonds: Analyze Diamonds by Their Cut, Color, Clarity, Price, and Other Attributes
No ratings yet
Diamonds: Analyze Diamonds by Their Cut, Color, Clarity, Price, and Other Attributes
14 pages
QPlot Tutorial
No ratings yet
QPlot Tutorial
8 pages
Predective Modellig Project
100% (1)
Predective Modellig Project
18 pages
INTRO TO STATISTICS (CH1&2)
No ratings yet
INTRO TO STATISTICS (CH1&2)
38 pages
Report
No ratings yet
Report
55 pages
DALab Part-B BCU&BU
No ratings yet
DALab Part-B BCU&BU
12 pages
Predective Modelling Project Business Report
50% (2)
Predective Modelling Project Business Report
58 pages
FIGURE 2.10: Diamond Price by Clarity and Cut. For The Interactive, See
No ratings yet
FIGURE 2.10: Diamond Price by Clarity and Cut. For The Interactive, See
5 pages
Guides
No ratings yet
Guides
23 pages
Be A 65 Ads Exp 2
No ratings yet
Be A 65 Ads Exp 2
10 pages
Exercises 3
No ratings yet
Exercises 3
11 pages
Geom Histogram
No ratings yet
Geom Histogram
4 pages
vertopal.com_EDA
No ratings yet
vertopal.com_EDA
16 pages
R Programming
No ratings yet
R Programming
9 pages
Big Data Analytics
No ratings yet
Big Data Analytics
13 pages
Codigo R Diamantes
No ratings yet
Codigo R Diamantes
5 pages
R Doc Ii Vee
No ratings yet
R Doc Ii Vee
24 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
DataViz Ggplot Sample
No ratings yet
DataViz Ggplot Sample
23 pages
Linear - Regression - Assignment: Problem Statement
100% (3)
Linear - Regression - Assignment: Problem Statement
24 pages
Airline Passenger Booking Analyze
No ratings yet
Airline Passenger Booking Analyze
26 pages
Predictive Modeling Project
No ratings yet
Predictive Modeling Project
16 pages
UNIT 1 Introduction of Data Mining
No ratings yet
UNIT 1 Introduction of Data Mining
11 pages
Quick Guide To Data Cleaning With Examples - Sunscrapers
No ratings yet
Quick Guide To Data Cleaning With Examples - Sunscrapers
11 pages
ds_u1_chp4
No ratings yet
ds_u1_chp4
18 pages
Data Mining and Analysis: Fundamental Concepts and Algorithms
No ratings yet
Data Mining and Analysis: Fundamental Concepts and Algorithms
9 pages
Use Plotly
No ratings yet
Use Plotly
4 pages
BASICS OF ANALYTICS Project
No ratings yet
BASICS OF ANALYTICS Project
13 pages
Exp2 - Data Visualization and Cleaning and Feature Selection
No ratings yet
Exp2 - Data Visualization and Cleaning and Feature Selection
13 pages
R
No ratings yet
R
14 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
Mastering Python For Data Science - Sample Chapter
71% (7)
Mastering Python For Data Science - Sample Chapter
24 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
R Project Data cleaning notes
No ratings yet
R Project Data cleaning notes
3 pages
R Project Handling Missing Data Notes
No ratings yet
R Project Handling Missing Data Notes
3 pages
R Programming Assignment Question
No ratings yet
R Programming Assignment Question
7 pages
Advanced R Programming GGPLOT2 Notes
No ratings yet
Advanced R Programming GGPLOT2 Notes
8 pages
Advanced R Programming Tidyverse Packages Notes
No ratings yet
Advanced R Programming Tidyverse Packages Notes
12 pages
P401 01D Hardy Weinberg Equilibrium
No ratings yet
P401 01D Hardy Weinberg Equilibrium
13 pages
Samasta Lokah
No ratings yet
Samasta Lokah
18 pages

Advanced R Programming Tidyverse Notes

Uploaded by

Advanced R Programming Tidyverse Notes

Uploaded by

Data Wrangling /Munging

diamonds_sm<-diamonds %>% select(-price)

#summarize the data

diamonds %>% group_by(cut,color) %>% summarize(avg_price=mean(price),

diamonds %>% count(cut,color,clarity)

#summarize the data on the basis of expensive and nonexpensive

diamonds %>% group_by(price>10000) %>

You might also like