0% found this document useful (0 votes)

47 views

BDACh 05 L03 A Spark QLAnalytics

Uploaded by

Shaz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views

BDACh 05 L03 A Spark QLAnalytics

Uploaded by

Shaz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 24

Lesson 3

Data Analytics using Apache®

Spark™ Components Spark SQL
and DataFrames

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 1
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Figure 5.4 Steps between acquisition of data from
different sources and its applications

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 2
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Steps For Data Analysis

Refer Figure 5.4: Layer 1 Data Storage: Store

of data from the multiple sources after
acquisition. The Big Data storage may be in
HDFS compatible files, Cassandra, Hive,
HDFS or S3.

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 3
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Steps For Data Analysis

Refer Figure 5.4: Layer 2 Data Storage: Store

of data from the multiple sources after
acquisition. The Big Data storage may be in
HDFS compatible files, Cassandra, Hive,
HDFS or S3.

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 4
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Steps For Data Analysis

Refer Figure 5.4: Layer 1 Data Storage: Store

of data from the multiple sources after
acquisition. The Big Data storage may be in
HDFS compatible files, Cassandra, Hive,
HDFS or S3.

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 5
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Steps For Data Analysis

Refer Figure 5.4: Layer 2a Preprocessing:

(a) dropping out of range, inconsistent and
outlier values,
(b) filtering unreliable, irrelevant and
redundant information,
(c) data cleaning, editing, reduction and/or
wrangling,
(d) data-validation, transformation or
transcoding.
“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 6
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Steps For Data Analysis

Refer Figure 5.4: Layer 2b ETL

Layer 3: Mathematical and statistical analysis
of the data obtained after querying relevant
data needing the analysis, Spark Streaming,
OLAP, Spark SQL, UDFs for inline SQL,
Distributed DataFrames, HiveQL, Parquet,
Cassandra QL query processing

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 7
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Steps For Data Analysis

Refer Figure 5.4: Layer 4 Alerts to

Applications, Anomaly detection,
Descriptive and Reporting

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 8
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Steps For Data Analysis

Refer Figure 5.4: Layer 5 Applications for

analyzing data, for example, descriptive,
predictive and prescriptive analytics, business
processes (BPs), business process automation
(BPA), business intelligence (BI), decision
modelling and knowledge discovery..

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 9
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Spark SQL Connectivity to Inputs

Refer Figure 5.5 Data Flow

 Cassandra DB, DataFrames, RDDs

 Data into Spark SQL /HiveQL/

CassandraCQL for Querying Processing

either through Cassandra-Spark Connector
in Java or Data in Parquet, JSON or Hive
tables after ETL pipeline

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 10
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Figure 5.5 Connectivity between the applications
and Spark SQL

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 11
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Spark SQL/Hive Server (Thrift)
Connectivity to outputs

• Spark SQL API JDBC connectivity

using JDBC/ODBC drivers
• to the Applications

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 12
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
JDBC Server

• An application reads the data tables in

RDBMS using a JDBC client (JDBC
API at the application)
• Applications in Java connect to
databases using JDBC driver and
server

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 13
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Hive Server (Thrift)

• Enables a remote Hive client or JDBC

driver to send a request to Hive and
the server sends response to that
• The client requests can be in Scala,
Java, Python or R

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 14
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
JSON, Hive, Parquet Objects
• HDFS is highly reliable for very long
running queries
• IO operations are slow
• Columnar storage used for faster IOs
• Columnar storage stores the data
portion, presently required for the IOs.

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 15
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
JSON, Hive, Parquet Objects

• HDFS is highly reliable for very long

running queries. However, IO
operations are slow. Columnar storage
is a solution for faster IOs. Columnar
storage stores the data portion,
presently required for the IOs. Load-
only columns access during
processing. Also, a columnar object
2019
“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
16
Columnar object Data Store
• Load-only columns access during
processing
• Can be compressed or encoded
according to the data type
• Also, executions of different columns
or column partitions can be in parallel
at the data nodes.

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 17
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
A nested hierarchical columnar
storage concept
• Apache Parquet three projects specify
the usages of files for query
processing or applications
• The projects are (i) parquet-format
and Thrift definitions of metadata, (ii)
parquet-mr and (iii) parquet-
compatibility for compatibly for read-
write in multiple languages
“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 18
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Project parquet-mr

• Implements the sub-modules in the

core components for reading and
writing a nested, column-oriented data
stream,

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 19
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Spark DataFrame (SchemaRDD)

• A distributed collection of data

organized into named columns
• Used for transformation using filter,
join, or groupby aggregation functions
• Section 10.3 for conversion from CSV
format dataset and creating
DataFrame from the RDDs.
“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 20
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
DataFrames

• Created from different data sources,

• JSON datasets, Hive tables, Parquet
row groups, structured data files,
external Data Stores and RDDs

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 21
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Summary
We learnt
• Steps between acquisition of data from
different sources and its applications
• Data into Spark SQL /HiveQL/
CassandraCQL for Querying Processing
either through Cassandra-Spark
Connector in Java or Data in Parquet,
JSON or Hive tables after ETL pipeline
“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 22
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
Summary
• Connectivity between the applications
and Spark SQL
• JDBC Driver
• Parquet, JSON and DataFrames as
inputs to Spark SQL or Hive Server

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 23
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)
End of Lesson 3 on
Data Analytics using Apache®
Spark™ Components Spark SQL
and DataFrames

“Big Data Analytics “, Ch.05 L03: Spark and Big Data Analytics
2019 24
Raj Kamal, and Preeti Saxena © McGraw-Hill Education (India)

Microproject
No ratings yet
Microproject
18 pages
cp5293 Big Data Analytics Question Bank
0% (1)
cp5293 Big Data Analytics Question Bank
13 pages
BDACh05L08Applications and Big Data Analytics Using Spark
No ratings yet
BDACh05L08Applications and Big Data Analytics Using Spark
11 pages
BDACh 05 L05 Python Librariesfor Analysis
No ratings yet
BDACh 05 L05 Python Librariesfor Analysis
29 pages
BDACh05L04Spark DataFramesAndRDDs
No ratings yet
BDACh05L04Spark DataFramesAndRDDs
22 pages
BDACh01L05DataStorage Analysis Traditional BigDataSytems.ppt
No ratings yet
BDACh01L05DataStorage Analysis Traditional BigDataSytems.ppt
22 pages
Unit 4
No ratings yet
Unit 4
60 pages
BDACh05L07bETLDATA ETLProcessInAnalytics
No ratings yet
BDACh05L07bETLDATA ETLProcessInAnalytics
11 pages
BDACh01L03DesignLayersindata Processingarchitecture
No ratings yet
BDACh01L03DesignLayersindata Processingarchitecture
12 pages
Spark SQL PPT 3.2.3 and 3.2.4
No ratings yet
Spark SQL PPT 3.2.3 and 3.2.4
17 pages
Data Analytics With Spark PDF
No ratings yet
Data Analytics With Spark PDF
29 pages
BIG data1
No ratings yet
BIG data1
49 pages
Big Data Analytics - notes
No ratings yet
Big Data Analytics - notes
13 pages
Big Data Analytics (R20a0520)
No ratings yet
Big Data Analytics (R20a0520)
84 pages
A Study of Big Data Analytics Using Apache Spark With Python and Scala
No ratings yet
A Study of Big Data Analytics Using Apache Spark With Python and Scala
8 pages
Lecture 3 PPT 22
No ratings yet
Lecture 3 PPT 22
25 pages
Big Data Analytics
No ratings yet
Big Data Analytics
3 pages
Terminologies Used in Big Data Environments
No ratings yet
Terminologies Used in Big Data Environments
3 pages
Big Data
No ratings yet
Big Data
190 pages
Apache Spark Analytics Made Simple
No ratings yet
Apache Spark Analytics Made Simple
76 pages
Module_1_Session_3 Analytic Processes and Tools _ Analysis vs Reporting _ Modern Data Analytic Tools
No ratings yet
Module_1_Session_3 Analytic Processes and Tools _ Analysis vs Reporting _ Modern Data Analytic Tools
5 pages
4- Spark SQL
No ratings yet
4- Spark SQL
58 pages
Cp5293 Big Data Analytics Question Bank
0% (1)
Cp5293 Big Data Analytics Question Bank
13 pages
Module 3 - Data Science
No ratings yet
Module 3 - Data Science
22 pages
BD QUESTION BANK
No ratings yet
BD QUESTION BANK
56 pages
IT_(R20)_4-1_BIG DATA ANALYTICS_DIGITAL NOTES (1)
No ratings yet
IT_(R20)_4-1_BIG DATA ANALYTICS_DIGITAL NOTES (1)
117 pages
Module 1 Introduction to Big Data Analytics
No ratings yet
Module 1 Introduction to Big Data Analytics
121 pages
Big Data Analysis Using Apache Spark Mllib and Hadoop Hdfs With Scala and Java
No ratings yet
Big Data Analysis Using Apache Spark Mllib and Hadoop Hdfs With Scala and Java
9 pages
ESE_BDA
No ratings yet
ESE_BDA
28 pages
IT6006-Data Analytics Department of CSE 2018-2019
No ratings yet
IT6006-Data Analytics Department of CSE 2018-2019
193 pages
It (r20) 4-1 Big Data Analytics Digital Notes
No ratings yet
It (r20) 4-1 Big Data Analytics Digital Notes
84 pages
2 emerging
No ratings yet
2 emerging
10 pages
BDA Unit-6
No ratings yet
BDA Unit-6
11 pages
Spark SQL
No ratings yet
Spark SQL
12 pages
Big Data Analytics and Its Applications
No ratings yet
Big Data Analytics and Its Applications
4 pages
Apache Spark - DataFrames and Spark SQL
100% (2)
Apache Spark - DataFrames and Spark SQL
146 pages
CS8091 LN
No ratings yet
CS8091 LN
68 pages
Apache Spark Analytics Made Simple PDF
No ratings yet
Apache Spark Analytics Made Simple PDF
76 pages
Unit-5 Spark SQL and Spark Streaming
No ratings yet
Unit-5 Spark SQL and Spark Streaming
24 pages
No SQL Database in Bda
No ratings yet
No SQL Database in Bda
84 pages
Big Data Analytics - Unit 2
No ratings yet
Big Data Analytics - Unit 2
10 pages
Apache Spark Engine
100% (1)
Apache Spark Engine
82 pages
BDA U1
No ratings yet
BDA U1
80 pages
Unit-1 Introduction to Data Analytics.pptx
No ratings yet
Unit-1 Introduction to Data Analytics.pptx
35 pages
Big Data Analytics (R18a0529)
No ratings yet
Big Data Analytics (R18a0529)
134 pages
Big Data Analysis Using Apache Spark Mllib and Hadoop Hdfs With Scala and Java
No ratings yet
Big Data Analysis Using Apache Spark Mllib and Hadoop Hdfs With Scala and Java
8 pages
Spark With Bigdata
No ratings yet
Spark With Bigdata
94 pages
Spark: Prepared by Dulari Bhatt
No ratings yet
Spark: Prepared by Dulari Bhatt
19 pages
BDA2023Outline
No ratings yet
BDA2023Outline
7 pages
Big Data Lec4
No ratings yet
Big Data Lec4
38 pages
Module 3
No ratings yet
Module 3
51 pages
Cse3002 Big Data m3 Detailed
No ratings yet
Cse3002 Big Data m3 Detailed
39 pages
Big Data Analytics Digital Notes
No ratings yet
Big Data Analytics Digital Notes
119 pages
Spark SQL - Relational Data Processing in Spark
No ratings yet
Spark SQL - Relational Data Processing in Spark
12 pages
Sparks QL Sig Mod 2015
No ratings yet
Sparks QL Sig Mod 2015
12 pages
Big Data Analytics 0th Lecture
No ratings yet
Big Data Analytics 0th Lecture
19 pages
Syllabus
No ratings yet
Syllabus
2 pages
Unit 1 Big Data
No ratings yet
Unit 1 Big Data
124 pages
Data Engineering with Scala and Spark: Build streaming and batch pipelines that process massive amounts of data using Scala
From Everand
Data Engineering with Scala and Spark: Build streaming and batch pipelines that process massive amounts of data using Scala
Eric Tome
No ratings yet
Mastering Big Data and Hadoop: From Basics to Expert Proficiency
From Everand
Mastering Big Data and Hadoop: From Basics to Expert Proficiency
William Smith
No ratings yet
Big Data Analytics
From Everand
Big Data Analytics
Venkat Ankam
No ratings yet
IOT Mod 5 Overview
No ratings yet
IOT Mod 5 Overview
5 pages
Sa 2
No ratings yet
Sa 2
8 pages
SAP Overview
No ratings yet
SAP Overview
61 pages
SAP Overview
No ratings yet
SAP Overview
61 pages
FS Mod 3
No ratings yet
FS Mod 3
34 pages
Automobile Engg July 2022 With Solution (2018 Scheme)
No ratings yet
Automobile Engg July 2022 With Solution (2018 Scheme)
15 pages
Cry R 2
No ratings yet
Cry R 2
6 pages
Crypto 5th Modulenotes
No ratings yet
Crypto 5th Modulenotes
22 pages
Crypto Super-Imp-Tie-23
No ratings yet
Crypto Super-Imp-Tie-23
2 pages
Project Description ENN570 2020
No ratings yet
Project Description ENN570 2020
2 pages
Chap4 PDF
No ratings yet
Chap4 PDF
64 pages
Object Oriented Programming using Java 1st edition Edition Kendal S. - Download the ebook now for an unlimited reading experience
100% (1)
Object Oriented Programming using Java 1st edition Edition Kendal S. - Download the ebook now for an unlimited reading experience
47 pages
Class XII (As Per CBSE Board) : Computer Science
No ratings yet
Class XII (As Per CBSE Board) : Computer Science
27 pages
PROG8080-20S-Sec1-Programming: Database Management LAB #1 Amandeep Singh Student ID: 8665092
No ratings yet
PROG8080-20S-Sec1-Programming: Database Management LAB #1 Amandeep Singh Student ID: 8665092
6 pages
C Tadm70 22
No ratings yet
C Tadm70 22
5 pages
Troubleshooting FortiOS Handbook v3 For
No ratings yet
Troubleshooting FortiOS Handbook v3 For
199 pages
Microsoft Azure Resume
100% (1)
Microsoft Azure Resume
1 page
Project 1
No ratings yet
Project 1
4 pages
Unit-3 Part 1 Normalization
No ratings yet
Unit-3 Part 1 Normalization
31 pages
Barberia de Jeco
No ratings yet
Barberia de Jeco
30 pages
Business Intelligence A Maturity Model Covering Common PDF
No ratings yet
Business Intelligence A Maturity Model Covering Common PDF
12 pages
DOT Research Associates Recruitment 2024 Notification
No ratings yet
DOT Research Associates Recruitment 2024 Notification
19 pages
The Reasons Why You Need To Replace EOL Switches
No ratings yet
The Reasons Why You Need To Replace EOL Switches
1 page
9d25206a Secure Software Engineering
No ratings yet
9d25206a Secure Software Engineering
1 page
BIM Application in Malaysian Construction Industry - 2022620031 - Slide
No ratings yet
BIM Application in Malaysian Construction Industry - 2022620031 - Slide
21 pages
B Acs Ise Migration Ug 26
No ratings yet
B Acs Ise Migration Ug 26
56 pages
WINSEM2020-21 ECE3502 ETH VL2020210501414 REFERENCE MATERIAL Internet of Things-2 Syllabus
No ratings yet
WINSEM2020-21 ECE3502 ETH VL2020210501414 REFERENCE MATERIAL Internet of Things-2 Syllabus
3 pages
SAP ASE Performance and Tuning Series Improving Performance Statistical Analysis en PDF
No ratings yet
SAP ASE Performance and Tuning Series Improving Performance Statistical Analysis en PDF
62 pages
IJCRT_263105
No ratings yet
IJCRT_263105
6 pages
5G Iot PPT
No ratings yet
5G Iot PPT
10 pages
Chapter9 (Databases)
No ratings yet
Chapter9 (Databases)
8 pages
Abhishek Shukla
No ratings yet
Abhishek Shukla
2 pages
Data Contracts Early Release 042024
No ratings yet
Data Contracts Early Release 042024
52 pages
Campus Hiring Pre-Placement Deck - 2024
No ratings yet
Campus Hiring Pre-Placement Deck - 2024
22 pages
Automatic Secure Door Lock
No ratings yet
Automatic Secure Door Lock
47 pages
23329538
No ratings yet
23329538
88 pages
Brochure - Wireless Transport Systems For 5G, Rural Broadband and Private Networks Ed.01
No ratings yet
Brochure - Wireless Transport Systems For 5G, Rural Broadband and Private Networks Ed.01
4 pages
PrivyID DSM (2020) PDF
No ratings yet
PrivyID DSM (2020) PDF
51 pages

BDACh 05 L03 A Spark QLAnalytics

Uploaded by

BDACh 05 L03 A Spark QLAnalytics

Uploaded by

Lesson 3

Data Analytics using Apache®

Refer Figure 5.4: Layer 1 Data Storage: Store

Refer Figure 5.4: Layer 2 Data Storage: Store

Refer Figure 5.4: Layer 1 Data Storage: Store

Refer Figure 5.4: Layer 2a Preprocessing:

Refer Figure 5.4: Layer 2b ETL

Refer Figure 5.4: Layer 4 Alerts to

Refer Figure 5.4: Layer 5 Applications for

Refer Figure 5.5 Data Flow

 Data into Spark SQL /HiveQL/

CassandraCQL for Querying Processing

• Spark SQL API JDBC connectivity

• An application reads the data tables in

• Enables a remote Hive client or JDBC

• HDFS is highly reliable for very long

• Implements the sub-modules in the

• A distributed collection of data

• Created from different data sources,

You might also like