0% found this document useful (0 votes)

28 views

The Future of Real-Time in Spark: Reynold Xin @rxin

Structured Streaming provides a simple way to perform streaming analytics using Spark SQL's DataFrame API. It allows users to write streaming queries on continuously updating dataframes using the same SQL-like queries as batch queries. The queries are automatically executed incrementally to update the results as new data arrives. This unifies streaming, interactive, and batch processing by allowing queries to be changed at runtime, results to be served through databases, and ML models to be built and applied continuously on the streaming data. Some challenges in building continuous applications like integration with non-streaming systems and complex streaming programming models can be addressed using Structured Streaming.

Uploaded by

zameer

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views

The Future of Real-Time in Spark: Reynold Xin @rxin

Uploaded by

zameer

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 30

The Future of

Real-Time in Spark
Reynold Xin @rxin
Spark Summit, New York, Feb 18, 2016
Why Real-Time?
Making decisions faster is valuable.
• Preventing credit card fraud
• Monitoring industrial machinery
• Human-facing dashboards
• …
Streaming Engine
Noun.

Takes an input stream and produces an output stream.

Spark Unified Stack

SQL Streaming MLlib GraphX

Spark Core
Spark Unified Stack

SQL Streaming
Streaming MLlib GraphX

Spark Core

Introduced 3 years ago in Spark 0.7

50% users consider most important part of Spark
Spark Streaming

• First attempt at unifying streaming and batch

• State management built in
• Exactly once semantics
• Features required for large clusters
• Straggler mitigation, dynamic load balancing, fast fault-recovery
Streaming computations don’t run in isolation.
Use Case: Fraud Detection
ANOMALY

Ad-hoc analyze historic data

STREAM

Machine learning model

continuously updates
to detect new anomalies
Continuous Application
noun.

An end-to-end application that acts on real-time data.

Challenges Building Continuous
Applications
Integration with non-streaming systems often an after-thought
• Interactive, batch, relational databases, machine learning, …

Streaming programming models are complex

Integration Example
Stream MySQL
(home.html, 10:08)
(product.html, 10:09)
Streaming
(home.html, 10:10) engine
... Page Minute Visits

What can go wrong? home 10:09 21

pricing 10:10 30
• Late events
... ... ...
• Partial outputs to MySQL
• State recovery on failure
• Distributed reads/writes
• ...
Complex Programming Models

Data
Late arrival, varying distribution over time, …

Processing Output
Business logic change & new ops How do we define
(windows, sessions) output over time & correctness?
Structured Streaming
The simplest way to perform streaming analytics
is not having to reason about streaming.
Spark 1.3 Spark 2.0
Static DataFrames Infinite DataFrames

Single API !
Structured Streaming
High-level streaming API built on Spark SQL engine
• Runs the same queries on DataFrames
• Event time, windowing, sessions, sources & sinks

Unifies streaming, interactive and batch queries

• Aggregate data in a stream, then serve using JDBC
• Change queries at runtime
• Build and apply ML models
Trigger: every 1 sec
Model 1 2 3
Time

data up data up data up

Input
to PT 1 to PT 2 to PT 3

Query
Result output for output for output for
data at 1 data at 2 data at 3

complete
Output output
Trigger: every 1 sec
Model 1 2 3
Time

data up data up data up

Input
to PT 1 to PT 2 to PT 3

Query
Result output for output for output for
data at 1 data at 2 data at 3

delta
Output output
Model Details
Input sources: append-only tables

Queries: new operators for windowing, sessions, etc

Triggers: based on time (e.g. every 1 sec)

Output modes: complete, deltas, update-in-place

Example: ETL
Input: files in S3

Query: map (transform each record)

Trigger: “every 5 sec”

Output mode: “new records”, into S3 sink

Example: Page View Count
Input: records in Kafka

Query: select count(*) group by page, minute(evtime)

Trigger: “every 5 sec”

Output mode: “update-in-place”, into MySQL sink

Note: this will automatically update “old” records on late data!

Execution
Logically:
DataFrame
DataFrame operations on static data
(i.e. as easy to understand as batch)

Logical Plan
Physically:
Spark automatically runs the query in
Catalyst optimizer
streaming fashion
(i.e. incrementally and continuously) Continuous,
incremental execution
Example: Batch Aggregation
logs = ctx.read.format("json").open("s3://logs")

logs.groupBy(logs.user_id).agg(sum(logs.time))
.write.format("jdbc")
.save("jdbc:mysql//...")
Example: Continuous Aggregation
logs = ctx.read.format("json").stream("s3://logs")

logs.groupBy(logs.user_id).agg(sum(logs.time))
.write.format("jdbc")
.stream("jdbc:mysql//...")
Automatic Incremental Execution
T=0 Aggregate

T=1 Aggregate

T=2 Aggregate

…
Rest of Spark will follow
• Interactive queries should just work

• Spark’s data source API will be updated to support seamless

streaming integration
• Exactly once semantics end-to-end
• Different output modes (complete, delta, update-in-place)

• ML algorithms will be updated too

What can we do with this that’s hard
with other engines?
Ad-hoc, interactive queries

Dynamic changing queries

Benefits of Spark: elastic scaling, straggler mitigation, etc

Use Case: Fraud Detection
ANOMALY

Analyze Historic Data

STREAM

Machine Learning Model

continuously updates
to detect new anomalies
Timeline
Spark 2.0 Spark 2.1 +
• API foundation • Continuous SQL
• Kafka, file systems, and • BI app integration
databases • Other streaming sources / sinks
• Event-time aggregations • Machine learning
Thank you.
@rxin

LECTURE MANUAL-SLE301v15-SLE Advanced Administration Secure
100% (1)
LECTURE MANUAL-SLE301v15-SLE Advanced Administration Secure
710 pages
Final Exam Questions & Answers
100% (4)
Final Exam Questions & Answers
6 pages
PySpark+Slides v1
No ratings yet
PySpark+Slides v1
458 pages
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
8- Streaming 3 - Spark Flink
No ratings yet
8- Streaming 3 - Spark Flink
52 pages
b0m33bdt-7p-spark-databricks-streaming_2023_en
No ratings yet
b0m33bdt-7p-spark-databricks-streaming_2023_en
50 pages
Stream Processing With: Tamás István Ujj
No ratings yet
Stream Processing With: Tamás István Ujj
27 pages
Lecture #7.2 - Apache Spark - Streaming API
No ratings yet
Lecture #7.2 - Apache Spark - Streaming API
37 pages
unit 4 Streaming data
No ratings yet
unit 4 Streaming data
4 pages
Real Time Analytics With Spark and Kafka
No ratings yet
Real Time Analytics With Spark and Kafka
53 pages
Learning Real-Time Processing With Spark Streaming - Sample Chapter
No ratings yet
Learning Real-Time Processing With Spark Streaming - Sample Chapter
30 pages
Spark Streaming
No ratings yet
Spark Streaming
99 pages
4a.introduction to Apache Spark
No ratings yet
4a.introduction to Apache Spark
28 pages
Unit Iii
No ratings yet
Unit Iii
19 pages
Lecture 7_1-spark_streaming
No ratings yet
Lecture 7_1-spark_streaming
25 pages
Spark Streaming
No ratings yet
Spark Streaming
19 pages
Lec 05
No ratings yet
Lec 05
10 pages
2018 02 08 Whats New in Apache Spark 2 180213220045
No ratings yet
2018 02 08 Whats New in Apache Spark 2 180213220045
57 pages
Ade Mod 1 Incremental Processing With Spark Structured Streaming
No ratings yet
Ade Mod 1 Incremental Processing With Spark Structured Streaming
73 pages
Lecture 11
No ratings yet
Lecture 11
31 pages
Ebin - Pub Hands On Guide To Apache Spark 3 Build Scalable Computing Engines For Batch and Stream Data Processing 1nbsped 1484293797 9781484293799
100% (1)
Ebin - Pub Hands On Guide To Apache Spark 3 Build Scalable Computing Engines For Batch and Stream Data Processing 1nbsped 1484293797 9781484293799
307 pages
Spark Questions Imp
No ratings yet
Spark Questions Imp
33 pages
Real-Time Data Pipelines Made Easy with Structured Streaming in Apache Spark
No ratings yet
Real-Time Data Pipelines Made Easy with Structured Streaming in Apache Spark
51 pages
UNIT V
No ratings yet
UNIT V
35 pages
Full download Hands-on Guide to Apache Spark 3: Build Scalable Computing Engines for Batch and Stream Data Processing 1st Edition Alfonso Antolínez García pdf docx
100% (2)
Full download Hands-on Guide to Apache Spark 3: Build Scalable Computing Engines for Batch and Stream Data Processing 1st Edition Alfonso Antolínez García pdf docx
47 pages
Hands On Guide To Apache Spark 3 Build Scalable Computing Engines For Batch and Stream Data Processing 1nbsped 1484293797 9781484293799
No ratings yet
Hands On Guide To Apache Spark 3 Build Scalable Computing Engines For Batch and Stream Data Processing 1nbsped 1484293797 9781484293799
407 pages
Bda Unit-4 PDF
No ratings yet
Bda Unit-4 PDF
63 pages
Data Pipelines From Zero to Solid
No ratings yet
Data Pipelines From Zero to Solid
16 pages
Real time data streaming new techniques
No ratings yet
Real time data streaming new techniques
5 pages
Py Spark 3 Quick Reference Guide
No ratings yet
Py Spark 3 Quick Reference Guide
2 pages
Bài Giảng Spark Streaming
No ratings yet
Bài Giảng Spark Streaming
75 pages
Spark Tutorial
No ratings yet
Spark Tutorial
77 pages
BDA U4 copy
No ratings yet
BDA U4 copy
49 pages
UNIT V Streaming
No ratings yet
UNIT V Streaming
22 pages
Apache Spark Ecosystem - Complete Spark Components Guide: 1. Objective
No ratings yet
Apache Spark Ecosystem - Complete Spark Components Guide: 1. Objective
11 pages
Using Spark On Cori: Lisa Gerhardt, Evan Racah NERSC New User Training
No ratings yet
Using Spark On Cori: Lisa Gerhardt, Evan Racah NERSC New User Training
14 pages
Extended Spark Interview QA
No ratings yet
Extended Spark Interview QA
3 pages
Spark Devops
0% (1)
Spark Devops
301 pages
Introduction to Spark
No ratings yet
Introduction to Spark
30 pages
Apache Spark
No ratings yet
Apache Spark
62 pages
lec19
No ratings yet
lec19
24 pages
DE Bootcamp _ Week 3 Day 2
No ratings yet
DE Bootcamp _ Week 3 Day 2
4 pages
T09 Data Streaming
No ratings yet
T09 Data Streaming
52 pages
20J41A0514-Big Data Spark
No ratings yet
20J41A0514-Big Data Spark
12 pages
Hands-on Guide to Apache Spark 3: Build Scalable Computing Engines for Batch and Stream Data Processing Alfonso Antolínez García download
100% (1)
Hands-on Guide to Apache Spark 3: Build Scalable Computing Engines for Batch and Stream Data Processing Alfonso Antolínez García download
79 pages
bda
No ratings yet
bda
4 pages
Day5 Patterns Use Cases
No ratings yet
Day5 Patterns Use Cases
45 pages
DBT Unit4 PDF
No ratings yet
DBT Unit4 PDF
152 pages
lec19
No ratings yet
lec19
23 pages
Mod4 Bda
No ratings yet
Mod4 Bda
14 pages
dspl_casestidy.docx
No ratings yet
dspl_casestidy.docx
3 pages
BDA UNIT-III-1
No ratings yet
BDA UNIT-III-1
29 pages
Spark A To Z
No ratings yet
Spark A To Z
63 pages
Architecture and Components of Spark
No ratings yet
Architecture and Components of Spark
6 pages
Spark2x: Big Data Huawei Course
No ratings yet
Spark2x: Big Data Huawei Course
25 pages
Spark Final Theory
No ratings yet
Spark Final Theory
19 pages
4 Spark SBP
No ratings yet
4 Spark SBP
74 pages
Spark 101
No ratings yet
Spark 101
25 pages
Data Pipelines From Zero To Solid
No ratings yet
Data Pipelines From Zero To Solid
58 pages
Learning Programming and Computer Science: 1, #1
From Everand
Learning Programming and Computer Science: 1, #1
MATHY WISDOM
No ratings yet
Learning Apache Spark 2
From Everand
Learning Apache Spark 2
Muhammad Asif Abbasi
No ratings yet
Dataflow and Reactive Programming Systems
From Everand
Dataflow and Reactive Programming Systems
Matt Carkci
No ratings yet
Top 40 Interview Questions On Azure 1721030940
No ratings yet
Top 40 Interview Questions On Azure 1721030940
6 pages
OS - Chapter - 5 - File System
No ratings yet
OS - Chapter - 5 - File System
30 pages
DBMS Unit1
No ratings yet
DBMS Unit1
17 pages
Big Data 11 TH Class
No ratings yet
Big Data 11 TH Class
15 pages
3.1 - Programmatic Sharing - Programmatic Apex Sharing
No ratings yet
3.1 - Programmatic Sharing - Programmatic Apex Sharing
26 pages
Linux Commands: Name: Nisarg Shah Registration No: 16MES0057 Worksheet-1
No ratings yet
Linux Commands: Name: Nisarg Shah Registration No: 16MES0057 Worksheet-1
4 pages
Temenos On Aws
100% (2)
Temenos On Aws
3 pages
Unit 15
No ratings yet
Unit 15
19 pages
Artikel Ilmiah Nizar Fachri - Acc Revisi Martadi 17 Juni 2020
No ratings yet
Artikel Ilmiah Nizar Fachri - Acc Revisi Martadi 17 Juni 2020
10 pages
Stacks and Queues
No ratings yet
Stacks and Queues
18 pages
CP Unit Vi R16
No ratings yet
CP Unit Vi R16
10 pages
Tutorial 1 Solutions
No ratings yet
Tutorial 1 Solutions
3 pages
Role of Database As A Business Resource
100% (1)
Role of Database As A Business Resource
1 page
Document 1492129
No ratings yet
Document 1492129
21 pages
SQL Server 2012 Feature Pack Instructions
No ratings yet
SQL Server 2012 Feature Pack Instructions
1 page
Tugas Membuat Tabel Data Barang, Pembeli, Dan Transaksi
No ratings yet
Tugas Membuat Tabel Data Barang, Pembeli, Dan Transaksi
3 pages
Azure Databricks An Introduction
No ratings yet
Azure Databricks An Introduction
54 pages
Database Management Answers
No ratings yet
Database Management Answers
2 pages
Answers AlgoSamplePaper
No ratings yet
Answers AlgoSamplePaper
9 pages
FREESWITCH Mod - CDR - CSV 250519 1726 5024
No ratings yet
FREESWITCH Mod - CDR - CSV 250519 1726 5024
7 pages
Back To 'Certificate Final Exam/': Incorrect 0.00 Points Out of 1.00
No ratings yet
Back To 'Certificate Final Exam/': Incorrect 0.00 Points Out of 1.00
15 pages
Bindiya - 144628950
No ratings yet
Bindiya - 144628950
3 pages
PROJECT Toko Mainan Netbeans Database
No ratings yet
PROJECT Toko Mainan Netbeans Database
27 pages
Cambridge International AS & A Level: Computer Science 9618/11
No ratings yet
Cambridge International AS & A Level: Computer Science 9618/11
9 pages
CSV Import Guide
No ratings yet
CSV Import Guide
3 pages
Partitioning in Datastage
No ratings yet
Partitioning in Datastage
27 pages
Mastering PostgreSQL
0% (1)
Mastering PostgreSQL
11 pages
Rhel Basics
No ratings yet
Rhel Basics
4 pages

The Future of Real-Time in Spark: Reynold Xin @rxin

Uploaded by

The Future of Real-Time in Spark: Reynold Xin @rxin

Uploaded by

The Future of

Takes an input stream and produces an output stream.

SQL Streaming MLlib GraphX

Introduced 3 years ago in Spark 0.7

• First attempt at unifying streaming and batch

Ad-hoc analyze historic data

Machine learning model

An end-to-end application that acts on real-time data.

Streaming programming models are complex

What can go wrong? home 10:09 21

Unifies streaming, interactive and batch queries

data up data up data up

data up data up data up

Queries: new operators for windowing, sessions, etc

Triggers: based on time (e.g. every 1 sec)

Output modes: complete, deltas, update-in-place

Query: map (transform each record)

Trigger: “every 5 sec”

Output mode: “new records”, into S3 sink

Query: select count(*) group by page, minute(evtime)

Trigger: “every 5 sec”

Output mode: “update-in-place”, into MySQL sink

Note: this will automatically update “old” records on late data!

• Spark’s data source API will be updated to support seamless

• ML algorithms will be updated too

Dynamic changing queries

Benefits of Spark: elastic scaling, straggler mitigation, etc

Analyze Historic Data

Machine Learning Model

You might also like