0% found this document useful (0 votes)

11 views

Mining Data Streams

The document discusses mining data streams, highlighting the differences between batch processing and stream processing, which involves real-time data analysis from various sources. It covers key concepts such as stream queries, sampling techniques, filtering streams, and statistical moments, along with tools and architectures used in stream processing. Additionally, it introduces algorithms like DGIM for counting 1s in binary streams and decaying windows for managing data relevance over time.

Uploaded by

nextapai.blog

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views

Mining Data Streams

Uploaded by

nextapai.blog

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 37

Mining Data Streams

Batch Processing
Batch processing involves collecting and processing data in large batches at scheduled intervals, suitable for
tasks like historical reporting or large-scale data analysis.
Data Streams
• A data stream is a continuous flow of data, typically at a high velocity, that are
generated in real-time from various sources, such as sensors, devices, applications,
or social media platforms.
Characteristics:
• Continuous flow
• High velocity
• Dynamic nature
• Ephemeral data
• Real-time processing
Stream Queries
• Stream queries are specialized queries designed to extract insights and perform
analysis on data that is continuously generated and processed in real-time.
Key Features:
• Real Time Processing
• Continuous Execution
• Limited Storage
Technical Considerations
• Data Velocity
• Windowing
• Resource Optimization
• Event Timing & Ordering
Stream Processing
• Stream processing analyzes data in real-time as it arrives, making
it ideal for applications requiring low latency and immediate
responses, such as fraud detection or real-time analytics.
Sample Query
Find the number of unique users over the past month using SQL.

SELECT COUNT(DISTINCT name) AS unique_users

FROM Logins
WHERE time >= NOW() - INTERVAL 30 DAY;
Terminologies in stream data
• Stream
• Event
• Window
• State
• Event Time
• Processing Time
• Water mark
Data Stream Architecture

Stream Stream
Working
Data Source Ingestion Processing
Stage
Layer Layer

Visualizatio Query Archival

Output
ns Engine Stage
Stream Processing Tools
Kinesis Data
Feature/Tool Kafka Streams Apache Flink Spark Streaming Apache Beam
Analytics
Processing Stream processing Stream & batch Micro-batch Unified stream &
Stream processing
Model with SQL processing processing batch
Low latency
Real-time SQL Low latency
Latency Low latency Low latency (depends on
queries (micro-batches)
engine)
Yes (via Kafka Yes Yes Yes (via execution
Fault Tolerance Yes (via AWS)
distributed sys) (checkpointing) (checkpointing) engine)
Stateful
Yes Yes Yes Yes Yes
Operations
High (Java Medium (complex Medium Medium (API for
Ease of Use High (SQL)
library) setup) (Java/Scala API) multiple engines)
Any supported
Standalone (client
Deployment AWS managed Cluster or Cloud Cluster or Cloud engine (Flink,
library)
Spark, etc.)
Data Source
Category Tools/Platforms
MQTT (Message Queuing Telemetry Transport),
1. Sensors and IoT Devices CoAP(Constrained Application Protocol), Amazon IoT
Core, Google Cloud IoT Core
2. Web Logs Fluentd, Logstash, Kafka
3. Social Media Twitter API, Facebook Graph API, Google Ads API

Role Tool Name

Logger (Producer) Filebeat, Logstash
Messenger (Kafka) Apache Kafka
Apache Flink, Apache
Helper (Consumer) Spark, Custom
Consumers
Data Ingestion Layer
Message Brokers:
•Function: Manage data flow between producers (IoT devices, applications) and
consumers (data processing systems).
•Example Technologies:
•Apache Kafka, RabbitMQ, Amazon SQS
Role: Queue and route data reliably for further processing, ensuring no data loss.

Streaming Services:
•Function: Handle real-time data processing, enabling immediate insights and actions.
•Example Technologies:
•Amazon Kinesis, Apache Flink, Apache Pulsar
Role: Process data in real time for analytics, monitoring, or triggering actions.
Stream Processing Layer
• It performs transformations, aggregations, filtering, and other operations on
streaming data, enabling real-time analytics, decision-making, and actions.
Two types of processing:
• Stateless Processing: Processes each event independently (e.g., filtering,
transformation).
• Stateful Processing: Maintains a context or state for operations (e.g., counting
events over a time window).
Data Stream Architecture Tools
Category Tools
Data Sources MQTT, Fluentd, Twitter API, Debezium

Stream Ingestion Apache Kafka, RabbitMQ, Amazon Kinesis, Google Cloud Pub/Sub

Stream Processing Apache Flink, Apache Storm, Spark Streaming, AWS Lambda

Working Storage Redis, Memcached, InfluxDB, Prometheus

Archival Storage Amazon S3, HDFS, Snowflake

Query Engine KSQL, Flink SQL, Presto, Apache Calcite
Visualization Tableau, Power BI
Output Actions PagerDuty, Apache NiFi, AWS EventBridge
Sampling Data Streams
Sampling data streams involves selecting a subset of data points from a continuous,
high-velocity data flow to make analysis manageable and efficient.

Key Features:
 Handling Large data volumes
 Real time analysis
 Resource Efficiency
 Preserving Representativeness
 Dealing with concept drift
 Reducing noise
Sampling Techniques
 Reservoir Sampling
 Sliding Window Sampling
 Systematic Sampling
 Stratified Sampling
 Priority Sampling
 Time-Based Sampling
 Bernoulli Sampling
Filtering Streams
Filtering Streams involves selecting or removing specific data elements from a data
stream based on predefined criteria.
Filtering criteria’s:
 Value based filtering
 Pattern matching
 Time Based Filtering
 Threshold Based Filtering
 Condition based filtering
Filtering Mechanisms
 Pre Filter
 Inline Filter
 Post Filter
Filtering Techniques
 Simple Filters
 Bloom Filters
 Sliding Window Filters (Time, count)
 Statistical Filters  Attribute-Based Filtering
 Content-Based Filtering  Hierarchical Filters
 Real-Time Adaptive Filters
 De-duplication Filters
 Noise Reduction Filters
Bloom Filter
• Consider a bloom filter of size 5 & 2 hash functions.
• H1(x)=x mod 5
• H2(x)=(2x+6)mod 5

Insert the 10 & 7 then check the existence of 14 & 15.

Bloom Filter
Counting Distinct Elements
 Exact Counting
 Hyper Loglog
 Flajolet-martin
 Count min Sketch
 Bloom Filters
 Sliding Window
Estimate Distinct Elements in a Data
Stream Using the Hyper loglog Algorithm
Stream:{23,14,8,23,23,8,19,14,19}
Estimate Distinct Elements in a Data Stream
Using the Flajolet-Martin Algorithm
1) Stream: {1,4,2,1,2,4,3}
Hash Function: h(x) = (3x+1)mod 5

2) Stream: {4, 2, 5 ,9, 1, 6, 3, 7}

h(x) =x + 6 mod 32
Moments
• Moments are statistical measures that summarize the distribution of elements in a
stream.
• Thetask of computing "moments" revolves around analyzing the distribution of
frequencies of various elements within a stream.
• Theproblem of "computing moments" is all about looking at how often different
things show up in a list or stream. Moments help us understand how many different
things there are, how many times each thing appears, and how even or uneven the
appearances are.
Calculating Moments
0th Moment (M₀):
• There are 3 distinct products in the stream.

1st Moment (M₁):

• A total of 6 products were sold.

2nd Moment (M₂):

• The distribution of sales is not equal, with Shoes being the most popular
product.
2nd Moment-surprise number
DGIM Algorithm
• Datar-Gionis-Indyk-Motwani (DGIM) Algorithm is a clever and efficient way to
approximate the count of 1s in the last N bits of a binary data stream.
• Bucket is a compact and summarized representation of consecutive 1s in a binary
stream.
• Itis designed to reduce memory usage while keeping track of the approximate count
of 1s in the most recent N bits of the stream.
Bucket Rules
• Every bucket must represent at least one occurrence of a 1.
• Bucket should start with one.
• Bucket Sizes are Powers of 2
• At Most Two Buckets per Size
• Length of the bucket is equal to the number of 1’s in it.
• Bucket size should increase
Find the 1’s
• Stream: 101011110010001100101
• Count the number of 1 in recent 18 bits.

• Stream:10110110110110010

• Count the number of 1

Decaying Windows
• A decayingwindow is a technique used in algorithms like streaming data analysis,
where the contribution of older data decreases over time, typically based on a decay
factor.
Types:
• Exponential Decay
• Linear Decay
• Log Decay
Exponential Decay
• The weight of data decreases exponentially over time.
Exponential Decay
• 10, 20, 30, 40, 50.
• α=0.8

•5 time slots
Linear Decay
• The weight of data decreases linearly over time.
Log Decay
• The weight of data decreases according to a logarithmic function.
Thank you

Unit 4 Notes PDF
100% (2)
Unit 4 Notes PDF
27 pages
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
Unit 3
No ratings yet
Unit 3
30 pages
Big Data Unit III
No ratings yet
Big Data Unit III
20 pages
Bda Mid Ans
No ratings yet
Bda Mid Ans
18 pages
Bigdata Unit-Ii
No ratings yet
Bigdata Unit-Ii
33 pages
Big Data 3rd Unit
No ratings yet
Big Data 3rd Unit
16 pages
unit-3 notes
No ratings yet
unit-3 notes
10 pages
Bigdata-Mining Data Streams
No ratings yet
Bigdata-Mining Data Streams
19 pages
Unit 2 BD Mining Data Streams
No ratings yet
Unit 2 BD Mining Data Streams
34 pages
DA Unit 3
No ratings yet
DA Unit 3
12 pages
Big Data Analytics Unit-2
No ratings yet
Big Data Analytics Unit-2
11 pages
TRabl StreamProcessing
No ratings yet
TRabl StreamProcessing
79 pages
BDA Unit-4
No ratings yet
BDA Unit-4
12 pages
Module-2-MINING DATA STREAMS
100% (3)
Module-2-MINING DATA STREAMS
17 pages
Bigdata Unit II
No ratings yet
Bigdata Unit II
57 pages
BigData_Mod2
No ratings yet
BigData_Mod2
12 pages
Big Data Analytics - Unit 2 Notes
No ratings yet
Big Data Analytics - Unit 2 Notes
44 pages
Bigdata Unit II
No ratings yet
Bigdata Unit II
19 pages
Big Data IV Nit
No ratings yet
Big Data IV Nit
15 pages
Mod4_DWDM_BTECH
No ratings yet
Mod4_DWDM_BTECH
9 pages
Module II
No ratings yet
Module II
22 pages
Uint 4miningdatastream 230810162429 9d7c02a7
No ratings yet
Uint 4miningdatastream 230810162429 9d7c02a7
11 pages
Swe2011 Bda - III
No ratings yet
Swe2011 Bda - III
53 pages
BDA GTU Study Material Presentations Unit-4 29092021094703AM
No ratings yet
BDA GTU Study Material Presentations Unit-4 29092021094703AM
33 pages
Swe2011 Bda - III
No ratings yet
Swe2011 Bda - III
50 pages
Unit-II BDA
No ratings yet
Unit-II BDA
19 pages
Unit-II (Big Data)
No ratings yet
Unit-II (Big Data)
20 pages
BDA Mod 3
No ratings yet
BDA Mod 3
57 pages
Data Analytics Assignment
No ratings yet
Data Analytics Assignment
20 pages
DWDM - Unit - VII
No ratings yet
DWDM - Unit - VII
42 pages
6- Streaming Part 1
No ratings yet
6- Streaming Part 1
44 pages
Mining Data Streams
No ratings yet
Mining Data Streams
34 pages
BDA-2
No ratings yet
BDA-2
16 pages
Bda M4
No ratings yet
Bda M4
57 pages
Data Analytics Unit 3
No ratings yet
Data Analytics Unit 3
14 pages
Unit II(Big Data)
No ratings yet
Unit II(Big Data)
19 pages
4 Bda Chapter4 Answer
No ratings yet
4 Bda Chapter4 Answer
6 pages
UNIT-II 30-1-24
No ratings yet
UNIT-II 30-1-24
162 pages
a.
No ratings yet
a.
3 pages
Mining&Data Stream Unit-3_removed
No ratings yet
Mining&Data Stream Unit-3_removed
50 pages
MMD3
No ratings yet
MMD3
17 pages
BDA
No ratings yet
BDA
6 pages
Bda Ut-2
No ratings yet
Bda Ut-2
18 pages
Big Data Analytics_Unit 3
No ratings yet
Big Data Analytics_Unit 3
64 pages
Methodologies for Stream Data Processing and Stream Data Systems
No ratings yet
Methodologies for Stream Data Processing and Stream Data Systems
20 pages
Mining Data Streams
No ratings yet
Mining Data Streams
17 pages
Unit 2
No ratings yet
Unit 2
10 pages
UNIT-3 (Mining Data Streams)
No ratings yet
UNIT-3 (Mining Data Streams)
50 pages
Big Data Ppt
No ratings yet
Big Data Ppt
37 pages
BIG_DATA_UNIT_II_NOTES
No ratings yet
BIG_DATA_UNIT_II_NOTES
19 pages
Data Stream Mg
No ratings yet
Data Stream Mg
528 pages
Data Streams: Models and Algorithms
No ratings yet
Data Streams: Models and Algorithms
372 pages
Chapter-5 Stream Processing Part1
No ratings yet
Chapter-5 Stream Processing Part1
32 pages
FALLSEM2024-25_SWE2011_ETH_VL2024250103282_2024-08-19_Reference-Material-I
No ratings yet
FALLSEM2024-25_SWE2011_ETH_VL2024250103282_2024-08-19_Reference-Material-I
53 pages
Real Time Data Stream Processing Engine
No ratings yet
Real Time Data Stream Processing Engine
13 pages
Unit 1 Windowing
No ratings yet
Unit 1 Windowing
23 pages
UNIT 2 BDA
No ratings yet
UNIT 2 BDA
13 pages
Mining Techniques for Streaming Data
No ratings yet
Mining Techniques for Streaming Data
14 pages
Fast Data Processing Systems with SMACK Stack
From Everand
Fast Data Processing Systems with SMACK Stack
Raúl Estrada
No ratings yet
C Important Questions PDF
100% (2)
C Important Questions PDF
9 pages
Module 4
No ratings yet
Module 4
21 pages
Array based codes
No ratings yet
Array based codes
19 pages
Unit 11
No ratings yet
Unit 11
17 pages
DL 1 - ComputerVision With PyTorch Notes
No ratings yet
DL 1 - ComputerVision With PyTorch Notes
304 pages
Algo - Mod12 - NP-Hard and NP-Complete Problems
No ratings yet
Algo - Mod12 - NP-Hard and NP-Complete Problems
56 pages
Daniel Lemire, A Better Alternative To Piecewise Linear Time Series Segmentation, SIAM Data Mining 2007, 2007.
No ratings yet
Daniel Lemire, A Better Alternative To Piecewise Linear Time Series Segmentation, SIAM Data Mining 2007, 2007.
12 pages
Problem Solving
No ratings yet
Problem Solving
106 pages
Transportation Research Part E: Ying-Wei Wang, Chuah-Chih Lin
No ratings yet
Transportation Research Part E: Ying-Wei Wang, Chuah-Chih Lin
9 pages
Algorithms: CSE 202 - Final Examination: March 2015
No ratings yet
Algorithms: CSE 202 - Final Examination: March 2015
5 pages
Quantum Computers
No ratings yet
Quantum Computers
20 pages
Unit 2 Performance Evaluations: Structure Nos
No ratings yet
Unit 2 Performance Evaluations: Structure Nos
18 pages
[FREE PDF sample] (Ebook) Handbook of Approximation Algorithms and Metaheuristics, Second Edition: Methologies and Traditional Applications, Volume 1 by Teofilo F Gonzalez(Editor) ISBN 9781351236416, 1351236415 ebooks
100% (5)
[FREE PDF sample] (Ebook) Handbook of Approximation Algorithms and Metaheuristics, Second Edition: Methologies and Traditional Applications, Volume 1 by Teofilo F Gonzalez(Editor) ISBN 9781351236416, 1351236415 ebooks
67 pages
Solu 3
100% (2)
Solu 3
28 pages
Daa Question Bank All Units
No ratings yet
Daa Question Bank All Units
4 pages
UNIT-V String Matching
No ratings yet
UNIT-V String Matching
24 pages
Design and Analysis of Algorithms (CS3052)
No ratings yet
Design and Analysis of Algorithms (CS3052)
17 pages
1 Introduction
No ratings yet
1 Introduction
5 pages
Strassen's Matrix Mult
No ratings yet
Strassen's Matrix Mult
15 pages
Asymptotic Notations and Complexity Analysis
No ratings yet
Asymptotic Notations and Complexity Analysis
31 pages
Discrete Mathematics Syllabus
No ratings yet
Discrete Mathematics Syllabus
8 pages
(Ebook) Data Structures and Algorithms in C++ by Michael T. Goodrich, Roberto Tamassia, David M. Mount ISBN 9780470383278, 0470383275 pdf download
100% (2)
(Ebook) Data Structures and Algorithms in C++ by Michael T. Goodrich, Roberto Tamassia, David M. Mount ISBN 9780470383278, 0470383275 pdf download
51 pages
12.M.C.A. (2 Years)
No ratings yet
12.M.C.A. (2 Years)
31 pages
Porous Space - Biomimetic of Tafoni in Computation
No ratings yet
Porous Space - Biomimetic of Tafoni in Computation
15 pages
DAA - Notations
No ratings yet
DAA - Notations
12 pages
KMeansPP Soda
No ratings yet
KMeansPP Soda
9 pages
Expanded Sorting Visualizer Project Report
No ratings yet
Expanded Sorting Visualizer Project Report
33 pages
DMC 1933
No ratings yet
DMC 1933
128 pages
Fundamentals of The Analysis of Algorithm Efficiency
No ratings yet
Fundamentals of The Analysis of Algorithm Efficiency
38 pages

Mining Data Streams

Uploaded by

Mining Data Streams

Uploaded by

Mining Data Streams

SELECT COUNT(DISTINCT name) AS unique_users

Visualizatio Query Archival

Role Tool Name

Working Storage Redis, Memcached, InfluxDB, Prometheus

Archival Storage Amazon S3, HDFS, Snowflake

Insert the 10 & 7 then check the existence of 14 & 15.

2) Stream: {4, 2, 5 ,9, 1, 6, 3, 7}

1st Moment (M₁):

2nd Moment (M₂):

• Count the number of 1

You might also like