Clustering & Association Algorithms 4

This document discusses clustering, an unsupervised machine learning technique used to group similar data points together. It describes different types of clustering including exclusive, overlapping, and hierarchical clustering. K-means clustering is discussed as an algorithm that groups data points into a predefined number of clusters based on similarity. The steps of the K-means algorithm are outlined. Association rule mining is also summarized as discovering relationships between data through if-then statements and the Apriori algorithm is presented as a way to generate frequent itemsets and association rules from transactional data.

Uploaded by

sanyengere

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

37 views

Clustering & Association Algorithms 4

Uploaded by

sanyengere

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 17

HIT 2203-BIG DATA & DATA

ANALYTICS
Facilitators:
L.Amos
S.Chaputsira
T.Butsa
ADVANCED ANALYTICS THEORY AND METHODS
CLUSTERING
• Clustering is the process of dividing the dataset into groups,consisting of similar data points
• Points in the same group are as similar as possible
• Points in different groups are as dissimilar as possible e.g group of diners in a restaurant or
items arranged in a mall
• It is used in amazon recommendation systems and Netflix recommended movies
• In retail it is used in market segmentation, analysis of customer shopping behavior
• In banking it is used in customer segmentation and customer credit scoring
TYPES OF CLUSTERING

Exclusive clustering Overlapping clustering Hierarchical clustering

Hard clustering Soft clustering Data points are combined based on similarity
in form of hierarchy
Data points /items belong exclusively to one Data points/items belongs to multiple cluster
cluster e.g k-means e.g Fuzzy/C-means clustering
K-MEANS CLUSTERING
ALGORITHM
• K-means is a clustering algorithm whose main goal is to group similar elements or data
points into a cluster

• K-represents the number of clusters

K-MEANS ALGORITHM
Step 1: Select the number of clusters to be identified i.e select a value for k

Step 2: Randomly select 3 distinct data points

Step 3: Measure the distance between the 1st point to the nearest cluster

Step 4:Assign the 1st point to the nearest cluster

Step 5:Calculating the mean value including the new point for the red cluster
Association Rule Mining, as the name suggests, association rules are simple If/Then
statements that help discover relationships between seemingly independent relational
databases or other data repositories.

Most machine learning algorithms work with numeric datasets and hence tend to be
mathematical. However, association rule mining is suitable for non-numeric, categorical data
and requires just a little bit more than simple counting.
Association rule mining is a procedure which aims to observe frequently occurring patterns,
correlations, or associations from datasets found in various kinds of databases such as
relational databases, transactional databases, and other forms of repositories.
• An association rule has 2 parts:
• an antecedent (if) and
• a consequent (then)
An antecedent is something that’s found in data, and a consequent is an item that is found in
combination with the antecedent e.g

“If a customer buys bread, he’s 70% likely of buying milk.”

bread is the antecedent and milk is the consequent

Simply put, it can be understood as a retail store’s association rule to target their customers
better.
If the above rule is a result of a thorough analysis of some data sets, it can be used to not only
improve customer service but also improve the company’s revenue.

Lets look at an example of an association algorithm in the next slide .

APRIORI-ALGORITHM
• Apriori algorithm uses frequent item sets to generate association rules

• It is based on the concept that a subset of frequent item sets must also be a frequent itemset

• Frequent itemset is an itemset whose support value is greater than the threshold value
STEPS IN APRIORI
The steps followed in the Apriori Algorithm of data mining are:
• Join Step: This step generates (K+1) itemset from K-itemsets by joining each item with
itself.
• Prune Step: This step scans the count of each item in the database. If the candidate item
does not meet minimum support, then it is regarded as infrequent and thus it is removed.
This step is performed to reduce the size of the candidate itemsets.
Transaction List of Item
• T1 • Cabbage, Carrots, Spinach
• T2 • Carrots, Spinach ,Peas
• T3 • Peas, Brocoli
• T4 • Cabbage, Carrots, Peas
• T5 • Cabbage, Carrots, Spinach, Brocoli
• T6 • Cabbage, Carrots,Spinach,Peas
• Find all the frequent item sets by using apriori algorithm where:
min support =50%
• Big Data & Data Analytics (google.com)

Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
CNN Short
No ratings yet
CNN Short
61 pages
Preview - AWS D14.8M-2009 (ISO TR 17844-2004 IDT) PDF
No ratings yet
Preview - AWS D14.8M-2009 (ISO TR 17844-2004 IDT) PDF
8 pages
The Path To Satan
80% (56)
The Path To Satan
93 pages
CNN RNN Assignment Set 4
0% (1)
CNN RNN Assignment Set 4
2 pages
The Relevance of Wood Carving in Paete, Laguna: A Case Study
No ratings yet
The Relevance of Wood Carving in Paete, Laguna: A Case Study
9 pages
File Sharing and Data Duplication Removal in Cloud Using File Checksum
No ratings yet
File Sharing and Data Duplication Removal in Cloud Using File Checksum
3 pages
Query Operation 2021
No ratings yet
Query Operation 2021
35 pages
Unit -3-NNDL- Notes
No ratings yet
Unit -3-NNDL- Notes
17 pages
Object Detection and Tracking Algorithms For Vehicle Counting: A Comparative Analysis
No ratings yet
Object Detection and Tracking Algorithms For Vehicle Counting: A Comparative Analysis
11 pages
Jntuk r20 Unit-V Deep Learning Techniques (WWW - Jntumaterials.co - In)
No ratings yet
Jntuk r20 Unit-V Deep Learning Techniques (WWW - Jntumaterials.co - In)
61 pages
Data Modelling and Visualization
No ratings yet
Data Modelling and Visualization
31 pages
Object Detection Tutorial
No ratings yet
Object Detection Tutorial
9 pages
Calendar Functions in Python
No ratings yet
Calendar Functions in Python
3 pages
Deep Learning (MODULE-3) (1)
No ratings yet
Deep Learning (MODULE-3) (1)
85 pages
UNIT-I_Introduction to Computer Vision
No ratings yet
UNIT-I_Introduction to Computer Vision
45 pages
Text Summarizer
No ratings yet
Text Summarizer
9 pages
Final Twitter - Sentiment - Analysis - Report
100% (1)
Final Twitter - Sentiment - Analysis - Report
14 pages
Location Tracker Device Project Flow and Quotation
No ratings yet
Location Tracker Device Project Flow and Quotation
8 pages
Data Duplication Removal Using File Checksum
No ratings yet
Data Duplication Removal Using File Checksum
2 pages
Data Literacy Questions All Types
No ratings yet
Data Literacy Questions All Types
2 pages
Unit-V Deep Learning Techniques
100% (1)
Unit-V Deep Learning Techniques
31 pages
Chapter 3
No ratings yet
Chapter 3
12 pages
Real Time Currency Converter Ijariie13241
No ratings yet
Real Time Currency Converter Ijariie13241
5 pages
Deep Learning Question Bank(2024-25)
No ratings yet
Deep Learning Question Bank(2024-25)
2 pages
Title: Personality Prediction System Problem Statement:: Literature Review
No ratings yet
Title: Personality Prediction System Problem Statement:: Literature Review
5 pages
Convolutional Neural Network
No ratings yet
Convolutional Neural Network
3 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
Deep Neural Network
No ratings yet
Deep Neural Network
12 pages
Introduction To Computer Vision
No ratings yet
Introduction To Computer Vision
10 pages
How To Make Jarvis Iron Man Computer
No ratings yet
How To Make Jarvis Iron Man Computer
6 pages
U L D R: Nsupervised Earning and Imensionality Eduction
No ratings yet
U L D R: Nsupervised Earning and Imensionality Eduction
58 pages
Music Player Document
No ratings yet
Music Player Document
8 pages
Mca 3 Sem Artificial Intelligence Kca301 2023
No ratings yet
Mca 3 Sem Artificial Intelligence Kca301 2023
2 pages
Machine Learning-4
No ratings yet
Machine Learning-4
18 pages
Unit-5 DS Notes
No ratings yet
Unit-5 DS Notes
19 pages
4-Data Cleaning, Data Integration, Data Transformation, Data Reduction-03-02-2024
No ratings yet
4-Data Cleaning, Data Integration, Data Transformation, Data Reduction-03-02-2024
22 pages
Web Security Unit 4
No ratings yet
Web Security Unit 4
14 pages
Project
No ratings yet
Project
43 pages
Association Rules
No ratings yet
Association Rules
64 pages
Soft Computing UNIT 3
No ratings yet
Soft Computing UNIT 3
10 pages
Chapter_1_Introduction_to_computer_vision_and_image_processing_for
No ratings yet
Chapter_1_Introduction_to_computer_vision_and_image_processing_for
81 pages
Unit 2 (Second Order Methods)
No ratings yet
Unit 2 (Second Order Methods)
9 pages
Data Science PPT PD41
100% (1)
Data Science PPT PD41
8 pages
Machine Learning Midterm
No ratings yet
Machine Learning Midterm
18 pages
Unit 3 Full Notes
No ratings yet
Unit 3 Full Notes
30 pages
DBMS - Unit-3
No ratings yet
DBMS - Unit-3
35 pages
Feature Extraction
No ratings yet
Feature Extraction
14 pages
ML_LAB_Mannual-1
No ratings yet
ML_LAB_Mannual-1
79 pages
Lec01 Conceptlearning
100% (1)
Lec01 Conceptlearning
49 pages
Gujarat Technological University: Computer Engineering Machine Learning SUBJECT CODE: 3710216
No ratings yet
Gujarat Technological University: Computer Engineering Machine Learning SUBJECT CODE: 3710216
2 pages
ADL Unit-3
No ratings yet
ADL Unit-3
21 pages
Unit 3
No ratings yet
Unit 3
34 pages
Speech Emotion Recognition Using Deep Learning
No ratings yet
Speech Emotion Recognition Using Deep Learning
6 pages
ML Lab Observation
100% (1)
ML Lab Observation
44 pages
Sentiment Analysis Report
No ratings yet
Sentiment Analysis Report
4 pages
Single Layer Perceptron Classifier
No ratings yet
Single Layer Perceptron Classifier
62 pages
UNIT 3 DV (1)
No ratings yet
UNIT 3 DV (1)
44 pages
ASHWAni 3D Human Sensing New
No ratings yet
ASHWAni 3D Human Sensing New
1 page
CP4253 Map Unit Iii
No ratings yet
CP4253 Map Unit Iii
26 pages
ML Unit-5
No ratings yet
ML Unit-5
83 pages
Unit 2a
No ratings yet
Unit 2a
31 pages
Distributed File Systems
No ratings yet
Distributed File Systems
75 pages
HIT 400 PROJECT Simba Part 4
No ratings yet
HIT 400 PROJECT Simba Part 4
4 pages
CT Protocols
No ratings yet
CT Protocols
62 pages
Sample Bottle Cleaning
No ratings yet
Sample Bottle Cleaning
6 pages
297 Full
No ratings yet
297 Full
7 pages
Radiology Instrumentation: Mahidol University
No ratings yet
Radiology Instrumentation: Mahidol University
281 pages
Equip
No ratings yet
Equip
40 pages
MUCLecture 2021 112449616
No ratings yet
MUCLecture 2021 112449616
7 pages
BETHEL RARAMI Big Data Assignment
No ratings yet
BETHEL RARAMI Big Data Assignment
11 pages
Intrinsic Flood-Field Uniformity Evaluation
No ratings yet
Intrinsic Flood-Field Uniformity Evaluation
10 pages
Data Acquisition-1
No ratings yet
Data Acquisition-1
23 pages
44b2967d-fdc0-4db7-8674-d1fba260d1d4
No ratings yet
44b2967d-fdc0-4db7-8674-d1fba260d1d4
3 pages
Radiation Dosimetry Presentation-2
No ratings yet
Radiation Dosimetry Presentation-2
49 pages
Final Equipment Assignment
No ratings yet
Final Equipment Assignment
14 pages
Special Needs Final
No ratings yet
Special Needs Final
46 pages
Introduction To Contrast Injectors
No ratings yet
Introduction To Contrast Injectors
22 pages
Artifacts in CT Recognition and Avoidance
No ratings yet
Artifacts in CT Recognition and Avoidance
14 pages
Imaging Assignment 01
No ratings yet
Imaging Assignment 01
13 pages
Edited CT Pres GRP 3
No ratings yet
Edited CT Pres GRP 3
37 pages
Rehabilitation Care of Women With PCOS A
No ratings yet
Rehabilitation Care of Women With PCOS A
3 pages
Extraoral 2018
No ratings yet
Extraoral 2018
14 pages
2024 Market Basket Analysis
No ratings yet
2024 Market Basket Analysis
30 pages
Hit 2203-Big Data & Data Analytics - Lecture - 3
No ratings yet
Hit 2203-Big Data & Data Analytics - Lecture - 3
10 pages
MUCLecture 2022 56897
No ratings yet
MUCLecture 2022 56897
8 pages
CT Generations
No ratings yet
CT Generations
3 pages
MMU CV Format
No ratings yet
MMU CV Format
3 pages
Broas CE152P-2 A71 Experiment6 Module2
No ratings yet
Broas CE152P-2 A71 Experiment6 Module2
8 pages
Identification of Future Printing Industry Trends
No ratings yet
Identification of Future Printing Industry Trends
34 pages
Saving Energy in Home
No ratings yet
Saving Energy in Home
7 pages
English 9 Syllabus 2023-2024
No ratings yet
English 9 Syllabus 2023-2024
2 pages
Hugo Twardowski Footwear Folio 2021 SD
No ratings yet
Hugo Twardowski Footwear Folio 2021 SD
32 pages
Dfid Sustainable Livelihoods Guidance Sheet Section1
No ratings yet
Dfid Sustainable Livelihoods Guidance Sheet Section1
10 pages
Pedestal Design As Per SP 16
100% (1)
Pedestal Design As Per SP 16
2 pages
(TSUN) Datasheet - TS (565W 590W) S8D-132NT N-TYPE
No ratings yet
(TSUN) Datasheet - TS (565W 590W) S8D-132NT N-TYPE
2 pages
Determinism vs. Free Will
No ratings yet
Determinism vs. Free Will
3 pages
Chapter 5. Picking Strategies and Equipment
No ratings yet
Chapter 5. Picking Strategies and Equipment
21 pages
Advanced Program Certificate in Electric Vehicle
No ratings yet
Advanced Program Certificate in Electric Vehicle
12 pages
Physics-1 important questions rgpv diploma
No ratings yet
Physics-1 important questions rgpv diploma
16 pages
2024 WASSCE Super Mock Integrated Science 3
No ratings yet
2024 WASSCE Super Mock Integrated Science 3
8 pages
Day 11_45 Days Challenge by Padhle
No ratings yet
Day 11_45 Days Challenge by Padhle
4 pages
Aged Accounts Receivable Report
No ratings yet
Aged Accounts Receivable Report
1 page
6yrs 10 Lacs Belgaum: CA. Aman Sharma
No ratings yet
6yrs 10 Lacs Belgaum: CA. Aman Sharma
2 pages
Invertible Matrix: Nondegenerate) If There Exists An N-By-N Matrix B Such That
No ratings yet
Invertible Matrix: Nondegenerate) If There Exists An N-By-N Matrix B Such That
8 pages
Lecture#03-Diagramming Arguments (1)
No ratings yet
Lecture#03-Diagramming Arguments (1)
21 pages
Handout
No ratings yet
Handout
17 pages
Lecture Remote Sensing 008 Thermal
No ratings yet
Lecture Remote Sensing 008 Thermal
29 pages
Module Pool Sap Programming
No ratings yet
Module Pool Sap Programming
19 pages
4.1 Electrolysis MCQ QP
No ratings yet
4.1 Electrolysis MCQ QP
12 pages
UK-Kalzip Insulation 040
No ratings yet
UK-Kalzip Insulation 040
2 pages
Write A One-Sided Argumentative Essay About School Rules Related To Students' Appearance
No ratings yet
Write A One-Sided Argumentative Essay About School Rules Related To Students' Appearance
7 pages
Kinematics of Machinery
100% (1)
Kinematics of Machinery
38 pages
Scholastic Rhyming Words
100% (1)
Scholastic Rhyming Words
36 pages

Clustering & Association Algorithms 4

Uploaded by

Clustering & Association Algorithms 4

Uploaded by

HIT 2203-BIG DATA & DATA

Exclusive clustering Overlapping clustering Hierarchical clustering

• K-represents the number of clusters

Step 2: Randomly select 3 distinct data points

Step 4:Assign the 1st point to the nearest cluster

“If a customer buys bread, he’s 70% likely of buying milk.”

bread is the antecedent and milk is the consequent

Lets look at an example of an association algorithm in the next slide .

You might also like