Bigdata PDF
Bigdata PDF
Trends 2018
1
Romi Satria Wahono
• SMA Taruna Nusantara Magelang (1993)
• B.Eng, M.Eng and Ph.D in Software Engineering
Saitama University Japan (1994-2004)
Universiti Teknikal Malaysia Melaka (2014)
• Research Interests in Software Engineering and
Machine Learning
• LIPI Researcher (2004-2007)
• Founder and CEO:
• PT IlmuKomputerCom Braindevs Sistema
• PT Brainmatics Cipta Informatika
• Professional Member of IEEE, ACM and PMI
• IT and Research Award Winners from WSIS (United Nations),
Kemdikbud, LIPI, etc
• SCOPUS/ISI Indexed Journal Reviewer: Information and Software
Technology, Journal of Systems and Software, Software: Practice and
Experience, etc
• Industrial IT Certifications: TOGAF, ITIL, CCNA, etc
• Enterprise Architecture Consultant: KPK, Ristek Dikti, LIPI, DJPK
Kemenkeu, Kemsos, INSW, Telkom, PLN, PJB, UNSRI, etc
2
1. Culture
5. Research 2. Mining
Big Data
Trends 2018
3
1. Culture
5. Research 2. Mining
Big Data
Trends 2018
4. Use
3. Methods
Cases
4
Manusia Memproduksi Data
5
Pertumbuhan Data
kilobyte (kB) 103
Astronomi megabyte (MB) 106
• Sloan Digital Sky Survey gigabyte (GB) 109
• New Mexico, 2000 terabyte (TB) 1012
• 140TB over 10 years
petabyte (PB) 1015
• Large Synoptic Survey Telescope exabyte (EB) 1018
• Chile, 2016
zettabyte (ZB) 1021
• Will acquire 140TB every five days
yottabyte (YB) 1024
6
Perubahan Kultur dan Perilaku
7
Perubahan Kultur dan Perilaku
8
kilobyte (kB) 103
Datangnya Tsunami Data megabyte (MB) 106
gigabyte (GB) 109
10
1. Culture
5. Research 2. Mining
Big Data
Trends 2018
4. Use
3. Methods
Cases
11
Mengubah Data Menjadi Pengetahuan
• Data harus kita olah menjadi pengetahuan
supaya bisa bermanfaat bagi manusia
• Dengan pengetahuan
tersebut, manusia dapat:
• Melakukan estimasi dan prediksi
apa yang terjadi di depan
• Melakukan analisis tentang
asosiasi, korelasi dan
pengelompokan antar data dan atribut
• Membantu pengambilan keputusan dan
pembuatan kebijakan
12
Memining Data Menjadi Pengetahuan
14
Contoh Data di Kampus
• Puluhan ribu data mahasiswa di kampus yang
diambil dari sistem informasi akademik
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
• Seperti apa pengetahuan itu? Rumus, Pola, Aturan
15
Prediksi Kelulusan Mahasiswa
16
Contoh Data di Komisi Pemilihan Umum
• Puluhan ribu data calon anggota legislatif di KPU
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
17
Prediksi Calon Legislatif DKI Jakarta
18
From Stupid Apps to Smart Apps
Stupid Smart
Applications Applications
• Sistem Informasi • Sistem Prediksi
Akademik Kelulusan Mahasiswa
• Sistem Pencatatan • Sistem Prediksi Hasil
Pemilu Pemilu
• Sistem Laporan • Sistem Prediksi
Kekayaan Pejabat Koruptor
• Sistem Pencatatan • Sistem Penentu
Kredit Kelayakan Kredit
19
Perusahaan Pengolah Pengetahuan
• Uber - the world’s largest taxi company, owns
no vehicles
• Google - world’s largest media/advertising
company, creates no content
• Alibaba - the most valuable retailer, has no
inventory
• Airbnb - the world’s largest accommodation
provider, owns no real estate
• Gojek - perusahaan angkutan umum, tanpa
memiliki kendaraan
• Groceria – perusahaan penjual sayur dan
daging di pasar, tanpa punya toko dan barang
dagangan
20
Evolution of Sciences
• Sebelum 1600: Empirical science
• Disebut sains kalau bentuknya kasat mata
5. Research 2. Mining
Big Data
Trends 2018
4. Use
3. Methods
Cases
23
Empat Dimensi Masalah Big Data
24
Big Data Methods
1. Text Mining:
• Mengolah data tidak terstruktur dalam bentuk text,
web, social media, dsb
• Menggunakan metode text processing untuk
mengkonversi data tidak terstruktur menjadi terstruktur
• Kemudian diolah dengan data mining
2. Data Mining:
• Mengolah data terstruktur dalam bentuk tabel yang
memiliki atribut dan kelas
• Menggunakan metode data mining, yang terbagi
menjadi metode estimasi, forecasting, klasifikasi,
klastering atau asosiasi
• Yang dasar berpikirnya menggunakan konsep statistika atau
heuristik ala machine learning
25
Text Mining
Text Processing
26
2
7
Text Mining
Jejak Pornografi di
Indonesia
Text Mining: AHY-AHOK-ANIES
28
Data Mining
1. Estimasi
5. Asosiasi 2. Forecasting
4. Klastering 3. Klasifikasi
29
Dataset (Himpunan Data)
Attribute/Feature Class/Label
Record/
Object/
Sample
Nominal
Numerik
30
1. Estimasi Waktu Pengiriman Pizza
Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)
1 3 3 3 16
2 1 7 4 20
3 2 4 6 18
Label
4 4 6 8 36
...
1000 2 4 2 12
Pembelajaran dengan
Metode Estimasi (Regresi Linier)
32
2. Forecasting Harga Saham
Dataset harga saham dalam
bentuk time series (rentet waktu)
Pembelajaran dengan
Metode Forecasting (Neural Network)
33
Forecasting Kurs Mata Uang
34
3. Klasifikasi Kelulusan Mahasiswa
Label
NIM Gender Nilai Asal IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat
UN Sekolah Waktu
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak
10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak
10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya
...
...
11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya
Pembelajaran dengan
Metode Klasifikasi (C4.5)
35
Pengetahuan Berupa Pohon Keputusan
36
Klasifikasi Sentimen Analisis
37
Klasifikasi Sentimen Analisis
38
4. Klastering Bunga Iris Dataset Tanpa Label
Pembelajaran dengan
Metode Klastering (K-Means)
39
Klastering Jenis Pelanggan
40
Klastering Sentimen Warga
41
5. Aturan Asosiasi Pembelian Barang
Pembelajaran dengan
Metode Asosiasi (FP-Growth)
42
Pengetahuan Berupa Aturan Asosiasi
43
Aturan Asosiasi di Amazon.com
44
Teknologi Pendukung Big Data?
45
46
Magic Quadrant for Advanced
Analytics Platform (Gartner, 2016)
47
Big Data Analytics Solution 2015 (The Forrester Wave)
48
1. Culture
5. Research 2. Mining
Big Data
Trends 2018
4. Use
3. Methods
Cases
49
Private and Commercial Sector
• Marketing: product recommendation, market basket
analysis, product targeting, customer retention
• Finance: investment support, portfolio management,
price forecasting
• Banking and Insurance: credit and policy approval,
money laundry detection
• Security: fraud detection, access control, intrusion
detection, virus detection
• Manufacturing: process modeling, quality control,
resource allocation
• Web and Internet: smart search engines, web
marketing
• Software Engineering: effort estimation, fault
prediction
• Telecommunication: network monitoring, customer
churn prediction, user behavior analysis
50
Use Case: Product Recommendation
4,000,000
Tot.Belanja
3,500,000
Jml.Pcs
3,000,000 Jml.Item
2,500,000
2,000,000
1,500,000
1,000,000
500,000
0
0 5 10 15 20 25 30 35
51
Use Case: Penentuan Kelayakan Kredit
20
15
10 Jumlah kredit
macet
0
2003 2004
52
Use Case: Software Fault Prediction
53
Public and Government Sector
• Finance: exchange rate forecasting, sentiment analysis
• Taxation: adaptive monitoring, fraud detection
• Medicine and Healt Care: hypothesis discovery, disease
prediction and classification, medical diagnosis
• Education: student allocation, resource forecasting
• Insurance: worker’s compensation analysis
• Security: bomb, iceberg detection
• Transportation: simulation and analysis, load estimation
• Law: legal patent analysis, law and rule analysis
• Politic: election prediction
54
Use Case: Deteksi Pencucian Uang
55
Use Case: Prediksi Kebakaran Hutan
FFMC DMC DC ISI temp RH wind rain ln(area+1)
93.5 139.4 594.2 20.3 17.6 52 5.8 0 0
92.4 124.1 680.7 8.5 17.2 58 1.3 0 0
90.9 126.5 686.5 7 15.6 66 3.1 0 0
85.8 48.3 313.4 3.9 18 42 2.7 0 0.307485
91 129.5 692.6 7 21.7 38 2.2 0 0.357674
90.9 126.5 686.5 7 21.9 39 1.8 0 0.385262
95.5 99.9 513.3 13.2 23.3 31 4.5 0 0.438255
12
9.648
10
8
5.9 5.615
SVM SVM+GA 6
4.3
C 4.3 1,840
4
Gamma (𝛾) 5.9 9,648 3.9
1.391
Epsilon (𝜀) 3.9 5,615 1.840
2
RMSE 1.391 1.379
0 1.379
C Gamma Epsilon RMSE
SVM SVM+GA
56
Use Case: Prediksi Koruptor
Asosiasi atribut
DATA tersangka koruptor
DATA DATA Pengetahuan
DATA
Prediksi pencucian uang
Aktivitas Pendukung
Estimasi jenis dan
Aktivitas Pencegahan jumlah tahun hukuman
57
Use Case: Profiling dan Deteksi Kasus TKI
58
1. Culture
5. Research 2. Mining
Big Data
Trends 2018
4. Use
3. Methods
Cases
59
Komparasi Penelitian D3/D4 vs S1 vs S2 vs S3
60
Komparasi Penelitian D3/D4 vs S1 vs S2 vs S3
• D3/D4:
• Pengembangan Sistem Informasi Rumah Sakit untuk
Rumah Sakit “Suka Sembuh”
• Karakter: menguasai skill teknis
• S1:
• Sistem Cerdas Berbasis Neural Network untuk Prediksi
Harga Saham
• Karakter: menguji teori, ada software development
• S2/S3:
• Penerapan Algoritma Genetika untuk Pemilihan Arsitektur
Jaringan Secara Otomatis pada Neural Network untuk
Prediksi Harga Saham
• Karakter: mengembangkan teori (perbaikan metode), ada
kontribusi ke teori/metode
61
Apa Yang Dikejar di Penelitian?
62
Bentuk Kontribusi ke Pengetahuan
63
Kontribusi ke Pengetahuan
64
Contoh Kontribusi ke Pengetahuan
Decision Tree CART (Breiman ,1984)
Forward Selection
Algoritma Genetika
66
Penelitian Yang Memiliki Kontribusi?
• Penerapan Neural Network untuk Prediksi Harga
Saham pada Perusahaan ABC
• Pemilihan Arsitektur Jaringan pada Neural Network
Secara Otomatis dengan Menggunakan Algoritma Semut
untuk Prediksi Harga Saham
67
68
Penelitian Terapan
Penelitian Dasar
69
Penerapan C4.5 untuk
Prediksi Pemilu
Split
Criterion
C4.5
Gain
Ratio
Teori Gain
70
Penerapan Credal C4.5
untuk Prediksi Pemilu
Split
Criterion
Credal
C4.5
Imprecis
e Gain
Ratio
72
Rangking Publikasi Ilmiah (ScimagoJR.Com)
73
Rangking Publikasi Ilmiah (ScimagoJR.Com)
74
Scientist vs Businessman
75
1. Culture
5. Research 2. Mining
Big Data
Trends 2018
76