SlideShare a Scribd company logo
Büyük Veri Uygulamaları ve Ülkemizden Örnekler,
Güvenlik Analizlerinin Araştırılması
12060382 Hülya Soylu
Akademik Danışman : Doç.Dr Sedat Akleylek
İçerik
1. Büyük Veri (Big Data) Nedir?
2. Büyük Veri (Big Data) Bileşenleri Nelerdir?
3. Büyük Veri'nin Uygulandığı Örnek Alanlar
4. “Big Data” Kullanımına Örnekler
5. Dünyadaki ve Türkiye'deki Büyük Veri (Big Data) Örnek Uygulamaları
6. Big Table(Büyük Tablo)
7. Büyük Veri Teknolojilerinde Beklenen Özellikler
8. Arama Motorunda Big Data'nın Yapay Zeka Sistemleri ile Analizi
9. Büyük Veri Teknik ve Teknolojileri
10. Hadoop
11. BüyükVeri Teknik ve Teknolojileri
12. NoSQL , MongoDB , Pig,İmpala,
13. Büyük Veri Güvenlik Çözümleri
Büyük veri(bigdata)
Büyük Veri
➔ Big Data ; şirketlerin büyük veri yığınlarıyla ve verilerin depolanmasıyla
baş etmek için gereksinim duydukları teknolojik araçlar ve süreçlerdir.
[1]
● Büyük veri; Yapılandırılmış (structured) ve Yapılandırılmamış
(unstructured) verilerden meydana gelir.
● Yapılandırılmış veriler: ürün, kategori, müşteri,
fatura, ödeme...
● Yapılandırılmamış veriler: tweet, paylaşım, beğeni
(like), e-posta, video, tıklama...
İnternette 1 dk'da neler oluyor?
● Büyük veri miktarları teranyte, petabyte, exabyte, belki zettabyte
seviyesinde bile olabilir.
● 2000 yılında tüm dünyada 800,000 petabyte büyüklüğünde veri
saklandı. 2020 yılında bu verinin 35 zetabyte olacağı tahmin ediliyor.
● Örneğin Twitter her gün 7 TB, Facebook 10 TB ve bazı kurumlar her
gün her saat TB’larca veri saklıyor.
Big Data etkin bir şekilde verileri analiz edip işlemek için:
➔ A/B testleri
➔ yapay zeka sistemleri
➔ dil işleme süreçleri
➔ gelişmiş simülasyon
gibi olağanüstü teknolojilere ihtiyaç duymaktadır.
Büyük veri(bigdata)
Elektronik Veri Ölçü Birimi
➔
byte (B)
➔
kilobyte (KB)
➔
megabyte (MB)
➔
gigabyte (GB)
➔
terabyte (TB)
➔
petabyte (PB)
➔
exabyte (EB)
➔
zettabyte (ZB)
➔
yottabyte (YB)
Büyük Veri Bileşenleri
➔
Büyük veri kavramını daha iyi anlamak için 5V şeklinde adlandırılan
bileşenlerini inceleyelim:
➔
Volume(Veri Büyüklüğü)
➔
Velocity(Hız)
➔
Verification(Doğrulama)
➔
Variety(Çeşitlilik)
➔
Value(Değer)
Volume(Veri Büyüklüğü): Hacim, verilerin depolanması bu işin temeli ve işletmeler için
ayrı bir maliyet faktörü, özellikle büyük şirketler için… (Google her saat 1 petabyte veri
işliyor.)
Velocity(Hız): Verilerin işlenme hızı da hacim ile doğru orantılı biçimde değişiyor.
Verification (Doğrulama):Verilerin doğru katmanlardan ve doğru güvenlik seviyesinden
sunularak doğru kişiler tarafından erişilebilmesi ve ilişkisi olmayanlar için gizli kalmasıdır.
Variety(Çeşitlilik): Veri çeşitliliği: pdf, e-mail, blogs, tweet, video… Farklı veri tiplerinin aynı
düzlemde değerlendirilmesi de big data kavramındaki diğer bir bileşendir.
Value(Değer):Büyük verilerin anlamlandırılması yani değere dönüşmesidir. Alınacak
kararlarda gerçek zamanlı olarak kullanılıp artı yönde katkı sağlaması gerekir.
Dünyada Kamu Büyük Veri
Uygulamaları
● Trafik Yoğunluğu Takibi
Projesi
Sektör: Ulaştırma
Hollanda'da.
● Sosyal Medya Analizi
Sektör: İletişim
Hollanda'da.
● Akıllı Şebeke Analizi
Sektör: Enerji
Tennessee Valley
Authority
● Proje: Prematüre
Bebek Takibi
Sektör: Sağlık
Ontario Üniversitesi
● Görüntüleme Tanı
Hatalarının Azaltılması
Sektör: Sağlık
Asya Sağlık Bürosu
● Suç Önleme Projesi
Sektör: Güvenlik
New York
● Önleyici Polis
Hizmetleri
Sektör: Güvenlik
Amerika
● Su Kaynaklarının
Takibi
Sektör: Çevre
Beacon Enstitüsü
Türkiye'de Kamu Büyük Veri
Uygulamaları
● Şu an için aktif olarak büyük veri üzerine kurgulanmış bir
Kamu Projesi bulunmamaktadır.
“Big Data” Kullanımına Örnekler
●
Amazon fiyat sorgulama uygulaması, barkod okuma ve en ucuz fiyatı arama
özelliği olan uygulamayı 2011 sonu kullanıcılara sundu.,
●
NASA İklim Simülasyon Merkezi 32 petabytelık iklim verisi biriktirmiş ve süper
bilgisayarlarla iklim değişikliğinin simülasyonunu yapmaktadır.
●
Facebook veri tabanında 50 milyar kadar fotoğraf bulunmaktadır. Aynı şekilde 1.15 milyar
sosyal medyada veri oluşturan aktif kullanıcısı vardır.
●
Her gün 5 milyar insan arama, mesajlaşma, internette sörf gibi yollarla veri üretmektedir.
●
2012 yılında Obama’nın yeniden seçilmesi için yaptığı kampanyada Big Data analizleri
sonucu elde ettiği verileri kullanmış ve yeniden seçilmiştir
●
Sosyal medya akışının analiz edilmesi;
Sosyal medyada dokunulan kişiler hakkında bilgi toplama, doğru
mesajıdoğru müşteriye doğru zamanda iletebilme yönetimi için
kullanılıyor.
●
Fraud;
Devletler ve bankalar kötüye kullanım durumlarının tespiti için
kullanıyorlar.
●
Arama motorları;
Etiketleme işlemiyle arama motorlarında çıkan firmalar bu sayede
detaylı raporlama alarak takip etmek, sonrasında iletişime geçmek
mümkün.
●
Telekom ve iletişim kullanımı;
Mobil telefon kullanımı ile ilgili bir çok veri kullanıcı bazında tutuluyor;
iş geliştirme ve analiz kapsamında kullanılıyor.
●
Güvenlik ve Ceza hukuku uygulamaları;
➔
Bulut bilişim sistemine atanan platform ile tüm hukuki süreç
depolanacak ve suçlu entegre sistemler sayesinde takip edilecek.
➔
Güvenlik platform’u web üzerindeki tüm görselleri inceleyerek, suçluya
benzeyen fotoğraflardan dijital takip sürebilecek.
Büyük Veriyi Kullanan Şirketler
Büyük veri(bigdata)
Dünyadaki ve Türkiye'deki Büyük Veri (Big
Data) Örnek Uygulamaları
➔
Google ihtiyacı olan bu teknolojiyi ilk kendisi geliştirdi.
➔
Milyarlarca internet sayfasının verisini Google File System
üzerinde tutuyor.
➔
Veritabanı olarak Big Table(Büyük Tablo) kullanıyor.
➔
Büyük veriyi işlemek için MapReduce kullanıyor.
Big Table(Büyük Tablo)
●
Google tarafından geliştirilen ve arama motoru tasarımında kullanılanılır.
●
Amaç web sayfalarının daha başarılı bir şekilde;
➔
Depolanması (Storing)
➔
Bulunması (Finding)
➔
Güncellenmesi (updating)
●
Google’ın konuya yaklaşımı, ucuz bilgisayarlar tarafından yüksek
miktarda verinin tutulması ve işlenmesi yönündedir.
●
Tek bir bilgisayarda işlenecek olan mantıksal tablo, çok sayıda ufak ve
daha ucuz bilgisayar tarafından işlenebilmekte / tutulabilmektedir.
Büyük tablo yaklaşımında veriler;
➔ Herhangi bir büyük tablo kayıdında, sitenin adresi, sitenin metin kısmı,
sitede bulunan bağlantılar (link, anchor, çapa) ve sitenin başlığı
tutulmaktadır.
Büyük Tablo Kullanımının Avantajları
●
Özel bir sorgulama diline (query language) ihtiyaç duyulmaz ve
dolayısıyla sorgulama dilinin iyileştirilmesi (query optimisation) gibi
özel adımlara gerek yoktur.
●
Sadece satır seviyesinde işlemler gerçekleştirilir. Yani ilişkisel veritabanı
(relational database) tasarımında olduğu üzere, tablolar arasında
birleştirme (join)gibi işlemlere gerek yoktur.
●
Tabletler, bütün büyük tablo (big table) sisteminde bulunan sunucular
tarafından erişilebilir durumda tutulurlar.
●
Ayrıca yapılan her işlem ilave bir işlem kütüğünde (transaction log)
tutulur ve bu kütüğe bütün sunucular erişebilir.
●
Sunuculardan birisinin bozulması durumunda, diğer sunuculardan birisi
bu işlem kütüğüne erişerek bozulan sunucunun görevini üstlenebilir.
●
Satır bazında bir limit yoktur. Yani her kayıt için sınırsız sayıda bağlantı
tutulması gerekebilir.
Büyük Tablo'da Karşılaşılabilecek Problemler
●
Aynı kaydın birden fazla geçmesi
●
Aynı içeriğin internet üzerinde içerik hırsızları tarafından kopyalanması
●
Aynı içeriğin bir kısmının aynı kaldığı yeni sürümlerinin çıkması
●
Çoklu gönderiler (spam, mass message)
●
Aynı içeriğin birden fazla divan (forum) veya tartışma sitelerinde
bulunması
Bu problemin çözümü için tekrarların bulunması
gerekir.Tekrar bulma işlemi iki seviyede yapılabilir;
➔
Birincisi tam tekrarın bulunmasıdır ki buradaki amaç, birebir kopyalanan
içerikleri eşleştirmektir.
➔
İkincisi benzerliklerin bulunması ve belirli bir benzerlik seviyesinin
üzerinde olan içeriklerin eşleştirilmesidir.
●
Tam benzerliğin bulunması için toplam kontrolü (checksum) yöntemleri
kullanılır. Örneğin CRC (cyclic redundancy check) ve benzer
algoritmalar ile sayfaların toplam kontrolü yapılır ve eşleştirilir.
●
Benzer sitelerin bulunması için de geliştirilmiş algoritmalar vardır.
Örneğin SimHash algoritması (benzerlik özeti) google tarafından da
kullanılmaktadır.
●
Amazon verilerini DynamoDB üzerinde tutuyor.
●
Facebook, Twitter, Linkedin gibi firmalar dev veri için
geliştirdikleri projeleri açık kaynaklı olarak yayınlıyorlar.
●
Açık kaynak olarak yayınlanan örnek projeler;
➔
Cassandra
➔
Hive
➔
Pig
➔
Voldemort
➔
Storm
➔
IndexTank
Açık Kaynak Büyük Veri Teknolojileri
GittiGidiyor’da Büyük Veri
➔
Pazarlama
Detaylı kullanıcı profilleri
Hedef kitle belirleme
➔
Segmentasyon
Alışveriş geçmişi
Ziyaret geçmişi
➔
Raporlama
Veriambarı, Analitik Verileri, A/B Testleri
Özel raporlar
Arama Motorunda Büyük Verinin
Kullanılması
Büyük veri(bigdata)
Büyük Veri Teknolojilerinde Beklenen
Özellikler
●
Esnek
➔
Her türlü veriyi işleyebilmeli
●
Ölçeklenebilir
➔
İhtiyaca göre genişleyebilmeli
●
Veri Garantili
➔
Veriler yedekli ve erişilebilir olmalı
●
Düşük Maliyetli
➔
Açık kaynaklı projeler
Arama Motorunda Big Data'nın Yapay Zeka
Sistemleri ile Analizi
●
Sınıflandırma (Classification)
Hatalı kategorilerin tespiti
Dolandırıcılıkla mücadele
Duygu analizi
●
Kümeleme (Clustering)
Kullanıcıların kümelenmesi
Ürünlerin gruplanması
●
Öneri sistemleri (Recommendation)
İçerik tabanlı
Kullanıcı / Ürün tabanlı
Büyük Veri Teknik ve Teknolojileri
Hadoop
➔
Açık kaynak kodlu(open source), dağıtık(distributed),
ölçeklenebilir(scalable),hata dayanıklı(fault tolerant) Apache projesidir.
➔
Map-Reduce işlemlerini hedef almaktadır.
➔
Büyük ölçekteki işlemleri ve hesaplamaları hedefler(very lage database
(VLDB)).
➔
Büyük Veri (Big Data) dünyasında düşük maliyetli ve verimli çözümler
üretir.
Hadoop Tarihçesi
●
Çıkış Amacı : “Kabul edilebilir zaman ve maliyetle nasıl büyük veri
üzerinde işlem yapılabilir?” sorusuna cevap bulmaktır.
Hadoop
●
İki ana bileşenden oluşur:
➔
Hadoop Distributed File System (HDFS)
➔
MapReduce
Hadoop Distributed File System (HDFS)
➔
Büyük miktardaki veriye yüksek iş/zaman oranı (throughput) ile erişim
sağlayan Dağıtık Dosya Yönetim Sistemidir.
➔
Veriyi 64MB ya da 128MB'lık bloklar halinde saklar.
➔
Her blok küme içerisinde farklı düğümlere dağıtılır.
➔
Her bloğun varsayılan 3 kopyası tutulur böylece RAID benzeri bir yapıyla
yedeklenir.
➔
Bu sayede verinin erişilebilirliği ve güvenilirliği
sağlanmış olur.
➔
Aynı dosyaya ait bloklar farklı düğümlerde olabilir.
Blokların düğümler üzerine dağılım örneği
➔
Ayrıca HDFS çok büyük boyutlu dosyalar üzerinde okuma işlemi
(streaming) imkanı sağlar, ancak rastlantısal erişim (random access)
özelliği bulunmaz.
➔
HDFS, NameNode ve DataNode süreçlerinden (process) oluşmaktadır.
NameNode
●
NameNode ana (master) süreç olarak blokların sunucular
üzerindeki;dağılımınından,yaratılmasından,silinmesinden bir blokta
sorun meydana geldiğinde yeniden oluşturulmasından her türlü dosya
erişiminden sorumludur.
●
Kısacası HDFS üzerindeki tüm dosyalar hakkındaki bilgiler (metadata)
NameNode tarafından saklanır ve yönetilir.
●
Her kümede yalnızca bir adet NameNode olabilir.
Büyük veri(bigdata)
DataNode
●
DataNode ise işlevi blokları saklamak olan slave (köle) süreçtir.
●
Her DataNode kendi yerel diskindeki veriden sorumludur.
●
Ayrıca diğer DataNode’lardaki verilerin yedeklerini de barındırır.
●
DataNode’lar küme içerisinde birden fazla olabilir.
Büyük veri(bigdata)
Büyük veri(bigdata)
Hadoop MapReduce
●
HDFS üzerindeki büyük dosyaları verileri işleyebilmek amacıyla kullanılan
yöntemdir.
●
Map fonksiyonu ile veri içerisinden istenilen veriler anahtar-değer
formatında seçilir.
●
Reduce fonksiyonu ile de seçilen bu veriler üzerinde işlem yapılır , sonuç
yine anahtar-değer olarak iletilir.
Büyük veri(bigdata)
➔ Map ve Reduce arasında Shuffle ve Sort aşamaları vardır.
➔ Benzetme yapılırsa;
➔ WHERE ile yapılan filtreleme gibi Map aşamasında
sadece ihtiyacımız olan veriler seçilir.
➔ Reduce aşamasında ise SUM, COUNT, AVG gibi
birleştirme işlemleri yapılır
Büyük veri(bigdata)
Büyük veri(bigdata)
➔Hadoop’un gücü;
İşlenen dosyaların her zaman ilgili düğümün (node) yerel
diskinden okunması ağ trafiğini meşkul etmemesi birden
fazla işi aynı anda işleyerek doğrusal olarak
ölçeklenmesinden geliyor.
Büyük veri(bigdata)
Büyük veri(bigdata)
● MapReduce;
➔JobTracker ve TaskTracker
JobTracker
●
JobTracker yazılan MapReduce programının küme üzerinde dağıtılarak
çalıştırılmasından sorumludur.
●
Ayrıca dağıtılan iş parçacıklarının çalışması sırasında oluşabilecek
herhangi bir problemde;
●
O iş parçacığının sonlandırılması ya da yeniden başlatılması da
JobTracker’ın sorumluluğundadır.
Büyük veri(bigdata)
TaskTracker
➔
TaskTracker, DataNode’ların bulunduğu sunucularda çalışır.
➔
JobTracker’dan tamamlanmak üzere iş parçacığı talep eder.
➔
JobTracker, NameNode’un yardımıyla DataNode’un lokal diskindeki
veriye göre en uygun Map işini TaskTracker’a verir.
➔
Bu şekilde verilen iş parçacıkları tamamlanır .
➔
Sonuç çıktısı yine HDFS üzerinde bir dosya olarak yazılırak program
sonlanır.
Büyük veri(bigdata)
MongoDB
● NoSQL veritabanı
çözümlerinden bir
tanesi.
● Açık kaynak.
● MongoDB doküman
bazlı bir veritabanıdır.
● Büyük miktardaki
veriye hızlı bir şekilde
erişmeye olanak
sağlar.
Büyük veri(bigdata)
Pig
● Yahoo tarafından geliştirilmiştir.
● MapReduce yazmak için "DataFlow" dili olarak
adlandırılan, SQL'den farklı kendine özgü PigLatin
dili kullanılır.
● Join destekler, daha kolay ve performanslı
MapReduce programaları yazmayı sağlar.
Hive
● Facebook tarafından geliştirilmiştir.
● SQL benzeri HiveQL dili ile Java kullanmadan
MapReduce uygulamaları yazılmasını sağlar.
● Öncelikle HDFS üzerindeki dosyalar tablo
olarak tanıtılır.
● Daha sonra bu sanal tablolar sorgulanabilir.
İmpala
● Google Dremel (2010) projesinden
esinlenmiştir.
● Cloudera tarafından geliştirilmiştir.
● MapReduce yapmadan verilere direkt erişir.
● HiveQL destekler, 7-45 kat daha hızlı çalışır.
BüyükVeri Teknik ve Teknolojileri
Hadoop Ekosistemi
●
Hadoop çatısı altında birçok proje barınır:
➔
Hive
➔
Pig
➔
HBase
➔
Mahout
➔
Impala
➔
Diğerleri: Sqoop, Flume, Avro, Zookeeper, Oozie,
➔
Cascading...
HadoopDatabase(HBase)
●
Hadoop üzerinde çalışan NoSQL veritabanıdır
●
Google Big Table örnek alınarak geliştirilmiştir
●
Esnek şema yapısı ile binlerce kolon, petabyte'larca satırdan oluşan
veriyi saklayabilir.
●
HDFS üzerinde çalıştığından MapReduce destekler.
NoSQL
➔
NoSQL veritabanları;büyük verilerin hızlı işlenmesi ve
ölçeklendirilmesi (scalability) amacıyla geliştirilmiş
sistemlerdir.
➔
Big Table ve DynamoDB yıllardır Google ve Amazon
tarafından kullanılan NoSQL sistemlerdir.
MongoDB
● NoSQL veritabanı çözümlerinden bir tanesi.
Büyük veri(bigdata)
NoSql Avantajları
➔
Yüksek erişilebilirlik
➔
Okuma ve yazma performansı
➔
Yatay olarak genişletilebilirlik
➔
Binlerce sunucu birarada çalışabilir
➔
Çok büyük veri üzerinde işlem yapabilirler.
➔
Programlama ve bakımı kolay
➔
Maliyet açısından avantajlı
➔
Kullanımı kolay ve esnek nesne yönelimli programlama.
NoSql Dezavantajları
➔
Veri güvenliği konusunda da RDBMS’ler kadar gelişmiş özelliklere henüz sahip değiller.
➔
RDBMS sistemlerini kullanan uygulamaların NoSQL sistemlere taşınması zordur.
➔
RDBMS sistemlerinin NoSQL sistemlere taşınması sırasında veri kaybı sözkonusu olabilir.
➔
İlişkisel veritabanı yönetim sistemlerindeki işlem hareketleri (transaction) kavramı,
NoSQL veritabanı sistemlerinde bulunmadığı için veri kaybı söz konusu olabilmektedir.
➔
İlişkisel veritabanı yönetim sistemlerindeki sorgu tabanlı veri erişimi yerine NoSQL
sistemlerdeki anahtar tabanlı veri erişimi sağlamak gerekmektedir.
Büyük veri(bigdata)
Büyük veri(bigdata)
Büyük Veri Güvenlik Çözümleri
Apache Sentry kullanarak hadoop ekosistemin de rol bazlı
yetkilendirme ile pekçok Büyük Veri aracı arasında güvenli
iletişim sağlanabilir.
●
Hive aracı ile SQL komutları benzeri erişim yapıldığında HDFS’e
gittiğimizde Sentry aracı güvenlik denetimlerini yapmakta ve izni
olmayan sorguları engellemektedir.
Büyük veri(bigdata)
KAYNAKLAR
●● [1]Ayhan Önder, BigData CTP
● [2]Big Data Security- Joey Echeverria
● [3]Kamuda Büyük Veri ve Uygulamaları- Doç.Dr.İzzet Gökhan
ÖZBİLGİN
● [4]Büyük Veri Analitiği ve Güvenliği- Prof.Dr. Şeref SAĞIROĞLU
● [5]devveri.com
DİNLEDİĞİNİZ İÇİN TEŞEKKÜR
EDERİZ
SORULAR…

More Related Content

PPTX
Big Data / Büyük Veri Nedir?
Veli Bahçeci
 
PPT
Big data 24 mart 2015
Bilge Narin
 
PPTX
Big Data (Büyük Veri) Nedir?
Renerald
 
PDF
Büyük Veri(Big Data)
İlknur Demirbaş
 
PPTX
Data mesh
ManojKumarR41
 
PDF
Pipelines and Data Flows: Introduction to Data Integration in Azure Synapse A...
Cathrine Wilhelmsen
 
PDF
Data Warehouse or Data Lake, Which Do I Choose?
DATAVERSITY
 
PPTX
Büyük Veri İşlemleri ve Hadoop
Cenk Derinozlu
 
Big Data / Büyük Veri Nedir?
Veli Bahçeci
 
Big data 24 mart 2015
Bilge Narin
 
Big Data (Büyük Veri) Nedir?
Renerald
 
Büyük Veri(Big Data)
İlknur Demirbaş
 
Data mesh
ManojKumarR41
 
Pipelines and Data Flows: Introduction to Data Integration in Azure Synapse A...
Cathrine Wilhelmsen
 
Data Warehouse or Data Lake, Which Do I Choose?
DATAVERSITY
 
Büyük Veri İşlemleri ve Hadoop
Cenk Derinozlu
 

What's hot (20)

PPTX
Big Data Sunum
Serkan Sakınmaz
 
PPTX
Veri̇ madenci̇li̇ği̇
Musa BEKTAŞ
 
PPTX
Databricks Fundamentals
Dalibor Wijas
 
PPTX
Data Lake Overview
James Serra
 
PPTX
Big data
Nausheen Hasan
 
PPTX
Azure data platform overview
James Serra
 
PDF
Data Mesh
Piethein Strengholt
 
PPTX
Azure Data Engineering.pptx
priyadharshini626440
 
PPT
Idiro Analytics - Analytics & Big Data
Idiro Analytics
 
PDF
Building Data Quality pipelines with Apache Spark and Delta Lake
Databricks
 
PPTX
Big data architectures and the data lake
James Serra
 
PDF
Intro to Delta Lake
Databricks
 
PDF
BOS K8S Meetup - Finetuning LLama 2 Model on GKE.pdf
MichaelOLeary82
 
PDF
Data Mesh in Practice - How Europe's Leading Online Platform for Fashion Goes...
Dr. Arif Wider
 
PPTX
4 i̇şplanı hazırlama
Selman Kaymaz
 
PPTX
Musteri iliskileri yonetimi CRM ve Starbucks incelemesi
HENCOOPS Gilimor Gıda
 
PDF
Creating a Data-Driven Organization (Data Day Seattle 2015)
Carl Anderson
 
PPTX
Protect your Database with Data Masking & Enforced Version Control
DBmaestro - Database DevOps
 
PDF
Data Governance Best Practices, Assessments, and Roadmaps
DATAVERSITY
 
PDF
Data Catalog for Better Data Discovery and Governance
Denodo
 
Big Data Sunum
Serkan Sakınmaz
 
Veri̇ madenci̇li̇ği̇
Musa BEKTAŞ
 
Databricks Fundamentals
Dalibor Wijas
 
Data Lake Overview
James Serra
 
Big data
Nausheen Hasan
 
Azure data platform overview
James Serra
 
Azure Data Engineering.pptx
priyadharshini626440
 
Idiro Analytics - Analytics & Big Data
Idiro Analytics
 
Building Data Quality pipelines with Apache Spark and Delta Lake
Databricks
 
Big data architectures and the data lake
James Serra
 
Intro to Delta Lake
Databricks
 
BOS K8S Meetup - Finetuning LLama 2 Model on GKE.pdf
MichaelOLeary82
 
Data Mesh in Practice - How Europe's Leading Online Platform for Fashion Goes...
Dr. Arif Wider
 
4 i̇şplanı hazırlama
Selman Kaymaz
 
Musteri iliskileri yonetimi CRM ve Starbucks incelemesi
HENCOOPS Gilimor Gıda
 
Creating a Data-Driven Organization (Data Day Seattle 2015)
Carl Anderson
 
Protect your Database with Data Masking & Enforced Version Control
DBmaestro - Database DevOps
 
Data Governance Best Practices, Assessments, and Roadmaps
DATAVERSITY
 
Data Catalog for Better Data Discovery and Governance
Denodo
 
Ad

Viewers also liked (20)

ODP
Ruby Programlama Dili
pinguar
 
PDF
Holynix v1
BGA Cyber Security
 
PDF
Man in the Middle Atack (Ortadaki Adam Saldırısı)
Ahmet Gürel
 
PPTX
Python İle Ağ Programlama
Oguzhan Coskun
 
PDF
Tcpdump ile Trafik Analizi(Sniffing)
BGA Cyber Security
 
PDF
YÜZ BULMA VE TANIMA SİSTEMLERİ KULLANARAK
Recep Holat
 
PDF
BGA CTF Ethical Hacking Yarışması Çözümleri
BGA Cyber Security
 
PPTX
Open cv kütüphanesi
ahmetkakici
 
PPT
Yapay Zeka
Slide Sharer
 
PPT
Internet Tabanli EğItim
selver
 
PDF
Liselere Yazılım ve Siber Güvenlik Farkındalığı Sunumu
Ahmet Gürel
 
PPTX
Yapay Sinir Ağları
Abdulkerim Fettahoğlu
 
PDF
Yapay Sinir Ağları
Aybüke İnanç
 
DOCX
EXPLOIT POST EXPLOITATION
BGA Cyber Security
 
PPTX
Biyometrik Tanıma Sistemleri
Betül Becit
 
PDF
Görüntü işleme
Erol Dizdar
 
ODP
Python Programlama Dili Eğitimi
Enes Ateş
 
PDF
Metasploit El Kitabı
BGA Cyber Security
 
ODP
Yapay Zeka
Erdem Tuzen
 
PDF
TCP/IP Ağlarda İleri Seviye Paket Analizi – Tshark
BGA Cyber Security
 
Ruby Programlama Dili
pinguar
 
Holynix v1
BGA Cyber Security
 
Man in the Middle Atack (Ortadaki Adam Saldırısı)
Ahmet Gürel
 
Python İle Ağ Programlama
Oguzhan Coskun
 
Tcpdump ile Trafik Analizi(Sniffing)
BGA Cyber Security
 
YÜZ BULMA VE TANIMA SİSTEMLERİ KULLANARAK
Recep Holat
 
BGA CTF Ethical Hacking Yarışması Çözümleri
BGA Cyber Security
 
Open cv kütüphanesi
ahmetkakici
 
Yapay Zeka
Slide Sharer
 
Internet Tabanli EğItim
selver
 
Liselere Yazılım ve Siber Güvenlik Farkındalığı Sunumu
Ahmet Gürel
 
Yapay Sinir Ağları
Abdulkerim Fettahoğlu
 
Yapay Sinir Ağları
Aybüke İnanç
 
EXPLOIT POST EXPLOITATION
BGA Cyber Security
 
Biyometrik Tanıma Sistemleri
Betül Becit
 
Görüntü işleme
Erol Dizdar
 
Python Programlama Dili Eğitimi
Enes Ateş
 
Metasploit El Kitabı
BGA Cyber Security
 
Yapay Zeka
Erdem Tuzen
 
TCP/IP Ağlarda İleri Seviye Paket Analizi – Tshark
BGA Cyber Security
 
Ad

Similar to Büyük veri(bigdata) (20)

PPTX
ÖNCEL AKADEMİ: ÖZEL KONULAR
Ali Osman Öncel
 
PDF
BIG DATA Nedir ve IBM Çözümleri.
Cuneyt Goksu
 
DOC
ÖNCEL AKADEMİ: ÖZEL KONULAR
Ali Osman Öncel
 
PPTX
tst - ppt - Sunum Kamu-BİB ÇG4 Büyük Veri.pptx
Barış Akyılmaz
 
PDF
Big Data Analytics
Mudur Alkan
 
PDF
1 hafta_dersi
Mudur Alkan
 
ODP
Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu
Serkan Sakınmaz
 
PDF
Ankara JUG Big Data Presentation
Serkan Özal
 
PPTX
Yapay zeka, Büyük Veri, Bulut Bilişim, Blok Zinciri kısa kısa...
Oğuzhan TAŞ Akademi
 
PDF
Veri işleme üzerine, Hakan Sarıbıyık
Hakan Sarıbıyık
 
PDF
Kamu Entegre Veri Merkezleri - Mustafa Afyonluoglu
afyonluoglu
 
PDF
Hosting Dergi - 18.SAYI
Hosting Dergi
 
PPTX
Taksav bodrum1 teknoloji
Kemal Ulusaler
 
PPTX
TBD Bilişim 2014 Veri Analitiği
isa ölmez
 
PPTX
Webrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupM
Webrazzi
 
PPTX
Microsoft bi day_v2.0
Osman Küçüksönmez, PMP
 
DOCX
ÖNCEL AKADEMİ: MÜHENDİSLİK BİLİMLERİ
Ali Osman Öncel
 
PPTX
Türkiye Bilgi ve Belge Yönetimi Bölümleri Lisansüstü Tez Arşivi
Tolga Çakmak
 
PPTX
yukselturk.pptx
memrah2955
 
DOCX
ÖNCEL AKADEMİ: MÜHENDİSLİK BİLİMLERİ
Ali Osman Öncel
 
ÖNCEL AKADEMİ: ÖZEL KONULAR
Ali Osman Öncel
 
BIG DATA Nedir ve IBM Çözümleri.
Cuneyt Goksu
 
ÖNCEL AKADEMİ: ÖZEL KONULAR
Ali Osman Öncel
 
tst - ppt - Sunum Kamu-BİB ÇG4 Büyük Veri.pptx
Barış Akyılmaz
 
Big Data Analytics
Mudur Alkan
 
1 hafta_dersi
Mudur Alkan
 
Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu
Serkan Sakınmaz
 
Ankara JUG Big Data Presentation
Serkan Özal
 
Yapay zeka, Büyük Veri, Bulut Bilişim, Blok Zinciri kısa kısa...
Oğuzhan TAŞ Akademi
 
Veri işleme üzerine, Hakan Sarıbıyık
Hakan Sarıbıyık
 
Kamu Entegre Veri Merkezleri - Mustafa Afyonluoglu
afyonluoglu
 
Hosting Dergi - 18.SAYI
Hosting Dergi
 
Taksav bodrum1 teknoloji
Kemal Ulusaler
 
TBD Bilişim 2014 Veri Analitiği
isa ölmez
 
Webrazzi Dijital'14 - Adaptive Marketing in Action - Yelda Erciro, GroupM
Webrazzi
 
Microsoft bi day_v2.0
Osman Küçüksönmez, PMP
 
ÖNCEL AKADEMİ: MÜHENDİSLİK BİLİMLERİ
Ali Osman Öncel
 
Türkiye Bilgi ve Belge Yönetimi Bölümleri Lisansüstü Tez Arşivi
Tolga Çakmak
 
yukselturk.pptx
memrah2955
 
ÖNCEL AKADEMİ: MÜHENDİSLİK BİLİMLERİ
Ali Osman Öncel
 

Büyük veri(bigdata)

  • 1. Büyük Veri Uygulamaları ve Ülkemizden Örnekler, Güvenlik Analizlerinin Araştırılması 12060382 Hülya Soylu Akademik Danışman : Doç.Dr Sedat Akleylek
  • 2. İçerik 1. Büyük Veri (Big Data) Nedir? 2. Büyük Veri (Big Data) Bileşenleri Nelerdir? 3. Büyük Veri'nin Uygulandığı Örnek Alanlar 4. “Big Data” Kullanımına Örnekler 5. Dünyadaki ve Türkiye'deki Büyük Veri (Big Data) Örnek Uygulamaları 6. Big Table(Büyük Tablo) 7. Büyük Veri Teknolojilerinde Beklenen Özellikler 8. Arama Motorunda Big Data'nın Yapay Zeka Sistemleri ile Analizi 9. Büyük Veri Teknik ve Teknolojileri 10. Hadoop 11. BüyükVeri Teknik ve Teknolojileri 12. NoSQL , MongoDB , Pig,İmpala, 13. Büyük Veri Güvenlik Çözümleri
  • 4. Büyük Veri ➔ Big Data ; şirketlerin büyük veri yığınlarıyla ve verilerin depolanmasıyla baş etmek için gereksinim duydukları teknolojik araçlar ve süreçlerdir. [1]
  • 5. ● Büyük veri; Yapılandırılmış (structured) ve Yapılandırılmamış (unstructured) verilerden meydana gelir. ● Yapılandırılmış veriler: ürün, kategori, müşteri, fatura, ödeme... ● Yapılandırılmamış veriler: tweet, paylaşım, beğeni (like), e-posta, video, tıklama...
  • 6. İnternette 1 dk'da neler oluyor?
  • 7. ● Büyük veri miktarları teranyte, petabyte, exabyte, belki zettabyte seviyesinde bile olabilir. ● 2000 yılında tüm dünyada 800,000 petabyte büyüklüğünde veri saklandı. 2020 yılında bu verinin 35 zetabyte olacağı tahmin ediliyor. ● Örneğin Twitter her gün 7 TB, Facebook 10 TB ve bazı kurumlar her gün her saat TB’larca veri saklıyor.
  • 8. Big Data etkin bir şekilde verileri analiz edip işlemek için: ➔ A/B testleri ➔ yapay zeka sistemleri ➔ dil işleme süreçleri ➔ gelişmiş simülasyon gibi olağanüstü teknolojilere ihtiyaç duymaktadır.
  • 10. Elektronik Veri Ölçü Birimi ➔ byte (B) ➔ kilobyte (KB) ➔ megabyte (MB) ➔ gigabyte (GB) ➔ terabyte (TB) ➔ petabyte (PB) ➔ exabyte (EB) ➔ zettabyte (ZB) ➔ yottabyte (YB)
  • 11. Büyük Veri Bileşenleri ➔ Büyük veri kavramını daha iyi anlamak için 5V şeklinde adlandırılan bileşenlerini inceleyelim: ➔ Volume(Veri Büyüklüğü) ➔ Velocity(Hız) ➔ Verification(Doğrulama) ➔ Variety(Çeşitlilik) ➔ Value(Değer)
  • 12. Volume(Veri Büyüklüğü): Hacim, verilerin depolanması bu işin temeli ve işletmeler için ayrı bir maliyet faktörü, özellikle büyük şirketler için… (Google her saat 1 petabyte veri işliyor.) Velocity(Hız): Verilerin işlenme hızı da hacim ile doğru orantılı biçimde değişiyor. Verification (Doğrulama):Verilerin doğru katmanlardan ve doğru güvenlik seviyesinden sunularak doğru kişiler tarafından erişilebilmesi ve ilişkisi olmayanlar için gizli kalmasıdır. Variety(Çeşitlilik): Veri çeşitliliği: pdf, e-mail, blogs, tweet, video… Farklı veri tiplerinin aynı düzlemde değerlendirilmesi de big data kavramındaki diğer bir bileşendir. Value(Değer):Büyük verilerin anlamlandırılması yani değere dönüşmesidir. Alınacak kararlarda gerçek zamanlı olarak kullanılıp artı yönde katkı sağlaması gerekir.
  • 13. Dünyada Kamu Büyük Veri Uygulamaları ● Trafik Yoğunluğu Takibi Projesi Sektör: Ulaştırma Hollanda'da. ● Sosyal Medya Analizi Sektör: İletişim Hollanda'da. ● Akıllı Şebeke Analizi Sektör: Enerji Tennessee Valley Authority ● Proje: Prematüre Bebek Takibi Sektör: Sağlık Ontario Üniversitesi
  • 14. ● Görüntüleme Tanı Hatalarının Azaltılması Sektör: Sağlık Asya Sağlık Bürosu ● Suç Önleme Projesi Sektör: Güvenlik New York ● Önleyici Polis Hizmetleri Sektör: Güvenlik Amerika ● Su Kaynaklarının Takibi Sektör: Çevre Beacon Enstitüsü
  • 15. Türkiye'de Kamu Büyük Veri Uygulamaları ● Şu an için aktif olarak büyük veri üzerine kurgulanmış bir Kamu Projesi bulunmamaktadır.
  • 16. “Big Data” Kullanımına Örnekler ● Amazon fiyat sorgulama uygulaması, barkod okuma ve en ucuz fiyatı arama özelliği olan uygulamayı 2011 sonu kullanıcılara sundu., ● NASA İklim Simülasyon Merkezi 32 petabytelık iklim verisi biriktirmiş ve süper bilgisayarlarla iklim değişikliğinin simülasyonunu yapmaktadır. ● Facebook veri tabanında 50 milyar kadar fotoğraf bulunmaktadır. Aynı şekilde 1.15 milyar sosyal medyada veri oluşturan aktif kullanıcısı vardır. ● Her gün 5 milyar insan arama, mesajlaşma, internette sörf gibi yollarla veri üretmektedir. ● 2012 yılında Obama’nın yeniden seçilmesi için yaptığı kampanyada Big Data analizleri sonucu elde ettiği verileri kullanmış ve yeniden seçilmiştir
  • 17. ● Sosyal medya akışının analiz edilmesi; Sosyal medyada dokunulan kişiler hakkında bilgi toplama, doğru mesajıdoğru müşteriye doğru zamanda iletebilme yönetimi için kullanılıyor. ● Fraud; Devletler ve bankalar kötüye kullanım durumlarının tespiti için kullanıyorlar. ● Arama motorları; Etiketleme işlemiyle arama motorlarında çıkan firmalar bu sayede detaylı raporlama alarak takip etmek, sonrasında iletişime geçmek mümkün.
  • 18. ● Telekom ve iletişim kullanımı; Mobil telefon kullanımı ile ilgili bir çok veri kullanıcı bazında tutuluyor; iş geliştirme ve analiz kapsamında kullanılıyor. ● Güvenlik ve Ceza hukuku uygulamaları; ➔ Bulut bilişim sistemine atanan platform ile tüm hukuki süreç depolanacak ve suçlu entegre sistemler sayesinde takip edilecek. ➔ Güvenlik platform’u web üzerindeki tüm görselleri inceleyerek, suçluya benzeyen fotoğraflardan dijital takip sürebilecek.
  • 21. Dünyadaki ve Türkiye'deki Büyük Veri (Big Data) Örnek Uygulamaları ➔ Google ihtiyacı olan bu teknolojiyi ilk kendisi geliştirdi. ➔ Milyarlarca internet sayfasının verisini Google File System üzerinde tutuyor. ➔ Veritabanı olarak Big Table(Büyük Tablo) kullanıyor. ➔ Büyük veriyi işlemek için MapReduce kullanıyor.
  • 22. Big Table(Büyük Tablo) ● Google tarafından geliştirilen ve arama motoru tasarımında kullanılanılır. ● Amaç web sayfalarının daha başarılı bir şekilde; ➔ Depolanması (Storing) ➔ Bulunması (Finding) ➔ Güncellenmesi (updating) ● Google’ın konuya yaklaşımı, ucuz bilgisayarlar tarafından yüksek miktarda verinin tutulması ve işlenmesi yönündedir.
  • 23. ● Tek bir bilgisayarda işlenecek olan mantıksal tablo, çok sayıda ufak ve daha ucuz bilgisayar tarafından işlenebilmekte / tutulabilmektedir.
  • 24. Büyük tablo yaklaşımında veriler; ➔ Herhangi bir büyük tablo kayıdında, sitenin adresi, sitenin metin kısmı, sitede bulunan bağlantılar (link, anchor, çapa) ve sitenin başlığı tutulmaktadır.
  • 25. Büyük Tablo Kullanımının Avantajları ● Özel bir sorgulama diline (query language) ihtiyaç duyulmaz ve dolayısıyla sorgulama dilinin iyileştirilmesi (query optimisation) gibi özel adımlara gerek yoktur. ● Sadece satır seviyesinde işlemler gerçekleştirilir. Yani ilişkisel veritabanı (relational database) tasarımında olduğu üzere, tablolar arasında birleştirme (join)gibi işlemlere gerek yoktur. ● Tabletler, bütün büyük tablo (big table) sisteminde bulunan sunucular tarafından erişilebilir durumda tutulurlar.
  • 26. ● Ayrıca yapılan her işlem ilave bir işlem kütüğünde (transaction log) tutulur ve bu kütüğe bütün sunucular erişebilir. ● Sunuculardan birisinin bozulması durumunda, diğer sunuculardan birisi bu işlem kütüğüne erişerek bozulan sunucunun görevini üstlenebilir. ● Satır bazında bir limit yoktur. Yani her kayıt için sınırsız sayıda bağlantı tutulması gerekebilir.
  • 27. Büyük Tablo'da Karşılaşılabilecek Problemler ● Aynı kaydın birden fazla geçmesi ● Aynı içeriğin internet üzerinde içerik hırsızları tarafından kopyalanması ● Aynı içeriğin bir kısmının aynı kaldığı yeni sürümlerinin çıkması ● Çoklu gönderiler (spam, mass message) ● Aynı içeriğin birden fazla divan (forum) veya tartışma sitelerinde bulunması
  • 28. Bu problemin çözümü için tekrarların bulunması gerekir.Tekrar bulma işlemi iki seviyede yapılabilir; ➔ Birincisi tam tekrarın bulunmasıdır ki buradaki amaç, birebir kopyalanan içerikleri eşleştirmektir. ➔ İkincisi benzerliklerin bulunması ve belirli bir benzerlik seviyesinin üzerinde olan içeriklerin eşleştirilmesidir.
  • 29. ● Tam benzerliğin bulunması için toplam kontrolü (checksum) yöntemleri kullanılır. Örneğin CRC (cyclic redundancy check) ve benzer algoritmalar ile sayfaların toplam kontrolü yapılır ve eşleştirilir. ● Benzer sitelerin bulunması için de geliştirilmiş algoritmalar vardır. Örneğin SimHash algoritması (benzerlik özeti) google tarafından da kullanılmaktadır.
  • 30. ● Amazon verilerini DynamoDB üzerinde tutuyor. ● Facebook, Twitter, Linkedin gibi firmalar dev veri için geliştirdikleri projeleri açık kaynaklı olarak yayınlıyorlar. ● Açık kaynak olarak yayınlanan örnek projeler; ➔ Cassandra ➔ Hive ➔ Pig ➔ Voldemort ➔ Storm ➔ IndexTank
  • 31. Açık Kaynak Büyük Veri Teknolojileri
  • 32. GittiGidiyor’da Büyük Veri ➔ Pazarlama Detaylı kullanıcı profilleri Hedef kitle belirleme ➔ Segmentasyon Alışveriş geçmişi Ziyaret geçmişi ➔ Raporlama Veriambarı, Analitik Verileri, A/B Testleri Özel raporlar
  • 33. Arama Motorunda Büyük Verinin Kullanılması
  • 35. Büyük Veri Teknolojilerinde Beklenen Özellikler ● Esnek ➔ Her türlü veriyi işleyebilmeli ● Ölçeklenebilir ➔ İhtiyaca göre genişleyebilmeli ● Veri Garantili ➔ Veriler yedekli ve erişilebilir olmalı ● Düşük Maliyetli ➔ Açık kaynaklı projeler
  • 36. Arama Motorunda Big Data'nın Yapay Zeka Sistemleri ile Analizi ● Sınıflandırma (Classification) Hatalı kategorilerin tespiti Dolandırıcılıkla mücadele Duygu analizi ● Kümeleme (Clustering) Kullanıcıların kümelenmesi Ürünlerin gruplanması ● Öneri sistemleri (Recommendation) İçerik tabanlı Kullanıcı / Ürün tabanlı
  • 37. Büyük Veri Teknik ve Teknolojileri
  • 38. Hadoop ➔ Açık kaynak kodlu(open source), dağıtık(distributed), ölçeklenebilir(scalable),hata dayanıklı(fault tolerant) Apache projesidir. ➔ Map-Reduce işlemlerini hedef almaktadır. ➔ Büyük ölçekteki işlemleri ve hesaplamaları hedefler(very lage database (VLDB)). ➔ Büyük Veri (Big Data) dünyasında düşük maliyetli ve verimli çözümler üretir.
  • 39. Hadoop Tarihçesi ● Çıkış Amacı : “Kabul edilebilir zaman ve maliyetle nasıl büyük veri üzerinde işlem yapılabilir?” sorusuna cevap bulmaktır.
  • 40. Hadoop ● İki ana bileşenden oluşur: ➔ Hadoop Distributed File System (HDFS) ➔ MapReduce
  • 41. Hadoop Distributed File System (HDFS) ➔ Büyük miktardaki veriye yüksek iş/zaman oranı (throughput) ile erişim sağlayan Dağıtık Dosya Yönetim Sistemidir. ➔ Veriyi 64MB ya da 128MB'lık bloklar halinde saklar. ➔ Her blok küme içerisinde farklı düğümlere dağıtılır. ➔ Her bloğun varsayılan 3 kopyası tutulur böylece RAID benzeri bir yapıyla yedeklenir. ➔ Bu sayede verinin erişilebilirliği ve güvenilirliği sağlanmış olur. ➔ Aynı dosyaya ait bloklar farklı düğümlerde olabilir.
  • 42. Blokların düğümler üzerine dağılım örneği
  • 43. ➔ Ayrıca HDFS çok büyük boyutlu dosyalar üzerinde okuma işlemi (streaming) imkanı sağlar, ancak rastlantısal erişim (random access) özelliği bulunmaz. ➔ HDFS, NameNode ve DataNode süreçlerinden (process) oluşmaktadır.
  • 44. NameNode ● NameNode ana (master) süreç olarak blokların sunucular üzerindeki;dağılımınından,yaratılmasından,silinmesinden bir blokta sorun meydana geldiğinde yeniden oluşturulmasından her türlü dosya erişiminden sorumludur. ● Kısacası HDFS üzerindeki tüm dosyalar hakkındaki bilgiler (metadata) NameNode tarafından saklanır ve yönetilir. ● Her kümede yalnızca bir adet NameNode olabilir.
  • 46. DataNode ● DataNode ise işlevi blokları saklamak olan slave (köle) süreçtir. ● Her DataNode kendi yerel diskindeki veriden sorumludur. ● Ayrıca diğer DataNode’lardaki verilerin yedeklerini de barındırır. ● DataNode’lar küme içerisinde birden fazla olabilir.
  • 49. Hadoop MapReduce ● HDFS üzerindeki büyük dosyaları verileri işleyebilmek amacıyla kullanılan yöntemdir. ● Map fonksiyonu ile veri içerisinden istenilen veriler anahtar-değer formatında seçilir. ● Reduce fonksiyonu ile de seçilen bu veriler üzerinde işlem yapılır , sonuç yine anahtar-değer olarak iletilir.
  • 51. ➔ Map ve Reduce arasında Shuffle ve Sort aşamaları vardır. ➔ Benzetme yapılırsa; ➔ WHERE ile yapılan filtreleme gibi Map aşamasında sadece ihtiyacımız olan veriler seçilir. ➔ Reduce aşamasında ise SUM, COUNT, AVG gibi birleştirme işlemleri yapılır
  • 54. ➔Hadoop’un gücü; İşlenen dosyaların her zaman ilgili düğümün (node) yerel diskinden okunması ağ trafiğini meşkul etmemesi birden fazla işi aynı anda işleyerek doğrusal olarak ölçeklenmesinden geliyor.
  • 58. JobTracker ● JobTracker yazılan MapReduce programının küme üzerinde dağıtılarak çalıştırılmasından sorumludur. ● Ayrıca dağıtılan iş parçacıklarının çalışması sırasında oluşabilecek herhangi bir problemde; ● O iş parçacığının sonlandırılması ya da yeniden başlatılması da JobTracker’ın sorumluluğundadır.
  • 60. TaskTracker ➔ TaskTracker, DataNode’ların bulunduğu sunucularda çalışır. ➔ JobTracker’dan tamamlanmak üzere iş parçacığı talep eder. ➔ JobTracker, NameNode’un yardımıyla DataNode’un lokal diskindeki veriye göre en uygun Map işini TaskTracker’a verir. ➔ Bu şekilde verilen iş parçacıkları tamamlanır . ➔ Sonuç çıktısı yine HDFS üzerinde bir dosya olarak yazılırak program sonlanır.
  • 62. MongoDB ● NoSQL veritabanı çözümlerinden bir tanesi. ● Açık kaynak. ● MongoDB doküman bazlı bir veritabanıdır. ● Büyük miktardaki veriye hızlı bir şekilde erişmeye olanak sağlar.
  • 64. Pig ● Yahoo tarafından geliştirilmiştir. ● MapReduce yazmak için "DataFlow" dili olarak adlandırılan, SQL'den farklı kendine özgü PigLatin dili kullanılır. ● Join destekler, daha kolay ve performanslı MapReduce programaları yazmayı sağlar.
  • 65. Hive ● Facebook tarafından geliştirilmiştir. ● SQL benzeri HiveQL dili ile Java kullanmadan MapReduce uygulamaları yazılmasını sağlar. ● Öncelikle HDFS üzerindeki dosyalar tablo olarak tanıtılır. ● Daha sonra bu sanal tablolar sorgulanabilir.
  • 66. İmpala ● Google Dremel (2010) projesinden esinlenmiştir. ● Cloudera tarafından geliştirilmiştir. ● MapReduce yapmadan verilere direkt erişir. ● HiveQL destekler, 7-45 kat daha hızlı çalışır.
  • 67. BüyükVeri Teknik ve Teknolojileri
  • 68. Hadoop Ekosistemi ● Hadoop çatısı altında birçok proje barınır: ➔ Hive ➔ Pig ➔ HBase ➔ Mahout ➔ Impala ➔ Diğerleri: Sqoop, Flume, Avro, Zookeeper, Oozie, ➔ Cascading...
  • 69. HadoopDatabase(HBase) ● Hadoop üzerinde çalışan NoSQL veritabanıdır ● Google Big Table örnek alınarak geliştirilmiştir ● Esnek şema yapısı ile binlerce kolon, petabyte'larca satırdan oluşan veriyi saklayabilir. ● HDFS üzerinde çalıştığından MapReduce destekler.
  • 70. NoSQL ➔ NoSQL veritabanları;büyük verilerin hızlı işlenmesi ve ölçeklendirilmesi (scalability) amacıyla geliştirilmiş sistemlerdir. ➔ Big Table ve DynamoDB yıllardır Google ve Amazon tarafından kullanılan NoSQL sistemlerdir.
  • 71. MongoDB ● NoSQL veritabanı çözümlerinden bir tanesi.
  • 73. NoSql Avantajları ➔ Yüksek erişilebilirlik ➔ Okuma ve yazma performansı ➔ Yatay olarak genişletilebilirlik ➔ Binlerce sunucu birarada çalışabilir ➔ Çok büyük veri üzerinde işlem yapabilirler. ➔ Programlama ve bakımı kolay ➔ Maliyet açısından avantajlı ➔ Kullanımı kolay ve esnek nesne yönelimli programlama.
  • 74. NoSql Dezavantajları ➔ Veri güvenliği konusunda da RDBMS’ler kadar gelişmiş özelliklere henüz sahip değiller. ➔ RDBMS sistemlerini kullanan uygulamaların NoSQL sistemlere taşınması zordur. ➔ RDBMS sistemlerinin NoSQL sistemlere taşınması sırasında veri kaybı sözkonusu olabilir. ➔ İlişkisel veritabanı yönetim sistemlerindeki işlem hareketleri (transaction) kavramı, NoSQL veritabanı sistemlerinde bulunmadığı için veri kaybı söz konusu olabilmektedir. ➔ İlişkisel veritabanı yönetim sistemlerindeki sorgu tabanlı veri erişimi yerine NoSQL sistemlerdeki anahtar tabanlı veri erişimi sağlamak gerekmektedir.
  • 77. Büyük Veri Güvenlik Çözümleri Apache Sentry kullanarak hadoop ekosistemin de rol bazlı yetkilendirme ile pekçok Büyük Veri aracı arasında güvenli iletişim sağlanabilir.
  • 78. ● Hive aracı ile SQL komutları benzeri erişim yapıldığında HDFS’e gittiğimizde Sentry aracı güvenlik denetimlerini yapmakta ve izni olmayan sorguları engellemektedir.
  • 80. KAYNAKLAR ●● [1]Ayhan Önder, BigData CTP ● [2]Big Data Security- Joey Echeverria ● [3]Kamuda Büyük Veri ve Uygulamaları- Doç.Dr.İzzet Gökhan ÖZBİLGİN ● [4]Büyük Veri Analitiği ve Güvenliği- Prof.Dr. Şeref SAĞIROĞLU ● [5]devveri.com

Editor's Notes

  • #2: <number>
  • #3: <number>
  • #4: <number>
  • #5: <number>
  • #6: <number>
  • #7: <number>
  • #8: <number>
  • #9: <number>
  • #10: <number>
  • #11: <number>
  • #12: <number>
  • #13: <number>
  • #17: <number>
  • #18: <number>
  • #19: <number>
  • #20: <number>
  • #21: <number>
  • #22: <number>
  • #23: <number>
  • #24: <number>
  • #25: <number>
  • #26: <number>
  • #27: <number>
  • #28: <number>
  • #29: <number>
  • #30: <number>
  • #31: <number>
  • #32: <number>
  • #33: <number>
  • #34: <number>
  • #35: <number>
  • #36: <number>
  • #37: <number>
  • #38: <number>
  • #39: <number>
  • #40: <number>
  • #41: <number>
  • #42: <number>
  • #43: <number>
  • #44: <number>
  • #45: <number>
  • #47: <number>
  • #49: <number>
  • #50: <number>
  • #51: <number>
  • #52: <number>
  • #53: <number>
  • #54: <number>
  • #55: <number>
  • #56: <number>
  • #57: <number>
  • #58: <number>
  • #59: <number>
  • #60: <number>
  • #61: <number>
  • #62: <number>
  • #68: <number>
  • #69: <number>
  • #70: <number>
  • #71: <number>
  • #73: <number>
  • #74: <number>
  • #75: <number>
  • #76: <number>
  • #77: <number>
  • #78: <number>
  • #79: <number>