Veri madenciliği ve ids

Veri Madenciliği ve IDS

Hazırlayan ve Sunan
Hidayet TAKCI

htakci@bilmuh.gyte.edu.tr

Veri madenciliği nedir?

 Anlamlı desenler ve kurallar bulmak için büyük
miktardaki verinin analiz ve keşfidir.
 Verinin faydalı özetinin ortaya çıkarılmasıdır.
 Çok büyük veritabanlarındaki gizli kalmış global desenler
ve hasta verileri ile onların teşhis verileri arasındaki
ilişkiler gibi ilişkilerin taranıp bulunmasıdır.
 Veri madenciliği verinin analizi ve veri kaynaklarındaki
benzerlik ve desenleri bulmak için kullanılan yazılım
teknikleri ile ilgilidir.
 Veri madenciliği analizleri veriden işe güvenilir karar ve
sonuçlara varmak için verinin dönüşümü ile ilgilidir

Aşamaları nelerdir?
 Seçim: Madenciliği yapılacak veri belli kriterlere göre
seçilir veya bölümlere ayrılır.
 İlk İşlem: Bu aşama veri temizleme aşamasıdır,
gereksiz görülen bilgi silinir, mesela gebelik testinde
cinsiyet bilgisinin silinmesi gibi.
 Dönüşüm: Veri sadece bir yerden bir yere taşınmaz,
veri kullanılabilir ve yönetilebilir hale getirilir.
 Veri Madenciliği: Bu aşama verideki desenlerin
açığa çıkarılması ile ilgili aşamadır.
 Yorum ve Biçimlendirme: Bu aşamada insani karar
verme, tahmin ve sınıflama işleri, veritabanının içerik
özeti ve bilgiye çevrilen desenler sistem tarafından
tanımlanır.

Problemleri nelerdir?

 Limitli Bilgi
 Gürültü ve Kayıp Değerler
 Belirsizlik
 Boyut, güncelleme ve ilişkisiz sahalar

Geri planında hangi
disiplinler bulunur?

 Makine öğrenimi
 Uzman sistemler
 İstatistik
 Veritabanları
 Görselleştirme

Uygulamaları nelerdir?

1. Bağıntı (Assocation) (Ör: Sepet Analizi)
2. Sınıflandırma (Classification)
3. Regrasyon (Ör: Kredi Skorlama)
4. Zaman içinde sıralı örüntüler (Sequence
patterns in time)
5. Benzer zaman sıraları (time series)
6. İstisnalar (Ör: Fark Saptanması)
7. Doküman madenciliği (Web Mining)

Teknikleri nelerdir?

1. İstatistiksel Yöntemler (Statistical
Methods)
2. Bellek Tabanlı Yöntemler (Memory
Based Reasioning)
3. Sinir Ağları (Neural Networks)
4. Karar Ağaçları (Decision Trees)

Örnek bir çalışma

 Yaklaşık üç ay boyunca web sunucusu üzerinde toplanan
günlük verileri analiz için seçildi (seçim).
 Sunucu dosyası içindeki analiz değeri olmayan (resim
dosyası istekleri vs.) kayıtlar elendi (ilk işlem)
 Veriler dosyalardan veritabanına aktarıldı ve bazı veriler
üzerinde dönüşümler yapıldı (tarih ve saat gibi)
(dönüşüm)
 Eğitilmeye hazır hale gelen veriler sınıflandırma işlemine
tabi tutuldu, bu işlemi yaparken karar ağaçları
tekniğinden faydalanıldı. (veri madenciliği)
 Sınıflandırma sonrasında saldırı yapan ve normal
kullanıcıların profilleri ortaya çıkarıldı. (yorum biçim)

SALDIRI TESPİT
SİSTEMLERİ

Saldırı nedir?

 Bilgisayar sistemleri için güvenlik hedefleri;
güvenilirlik, bütünlük ve kullanılabilirliktir.
 Bu güvenlik hedeflerini tehlikeye atmaya çalışan
etkilere saldırı adı verilir.
 Saldırı engelleme için kullanılan doğrulama,
şifreleme ve benzeri teknikler yeterli değildir.
Bu yüzden saldırı tespit sistemi bir ihtiyaçtır.

Saldırı tespit sistemi
nedir?
 Saldırı tespit sistemleri, İnternet veya yerel
ağdan gelebilecek ve ağdaki sistemlere zarar
verebilecek, çeşitli paket ve verilerden
oluşabilen saldırıları fark etmek üzere
tasarlanmış sistemlerdir. Temel amaçları
belirlenen kurallar çerçevesinde bu saldırıları
tespit ederek mail , sms , snmp mesajları gibi
araçlarla haber vermek ve gerekliyse bu
saldırıyı önlemektir.

Saldırı tipleri nelerdir?

 Bir sisteme yapılan saldırılar genellikle;
 Harici ataklar
 Bir başkası gibi görünme
 İmtiyazı kötüye kullanma
 Gizli kullanıcılar
şekillerinde ortaya çıkmaktadırlar.
 Saldırıları etkisiz hale getirmek için ise
engelleme, ele geçirme, caydırma, biçim bozma
ve bulma gibi teknikler kullanılabilir.

Saldırı tespiti metotları
nelerdir?
 Anormallik Tabanlı: normal ve normal
olmayan kullanıcılar için tipik desenler tespit
edilir ve kullanılır.
 İmza Tabanlı: önceki atakların ve eşleşen
desenlerin imzası modellenir.
 Otomatik Kurallar: tarihsel bilgi kullanılarak
normal ve saldırı trafiği modellenir.
 Kural Merkezli Politika: kurallar uzmanlar
tarafından belirlenir.

Saldırı tespiti
yaklaşımları nelerdir?
 Kötüye Kullanım Tespiti:
saldırıları tanımak için çok iyi bilinen
desenlerden faydalanılır.
Problemi:saldırı desenleri elle kodlanır ve ilk kez yapılan saldırılar
tanınamaz.
 Anormallik Tespiti:
normal kullanım desenlerinden
faydalanılarak normal olmayan (saldırı)
desenler bulunur.
Problemi: olaylar arasındaki ilişkilerin yakalanması mümkün
olamamaktadır.

Veri Madenciliği
Yaklaşımı
 Saldırı tespiti için bir başka yaklaşım
veri madenciliği yaklaşımıdır.
 Öğrenim ve tespit ajanları bulunur. Akıllı
ajan tabanlı bir yaklaşımdır.
 Öğrenim ajanları tespit modelleri ile
devamlı eğitilirler, tespit ajanları ise
saldırıların tespiti için güncellenmiş
modeller sunarlar.

SALDIRI TESPİTİ VE
VERİ MADENCİLİĞİ

Saldırı Tespitinde
Veri Madenciliği
 Saldırı tespitinde veri madenciliği
kullanımının sebepleri şunlardır;
 Denetleme(audit) verisi üzerinde normal ve
saldırı etkinlikleri kanıt bırakırlar.
 Veri merkezli bakış açısından bakıldığında
veri saldırı tespiti bir veri analiz işidir.
 İstisna saptanması ve hata yönetimi gibi
başarılı uygulamalarla aynı etki alanı
içerisindedir.

Amaç

 Web günlük dosyalarını kullanarak
saldırı tespiti yapma. Böylece IIS
açıklarını görerek önlem alınması.

Araç

 Web sunucu günlüklerindeki verilerden
saldırı tespiti yapmak için araç olarak
veri madenciliği teknikleri kullanılacak.
 Bu tekniklerden özellikle sınıflandırma,
kümeleme ve uyum kuralları üzerinde
durulacak.

Yöntem

 Karar ağacı yöntemi ile kullanıcılar
normal ve anormal olmak üzere iki sınıfa
ayrılacak.
 Uyum kuralları sayesinde, saldırı yapan
kullanıcıların sistemden hangi dosyaları
birlikte istedikleri bulunmaya çalışılacak.
 Kümeleme sayesinde de kullanıcılar üç
boyutlu bir uzay sayesinde birbirine
yakınlık ve uzaklıklarına göre normal
veya anormal olarak tespit edilecek.

Önce veriler(günlük
verisi)

Üzerinde saldırı tespiti yapılacak veri; web sunucu
günlük dosyalarında bulunmaktadır.

Seçim aşaması

 Günlük verileri 86 günlük bir
aralıktan seçilmiştir.

Temizleme aşaması

 Günlük verileri arasında resim
dosyaları ile ilgili kayıtlar analiz
değeri olmayan kayıtlar oldukları
için temizlenmiştir.

Dönüşüm aşaması

 Bu aşamada günlük verilerinden soyutlamalar
yoluyla istatistiksel bilgiler elde edilmiştir. Bu
bilgiler daha çok hit bilgileri şeklindedir.
 Bu işlem ile günlük verileri üzerinde çalışılabilir
hale gelmiştir.

Dönüştürülmüş kayıtlar

Veri madenciliği aşaması

 Bu aşamada;
 Sınıflandırma
 Uyum kuralları
 Kümeleme gibi temel veri madenciliği
teknikleri kullanılmıştır.

Sınıflandırma

 Sınıflandırma uygulamasında amaç
dosya tiplerine göre ortalama dosya
isteklerinin dağılımını bulmaktır,
böylece dosya tipi ve ortalamalar
arasındaki ilişki bulunmaya
çalışılmaktadır.

Elde edilen sonuçlar

 (default.ida) dosyası; code red virüsü ve
kurdu tarafından istenen dosya, özellikle
her bir bağlantıda tek istekte
bulunmakta.
 (.asp ve .htm) dosyaları; ortalama istek
adetleri 16’dan daha düşük olmakta.
 (.exe ve .dll) dosyaları; istek ortalamaları
daha çok 16’dan daha büyük olmakta.

Uyum kuralları

 Uygulamamızda uyum kurallarını
zararlı dosya istekleri arasındaki
uyumu bulmakta kullandık.

Elde edilen sonuçlar

 EXE ve DLL uzantılı dosya istekleri
arasında yüksek derecede bir uyum
bulundu.
 ASP ve HTM uzantılı dosya istekleri
arasında da yüksek dereceli bir uyum
bulundu.
 IDA uzantılı dosya isteklerinin diğer
dosya istekleri ile arasında bir uyum
olmadığı görüldü.

Bir problem ve çözümü

 Sınıflandırma ve uyum kuralları teknikleri
ile kısmen ida uzantılı dosyaların saldırı
dosyası olduğu bulunsa dahi kimi zaman
normal dosya istekleri gibi davrandığı
(asp) görülmüştür.
 IDA uzantılı dosya isteklerinin bu
tekniklerle bulunamaması üzerine başka
bir yöntem ile tespite çalışılmıştır.
 Bu yöntem şudur; durum kodları ile
metotları saymak.

Yöntemin sonuçları

 Bu yöntem uygulandığı zaman;
 Durum kodu oranları incelendiğinde (ASP-%80, IDA-%79,
HTM-%77, EXE-%22, DLL-%21) gibi değerler bulunmakta
ve yine IDA uzantısı kamufle olmaktadır.
 Metot kullanım sıklıkları ise (ASP-%20 POST, HTM-%20
POST, EXE-%2 POST, DLL-%0 POST, IDA-%2 POST)
şeklindedir.
 Bu sonuçlara göre sınıflandırma ve uyum
kuralları yeterli gelmediğinde ek yöntemlerle
saldırı davranışının tespit edilebileceği
görülmüştür.

Sonuç

 Web günlük verilerin sayılması veya istatistiksel
yöntemlerle özetinin çıkarılması bizlere saldırı
tespiti konusunda faydalı bilgi sağlamaktadır.
 Bu çalışmada sınıflandırma, uyum kuralları ve
istatistiksel yöntemler kullanarak saldırı
davranışını modellemeye çalıştık.
 Bu şekilde saldırı davranışını modellediğimiz
zaman saldırı dosyasının uzantısı ne olursa
olsun onu tanımak mümkün hale gelecektir.

Veri madenciliği ve ids

More Related Content

Similar to Veri madenciliği ve ids (20)

More from Cumhuriyet Üniversitesi (7)

Veri madenciliği ve ids