SlideShare a Scribd company logo
Veri Madenciliği ve IDS

       Hazırlayan ve Sunan
        Hidayet TAKCI

       htakci@bilmuh.gyte.edu.tr
VERİ MADENCİLİĞİ
Veri madenciliği nedir?

 Anlamlı desenler ve kurallar bulmak için büyük
  miktardaki verinin analiz ve keşfidir.
 Verinin faydalı özetinin ortaya çıkarılmasıdır.
 Çok büyük veritabanlarındaki gizli kalmış global desenler
  ve hasta verileri ile onların teşhis verileri arasındaki
  ilişkiler gibi ilişkilerin taranıp bulunmasıdır.
 Veri madenciliği verinin analizi ve veri kaynaklarındaki
  benzerlik ve desenleri bulmak için kullanılan yazılım
  teknikleri ile ilgilidir.
 Veri madenciliği analizleri veriden işe güvenilir karar ve
  sonuçlara varmak için verinin dönüşümü ile ilgilidir
Aşamaları nelerdir?
   Seçim: Madenciliği yapılacak veri belli kriterlere göre
    seçilir veya bölümlere ayrılır.
   İlk İşlem: Bu aşama veri temizleme aşamasıdır,
    gereksiz görülen bilgi silinir, mesela gebelik testinde
    cinsiyet bilgisinin silinmesi gibi.
   Dönüşüm: Veri sadece bir yerden bir yere taşınmaz,
    veri kullanılabilir ve yönetilebilir hale getirilir.
   Veri Madenciliği: Bu aşama verideki desenlerin
    açığa çıkarılması ile ilgili aşamadır.
   Yorum ve Biçimlendirme: Bu aşamada insani karar
    verme, tahmin ve sınıflama işleri, veritabanının içerik
    özeti ve bilgiye çevrilen desenler sistem tarafından
    tanımlanır.
Problemleri nelerdir?

 Limitli Bilgi
 Gürültü ve Kayıp Değerler
 Belirsizlik
 Boyut, güncelleme ve ilişkisiz sahalar
Geri planında hangi
      disiplinler bulunur?

 Makine öğrenimi
 Uzman sistemler
 İstatistik
 Veritabanları
 Görselleştirme
Uygulamaları nelerdir?

1.   Bağıntı (Assocation) (Ör: Sepet Analizi)
2.   Sınıflandırma (Classification)
3.   Regrasyon (Ör: Kredi Skorlama)
4.   Zaman içinde sıralı örüntüler (Sequence
     patterns in time)
5. Benzer zaman sıraları (time series)
6. İstisnalar (Ör: Fark Saptanması)
7. Doküman madenciliği (Web Mining)
Teknikleri nelerdir?

1. İstatistiksel Yöntemler (Statistical
   Methods)
2. Bellek Tabanlı Yöntemler (Memory
   Based Reasioning)
3. Sinir Ağları (Neural Networks)
4. Karar Ağaçları (Decision Trees)
Örnek bir çalışma

 Yaklaşık üç ay boyunca web sunucusu üzerinde toplanan
  günlük verileri analiz için seçildi (seçim).
 Sunucu dosyası içindeki analiz değeri olmayan (resim
  dosyası istekleri vs.) kayıtlar elendi (ilk işlem)
 Veriler dosyalardan veritabanına aktarıldı ve bazı veriler
  üzerinde dönüşümler yapıldı (tarih ve saat gibi)
  (dönüşüm)
 Eğitilmeye hazır hale gelen veriler sınıflandırma işlemine
  tabi tutuldu, bu işlemi yaparken karar ağaçları
  tekniğinden faydalanıldı. (veri madenciliği)
 Sınıflandırma sonrasında saldırı yapan ve normal
  kullanıcıların profilleri ortaya çıkarıldı. (yorum biçim)
SALDIRI TESPİT
  SİSTEMLERİ
Saldırı nedir?

 Bilgisayar sistemleri için güvenlik hedefleri;
  güvenilirlik, bütünlük ve kullanılabilirliktir.
 Bu güvenlik hedeflerini tehlikeye atmaya çalışan
  etkilere saldırı adı verilir.
 Saldırı engelleme için kullanılan doğrulama,
  şifreleme ve benzeri teknikler yeterli değildir.
  Bu yüzden saldırı tespit sistemi bir ihtiyaçtır.
Saldırı tespit sistemi
                nedir?
 Saldırı tespit sistemleri, İnternet veya yerel
  ağdan gelebilecek ve ağdaki sistemlere zarar
  verebilecek, çeşitli paket ve verilerden
  oluşabilen saldırıları fark etmek üzere
  tasarlanmış sistemlerdir. Temel amaçları
  belirlenen kurallar çerçevesinde bu saldırıları
  tespit ederek mail , sms , snmp mesajları gibi
  araçlarla haber vermek ve gerekliyse bu
  saldırıyı önlemektir.
Saldırı tipleri nelerdir?

 Bir sisteme yapılan saldırılar genellikle;
      Harici ataklar
      Bir başkası gibi görünme
      İmtiyazı kötüye kullanma
      Gizli kullanıcılar
  şekillerinde ortaya çıkmaktadırlar.
 Saldırıları etkisiz hale getirmek için ise
  engelleme, ele geçirme, caydırma, biçim bozma
  ve bulma gibi teknikler kullanılabilir.
Saldırı tespiti metotları
             nelerdir?
 Anormallik Tabanlı: normal ve normal
  olmayan kullanıcılar için tipik desenler tespit
  edilir ve kullanılır.
 İmza Tabanlı: önceki atakların ve eşleşen
  desenlerin imzası modellenir.
 Otomatik Kurallar: tarihsel bilgi kullanılarak
  normal ve saldırı trafiği modellenir.
 Kural Merkezli Politika: kurallar uzmanlar
  tarafından belirlenir.
Saldırı tespiti
            yaklaşımları nelerdir?
 Kötüye Kullanım Tespiti:
  saldırıları tanımak için çok iyi bilinen
  desenlerden faydalanılır.
Problemi:saldırı desenleri elle kodlanır ve ilk kez yapılan saldırılar
   tanınamaz.
 Anormallik Tespiti:
  normal kullanım desenlerinden
  faydalanılarak normal olmayan (saldırı)
  desenler bulunur.
Problemi: olaylar arasındaki ilişkilerin yakalanması mümkün
   olamamaktadır.
Veri Madenciliği
              Yaklaşımı
 Saldırı tespiti için bir başka yaklaşım
  veri madenciliği yaklaşımıdır.
 Öğrenim ve tespit ajanları bulunur. Akıllı
  ajan tabanlı bir yaklaşımdır.
 Öğrenim ajanları tespit modelleri ile
  devamlı eğitilirler, tespit ajanları ise
  saldırıların tespiti için güncellenmiş
  modeller sunarlar.
SALDIRI TESPİTİ VE
VERİ MADENCİLİĞİ
Saldırı Tespitinde
            Veri Madenciliği
 Saldırı tespitinde veri madenciliği
  kullanımının sebepleri şunlardır;
     Denetleme(audit) verisi üzerinde normal ve
      saldırı etkinlikleri kanıt bırakırlar.
     Veri merkezli bakış açısından bakıldığında
      veri saldırı tespiti bir veri analiz işidir.
     İstisna saptanması ve hata yönetimi gibi
      başarılı uygulamalarla aynı etki alanı
      içerisindedir.
Amaç

 Web günlük dosyalarını kullanarak
  saldırı tespiti yapma. Böylece IIS
  açıklarını görerek önlem alınması.
Araç

 Web sunucu günlüklerindeki verilerden
  saldırı tespiti yapmak için araç olarak
  veri madenciliği teknikleri kullanılacak.
 Bu tekniklerden özellikle sınıflandırma,
  kümeleme ve uyum kuralları üzerinde
  durulacak.
Yöntem

 Karar ağacı yöntemi ile kullanıcılar
  normal ve anormal olmak üzere iki sınıfa
  ayrılacak.
 Uyum kuralları sayesinde, saldırı yapan
  kullanıcıların sistemden hangi dosyaları
  birlikte istedikleri bulunmaya çalışılacak.
 Kümeleme sayesinde de kullanıcılar üç
  boyutlu bir uzay sayesinde birbirine
  yakınlık ve uzaklıklarına göre normal
  veya anormal olarak tespit edilecek.
ÇALIŞMAMIZ
Önce veriler(günlük
                verisi)



Üzerinde saldırı tespiti yapılacak veri; web sunucu
günlük dosyalarında bulunmaktadır.
Seçim aşaması

 Günlük verileri 86 günlük bir
  aralıktan seçilmiştir.
Temizleme aşaması

 Günlük verileri arasında resim
  dosyaları ile ilgili kayıtlar analiz
  değeri olmayan kayıtlar oldukları
  için temizlenmiştir.
Dönüşüm aşaması

 Bu aşamada günlük verilerinden soyutlamalar
  yoluyla istatistiksel bilgiler elde edilmiştir. Bu
  bilgiler daha çok hit bilgileri şeklindedir.
 Bu işlem ile günlük verileri üzerinde çalışılabilir
  hale gelmiştir.
Dönüştürülmüş kayıtlar
Veri madenciliği aşaması

 Bu aşamada;
    Sınıflandırma
    Uyum kuralları
    Kümeleme gibi temel veri madenciliği
     teknikleri kullanılmıştır.
Sınıflandırma

 Sınıflandırma uygulamasında amaç
  dosya tiplerine göre ortalama dosya
  isteklerinin dağılımını bulmaktır,
  böylece dosya tipi ve ortalamalar
  arasındaki ilişki bulunmaya
  çalışılmaktadır.
Sınıflandırma uygulaması
Elde edilen sonuçlar

 (default.ida) dosyası; code red virüsü ve
  kurdu tarafından istenen dosya, özellikle
  her bir bağlantıda tek istekte
  bulunmakta.
 (.asp ve .htm) dosyaları; ortalama istek
  adetleri 16’dan daha düşük olmakta.
 (.exe ve .dll) dosyaları; istek ortalamaları
  daha çok 16’dan daha büyük olmakta.
Uyum kuralları

 Uygulamamızda uyum kurallarını
  zararlı dosya istekleri arasındaki
  uyumu bulmakta kullandık.
Uyum kuralları
 uygulaması
Uyum kuralları-görsel
Elde edilen sonuçlar

 EXE ve DLL uzantılı dosya istekleri
  arasında yüksek derecede bir uyum
  bulundu.
 ASP ve HTM uzantılı dosya istekleri
  arasında da yüksek dereceli bir uyum
  bulundu.
 IDA uzantılı dosya isteklerinin diğer
  dosya istekleri ile arasında bir uyum
  olmadığı görüldü.
Bir problem ve çözümü

 Sınıflandırma ve uyum kuralları teknikleri
  ile kısmen ida uzantılı dosyaların saldırı
  dosyası olduğu bulunsa dahi kimi zaman
  normal dosya istekleri gibi davrandığı
  (asp) görülmüştür.
 IDA uzantılı dosya isteklerinin bu
  tekniklerle bulunamaması üzerine başka
  bir yöntem ile tespite çalışılmıştır.
 Bu yöntem şudur; durum kodları ile
  metotları saymak.
Yöntemin sonuçları

 Bu yöntem uygulandığı zaman;
     Durum kodu oranları incelendiğinde (ASP-%80, IDA-%79,
      HTM-%77, EXE-%22, DLL-%21) gibi değerler bulunmakta
      ve yine IDA uzantısı kamufle olmaktadır.
     Metot kullanım sıklıkları ise (ASP-%20 POST, HTM-%20
      POST, EXE-%2 POST, DLL-%0 POST, IDA-%2 POST)
      şeklindedir.
 Bu sonuçlara göre sınıflandırma ve uyum
  kuralları yeterli gelmediğinde ek yöntemlerle
  saldırı davranışının tespit edilebileceği
  görülmüştür.
Sonuç

 Web günlük verilerin sayılması veya istatistiksel
  yöntemlerle özetinin çıkarılması bizlere saldırı
  tespiti konusunda faydalı bilgi sağlamaktadır.
 Bu çalışmada sınıflandırma, uyum kuralları ve
  istatistiksel yöntemler kullanarak saldırı
  davranışını modellemeye çalıştık.
 Bu şekilde saldırı davranışını modellediğimiz
  zaman saldırı dosyasının uzantısı ne olursa
  olsun onu tanımak mümkün hale gelecektir.

More Related Content

PPT
Slayt_4
PPTX
Prof.dr. halit hami oz 10-sağlık kurumlarında bilgi sistemi-hastane bi̇lgi̇ s...
PPT
Teknik Rapor Nasıl Yazılır?
PDF
PHP ve MySQL Bağlantısı - Temel İşlemler
PPT
Grooming & personal hygiene
PDF
Zafiyet tespiti ve sizma yöntemleri
PPT
Bilgi Güvenliği ve Ağ Güvenliği //Fırat Üniversitesi Siber Güvenlik Konferansı
PPTX
Veri̇ madenci̇li̇ği̇
Slayt_4
Prof.dr. halit hami oz 10-sağlık kurumlarında bilgi sistemi-hastane bi̇lgi̇ s...
Teknik Rapor Nasıl Yazılır?
PHP ve MySQL Bağlantısı - Temel İşlemler
Grooming & personal hygiene
Zafiyet tespiti ve sizma yöntemleri
Bilgi Güvenliği ve Ağ Güvenliği //Fırat Üniversitesi Siber Güvenlik Konferansı
Veri̇ madenci̇li̇ği̇

Similar to Veri madenciliği ve ids (20)

PPTX
BTRisk - Siber Olay Tespit ve Mudahale Egitimi
PPT
Sizma Belirleme
PPTX
Kurumunuzdaki Siber Güvenlik Tehditlerini Analiz Edebiliyor musunuz?
PPTX
Network Hacking
PPTX
ÖNCEL AKADEMİ: ÖZEL KONULAR
PDF
Beyaz Şapkalı Hacker CEH Eğitimi - Siber Güvenlik Temelleri
PDF
Rusya kaynaklı siber saldırılar
PPTX
Data Mining Presentation
PDF
OWASP Machine Learning Security Top 10, 2023 Edition (Draft release v0.2) (Tü...
PDF
Penetrasyon Testlerinde Açık Kod Yazılımların Kullanımı
PDF
Olay Mudahale ve EDR
PDF
Adaptif Penetration(Sızma) Testleri
PPTX
Web Hacking
PDF
Open Source Threat Intelligence | Açık Kaynak Tehdit İstihbaratı
PPTX
Siber güvenlik ve SOC
PPTX
Siber Tehdit Gözetleme ve SIEM Olarak Açık Kaynak Sistemlerin Kullanımı
PDF
Muhammer KARAMAN, Hayrettin ÇATALKAYA - KURUMSAL SİBERGÜVENLİK: Açık Kaynak İ...
PPTX
CypSec Sunum
PDF
SOC ve SIEM Çözümlerinde Korelasyon
PPTX
Bilgi güvenlik uygulamaları
BTRisk - Siber Olay Tespit ve Mudahale Egitimi
Sizma Belirleme
Kurumunuzdaki Siber Güvenlik Tehditlerini Analiz Edebiliyor musunuz?
Network Hacking
ÖNCEL AKADEMİ: ÖZEL KONULAR
Beyaz Şapkalı Hacker CEH Eğitimi - Siber Güvenlik Temelleri
Rusya kaynaklı siber saldırılar
Data Mining Presentation
OWASP Machine Learning Security Top 10, 2023 Edition (Draft release v0.2) (Tü...
Penetrasyon Testlerinde Açık Kod Yazılımların Kullanımı
Olay Mudahale ve EDR
Adaptif Penetration(Sızma) Testleri
Web Hacking
Open Source Threat Intelligence | Açık Kaynak Tehdit İstihbaratı
Siber güvenlik ve SOC
Siber Tehdit Gözetleme ve SIEM Olarak Açık Kaynak Sistemlerin Kullanımı
Muhammer KARAMAN, Hayrettin ÇATALKAYA - KURUMSAL SİBERGÜVENLİK: Açık Kaynak İ...
CypSec Sunum
SOC ve SIEM Çözümlerinde Korelasyon
Bilgi güvenlik uygulamaları
Ad

More from Cumhuriyet Üniversitesi (7)

PPTX
Gereksinim Analizi Dokümanı Hazırlama
PPT
ALGOL ailesi programlama dilleri
PPT
Phyton Programlama Dili
PPT
Veritabanları
Gereksinim Analizi Dokümanı Hazırlama
ALGOL ailesi programlama dilleri
Phyton Programlama Dili
Veritabanları
Ad

Veri madenciliği ve ids

  • 1. Veri Madenciliği ve IDS Hazırlayan ve Sunan Hidayet TAKCI [email protected]
  • 3. Veri madenciliği nedir?  Anlamlı desenler ve kurallar bulmak için büyük miktardaki verinin analiz ve keşfidir.  Verinin faydalı özetinin ortaya çıkarılmasıdır.  Çok büyük veritabanlarındaki gizli kalmış global desenler ve hasta verileri ile onların teşhis verileri arasındaki ilişkiler gibi ilişkilerin taranıp bulunmasıdır.  Veri madenciliği verinin analizi ve veri kaynaklarındaki benzerlik ve desenleri bulmak için kullanılan yazılım teknikleri ile ilgilidir.  Veri madenciliği analizleri veriden işe güvenilir karar ve sonuçlara varmak için verinin dönüşümü ile ilgilidir
  • 4. Aşamaları nelerdir?  Seçim: Madenciliği yapılacak veri belli kriterlere göre seçilir veya bölümlere ayrılır.  İlk İşlem: Bu aşama veri temizleme aşamasıdır, gereksiz görülen bilgi silinir, mesela gebelik testinde cinsiyet bilgisinin silinmesi gibi.  Dönüşüm: Veri sadece bir yerden bir yere taşınmaz, veri kullanılabilir ve yönetilebilir hale getirilir.  Veri Madenciliği: Bu aşama verideki desenlerin açığa çıkarılması ile ilgili aşamadır.  Yorum ve Biçimlendirme: Bu aşamada insani karar verme, tahmin ve sınıflama işleri, veritabanının içerik özeti ve bilgiye çevrilen desenler sistem tarafından tanımlanır.
  • 5. Problemleri nelerdir?  Limitli Bilgi  Gürültü ve Kayıp Değerler  Belirsizlik  Boyut, güncelleme ve ilişkisiz sahalar
  • 6. Geri planında hangi disiplinler bulunur?  Makine öğrenimi  Uzman sistemler  İstatistik  Veritabanları  Görselleştirme
  • 7. Uygulamaları nelerdir? 1. Bağıntı (Assocation) (Ör: Sepet Analizi) 2. Sınıflandırma (Classification) 3. Regrasyon (Ör: Kredi Skorlama) 4. Zaman içinde sıralı örüntüler (Sequence patterns in time) 5. Benzer zaman sıraları (time series) 6. İstisnalar (Ör: Fark Saptanması) 7. Doküman madenciliği (Web Mining)
  • 8. Teknikleri nelerdir? 1. İstatistiksel Yöntemler (Statistical Methods) 2. Bellek Tabanlı Yöntemler (Memory Based Reasioning) 3. Sinir Ağları (Neural Networks) 4. Karar Ağaçları (Decision Trees)
  • 9. Örnek bir çalışma  Yaklaşık üç ay boyunca web sunucusu üzerinde toplanan günlük verileri analiz için seçildi (seçim).  Sunucu dosyası içindeki analiz değeri olmayan (resim dosyası istekleri vs.) kayıtlar elendi (ilk işlem)  Veriler dosyalardan veritabanına aktarıldı ve bazı veriler üzerinde dönüşümler yapıldı (tarih ve saat gibi) (dönüşüm)  Eğitilmeye hazır hale gelen veriler sınıflandırma işlemine tabi tutuldu, bu işlemi yaparken karar ağaçları tekniğinden faydalanıldı. (veri madenciliği)  Sınıflandırma sonrasında saldırı yapan ve normal kullanıcıların profilleri ortaya çıkarıldı. (yorum biçim)
  • 10. SALDIRI TESPİT SİSTEMLERİ
  • 11. Saldırı nedir?  Bilgisayar sistemleri için güvenlik hedefleri; güvenilirlik, bütünlük ve kullanılabilirliktir.  Bu güvenlik hedeflerini tehlikeye atmaya çalışan etkilere saldırı adı verilir.  Saldırı engelleme için kullanılan doğrulama, şifreleme ve benzeri teknikler yeterli değildir. Bu yüzden saldırı tespit sistemi bir ihtiyaçtır.
  • 12. Saldırı tespit sistemi nedir?  Saldırı tespit sistemleri, İnternet veya yerel ağdan gelebilecek ve ağdaki sistemlere zarar verebilecek, çeşitli paket ve verilerden oluşabilen saldırıları fark etmek üzere tasarlanmış sistemlerdir. Temel amaçları belirlenen kurallar çerçevesinde bu saldırıları tespit ederek mail , sms , snmp mesajları gibi araçlarla haber vermek ve gerekliyse bu saldırıyı önlemektir.
  • 13. Saldırı tipleri nelerdir?  Bir sisteme yapılan saldırılar genellikle;  Harici ataklar  Bir başkası gibi görünme  İmtiyazı kötüye kullanma  Gizli kullanıcılar şekillerinde ortaya çıkmaktadırlar.  Saldırıları etkisiz hale getirmek için ise engelleme, ele geçirme, caydırma, biçim bozma ve bulma gibi teknikler kullanılabilir.
  • 14. Saldırı tespiti metotları nelerdir?  Anormallik Tabanlı: normal ve normal olmayan kullanıcılar için tipik desenler tespit edilir ve kullanılır.  İmza Tabanlı: önceki atakların ve eşleşen desenlerin imzası modellenir.  Otomatik Kurallar: tarihsel bilgi kullanılarak normal ve saldırı trafiği modellenir.  Kural Merkezli Politika: kurallar uzmanlar tarafından belirlenir.
  • 15. Saldırı tespiti yaklaşımları nelerdir?  Kötüye Kullanım Tespiti: saldırıları tanımak için çok iyi bilinen desenlerden faydalanılır. Problemi:saldırı desenleri elle kodlanır ve ilk kez yapılan saldırılar tanınamaz.  Anormallik Tespiti: normal kullanım desenlerinden faydalanılarak normal olmayan (saldırı) desenler bulunur. Problemi: olaylar arasındaki ilişkilerin yakalanması mümkün olamamaktadır.
  • 16. Veri Madenciliği Yaklaşımı  Saldırı tespiti için bir başka yaklaşım veri madenciliği yaklaşımıdır.  Öğrenim ve tespit ajanları bulunur. Akıllı ajan tabanlı bir yaklaşımdır.  Öğrenim ajanları tespit modelleri ile devamlı eğitilirler, tespit ajanları ise saldırıların tespiti için güncellenmiş modeller sunarlar.
  • 17. SALDIRI TESPİTİ VE VERİ MADENCİLİĞİ
  • 18. Saldırı Tespitinde Veri Madenciliği  Saldırı tespitinde veri madenciliği kullanımının sebepleri şunlardır;  Denetleme(audit) verisi üzerinde normal ve saldırı etkinlikleri kanıt bırakırlar.  Veri merkezli bakış açısından bakıldığında veri saldırı tespiti bir veri analiz işidir.  İstisna saptanması ve hata yönetimi gibi başarılı uygulamalarla aynı etki alanı içerisindedir.
  • 19. Amaç  Web günlük dosyalarını kullanarak saldırı tespiti yapma. Böylece IIS açıklarını görerek önlem alınması.
  • 20. Araç  Web sunucu günlüklerindeki verilerden saldırı tespiti yapmak için araç olarak veri madenciliği teknikleri kullanılacak.  Bu tekniklerden özellikle sınıflandırma, kümeleme ve uyum kuralları üzerinde durulacak.
  • 21. Yöntem  Karar ağacı yöntemi ile kullanıcılar normal ve anormal olmak üzere iki sınıfa ayrılacak.  Uyum kuralları sayesinde, saldırı yapan kullanıcıların sistemden hangi dosyaları birlikte istedikleri bulunmaya çalışılacak.  Kümeleme sayesinde de kullanıcılar üç boyutlu bir uzay sayesinde birbirine yakınlık ve uzaklıklarına göre normal veya anormal olarak tespit edilecek.
  • 23. Önce veriler(günlük verisi) Üzerinde saldırı tespiti yapılacak veri; web sunucu günlük dosyalarında bulunmaktadır.
  • 24. Seçim aşaması  Günlük verileri 86 günlük bir aralıktan seçilmiştir.
  • 25. Temizleme aşaması  Günlük verileri arasında resim dosyaları ile ilgili kayıtlar analiz değeri olmayan kayıtlar oldukları için temizlenmiştir.
  • 26. Dönüşüm aşaması  Bu aşamada günlük verilerinden soyutlamalar yoluyla istatistiksel bilgiler elde edilmiştir. Bu bilgiler daha çok hit bilgileri şeklindedir.  Bu işlem ile günlük verileri üzerinde çalışılabilir hale gelmiştir.
  • 28. Veri madenciliği aşaması  Bu aşamada;  Sınıflandırma  Uyum kuralları  Kümeleme gibi temel veri madenciliği teknikleri kullanılmıştır.
  • 29. Sınıflandırma  Sınıflandırma uygulamasında amaç dosya tiplerine göre ortalama dosya isteklerinin dağılımını bulmaktır, böylece dosya tipi ve ortalamalar arasındaki ilişki bulunmaya çalışılmaktadır.
  • 31. Elde edilen sonuçlar  (default.ida) dosyası; code red virüsü ve kurdu tarafından istenen dosya, özellikle her bir bağlantıda tek istekte bulunmakta.  (.asp ve .htm) dosyaları; ortalama istek adetleri 16’dan daha düşük olmakta.  (.exe ve .dll) dosyaları; istek ortalamaları daha çok 16’dan daha büyük olmakta.
  • 32. Uyum kuralları  Uygulamamızda uyum kurallarını zararlı dosya istekleri arasındaki uyumu bulmakta kullandık.
  • 35. Elde edilen sonuçlar  EXE ve DLL uzantılı dosya istekleri arasında yüksek derecede bir uyum bulundu.  ASP ve HTM uzantılı dosya istekleri arasında da yüksek dereceli bir uyum bulundu.  IDA uzantılı dosya isteklerinin diğer dosya istekleri ile arasında bir uyum olmadığı görüldü.
  • 36. Bir problem ve çözümü  Sınıflandırma ve uyum kuralları teknikleri ile kısmen ida uzantılı dosyaların saldırı dosyası olduğu bulunsa dahi kimi zaman normal dosya istekleri gibi davrandığı (asp) görülmüştür.  IDA uzantılı dosya isteklerinin bu tekniklerle bulunamaması üzerine başka bir yöntem ile tespite çalışılmıştır.  Bu yöntem şudur; durum kodları ile metotları saymak.
  • 37. Yöntemin sonuçları  Bu yöntem uygulandığı zaman;  Durum kodu oranları incelendiğinde (ASP-%80, IDA-%79, HTM-%77, EXE-%22, DLL-%21) gibi değerler bulunmakta ve yine IDA uzantısı kamufle olmaktadır.  Metot kullanım sıklıkları ise (ASP-%20 POST, HTM-%20 POST, EXE-%2 POST, DLL-%0 POST, IDA-%2 POST) şeklindedir.  Bu sonuçlara göre sınıflandırma ve uyum kuralları yeterli gelmediğinde ek yöntemlerle saldırı davranışının tespit edilebileceği görülmüştür.
  • 38. Sonuç  Web günlük verilerin sayılması veya istatistiksel yöntemlerle özetinin çıkarılması bizlere saldırı tespiti konusunda faydalı bilgi sağlamaktadır.  Bu çalışmada sınıflandırma, uyum kuralları ve istatistiksel yöntemler kullanarak saldırı davranışını modellemeye çalıştık.  Bu şekilde saldırı davranışını modellediğimiz zaman saldırı dosyasının uzantısı ne olursa olsun onu tanımak mümkün hale gelecektir.