Kategorik verilerle çalışma

Kategorik veriler, belirli bir değer grubu. Örneğin:

  • Milli parktaki farklı hayvan türleri
  • Belirli bir şehirdeki sokak adları
  • E-postanın spam olup olmadığı
  • Dış cephelerin boyandığı renkler
  • Sayısal Verilerle Çalışma modülünde açıklanan gruplandırılmış sayılar

Sayılar ayrıca kategorik veri de olabilir

Doğru sayısal veriler katlanabilirsiniz. Örneğin, bir evin değerini alanına göre tahmin eden bir model düşünün. Ev fiyatlarını değerlendirmek için yararlı bir modelin genellikle yüzlerce özelliğe dayandığını unutmayın. Bununla birlikte, diğer tüm koşullar aynı olduğunda 200 metrekarelik bir evin değeri, 100 metrekarelik aynı evin değerinin yaklaşık iki katı olmalıdır.

Çoğu zaman tamsayı değerleri içeren özellikleri kategorik verileri kullanır. Örneğin, değerlerin tam sayı olduğu kod özelliği. Bunu temsil ediyorsanız özellik sayısını kategorik olarak değil, sayısal olarak göstermek istediğinizde, modele sayısal bir ilişki bulmak için ekleyebilirsiniz. Yani modele, müşterilerinizin 20004 posta kodu, posta kodundan iki kat (veya yarısı) daha büyük bir sinyal olarak ele alınır 10002. Posta kodlarını kategorik veri olarak göstermek, her posta kodunun ağırlığını ayrı ayrı alın.

Kodlama

Kodlama kategorik verilerin veya diğer verilerin sayısal vektörlere dönüştürülmesi anlamına gelir tek bir fonksiyona değineceğiz. Modeller yalnızca kayan nokta değerleriyle eğitilebildiği için bu dönüşüm gereklidir. Modeller "dog" veya "maple" gibi dizelerle eğitilemez. Bu modülde, proje yönetimiyle ilgili kodlama yöntemlerini öğrenmek için kullanır.