Data kategoris memiliki kumpulan tertentu kemungkinan nilai. Contoh:
- Berbagai spesies hewan di taman nasional
- Nama-nama jalan di kota tertentu
- Apakah email merupakan spam atau bukan
- Warna yang digunakan untuk mengecat eksterior rumah
- Angka yang dikelompokkan, yang dijelaskan dalam modul Menggunakan Data Numerik
Angka juga dapat berupa data kategoris
Data numerik benar dapat dikalikan secara bermakna. Misalnya, pertimbangkan model yang memprediksi nilai rumah berdasarkan areanya. Perhatikan bahwa model yang berguna untuk mengevaluasi harga rumah biasanya mengandalkan ratusan fitur. Dengan demikian, jika semua hal lainnya sama, rumah seluas 200 meter persegi seharusnya bernilai dua kali lipat dari rumah identik seluas 100 meter persegi.
Sering kali, Anda harus merepresentasikan fitur yang berisi nilai bilangan bulat sebagai data kategorikal alih-alih data numerik. Misalnya, pertimbangkan fitur kode pos yang nilainya berupa bilangan bulat. Jika Anda mewakili ini fitur secara numerik, bukan kategoris, Anda meminta model untuk menemukan hubungan numerik di antara kode pos yang berbeda. Artinya, Anda memberi tahu model untuk memperlakukan kode pos 20004 sebagai sinyal dua kali (atau setengah) lebih besar dari kode pos 10002. Merepresentasikan kode pos sebagai data kategorik memungkinkan model memberi bobot setiap kode pos secara terpisah.
Encoding
Encoding berarti mengonversi data kategori atau data lainnya menjadi vektor numerik
yang dapat digunakan untuk melatih model. Konversi ini diperlukan karena model hanya dapat
dilatih pada nilai floating point; model tidak dapat dilatih pada string seperti
"dog"
atau "maple"
. Modul ini menjelaskan berbagai
metode encoding untuk data kategorik.