Praca z danymi kategorialnymi

Dane kategorialne mają określony zestaw możliwych wartości. Na przykład:

  • Różne gatunki zwierząt w parku narodowym
  • nazwy ulic w konkretnym mieście;
  • czy e-mail jest spamem.
  • kolory, w które pomalowano zewnętrzne ściany domu;
  • zaokrąglone liczby, które są opisane w module Praca z danymi liczbowymi;

Liczby mogą też być danymi kategorialnymi

Prawdziwe dane liczbowe można mnożyć w sensowny sposób. Weźmy na przykład model, który przewiduje wartość domu na podstawie jego powierzchni. Pamiętaj, że przydatny model do oceny cen domów zwykle opiera się na setkach cech. Przy założeniu, że wszystkie inne są równe, dom o 200 kwadratach metry powinny być mniej więcej dwa razy cenniejsze niż taki sam dom o powierzchni 100 kwadratów m

Cechy, które zawierają wartości całkowite, często należy przedstawić jako w postaci danych kategorialnych, a nie liczbowych. Rozważ na przykład cechę kodu pocztowego, w której wartości są liczbami całkowitymi. Jeśli reprezentujesz tę firmę w postaci liczbowej, a nie kategorialnej, modelujesz, znaleźć zależność liczbową między różnymi kodami pocztowymi. Oznacza to, że mówisz modelowi, aby traktował kod pocztowy 20004 jako sygnał dwukrotnie (lub połowę) większy niż kod pocztowy 10002. Reprezentowanie kodów pocztowych jako danych porządkowych umożliwia modelowi oddzielne ważenie poszczególnych kodów pocztowych.

Kodowanie

Kodowanie oznacza konwertowanie danych kategorycznych lub innych na wektory liczbowe, na których można trenować model. Ta konwersja jest konieczna, ponieważ modele mogą trenować tylko na wartościach zmiennoprzecinkowych. Nie mogą trenować na ciągach znaków takich jak "dog" lub "maple". W tym module omawiamy różne metody kodowania danych jakościowych.