Prawdziwe dane liczbowe można mnożyć w sensowny sposób. Weźmy na przykład model, który przewiduje wartość domu na podstawie jego powierzchni.
Pamiętaj, że przydatny model do oceny cen domów zwykle opiera się na setkach cech. Przy założeniu, że wszystkie inne są równe, dom o 200 kwadratach
metry powinny być mniej więcej dwa razy cenniejsze niż taki sam dom o powierzchni 100 kwadratów
m
Cechy, które zawierają wartości całkowite, często należy przedstawić jako
w postaci danych kategorialnych, a nie liczbowych. Rozważ na przykład cechę kodu pocztowego, w której wartości są liczbami całkowitymi. Jeśli reprezentujesz tę firmę
w postaci liczbowej, a nie kategorialnej, modelujesz,
znaleźć zależność liczbową
między różnymi kodami pocztowymi. Oznacza to, że mówisz modelowi, aby traktował kod pocztowy 20004 jako sygnał dwukrotnie (lub połowę) większy niż kod pocztowy 10002. Reprezentowanie kodów pocztowych jako danych porządkowych umożliwia modelowi oddzielne ważenie poszczególnych kodów pocztowych.
Kodowanie
Kodowanie oznacza konwertowanie danych kategorycznych lub innych na wektory liczbowe, na których można trenować model. Ta konwersja jest konieczna, ponieważ modele mogą trenować tylko na wartościach zmiennoprzecinkowych. Nie mogą trenować na ciągach znaków takich jak "dog" lub "maple". W tym module omawiamy różne metody kodowania danych jakościowych.
[[["Łatwo zrozumieć","easyToUnderstand","thumb-up"],["Rozwiązało to mój problem","solvedMyProblem","thumb-up"],["Inne","otherUp","thumb-up"]],[["Brak potrzebnych mi informacji","missingTheInformationINeed","thumb-down"],["Zbyt skomplikowane / zbyt wiele czynności do wykonania","tooComplicatedTooManySteps","thumb-down"],["Nieaktualne treści","outOfDate","thumb-down"],["Problem z tłumaczeniem","translationIssue","thumb-down"],["Problem z przykładami/kodem","samplesCodeIssue","thumb-down"],["Inne","otherDown","thumb-down"]],["Ostatnia aktualizacja: 2025-07-27 UTC."],[[["This module focuses on differentiating between categorical and numerical data within machine learning."],["You will learn how to represent categorical data using one-hot vectors and address common issues associated with it."],["The module covers encoding techniques for converting categorical data into numerical vectors suitable for model training."],["Feature crosses, a method for combining categorical features to capture interactions, are also discussed."],["It is assumed you have prior knowledge of introductory machine learning and working with numerical data."]]],[]]