Algoritmos y Validación de Modelos de Machine Learning
Algoritmos y Validación de Modelos de Machine Learning
DATA SCIENCE I
Algoritmos y Validación
de Modelos de Machine
Learning
Objetivos de la clase
Métricas y
Conceptos Aprendizaje y Aprendizaje y
modelos de
básicos Validación Validación
regresión
Overfitting Matriz de
Dataset RMSE
confusión
Atributo Precisión R2
Objetivo Sensibilidad
Ingeniería de
Factores Especificidad
Outliers F1 - Score
PARA RECORDAR
Inteligencia Artificial
La evaluación de modelos es un aspecto
fundamental y crítico en todo flujo de Data
Science. Pero antes de hablar de métricas de
performance, resulta importante entender
algunos conceptos básicos y esenciales del
Machine Learning.
Empecemos😃
Conceptos básicos
Dataset, instancia,
característica y variable
objetivo
Dataset: conjunto
de datos
✓ Materia prima del sistema de
predicción.
✓ Histórico de datos que se usa para
entrenar al sistema que detecta los
patrones.
✓ El conjunto de datos se compone de
instancias de factores, características o
propiedades.
Instancia
✓ Cada uno de los datos de los que se
disponen para hacer un análisis.
✓ Cada instancia a su vez, está
compuesta de características que la
describen.
✓ En una hoja de cálculo, las instancias
serían las filas; las características, las
columnas.
Características
✓ Atributos que describen cada
una de las instancias del
conjunto de datos.
✓ En una hoja de cálculo, serían
las columnas.
Variable objetivo
Atributo o factor que queremos predecir, el
objetivo de la predicción, como puede ser la
probabilidad de reingreso de un paciente tras una
intervención quirúrgica.
Ingeniería de factores
(Feature Engineering)
Ingeniería de Factores
✓ Proceso previo a la creación del modelo
en el que se hace análisis, limpieza y
estructuración de los datos.
✓ El objetivo es eliminar los campos que no
sirven para hacer la predicción y
organizarlos adecuadamente para que el
modelo no reciba información que no le
es útil y que podría provocar
predicciones de poca calidad o confianza.
REEMPLAZAR
POR VIDEO
Overfitting y
Underfitting
En el Machine Learning
☕
Break
¡10 minutos y volvemos!
Métricas y evaluación
Métricas y
Evaluación
Resulta importante comenzar a hablar acerca de
las diferentes métricas que existen dentro del
Machine Learning para evaluar la performance
de nuestro modelo.
Simplemente realizaremos una primera
aproximación a la temática, en próximas clases el
tema de: Validación de resultados del Modelo y
Tuneo se verá y tratará de manera detallada. 🧐
Métricas para Algoritmos
de Clasificación
Matriz de Confusión
✓ Herramienta que permite visualizar el
desempeño de un algoritmo de aprendizaje
supervisado.
✓ Cada columna de la matriz representa el número
de predicciones de cada clase, mientras que
cada fila representa a las instancias en la clase
real.
En términos prácticos entonces, nos permite
ver qué tipos de aciertos y errores está
teniendo nuestro modelo.
Matriz de Confusión
Interpretación:
✓ Verdadero Positivo (TP): Predije que era positivo y
lo era.
✓ Verdadero Negativo (TN): Predije que era falso y lo
era.
✓ Falso Positivo (FP): Predije que era positivo pero
resultó ser negativo.
✓ Falso Negativo (FN): Predije que era negativo pero
resultó siendo positivo.
Los Verdaderos Positivos como Negativos son aciertos. Los Falsos Negativos como Positivos son errores.
Ejemplo Titanic
Clase Predicha
No Sobrevivieron Sobrevivieron
Verdadera
Clase
(VP+VN)/(VP+FP+FN+VN) * 100
Precisión (Positive
Predictive rate)
👉 Se refiere a la dispersión del conjunto de valores
obtenidos a partir de mediciones repetidas de una
magnitud. Cuanto menor es la dispersión mayor la
precisión. Es una proporción entre el número de
predicciones correctas (tanto positivas como
negativas) y el total de predicciones. En forma práctica,
es el porcentaje de casos positivos detectados y nos
sirve para medir la calidad del modelo de ML en tareas
de clasificación.
Inteligencia Artificial
Por último hablamos sobre algunas métricas para evaluación
de Modelos de Regresión. Recordemos que aquí, predecimos
o estimamos el valor numérico de una cantidad desconocida,
de acuerdo con unas características dadas.
Clase 17
Definimos Objetivo, Contexto y
Estructurando un Proyecto
Problema comercial
DS- Parte II
Obtenemos conclusiones y
puntos importantes a resaltar
Práctica integradora
Deberán entregar en duplas de dos estudiantes el quinto
avance de su proyecto final. Continuaremos hablando
sobre lo trabajado en el desafío “Estructurando un
proyecto de DS Parte II”.
DESAFÍO ENTREGABLE
Estructurando un proyecto de
ds-parte iii
Consigna Aspectos a incluir
✓ Crearán un notebook que complemente el ✓ El código debe estar hecho en un notebook
trabajo realizado en los siguientes apartados: y debe estar probado.
- i) elegir un método de feature selection
Formato
para reducir la dimensionalidad del
dataset, ✓ Entregar un archivo con formato .ipynb.
- ii) elegir un algoritmo de regresión o Debe tener el nombre
clasificación para entrenar con los datos “Proyecto_ParteIII_+Apellido(s).ipynb”
elegidos,
- iii) cálculo de métricas para validar el Sugerencias
modelo
- iv) generar conclusiones con base en los ✓ Preparar el código y probar los resultados
resultados obtenidos. con subconjuntos del conjunto original.
Evaluando modelos ML
Se propone complementar el análisis desarrollado hasta el
momento del proyecto final. Se deberá entregar en duplas.
DESAFÍO COMPLEMENTARIO
Evaluando modelos ML
Consigna
✓ Continuaremos trabajando con base en Aspectos a incluir
lo realizado en el Desafío entregable: ✓ El código debe estar hecho en un notebook y
Estructurando un proyecto de DS-Parte debe estar probado.
II y III, en esta oportunidad deberemos
Formato
complementar con lo siguiente:
✓ Generar una evaluación de modelos ✓ Entregar un archivo con formato .ipynb. Debe
apropiados para el problema de interés tener el nombre
✓ Identificar por medio de las métricas “Proyecto_ComplementarioI_+Apellido.ipynb”
generadas si se puede tener una Sugerencias
situación de overfitting (sobreajuste) o
underfitting (subajuste), discutiendo ✓ Preparar el código y probar los resultados con
posibles formas de mejora subconjuntos del conjunto original.
¿Quieres saber más?
Te dejamos material
ampliado de la clase
MATERIAL AMPLIADO
Recursos multimedia
✓ Hoja de referencia de consejos y trucos sobre Aprendizaje
Glosario
algoritmos de Machine Learning supervisado con el
fin de identificar si el modelo aprendió
correctamente
Instancia : unidad fundamental que representa a los
individuos u objetos que conforman un dataset Overfitting: cuando un modelo obtiene muy buenas
métricas en el conjunto de entrenamiento pero muy
Característica o feature : variables que representan malas en el conjunto de test
los atributos de las instancias de un dataset
Underfitting: Cuando el modelo no es capaz de
Entrenamiento: fase donde se detectan las reproducir correctamente los patrones y relaciones
asociaciones y tendencias de un dataset fundamentales del fenómeno de interés.
Conjunto de entrenamiento: fracción de datos Matriz de confusión:matriz que se construye para
(usualmente 70-80%) que se utiliza para entrenar validar el performance de un modelo de clasificación,
algoritmos de Machine Learning supervisado con el contiene información sobre el accuracy, precisión,
fin de entender patrones y tendencias exactitud, sensibilidad y especificidad del algoritmo