Plantilla de Un Proyecto Machine Learning en R y Python
Plantilla de Un Proyecto Machine Learning en R y Python
SOBRE
JORDI OLLÉ
CONCEPTOSCLAROS.COM
Soy Jordi Ollé y estudié ingeniería industrial y al terminar me apunté a un máster en ingeniería
biomédica. Decidí presentar la tesis final sobre análisis de datos biomédicos en una base de datos
de pacientes.
Aunque el proyecto era muy ilusionante estaba totalmente perdido. No sabía interpretar los gráficos
ni usarlos para sacar valor de los datos, y mucho menos, modelizar mis datos con modelos o
algoritmos. Aunque estudié una carrera de números no tenía ni idea de cómo hacerlo. Me parecía
todo muy complejo.
Tuve la suerte de encontrar a mi primer mentor, empecé a ver todas las técnicas como herramientas
aplicables y no solo en ese proyecto sino en muchos otros de otras temáticas y sectores. Las utilicé
en proyectos I+D del sector eólico, en el sector médico, deportivo…. Lo mejor es que existe un
sistema, uno pasos, que se repiten en cualquier proyecto y se necesitan para trabajar los datos. Hoy
quiero que tú también los utilices para avanzar en tus proyectos y tu carrera profesional.
Todo el sistema y mi experiencia es el que trato de transmitir a mis alumnos y clientes para que ellos
lo puedan usar en sus proyectos.
2
plantillas R y Python
Notebook de dos proyectos de Machine Learning
ÍNDICE
3
plantillas R y Python
Notebook de dos proyectos de Machine Learning
¡Te presento un pequeño documento para acompañar los materiales en R y Python disponibles.
Estos materiales están pensados para que puedas ejecutar un proyecto de machine learning
supervisado de un clasificador.
Te sirvan para poder trabajar tus propios datos y tengas material accionable para tus proyectos o
para crear tu portfolio de proyectos de datos.
4
plantillas R y Python
Notebook de dos proyectos de Machine Learning
Son plantillas creadas con el código, los comentarios y los apartados del tipo de proyectos más
utilizado en la práctica: un clasificador.
En este ejemplo puedes ver cómo las features o características nos dan información de diferentes
tiendas y la variable de salida es si hay ventas altas o no.
Se trata de poder entrenar un algoritmo que te permita clasificar una configuración de una nueva
tienda en ventas altas o ventas bajas.
En la carpeta de R encontrarás:
- II_1102_Ejemplo_carseats.ipynb
- II_1102_Ejemplo_carseats.R
- II_1102_Ejemplo_carseats.zip
- III_103_ejemplo_paso_paso_stroke.ipynb
- III_103_ejemplo_paso_paso_stroke.py
- III_103_ejemplo_paso_paso_stroke.zip
Son dos proyectos diferentes con datos diferentes que te ayudarán a ver cómo ejecutar el paso a
paso con R y también con Python y también podrás analizar los resultados de dos proyectos
diferentes.
El archivo .ipynb es un archivo notebook que puedes abrir con Jupyter Notebook o Google Colab.
5
plantillas R y Python
Notebook de dos proyectos de Machine Learning
Los pasos que se siguen en este proyecto son los estándares dentro de un proyecto de análisis de
datos:
● Plantear el problema
● Definir la estructura de datos
● Definición de Objetivos en cada fase (descriptiva, inferencial, reconocimiento de patrones)
● Lectura e importación de datos
● Limpieza de datos (Imputar valores perdidos, cambiar formatos de variables …)
6
plantillas R y Python
Notebook de dos proyectos de Machine Learning
● Exploración univariada
● Descripción / inferencia inteligente (en relación al target y evaluar correlaciones entre
variables)
● Modelado estadístico previo / selección de variables más importantes
● Training y validación de algoritmos:
○ Data partioning
○ Balanceo de los datos
○ Entrenamiento batería de algoritmos + transformación de variables
○ Selección del mejor algoritmo
○ Tunning / optimización del algoritmo
● Conclusión y resultados finales
En los ejemplos vas a ver cómo ejecutamos estos pasos paso a paso en dos proyectos diferentes
pero con la misma estructura.
7
plantillas R y Python
Notebook de dos proyectos de Machine Learning
8
plantillas R y Python
Notebook de dos proyectos de Machine Learning
De hecho, esta guía es una de las muchas que ofrecemos dentro del programa Analiza tus Datos y
el grupo de mentoría Artist.
Si quieres más y quieres entender mucho mejor cómo interpretar los resultados y cómo aprender a
actuar como científico de datos te invito al siguiente training:
9
plantillas R y Python
Notebook de dos proyectos de Machine Learning
Jordi Ollé
10