0% encontró este documento útil (0 votos)
11 vistas33 páginas

Metodología de La Ciencia de Datos 2

La metodología de Ciencia de Datos presentada es una variación de CRISP-DM que busca responder 10 preguntas clave a lo largo de un proceso cíclico que incluye entendimiento del negocio, recopilación y preparación de datos, modelado, evaluación e implementación. Cada etapa está diseñada para refinar el enfoque analítico y asegurar que los datos sean representativos del problema a resolver. El éxito en la ciencia de datos depende de aplicar las herramientas adecuadas en el orden correcto para abordar el problema específico.

Cargado por

Brandon Patiño
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
11 vistas33 páginas

Metodología de La Ciencia de Datos 2

La metodología de Ciencia de Datos presentada es una variación de CRISP-DM que busca responder 10 preguntas clave a lo largo de un proceso cíclico que incluye entendimiento del negocio, recopilación y preparación de datos, modelado, evaluación e implementación. Cada etapa está diseñada para refinar el enfoque analítico y asegurar que los datos sean representativos del problema a resolver. El éxito en la ciencia de datos depende de aplicar las herramientas adecuadas en el orden correcto para abordar el problema específico.

Cargado por

Brandon Patiño
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 33

METODOLOGÍA DE LA

CIENCIA DE DATOS
SEMINARIO BIG DATA Y LA CIENCIA DE DATOS

ING. IVONNE CASTAÑO OSORIO


LA METODOLOGÍA

La Metodología de Ciencia de Datos que estudiaremos es una variación


de la metodología CRISP-DM de IBM, Cross-Industry Standard Process
for Data Mining, que traduce “Proceso estándar entre industrias para
minería de datos”. Esta variación incluye 3 procesos que permiten
mejorar la conceptualización general del problema.
Esta metodología tiene como objetivo responder 10 preguntas básicas
en una secuencia prescrita.

Del problema al enfoque:


1. ¿Cuál es el problema que estás tratando de resolver?
2. ¿Cómo puedes usar los datos para responder la pregunta?
LA METODOLOGÍA (2)

Trabajando con los datos:


3. ¿Qué datos necesitas para responder la pregunta?
4. ¿De dónde provienen los datos (identifique todas las
fuentes) y cómo los obtendrá?
5. ¿Los datos que recopilaste son representativos del
problema a resolver?
6. ¿Qué trabajo adicional se requiere para manipular y
trabajar con los datos?
LA METODOLOGÍA (3)

Derivando la respuesta:
7. ¿De qué manera se pueden visualizar los datos para obtener
la respuesta que se requiere?
8. ¿El modelo utilizado realmente responde a la pregunta
inicial o es necesario ajustarlo?
9. ¿Puedes poner el modelo en práctica?
10. ¿Puedes obtener comentarios constructivos para
responder la pregunta?
LA METODOLOGÍA (4)

El marco de esta la metodología está orientado a hacer 3


cosas: Primero, comprender la pregunta en cuestión. En
segundo lugar, seleccionar un enfoque o método
analítico para resolver el problema y, en tercer lugar,
obtener, comprender, preparar y modelar los datos.
El objetivo final es llevar al científico de datos a un
punto donde se pueda construir un modelo de datos para
responder la pregunta.
1. ENTENDIMIENTO DEL NEGOCIO

La metodología de la ciencia de datos comienza con pasar el


tiempo buscando aclaraciones, para lograr lo que se puede
denominar entendimiento del negocio. Tener esta comprensión
se coloca al comienzo de la metodología porque obtener
claridad sobre el problema a resolver, permite determinar qué
datos se utilizarán para responder la pregunta central.
Establecer una pregunta claramente definida comienza por
comprender la META de la persona u organización que plantea
la pregunta.
2. ENFOQUE ANALÍTICO (1)

Una vez que se establece una comprensión sólida de la


pregunta, se puede seleccionar el enfoque analítico. Esto
significa identificar qué tipo de patrones serán necesarios
para abordar la pregunta de manera más efectiva.
• Si la pregunta es determinar las probabilidades de una
acción, entonces se podría usar un modelo predictivo.
• Si la pregunta es mostrar relaciones, puede ser necesario un
enfoque descriptivo. Este sería uno que vería grupos de
actividades similares basadas en eventos y preferencias.
2. ENFOQUE ANALÍTICO (2)

• El análisis estadístico se aplica a problemas que requieren


recuentos. Por ejemplo, si la pregunta requiere una respuesta sí /
no, entonces un enfoque de clasificación para predecir una
respuesta sería adecuado.
• El aprendizaje automático o Machine Learning es un campo de
estudio que brinda a las computadoras la capacidad de aprender
sin ser programadas explícitamente. Se puede utilizar para
identificar relaciones y tendencias en datos que de otro modo no
serían accesibles o identificados.
• En el caso en que la pregunta sea aprender sobre el
comportamiento humano, una respuesta apropiada sería utilizar
los enfoques de la Asociación de Clustering.
3. REQUISITOS DE DATOS

La etapa de requisitos de datos se refiere a la identificación


de los datos requeridos.
Antes de emprender las etapas de recopilación y preparación
de datos de la metodología, es vital definir los requisitos de
datos de acuerdo con el enfoque analítico definido. Esto
incluye identificar el contenido, los formatos y las fuentes de
datos necesarios para la recopilación de datos inicial, por lo
que es importante pensar con anticipación en las necesidades
de las etapas posteriores.
4. RECOPILACIÓN DE DATOS (1)

Se debe realizar una recopilación de datos inicial. Con estos,


el científico de datos realiza una evaluación para determinar
si tienen o no lo que necesitan. En esta fase, se revisan los
requisitos de datos y se toman decisiones sobre si la
recopilación requiere o no más o menos datos.
Una vez que se recopilan todos los datos, el científico de
datos tendrá una buena comprensión de con qué trabajará.
Se pueden aplicar técnicas como la estadística descriptiva y
la visualización al conjunto de datos, para evaluar el
contenido, la calidad y los conocimientos iniciales sobre los
datos.
4. RECOPILACIÓN DE DATOS (2)

Se identificarán las lagunas en los datos y se deberán


hacer planes para completar o realizar sustituciones.
Esta etapa se lleva a cabo como un seguimiento de la
etapa de requisitos de datos.
La recopilación de datos requiere que se conozca la
fuente o se sepa dónde encontrar los conjuntos de datos
que son necesarios, esto lleva a un punto importante:
está bien diferir las decisiones sobre datos no disponibles
e intentar adquirirlos en una etapa posterior.
4. RECOPILACIÓN DE DATOS (3)

Los DBA y los programadores a menudo trabajan juntos


para extraer datos de varias fuentes, y luego fusionarlos.
En esta etapa, si es necesario, los científicos de datos y
los miembros del equipo de análisis pueden discutir
varias maneras para administrar mejor sus datos,
incluida la automatización de ciertos procesos en la base
de datos, para que la recopilación de datos sea más fácil
y rápida.
5. COMPRENSIÓN DE DATOS (1)

La comprensión de los datos abarca todas las actividades relacionadas


con la construcción del conjunto de datos. Esencialmente, esta etapa de
la metodología responde a la pregunta: ¿Los datos que recopiló son
representativos del problema a resolver?
Con el fin de comprender los datos es necesario ejecutar unas
estadísticas descriptivas básicas que permitan identificar los datos que
se convertirían en variables en el modelo.
En segundo lugar, también se pueden usar correlaciones por pares, para
ver qué tan estrechamente se relacionan ciertas variables, y cuáles, si
las hubiera, están altamente correlacionadas, lo que significa que serían
esencialmente redundantes, haciendo que solo uno sea relevante para el
modelado.
5. COMPRENSIÓN DE DATOS (2)

En tercer lugar, se pueden examinar los histogramas de las


variables para comprender sus distribuciones.
Los histogramas son una buena manera de comprender cómo
se distribuyen los valores o una variable, y qué tipo de
preparación de datos puede ser necesaria para que la variable
sea más útil en un modelo. Por ejemplo, para una variable
categórica que tiene demasiados valores distintos para ser
informativos en un modelo, el histograma ayudaría a decidir
cómo consolidar esos valores.
5. COMPRENSIÓN DE DATOS (3)

Las estadísticas y los histogramas también se utilizan para evaluar la


calidad de los datos.
A partir de la información proporcionada, ciertos valores se pueden
volver a codificar o incluso descartar si es necesario, como cuando una
determinada variable tiene muchos valores faltantes.
La pregunta entonces es, ¿qué significa "falta" algo? Algunas veces un
valor faltante puede significar "no", o "0" (cero), o en otras ocasiones
simplemente significa "no sabemos", o si una variable contiene valores
no válidos o engañosos, como como una variable numérica llamada
"edad" que contiene 0 a 100 y también 999, donde ese "triple-9" en
realidad significa "faltante", pero se trataría como un valor válido a
menos que lo corrijamos. Esto significaba volver a la etapa de
recopilación de datos.
5. COMPRENSIÓN DE DATOS (4)

Este es solo un ejemplo de los procesos interactivos en


la metodología.
Cuanto más se trabaja con el problema y los datos, más
se aprende y, por lo tanto, más refinamiento se puede
hacer dentro del modelo, lo que en última instancia
conduce a una mejor solución del problema.
6. PREPARACIÓN DE DATOS (1)

Junto con la recopilación de datos y la comprensión de los


datos, la preparación de datos es la fase más lenta de un
proyecto de ciencia de datos, que generalmente toma el 70% e
incluso hasta el 90% del tiempo total del proyecto.
La automatización de algunos de los procesos de recopilación
y preparación de datos en la base de datos puede reducir este
tiempo a tan solo un 50%. Este ahorro de tiempo se traduce
en un mayor tiempo para que los científicos de datos se
centren en crear modelos.
6. PREPARACIÓN DE DATOS (2)

La transformación de datos, en la fase de preparación de


datos, es el proceso de llevar los datos a un estado en el que
sea más fácil trabajarlos.
Específicamente, la etapa de preparación de datos de la
metodología responde a la pregunta: ¿Cuáles son las formas
en que se preparan los datos?
Para trabajar eficazmente con los datos, deben estar
preparados de manera que aborden los valores faltantes o no
válidos, y eliminen los duplicados, para garantizar que todo
esté formateado correctamente.
6. PREPARACIÓN DE DATOS (3)

La ingeniería de características también es parte de la preparación


de datos. Es el proceso de usar el conocimiento del dominio de los
datos para crear características que hagan que los algoritmos de
aprendizaje automático funcionen adecuadamente.
Una característica es un rasgo que puede ayudar a resolver un
problema. Las características dentro de los datos son importantes
para los modelos predictivos e influirán en los resultados que desea
lograr.
La ingeniería de características es crítica cuando se aplican
herramientas de aprendizaje automático para analizar los datos.
6. PREPARACIÓN DE DATOS (4)

La fase de preparación de datos prepara el escenario para los


próximos pasos de abordaje de la pregunta.
Si bien esta fase puede llevar un tiempo considerable, si se
hace correctamente, los resultados respaldarán el proyecto. Si
se omite esto, el resultado podría no ser de calidad.
Es fundamental tomarse el tiempo en esta etapa y utilizar las
herramientas disponibles para automatizar los pasos comunes
para acelerar la preparación de datos. En esta etapa se
recomienda prestar atención a los detalles.
7. MODELADO (1)

Esta etapa está orientada a responder dos preguntas


clave: primero, ¿cuál es el propósito del modelado de
datos? y segundo ¿cuáles son las características de este
proceso?
El modelado de datos se centra en el desarrollo de
modelos descriptivos o predictivos. Estos modelos se
basan en el enfoque analítico que se adoptó, ya sea
impulsado estadísticamente o impulsado por el
aprendizaje automático.
7. MODELADO (2)

El científico de datos utiliza un conjunto de entrenamiento para el


modelado predictivo. Un conjunto de entrenamiento es un conjunto de
datos históricos en el que los resultados ya se conocen. El conjunto de
entrenamiento actúa como un indicador para determinar si el modelo
necesita ser calibrado. En esta etapa, el científico de datos juega con
diferentes algoritmos para garantizar que las variables presentes sean
realmente necesarias.
El éxito de la compilación, preparación y modelado de datos depende de
la comprensión del problema en cuestión y del enfoque analítico
apropiado que se adopte. Los datos respaldan la respuesta a la pregunta
y preparan el escenario para el resultado. El refinamiento constante, los
ajustes y los reajustes son necesarios en cada paso para garantizar que
el resultado sea sólido.
8. EVALUACIÓN DEL MODELO (1)

La evaluación del modelo va de la mano con la construcción


del modelo como tal, las etapas de modelado y evaluación se
realizan de forma iterativa.
La evaluación del modelo se realiza durante el desarrollo del
modelo y antes de que se implemente. La evaluación permite
evaluar la calidad del modelo, pero también es una
oportunidad para ver si cumple con la solicitud inicial.
La evaluación responde a la pregunta: ¿El modelo utilizado
realmente responde a la pregunta inicial o necesita ser
ajustado?
8. EVALUACIÓN DEL MODELO (2)

La evaluación del modelo puede tener dos fases principales:


La primera es la fase de medidas de diagnóstico, que se utiliza
para garantizar que el modelo funcione según lo previsto.
Si el modelo es predictivo de tipo aprendizaje supervisado, se
puede aplicar un conjunto de pruebas con resultados
conocidos, y el modelo se puede refinar según sea necesario.
Si es de tipo aprendizaje no supervisado, se puede usar un
árbol de decisión para evaluar si la respuesta que puede dar el
modelo está alineada con el diseño inicial y así identificar
dónde hay áreas que requieren ajustes.
8. EVALUACIÓN DEL MODELO (3)

La segunda fase de la evaluación es aplicación de una


prueba de significancia estadística, que es una técnica
de estadística inferencial.
Este tipo de evaluación se puede aplicar para garantizar
que los datos se manejan e interpretan correctamente
dentro del modelo.
9. IMPLEMENTACIÓN

Si bien un modelo de ciencia de datos proporcionará una respuesta, la


clave para hacer que la respuesta sea relevante y útil para abordar la
pregunta inicial, implica familiarizar a las partes interesadas con la
herramienta producida.
En un escenario empresarial, las partes interesadas tienen diferentes
especialidades que ayudarán a que esto suceda, como el propietario de
la solución, el marketing, los desarrolladores de aplicaciones y la
administración de TI.
Una vez que se evalúa el modelo y el científico de datos confía en que
funcionará, se implementa y se pone a prueba. Dependiendo del
propósito del modelo, se puede implementar a un grupo limitado de
usuarios o en un entorno de prueba, para generar confianza en la
aplicación del resultado para su uso en todos los ámbitos.
10. RETROALIMENTACIÓN

Una vez en juego, los comentarios de los usuarios ayudarán a


refinar el modelo y evaluar su rendimiento e impacto.
El valor del modelo dependerá de incorporar con éxito la
retroalimentación y hacer los ajustes durante el tiempo que
se requiera a la solución.
El proceso de retroalimentación se basa en la noción de que,
cuanto más se sepa, más se querrá saber, por lo que es
necesario también definir hasta qué punto se refinará el
modelo para evitar quedarse realizando ajustes de manera
indefinida.
A lo largo de la Metodología de la Ciencia de Datos, cada
paso prepara el escenario para el siguiente.
Al hacer que la metodología sea cíclica, se garantiza el
refinamiento en cada etapa del juego.
Una vez que se evalúa el modelo y el científico de datos
confía en que funcionará, se implementa y se lleva al
uso real en tiempo real en campo.
CONCLUSIONES
PRUEBA DE CONOCIMIENTOS ADQUIRIDOS
SU ÉXITO EN EL CAMPO DE LA CIENCIA DE
DATOS DEPENDE DE SU CAPACIDAD PARA
APLICAR LAS HERRAMIENTAS
CORRECTAS, EN EL MOMENTO CORRECTO,
EN EL ORDEN CORRECTO, PARA ABORDAR
EL PROBLEMA CORRECTO.
¡GRACIAS!

También podría gustarte