0% encontró este documento útil (0 votos)
666 vistas10 páginas

Guia - 1 - Preparación de Datos Tutorial WEKA

El documento describe los pasos para la preparación de datos en WEKA, incluyendo la integración de datos, limpieza, transformación, selección de variables, reducción de dimensionalidad y balanceo de clases. Los pasos incluyen cargar datos en formato ARFF, eliminar variables irrelevantes, realizar un análisis descriptivo, limpiar datos perdidos, crear nuevas variables, analizar correlaciones, aplicar PCA y SMOTE.

Cargado por

Edison Amaya
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
666 vistas10 páginas

Guia - 1 - Preparación de Datos Tutorial WEKA

El documento describe los pasos para la preparación de datos en WEKA, incluyendo la integración de datos, limpieza, transformación, selección de variables, reducción de dimensionalidad y balanceo de clases. Los pasos incluyen cargar datos en formato ARFF, eliminar variables irrelevantes, realizar un análisis descriptivo, limpiar datos perdidos, crear nuevas variables, analizar correlaciones, aplicar PCA y SMOTE.

Cargado por

Edison Amaya
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 10

Preparación de Datos en WEKA

Explorer: Realiza operaciones sobre un sólo conjunto de datos.


Experimenter: Realiza contrastes estadísticos entre métodos.
KnowledgeFlow: Muestra el funcionamiento interno del proceso.
Simple CLI: Consola para ejecución manual de análisis.
Preparación de los datos:

1. Integración de los Datos


2. Descripción de los Datos
3. Limpieza de Datos
a. Datos Ausentes/Nulos
b. Datos Atípicos
c. Registros duplicados
4. Transformaciones
a. Normalización (Filtro: unsupervised/attribute/normalize)
b. Discretización (Filtro: unsupervised/attribute/discretize)
c. Conversión categórica a numérica (automática en weka)
5. Selección de Variables
a. Variables irrelevantes
b. Variables redundantes
6. Análisis de Correlaciones
a. Correlación entre variables
b. Correlación con la variable a predecir (predicción)
7. Reducción de Variables
a. PCA(Select attributes/Principal Components)
8. Balanceo de Datos
a. Selección aleatoria (Filtro: supervised/instance/Resample)
b. Adicionar registros (Filtro: supervised/instance/Smote)

VER DIAPOSITIVAS DE PREPARACIÓN DE DATOS


1. Integración y representación de datos en Wek

a) Ingrese a la opción de Explorer en Weka.


b) Abra el archivo “Preparación de datos.xlsx” en Excel.
c) Vaya a la hoja llamada “Formato arff” y guarde el archivo como un archivo csv (Delimitado
por coma)
d) Abrir el archivo CSV con bloc de notas o cualquier otro editor de texto (verificar que esté
separado por comas). Si no lo hasta haga el reemplazo

Procedemos ahora a adicionar la descripción de los atributos.

@relation aprobacion_curso
@attribute Id integer
@attribute Estrato{1,2,3,4,5}
@attribute Sexo{F,M}
@attribute Enfermedad{SI,NO}
@attribute Colegio_U{SI,NO}
@attribute Activo_Web{ALTA, MEDIA, BAJA}
@attribute Asistencia numeric
@attribute Entregas_Completas numeric
@attribute Trabaja{SI,NO}
@attribute Examen_Final{APROBADO, DESAPROBADO}

@data
1,3,F,SI,SI,BAJA,0.1,0.45,NO,APROBADO
2,2,M,NO,NO,MEDIA,0.45,0.6,NO,APROBADO
3,4,M,NO,NO,ALTA,0.5,0.75,SI,DESAPROBADO
4,3,F,NO,NO,ALTA,0,0.6,SI,DESAPROBADO
5,4,F,SI,NO,MEDIA,0.65,0.85,NO,APROBADO
6,4,M,NO,NO,BAJA,0.1,0,NO,DESAPROBADO
7,3,M,NO,NO,MEDIA,0.2,0.9,NO,APROBADO
8,2,M,NO,NO,MEDIA,0.3,0.8,SI,DESAPROBADO
9,2,F,NO,SI,BAJA,0.35,0.7,NO,APROBADO
10,2,M,SI,NO,BAJA,0.75,0.5,SI,DESAPROBADO
11,4,M,NO,SI,ALTA,0.7,0.6,NO,APROBADO
12,3,F,NO,NO,MEDIA,0.0,0.8,NO,APROBADO
13,2,F,NO,NO,ALTA,0.2,0.25,NO,DESAPROBADO
14,4,F,SI,NO,ALTA,0.2,0.2,NO,DESAPROBADO
15,3,F,NO,NO,BAJA,0.9,0.8,NO,APROBADO
16,2,M,NO,NO,MEDIA,1,1,NO,APROBADO

e) Salve el archivo con la extensión .arff


f) Abra el archivo en WEKA

2. Eliminar variables irrelevantes/redundantes

Eliminar
variables

3. Estadística descriptiva

Estadística
descriptiva

Ver
histogramas
4. Limpieza

5. Creación de nuevas variables

6. Correlación entre variables


Pestaña: Selección de atributos
Método: Principal Components
Correlaciones con la Objetivo:

Pestaña: Selección de atributos


Método: Correlation Atribute Eval

7. Reducción de variables: PCA

Select atributes → PrincipalComponents


Análisis de componentes principales

Reducción de variables: PCA

Análisis de Componentes Principales

Center data: False si se calcula matriz de correlaciones. True si se calcula la covarianza.


maximumAttributeNames: máxima cantidad de atributos a incluir en nuevas variables.
transformBackToOriginal: True si se evalúan los atributos iniciales. False si evalúan nuevas
variables como combinación de atributos
varianceCovered: se retienen los atributos necesarios para la varianza
Filtros:
Discreteze
Mergetwovalues
Normalize
NumericToBinary
Remove
StringToWordVector
Smote

8. Balanceo: Smote

Balanceo de la variable a predecir.


Filtro: supervised/instance/SMOTE

Clase a balancear

Cuantos datos quiero aumentar

9. Transformación: Discretize

Filtro: unsupervised/attribute/discretize

Número de atributo a discretizar

Cantidad de categorias

Ignorar si el atributo es la clase a predecir


Transformación: Categoría a Número

Conversión de categórica a numérica

Niño -> 0

Adulto -> 1

También podría gustarte