Diseño de Sistema de Gestión para La Retención
Diseño de Sistema de Gestión para La Retención
PROFESOR GUÍA:
EZEQUIEL MUÑOZ KRSULOVIC
PROFESOR CO-GUÍA:
CECILIA SAINT-PIERRE CORTÉS
MIEMBRO DE LA COMISIÓN:
EDUARDO OLGUÍN MACAYA
SANTIAGO DE CHILE
2019
Resumen Ejecutivo
La Universidad de Chile se ha caracterizado por ser históricamente una universidad al servicio de la
sociedad, lo cual a través del tiempo se ha ido materializando en políticas internas para acompañar
a sus alumnos en un ambiente de equidad e inclusión. Fiel reflejo es la promulgación en 2014 de la
política interna de Equidad e Inclusión, la cual garantiza el acompañamiento de estudiantes en el
acceso, permanencia y egreso oportuno de sus alumnos. Parte importante de esta política corresponde
a que la Universidad de Chile debe realizar esfuerzos por retener a sus alumnos, respondiendo a un
cuerpo estudiantil cada vez más diverso en términos económicos, sociales y culturales. Pese a los
esfuerzos, aún continua existiendo una marcada heterogeneidad en la retención de alumnos de primer
año en sus distintas facultades, siendo la más alta en la Facultad de Ciencias Físicas y Matemáticas,
con un 95 % de retención, y la más baja en Bachillerato, con sólo un 53 % de retención.
Debido a estos antecedentes, es que se propone en este proyecto de tesis generar una nueva capacidad
en la Universidad de Chile que permita detectar a alumnos en riesgo de deserción para así ofrecer
beneficios estudiantiles de forma proactiva.
Los modelos para predecir la deserción utilizados fueron de Árboles de Decisión, Random Forest y
Regresión Logística. Para entrenar los modelos se utilizaron datos de alumnos nuevos que ingresaron
a la Universidad de Chile en 2017 y que rindieron la PSU. El tipo de deserción estudiada correspondió
a la deserción institucional, es decir, alumnos que abandonan de forma voluntaria o involuntaria la
Universidad de Chile. El modelo que presentó los mejores resultados fue el de Regresión Logística,
el cual de haber sido aplicado para alumnos de primer año de 2017, hubiese detectado la deserción
de 311 alumnos, o de forma equivalente, el 41 % de los alumnos desertores. Además, se validó que el
modelo fuera generalizable, es decir, se probó que el modelo aplica al universo de alumnos de primer
año que ingresa a la Universidad de Chile, lo cual fue realizado a través de un análisis retrospectivo
con datos de alumnos nuevos del cohorte del año anterior (2016).
Por último, la evaluación económica del proyecto, indicó que el proyecto debe ser realizado, obte-
niendo un ∆ VAN de $ 1.520 millones con respecto a la situación actual optimizada, considerando
una duración de tres años de proyecto.
i
A mi familia, Virginia, Manuel, Tamara, Valeria y Martín
A mis abuelos, quienes estuvieron atentos al desarrollo de mi proyecto y por haberme entregado el
gran regalo de conocer a Dios, quien me guía en los diferentes aspectos de mi vida.
A mi polola por haberme acompañado en todo este proceso, por todo su cariño y soporte, brindán-
dome ternura y amor en todo momento. Eres muy especial para mí!!
Al profesor Ezequiel y Cecilia por responder a mis dudas, dedicar su tiempo, paciencia y orientarme
en este arduo trabajo. Y a Laura y Ana María, quienes me han apoyado durante todo el proceso de
mi paso por el MBE. Gracias!
Al equipo de la Dirección de Bienestar Estudiantil, Rodrigo Carmona, Rafael Díaz y Pamela Díaz-
Romero, quienes sin ser de la misma área de trabajo, creyeron en mí, brindándome todo su apoyo y
guía en temáticas de bienestar estudiantil.
A Paulina Tapia por darme todas facilidades y brindarme el tiempo necesario para lograr sacar
adelante mi tesis. Y a mis compañeros de trabajo, Jorge y Ricardo, que me apoyaron y ayudaron en
este proceso. Gracias!!
A mis amigos, Negro, Kevin, Lillo, Robert, Pipe y Hevia quienes siempre estuvieron a mi lado pese
a que tuve que faltar a muchas juntas y carretes. Aún así me entregaron su comprensión durante
todo este tiempo y me apoyaron con sus consejos. Ahora se vienen todos los panoramas!
A todos aquellos que creyeron en mí, brindaron su apoyo y me escucharon largas conversaciones
acerca de variados temas relacionados con mi tesis.
Por sobre todo agradecer a Dios! Por darme el valor, coraje y fuerza para mantenerme en este
desafiante proceso.
iii
Tabla de Contenido
Resumen Ejecutivo i
Dedicatoria ii
Agradecimientos iii
Tabla de Contenido iv
Índice de Tablas x
2. Proyecto 9
2.1. Antecedentes y justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4. Resultados Esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5. Alcance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6. Criterios de Éxito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.7. Riesgos Potenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3. Marco Teórico 14
3.1. Metodología de Ingeniería de Negocios y Diseño de Servicios . . . . . . . . . . . . . . 14
3.1.1. Patrón de Negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2. Patrones de Arquitectura y Procesos de Negocio . . . . . . . . . . . . . . . . 18
3.2. Metodología de Minería de Datos CRISP-DM . . . . . . . . . . . . . . . . . . . . . . 21
3.3. Método de selección de variables Forward Selection and Backward Elimination . . . . 23
3.4. Modelos de Minería de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iv
Tabla de Contenido
3.4.1. Modelos Supervisados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4.1.1. Regresión Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4.1.2. Árboles de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.2. Modelos No Supervisados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.2.1. Análisis de Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.2.2. Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.3. Validación Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.4. Matriz de Confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.5. ROC Curve y AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5. Concepto de Deserción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1. Estudios Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.1.1. Modelos de Deserción Estudiantil . . . . . . . . . . . . . . . . . . . . 39
3.5.1.2. Un modelo analítico para la predicción del rendimiento académico
de estudiantes de ingeniería . . . . . . . . . . . . . . . . . . . . . . . 41
3.5.1.3. El impacto del tipo de financiamientos sobre la probabilidad de re-
tención de primer año en la educación superior - El caso de la Uni-
versidad de Chile. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.1.4. Impacto de los distintos tipos de ayuda financiera gubernamental e
institucional en la perseverancia de los estudiantes de la Universidad
de Chile. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.1.5. Determinantes de deserción en la educación superior chilena, con
énfasis en efecto de becas y créditos. . . . . . . . . . . . . . . . . . . 44
3.5.1.6. Revisión estudio “Competing on Analytics” . . . . . . . . . . . . . . 45
4. Planteamiento Estratégico 48
4.1. Balanced Scorecard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2. Posicionamiento Estratégico Universidad de Chile . . . . . . . . . . . . . . . . . . . . 50
4.3. Política de Equidad e Inclusión Estudiantil . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1. Modelo de Desarrollo Integral del Estudiante . . . . . . . . . . . . . . . . . . 51
4.3.2. Ámbitos de acción del Modelo de Desarrollo Integral del Estudiante . . . . . 53
4.4. Visión, Misión y Objetivos Estratégicos DBE . . . . . . . . . . . . . . . . . . . . . . 54
4.4.1. Visión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4.2. Misión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4.3. Objetivos Estratégicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5. Análisis PEST DBE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5.1. Político y Económico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5.1.1. Gratuidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.5.1.2. Ley de Universidades Estatales . . . . . . . . . . . . . . . . . . . . . 57
4.5.1.3. Sistema de Financiamiento Solidario . . . . . . . . . . . . . . . . . . 58
4.6. Modelo de Negocios DBE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.6.1. Propuesta de Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.6.2. Recursos Clave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.6.3. Procesos Clave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.6.4. Fórmula de utilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
v
Tabla de Contenido
5. Situación Actual 61
5.1. Patrón de Negocio a utilizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2. Arquitectura de negocio Universidad de Chile . . . . . . . . . . . . . . . . . . . . . . 63
5.3. Diagnóstico Arquitectura Multinivel . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.4. Diagnóstico Situación Actual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.5. Cuantificación del Problema u Oportunidad . . . . . . . . . . . . . . . . . . . . . . . 75
vi
Tabla de Contenido
9.1.1. Presentación de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9.1.2. Resultados obtenidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9.1.3. Validación Análisis Retrospectivo . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.2. Definición de Beneficios y Costos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
9.3. Flujo de Caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
9.4. Análisis de Sensibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.Conclusiones 139
10.1. Lecciones Aprendidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.2. Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Bibliografía 145
vii
Índice de figuras
3.1. Metodología de diseño de Servicios. Fuente Bussiness Engineering and Service Design. 15
3.2. Estructura básica de organización de servicios. Fuente: Business Engineering and Ser-
vice Design. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3. Patrón de Negocio 1. Fuente: Business Engineering and Service Design. . . . . . . . . 17
3.4. Macroprocesos. Fuente: Business Engineering and Service Design. . . . . . . . . . . 19
3.5. Arquitectura Multinivel Fuente: Business Engineering and Service Design. . . . . . . 20
3.6. Metodología CRISP-DM. Fuente: Smart Vision Europe. . . . . . . . . . . . . . . . . 22
3.7. Puntos Core, Border y Ruido DBSCAN. Fuente: Elaboración propia. . . . . . . . . . 32
3.8. Validación Cruzada (k=4). Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . 35
3.9. ROC Curve. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1. Modelo de Desarrollo Integral del Estudiante. Fuente: Política de Equidad e Inclusión
Estudiantil 2014. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
viii
Índice de Figuras
6.2. Rediseño Atención Basada en el Conocimiento del Estudiante, Universidad de Chile.
Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.3. Rediseño Proceso Analizar Comportamiento y Segmentación de Estudiantes
Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.4. CAE y Deserción. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . . 101
6.5. Carrera Anterior No Terminada y Deserción. Fuente: Elaboración propia. . . . . . . 101
6.6. CAE-FSCU y Deserción. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . 102
6.7. DBSCAN. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.8. DBSCAN - Desertores. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . 106
6.9. ROC y AUC ID3. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . 111
6.10. ROC y AUC CART. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . 111
6.11. ROC y AUC CHAID. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . 112
6.12. ROC y AUC Random Forest. Fuente: Elaboración propia. . . . . . . . . . . . . . . . 112
6.13. ROC y AUC Regresión Logística. Fuente: Elaboración propia. . . . . . . . . . . . . . 112
ix
Índice de tablas
x
Índice de Tablas
B.3. Becas de Arancel Internas y Externas . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
B.4. Becas de Mantención Internas y Externas . . . . . . . . . . . . . . . . . . . . . . . . 155
B.5. Resultados proceso PSU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
B.6. Nueva variable “Enfermedad Permanente o Crónica” . . . . . . . . . . . . . . . . . . 157
B.7. Nueva variable “Hacinamiento” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
B.8. Nueva variable “Nivel de Educación Familiar” . . . . . . . . . . . . . . . . . . . . . . 158
B.9. Nueva variable “Región” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
B.10.Nueva variable “Carrera anterior no terminada” . . . . . . . . . . . . . . . . . . . . . 159
B.11.Nueva variable “CAE - FSCU” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
B.12.Análisis Becas de Arancel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
B.13.Nuevas variables “Becas de Arancel tipo I y II” . . . . . . . . . . . . . . . . . . . . . 163
B.14.Selección epsilon y min points DBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . 175
B.15.Cluster X- Mean: Proporción de true values de variables binarias . . . . . . . . . . . 176
B.16.DBSCAN: Proporción de true values de una selección de variables categóricas . . . . 177
B.17.Coeficientes Regresión Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
B.18.Coeficientes Regresión Logística (continuación) . . . . . . . . . . . . . . . . . . . . . 182
xi
Capítulo 1
Introducción y Contexto de la
Universidad de Chile
En este capítulo se describe la Universidad de Chile y la unidad donde se centra el trabajo de tesis la
cual corresponde a la Dirección de Bienestar Estudiantil (DBE). Además se entregan antecedentes
de la problemática de deserción estudiantil a nivel de educación superior, universidades chilenas y
facultades de la Universidad de Chile.
La Universidad de Chile es una institución de Educación Superior del Estado de carácter nacional
y público, con personalidad jurídica, patrimonio propio y plena autonomía académica, económica y
administrativa, dedicada a la enseñanza de educación superior, investigación, creación y extensión
de las ciencias, las humanidades, las artes y las técnicas, al servicio del país en el contexto universal
de cultura 1 .
Esta cuenta con más de 175 años al servicio al país, 236 postgrados y especializaciones, 183 premios
nacionales, 2 premios nobel, 20 exalumnos que han sido presidentes de Chile , 43.802 m2 de salas
1
Estatuto de la Universidad de Chile
1
de clases, 40.494 estudiantes de pregrado y postgrado, 3.825 académicos con un 60,7 % de ellos con
grado de doctorado, 1.728 académicos jornada completa (más de 33 horas) y 9.234 funcionarios 2 .
La estructura de la Universidad de Chile se encuentra definida en sus Estatutos, el cual fue aprobado
en marzo de 2006 en reemplazo al decreto con fuerza de ley de 1981. En estos se establece que
los Organismos Superiores de Administración de la universidad corresponden al Rector, el Consejo
Universitario y el Senado Universitario, quienes se encargan de dirigir, gestionar, proyectar y normar
a la universidad en base al cumplimiento de la misión institucional.
Bajo dependencia del Rector, se encuentran, como unidades ejecutivas centrales, la Prorrectoría, las
Vicerrectorías y demás unidades académicas requeridas para al administración superior. Estas se
encargan de orientar, coordinar, apoyar y desarrollar la labor universitaria.
2
Figura 1.1: Organigrama Universidad de Chile
3
1.1.2. Vicerrectoría de Asuntos Estudiantiles y Comunitarios
Esta dirección se encuentra a cargo de generar políticas, lineamientos y programas para contribuir
al acceso, retención y avance académico de estudiantes de contextos vulnerables, generando de esta
manera condiciones de mayor equidad en el acceso, desarrollo y egreso de los alumnos.
Dentro de las actividades de la DBE se encuentran administrar las becas de arancel y mantención de
la universidad; administrar programas de ingreso prioritario (SIPPE) para alumnos con necesidades
socieconómicas; administrar programas de residencia universitaria para alumnos de regiones; mejorar
y actualizar los mecanismos de evaluación y asignación de becas; articular beneficios estudiantiles
entre nivel central y facultades; y crear nuevos programas que ayuden al acceso, desarrollo y egreso
del estudiante.
La DBE presta servicio a las carreras de pregrado de 14 facultades y 5 institutos que posee la
universidad, las cuales ofrecen un total de 70 carreras de pregrado, un programa de bachillerato,
un Plan Común de Ingeniería y 4 Programas de Etapa Básica de Artes. En 2017 estas carreras
estuvieron conformadas por un total de 6.526 estudiantes nuevos y un total de 32.422 estudiantes
de pregrado (78 % del total de la matrícula)3 .
4
Área de Beneficios Estudiantiles: Encargada de dirigir los procesos de financiamiento estudiantil
asociados a las becas de mantención y de aranceles, tanto externas como internas. De igual forma,
establece acciones de apoyo a partir de la caracterización socioeconómica de los estudiantes.
Área de Comunicaciones: Establece y gestiona canales informativos, tanto para los estudiantes
como para contrapartes institucionales, vinculados a los procesos que lidera la Dirección. Adicional-
mente, tiene a cargo la Mesa de Ayuda y las comunicaciones transversales de la VAEC.
Área de Gestión de Información: Encargada de facilitar la gestión de los beneficios y/o Ser-
vicios que gestiona la Dirección, aplicando tecnologías para facilitar los procesos, como también,
contribuyendo a generar información relevante a nivel institucional.
5
1.2. Antecedentes del problema en la educación superior
Las Instituciones de Educación Superior (IES) se clasifican en en Institutos Profesionales (IP), Cen-
tros de Formación Técnica (CFT) y Universidades. En la figura 1.3 se observa que las universidades
tienen en promedio tasas de retención superiores a los IP y CFT, y que la Universidad de Chile
mantiene una tasa de retención mayor al sector universitario. A su vez, desde el año 2012 al 2016 se
observan aumentos en la retención de estudiantes en los tres sectores, con un alza de un 3,9 % para
los IP, 3,4 % para los CFT y 3,3 % para las Universidades4
Figura 1.3: Evolución tasas de retención Instituciones de Educación Superior. Fuente Elaboración
Propia, a partir de Informe de Retención de primer año de pregrado SIES Cohortes 2012- 2016.
Al comparar los valores de retención de la Universidad de Chile con aquellas universidades que han
figurado al menos una vez dentro de los cinco primeros puestos del país5 , la Institución se encuentra
en el puesto número cuatro, tras la U. de los Andes, U. Adolfo Ibañez y Pontificia U. Católica (ver
4
Fuente: Informe de Retención de primer año de pregrado SIES Cohortes 2012- 2016.
5
La universidad de Chile participa en la medición de diferentes rankings mundiales que califican el desempeño de
las universidades (ScimagoIR, América Economía, ARWU, URAP y QS World University Rankings principalmente).
Se utilizaron estos rankings para determinar qué universidades figuran dentro de los 5 primeros puestos a nivel nacional
para así poder comparar sus tasas de retención, de lo cual se obtuvieron que las universidades que figuran dentro de
dichos puestos corresponden a: Universidad de Concepción, Universidad Técnica Federico Santa María, Universidad
de Santiago de Chile, Universidad Católica, Universidad Andrés Bello, Pontificia Universidad Católica de Valparaíso,
Universidad de los Andes, Universidad Adolfo Ibáñez y Universidad de Chile.
6
figura 1.4), observando una diferencia de 5,5 % de la universidad que posee una mayor retención (U.
de los Andes) y un 10,3 % de la universidad que posee menor retención (U. Andrés Bello).
Figura 1.4: Retención 1er año Cohorte 2016. Fuente Elaboración Propia, a partir de datos de
retención de primer año de pregrado SIES 2016
De forma interna, existe una variación amplia de retención según la facultad y carrera a la que
pertenecen los alumnos (ver figura 1.5). El anuario 2017 de la Universidad de Chile indica que esta
posee un promedio de 82,7 % de retención en los programas académicos, existiendo 10 facultades
que se encuentran por sobre promedio. Destacan la Facultad de Ciencias Físicas y Matemáticas,
Facultad de Derecho y Facultad de Ciencias Veterinarias y Pecuarias las cuales poseen una tasa de
retención sobre el 90 %.
7
Figura 1.5: Tasa de retención al primer año por unidad académica. Fuente: Anuario 2017 Univer-
sidad de Chile
8
Capítulo 2
Proyecto
En este capítulo se detallan los antecedentes que justifican la realización de un proyecto y la des-
cripción de este proyecto de tesis.
Como se mencionó anteriormente, en el año 2014 la Universidad de Chile creó la “Política institu-
cional de Equidad e Inclusión” 1 , la cual sentó las bases para una universidad equitativa e inclusiva,
garantizando de esta manera el acompañamiento de estudiantes en el acceso, permanencia y egreso
oportuno.
Esta política interna de acompañamiento de estudiantes, también fue reforzada por políticas estatales
promulgadas en 2018, como lo son “Ley sobre Educación Superior” 2 y la “Ley sobre Universidades
Estatales” 3 , en las que se establece que para que una universidad pueda contar con gratuidad
debe mantener políticas que permitan un acceso equitativo y programas de apoyo a estudiantes
vulnerables para su retención.
Si bien la Universidad de Chile realiza esfuerzos por acompañar y retener a sus alumnos, esta sigue
manteniendo una marcada heterogeneidad en la retención de sus distintas facultades, siendo 93,5 %
1
http://www.uchile.cl/portal/presentacion/vicerrectoria-de-asuntos-estudiantiles-y-comunitarios/oficina-de-
equidad-e-inclusion/documentos/110549/informes
2
https://www.leychile.cl/Navegar?idNorma=1118991
3
https://www.leychile.cl/Navegar?idNorma=1119253
9
en la más alta (Facultad de Ciencias Físicas y Matemáticas) y 53,2 % en la más baja (Bachillerato)
(ver imagen 1.5 ).
Estos antecedentes suponen un gran desafío y responsabilidad para la Universidad, ya que debe
garantizar el acompañamiento de sus alumnos durante su trayectoria universitaria, responder a un
cuerpo estudiantil de diverso origen económico, social y cultural, y mejorar la retención de alumnos
dentro de sus distintas facultades. Por lo tanto, es prioritario diseñar y sistematizar la retención para
cubrir estas demandas.
El objetivo general de este proyecto corresponde a generar una nueva capacidad 4 en la Universidad de
Chile que permita detectar a alumnos en riesgo de deserción para así ofrecer beneficios estudiantiles
de forma proactiva. La fecha de finalización del proyecto corresponde a diciembre de 2018.
Los objetivos específicos del proyecto para poder lograr el objetivo general son los siguientes:
4
Se utiliza la definición de capacidad del libro de Administración Estratégica de Michel A. Hitt, el cual indica que
“Las capacidades existen cuando los recursos han sido integrados a propósito con el fin de desempeñar una o varias
tareas específicas (...) Estas son fundamentales para crear ventajas competitivas y, con frecuencia, están basadas en
el desarrollo, la transmisión y el intercambio de información y de conocimiento por medio del capital humano de la
empresa.”
10
2.4. Resultados Esperados
Los resultados esperados a partir de los objetivos específicos son los siguientes:
1. Contar con una propuesta de arquitectura de procesos, procesos de negocio y soporte tecnoló-
gico que permitan materializar la nueva capacidad.
2. Que los modelos desarrollados puedan predecir los alumnos en riesgo de desertar, de forma de
poder realizar acciones que permitan disminuir la tasa de deserción universitaria.
2.5. Alcance
Se detallan los aspectos que se encuentran dentro y fuera del alcance de este proyecto:
Validar que modelo puede ser replicado a nuevas generaciones de alumnos de primer año
a través de un análisis retrospectivo (validar que modelo es generalizable). Para ello se
utilizarán datos de alumnos nuevos de la Universidad de Chile cohorte 2016.
11
Evaluación económica de implementar la nueva capacidad en la Universidad de Chile con
recursos propios.
Haber detectado la deserción de al menos un 1 % del total de alumnos nuevos del cohorte 2017.
Se deberá demostrar que el modelo seleccionado es generalizable, es decir, que es válido no sólo
para los datos de alumnos nuevos con que se entrenaron los modelos (cohorte 2017), sino que
también para nuevas generaciones de alumnos que ingresan a la Universidad de Chile. Además,
los resultados deberán ser validados por expertos de la Dirección de Bienestar Estudiantil.
Se utilizarán dentro de este estudio las variables región, sexo, nacionalidad, carrera, procedencia
educacional, vía ingreso, tramo socioeconómico, índice de vulnerabilidad escolar, enfermedad
catastrófica, enfermedad permanente, enfermedad crónica, hacinamiento, nivel educacional del
jefe de hogar, nivel educacional de la madre, créditos universitarios, becas de arancel, becas de
mantención, puntajes PSU, NEM, Ranking y otras variables generadas a partir de los datos
disponibles de alumnos.
12
2.7. Riesgos Potenciales
Los riesgos asociados al desarrollo de este proyecto, probabilidad de ocurrencia, impacto y estrategia
de mitigación se detallan en la siguiente tabla:
13
Capítulo 3
Marco Teórico
En este capítulo se detallan las metodologías, conceptos y bibliografía consultada para el desarrollo
de este trabajo de tesis.
La metodología que se utilizó para llevar a cabo este proyecto corresponde a la "Metodología de
diseño de servicios", desarrollado en el libro Bussiness Engineering and Service Design [1], la cual
se aplica en organizaciones que buscan desarrollar innovaciones en sus servicios para ser más com-
petitivas. Esta metodología se observa en la figura 3.1.
14
Figura 3.1: Metodología de diseño de Servicios. Fuente Bussiness Engineering and Service Design.
En el libro de Bussiness Engineering and Service Design [1], se define para organizaciones que
prestan servicios, un modelo conceptual de las interacciones y componentes de negocio implicadas
al momento de realizar un diseño sobre el negocio. La estructura básica de este modelo se observa
en la figura 3.2.
En este modelo, la Cadena de Valor corresponde a todas las actividades y procesos que ocurren
desde que un cliente genera una orden de servicio hasta la entrega.
El Sistema de Administración, corresponde a todas las actividades que se realizan para definir y
dirigir la Cadena de Valor para poder cumplir con los requerimientos de sus clientes (desarrollo de
nuevos servicios, planificación estratégica, desarrollo de nuevas capacidades, operaciones, logística y
ventas).
15
Figura 3.2: Estructura básica de organización de servicios. Fuente: Business Engineering and
Service Design.
Considerar que dentro de este diagrama no se encuentran de forma implícita dentro de las compo-
nentes los recursos financieros, humanos y otros tipos de recursos utilizados para la administración.
Dada la estructura básica de organización de servicios (figura 3.2), y partir de estudios de organi-
zaciones que han logrado desarrollar nuevas capacidades, se han reconocido patrones de las nuevas
componentes de negocio y sus relaciones que se requiere para generar una nueva capacidad. Estos
patrones toman el nombre de “Patrones de Negocio”, donde se han identificado 6 tipos:
5. Innovación de productos
16
El Patrón de Negocio de interés de esta tesis corresponde al Patrón de Negocio 1 “Ventas Basadas en
el conocimiento del cliente", el cual debe ser desarrollado en organizaciones que posean un posiciona-
miento estratégico, según lo definido por el modelo delta de Hax [2], de entregar servicios integrales
al cliente y un modelo de negocio donde la retención del cliente es relevante. Las nuevas componentes
de negocio que se requiere añadir a la estructura básica corresponden a “Analizar comportamiento
de clientes” y “Generar ofertas”. Esto se observa en la figura 3.3 .
Figura 3.3: Patrón de Negocio 1. Fuente: Business Engineering and Service Design.
17
3.1.2. Patrones de Arquitectura y Procesos de Negocio
Los Procesos de Negocio se pueden agrupar en 4 grandes procesos, o para diferenciarlo de los pro-
cesos comunes llamados “macroprocesos”, debido a que contienen muchos procesos relacionados,
subprocesos y actividades que son necesarias para llevar adelante los servicios clave, existiendo 4
macroprocesos:
Estos macroprocesos pueden ser combinados en diferentes estructuras dependiendo del tipo de ne-
gocio. La estructura básica se observa en la figura 3.4, donde existe sólo un macroproceso de cada
cada tipo (Cadena de Valor, Desarrollo de Nuevas Capacidades, Planificación de Negocio y Admi-
nistración de recursos). En casos reales, pueden existir muchas cadenas valor, las cuales deben ser
mapeadas en el diagrama, así como el detalle de sus interacciones.
18
Figura 3.4: Macroprocesos. Fuente: Business Engineering and Service Design.
Para arquitecturas complejas, donde existe más de un nivel de negocio, como ocurre en el caso
de holdings, complejos mineros (minas, plantas de procesamiento, fundición y servicios de agua),
complejos forestales (aserraderos, celulosa y papeles), entre otras, existe una Arquitectura Multinivel,
la cual se observa en la figura 3.5.
19
Figura 3.5: Arquitectura Multinivel Fuente: Business Engineering and Service Design.
En la Arquitectura Multinivel también se mapean los 4 macroprocesos, con la diferencia que existe
20
niveles centrales, intermedios y bajos de planificación, cadenas de valor, desarrollo de nuevas ca-
pacidades y administración de recursos (por simplicidad del diagrama se omite el macroproceso 4
administración de recursos, asumiendo que se encuentra implícito dentro de las actividades).
Para diseñar el modelo multinivel de arquitectura de procesos es relevante considerar los siguientes
aspectos:
Se debe decidir si estos aspectos deben ser centralizados o descentralizados. Una centralización
de la planificación del negocio y el desarrollo de nuevas capacidades para ciertas operaciones
puede generar un mejor rendimiento de los procesos al contar con áreas especializadas que
permitan generar mayores beneficios a través de analítica, reduciendo los costos de desarrollar
los procesos y sistemas.
2. Compartir servicios
Decidir si centralizar servicios es relevante, para así aprovechar economías de escala, por ejem-
plo, al adquirir productos o servicios que son requeridos por varias unidades dentro de la
organización.
Para desarrollar la lógica de negocio se utilizó la metodología de Cross Industry Standard Process
for Data Mining (CRISP-DM), la cual corresponde a una de las metodologías más utilizadas de
minería de datos1 . Esta metodología consiste en un proceso jerárquico, consistente en 4 niveles de
abstracción desde lo más general a lo más específico, las cuales corresponden a fase, tarea genérica,
tarea especializada e instancia de procesos. Si bien la descripción de las fases es de carácter discreto,
en la práctica muchas tareas pueden realizar al mismo tiempo, o avanzar en el proceso para luego
realizar ajustes en etapas anteriores.
El detalle de cada una de las fases de la Metodología de CRISP-DM (ver figura 3.6) se detalla a
continuación:
1
https://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html
21
Figura 3.6: Metodología CRISP-DM. Fuente: Smart Vision Europe.
1. Comprensión de negocio: Esta fase se centra en comprender de forma correcta las necesida-
des de negocio que se quieren resolver, detallando objetivos, criterios de éxito, alcance, riesgos
y plan de proyecto de minería de datos. Además se determina que herramientas de minería de
datos será utilizado en el proyecto.
2. Comprensión de datos: Se recolecta los datos para ser utilizados en el proyecto, realizan-
do una descripción de los datos encontrados (formato, categorías de variables, cantidad de
registros, entre otros), análisis exploratorios (gráficos, correlaciones, distribución de variables,
análisis estadísticos simples) y calidad de los datos (valores faltantes, datos desactualizados y
otros errores en los datos). Como output se genera un reporte indicando como abordar cada
uno de estos puntos y si la data es suficiente para poder cumplir con los objetivos de negocio.
22
ser utilizados, limpieza de información y reemplazo de datos faltantes, construcción de nuevas
variables e integración de los datos, ya que generalmente se cuenta múltiples bases de datos.
4. Modelado: En esta fase se escogen los modelos a utilizar, considerando sus condiciones para
operar de forma correcta (por ejemplo, algunos modelos operan bien con missing values, otros
descartan los registros con datos faltantes, diseño de prueba (ej. separación de test de entre-
namiento y de evaluación con método de validación cruzada), ajuste de parámetros y juzgar
mediante indicadores el performance del modelo.
5. Evaluación: Se evalúan los resultados del modelo y si estos cumplen los criterios de éxito
definido en los objetivos definidos en la primera fase. Además, se consideran los hallazgos
obtenidos de datos que no estaban definidos como un objetivo de negocio, pero que si agregan
información relevante para futuros proyectos.
Para determinar que variables deben ser incluídas en los modelos, se utilizó el método combinado
de Forward Selection and Backward Elimination [3], el cual corresponde a un algoritmo de selección
de variables como se detalla a continuación:
Forward Selection: Algoritmo que inicia el modelo sin atributos, para luego agregar aquel que
posea una mayor correlación con la variable explicada. En caso de no existir una variable significativa
para el modelo, el proceso se termina, determinando que no hay ninguna variable relevante con
poder predictor dentro del modelo. En caso de que si exista una, añade esta primera variable al
modelo. Luego, el algoritmo corre nuevamente, teniendo como base la variable seleccionada, el cual
es comparado con cada una de las variables restantes a partir de pruebas estadísticas (F-test). El
algoritmo termina cuando ninguna variable mejora el rendimiento del modelo.
Backward Elimination: Algoritmo que inicia el modelo con todos los atributos, para luego ir eli-
minando aquellos que agreguen menor valor al modelo, la cual corresponderá a la variable que posea
23
un menor estadístico F (F min). En caso de que F min no sea estadísticamente significativo, el algo-
ritmo elimina la variable y continua su iteración. En caso de que sea estadísticamente significativo,
el algoritmo se detiene.
Forward Selection and Backward Elimination (Stepwise): Este algoritmo opera como For-
ward Selection, pero cada vez que agrega una variable, examina si una variable debe ser eliminada
con el método de Backward Elimination. El algoritmo termina cuando ninguna variable puede ser
añadida o eliminada.
Esta metodología es práctica para la selección de atributos, ya que la alternativa sería probar todas
las combinaciones posibles de modelos, lo cual crecería de forma exponencial a medida que se añaden
nuevas variables, de forma 2p − 1, donde p es es el número de variables. A modo de ejemplo, para un
modelo de 10 variables predictoras, se tendrían que probar 210 − 1 = 1.023 modelos . Este método
si bien encuentra óptimos locales y no globales, es práctico y utilizado ampliamente en la literatura
para la selección de variables.
Se define minería de datos como “el proceso de descubrir correlaciones, patrones y tendencias relevan-
tes a través del tratamiento de grandes bases de datos, y utilizando tecnologías para el reconocimiento
de patrones, así como técnicas estadísticas y matemáticas” 2 .
Dentro de la minería de datos existen modelos supervisados y no supervisados, los cuales son utili-
zados según el problema que se busque resolver.
Corresponde a modelos donde se cuenta con variables explicativas y una variable explicada. A
partir de la data disponible, se extrae un set de entrenamiento, el cual es utilizado para ajustar los
parámetros de los modelos. De esta manera en un escenario óptimo, se espera que a partir de una
nueva instancia la variable explicada sea predecida correctamente. Esto requiere que los algoritmos
2
Gartner Inc., Data Mining definition
24
tengan una capacidad de predicción que sea generalizable, es decir, que permita predecir de forma
razonable casos que no se encuentren dentro de la muestra.
eg(x)
P [Y = 1/x1 , x2 ..., xk ] =
eg(x) + 1
donde
g(x) = β0 + β1 ∗ x1 + β2 ∗ x2 +, ..., +βk ∗ xk
Los parámetros del modelo (β’s) son estimados según el método de máxima verosimilitud l(β|x), la
cual determina los valores para los beta según la máxima probabilidad de reproducir el conjunto de
los datos observados. El supuesto de que las observaciones son independientes permiten expresar la
máxima verosimilitud como el producto de cada una de las observaciones.
k
Y
L(x1 , x2 ..., xk , β) = f (xk , β)
k=1
Aplicando logaritmo a la ecuación, se puede realizar un cálculo con un mejor rendimiento compu-
tacional:
k
X
ln(L(β|x)) = ln(f (xk , β))
k=1
Las ventaja de este modelo es que los resultados de son sencillos de interpretar, ya que lo valores
varían entre 0 y 1, lo cual corresponde a la probabilidad de ocurrencia de un suceso. Por ejemplo,
calcular la probabilidad de que un alumno sea desertor.
25
Este modelo es sensible a los missing values, ya que los valores faltantes son interpretados como
nulos en caso de las variables numéricas o equivalentes a la categoría definida como base en el caso
de las variables categóricas, afectando la calibración de los parámetros y la capacidad predictora
del modelo. Además, asume variables numéricas distribuyen como una normal, por lo cual los datos
deben ser normalizados antes de ser utilizados [3].
Los árboles de decisión son algoritmos predictivos que permiten clasificar la información en dos
o más categorías. Estos están compuestos de ramificaciones, donde los puntos en que se divide la
información es llamado nodo, donde un nodo corresponde a la variable escogida por el algoritmo
para ramificar (split). El final de la ramificación en donde no se divide nuevamente el algoritmo es
llamado hoja.
Son simples de comprender y visualizar, ya que los árboles pueden ser desplegados gráficamente
y comprendidos por personas que no son expertos en la materia.
Permite trabajar tanto con variables numéricas y categóricas, dependiendo del algoritmo de
árbol de decisión utilizado.
Tiene un buen performance para sets de datos grandes, utilizando un tiempo razonable para
analizar la información.
Los algoritmos de árboles de decisión no garantizan óptimos globales. Esto puede ser mitigado
creando muchos árboles (Random Forest) o poda (prunning).
Puede generar tendencias si hay una clase dominante. Es por ello que se recomienda balancear
los datos.
26
Sensibles a cambios de set de datos.
1. Algoritmo ID3
Este algoritmo utiliza las métricas de entropía y de ganancia de información para generar los
split.
n=k
X
Entropia(n) = − p(n, x) ∗ log2 (p(n, x))2
x=i
27
a) Calcular la entropía del data set.
Desventajas:
2. Algoritmo CART
A diferencia de ID3 este algoritmo utiliza el Índice de Gini para generar los splits, en vez de
la entropía.
Índice de Gini: Esta métrica indica que tan mezcladas se encuentran las clases en dos grupos
creados por el split. Este se calcula como:
X
G=1− p(n, x)2
Un set perfectamente clasificado (todos positivos o todos negativos) toma valor de índice de
gini igual a 0.
28
Para problemas de clasificación binaria, un índice de gini perfectamente clasificado toma valor
0. En tanto que si la mitad corresponde a casos positivos y la otra mitad a casos negativos,
el índice de gini es igual a 0,5. Para el resto de las variables categóricas el máximo valor del
índice de gini =1-1/k, donde k el número de categorías.
Algoritmo:
Desventajas:
3. Algoritmo CHAID
Este algoritmo utiliza la prueba de hipótesis chi-cuadrado para generar los split, lo cual lo
realiza a través del estadístico no paramétrico chi cuadrado, el cual compara la distribución
observada de los datos con la distribución esperada de estos.
En árboles de decisión se puede realizar una poda de árboles para restringir la cantidad de split
que se realizan, existiendo dos tipos de poda: pre-podado y podado. El prepodado se encuentra
29
conformado por minimal size for split, minimal leaf size y minimal gain. En tanto que le
podado se encuentra conformado por confidence. Además de lo anterior, se puede restringir
por la profundidad máxima de los árboles (maximal depth). En anexo Parámetros árboles de
decisión se detalla cada uno de estos parámetros y si es poseído por los algoritmos ID3, CART
y CHAID.
Estos modelos son utilizados para buscar relaciones y patrones en los datos que no son conocidos,
sin la necesidad de definir variables explicativas y explicadas como en los modelos supervisados.
Frecuentemente estos métodos son utilizados para encontrar patrones ocultos en los datos, de forma
de comprender en mayor profundidad la información disponible y etiquetar los distintos grupos
encontrados para posteriores análisis.
El análisis de cluster sirve como una herramienta exploratoria de información, ya que permite agrupar
la información según su similaridad y generar hipótesis a partir de ella. Se utilizarán dentro de este
proyecto los algoritmos de clusterización: X-Mean y DBSCAN. El primero debido a que permite
encontrar el número óptimo de clusters y el segundo porque elimina el ruido de la muestra.
1. Cluster K-means
2. Luego, se mide la distancia de una entidad a cada uno de los centroides, asignándose la entidad
al centroide con el cual posea la mínima distancia. Para efectos de estos estudios se utilizará
la distancia euclidiana:
30
v
u n
uX
Dij = mı́n t (Xki − Xkj)2
k=1
4. Una vez que todas las entidades han sido asignadas a un cluster, se calcula el punto medio de
cada cluster.
5. El proceso se repite de la misma forma, pero ahora tomando el punto medio de cada cluster
como punto de inicio (en vez de los k centroides escogidas al azar al iniciar el algoritmo).
6. El algoritmo continua su iteración hasta que ninguna entidad es reasignada a otro cluster.
2. Cluster X-Means
Una mejora del algoritmo de cluster K-Means, corresponde al algoritmo de cluster X-means de Dan
Pelleg y Andrew Moore [4], el cual encuentra el número óptimo de clusters de la muestra (K*). El
beneficio de este algoritmo es que posee una mayor velocidad de procesamiento, selecciona el número
óptimo de clúster (evitando la imputación manual del número de clusters) y encuentra un mejor
óptimo local que el análisis de cluster normal [4].
Cabe destacar, que para los algoritmos de cluster es necesario que las variables estén normalizadas
y estandarizadas para así obtener un mejor rendimiento del modelo.
31
Puntos Centrales: Puntos que poseen en su vecindario al menos la cantidad de puntos definida
en min points.
Puntos de Borde: Puntos que poseen en su vecindario menos de la cantidad de puntos definida
en min points pero se encuentran en el vecindario de un punto central.
Figura 3.7: Puntos Core, Border y Ruido DBSCAN. Fuente: Elaboración propia.
Para cada punto P de un set de datos y considerando min points = m , identificar los puntos (pts)
en una distancia :
2. Si pts < m y un punto central esta a una distancia n, etiquetar P como un punto de borde.
32
son útiles cuando clusters poseen formas irregulares, están entrelazados o hay ruido/outliers
en los datos.
A diferencia de los árboles de decisión, Random Forest crea un conjunto de árboles a partir de dife-
rentes subconjuntos de registros y atributos. El motivo de probar este modelo, es que sus resultados
son más generalizables que los árboles de decisión, evitando de esta manera el sobreajuste.
Algoritmo
2. Crear un árbol de decisión del set creado a partir de bootstrap, pero seleccionando un set de
variables de forma aleatoria.
3. Repite el proceso n veces donde n es igual al parámetro definido por "number of trees".
4. Para cada registro, se evalúa el resultado obtenido en cada árbol. Luego se procede a votación,
obteniendo como etiqueta del registro aquel que haya obtenido una mayor cantidad de votos.
Ventajas
Permite generalizar los resultados, al evitar el sobreajuste, debido a que presenta una mayor
variedad al escoger de forma aleatoria las variables y registros para cada árbol.
33
Desventajas
A mayor cantidad de árboles, mejor el performance, pero con el costo de generar un procesa-
miento más lento.
Parámetros
En Random Forest se poseen los mismos parámetros de poda que los árboles de decisión, además de
determinar la cantidad de árboles (number of trees), la estrategia de votación (confidence o majority
vote) y guess subset ratio, el cual determina la cantidad de atributos a seleccionar para cada árbol.
Además, se puede elegir el criterio de división de árboles (ganancia de información, índice de gini, gain
ratio, entre otros). La descripción de cada uno de los parámetros se encuentra en Anexo Parámetros
Random Forest.
Para determinar la capacidad de predicción y ajustar los parámetros de los modelos se debe deter-
minar un set de entrenamiento y otro de evaluación:
1. Set de entrenamiento: Corresponde a los datos que son utilizados para calibrar los modelos.
Generalmente corresponden entre el 67 % y 90 % de la muestra.
2. Set de evaluación: Corresponde a los datos son utilizados para probar los modelos. Gene-
ralmente corresponde entre el 33 % y 10 % de la muestra.
Surge entonces el problema de decidir que set de datos elegir como set de entrenamiento y de
evaluación. El método de validación cruzada, hace alusión a la separación de información en carpetas
o secciones de datos. En este sentido, se separa la información en k secciones, donde cada sección es
utilizada como set de evaluación, y el resto como set de entrenamiento. Generalmente se divide la
muestra en 10 partes (k=10). A modo de ejemplo, se puede visualizar en la imagen 3.8 el proceso
de validación cruzada para k=4.
34
Figura 3.8: Validación Cruzada (k=4). Fuente: Elaboración propia.
El beneficio de utilizar este método es que se evita el sobreajuste de los datos a la muestra, lo cual
provocaría modelos demasiado precisos a los datos disponibles, pero cuyos resultados no son gene-
ralizables . Por ejemplo, si hay sobreajuste en la predicción de deserción, los modelos no permitirán
predecir de forma correcta la deserción de un alumno nuevo, ya que los parámetros del modelo son
aplicables a la muestra y no al universo de estudiantes.
Dado el el interés de este estudio que los resultados de los modelos sean generalizables a la población,
es que se escoge esta metodología determinar la capacidad de predicción y calibrar los modelos.
Esta matriz es fundamental para evaluar el desempeño de algoritmos de clasificación, ya que nos
permite identificar la cantidad de casos donde el algoritmo realizó un correcta predicción y la cantidad
de casos en donde se realizó una predicción incorrecta. Esta matriz posee 4 casos distintos (ver tabla
3.1).
35
Tabla 3.1: Matriz de Confusión
Para explicar la matriz de confusión se utilizará como ejemplo la situación donde un modelo predice
de forma correcta o incorrecta la deserción de un alumno.
Verdadero Positivo (VP): El modelo predice los casos positivos de forma correcta. En este
caso se predice de forma correcta la deserción de un alumno.
Verdadero Negativo (VN): El modelo predice los casos negativos de forma correcta. En
este caso se predice de forma correcta que un alumno no desertará.
Falso Positivo (FP): El modelo predice como positivo un caso que en realidad es negativo
(Error Tipo I). En este caso se predice que un alumno desertará, pero en realidad no lo hace.
Falso Negativo (FN): El modelo predice como negativo un caso que en realidad es positivo
(Error Tipo II). En este caso se predice que un alumno no desertará, pero en realidad si lo
hace.
A partir de la matriz de confusión, se pueden elaborar indicadores para evaluar qué modelo es el
mejor para resolver un determinado problema:
(V P +V N )
Accuracy = N . Corresponde al porcentaje de aciertos (verdaderos positivos y verda-
deros negativos) con respecto al total de la muestra.
36
VP
Precision = (V P +F P ) . Corresponde al porcentaje de verdaderos positivos con respecto al
total de valores predecidos como positivos.
VP
Recall = (V P +F N ) . Corresponde al porcentaje de verdaderos positivos con respecto a los va-
lores que son actuales positivos.
2∗Recall∗P recision
F-Measure= Recall+P recision . Calcula la media armónica entre Recall y Precision.
Dependiendo del tipo de problema, se deberá determinar que es lo que se quiere priorizar, si tener
modelos con alto Recall, alta Precision o de forma mixta (F-Measure). Si lo que se quiere evitar es
tener error de tipo I, se utilizarán modelos con una alta Precision. Mientras que si lo que se busca
es evitar tener error de tipo II, se utilizarán modelos con un alto Recall.
37
VP
Eje y = % V P =
TP + TN
FP
Eje x = % F P =
TN + FP
De forma complementaria se utilizó el Área bajo la Curva (AUC = Area Under the Curve), la cual
varía entre 1 y 0,5. Aquellos modelos que posean un AUC equivalente a 1 corresponden a modelos
que predicen de forma perfecta y 0,5 a modelos que predicen los resultados de forma aleatoria.
Para efectos de este estudio la deserción se define como “El abandono prematuro de un programa de
estudios antes de alcanzar el título o grado, y considera un tiempo suficientemente largo como para
descartar la posibilidad de que el estudiante se reincorpore” [6]. Esta a su vez se clasifica en cuatro
tipos de deserción, según si desertó de forma voluntaria o involuntaria, y si desertó de la carrera o
de la institución (ver tabla 3.2).
II. Deserción de Carrera Involuntaria: Corresponde a todos aquellos estudiantes que se ven
obligados a retirarse de su carrera como consecuencia de una decisión de la universidad debido a
desempeño académico insuficiente o a razones disciplinarias, pero que luego ingresan a otra carrera
de la Universidad de Chile realizando nuevamente el proceso de postulación.
38
III. Deserción Institucional Voluntaria: Corresponde a aquellos alumnos que abandonan la
Universidad de Chile a través de la formalización del abandono o que no registran matrícula en el
periodo siguiente en la Universidad.
En esta sección se detalla la bibliografía consultada para el desarrollo de este trabajo de tesis en
materias de deserción estudiantil e implementación de analítica en organizaciones.
1. Enfoques psicológicos
Estos modelos plantean que existen rasgos de personalidad que influyen en la deserción. Uno
de los primeros modelos corresponde a los de Fisbhein y Azjen (1975) quienes sugieren que
las intenciones de una persona son el resultado de sus creencias, las que influyen sobre sus
actitudes y la llevan a manifestar un determinado comportamiento. En este sentido, la deci-
sión sobre desertar se ve influenciada por conductas previas, las actitudes hacia la deserción
y/o persistencia y por norma subjetivas hacia estas acciones, llevando a la formación de una
intención conductual, lo que lleva a adoptar un determinado comportamiento. Si estas conduc-
tas, actitudes y normas son contrarias a permanecer en la universidad, el alumno terminará
39
desertando. En contraste, si estas son positivas, el alumno se mantendrá dentro de sus estudios.
Este modelo fue posteriormente modificado por Attinasi (1986) postulando que la deserción
estudiantil se ve influida por las percepciones de los alumnos y los análisis que estos realizan
de su vida universitaria después de su ingreso. Ethington (1990) construyó un modelo consi-
derando todo lo anterior, incorporando una teoría más general sobre las conductas de logro
de Ecless et al (1983), dentro de las cuales se encuentran atributos como la perseverancia, la
elección y el desempeño. Este pudo observar que los valores como las expectativas de éxito
influyen sobre la persistencia en la universidad.
2. Enfoques Sociológicos
3. Enfoques económicos
Esta categoría de modelos adopta una perspectiva de costo beneficio. De esta manera, se
postula que cuando los beneficios sociales y económicos asociados a los estudios en educación
superior son percibidos como mayores que realizar actividades alternas, como por ejemplo el
trabajo, el estudiante decidirá permanecer en la universidad.
En esta misma línea se encuentran los enfoques que examinan la asignación de subsidios para
los estudiantes, como rabajas en la matrícula, becas y créditos con bajo interés, los cuales
buscan equiparar la capacidad de pago de los estudiantes e incrementar la apreciación de los
beneficios de la educación universitaria (Cabrera, Nora y Asker 1999).
4. Enfoques organizacionales
40
a ella. Es de relevancia en este enfoque la calidad de la docencia (Braxton, Millen, Sullivan,
2000) y de la experiencia de los estudiantes en el aula. También se ha incorporado dentro
de este tipo de estudios efectos de beneficios de salud; actividades complementarias como
deportes, actividades culturales y apoyos académicos; disponibilidad de recursos bibliográficos;
laboratorios; e indicadores como cantidad de alumnos por profesor (Tillman, 2002).
5. Enfoques de interacciones
En este tipo de enfoque resaltan los estudios de Vincent Tinto, uno de los autores con mayores
influencias sobre deserción y retención. Tinto expande el modelo de Spady con la teoría de
intercambio de Nye (1979). La teoría de intercambio se fundamenta en que los seres humanos
evitan las conductas que les produce un costo de algún tipo, y buscan las recompensas en
las relaciones, interacciones y estados emocionales (Nye, 1979). En este sentido, Tinto plantea
que los estudiantes actúan de acuerdo a la teoría de intercambio en la construcción de su
integración social y académica. Si los beneficios de permanecer en la institución son mayores
que los costos personales (esfuerzo, dedicación, entre otros) el estudiante permanecerá en la
institución. En cambio, si hay otras actividades que le reporten mayores recompensas, este
desertará. El modelo considera que existen diversos factores que refuerzan el permanecer en
la institución que seleccionó, los cuales comprenden antecedentes familiares (ej. nivel socio-
económico y cultural de la familia, valores que sustenta), atributos personales y experiencia
académica preuniversitaria.
Estudio realizado en la Facultad de Ingeniería Universidad de Chile en el año 2015 [7], considerando
alumnos desertores por eliminación debido a bajo rendimiento académico.
El objetivo del estudio fue mostrar como las herramientas de minería de datos pueden ser utilizadas
para generar modelos predictivos que sirvan para apoyar a aquellos estudiantes en riesgo de deserción
o insuficientes desempeño académico. Para ello se utilizaron datos de alumnos de primer año del
Plan Común de Ingeniería y Ciencias de la Universidad de Chile de los cohortes 2010, 2011, 2012,
2013 y 2014.
41
Las variables utilizadas fueron variables individuales de los alumnos (género, tiempo desde el egre-
so de enseñanza media y región de procedencia), variables de preingreso (tipo de establecimiento
educacional enseñanza media, experiencias previas en educación superior, puntajes en la psu, vías
de ingreso especiales), ranking, promedio de notas de enseñanza media y la creación de 11 variables
adicionales a partir de las notas de los alumnos.
Se utilizó la metodología de minería de datos para predecir la caída en causal de eliminación por
motivos académicos, utilizando el modelo de regresión logística en combinación con método de
selección de atributos Forward Selection and Backward Elimination. Los modelos fueron entrenados
con datos de 2010 a 2013 y probados con datos de 2014. El poder predictivo fue evaluado con las
medidas de Recall y Precision.
El modelo desarrollado clasificó correctamente a más del 86 % de los casos, con niveles bajos de
error tipo II y una precisión de 38 %, permitiendo desarrollar intervenciones focalizadas sobre los
alumnos en el segundo semestre. La variable con mayor poder explicativo corresponde al ratio de
créditos inscritos aprobados, es decir, a mayor cantidad de cursos reprobados en el primer semestre,
mayores son las probabilidades de reprobar por segunda vez. Otra variable significativa corresponde
a género, donde un estudiante hombre posee un 88 % más probabilidades de reprobar dos veces
el mismo ramo que una mujer ( y por ende caer en causal de eliminación académica). La tercera
variable significativa indica que aquellos estudiantes que superen la nota de aprobación (4.0) en los
primeros controles tienen menores probabilidades de volver a reprobar una asignatura que aquellos
que no.
Se utilizó este estudio como referencia para este proyecto para determinar qué variables son im-
portantes considerar para estudiar la deserción de alumnos de la Universidad de Chile, qué método
de selección de variables emplear (Forward Selection and Backward Elimination) y qué indicadores
utilizar para medir el rendimiento de los modelos (Recall y Precision).
Este estudio fue realizado en la Dirección de Bienestar de la Universidad de Chile en el año 2017
[8], considerando alumnos desertores tanto de carrera como institucionales.
42
El objetivo de esta investigación fue medir el impacto que causan las ayudas financieras de educación
superior sobre la probabilidad de retención de los estudiantes de la Universidad de Chile para lo cual
se utilizaron datos de alumnos de primer año pertenecientes a los cohortes 2013, 2014, 2015 y 2016.
Para analizar los datos se construyeron tres tipos de modelos probabilísticos, el primero para estudiar
la retención estudiantil, el segundo para notas y el tercero para avance académico. En el primero se
utilizó el método de máxima verosimilitud para calcular los parámetros, mientras que en el segundo
y el tercero el método de Mínimos Cuadrados Ordinarios (MCO).
Los principales resultados fueron que aquellos alumnos que poseen becas o Crédito con Aval del
Estado (CAE) cuentan con una mayor probabilidad de retención. En particular, aquellos alumnos
que poseen gratuidad o que poseen una combinación de becas de mantención y de arancel estatales
poseen una probabilidad de retención de mayor magnitud.
Este estudio fue utilizado como referencia para comprender el impacto de las becas de arancel, becas
de mantención y créditos estatales en la deserción de alumnos de la Universidad de Chile, con el
objetivo de determinar qué variables incluir en los modelos predictivos.
Este estudio fue realizado en la Universidad de Chile en año 2015 [9], considerando alumnos desertores
tanto de carrera como institucionales.
El objetivo de este proyecto fue determinar de forma cuantitativa la influencia de los distintos tipos
de ayuda financiera en la probabilidad de persistencia de los estudiantes de la Universidad de Chile.
Para ello se utilizaron datos pertenecientes a ala Universidad de Chile, a saber, admisión y matrícula,
ayuda financiera y admisión PSU (DEMRE) pertenecientes a los cohortes de estudiantes de primer
año 2009 y 2010.
Los resultados obtenidos fueron que las combinaciones de becas y préstamos estatales, institucionales
43
y/o externas no estatales, aumentan la probabilidad de permanecer en la Universidad. En particular,
las ayudas de mantención poseen una mayor preponderancia en la persistencia de los estudiantes
que las ayudas de arancel. Resalta también la primacía del Crédito con Aval del Estado (CAE) por
sobre las becas en reducir la probabilidad de deserción. Destacan las ayudas brindadas por entidades
externas no estatales externas a la universidad (fundaciones, municipios, entidades bancarias, etc),
seguido de las ayudas institucionales (internas) que corresponden a becas de mantención no cubiertas
por el estado y becas que exigen mérito académico para acceder a ellas, como Andrés Bello y Beca
Universidad de Chile. También se destaca que a mayor quintil de ingreso, disminuye el riesgo de
persistencia. Por último, que los resultados Puntaje Promedio PSU (Promedio PSU Lenguaje y
Matemáticas) y Puntaje NEM no contribuyen a la persistencia en la universidad.
Este estudio fue utilizado para comprender la influencia en la retención de alumnos de las distintas
tipos de ayuda financiera, de los quintiles de ingreso y la Prueba de Selección Universitaria (PSU),
con el objetivo de determinar las variables a considerar en los modelos predictivos.
Estudio realizado en la Universidad Católica de Chile en año 2013 [10], considerando la persistencia
a nivel de sistema de educación superior, por tipo de institución (Universidad Privada, Universidad
del Cruch, Centro de Formación Técnica e Instituto Profesional) y en la misma institución.
El objetivo del estudio es estudiar el rol de distintas variables en la deserción del sistema de edu-
cación superior en Chile. Para ello se utilizaron las siguientes fuentes de datos: DEMRE, Servicio
de Información de Educación Superior (SIES), ayudas estudiantiles del Ministerio de Educación y
Comisión Ingresa de alumnos que se inscribieron para rendir la PSU en los procesos 2007, 2008, 2009
y 2010.
Uno de los principales resultados corresponde a que la deserción se encuentra relacionada con el nivel
44
socioeconómico, observándose mayor deserción en grupos de menores ingresos, de menor educación de
los padres y entre egresados de establecimientos subvencionados o particulares. Además, se observa
una relación positiva entre PSU y NEM con una mayor persistencia. El Crédito con Aval del Estado
(CAE), Crédito de Fondo Solidario (CFS) y becas de excelencia académica (BEA y Juan Gómez
Millas) están correlacionados con un mayor nivel de persistencia, siendo el CAE el que posee una
mayor relación con la persistencia de todas las variables. No se encontró evidencia suficiente de que
las Becas Vocación de Profesor y Beca hijo del profesor estén asociados a una mayor persistencia.
Este estudio fue utilizado para comprender la influencia en la deserción y endogeneidad presente en
becas arancel, becas de mantención y créditos estatales, con el objetivo de determinar qué becas
considerar dentro de los modelos predictivos y cómo tratar aquellas que poseen sesgo de selección
para ser asignadas, ya sea por rendimiento académico o nivel socioeconómico.
El centro de investigación de Babson College’s Working Knowledge Research Center [11], realizó
un estudio a 32 organizaciones que han implementado métodos analíticos complejos, dentro de las
cuales 11 de ellas eran competidores completamente basados en analítica, es decir, que declaraban
como una de sus estrategias claves el desarrollo de la analítica en la organización. El objetivo de este
estudio era determinar qué características y prácticas son claves para competir bajo este escenario.
Los resultados arrojaron que existen 3 atributos claves que deben ser llevados a cabo:
Las empresas que han implementado analítica dentro de sus organizaciones desarrollan modelos más
allá de estadísticas descriptivas, como modelos que permitan pronosticar la demanda de productos o
servicios, para así mantener una dotación de personal y un stock de productos adecuados, o modelos
que permitan predecir el riesgo de perder un cliente para así crear estrategias para retenerlo. Esto
va de la mano de continua experimentación de estrategias que permitan intervenir y alcanzar los
resultados deseados.
Comprensión de que la mayoría de las funciones de negocio pueden ser abordadas con analítica, ya sea
45
las áreas de recursos humanos, marketing, operaciones, postventa, entre otros, generando una puesta
en práctica global en el uso de datos para la toma de decisiones. Es importante que las iniciativas
analíticas de relevancia para la organización sean tratadas bajo un “único carril”, manteniendo un
liderazgo, herramientas y tecnologías en común. De esta manera se busca evitar y eliminar los
esfuerzos aislados en las unidades, ya que esto provoca la generación de múltiples versiones de
indicadores, ya que cada unidad tiende a mantener sus propias bases de datos, herramientas y
personal para trabajar la información. Lo que se apunta es a asegurar que los datos críticos y otros
recursos sean bien administrados, de forma de que estas sean compartidas de forma fácil, y sin los
impedimentos de inconsistencia de formato, definiciones y estándares.
Se requiere que altos ejecutivos comprendan y transmitan la importancia de los métodos cuan-
titativos para la toma de decisiones, ya que se requiere generar cambios en la cultura, procesos,
comportamientos y habilidades de los empleados. Si bien no es necesario que los altos ejecutivos
posean una formación de estadística, si es necesario que comprendan los distintos métodos analíticos
y conozcan sus limitaciones. De todas maneras, en caso de no poseer una mayor comprensión en
métodos analíticos, siempre está la posibilidad de asesorarse por compañías externas a través de
consultorías.
Es importante destinar energías a resolver problemas que son relevantes para la organización, evi-
tando la creación de iniciativas que provoquen que los esfuerzos se tornen difusos y que se pierda el
foco de negocio al profundizar en cada una de ellas.
2. Cultura correcta
Se debe mantener una cultura que valore el medir, probar y evaluar en base a evidencia cuantitativa,
instando a los empleados a tomar decisiones en base a datos. Esto debe ser potenciado en todo
momento por los ejecutivos principales. De todas maneras, cuando se deban tomar decisiones rápidas
o cuando no se puede recopilar información de calidad, se debe priorizar la toma de decisiones con
la información disponible.
46
3. Personas correctas
Se debe velar por emplear a las personas con amplios conocimientos en analítica y de negocios, sobre
todo a aquellos que ocuparán altos cargos. Además, estos deben ser capaces de explicar de forma
sencilla ideas complejas, y poseer las habilidades necesarias para interactuar con los tomadores de
decisión. Si bien estos cargos son difíciles de encontrar, se debe velar en todo momento por traer a
los mejores independiente del tiempo que tomen los procesos de selección.
4. Tecnología correcta
Se debe velar por mantener sistemas que permitan recopilar información de cada movimiento de la
organización. Para ello existen sistemas como ERP, CRM, puntos de ventas, entre otros. Además,
se debe contar con repositorios de datos que permitan integrar la información de distintos sistemas
de forma correcta, facilitando que el acceso a información única a todos los empleados.
47
Capítulo 4
Planteamiento Estratégico
Actualmente la Universidad de Chile no cuenta con una herramienta de Balanced Scorecard para
su gestión, pero si posee declarados sus objetivos estratégicos dentro de su Plan de Desarrollo
Institucional (PDI) 2017-2026. Estos corresponden a:
48
Extensión y comunicaciones: Desarrollo de la extensión y las comunicaciones, que valores
y fortalezca la interacción y el compromiso entre la universidad y la sociedad.
1. Perspectiva financiera
Generar sustentabilidad financiera con el fin de asentar las bases de autonomía, calidad
y competitividad académica.
2. Perspectiva de estudiantes
49
• Disminución tasa de deserción postgrado.
3. Perspectiva interna
Según el Modelo Delta de HAX [2], la Universidad de Chile posee un posicionamiento estratégico
de Diferenciación y de Solución Integral al Estudiante.
Diferenciación
La Universidad de Chile busca ofrecer a sus alumnos una educación universitaria con paráme-
tros internacionales de excelencia académica, para lo cual realiza esfuerzos por contar con un
cuerpo académico de excelencia, fortalecer la calidad y pertinencia de las carreras de pregrado
a través de políticas que permitan mantener altos estándares de docencia, potenciar progra-
mas de doctorado para que sean competitivos internacionalmente, contribuir a las necesidades
de fortalecimiento académico a través de la formación de doctores, programas para atraer y
retener a académicos con grado de doctor, entre otros1 .
1
Proyecto de Desarrollo Institucional 2006
50
Solución Integral al Estudiante
En el año 2014 el Senado Universitario aprobó la política de Equidad e Inclusión Estudiantil, creando
de esta forma un marco regulatorio para las estrategias, programas y acciones de equidad e inclusión
en la Universidad de Chile. Esta política considera firmemente que la formación en diversidad juega
un rol relevante en los procesos educativos de calidad y que el valor del mérito que caracteriza a
la Universidad de Chile debe ser protegido, estableciendo distintos criterios de excelencia según la
realidad de cada estudiante.
Uno de los lineamientos más relevantes de esta política corresponde al Modelo de Desarrollo Integral
del Estudiante (MDIE).
Este modelo fue creado con el objetivo de contribuir a la igualdad de oportunidades durante la
permanencia del alumno en la Institución. Este considera al estudiante como un ser complejo con
múltiples necesidades y potencialidades, y está centrado en tres dimensiones que impactan en el
logro académico, a saber: calidad de vida, aprendizaje y enseñanza (ver figura 4.1 ).
51
Figura 4.1: Modelo de Desarrollo Integral del Estudiante. Fuente: Política de Equidad e Inclusión
Estudiantil 2014.
Dimensión Aprendizaje
Considera iniciativas de apoyo al logro académico, realizadas fuera de la sala de clases y no de-
pendientes de forma directa de los profesores. Incluye acciones de diagnóstico y caracterización
académica, programas de reforzamiento grupal, tutorías y mentorías que promueven la motivación,
modelos de estudio, estándares de actuación disciplinar y relaciones interpersonales, entre otros.
Dimensión Enseñanza
Se enfoca en el desarrollo docente e incluye programas de formación pedagógica para la educación
superior e iniciativas de acompañamiento en la implementación de innovaciones, fomentando que
el docente conozca a sus estudiantes, utilice métodos e instrumentos de evaluación pertinentes y
diversos, y retroalimente oportunamente sobre logros y dificultades en el aprendizaje.
52
4.3.2. Ámbitos de acción del Modelo de Desarrollo Integral del Estudiante
Para el MDIE se establecen ámbitos de acción en las distintas etapas del estudiante en la univer-
sidad (acceso, ingreso y egreso). Los ámbitos de acción que se vinculan con el accionar de la DBE
corresponden a:
Etapa Acciones
Crear programas que incentiven y permitan el acceso a estudiantes de estableci-
mientos de alta vulnerabilidad social, asegurando el acceso a aquellos estudiantes
que cumplen de forma exitosa los programas, y que la elección de la carrera sea
Ingreso
realizada de forma informada y con previa orientación vocacional.
Adaptar las estructura de ingreso a la universidad en reconocimiento del mérito
de los estudiantes en contexto, en concordancia con la equidad en la admisión al
pregrado.
Fortalecer medidas complementarias de acceso (como SIPPE u otros sistemas).
Desarrollar mecanismos que integran la experiencia y los conocimientos de los es-
tudiantes de atención prioritaria.
Fomentar la participación de los estudiantes en la vida universitaria.
Resguardar el acceso a las herramientas necesarias para actividades académicas,
Progreso como el uso de laboratorio de computación y servicios de impresión de documentos,
contando con becas que permitan solventar estos gastos en caso de ser necesario.
Velar por el acompañamiento efectivo de los estudiantes de atención prioritaria en
cuanto a postulaciones y entrega de beneficios junto a la detección y resolución de
conflictos.
Velar por la protección de la maternidad y paternidad generando programas para
este fin.
Incentivar el trabajo colaborativo entre estamentos de la comunidad universitaria.
Considerar cupos preferentes en salas cunas y programas de apoyo preescolar, para
hijos de estudiantes de atención prioritaria.
Continúa en la siguiente página
53
Continuación de Tabla
Etapa Acciones
Operar bajo un principio de universalidad (servicios deben ser útiles para todos los
estudiantes de la universidad).
Velar por la igualdad de oportunidad de egreso de sus estudiantes, con particular
atención en aquellos que tengan menor capital social o necesidades específicas que
Egreso
complican la inserción en el medio laboral.
Fomentar la realización de acciones necesarias para hacer efectiva la titulación
oportuna y el acceso a oportunidades de empleo en su área de formación.
Actualmente la DBE tiene declarado sus objetivos estratégicos, pero no así su misión y visión. Es por
ello que en base a los objetivos estratégicos, y a información adicional sobre los desafíos y acciones
realizadas en el área, se propone a modo de ejercicio una misión y visión para la dirección.
4.4.1. Visión
Ser un referente en la formación de profesionales con un alto estándar de calidad bajo un contexto
de equidad e inclusión al 2020.
4.4.2. Misión
Proveer programas de apoyo a estudiantes de contextos vulnerables con el objetivo de que puedan
desarrollar su máximo potencial social, intelectual y espiritual durante el desarrollo de sus estu-
dios, contribuyendo de esta manera a la formación de profesionales con una educación de calidad
independiente de su origen social y económico.
54
4.4.3. Objetivos Estratégicos
Esta herramienta es utilizada para analizar el entorno externo de una organización, unidad de ne-
gocio o proyecto, facilitando el detectar amenazas y oportunidades para anticiparse a eventos que
podrían ser perjudiciales y captar las oportunidades de mercado. El análisis PEST considera 4 fac-
tores de estudio: Político, Económico, Socio-Cultural y Tecnológico. Estos aspectos son detallados a
continuación con respecto a la Dirección de Bienestar Estudiantil.
Se detalla a continuación las políticas externas por las cuales se rige la Dirección de Bienestar Estu-
diantil, las cuales traen consigo consecuencias económicas para el financiamiento de la universidad.
Dentro de las consecuencias económicas de estas leyes se encuentran la definición de aranceles re-
gulados, término de limitaciones para el crecimiento de la matrícula y financiamiento estatal para
crear o fortalecer planes de apoyo para la permanencia de estudiantes.
55
4.5.1.1. Gratuidad
En 2018 se promulgó la Ley 21.091 sobre Educación Superior2 en Chile, la cual en su título V
establece el Financiamiento Institucional para la Gratuidad, garantizando de esta manera estudios
gratuitos a aquellos alumnos de mayor vulnerabilidad socioeconómica.
Para la entrega de este beneficio, las instituciones adscritas a gratuidad deben cumplir con los
siguientes requisitos:
2. Estar Constituidas como personas jurídicas de derecho privado sin fines de lucro.
3. Estar adscritas al Sistema de Acceso a las Instituciones de Educación Superior y cumplir con
los criterios de selectividad para las universidades que reciban este financiamiento, el cual está
basado en desempeños mínimos que deben tener los estudiantes matriculados en primer año.
4. Aplicar políticas que permitan el acceso equitativo de estudiantes y contar con programas de
apoyo a estudiantes vulnerables que promuevan su retención, fomentando que al menos el 20 %
de la matrícula total de la institución corresponda a estudiantes de hogares pertenecientes a
los cuatro primeros deciles de menores ingresos del país3 .
Para determinar el valor de estos aranceles regulados, la Subsecretaría de Educación Superior evalúa
y crea propuestas de los costos directos e indirectos asociados a cada una de las carreras. Estas
propuestas son discutidas con las instituciones de educación superior adscritas a gratuidad y sus
respectivas federaciones de estudiantes. Una vez llegado a una propuesta final, esta es evaluada por
una Comisión de Expertos creada para estos fines, quienes tomarán la decisión final sobre los montos
de los aranceles regulados.
2
https://www.leychile.cl/Navegar?idNorma=1118991
3
https://www.leychile.cl/Navegar?idNorma=1118991
56
Esta ley también establece vacantes máximas de estudiantes de primer año para las instituciones de
educación superior que reciban el financiamiento institucional para la gratuidad. Esto es determinado
para cada institución considerando los niveles y años de acreditación institucional, cobertura regional,
entre otros. De todas maneras, estas pueden solicitar aumentos en las vacantes máximas, siempre
que sus solicitudes estén fundamentadas en necesidades estratégicas del país y que ya haya sido
contemplada en la elaboración de los Planes de Desarrollo Institucional.
Coordinación
La ley indica que las universidades del estado deben actuar bajo el principio de coordinación,
con el propósito de fomentar una labor conjunta de forma de contribuir al progreso del país y
elevar los estándares de la educación pública (artículo 50).
Crecimiento de Matrícula
La ley establece que las universidades del estado podrán crear planes de crecimiento de su
oferta académica o de su matrícula, los cuales deberán basarse en objetivos estratégicos de
las necesidades del país, indicadores objetivos, considerar mecanismos de equidad e inclusión
4
https://www.leychile.cl/Navegar?idNorma=1119253
57
para los nuevos estudiantes y estar contemplados en los planes de desarrollo institucional.
Estos planes no se rigen según las vacantes máximas establecidas por la política de gratuidad,
siempre que sean aprobados previamente por decreto del Ministerio de Educación y suscrito
además por el Ministerio de Hacienda (artículo 62).
Con el objetivo de apoyar el desarrollo institucional de las universidades del estado, se creó un
plan de fortalecimiento transitorio, cuya duración es de diez años, destinados a usos estratégicos
de las universidades del estado (Artículo 58). Este plan contempla recursos por un monto de
$300 mil millones de pesos, donde se deberá destinar al menos la mitad dentro de los 5 primeros
años (artículo 60). Las iniciativas que serán financiados con estos fondos corresponderán a:
El actual gobierno posee el proyecto de ley que crea el Sistema de Financiamiento Solidario, el cual
es un crédito otorgado por un sociedad anónima estatal que financia a través de crédito los estudios
58
de alumnos de Instituciones de Educación Superior de los primeros 9 deciles, reemplazando el actual
método de financiamiento del Crédito con Aval del Estado (CAE) y el Fondo Solidario de Crédito
Universitario (FSCU).
La cobertura del crédito corresponde al financiamiento del arancel regulado más un porcentaje del
arancel real (el cual generalmente es superior al arancel regulado), lo cual dependerá del nivel de
vulnerabilidad del alumno y el nivel de acreditación de la carrera. El tope de financiamiento de este
crédito corresponderá a 1,5 veces el arancel regulado.
Los alumnos que pertenezcan a los 6 primeros deciles y que posean el crédito, estarán excentos de
pago durante la realización de sus estudios, siendo la propia institución de educación superior la que
se encargue de financiar la diferencia con el arancel real por medio de becas y/o créditos propios5 .
Un modelo de negocios sirve para expresar de forma lógica quiénes son los clientes, qué valoran y
cómo se articulan los procesos y recursos que tengan resultados económicos positivos. A continuación
se detalla el modelo de negocios de la DBE.
La DBE facilita las condiciones para que estudiantes de contextos vulnerables puedan completar
sus estudios, considerando la permanencia y el egreso oportuno de la carrera. Para esto, focaliza
y gestiona la ayudas dependiendo de la situación detectada contribuyendo por ejemplo a padres y
madres universitarios en el cuidado de sus hijos, a estudiantes de regiones a través de programas de
residencia universitaria, a estudiantes de colegios vulnerables con programas alternativos de ingreso
y acompañamiento, con becas alimenticias y de mantención de alumnos con necesidades económicas
o en otras ocasiones facilitando el acceso a ingresos extra a través de compensaciones laborales.
59
Recursos monetarios para asignación de becas.
Profesionales a cargo de identificar las necesidades de los estudiantes, y que generen programas
efectivos y eficientes para poder abordarlas.
Fuentes de información externa e interna para la asignación de becas internas (PSU, DEMRE,
JUNAEB, MINEDUC, Ficha Social y Sistema Guía Curricular).
Procesos de caracterización a través de la Ficha Social para todos los estudiantes que postulen
a beneficios estudiantiles de la U. de Chile.
60
Capítulo 5
Situación Actual
A partir del modelo del posicionamiento estratégico de la Universidad de Chile de Servicio Integral al
Estudiante y del modelo de negocios de la DBE, surge la necesidad de generar una nueva capacidad
que permita formalizar y sistematizar la retención de los alumnos de contexto más vulnerables.
61
con métodos analíticos y generar ideas, en base a los análisis, para generar ayudas proactivas a los
estudiantes. La generación de esta nueva se visualiza en la figura 5.1 (recuadros destacados).
Según este Patrón de Negocio, para poder materializar la capacidad de retener a alumnos de con-
textos vulnerables, se requiere el rediseño del Macroproceso 1 “Cadena de Valor” [1], siempre que no
haya una necesidad de cambios estructurales en la Cadena de Valor, que ocurre cuando la analítica
puede ser rápidamente incorporada a los procesos y que los modelos predictivos son estables y que
no requieren una revisión constante[1].
Actualmente en la Universidad de Chile la analítica puede ser incorporada rápidamente a los proce-
sos, ya que se cuenta con fuentes de datos para realizar estudios predictivos (Ficha Social, DEMRE,
JUNAEB, MINEDUC, entre otras) y datos históricos de alumnos entre los años 2011 a 2018. Si bien
se puede incorporar más datos de alumnos, como los almacenados en el sistemas de administración
académica (U-Cursos de la Facultad de Ingeniería y Web Docencia de la Facultad de Economía), los
datos disponibles son suficientes para incorporar analítica en los procesos.
También se pueden incorporar modelos predictivos estables, ya que la data disponible posee un
62
formato estándar y la generación de nuevos atributos o cambios de formato son documentados por
los administradores de la información (DEMRE, MINEDUC, JUNAEB e información interna).
Dado que el Patrón de Negocio 1 puede ser llevado a cabo, se procede a mapear estas capacidades
en la Arquitectura de Procesos de Negocio, profundizando el estudio en macro 1 “Cadena de Valor”,
como lo indica este patrón de negocio 23 [1]. Como la Universidad de Chile posee diferentes niveles de
negocio (Administración Central, Facultades y Departamentos), su arquitectura debe ser presentada
bajo una Arquitectura de Procesos de Negocio Multinivel.
Actualmente la Universidad posee tres niveles de negocio, los cuales corresponden en el nivel superior
a la Administración Central (Rectoría y Vicerrectorías) que presta servicios de orientación, coordi-
nación, apoyo y desarrollo a la labor universitaria. En segundo nivel se encuentran las Facultades, las
cuales poseen como máxima autoridad el decano. Y en tercer nivel, se encuentran los departamentos,
los cuales materializan las actividades de investigación, extensión y educación. Dada esta estructura
organizacional, es que se deben diseñar los macroprocesos dentro de una arquitectura de negocio
multinivel (ver marco teórico sección 3.1.2 Patrones de Arquitectura y Procesos de Negocio). Como
se indica 3.1.2, uno de los factores clave de diseño para estas estructuras corresponde a definir:
1. Plan de Negocio
63
aprobadas por el Senado Universitario. A partir de esos planes y políticas centrales, cada fa-
cultad crea sus planes estratégicos de acuerdos a sus necesidades y se rige según las políticas
universitarias.
3. Compartir servicios
64
Figura 5.2: Arquitectura Multinivel, Universidad de Chile. Fuente: Elaboración propia.
65
Como se indicó anteriormente, para que el Patrón de Negocio 1 “Atención basada en el conocimiento
del estudiante” pueda ser llevado a cabo, se debe focalizar el estudio en Macro 3. En particular, en esta
tesis se centra el estudio en la Macro 3 de la Universidad de Chile, llamada “Gestión Centralizada”
(ver recuadro destacado 5.2).
Dentro del proceso “Administración de Relación con el Estudiante”, se encuentran los procesos de
66
“Atención Basada en el Conocimiento del Estudiante”, “Procesamiento de postulantes a beneficios”
y “Selección de Postulantes a Beneficios” (ver figura 5.4).
Recopilación de información de los postulantes por parte de las oficinas de bienestar de las
facultades. En este proceso los estudiantes completan la Ficha Social, la cual es elaborada por
la Dirección de Bienestar Estudiantil.
En base al puntaje obtenido en la ficha social, los programas de ayuda estudiantil establecidos
y a la planificación de asignación de beneficios se determina qué estudiantes deben recibir
beneficios.
67
Figura 5.4: Administración de la Relación con el Estudiante, Universidad de Chile. Fuente: Ela-
boración propia.
En este proceso se estudian qué modelos estadísticos y herramientas de visualización son útiles
para analizar la información. Si bien esto se realiza en la práctica, no existe un proceso formal
para evaluar las ventajas, desventajas y costos de las herramientas disponibles en el mercado.
En este proceso ingresa del mercado información de estudios y análisis sobre temáticas de
68
deserción universitaria, datos de alumnos en planillas excel desde DEMRE, JUNAEB, MINE-
DUC y el Departamento de Pregrado (notas de alumnos) y datos extraídos desde la Base de
Datos SUG de la universidad. Luego la información es analizada a través de herramientas de
visualización de datos que facilitan la visualización de tendencias, gráficos, tablas e indicadores,
y herramientas para realizar análisis estadísticos. Estos análisis se realizan cuidando en todo
momento los datos personales de los alumnos (ley 19.628 sobre protección a la vida privada) y
ateniéndose a los planes estratégicos establecidos por la Universidad de Chile, la Vicerrectoría
de Asuntos Comunitarios y Estudiantiles y la misma Dirección de Bienestar estudiantil. Como
resultado se obtienen los resultados de los análisis, una proyección de beneficios que deberán
ser asignados y registros de los análisis realizados.
A partir de los análisis descriptivos y estadísticos realizados sobre los alumnos, se evalúan los
programas vigentes para abordar las necesidades de los alumnos y se modifican o generan nue-
vos programas para abordar sus necesidades. Esto es realizado tanto por las personas a cargo de
realizar análisis estadísticos y personas expertas en el negocio. Para generar nuevos programas
se deben atener en todo momento a la ley 19.628 sobre protección a la vida privada, y deben
considerar los nuevos programas de becas y créditos generados por el gobierno, leyes vigentes
(como por ejemplo, ley sobre universidades estatales y ley sobre educación superior) y políticas
internas. Los nuevos programas generados deben contar con los requisitos para postular y es-
pecificaciones de montos, los cuales son enviados a a implementar a las direcciones de bienestar
de las facultades. Además se publica en la web Universidad de Chile los nuevos programas de
ayuda estudiantil disponibles y se responde a los requerimientos de información del Sistema
de Información de Educación Superior (SIES) y Ministerio de Educación (MINEDUC).
69
ya que la asignación de beneficios interna se realiza una vez que son asignados los beneficios
de MINEDUC y DEMRE (ej. Gratuidad y Beca Vocación Profesor).
Figura 5.5: Atención Basada en el Conocimiento del Estudiante, Universidad de Chile. Fuente:
Elaboración propia.
En este proceso ingresa del mercado información de estudios y análisis sobre temáticas de
deserción universitaria, datos de alumnos en planillas excel desde DEMRE, JUNAEB, MINE-
DUC y el Departamento de Pregrado (notas de alumnos) y datos extraídos desde la Base de
Datos SUG de la universidad, los cuales son consolidados en una única planilla excel. Además,
en caso de que los análisis descriptivos y estadísticas requieran de nueva información, se pre-
paran los nuevos datos para su incorporación. Estos se rigen en todo momento por la ley de
protección de datos 19.628 y ateniéndose a los planes estratégicos vigentes. El output de este
70
procesos son datos preparados para ser utilizados por herramientas de visualización y análisis
estadísticos.
En este proceso ingresan los datos preparados de los alumnos, para ser imputados en las
herramientas de visualización de datos y de análisis estadísticos. Como resultado se obtienen
los resultados de los análisis, una proyección de beneficios que deberán ser asignados y registros
de los análisis realizados.
A partir de la situación actual de los factores clave para el diseño de Arquitecturas Multinivel (que
corresponde a cómo distribuir el plan de negocio, cómo distribuir el desarrollo de nuevas capacidades
y a determinar qué servicios deben ser centralizados), se realizó el siguiente diagnóstico:
71
1. Plan de Negocio
No todas las facultades poseen la capacidad financiera para desarrollar nuevas capacidades,
existiendo grandes brechas de entre aquellas facultades que generan ingresos adicionales por
concepto de venta de bienes y servicios, y aquellas que se financian principalmente por aranceles
y aportes estatales . De esta manera, el desarrollo de capacidades de nivel central permite
a las facultades con escasos recursos recibir servicios de uso transversal a la universidad a
bajos costos de mantención, y nula o baja inversión. En este sentido, las facultades se ven
beneficiadas por parte de la Dirección de Bienestar Estudiantil al no tener que invertir en
generar capacidades que permitan brindar apoyo a sus estudiantes, ya que esta se encarga
de estudiar el cuerpo estudiantil para generar acciones, programas para su acompañamiento
y planificar la entrega de beneficios, mientras que las facultades se centran en procesar a los
postulantes a beneficios.
También resulta útil que las facultades mantengan su autonomía en el desarrollo de nuevas
capacidades para que así puedan abordar las necesidades específicas que requieren, las cuales
no pueden ser cubiertas por la administración central. A modo de ejemplo, una facultad puede
iniciar un proyecto para instalar nuevos instrumentos tecnológicos para soportar sus actividades
de laboratorio, lo cual requiere de conocimientos técnicos y de negocio específicos, necesitando
de asesoría externa para su implementación. De la misma forma aplica para la relación entre
72
la facultad y sus departamentos, dejando grados de autonomía dependiendo del desarrollo
alcanzado por estos, lo cual es y debe ser definido por las mismas facultades.
Ahora bien, debido a que se posee un esquema mixto para generar nuevas capacidades y a
que en la universidad no existe una política de gobierno de datos y administración de siste-
mas, cada departamento tienda a implementar herramientas tecnológicas según sus propias
necesidades generando múltiples bases de datos, y por ende, indicadores con diferencias en su
definición, formato y calidad. Además, al poseer los sistemas sus propios dueños, acceder a la
información se vuelve un proceso administrativo largo al tener que solicitar la información vía
formal previa justificación, y en el caso de darse el acceso, la información suministrada general-
mente se encuentra desactualizada por el tiempo requerido para su preparación y envío. Según
Davenport [11] este es un elemento clave que debe ser desarrollado en las organizaciones para
competir en base a analítica, indicando que “las iniciativas de analítica de relevancia para la
organización deben mantener un liderazgo, herramientas y tecnologías en común”.
3. Compartir Servicios
La configuración actual de prestación de servicio por parte de las vicerrectorías permite con-
centrar el conocimiento y experiencia adquirida en un solo lugar, manteniendo de esta forma
estándares de calidad de forma transversal en la universidad. Además, facilita que las facultades
puedan mantener el foco en realizar sus actividades académicas y de investigación.
Como se detallo anteriormente, debido a que la universidad posee un esquema mixto para ge-
nerar nuevas capacidades y que no se posee una política de gobierno de datos y administración
73
de sistemas, cada departamento tiende implementar sus propias herramientas tecnológicas se-
gún sus propias necesidades generando múltiples bases de datos no integradas e indicadores.
Es por ello que se requiere que ‘las iniciativas de analítica de relevancia para la organización
deben mantener un liderazgo, herramientas y tecnologías en común”.
Necesidad de informar a los alumnos los beneficios a los que son titulares
Se requiere informar a alumnos los beneficios que son titulares de forma proactiva, recomen-
dando programas que les pueden ser útiles a su situación. Para ello se requiere contar con
algoritmos predictivos lo suficientemente robustos que permitan detectar el riesgo de deser-
ción, para así saber a quienes dirigir las recomendaciones.
En cuanto a la dirección de bienestar, esta maneja datos de alumnos en planillas excel que
provienen desde DEMRE, JUNAEB, MINEDUC y el Departamento de Pregrado, además de
los datos que son extraídos desde la Base de Datos SUG de la universidad. Si bien estos datos
son suficientes para incorporar la analítica en los procesos, no permiten realizar un continuo
seguimiento de alumnos, ya que no se encuentran integrados. Además, existen fuentes de
información útiles para el seguimiento de alumnos, como los son los datos académicos U-
Cursos, U-Campus, Web Docencia y Sistema de Administración Docente, los cuales pueden
ser incorporados para una mejor caracterización de los alumnos. Es por ello que se requiere un
74
repositorio de información de alumnos que se mantenga actualizado en todo momento bajo un
formato, definición y calidad.
Economías de escala
Los costos de un alumno desertor corresponden a costos sociales y económicos. En términos sociales,
se produce un costo para el estudiante y/o su familia al tener que hacerse cargo de deudas que
pudiera haber adquirido al solicitar un crédito universitario. Ello sumado a que Chile es un país que
exhibe una alta desigualdad socioeconómica, donde sólo un 20 % de quienes postulan a la educación
75
superior provienen de familias con capacidad para financiar sus estudios [12] y que a que los ingresos
al no tener una carrera profesional en Chile se ven considerablemente disminuidos, genera un impacto
social enorme para al tener personas que deben hacerse cargo de financiar una deuda alta con bajos
ingresos.
Si bien la estimación de costos que genera la deserción universitaria considera costos sociales, de-
bido a la dificultad de contar con datos confiables que puedan representar de forma correcta los
costos sociales de un alumno desertor, se considerarán sólo los costos económicos que le genera a la
Universidad de Chile la deserción de alumnos.
Que los ingresos promedios por concepto de arancel que percibió la Universidad de Chile por
sus alumnos de primer año del cohorte 2017 fue de $3.914.092 2 .
Que la tasa de deserción institucional de alumnos de primer año en 2017 fue de un 13 % (828
alumnos).
Que la tasa de deserción se ha mantenido estable en la Universidad de Chile entre los años
2011 y 2017 4 .
Dado lo anterior, se tiene la universidad percibe $17.046.891 por cada alumno que se mantiene dentro
de la institución durante toda su carrera.
Considerando que el total de alumnos de primer año desertores del cohorte 2017 fueron 828 alumnos,
se tiene que para dicho año se tuvo un costo anual por concepto de deserción de $ 3.240 millones.
Considerando además que la deserción se ha mantenido estable entre 2011 y 2017, se puede estimar
que cada año le cuesta a la universidad $ 3.240 millones anuales por concepto de alumnos desertores
de primer año.
2
Fuente: Sistema de administración de alumnos Universidad de Chile “Guía Matrícula”
3
Base de datos “Duración real y sobreduración de las carreras 2017” SIES. Si bien se indica que la duración real
para universidades en carreras de pregrado para 2016 es de 12,5 semestres, se consideraron para 2017 12 semestres (6
años) debido a que en esta misma base de datos se indica que la duración de las carreras va a la baja, disminuyendo
para universidades 0,2 semestres entre 2012 y 2016.
4
http://web.uchile.cl/archivos/anuario/2017/38/
76
Capítulo 6
En este capítulo se presentan las direcciones de cambio y alcance del rediseño, los cambios requeridos
en los procesos de la Universidad de Chile, las tecnologías necesarias para el rediseño y la aplicación
de minería de datos para predecir la deserción de alumnos.
Variables de
Actual Propuesto
Diseño
a.1 Servicio
Conocer mejor las necesidades de alumnos me-
Integral Sí
diante técnicas de minería de datos
al cliente
a.2 Lock-in
No No
sistémico
77
a.3 Integración
No No
con proveedores
Se propone unificar los esfuerzos de la Vicerrec-
torías de Asuntos Estudiantiles y Comunitarios
(VAEC) y la Vicerrectoría de Asuntos Acadé-
micos (VAA), con el objetivo de concentrar el
conocimiento de la nueva capacidad de minería
de datos en un único lugar y generar economías
de escala para mantenerla. Según Barros, esto
Operación entre Vi- “requiere diseñar las interrelaciones entre cadenas
a.4 Estructura cerrectorías de forma de valor y los procesos de servicio” [1], que en este
interna: independiente. caso, corresponde a diseñar las interrelaciones de
centralizada o cadenas de valor y procesos de servicio de ambas
descentralizada. Sistemas y bases de Vicerrectorías.
datos dependen de cada
organismo. En la nueva situación, las bases de datos si-
guen dependiendo de cada organismo, pero
bajo un esquema de gobierno de datos y de
sistemas, ya que como indica Davenport, “las
organizaciones que han tenido éxito en la imple-
mentación de analítica, mantienen sus iniciativas
bajo un liderazgo, herramientas y tecnologías en
común”[11].
a.5 Toma de
Toma de decisiones in- VAEC y VAA toman decisiones de forma indepen-
decisiones:
dependiente por Vice- diente previa coordinación en temáticas de analí-
Centralizada o
rrectoría tica.
descentralizada
78
b. Anticipación
Variables de
Actual Propuesto
Diseño
Proyección de alumnos que re-
querirán ayuda socioeconómica,
A lo anterior, se añade la predicción de
considerando aumentos de ma-
b.1 Planificación alumnos desertores que permitirá dirigir
trícula, nuevos cupos especiales
las ayudas estudiantiles.
y aumentos de financiamiento es-
tudiantil.
Modelo basado en técnicas de minería
b.2 Modelo pre-
de datos que determinan el riesgo de un
dictivo de reten- No
alumno de desertar para decidir asigna-
ción de alumnos
ción de beneficio.
c. Coordinación
Variables de
Actual Propuesto
Diseño
Se agregará a la Ficha Social el riesgo
Actualmente se decide brindar un
de deserción, el cual permitirá priori-
beneficio de ayuda estudiantil en
c.1 Reglas zar la entrega de beneficios a aquellos
base a puntajes obtenidos en la Fi-
alumnos que posean un alto riesgo de
cha Social.
desertar.
79
En caso de necesidad de ayuda crítica
del estudiante, se mantendrá el meca-
nismo de ayuda estudiantil del Progra-
Programa de Emergencia para la
c.2 Jerarquía ma de Emergencia para la Retención, el
Retención
cual consiste en una ayuda económica
para alumnos que posean una situación
de emergencia.
Se añade el compartir los resultados de
Compartir información y experien- análisis predictivos en las instancias de
cia con otros departamentos para colaboración para así nutrir la discusión
C.3 Colaboración
generar programas de retención de de que programas crear para la reten-
estudiantes. ción de alumnos en base a los resultados
de los algoritmos de minería de datos.
Estudios sobre alumnos son lleva- Mantener capacidad de minería de da-
C.4 Partición dos a cabo por cada departamento tos con otros departamentos que traba-
de forma independiente jen atendiendo necesidades de alumnos.
d. Prácticas de Trabajo
Variables de
Actual Propuesto
Diseño
Semi-Automatizada. Los algoritmos de
minería de datos detectan a alumnos
con alto riesgo de deserción, generán-
d.1 Lógica de
dose como output un listado de alum-
Negocio automa-
No automatizada nos en riesgo de desertar. Este listado
tizada o semi-
es entregado a encargados de bienes-
automatizada
tar de facultades, para que contacten
al alumno para poder evaluar sus nece-
sidades y decidir un curso de acción.
80
Presentación de resultados de modelos
de minería de datos. Consiste en pre-
d.2 Lógica de apo-
Presentación de resultados análisis sentar a los directivos los resultados de
yo a actividades
estadísticos los algoritmos para predecir la deser-
tácitas.
ción, detallando beneficios y precisión
de los modelos.
Se comunica a asistentes sociales la Además de lo anterior, se comunica a
d.3 Procedimien-
información que deben solicitar a asistentes sociales los alumnos que se
tos de comunica-
los alumnos para luego asignar los encuentran en riesgo de desertar para
ción e integración.
beneficios de forma centralizada. su contacto y evaluación.
d.4 Lógica y
procedimientos Se mide desempeño según la precisión
de medición de No de los modelos en evitar la deserción de
desempeño y alumnos.
control.
Variables de
Actual Propuesto
Diseño
e.1 Proceso aisla-
Sí No
do
Los procesos de la cadena de valor (in-
troducción de nuevos análisis y mode-
e.2 Todos o la
los, analizar compartiento y segmenta-
mayor parte de
No ción de estudiantes, definir programas
los procesos de un
de ayuda estudiantil y planificar asig-
macroproceso
nación de beneficios) se encuentra inte-
grados.
81
Integración entre cadena de valor, gene-
e.3 Dos o más ma-
No ración de nuevas capacidades y planes
cros interactúan
estratégicos.
f. Mantención de Estado
Variables de
Actual Propuesto
Diseño
82
Atención basada en el conocimiento del estudiante
Este proceso se rediseña ya que las asistentes sociales de las facultades, además de recopilación
de información de los postulantes, se encargarán de otorgar recomendaciones de becas (en base
a los análisis) de forma proactiva a aquellos alumnos que posean un alto riesgo de desertar.
83
Figura 6.1: Rediseño Administración de la Relación con el Estudiante, Universidad de Chile.
Fuente: Elaboración propia.
Aperturando el proceso “Atención basada en el conocimiento del estudiante” (ver figura 6.2), se
encuentran los procesos “Introducción de nuevos análisis y modelos”, “Analizar comportamiento y
segmentación de estudiantes”, “Definir programas de ayuda estudiantil” y “Planificar asignación de
beneficios”. Los modelos de minería de datos para predecir la deserción son incorporados dentro
de “Analizar comportamiento y segmentación de estudiantes”, mientras que “Definir programas de
ayuda estudiantil” y “Planificar asignación de beneficios” incorporan los outputs de los modelos de
minería de datos para la elaboración de los respectivos programas y planificación de asignación de
beneficios.
84
Analizar comportamiento y segmentación de estudiantes
Este es un proceso que actualmente no existe en la organización y uno de los más relevantes para
generar la nueva capacidad de retener a alumnos en riesgo de deserción mediante minería de
datos. Este incluye recopilar, ordenar y transformar los datos, segmentar a alumnos mediante
algoritmos de clusterización y predecir la deserción de alumnos.
85
Figura 6.2: Rediseño Atención Basada en el Conocimiento del Estudiante, Universidad de Chile.
Fuente: Elaboración propia.
El primer paso de este proceso es preparar los datos en el Data Mart de Alumnos. Para ello, se
deben extraer datos de alumnos de sistemas internos y externos, y cargarlos en el Data Staging Area
(DSA), el cual corresponde a un repositorio de datos preliminar antes de cargar los datos en el Data
Mart. Luego, se corren scripts de limpieza y se escogen las variables que serán cargadas en el Data
Mart, mediante un un proceso de Extract (Extraer), Transform (Transformar) and Load (Cargar)
(ETL). Se irán realizando ajustes a los datos a medida que el negocio vaya vaya requiriendo la carga
de datos de otras fuentes de información, construir nuevas variables o actualizar las ya existentes.
86
Luego se procede a probar diferentes algoritmos de minería de datos, ya sean estos predictivos o de
clusterización, hasta llegar a resultados deseables y seleccionar uno de los modelos.
Con el modelo seleccionado, se pone en práctica los algoritmos predictivos, a partir de los cuales se
definen nuevos programas de ayuda estudiantil, se planifica la asignación de beneficios, se contacta
a aquellos estudiantes con alto riesgo de desertar y se complementa la ficha social al momento de
decidir a qué postulantes se deberán asignar los beneficios.
Todas estas actividades van enmarcadas dentro de la metodología de CRISP-DM, donde se debe
definir el problema a resolver, preparar los datos, modelar con diferentes algoritmos, evaluar los
resultados y decidir la puesta en marcha.
87
Si bien las actividades figuran en un orden lineal en el diagrama, en la práctica corresponde a un
proceso iterativo, partiendo por determinar el problema de negocio a resolver, para luego comprender
los datos que se poseen disponibles, preparar los datos, entrenar los modelos de minería de datos,
evaluar los resultados y puesta en marcha.
La muestra utilizada corresponde a los alumnos de primer año del cohorte 2017 que rindieron la
PSU 1 , los cuales corresponden a 6.254 alumnos, es decir, el 95 % del total de alumnos de primer
año del cohorte 2017.
RapidMiner: Software de minería de datos. Este fue utilizado para preparar los datos, correr
los modelos predictivos y aplicar las diferentes técnicas de minería de datos (validación cruzada,
balanceo de datos, ajustes de parámetros, entre otros).
Stata: Software estadístico. Se utilizó para aplicar el algoritmo de selección de variables For-
ward Selection and Backward Elimination, determinar la normalidad de la distribución de las
1
El motivo de seleccionar los registros de alumnos que hayan rendido la PSU, es que esta variable tiene un alto
poder predictor de deserción en alumnos, siendo esta estadísticamente significativa bajo modelos de regresión logística.
Considerar a los alumnos que no rindieron la PSU para entrar a la universidad (alumnos extranjeros principalmente),
significaría realizar reemplazo de los valores faltantes por algún método de reemplazo aleatorio, lo cual no aseguraría
contar con datos confiables al momento de correr los modelos. Es por ello que en este estudio se opta por trabajar la
muestra de primer año sólo de alumnos que hayan rendido la PSU, dejando para futuros trabajos incluir el estudio de
alumnos que no hayan rendido la PSU. Se destaca que los programas que buscan equidad en el acceso como SIPEE,
BEA, PACE, entre otras, se mantienen dentro del estudio, ya que estos poseen dentro de sus requisitos mínimos haber
rendido la PSU.
88
variables de tipo real y entera, y para aplicar test de hipótesis (chi-cuadrado y test de medias)
en el análisis exploratorio.
En esta sección se identifican las fuentes datos de alumnos con sus respectivos métodos de extracción,
descripción de las variables, tratamiento de datos faltantes, construcción de nuevas variables y aná-
lisis exploratorios (gráficos, correlaciones, distribución de variables y análisis estadísticos simples).
Este proceso si bien tiene un orden de lógico para su realización, en la práctica es un proceso iterativo
donde a medida que se va obteniendo un mayor conocimiento de los datos, se van seleccionando,
modificando o creando variables para ser utilizadas en los modelos.
Las bases de datos utilizadas para la realización de este estudio provienen tanto de bases de datos
internas como de bases de datos externas que son entregadas directamente a la DBE. En la tabla 6.7
se detalla las instituciones del estado que entregan información a la DBE (JUNAEB y MINEDUC)
y el organismo de la Universidad de Chile que se encuentra a cargo de realizar el proceso PSU
(DEMRE).
Institución Descripción
El Departamento de Evaluación, Medición y Registro Educacional (DEMRE)
DEMRE es un organismo de la U. de Chile que se encarga de desarrollar, analizar y
publicar los resultados del proceso PSU.
La Junta Nacional de Auxilio Escolar y Becas (JUNAEB) es un organismo
JUNAEB estatal que se encarga de evaluar y entregar becas de mantención a escolares
y universitarios.
El Ministerio de Educación (MINEDUC) es un organismo estatal, que dentro
MINEDUC de sus actividades, se encarga de evaluar y entregar becas de arancel, créditos
universitarios y el beneficio de gratuidad a universitarios.
89
En la tabla 6.8 se detallan las bases de datos que fueron utilizadas indicando la fuente, datos
utilizados y método de extracción.
Fuente Descripción
Sistema interno que contiene información académica y financiera de los es-
tudiantes y ex-alumnos de la universidad. La información de este sistema es
almacenada en la base de datos denominada "SUG". A través de una consul-
ta a la base de datos se extrajeron las variables región, nacionalidad, carrera,
Guía facultad, procedencia educacional, vía de ingreso, tramo socio-económico,
Curricular situación académica de la carrera y rut de los alumnos de primer año del
cohorte 2017 y de enero a mayo de 2018. Además se extrajo la columna rut
y situación académica de los alumnos de los cohortes 2011 a 2016, con el
objetivo de identificar a aquellos alumnos que cursaron otra carrera en la
universidad sin haberla completado.
Formulario interno que debe ser completado por los alumnos que postulan a
los beneficios estudiantiles internos de la Universidad de Chile. De este for-
mulario se extrajeron las variables enfermedad catastrófica, enfermedad per-
manente, enfermedad crónica, número de dormitorios, número de integrantes
hogar, nivel educación jefe de hogar, nivel educación madre, asignación y
Ficha Social
montos de becas de arancel, asignación y montos de becas de mantención
internas de los alumnos de primer año del cohorte 2017. Se utilizó sólo la in-
formación de los registros con estado “cerrada”, ya que este estado indica que
la información presentada fue acreditada por el alumno con los encargados
de bienestar de su facultad.
Se utilizaron las variables de Puntaje PSU, Ranking y NEM del cohorte 2017.
Resultados
Esta información es enviada a la DBE por el DEMRE en diciembre de cada
proceso PSU
año
90
Becas de aran- Se utilizaron las becas, créditos (Crédito con Aval del Estado y Fondo Soli-
cel, créditos y dario de Crédito Universitario) y gratuidad asignada por el MINEDUC a los
gratuidad Es- alumnos de primer año del cohorte 2017. Esta información es enviada a la
tatales DBE en marzo de cada año.
Becas de Se utilizaron las asignaciones de becas de mantención asignadas a los alumnos
Mantención por parte de la JUNAEB a los alumnos de primer año del cohorte 2017. Esta
Estatales información es enviada a la DBE en marzo de cada año.
Se extrajo el índice de vulnerabilidad escolar de enseñanza media de colegios
Índice de
municipales y subvencionados, exceptuando a los colegios particulares, ya
Vulnerabilidad
que estos no son clasificados bajo el IVE. Esta información es de carácter
Escolar (IVE)
público y se descarga directamente de la web de JUNAEB.
En esta sección se describen aspectos relevantes de las variables que serán utilizadas en el proceso
de minería de datos.
Valores
Nombre Tipo
Faltantes
Región Categórica 0
Sexo Binaria 0
Nacionalidad Binaria 0
Carrera Categórica 0
91
Índice de Vulnerabilidad Escolar (IVE) Real 2.005
Para ver los valores de cada variable y fuente de información ver anexo Detalle atributos Guía
Matrícula e Índice de Vulnerabilidad Escolar (IVE).
2. Créditos MINEDUC
Durante el año 2017 se entregaron 2 créditos universitarios por parte del MINEDUC, los cuales
corresponde al Crédito con Aval del Estado (CAE) y Fondo Solidario de Crédito Universitario
(FSCU). Con estos créditos fueron beneficiados 924 alumnos con CAE y 287 con FSCU. Estas
dos variables son de tipo binario y no poseen registros con valores faltantes. Para mayor detalle
ver anexo Créditos Universitarios.
92
para la Educación Superior (JUNAEB) con un total de 2.951 alumnos. Le sigue la Beca de
Atención Económica (U. de Chile) con 2.576 beneficiados. Se observa un gasto total en becas
internas de la Universidad de Chile de $505 millones. Todas las variables de mantención son
de tipo binaria y no poseen registros con valores faltantes. Para mayor detalle ver anexo Becas
de Mantención Internas y Externas.
5. DEMRE
En esta sección se indica como se trataron los datos faltantes de cada una de las variables. Para ello
se utilizaron reglas para reemplazo de valores, construcción de nuevas variables y categorización de
variables continuas.
Las variables región y sexo en un inicio poseían valores faltantes, los cuales fueron completados de
forma manual utilizando las columnas de ciudad de origen y nombre del alumno.
En tanto que los valores faltantes de las variables Procedencia Educacional, Puntaje PSU Matemáti-
cas, Lenguaje, Ciencias e Historia, e Índice de Vulnerabilidad Escolar (IVE) se trabajaron como se
detalla continuación:
Procedencia Educacional
Se reemplazaron los 29 datos faltantes de forma aleatoria entre colegio particular, subvencio-
nado y municipal, manteniendo las probabilidades de ocurrencia de acuerdo a la proporción
de cada una en la muestra (30,8 %;40,7 % y 28,6 % respectivamente).
93
PSU Matemáticas, Lenguaje, Ciencias e Historia, Ranking y NEM
441 de un total de 6.254 alumnos de la muestra en estudio (7,1 %), ingresaron a una carrera
utilizando el puntaje PSU que obtuvieron el año anterior (ver valores faltantes Puntaje Mate-
máticas y Lenguaje Actual en anexo Resultados proceso PSU). Esto es permitido ya que la
prueba de selección universitaria posee una duración de dos años de validez para postular a
las distintas carreras 2 . Dado este hecho, se construyó a partir de las variables PSU Actual
y Anterior de cada rama (Matemáticas, Lenguaje, Ciencias e Historia) las variables binarias
“PSU Final” de cada una de ellas (ver tabla 6.10).
Missing
Nombre Tipo Valores Fuente
Values
En la tabla 6.10 se visualiza que la PSU de Ciencias e Historia siguen manteniendo un alto
porcentaje de datos faltantes (31 % y 44 % respectivamente). Esto se debe a que estas pruebas
son de carácter optativo (el alumno debe escoger al menos una ellas, a diferencia de las pruebas
de Lenguaje y Matemáticas, que son obligatorias). Una opción es reemplazar los valores de
las PSU de Ciencias e Historia con valores aleatorios pero este podría generar errores en los
modelos debido a la gran cantidad de datos faltantes. Dado lo anterior y a que se cuenta con
predictores relacionados más robusto en comparación (PSU de Lenguaje y Matemáticas), no
se considerarán estas variables en el estudio.
El valor faltante de la variable PSU Lenguaje Final (ver tabla 6.10) fue reemplazado por el
valor promedio de la misma variable, el cual corresponde a 661 puntos.
Para evitar efectos de multicolinealidad en los modelos, se descarta la variable Puntaje NEM,
2
http://www.psu.demre.cl/postulacion/como-postulo-a-una-universidad/uso-puntajepsu-admision-consecutivo
94
ya que se encuentra directamente relacionada a la construcción de la variable Puntaje Ranking
(ver Anexo Puntaje Ranking).
1. IVE (1): Reemplazo de missing values por valores aleatorios entre 0 y 13 %, dando como
resultado una variable de tipo real (se utiliza el supuesto de que los colegios pagados en Chile
poseen un menor porcentaje de alumnos vulnerables en comparación a colegios subvencionados
y municipales, y dado que el porcentaje mínimo de IVE de estos colegios obtenidos en la
muestra corresponde a un 13 % (ver tabla 6.11), se utiliza esta cota).
Missing
Nombre Tipo Valores Fuente
Values
95
El motivo de utilizar estos dos métodos, es utilizar la variable de tipo real en modelos de
clusterización que utilicen la distancia euclidiana como medida de separación, y utilizar la
variable categórica en métodos de clusterización basados en similitud.
Luego del reemplazo de los datos faltantes, se procedió a construir las siguientes variables:
1. Deserción: Variable binaria construida a partir de la situación académica del alumno la cual
toma valor 1 si el alumno es un desertor de la Universidad de Chile y 0 si no.
4. Nivel de educación familiar: Variable categórica construida a partir de las variables nivel
educacional jefe de hogar y nivel educacional de la madre, la cual posee valores básica, media
completa, técnico completa y universitaria completa.
5. Región: Variable categórica que agrupa la región de origen del alumno en alumnos provenien-
tes de la Región Metropolitana (RM), Región de Valparaíso y Bernardo O’Higgins, y otras
regiones.
6. Carrera año anterior: Variable binaria construida a partir de datos históricos de alumnos
de los años 2011 a 2016, donde se corroboró si los alumnos de primer año del cohorte 2017
habían pertenecido a otra carrera de la universidad sin haberla terminado, tomando valor 1 si
el alumno posee una carrera no terminada anterior, y 0 si no.
7. CAE-FSCU: Variable binaria construida a partir de las variables CAE y FSCU, donde si el
alumno posee ambas becas la variable toma valor 1, y 0 de lo contrario.
96
8. Becas de Arancel Tipo I: Corresponde a becas que exigen haber tenido un promedio de
PSU en Matemáticas y Lenguaje de al menos 700 puntos, NEM superior a 6,0 o pertenecer al
10 % con resultados más altos de su establecimiento. Si el alumno posee Beca Universidad de
Chile, Andrés Bello, Puntaje PSU o Excelencia Académica, esta variable toma valor 1. De lo
contrario, toma valor 0.
9. Becas de Arancel Tipo II: Corresponde a becas que exigen un promedio de PSU en Mate-
máticas y Lenguaje de al menos 500 puntos y NEM 5,5. Si el alumno posee beca Bicentenario,
Beca Hijo de Profesionales de Educación, Becas las Condes o Reparación Valech toma valor 1.
De lo contrario, toma valor 0.
10. Porcentaje de cobertura créditos: Variable real que indica el porcentaje de arancel cubierto
por créditos.
11. Porcentaje de cobertura becas: Variable real que indica el porcentaje de arancel cubierto
por becas.
12. Beca de residencia: Variable binaria que identifica si el alumno posee una beca de residencia.
Toma valor 1 si el alumno posee Beca de Residencia Interna, Beca de Residencia Sistema
Prioritario de Equidad Educativa (SIPEE) u Hogares Universitarios. De lo contrario, toma
valor 0.
13. Beca de libre disposición y de alimentación: Variable binaria que identifica si el alumno
posee una beca de mantención para cubrir gastos de transporte, alimentación u otros que
pudiera requerir el alumno para el desarrollo de sus estudios. Si el alumno posee Beca de
Atención Económica (BAE), Beca de Alimentación para la Educación Superior (BAES), Beca
de Mantención Educación Superior (BMES), Beca de Mantención Vocación del Profesor o Beca
Presidente del a República, toma valor 1. De lo contrario, toma valor 0.
14. Beca de pueblos originarios: Variable binaria que identifica si el alumno posee becas des-
tinadas a inclusión indígena. Si el alumno posee Beca Indígena o Beca Residencia Indígena,
toma valor 1. De lo contrario, toma valor 0.
15. Beca de integración territorial: Variable binaria que identifica si alumnos de zonas ex-
tremas del país poseen becas para cubrir gastos de viajes u otros que pudieran requerir. Si
97
el alumno posee Beca Integración Territorial o Beca Patagonia Aysén, toma valor 1. De lo
contrario, toma valor 0.
El detalle de los motivos y métodos de construcción de cada una de estas se detallan en el anexo
Creación de Nuevas Variables.
Ciertos modelos y algoritmos requieren que sus variables distribuyan como una normal y sean si-
métricas. En el caso de de la regresión logística, se requiere que las variables numéricas distribuyan
como una normal, y si no lo son, que al menos sean simétricas [3]. En el caso de los algoritmos de
clusterización basados en la distancia euclidiana, se requiere que las distancias estén medidas bajo
el mismo estándar de medición, ya que de lo contrario la aglomeración de los datos puede verse
afectada. Por ejemplo, las escalas de “Cobertura Arancel”, la cual varía entre 0 y 1, y la variable
“PSU Matemáticas Final”, la cual varía entre 264 a 850, deben ser estandarizadas para alcanzar
resultados correctos con métodos de clusterización.
Para normalizar las variables numéricas se puede recurrir a transformaciones según la distribución
presentada por la variable. En el caso de variables que posean un sesgo o una “cola” hacia la izquierda
√
(left skewness), se recomienda utilizar transformaciones del tipo cuadrática (x2 ) , raíz cúbica ( 3 x) o
logarítmica (log(x)). Para distribuciones con un sesgo o “cola” hacia la derecha (right skewness), se
√ √
recomienda utilizar transformaciones del tipo raíz cuadrática ( x) , raíz cúbica ( 3 x) o logarítmica
(log(x)) 3 .
Se obtuvo como resultado que las variables PSU Matemática Final, PSU Lenguaje Final y Puntaje
Ranking distribuyen como una normal.
La variable Puntaje IVE no distribuye como una normal, pero aplicando una transformación raíz
cúbica logra cumplir con los criterios de normalidad. Pese a ello se utilizará por preferencia su versión
categórica (IVE 2) para obtener resultados más robustos.
Las variables Porcentaje Cobertura Crédito y Porcentaje Cobertura Arancel fueron descartadas del
3
https://medium.com/@TheDataGyan/day-8-data-transformation-skewness-normalization-and-much-more-
4c144d370e55
98
estudio por no cumplir requisitos de normalidad y por poseer una mejor representación a través de
variables binarias.
Las variables PSU Lenguaje, PSU Matemáticas, PSU Ranking e IVE (1) fueron estandarizadas con
una distribución normal de media 0 y varianza 1 (N (0, 1)) .
El detalle de los análisis de cada una de las variables se encuentra en el anexo Distribución de
Variables.
Se utilizó el análisis de correlación para explorar la relación entre las variables predictoras con la
variables predecida (deserción) y entre variables predictoras. Esta es una herramienta que permite
simplificar el análisis exploratorio, ya que permite focalizar el estudio en aquellas variables que
se encuentren más correlacionadas, en vez de realizar contrastes con cada uno de los atributos,
recordando que se trata sólo de análisis exploratorio, no indicando una relevancia estadística con
deserción.
La correlación es de tipo real, varía entre -1 y 1, y opera sólo con variables de tipo real y binarias
(no categóricas). Una correlación positiva significa que a medida que una variable aumenta su valor,
la otra también aumenta. En tanto que una correlación negativa, significa que a medida que una
variable aumenta su valor, la otra la disminuye.
Las variables que estuvieron más correlacionadas con la variable deserción institucional fueron:
99
Tabla 6.12: Correlación con variable deserción
Variable Correlación
CAE -0.058
Para determinar si existe asociación entre la variable CAE y deserción, se aplicó un test
de Pearson chi-cuadrado en stata (chi2). El resultado fue que la variable CAE se relaciona
con deserción de forma estadísticamente significativa (p=0.000). Lo mismo se aplicó para
Carrera Anterior No Terminada y CAE FSCU, dando como resultado que estos se encuentran
relacionados de forma estadísticamente significativa (p=0.002 y p=0.010 respectivamente).
Como todas estas variables poseen una correlación negativa con deserción (ver tabla 6.12) y
se encuentran además relacionadas con deserción de forma estadísticamente significativa, se
puede decir que alumnos con CAE, que provengan de una carrera anterior de la universidad
o que posean la combinación de créditos CAE- FSCU desertan en menor proporción. Las
proporciones de cada una de estas variables se detallan en las figuras 6.4, 6.5 y 6.6.
100
Figura 6.4: CAE y Deserción. Fuente: Elaboración propia.
101
Figura 6.6: CAE-FSCU y Deserción. Fuente: Elaboración propia.
102
• Gratuidad y Becas de Libre Disposición y Alimentación
Estas variables se encuentran fuertemente correlacionadas (0.75) debido a que todos los
alumnos que poseen gratuidad reciben por parte de la universidad la beca de mantención
BAE, siendo esta beca representativa dentro de los alumnos con becas de libre disposición
y alimentación (2.555 de 3.446 alumnos, es decir, el 74 % de alumnos con becas de libre
disposición y alimentación).
Estas variables se encuentran correlacionadas debido a que estos beneficios son asignados
a estudiantes de contextos vulnerables.
Para hacer la selección se utilizó el método de Forward Selection and Backward Elimination (ver
sección Método de selección de variables Forward Selection and Backward Elimination). La herra-
mienta utilizada fue la función stepwise logistic de Stata (stepwise pr(.20) pe(.10): logistic) 4 . En
esta función pr corresponde al nivel de significancia por el cual se elimina una variable, pe el nivel
de significancia para agregar una variable al modelo y logistic el modelo utilizado. Este método
seleccionó a las siguientes variables:
4
https://www.stata.com/manuals13/rstepwise.pdf
103
Tabla 6.14: Variables seleccionadas por método Forward and Backward Elimination
Variable Tipo
3. Tramo Categórica
4. Región Categórica
6. Carrera Categórica
8. CAE-FSCU Binaria
9. Gratuidad Binaria
Es importante en este punto rescatar que variables que por intuición podría decirse que influyen
en la deserción universitaria, como nivel de hacinamiento, nivel de educación de los padres o la
presencia de una enfermedad crónica o permanente en la familia, no fueron seleccionados por este
modelo. Esto se corroboró con análisis estadísticos aislados (chi-cuadrado) obteniendo que estas no
son estadísticamente significativas.
El análisis de cluster se realizó con el método de X means y DBSCAN, considerando sólo las variables
seleccionadas por el método de Forward Selection and Backward Elimination. Cómo estos métodos
se basan en la medida de distancia para aglomerar las entidades, se separó el estudio en dos grupos:
1. Estudio de variables reales: Estudios de variables IVE(1), PSU Matemáticas Final y Len-
guaje Final utilizando la distancia euclidiana.
104
utilizando la distancia nominal de Rapidminer, la cual toma valor 0 si dos strings son iguales,
y 1 si no.
Los cluster generados con la variable X-Mean no fueron significativos, debido a que se detectaron
dos clusters con tasas de deserción institucional equivalentes a la muestra (13 %).
En tanto que el método DBSCAN generó cuatro clusters, los cuales se observan en la figura 6.7.
En cuanto a los desertores de cada cluster, se puede apreciar en la imagen 6.8 que hay una mayor
concentración de alumnos que deserta en el cluster 1.
105
Figura 6.8: DBSCAN - Desertores. Fuente: Elaboración propia.
Empíricamente, el cluster 1 (ubicado en la zona superior de la figura 6.8) deserta un 13,4 % (357
alumnos) y en tanto que en el cluster 2 (ubicado en la zona inferior de la misma figura) un 11,8 %
(65 alumnos), comprobando que la tasa de deserción de alumnos de cluster 1 es mayor que el cluster
2. Es por ello que las etiquetas generadas por estos cluster fueron incorporadas como variables.
Posteriormente se incluyeron dentro del set de variables seleccionadas por el método de Forward
Selection and Backward Elimination, pero esta variable no fue seleccionada por el algoritmo, siendo
descartada para predecir la deserción.
Para ver más detalles del proceso de clusterización con variables reales ver anexo Proceso clusteri-
zación con variables reales.
Utilizando la distancia nominal entre variables categóricas con el algoritmo X-means se obtuvieron
4 clusters, pero los resultados fueron descartados del estudio al contar con clusters correlaciones un
100 % con tener Beca Vocación Profesor, Gratuidad y CAE, no agregando valor a las variables ya
existentes.
106
Mientras con el algoritmo DBSCAN se encontraron 2 clusters:
Cluster 1: 1.996 registros. Corresponde a alumnos que poseen ingresos económicos bajos (tramo
40 y 50) y Gratuidad. Más del 40 % de los alumnos de las carreras de Medicina, Ingeniería
Comercial e Ingeniería y Ciencias Plan Común pertenecen a este cluster. No posee diferencias
relevantes con respecto a región.
Cluster 2: 1.857 registros. Corresponde a alumnos que poseen ingresos económicos altos (tra-
mo 90, 100 y sin calificación económica principalmente) y CAE. No poseen gratuidad. Más
del 40 % de los alumnos de las carreras de Administración Pública, Bioquímica, Fonoaudiolo-
gía, Geografía, Ingeniería Forestal, Kinesiología, Medicina Veterinaria, Nutrición y Dietética,
Obstetricia y Puericultura, Pedagogía en Educación Parvularia, Química y Farmacia, Terapia
Ocupacional y Trabajo Social pertenecen a este cluster. No posee diferencias relevantes con
respecto a región.
De la misma forma que anterior análisis, estos cluster pueden ser nombrados como “alumnos vulne-
rables"(cluster 1) mientras que el cluster 2 como “alumnos no vulnerables". De la misma manera que
los clusters de tipo real, se creó una variable que identifica a los alumnos que pertencen a cada uno
de los cluster. Aplicando el algoritmos de Forward Selection and Backward Elimination, y al igual
que el cluster generado con variables reales, esta fue descartada como una variable significativa para
predecir la deserción.
Una vez realizado el análisis de cluster, se procede a realizar los análisis predictivos, el cual incor-
pora diferentes aspectos de minería de datos. El detalle de cada uno de estos aspectos se detalla a
continuación:
Variables
Se consideraron todas las variables seleccionadas con el método de Forward Selection and
Backward Elimination (ver tabla 6.14).
107
Cross Validation
Para evitar el sobreajuste de los modelos, se utilizó una partición de datos según el método de
Validación Cruzada con k=10, es decir, se considerará como set de entrenamiento el 90 % de
los datos y el 10 % como set de evaluación.
Balanceo de Datos
Los algoritmos de Árboles de Decisión y Random Forest son sensibles a datos desbalanceados.
En este caso, como deserción corresponde sólo al 13 % de la muestra, se requiere un balanceo
de los datos para que el modelo no sobreestime la clase dominante. De esta forma, con la herra-
mienta "sample"de rapidminer, se iguala la proporción de registros desertores y no desertores
(828 desertores y 828 no desertores). Este operador debe se incluyó en el set de entrenamiento
de Validación Cruzada.
Como los modelos de Árboles de Decisión y Random Forest poseen muchos parámetros que
deben ser ajustados, se utilizó la herramienta de Optimize Parameters de Rapidminer, el cual
permite obtener una grilla con los resultados del modelo utilizando los diferentes combinaciones
de los parámetros. Por ejemplo, si para un tipo de árbol de decisión se definen 3 tamaños dife-
rentes de “minimal size for split” y 4 tamaños diferentes de “minimal leaf size”, la herramienta
arrojará una grilla con 3 ∗ 4 = 12 resultados diferentes. Se fueron ajustando los parámetros
según las combinaciones de parámetros que poseían un mejor performance hasta llegar a un
nivel donde el modelo sólo mejora marginalmente los resultados (menores a 1 %).
AUC
Una escogido la mejor combinación de parámetros, se escogió el modelo con los parámetros
que poseían un mayor AUC.
Matriz de confusión/umbrales
Una vez ajustado los parámetros a los modelos que poseen un mayor AUC, se calcularon los
valores de matriz de confusión (VP,VN,FP,FN) para cada modelo según 11 umbrales diferen-
tes: 0; 0, 1; 0, 2; . . . ; 0, 9; 1. Un umbral permite definir cuando una predicción será considerada
positiva o negativa, utilizando la siguiente regla:
108
valor predicción < umbral =⇒ valor predicción = 0
Los errores de clasificación de los modelos corresponde a error tipo I y tipo II. Cada uno de
estos posee asociados los siguientes costos:
Este error corresponde a predecir que un alumno desertará cuando en realidad no lo hará.
El costo promedio anual de asignar un beneficio a un alumno por parte de la Universidad
de Chile corresponde a $700.000 (considerando sólo becas de mantención y no becas de
arancel). Considerando un promedio de 6 años que se demora el alumno en terminar su
carrera y una tasa de descuento de 10 %, se obtiene un costo total por la asignación de
beneficios (en valor presente) de $ 3.048.682.
Casos extremos
Para justificar los modelos de minería de datos se requiere conocer los beneficios de estos
en términos tangibles. Una forma sencilla es realizar un contraste entre los modelos y dos
situaciones extremas: ayudar a todos los estudiantes con becas o no ayudar a nadie.
109
• Ayudar a todos los estudiantes provoca asignar ayudas de mantención por $700.000 anua-
les por 6 años a 5.426 alumnos que no desertarán (error de tipo I), lo cual corresponde a
$16.542 millones.
• No ayudar a nadie provoca perder los ingresos futuros por concepto de aranceles por
$3.914.092 por 6 años de 828 alumnos que eran reales desertores que no fueron ayudados
(error de tipo II), lo cual corresponde a $14.114 millones.
Considerando estos dos casos, el caso económicamente óptimo sería los costos generados por
error de tipo II por $14.114 millones.
Elección de modelo
En cada modelo se escogió el umbral que minimiza el costo, y en caso de haber dos umbrales
que minimizan el costo, el que poseen un mayor Recall.
En la tabla 6.15 se detallan los resultados de los modelos seleccionados de los 3 tipos de árboles de
decisión (ID3, CART y CHAID), Random Forest y Regresión Logística.
Random Regresión
Modelo ID3 CART CHAID
Forest Logística
VP 18 192 0 0 337
110
VN 5283 3903 5426 5426 4488
FP
143 1523 0 0 938
(Error Tipo I)
FN
810 636 828 828 491
(Error Tipo II)
Accuracy 85 % 65 % 87 % 87 % 77 %
Precision 11 % 11 % 0% 0% 26 %
Recall 2% 23 % 0% 0% 41 %
Fmeasure 4% 15 % 0% 0% 32 %
Costo (millo-
$14.244 $15.485 $14.115 $14.115 $11.230
nes)
AUC: Regresión Logística con un mayor AUC (69 %). Por otro lado, Random Forest posee
un AUC superior a los otros 3 modelos de árboles de decisión, lo cual demuestra que Random
Forest es más estable y robusto que árboles de decisión aislados. Esto se debe a que Random
Forest genera muchos árboles de decisión que poseen distintos set de registros y atributos.
Figura 6.9: ROC y AUC ID3. Fuente: Ela- Figura 6.10: ROC y AUC CART. Fuente:
boración propia. Elaboración propia.
111
Figura 6.11: ROC y AUC CHAID. Fuente: Figura 6.12: ROC y AUC Random Forest.
Elaboración propia. Fuente: Elaboración propia.
Umbral: Regresión logística indica que si existe una probabilidad superior a 20 % de ser un
desertor, este debe ser calificado como tal. Random Forest y Chaid se encuentran en el 80 %
y 90 % respectivamente. ID3 y CART sólo califican como desertores aquellos que posean una
probilidad 1 de serlo, siendo estos últimos resultados inconsistentes con la realidad.
Falsos Negativos (FN): Para efectos de este estudio, el error de tipo II (FN) es más relevante
que el error de tipo I. Este es menor en la regresión logística.
Recall: Un alto recall permite mitigar los efectos del Error de tipo II (FN). En este caso, el
recall más alto corresponde a regresión logística.
Costo: Regresión logística corresponde al modelo más económico (costo de $11.230 millones)
112
6.4.5. Modelo seleccionado
El modelo detecta la deserción de 828 − 491 = 337 alumnos. Si a partir de la generación de acciones
sobre estos alumnos se hubiese evitado la deserción de todos ellos (337 alumnos), hubiese disminuido
la tasa de deserción en un 41 %, o de forma equivalente, haber evitado la deserción de un 5,4 % del
total de alumnos. Esto hubiese generado ahorros por un total de $2.884 millones con respecto a la
situación sin modelo.
Una alternativa es escoger este mismo modelo pero con un umbral 0,1 , el cual posee un recall de
72 % y comete 234 error de tipo II, en contraste de los 491 cometidos por el modelo más económico.
Es decir, la segunda alternativa previe hubiese detectado la deserción de 828−234 = 594 alumnos De
la misma manera que en el caso anterior, si a partir de la generación de acciones sobre estos alumnos
se hubiese evitado la deserción de los 594 alumnos, se hubise disminuido la tasa de deserción en un
35 %, o de forma equivalente, haber evitado la deserción de un 9 % del total de alumnos. Si bien al
elección de un umbral menor detecta a más alumnos desertores, este es $472 millones más caro que
el modelo óptimo, debido a que también aumenta los errores en la predicción del modelo (error de
tipo I y de tipo II).
113
Capítulo 7
En este capítulo se detallan las capacidades tecnológicas que se requieren para poder desarrollar la
nueva capacidad para retener alumnos.
Contar con un software especializado para utilizar modelos de minería de datos que permitan
predecir la deserción de alumnos.
Contar con un software especializado en visualización de datos para poder realizar análisis
exploratorios de los datos y presentar de forma atractiva los hallazgos encontrados por minería
de datos.
Desarrollar un Data Mart de forma que se pueda acceder a datos de múltiples fuentes de
información bajo un único estándar de calidad. La implementación de esta componente también
posee los siguientes beneficios:
Generan ahorro de tiempos de analistas al no tener que adquirir y procesar los datos de
múltiples fuentes de información, focalizando sus tareas hacia el análisis.
114
Disminuye el riesgo de cometer errores en los análisis, al contar con datos con un formato
y estándar de calidad definido.
Es más fácil para realizar mantenciones debido a que trabaja con un set acotado de datos
(ej. contar sólo con datos de alumnos, a diferencia de un Data Warehouse, que incluye
datos de diversos departamentos).
En esta sección se detallan los requerimientos funcionales y no funcionales que permitan soportar la
operación del sistema de minería de datos.
2. Proceso ETL (Extract, Transform and Load ) desde DSA a Data Mart alumnos.
3. Utilizar datos de Data Mart Alumnos para realizar análisis exploratorios, de clusterización y
correr modelos que permitan predecir la deserción.
Los inputs de estos sistemas corresponden a datos de alumnos provenientes de sistemas internos
(Guía, U-Cursos y U-Campus) y externos (MINEDUC, IVE, JUNAEB, DEMRE, entre otros).
Como output se generan análisis sobre deserción estudiantil y una listado de los alumnos con riesgo
de desertar.
115
7.1.2. Requerimientos no funcionales
Se detallan en la tabla 7.1 los aspectos del sistema que se deben tener para poder llevar a cabo los
requerimientos funcionales. Se utiliza para ello la nemotecnia FURPS: Functionality (Funcionalidad),
Usability (Usabilidad), Reliability (Fiabilidad), Performance (Desempeño) y Support (Soporte).
La arquitectura TI corresponde a una arquitectura de dos capas, los cuales corresponden a la capa
de datos, y a la capa de lógica de negocios y visualización. A la primera capa corresponden las
fuentes de datos internas y externas de alumnos, un repositorio de datos transitorio (DSA) y un
Data Mart de Alumnos. En tanto que la capa de lógica de negocios y visualización se conjuga dentro
del software de Minería de Datos y una herramienta de visualización.
116
7.3. Diseño de aplicación
Se requiere que los sistemas sean capaces de realizar las siguientes acciones 1 .
Se requiere que el DSA tenga la capacidad para integrarse a los sistemas internos (Guía,
U-Cursos y U-Campus) y que permita además la carga de información de fuentes externas
(becas y créditos de MINEDUC, becas e Índice de Vulnerabilidad Escolar (IVE) de JUNAEB,
DEMRE, entre otros).
Se requiere que el Data Mart permita la carga de datos desde DSA, permitiendo en este proceso
seleccionar variables, transformar datos según requerimientos del negocio, y aplicar filtros y
reglas de limpieza. El acceso a información confidencial debe ser restringido en esta etapa,
no cargando datos personales de los alumnos (dirección, nombres, teléfono de contacto, entre
otros) y enmascarando datos sensibles (ej. RUT).
El software de minería de datos debe ser capaz de leer los datos almacenados en el Data Mart,
con el objetivo de probar diferentes algoritmos. Además, este software debe permitir seleccionar
variables, aplicar filtros, reemplazar datos faltantes, crear gráficos y estadísticas simples para
explorar la data.
4. Almacenar análisis
El software de minería de datos debe permitir guardar los análisis realizados. De esta manera se
construyen los análisis sobre los ya existentes, evitando destinar tiempo y esfuerzos en trabajos
ya realizados.
1
Elaboración de casos de uso a partir de publicación en Linkedin “Data Science data architecture” del Dr. Olav
Laudy, Chief Data Scientist de Causality Link https://www.linkedin.com/pulse/data-science-architecture-dr-olav-
laudy
117
5. Procesar datos en ambiente de producción
El software de minería de datos debe ser capaz de leer los datos almacenados en el ambiente
de producción del Data Mart para la puesta en marcha de los modelos de minería de datos
(proceso conocido como scoring). Como output de este proceso se genera un listado de alumnos
en riesgo de deserción.
El Data Mart debe permitir cargar datos desde el DSA al ambiente de producción, permitiendo
seleccionar y adecuar los datos según lo requerido por el negocio.
Como se mencionó anteriormente, el sistema de minería de datos esá compuesto por las fuentes
de datos internas y externas de alumnos, un repositorio de datos transitorio denominado Data
118
Staging Area (DSA), un Data Mart de Alumnos, software de Minería de Datos y una herramienta
de visualización.
De las fuentes de datos tanto internas como externas se extraen los datos para luego ser cargados
en DSA, previa aplicación de códigos de limpieza. Luego estas son cargadas a través de un proceso
de Extract, Transform and Load (ETL) en el Data Mart de Alumnos, cargando de forma exclusiva
aquellas variables que son relevantes de estudio y protegiendo datos sensibles de alumnos. Una vez
poblado el Data Mart, se extraen los datos trabajados para ser utilizados por los software de Minería
de Datos y Herramientas de Visualización.
119
7.3.3. Diagrama de despliegue
120
Capítulo 8
En este capítulo se abordan los aspectos de gestión del cambio que deben ser considerados para
una consecución exitosa del proyecto. Para ello se realiza un análisis en base al Modelo Integral de
Liderazgo y Gestión del Cambio [14], para luego definir que aspectos son críticos dentro de este
proceso y un plan para abordar la gestión del cambio.
En este modelo se establece que existen diez dominios centrales de acción para liderar y gestionar
proyectos de cambio tecnológico. El detalle de cada uno de estos dominios a continuación:
El liderazgo se hace cargo de generar las interpretaciones, contextos y estados de ánimo que
permitan que el proyecto avance de forma adecuada, de darle un sentido, determinando el
espacio de acciones y prácticas que se deben llevar a cabo durante todo el proyecto [14].
En este proyecto, el liderazgo debe ser llevado a cabo por el Director del Proyecto de Minería
de Datos, el cual estará a cargo de posicionar a nivel directivo la relevancia de desarrollar esta
nueva capacidad en la universidad y ser responsable de gestionar el proyecto (planificaciones
y decisiones de todo el proceso). Este dirigirá al equipo de proyecto (Data Scientist, Analytics
121
Manager e Ingeniero TI) y poseerá el apoyo de expertos de negocio (asistentes sociales y
profesionales en contacto con alumnos).
Este dominio indica que se debe establecer una comunicación clara de la dirección, sentido y
forma que se llevará a cabo el proceso de cambio . Para ello es importante contar con relatos y
narrativas que sean compresibles y claros para todos los actores, para facilitar la comprensión
del proceso e identificar los beneficios que se esperar lograr para la organización y las personas
[14].
Los actores relevantes dentro de este proceso de cambio corresponden a los asistentes sociales
y a directivos, ya que los primeros operacionalizan la nueva capacidad y los segundos toman
las decisiones del proyecto.
A los asistentes sociales se le debe comunicar de forma detallada que aspectos se conservan y
cuales son cambiados, lo cual es detallado en el dominio 3 de esta metodología, denominado
“Cambio y Conservación”.
Mientras que a los directivos, se les debe transmitir de forma clara y comprensible los beneficios
de la toma de decisiones en base a analítica, y dejar en claro que la instalación de esta nueva
capacidad no sólo se traduce en una disminución de la deserción, sino en una transformación
organizacional, al comprender que la mayoría de las funciones de negocio pueden ser abordadas
con analítica, generando una apuesta en práctica global en el uso de datos en la toma de
decisiones [11].
3. Cambios y conservación
Es importante en proyectos tecnológicos detallar que aspectos serán conservados y cuales cam-
biados. Estas declaraciones son relevantes ya que permiten bajar las resistencias, obstáculos,
miedos y temores (sean estos fundados o no) y para dejar en claro que lo que se busca es seguir
mejorando el desempeño de la organización [14].
Espacio de conservación
Se debe dar énfasis en que se conservan los programas vigentes de beneficios estudiantiles
y los métodos actuales de evaluación de alumnos a través de la ficha social se conservarán,
así como los procesos de generación de nuevos programas y planificación de asignación de
122
beneficios, con la salvedad que se agregarán los resultados de los análisis para contribuir
al diseño de estos.
Espacio de cambio
Los principales actores y entidades que forman parte del proyecto de cambio, corresponden a la
Directora del Departamento de Bienestar Estudiantil, el Director de Tecnologías de Información
y el Director del Proyecto de Minería de Datos.
La Directora de Bienestar Estudiantil, debe aportar en este proceso generando el apoyo reque-
rido al proceso, socializando el valor del proyecto y generando acuerdos con altos directivos,
otros departamentos relacionados al proyecto, autoridades de facultades, asistentes sociales,
entre otros.
El Director de Tecnologías debe prestar el apoyo político para que facultades accedan a dar
su apoyo al proyecto en términos tecnológicos, logrando el acceso a integración con sistemas
y a datos de alumnos. Además, generar acuerdos con facultades en temáticas de gobiernos de
datos y administración de sistemas, especialmente en lo que respecta a datos y sistemas de
alumnos.
El Director de Proyecto debe estar a cargo de liderar el proceso de cambio, siendo este el inter-
locutor con asesores externos de gestión del cambio en caso de solicitar servicios de consultoría,
preocupándose de que hitos y planes se cumplan dentro de los plazos propuestos.
123
5. Gestión emocional
Se deben diseñar instancias formales para entregar información sobre el proyecto y los impactos
que tendrá en la operación diaria. En esta instancias se resolverán todas las dudas que pudiesen
surgir con respecto al proyecto, buscando generar estados de ánimo de confianza, apropiación
y compromiso con el proyecto.
Durante el proceso de puesta en marcha, se deberán comunicar de forma estratégica los éxitos
alcanzados en materias de retención de alumnos y el cumplimiento de hitos relevantes, de forma
de que se genere una percepción de avance y logro que motive a seguir realizando esfuerzos
para alcanzar los objetivos propuestos.
6. Comunicaciones
b) Los nuevos programas que se han desarrollado a partir de los análisis realizados.
c) La experiencia de alumnos que han sido beneficiados gracias a haber sido contactados de
forma proactiva.
Esto será comunicado a través de reuniones, informativos y página web (de proyecto o insti-
tucional), donde se recogerán apreciaciones y resolverán dudas.
7. Desarrollo de habilidades
Aprender técnicas de minería de datos es un proceso intenso, debido a que se debe aprender
a manejar múltiples herramientas tecnológicas y algoritmos matemáticos, además de tener los
conocimientos de las necesidades de negocio de la DBE. Esto proceso debe ser diseñado a través
de una ruta de aprendizaje y evaluado de forma periódica. La ventaja es que actualmente esta
temática es abordada en cursos en línea tanto gratuitos como pagados de calidad (Ej. cursos
dictados por Harvard y Stanford) y múltiples páginas para compartir material sobre minería de
datos y resolver dudas (ej. KDnuggets) facilitando de esta manera el proceso de aprendizaje.
124
En cuanto a trabajo de equipo, como el desarrollo de nuevos programas de ayuda estudian-
til requiere de la interacción de múltiples disciplinas (tecnologías de información, ingeniería,
trabajo social, sociología, entre otros) se deben establecer actividades y cursos que permitan
integrar las visiones de estas disciplinas en un trabajo conjunto.
8. Gestión de poder
Un poder relevante en este proyecto corresponde a aquellos que son dueños de las bases de
datos y herramientas que generan datos de alumnos. Es por ello, que el Director de Minería
de Datos debe ser capaz de involucrar a los dueños de estos sistemas para poder crear un
repositorio de datos común de alumnos. Para lograr estos resultados, es necesario contar con
el apoyo del Director de Tecnologías de Información de la Universidad (DSTI), para así poseer
el respaldo necesario para acceder a datos e información de forma continua.
Otro poder relevante corresponde al apoyo del Vicerrector de Asuntos Comunitarios y Estu-
diantiles (VAEC), para que respalde en todo momento la realización del proyecto.
También se debe gestionar los acuerdos y formas de trabajar con el Departamento de Pregrado,
para así potenciar las expertices de ambas áreas (Pregrado y DBE).
Por último se deben mantener resultados demostrables, para asegurar el financiamiento. Ello
debe ser gestionado con el Vicerrector de Asuntos Económicos y de Gestión Institucional
(VAEGI).
Se debe monitorear los procesos de gestión del cambio, evaluando la adopción de herramientas
de minería de datos, si la toma de decisiones se realiza en base a datos, si las asitentes sociales
han contactado y entregado recomendaciones de becas a alumnos en riesgo de desertar, si
hay una comunicación continua entre los dueños de sistemas y administradores de Data Mart
Alumnos, y si los altos cargos transmiten a terceros (a través de prensa, informativos internos
u otros) el valor de la nueva capacidad.
Para posicionar la nueva capacidad en la universidad, se debe socializar el inicio del proyecto,
el cumplimiento de hitos y avances, y dar a conocer a la comunidad universitaria los alumnos
que han sido beneficiados de esta nueva capacidad. La finalización del proyecto de gestión
125
del cambio se realizará al término del tercer año cuando se cuente con la nueva capacidad de
retener a alumnos con uso de minería de datos estabilizada.
El cambio de este proyecto consiste en generar una nueva capacidad que permita formalizar y retener
a los alumnos de contextos más vulnerables, para lo cual se generan procesos que permiten capturar
información de alumnos para luego procesar dicha información con modelos de minería de datos,
para luego en base a los análisis realizados generar ayudas de forma proactiva.
Dentro de la implementación de esta nueva capacidad hay procesos que son modificados. Los proce-
sos de analítica son modificados pasando de ser procesos basados en análisis estadísticos a procesos
de minería de datos. El procesamiento de postulantes a beneficios se ve modificado al otorgar reco-
mendaciones de becas al momento de postular según el riesgo de deserción, y de la misma manera,
la selección de postulantes complementará el puntaje obtenido por la ficha social con el riesgo de de-
serción. Por último, la generación de nuevos programas de beneficios estudiantiles y la planificación
de asignación de beneficios estudiantiles serán complementados con los hallazgos de los modelos de
minería de datos. Como todos estos procesos involucran personas que cambian su forma de operar,
se debe gestionar con cuidado la adopción de las nuevas formas de trabajar.
Los factores críticos que deben ser considerados dentro del proyecto de cambio son:
1. Conseguir apoyo de directivos, ya que estos otorgan respaldo político, financiero y tecnológico.
Para ello se debe comunicar de forma correcta los beneficios de implementar el uso de minería
de datos dentro de la Universidad de Chile.
2. Conseguir que asistentes sociales puedan comprender y adoptar los nuevos procesos. Para ello
se les debe comunicar de forma correcta los beneficios, capacitar en los nuevos procesos y
entregar mensajes claros sobre qué aspectos se conservarán y cuáles serán modificados.
126
8.4. Plan de gestión del cambio
Las principales acciones a realizar en este proceso de gestión del cambio son:
Reuniones periódicas con directivos para alinear los esfuerzos y coordinar las actividades ne-
cesarias durante el desarrollo del proyecto.
Reuniones periódicas con asistentes sociales para recibir retroalimentación de los hallazgos de
los modelos de minería de datos.
Crear actividades y cursos que permitan integrar los conocimientos de las distintas disciplinas
involucradas en la generación de programas (tecnologías de información, ingeniería, trabajo
social, sociología, entre otras).
127
Capítulo 9
En esta sección se presenta la factibilidad del proyecto presentado en esta tesis, para lo cual se realiza
un análisis retrospectivo que permita validar que los modelos desarrollados son generalizables para
alumnos que no pertenecen al cohorte en estudio (alumnos de primer año de 2017), para luego
detallar los beneficios y costos de la situación con y sin proyecto, el flujo de caja de cada uno de los
escenarios y un análisis de sensibilidad.
En minería de datos es relevante que los modelos desarrollados sean generalizables, es decir, que
puedan a aplicar a set de datos que no se encuentran en el set utilizado para entrenar y testear
los modelos. En el caso de la deserción universitaria, corresponde a que los modelos desarrollados
puedan ser aplicados a alumnos de primer año de otras generaciones. Es por ello que se utilizó un
análisis retrospectivo, el cual consiste en probar los modelos desarrollados con datos históricos de
alumnos.
Para realizar el análisis retrospectivo se utilizaron los resultados del modelo seleccionado, el cual
corresponde a una Regresión Logística entrenada con datos de alumnos del cohorte 2017 (ver Modelo
128
seleccionado). Los resultados de este modelo (ver Coeficientes Regresión Logística) fueron aplicados
a los datos de alumnos del cohorte 2016 que rindieron la PSU, que corresponden a un total de 6.254
alumnos.
Cabe mencionar que el periodo de deserción institucional considerada para alumnos del cohorte 2016
corresponde a un total de dos años (enero de 2016 a diciembre 2017), que a diferencia del cohorte
2017, fue de 1 año y 4 meses (enero 2017, mayo 2018). El motivo de considerar un periodo más
extenso para evaluar si desertaron los alumnos en comparación al cohorte 2017, es que la mayoría de
las eliminaciones académicas se formalizan durante el segundo semestre del segundo año de estudios
y a que la fecha de extracción de datos para efectos de este proyecto de tesis fue en mayo 2018.
Los resultados obtenidos para la predicción de la deserción del cohorte 2017 y la aplicación de los
resultados del modelo seleccionado sobre los datos del cohorte 2016 se observan en la tabla 9.1.
Tabla 9.1: Resultados análisis Retrospectivo
Recall 35 % 41 %
Precision 32 % 26 %
F-Measure 33 % 32 %
407 alumnos (6,7 % del total 337 alumnos (5,4 % del total
Desertores detectados
de alumnos) de alumnos)
A partir de los resultados, se puede afirmar que de haber aplicado este modelo sobre alumnos del
cohorte 2016 se hubiese detectado la deserción de 407 alumnos y que el modelo, al igual que en
el cohorte 2017, mantiene un buen comportamiento frente a errores de tipo I y de tipo II (valores
recall, precision y fmeasure similares al cohorte 2017).
129
En consecuencia, se valida que los modelos utilizados son generalizables a la población de alumnos
de primer año que ingresa a la Universidad de Chile. Además, se rescata el alto nivel de predicción
de los modelos (más del 1 % del total de alumnos), demostrando la gran utilidad de utilizar modelos
de minería de datos para predecir de la deserción.
Una vez obtenido los resultados del análisis retrospectivo, la Dirección de Bienestar Estudiantil
validó los resultados. La retroalimentación brindada se detallada en esta sección.
Con respecto a los alumnos que poseen Crédito con Aval del Estado (CAE), el modelo predice menos
alumnos desertores con respecto a la realidad (6 %, ver tabla 9.2). Según expertos de la Dirección
de Bienestar Estudiantil, este fenómeno se debe a que las personas que poseen CAE generalmente
corresponde a personas que no calificaron para obtener una beca, los cuales en su mayoría corresponde
a personas de deciles más altos y con un Índice de Vulnerabilidad Escolar (IVE) menor. Dado que
dentro del modelo estos perfiles poseen un menor riesgo de desertar, baja el riesgo de deserción
asociado, y por ende, se detectan menos desertores.
En cuanto a IVE, la categoría IVE Rango 1, que corresponde a alumnos que provienen de colegios
donde el 76,7 % y 100 % de sus alumnos provienen de situación socioeconómica de pobreza o extrema
pobreza, posee la más alta variación entre la predicción y la realidad de desertores (10 % más, ver
tabla 9.3). Si bien la realidad muestra que la deserción de alumnos provenientes de IVE Rango 1 es
mayor (31 % en alumnos nuevos de 2016, ver tabla 9.3), el modelo genera un sobreesetimación de
la deserción de estos alumnos. Ahora bien, la variación del 10 % corresponde sólo a 36 alumnos, un
número menor en comparación al total de alumnos del cohorte 2016 (6.078 alumnos).
130
Tabla 9.3: Análisis Retrospectivo - Índice de Vulnerabilidad Escolar (IVE). Fuente: Elaboración
propia.
131
Figura 9.1: Desvío absoluto predicción vs realidad. Fuente: Elaboración propia.
Con respecto a los alumnos que poseen gratuidad, el modelo refleja un buen comportamiento, ya
que se mantienen sólo con una pequeña variación con respecto a la realidad (1 %, ver anexo C.1 ).
De la misma manera ocurre con los alumnos alumnos que poseen Beca Vocación Profesor (variación
1 %, ver anexo C.2 ) y con la variable Tramo Socioeconómico, la cual posee una variación promedio
de 2 % con respecto a la realidad (ver anexo C.3)
La Dirección de Bienestar concluye que los resultados son adecuados a la realidad de la Universidad
de Chile, con la salvedad de que se debe considerar que existen particularidades dentro de las distintas
carreras, como por ejemplo, que algunas carreras concentran determinados perfiles socioeconómicos,
lo cual es importante considerar al momento aplicar acciones para poder retener a los alumnos.
Para evaluar el proyecto se consideraron dos escenarios: escenario sin proyecto (situación actual
optimizada) y situación con proyecto (desarrollo de nueva capacidad).
132
1. Escenario sin proyecto
Este escenario corresponde a la situación actual optimizada, y consiste en utilizar nuevos mo-
delos estadísticos y variables para comprobar hipótesis de la deserción de alumnos, utilizando
los mismos procesos de extracción y generación de información.
Bajo este escenario se incurre en costos de un Analytics manager, el cual se encuentra actual-
mente a cargo de realizar análisis estadísticos en la DBE, y un encargado TI, a cago de extraer
los datos de alumnos de las bases de datos que actualmente administra la DBE. Esto tiene
costos de $1,3 millones por persona.
La estructura de beneficios de este escenario se calcula en base a los resultados obtenidos con
el cohorte 2017 con el modelo de regresión logística (ver sección Modelo seleccionado), el cual
detecta a 337 alumnos desertores.
133
Persona capaz de posicionar a nivel directivo la relevancia de desarrollar esta nueva ca-
pacidad en la universidad y poseer a la vez amplios conocimientos en herramientas de
minería de datos, sus aplicaciones y de integración de sistemas.
Data Scientist.
Persona orientada a resolver problemas de negocio con datos, con amplios conocimien-
tos en estadísticas y en construir algoritmos de minería de datos, capaces de encontrar
patrones ocultos en modelos tanto supervisados como no supervisados 2 .
Analytics Manager
Cargo que se encuentra entre le Data Scientist y el Encargado TI. Debe poseer amplios
conocimientos de negocio, proveyendo de esta forma dirección a los análisis, además de
aportar con sus propios análisis predictivos y de clusterización. También es el enlace con
el Encargado TI, entregando soporte a la administración del Data Mart de Alumnos y
procesos ETL 3 .
Data Engineer
Costos asociados a persona a cargo de mantener Data Mart, para lo cual deberá habilitar
el flujo de datos desde sistemas internos y fuentes externas a través de procesos ETL. Este
además deberá ir incorporando nuevas datos relacionados al comportamiento de alumnos
según los requerimientos del Data Scientist y del Analytics Manager. 4 .
Considerando los ingresos obtenidos por personas a cargo de proyectos de minería de datos y
los salarios de la universidad, se considera un costo de $3 millones de pesos para un director
de minería de datos, $2 millones para el Data Scientist y $1,6 millones para Data Scientist y
Analytics Manager.
Se detalla en esta sección los consideraciones utilizadas para realizar el cálculo de flujo de caja y
se analizan 3 indicadores de evaluación de proyectos: Valor Actual Neto (VAN), Tasa Interna de
Retorno (TIR) y Periodo de Recuperación del Capital (PRC).
2
https://towardsdatascience.com/how-to-structure-a-high-performance-analytics-team-f564c92a1aaa
3
https://towardsdatascience.com/how-to-structure-a-high-performance-analytics-team-f564c92a1aaa
4
https://towardsdatascience.com/how-to-structure-a-high-performance-analytics-team-f564c92a1aaa
134
Tipo de evaluación y Tasa de Descuento
Horizonte de Evaluación
Debido al acelerado avance de las tecnologías y reeleción de rector, se utilizará una evaluación
de proyecto de 3 años.
Inversión
Se invierte en dos notebooks Dell Intel Core i7 16 GB de ram para trabajar los algoritmos de
minería de datos, por un costo de $ 907.000 por cada uno.
Por concepto de remuneraciones, este proyecto de tesis no tuvo costos asociados, ya que se
trabajo con personal ya contratado por la universidad para realizar las actividades y reuniones.
Se utilizarán herramienta de minería de datos de código abierto durante los primeros 3 años
de proyecto (costo 0).
Se invertirá en un Ingeniero Civil en Computación para armar el Data Mart de Alumnos por 6
meses por un costo de 3 millones mensuales. Este además deberá documentar todo el proceso
de extracción, transformación y carga de datos (ETL) para poder mantener el Data Mart a
posterioridad.
También se invertirá en una consultora de gestión del cambio. Se consideran dos etapas:
135
2. La segunda etapa consistirá en planificar las capacitaciones y mensajes que serán dados
a asistentes sociales, de forma que el valor de la solución sea comprendido y adoptado
para su permanencia. Contratación entre los meses 6 y 9 con por un costo de 3 millones
mensuales.
Reajuste
Impuestos
No se considera impuestos, debido a que al tratarse de un institución pública, los ingresos por
concepto de arancel no poseen impuestos asociados.
Depreciación
No aplica la depreciación del software, ya que se utiliza software gratuito durante los tres años
del proyecto.
El flujo de caja sin proyecto con situación actual optimizada genera ingresos de $245 millones por
cada año al disminuir en 8 % la tasa de deserción (evitar que un 1 % del total de alumnos deserte) y
no posee costos adicionales. De esta manera se pasaría de una tasa de deserción de 13,2 % a 12,2 %.
En este escenario se obtiene un VAN de $569 millones, mejorando de esta manera la situación actual.
6
www.anaff.cl/documentos/category/17-2017?download=32:tabla-reajuste-ano-2018
136
Flujo de caja escenario con proyecto
El flujo de caja con proyecto genera ingresos de $441, $883 y $1.325 millones los años 1, 2 y 3
respectivamente, debido a que se utiliza el supuesto de que la disminución de la deserción será
gradual alcanzando la disminución pronosticada por los modelos (41 %) al tercer año. Además,
posee costos por concepto de remuneraciones por $5 millones mensuales más un reajuste de sector
público ($98,4 millones anuales más reajustes) y una inversión de $37,8 millones (2 notebook, un
ingeniero en computación por 6 meses y asesoría gestión del cambio en dos etapas de 3 meses cada
una). A partir de este se obtiene un VAN de $2.008 millones, TIR de 955 % y un PRC de sólo un
año.
Tabla 9.5: Flujo de Caja - Escenario con Proyecto
Para comparar ambos escenarios, resulta útil utiliza el ∆ V AN , el cual permite comparar el VAN
situación actual optimizada con el VAN del nuevo proyecto. De este indicadores se obtiene un
∆ V AN = $1.520 millones, es decir, que la situación con proyecto es mejor por $1.520 millones
con respecto a la situación actual optimizada, sin considerar los beneficios sociales, lo cual generaría
retornos aún mayores. Además, la inversión se recupera el primer año de puesta en marcha del
proyecto (PRC=1). Dado estos antecedentes, se puede afirmar que la situación con proyecto es la
que debe ser realizada.
137
9.4. Análisis de Sensibilidad
Un aspecto clave para que el proyecto sea rentable es que este permita disminuir la deserción uni-
versitaria. Es por ello que se escogió el porcentaje de disminución de la tasa de deserción como
la variable relevante a estudiar en el análisis de sensibilidad. Los resultados obtenidos pueden ser
observado en el anexo Análisis de Sensibilidad.
138
Capítulo 10
Conclusiones
La Universidad de Chile se rige bajo la Política de Equidad e Inclusión promulgada en 2014, la cual
garantiza el acompañamiento de estudiantes en el acceso, permanencia y egreso oportuno de sus
alumnos. Parte importante de esta política corresponde a que la Universidad de Chile debe realizar
esfuerzos por retener a sus alumnos, respondiendo a un cuerpo estudiantil cada vez más diverso en
términos económicos, sociales y culturales. Pese a los esfuerzos, aún continua existiendo una marcada
heterogeneidad en la retención de alumnos de primer año en sus distintas facultades, siendo la más
alta en la Facultad de Ciencias Físicas y Matemáticas, con un 95 % de retención, y la más baja en
Bachillerato, con sólo un 53 % de retención.
Dado este problema y al compromiso institucional que posee la Universidad de Chile con respecto
al acompañamiento de sus alumnos durante su trayectoria universitaria, se propone dentro de este
proyecto complementar la forma actual de asignación de beneficios estudiantiles con el uso de modelos
de minería de datos, con el objetivo de detectar alumnos en riesgo de deserción para así ofrecer
beneficios estudiantiles de forma proactiva.
Para poder implementar esta nueva capacidad se realizó un estudio de la estrategia de la Universidad
de Chile, su arquitectura de procesos, procesos de negocio y capacidades tecnológicas actuales, para
luego definir los elementos que deben ser modificados para materializar la nueva capacidad.
En cuanto a Arquitectura de Procesos, la Universidad de Chile posee un esquema mixto para generar
nuevas capacidades, ya que esto le permite generar nuevas capacidades que benefician de forma
139
transversal a la universidad, lo cual es impulsado por las diferentes vicerrectorías, y también generar
las propias capacidades según las necesidades de negocio específicas de cada facultad. En este sentido,
se indica dentro de este proyecto de tesis que la estructura actual de la Dirección de Bienestar
Estudiantil (DBE) debe ser mantenida ya que permite concentrar el conocimiento en temáticas de
bienestar de alumnos y administrar de forma eficiente los recursos universitarios. Esto es positivo ya
que permite otorgar programas de ayuda a todos los alumnos de la universidad, de forma indistinta
a la capacidades técnicas y financieras de las distintas facultades.
Lo que se propone dentro de esta estructura es contar con una política universitaria de gobierno
de datos y administración de sistemas, en especial de aquellos sistemas que son relevantes para el
quehacer de la Universidad, como lo son sistemas relacionados a alumnos e investigación, para así
facilitar los procesos de analítica dentro de la universidad. Esto es respaldado por la literatura, donde
se indica que para tener éxito en la implementación de analítica en las organizaciones es necesario
contar con un “liderazgo, herramientas y tecnologías en común” [11]. De esta manera se evita la
creación de múltiples sistemas, datos e indicadores, que generalmente son utilizados sólo por el área
o personal que los administra.
Los procesos de analítica son modificados pasando de ser procesos basados en análisis estadísticos a
procesos de minería de datos, poniendo en práctica la metodología de minería de datos CRISP-DM.
Esta metodología contiene 6 fases, las que corresponden a comprensión de negocio, comprensión
de datos, preparación de datos, modelado, evaluación y puesta en marcha. Aplicando este proceso
sobre el cohorte de alumnos nuevos del año 2017 que rindieron la PSU, se obtuvo que de haber
sido aplicados los modelos durante dicho año, se hubiese detectado la deserción de 337 alumnos, es
decir, el 5,4 % del total de alumnos del cohorte 2017, demostrando el potencial del uso de minería de
datos para predecir la deserción. Además se demostró que el modelo seleccionado es generalizable, es
decir, que de ser aplicados los resultados de los modelos de minería de datos a nuevas generaciones de
alumnos que ingresan a la universidad, los modelos tendrían un rendimiento similar en la detección
de la deserción, lo cual fue validado por la Dirección de Bienestar Estudiantil. De esta manera se
afirma que el criterio de éxito de minería de datos definido al inicio del proyecto es alcanzado,
superando las expectativas iniciales (haber detectado la deserción de 1 % del total de alumnos del
cohorte de alumnos nuevos del 2017, mientras que lo alcanzado fue un 4,4 %).
140
Además de lo anterior, se modificaron cuatro procesos relevantes de la Dirección de Bienestar Es-
tudiantil. En “Generación de nuevos programas de beneficios estudiantiles” y “Planificación de asig-
nación de beneficios”, se incorporaron los resultados de las predicciones y segmentación de alumnos
para crear nuevos programas y planificar la entrega de beneficios. En “Procesamiento de postulantes”
se incorporó la entrega de recomendaciones de becas y programas de ayuda a estudiantes de forma
proactiva. Y finalmente, “Selección de postulantes”, se complementa la decisión de asignar beneficios
incorporando el riesgo de desertar de los alumnos.
Desde el punto de vista tecnológico, se creo una arquitectura que consta de un Software de Minería
de Datos, Herramientas de Visualización y un Data Mart de Alumnos. El primero, es utilizado
principalmente para desarrollar los modelos de minería de datos, el segundo, para realizar análisis
exploratorios de los datos, y el tercero, para mantener los datos de alumnos bajo un único estándar
de calidad. Los motivos de implementar un Data Mart corresponden a que en la universidad existen
diferentes sistemas de alumnos no integrados y a que contar con datos bajo un único estándar de
calidad permitiría que los analistas puedan destinar su tiempo a descubrir patrones en los datos en
vez de dedicar tiempo a realizar actividades de recopilación, unificación y limpieza de bases de datos.
Para que las personas involucradas en el proyecto puedan adoptar los nuevos procesos es necesario
desarrollar plan detallado de gestión del cambio, a modo de evitar resistencias de directivos y asis-
tentes sociales a las nuevas estrategias y procesos generadas para disminuir la deserción estudiantil.
El disminuir la tasa de deserción genera importantes ingresos a la universidad, los cuales justifican
la realización del proyecto, con un ∆V AN de $ 1.520 millones con respecto a la situación actual
optimizada y con un periodo de recuperación del capital invertido de un año. Si se considerase los
costos sociales de un alumnos desertor, el valor del proyecto serían aún mayor.
A través de la realización de este proyecto de tesis se aprendió que, para desarrollar una nueva capa-
cidad en una organización esta debe responder en primer lugar a necesidades estratégicas. Una vez
definida la capacidad que se desea desarrollar, debe ser emplazada en una estructura organizacional
adecuada para su funcionamiento, lo cual involucra el desarrollo de nuevos procesos o la mejora de
ellos; generar modelos que permitan tomar decisiones en base a datos y desarrollar las componentes
141
tecnológicas que permitan soportar la nueva capacidad. Todo esto debe ir acompañado de un plan de
gestión del cambio para que la nueva capacidad sea adoptada por los diferentes actores involucrados,
además de ser económica o socialmente rentable.
La metodología de minería de datos CRISP-DM facilita mantener una estructura para analizar los
datos, involucrando dentro de sus fases todo lo relevante para resolver problemas de la organización,
desde identificar el problema de negocio que se desea resolver, extraer y tratar los datos, correr los
modelos, evaluar los resultados y la puesta en producción de los modelos aprobados.
El contar con múltiples fuentes de datos y en planillas excel hace que sea imposible o muy complejo
desarrollar modelos de minería de datos, ya que se tendría que estar constantemente ajustando y
depurando los datos, solicitando información, además de incrementar la posibilidad de contar con
datos errados y desactualizados. El Data Mart es una herramienta de almacenamiento y tratamiento
de datos muy útil en este sentido, ya que permite almacenar información de múltiples fuentes de
datos bajo un estándar de calidad y formato en común. Para que esto se mantenga en el largo
plazo, se requiere contar con un gobierno de datos y de sistemas que permita regular la modificación
e implementación de nuevos sistemas y definir estándares para el tratamiento y disponibilidad de
datos.
La creación de proyectos de minería de datos debe ser una capacidad que quede instalada en la
universidad, para estar continuamente agregando nuevas variables, realizando nuevos análisis e ir
probando nuevos modelos para seguir obteniendo mejores resultados.
Como trabajo futuro se encuentra la puesta en marcha del proyecto, lo cual queda a cargo de la
Dirección de Bienestar Estudiantil.
Además, se debe evaluar implementar la nueva capacidad con proveedores externos, para lo cual se
142
debe realizar un benchmark de proveedores de minería de datos, experiencia de otras universidades,
factibilidad técnica, evaluación económica, entre otros.
Se propone para trabajos futuros desarrollar soluciones para mejorar el rendimiento de los modelos
en las diferentes carreras, especialmente en aquellas con una mayor variación en la predicción (Ba-
chillerato, Diseño, Filosofía, Ingeniería Comercial e Ingeniería y Ciencias Plan Común), para que
así puedan responder a las necesidades específicas de sus alumnos. También, se propone incorporar
nueva información para mejorar el rendimiento de los modelos.
Se propone utilizar además de los modelos considerados en este estudio, otros modelos de minería
de datos para predecir la deserción y segmentar alumnos.
También, se deja como propuesto extender el uso de minería de datos para predecir resultados
académicos de los alumnos, permitiendo de esta manera focalizar tutorías y programas de nivelación.
143
Bibliografía
[1] Oscar Barros. Bussiness engineering and service design. Service Systems and Innovations in
Business and Society Collection. New York: Bussiness Expert Press, 2nd edition edition, 2017.
[3] Daniel T. Larose. Data Mining Methods and Models. John Wiley & Sons, 2006.
[4] D. Pelleg and A. Moore. X-means: Extending k-means with efficient estimation of the number
of clusters. 2000.
[5] I. H. Witten, E. Frank, M. A. Hall, and C. J. Pal. Data Mining: Practical machine learning
tools and techniques. Morgan Kaufmann, 2016.
[6] Erika Himmel. Modelo de análisis de la deserción estudiantil en la educación superior. Calidad
en la Educación, 2002.
[7] S. Celis, L. Moreno, P. Poblete, J. Villanueva, and R. Weber. Un modelo analítico para la
predicción del rendimiento académico de estudiantes de ingeniería. 2015.
[8] R. Díaz. El impacto del tipo de financiamiento sobre la probabilidad de retención de primer
año en la educación superior: el caso de la universidad de chile. 2017.
[9] M. Alarcón. Impacto de los distintos tipos de ayuda financiera gubernamental e institucional
en la persistencia de los estudiantes de la universidad de chile. santiago. 2015.
144
[12] Rodolfo Schmal, Reinaldo Ruiz, Sebastián Donoso, and Martin Schaffernicht. Factores que
inciden en el financiamiento de los estudios universitarios en chile. 2007.
[13] Oscar Barros. Ingeniería de Negocios. Diseño Integrado de Negocios, Aplicaciones y Procesos
TI. 2009.
[14] E. Macaya, B. Crawford, and R. Soto. Gestión del cambio para proyectos tecnológicos: Usando
un modelo integral de gestión del cambio. 2016.
145
Anexo A
Marco Teórico
146
A.2. Parámetros Random Forest
Parámetros Definición
Especifica la cantidad de árboles que son generados de forma aleatoria.
Number of trees Un mayor número árboles incrementa el performance del modelo y genera
predicciones más estables, al precio de una mayor exigencia computacional.
Information Gain
Gini Index
Gain Ratio
Criterion
Accuracy
Least square
147
Anexo B
Lógica de Negocio
Missing
Nombre Tipo Valores Fuente
Values
1. Matriculado
2. Renuncia a la Carrera
Situación
3. Eliminación Académica
Académica Guía
Categórica 4. Postergación 2do semestre 0
(Años 2017 Matrícula
6. Postergación Anual
y 2018)
7. Postergación por Salud
8. Postergación 1er semestre
148
Continuación de Tabla B.1
Missing
Nombre Tipo Valores Fuente
Values
1. RM (5.012)
2. O’Higgins (313)
3. Valparaíso (192)
4. Maule (147)
5. Biobío(139)
6. Coquimbo (105)
7. Los Lagos (80)
Región Categórica 8. Antofagasta (60) 0 Guía M.
9. Araucanía (57)
10.Atacama (30)
11. Tarapacá (30)
12. Aysén (27)
13. Magallanes (22)
14. Arica y Parinacota (20)
15. Los Ríos (20)
1 = Mujeres (3.249)
Sexo Binaria 0 Guía M.
0 = Hombres (3.005)
1 = Chilena (6.188)
Nacionalidad Binaria 0 Guía M.
0 = Extranjera (66)
149
Continuación de Tabla B.1
Missing
Nombre Tipo Valores Fuente
Values
63 carreras de pregrado.
150
Continuación de Tabla B.1
Missing
Nombre Tipo Valores Fuente
Values
1. PSU (5.447)
2. SIPEE (313)
3. BEA (209)
4. Deportista Destacado (69)
5. Otros Ingresos Especiales (60)
Vía Ingreso Categórica 0 Guía M.
6. PACE (45)
7. Equidad de Género (40)
8. Ciclo Básico Artes (36)
9. Escuela de Desarrollo de
Talentos (15) Otras
1. Tramo 40 (1.886)
2. Tramo 50 (716)
3. Tramo 60 (329)
4. Tramo 70 (371)
Tramo
Categórica 5. Tramo 80 (263) 0 Guía M.
Socioeconómico
6. Tramo 90 (813)
7. Tramo 100 (496)
8. Sin calificación socioeconómica
(1.380)
Índice de
Vulnerabilidad Real Entre 13 % y 95 % 2.005 JUNAEB
Escolar (IVE)
Enfermedad 1= Si (189) Ficha
Binaria 4.124
Catastrófica 2= No (1.941) Social
151
Continuación de Tabla B.1
Missing
Nombre Tipo Valores Fuente
Values
Asma Bronquial (34)
Artritis Crónica y Artrosis (2)
Enfermedad Ficha
Categórica Bronquitis crónica (1) 6.211
Permanente Social
Cardiopatía Coronaria (1)
Diabetes (5)
Enfermedad 1= Si (569) Ficha
Binaria 4.124
Crónica 2= No (1561) Social
1 (39)
2 (459)
3 (947)
Número de 4 (248) Ficha
Numérica 4.501
dormitorios 5 (49) Social
6 (8)
7 (2)
9 (1)
1 (26)
2 (321)
3 (704)
4 (639)
5 (8.302)
Número de
6 (96) Ficha
integrantes del Numérica 4.124
7 (26) Social
hogar
8 (5)
9 (7)
10 (2)
11 (1)
14 (1)
152
Continuación de Tabla B.1
Missing
Nombre Tipo Valores Fuente
Values
Nivel de
Ficha
educación categórica 19 categorías 4.210
Social
jefe de hogar
Nivel de
Ficha
educación categórica 20 categorías 4.411
Social
madre
153
B.3. Becas de Arancel Internas y Externas
154
B.4. Becas de Mantención Internas y Externas
155
B.5. Resultados proceso PSU
Missing
Nombre Tipo Valores Fuente
Values
Deserción
Todos aquellos alumnos que se matriculan en 2017 y no se matriculan en 2018 antes del cierre
de recepción de matrículas (29 de abril) corresponde a desertores institucionales.
Aquellos alumnos que durante el año 2018 postergan sus estudios en cualquiera de sus causales
(postergación anual, postergación primer semestre, postergación por salud y renuncia a la
carrera) corresponden a desertores institucionales.
La ficha social de la universidad otorga puntaje en la ficha social a personas con enfermedades
crónica o permanentes. Corresponden a estas enfermedades aquellas enfermedades que no
156
pueden curarse o eliminarse totalmente con un tratamiento y que comprometan los ingresos
familiares, pero que no impliquen un riesgo vital.
Missing
Nombre Tipo Valores Fuente
Values
Enfermedad
1 = Posee enfermedad (581) Ficha
Permanente Binaria 0
0 = No posee (5.673) Social
o Crónica
Hacinamiento
´ N úmero Dormitorios
Indice de Hacinamiento =
N úmero Integrantes Hogar
Como la cantidad de alumnos que poseen un índice de hacinamiento mayor que 3 es baja
(alumnos), también se consideró un índice de hacinamiento mayor=2 y menor que 3, la cual
fue construida a partir de las variables Número de Dormitorios y Número de Integrantes Hogar.
Los missing values fueron reemplazados con valor sin hacinamiento ("SIN"), debido a que se
trata de personas que no completaron la ficha social, y se posee el supuesto que personas que
no la completan no poseen condiciones de hacinamiento.
157
Tabla B.7: Nueva variable “Hacinamiento”
Missing
Nombre Tipo Valores Fuente
Values
SIN = índice de hacinamiento < 2 (6.022)
H2 = índice de hacinamiento >=2 y menor
Ficha
Hacinamiento Categórica a 3 (205) 0
Social
H3)= índice de hacinamiento >=3 (27)
Missing
Nombre Tipo Valores Fuente
Values
Básica (289)
Nivel de educa- Media Completa (867) Ficha
Categórica 0
ción familiar Técnico Completa (434) Social
Universitaria Completa (4.411)
Región
158
1. Región Metropolitana
3. Otras regiones
Missing
Nombre Tipo Valores Fuente
Values
1 = RM (5.012)
Guía
Región Categórica 2 = V y VI región (505) 0
Matricula
3 = Otras regiones (737)
Con el objetivo de identificar a aquellos alumnos que han cursado una carrera distinta dentro de
la universidad sin haberla completado, se creó la variable denominada “Carrera Año Anterior".
Esta fue construida a partir de la data histórica de alumnos de los años 2011 a 2016, la cual
se contrastó con los registros de alumnos de primer año del cohorte 2017. No se consideraron
dentro de esta categoría a alumnos que ya egresaron de otra carrera (4 alumnos).
Missing
Nombre Tipo Valores Fuente
Values
564 alumnos
Carrera Año Guía
Binaria con carrera anterior 0
Anterior Matricula
no terminada
Créditos
El crédito CAE es complementario con el FSCU, ya que los beneficiarios del CAE pueden
financiar la diferencia entre el arancel referencial y real con el FSCU. En efecto, puede existir un
efecto de interacción entre los alumnos que poseen ambos créditos que haga que estos alumnos
159
deserten en menor porcentaje que aquellos que poseen estas becas de forma independiente. Es
por ello que se creó una variable binaria de interacción entre ambas becas, la cual consiste en
la multiplicación de ambas.
Becas de Arancel:
Las becas de arancel se utilizan para financiar el arancel real, regulado o referencial. El arancel
real corresponde al arancel que es determinado por la propia institución en base a sus propias
estimaciones de gastos e inversiones. El arancel regulado es determinado por la subsecretaría de
educación y el ministerio de hacienda con la colaboración y participación de las universidades
adscritas a gratuidad. En tanto que el arancel referencial es fijado anualmente por el MINEDUC
en base a estadísticas de calidad docente, tasas de titulación, retención, entre otras. Por lo
general, el arancel regulado y referencial son menores al arancel real. Es decir, que los aranceles
fijados por el Estado son en general menores a los fijados por las universidades. En anexo se
describe a cada una de las beca, indicando su objetivo y nivel de cobertura (arancel real,
regulado o referencial).
Las becas de arancel pueden ser tanto internas (Universidad de Chile) como externas (MINE-
DUC y Municipalidad de Las Condes). Para su asignación se exigen requisitos socioeconómicos
y académicos, solicitando generalmente pertenecer a la población de menores ingresos y obtener
resultados PSU sobre 500 o 700 puntos dependiendo del tipo de beca. Además, poseen requi-
sitos de renovación, como haber aprobado al menos el 60 % de los ramos realizados durante el
año.
160
Tabla B.12: Análisis Becas de Arancel
En cuanto a las becas de arancel que sí fueron asignadas a alumnos pertenecientes a la muestra,
se identifican patrones de asignación que son comunes a las becas, como por ejemplo puntajes
mínimos de PSU superiores a 700 puntos. Estos requisitos provocan en si mismo un sesgo en los
resultados de deserción de alumnos que poseen las becas, no siendo atribuible directamente la
no deserción al obtener una beca, si no que al hecho de discriminar por rendimiento académico.
Este efecto es conocido como endogeneidad, es decir, que la ayuda financiera está destinada a
ciertos grupos, que cuentan con características que a su vez, están relacionadas con la variable
de resultado (Verónica Santelices Estudio Pontificia Universidad Católica). Es por ello que se
crean dos nuevas variables que se encuentren asociadas por requisitos mínimos de rendimiento
académico:
Corresponde a las becas Universidad de Chile (BUCH), Andrés Bello, Puntaje PSU y
Beca Excelencia Académica. Estas poseen requisitos académicos de promedio de PSU
de Lenguaje y Matemáticas sobre 700 puntos, NEM sobre 6,0 o pertenecer al 10 % con
resultados PSU más alto de su establecimiento.
Corresponde a las becas Bicentenario, BHPE, Beca Las Condes y Reparación Valech.
Estas exigen un promedio PSU de Matemáticas y Lenguaje de al menos 500 puntos
y promedio de enseñanza media superior a 5,5. Si bien la Beca de Reparación Valech
no posee exigencias académicas, esta se considera dentro de este grupo debido a que el
promedio mínimo PSU del cohorte 2017 de la Universidad de Chile fue de 558 puntos1 .
1
Anuario 2017 Universidad de Chile p. 21 (sin considerar los criterios de ponderación particulares de cada carrera)
162
Tabla B.13: Nuevas variables “Becas de Arancel tipo I y II”
Esta beca posee requisitos académicos de promedio PSU de Lenguaje y Matemáticas superior
a 600 puntos. Esta va acompañada de la Beca de Mantención del Profesor, la cual consiste
en la entrega de $80.000 mensuales para gastos de libre disposición. Se posee la hipótesis que:
dado los requisitos académicos mínimos para postular a este beneficio, la flexibilidad de dedicar
tiempo a las labores universitarias al contar con dineros mensuales para uso de libre disposición
y al supuesto de que los alumnos que poseen esta beca tienen vocación de estudiar pedagogía,
los alumnos con esta beca tendrán tasas de deserción menor en comparación al resto de los
estudiantes.
Gratuidad
163
1. Porcentaje de cobertura de créditos: Corresponde al porcentaje de cobertura de la
carrera con créditos universitarios (CAE o FSCU).
Si posee gratuidad:
Si no:
P
M onto Beca
P orcentaje cobertura arancel = máx( ∗ 100 %, 100 %)
Arancel real de la carrera
El motivo de establecer una cota máxima en la beca de arancel se debe a que hay casos
en donde los montos de asignaciones superan el 100 % del arancel real, debido a que se
les asignan beneficios que terminan por cubrir más del costo real de la carrera. Esto es
regularizado posteriormente por la unidad de aranceles.
Becas de Mantención
El estudio de las becas de mantención se realizará según el objetivo que buscan alcanzar. El
detalle a continuación:
1. Beca de Apoyo Preescolar: Apoyo a madres y padres del cuidado de sus hijos o hijas.
Total de 8 beneficiados.
2. Beca de Emergencia: Obtener ayuda económica en caso de tener una emergencia que
dificulte el normal desarrollo de estudios del alumno. Total de 39 beneficiados.
3. Beca Compensación Laboral: Obtener una retribución económica por trabajos reali-
zados en la universidad. 1 beneficiado.
164
4. Becas de Residencia: Apoyo para alumnos de regiones diferentes a la metropolitana
que no poseen situación económica ni redes de contacto para encontrar alojamiento en la
capital. Total de 49 beneficiados.
• Beca Indígena
• Beca Residencia Indígena
165
B.7. Distribución de Variables
1. PSU Matemática Final y Lenguaje Final poseen una distribución normal a simple vista (ver figura
B.1 y B.2 ), lo cual fue corroborado para cada una de estas variables con el test de stata de skewness
y kurtosis (sketst), el cual indicó que distribuyen como una normal con más de un 99 % de confianza
(p=0.000)
Figura B.1: Histograma PSU Matemáticas. Figura B.2: Histograma PSU Lenguaje.
Fuente: Elaboración propia. Fuente: Elaboración propia.
2. La variable PSU Ranking posee una cola hacia la izquierdo (left skewness) y un peak al lado derecho
(ver imagen B.3). Se aplicó el test de skewness y kurtosis de stata, obteniendo como resultado que
la variable distribuye como una normal (p=0.000). Si bien el resultado de normalidad fue positivo,
se aplicaron transformaciones cuadráticas, raíz cúbica y logaritmo para reducir el peak del lado
derecho. Pese a ello, el peak se mantuvo. La razón de este peak es el método de cálculo del Puntaje
Ranking, el cual asigna 850 puntos a todos aquellos alumnos que hayan tenido un promedio igual
o superior al máximo promedio de los últimos 3 años de su establecimiento educacional (para más
detalles ver en anexos método de cálculo de Ranking. Se posee la hipótesis de que alumnos que
hayan tenido un puntaje ranking equivalente a 850 posean una retención más alta, ya que se trata
de alumnos que destacan académicamente dentro de su propios contextos educativos. Es por ello
que se creó la variable binaria Flag_PSU_Ranking_Maximo, la cual toma valor 1 si el estudiante
obtuvo un ranking de 850 puntos y 0 si no.
166
Figura B.3: Histograma PSU Ranking. Fuente: Elaboración propia.
3. La variable “IVE (1)” posee posee un peak en el sector izquierdo y una distribución normal en
el sector derecho (ver imagen B.4). Ello se debe a que en este estudio se utilizó el supuesto de
que alumnos de colegios particulares poseen un índice de vulnerabilidad escolar menor al de colegios
municipales y subvencionados, por lo cual se les asignó valores aleatorios entre 0 y 13 %. Realizando el
test de skewness y kurtosis de stata, se obtuvo que esta variable no distribuye como una normal. Para
lograr que esta variable distribuya como una normal, se aplicaron transformaciones raíz cuadrada
y raíz cúbica para reducir el peak izquierdo (no se utilizó logaritmo porque este se indefine para
registros que toman valor 0). La mejor transformación aplicada corresponde a raíz cúbica (ver imagen
B.5), donde el test de stata arrojó que corresponde a una normal con un nivel de significancia p=
0.000. De todas maneras, una solución más robusta para este caso es utilizar la variable categórica
“IVE (2)”.
Figura B.4: Histograma IVE (1). Fuente: Figura B.5: Histograma raíz cúbica IVE
Elaboración propia. (1). Fuente: Elaboración propia.
167
4. En tanto que la variable “Porcentaje Cobertura Arancel” posee dos peaks: uno en el sector izquierdo
y otro en el sector derecho. El primero corresponde a alumnos que no poseen becas de arancel
(2.709 alumnos de 6.254) mientras que el derecho corresponde principalmente a alumnos que poseen
gratuidad (2.555 alumnos). La mejor opción en este caso es sólo considerar las variables binarias que
conforman esta variable (gratuidad, arancel tipo I, arancel tipo II y Vocación profesor).
5. En el caso de “Porcentaje Cobertura Crédito” ocurre algo similar con Porcentaje Cobertura de
Arancel, ya que el peak de la izquierda se debe a que 5.158 alumnos no poseen crédito (82 % del
total de la muestra). De la misma manera, la mejor opción para esta variable es considerar sólo las
variables binarias que la conforman (CAE y FSCU).
168
B.8. Proceso clusterización con variables reales
B.8.1. X Means
El algoritmo de X- Means entregó como resultado óptimo la generación de dos clusters (ver imagen
B.8).
El primer cluster (color azul) se encuentra compuesto por 3.551 alumnos, y este corresponde a
alumnos con un alto Índice de Vulnerabilidad Escolar (IVE) y que obtuvieron un menor puntaje en
las pruebas de PSU de Matemáticas y Lenguaje.
En tanto que el segundo cluster (color rojo) está compuesto por 2.903 alumnos, y se trata de alumnos
con un bajo IVE y que obtuvieron un mayor puntaje en las pruebas de PSU de Matemáticas y
Lenguaje.
Dado estos resultados, el primer cluster puede ser nombrado como “alumnos vulnerables"mientras
que el segundo “alumnos no vulnerables".
En cuanto a los desertores de cada cluster (ver imagen B.9) no es claro visualmente si uno de los
dos clusters posee una mayor concentración de alumnos desertores.
Contrastando estos gráficos con el Índice de Vulnerabilidad de Escolar (ver imagen B.10), se vali-
da visualmente que el cluster superior corresponde mayoritariamente a alumnos que provienen de
colegios vulnerables.
Notar que el algoritmo rescata los efectos de cada una de las variables, generando un corte diagonal
a la muestra (ver imagen B.8), no realizando una separación dicotómica entre alumnos con un alto
y bajo IVE.
169
Figura B.8: Cluster X Mean
170
Figura B.10: PSU Matemática, Lenguaje Final e IVE. Fuente: Elaboración propia.
B.8.2. DBSCAN
Con respecto al algoritmo DBSCAN, se generaron diferentes instancias con distintos valores de EPS
y min points (ver anexo B.9).
El cluster escogido fue el con 0.25 epsilon y 20 min points. El motivo de escoger esta configuración
de epsilon y min points corresponde a que esta asociación arrojó cuatro cluster, donde dos de ellos
poseen más de 30 registros, abordan en conjunto a más del 51 % de la muestra y a que sus resultados
son interpretables. Si bien estos resultados se asemejan a la configuración N=9 y N=12 (ver anexo
B.9), se optó por una configuración que posea un menor epsilon (0.25) y mayor min points (20) para
así contar con alumnos que posean características más similares dentro de cada cluster.
Los cluster con la configuración escogida pueden observarse en la imagen B.11, la cual cuenta con
cuatro clusters:
171
Cluster 2: 549 registros. Corresponde a alumnos de un bajo índice de vulnerabilidad escolar y
puntajes PSU altos (color verde).
El resto de los registros son considerados como ruido (2.998 registros = 48 % de la muestra).
De la misma forma que los resultados obtenidos por el método de X-Means, el cluster 1 y 3 pueden
nombrarse como “alumnos vulnerables"mientras que el cluster 2 y 3 como “alumnos no vulnerables".
En cuanto a los desertores de cada cluster, se puede apreciar en la imagen B.12 que hay una mayor
concentración de alumnos que deserta en el cluster 1. Empíricamente, el cluster 1 (color azul) deserta
un 13,4 % (357 alumnos) y en tanto que en el cluster 2 (color verde) un 11,8 % (65 alumnos),
comprobando que la tasa de deserción de alumnos de cluster 1 es mayor que el cluster 2.
Notar que a diferencia de el algoritmo de x-means, el cual realiza un corte diagonal a la muestra (ver
imagen B.13), el algoritmo de DBSCAN hace una separación categórica entre alumnos que provienen
de colegios vulnerables y no vulnerables (ver imagen B.11).
172
Figura B.11: DBSCAN. Fuente: Elaboración propia.
173
Figura B.13: DBSCAN - PSU Matemática, PSU Lenguaje e IVE. Fuente: Elaboración propia.
Dado los resultados de los distintos mecanismos de cluster, se adicionarán los resultados óptimos
obtenidos con DBSCAN (epsilon=0.25 y 20 min points) como variable explicativa en los modelos
de predicción. El motivo de escoger estos resultados, es que como se explicó anteriormente, existen
diferencias las tasas de deserción de los cluster más relevantes (cluster 1 y 2), mientras que en los
resultados obtenidos con el método de X-Means no son claras las diferencias de deserción entre
clusters.
Como los cluster 3 y 4 poseen pocos registros (menos de 30, lo cual provocará que estos sean
desestimados de los algoritmos de predicción) y además se encuentran próximos a los cluster 1 y 2
(ver imagen B.11) se optó por realizar una unión de cluster 1 (azul) con el cluster 3 (rojo) y del
cluster 2 (verde) con el cluster 4 (amarillo), quedando como resultado dos clusters en vez de cuatro.
174
B.9. Selección epsilon y min points DBSCAN
1 1.0 5 1 1 7 0%
2 0.5 5 2 1 91 1%
3 0.1 5 137 0 5189 83 %
4 0.20 10 22 4 2951 47 %
5 0.25 10 13 2 1452 23 %
6 0.30 10 3 1 766 12 %
7 0.20 15 17 3 4032 64 %
8 0.25 15 5 2 2383 38 %
9 0.30 15 4 2 1265 20 %
10 0.20 20 5 1 4797 77 %
11 0.25 20 4 2 2998 48 %
12 0.30 20 3 2 1830 29 %
B.10.1. X Means
Utilizando la distancia nominal entre variables categóricas con el algoritmo de X-Means, se obtuvie-
ron 4 clusters (ver tabla B.15):
Cluster 1: 107 registros. Corresponde a alumnos que poseen Beca Vocación de Profesor.
175
Cluster 3: 924 registros. Corresponde a alumnos que poseen CAE o lo combinación de créditos
CAE-FSCU.
Cluster 4: 2.688 registros. Corresponde a alumnos que no poseen Beca Vocación de Profesor,
Gratuidad ni CAE.
Como los resultados poseen una correlación de 100 % con tener o no una de las becas anteriormente
mencionadas, se descartan estos resultados para ser utilizados en los algoritmos predictivos, ya que
no agregan valor a las variables existentes (los cluster generados son reemplazables por las variables
binarias Beca Vocación Profesor, Gratuidad y CAE).
B.10.2. DBSCAN
La configuración óptima escogida de DBSCAN correspondió a un epsilon de 1.1 y 300 min points.
Esta combinación posee 2 clusters (ver tabla B.16):
Cluster 1: 1.996 registros. Corresponde a alumnos que poseen ingresos económicos bajos (tramo
40 y 50) y Gratuidad. Más del 40 % de los alumnos de las carreras de Medicina, Ingeniería
Comercial e Ingeniería y Ciencias Plan Común pertenecen a este cluster. No posee diferencias
relevantes con respecto a región.
176
Cluster 2: 1.857 registros. Corresponde a alumnos que poseen ingresos económicos altos (tra-
mo 90, 100 y sin calificación económica principalmente) y CAE. No poseen gratuidad. Más
del 40 % de los alumnos de las carreras de Administración Pública, Bioquímica, Fonoaudiolo-
gía, Geografía, Ingeniería Forestal, Kinesiología, Medicina Veterinaria, Nutrición y Dietética,
Obstetricia y Puericultura, Pedagogía en Educación Parvularia, Química y Farmacia, Terapia
Ocupacional y Trabajo Social pertenecen a este cluster. No posee diferencias relevantes con
respecto a región.
De la misma forma que anterior análisis, estos cluster pueden ser nombrados como “alumnos vulne-
rables"(cluster 1) mientras que el cluster 2 como “alumnos no vulnerables".
Tabla B.16: DBSCAN: Proporción de true values de una selección de variables categóricas
CAE 14 % 86 % 100 %
Gratuidad 78 % 22 % 100 %
tramo 40 89 % 11 % 100 %
tramo 50 45 % 55 % 100 %
tramo 60 17 % 83 % 100 %
tramo 70 18 % 82 % 100 %
tramo 80 16 % 84 % 100 %
tramo 90 30 % 70 % 100 %
177
En cuanto a deserción, el cluster 1 y el cluster 2 poseen tasas casi idénticas de deserción (12,78 %
y 12,87 % respectivamente). Se utilizará de todas manera como variable explicativa de los modelos
predictivos.
El Puntaje Ranking es uno de los factores de selección del proceso de admisión de alumnos en
universidades de chile, el cual tiene por objetivo ayudar a seleccionar a los mejores estudiantes
durante su trayectoria escolar y favorecer la equidad en el acceso al sistema universitario.
Donde:
Donde:
178
Si el promedio acumulado del estudiante es igual o superior al promedio máximo histórico de
notas del contexto educativo este obtiene el máximo puntaje ranking (850 puntos).
Si el promedio acumulado del estudiante es superior al promedio de notas del contexto educa-
tivo pero menor al promedio máximo histórico, obtiene un puntaje equivalente al NEM más
una bonificación que crece linealmente desde el NEM obtenido por el promedio histórico de
notas del contexto educativo hasta los 850 puntos.
Si el promedio acumulado del estudiante es menor al promedio de notas del contexto educativo
este obtiene un puntaje equivalente a su puntaje NEM (no recibe bonificación del ranking).
Método de cálculo:
179
1ra P + 2da P + 3ra P (B.1)
A= ∗ 100 %
M atricula
Donde:
1ra P = Alumnos catalogados como primera prioridad por encuestas de vulnerabilidad de JUNAEB
(condición socioeconómica de extrema pobreza).
2da P = Alumnos catalogados como segunda prioridad por encuestas de vulnerabilidad de JUNAEB
(condición socioeconómica de pobreza).
3ra P = Alumnos catalogados como tercera prioridad por encuestas de vulnerabilidad de JUNAEB
(condición socioeconómica de pobreza).
180
B.13. Coeficientes Regresión Logística
181
Tabla B.18: Coeficientes Regresión Logística (continuación)
182
Anexo C
Evaluación Económica
Tabla C.2: Análisis Retrospectivo - Beca Vocación Profesor. Fuente: Elaboración propia.
183
C.3. Análisis Retrospectivo - Tramo Socioeconómico
184
C.4. Análisis Retrospectivo - Carrera
185
C.5. Análisis de Sensibilidad
186