Aprendiendo Estadística Con Jamovi - Navarro
Aprendiendo Estadística Con Jamovi - Navarro
estadística
con jamovi
DANIELLE J NAVARRO
DAVID R FOXCROFT
ELENA GERVILLA
FEDERICO LEGUIZAMO
Prefacio 3
Historial y Licencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Prefacio a la versión 0.75 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I Comienzo 9
1 ¿Por qué aprendemos estadística? 11
1.1 Sobre la psicología de la estadística . . . . . . . . . . . . . . . . . . . . . 11
1.1.1 La maldición del sesgo de creencia . . . . . . . . . . . . . . . . . 12
1.2 La historia con moraleja de la paradoja de Simpson . . . . . . . . . . . . 15
1.3 Estadística en psicología . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 La Estadística en la vida cotidiana . . . . . . . . . . . . . . . . . . . . . 19
1.5 Los métodos de investigación van más allá de las estadísticas . . . . . . 20
1
2 TABLE OF CONTENTS
4.2.1 Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.2.2 Rango intercuartílico . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2.3 Desviación absoluta media . . . . . . . . . . . . . . . . . . . . . . 79
4.2.4 Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.2.5 Desviación Estándar . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.6 ¿Qué medida hay que utilizar? . . . . . . . . . . . . . . . . . . . 85
4.3 Asimetría y apuntamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4 Estadísticos descriptivos para cada grupo . . . . . . . . . . . . . . . . . 89
4.5 Puntuaciones estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.6 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5 Dibujando gráficos 97
5.1 Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.2 Diagramas de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2.1 Diagramas de violín . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.2.2 Dibujar múltiples diagramas de caja . . . . . . . . . . . . . . . . 104
5.2.3 Uso de diagramas de caja para detectar valores atípicos . . . . . 104
5.3 Gráficos de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.4 Guardar archivos de imagen usando jamovi . . . . . . . . . . . . . . . . 110
5.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Epílogo 515
Las estadísticas no descubiertas . . . . . . . . . . . . . . . . . . . . . . . . . . 515
Omisiones dentro de los temas tratados . . . . . . . . . . . . . . . . . . 515
Faltan modelos estadísticos en el libro . . . . . . . . . . . . . . . . . . . 516
Otras formas de hacer inferencias . . . . . . . . . . . . . . . . . . . . . . 519
Temas varios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
Aprendiendo los conceptos básicos y aprendiéndolos en jamovi . . . . . . . . 524
Referencias 527
10 TABLE OF CONTENTS
Este libro de texto cubre el contenido de una clase de introducción a la estadística, tal
como se enseña típicamente a estudiantes de pregrado en psicología, salud o ciencias
sociales. El libro cubre cómo comenzar en jamovi y brinda una introducción a la manipu-
lación de datos. Desde una perspectiva estadística, el libro analiza primero la estadística
descriptiva y los gráficos, seguidos de capítulos sobre teoría de probabilidad, muestreo y
estimación, y prueba de hipótesis nula. Después de presentar la teoría, el libro cubre el
análisis de tablas de contingencia, correlación, pruebas t, regresión, ANOVA y análisis
factorial. Las estadísticas bayesianas se abordan al final del libro.
Citation: Navarro DJ, Foxcroft DR, Gervilla E, Leguizamo F (2022). aprendiendo
estadística con jamovi: un tutorial para estudiantes de psicología y las ciencias de la
salud y el comportamiento. (Version 0.75).
1
2
Prefacio
Historial y Licencia
Este libro es una adaptación de DJ Navarro (2018). Aprendiendo estadísticas con R:
un tutorial para estudiantes de psicología y otros principiantes. (Versión 0.6). https:
//learningstatisticswithr.com/.
El libro se publica bajo una [licencia creative commons CC BY-SA 4.0] (https://creativecommons.org/licenses/by-
sa/4.0/). Esto significa que este libro puede ser reutilizado, remezclado, retenido,
revisado y redistribuido (incluso comercialmente) siempre que se otorgue el crédito
apropiado a los autores. Si remezcla o modifica la versión original de este libro de
texto abierto, debe redistribuir todas las versiones de este libro de texto abierto bajo
la misma licencia: CC BY-SA.
[Foto de portada de Edward Howell en Unsplash]
3
4 Prefacio
por ella / sus pronombres. Sin embargo, soy tan perezoso como siempre. fue así
que no me he molestado en actualizar el texto en el libro.
• Para la versión 0.6 no he cambiado mucho, he hecho algunos cambios menores
cuando las personas han señalado errores tipográficos u otros errores. En partic-
ular vale la pena señalar el problema asociado con la función etaSquared en el
paquete lsr (que en realidad ya no se mantiene) en Sección 14.4. La función fun-
ciona bien para los ejemplos simples en el libro, pero definitivamente hay errores
allí que no he encontrado tiempo para comprobar! Así que por favor ten cuidado
con eso.
• ¡El cambio más grande es realmente la licencia! Lo he lanzado bajo un Licencia
Creative Commons (CC BY-SA 4.0, en concreto), y colocado todos los archivos
fuente al repositorio de GitHub asociado, si alguien quiere adaptarlo.
Tal vez a alguien le gustaría escribir una versión que haga uso de la tidyverse… Escuché
que eso se ha vuelto bastante importante para R en estos días :-)
Mejor, Danielle Navarro
segundo hijo nació a principios de 2013, por lo que Pasé la mayor parte del año pasado
tratando de mantener mi cabeza fuera del agua. Como un En consecuencia, los proyectos
paralelos no remunerados como este libro quedaron relegados a favor de las cosas que
realmente pagan mi salario! Las cosas están un poco más tranquilas ahora, así que, con
un poco de suerte, la versión 0.5 será un gran paso adelante.
Una cosa que me ha sorprendido es la cantidad de descargas del libro. obtiene. Final-
mente obtuve información básica de seguimiento del sitio web un hace un par de meses,
y (después de excluir a los robots obvios) el libro tiene estado promediando alrededor de
90 descargas por día. Eso es alentador: hay al menos algunas personas que encuentran
útil el libro!
Danielle Navarro 4 de febrero de 2014
Habiendo dicho todo lo anterior, hay un grupo de personas que puedo Respaldo con
entusiasmo este libro a: los estudiantes de psicología que toman nuestras clases de
métodos de investigación de pregrado (DRIP y DRIP:A) en 2013. Para ti, este libro es
ideal, porque fue escrito para acompañar tu conferencias de estadísticas. Si surge un
problema debido a una deficiencia de estas notas, Puedo adaptar y adaptaré el contenido
sobre la marcha para solucionar ese problema. Efectivamente, tienes un libro de texto
escrito específicamente para tu clases, distribuidas de forma gratuita (copia electrónica)
o a precios cercanos al costo (copia impresa). Mejor aún, las notas han sido probadas:
Versión 0.1 de estas notas se usaron en la clase de 2011, la versión 0.2 se usó en la clase
de 2012 clase, y ahora está viendo la nueva y mejorada Versión 0.3. estoy No digo que
estas notas sean una genialidad chapada en titanio en un palo. aunque si quisiera decirlo
en los formularios de evaluación de los estudiantes, entonces eres totalmente bienvenido
a hacerlo, porque no lo son. pero estoy diciendo que se han probado en años anteriores
y parecen funcionar bien. Además, hay un grupo de nosotros para solucionar cualquier
problema surgir, y puede garantizar que al menos uno de sus disertantes ha ¡Lee todo
de cabo a rabo!
De acuerdo, con todo eso fuera del camino, debería decir algo sobre lo que el libro
pretende ser. En esencia, es una estadística introductoria libro de texto dirigido princi-
palmente a estudiantes de psicología. Como tal, cubre los temas estándar que esperaría
de un libro de este tipo: diseño del estudio, estadística descriptiva, la teoría de la prueba
de hipótesis, pruebas t, � 2 pruebas, ANOVA y regresión. Sin embargo, también hay
varios capítulos. dedicado al paquete estadístico R, incluido un capítulo sobre datos
manipulación y otra sobre guiones y programación. Además, cuando miras el contenido
presentado en el libro, notarás muchas temas que tradicionalmente se barren debajo de
la alfombra cuando se enseña estadística a los estudiantes de psicología. La división
bayesiana/frecuentista es discutido abiertamente en el capítulo de probabilidad, y el de-
sacuerdo entre Neyman y Fisher sobre la prueba de hipótesis hace su aparición. los se
discute la diferencia entre probabilidad y densidad. Un detallado tratamiento de sumas
de cuadrados Tipo I, II y III para factorial desbalanceado Se proporciona ANOVA. Y
si echas un vistazo en el Epílogo, debería ser Claro que mi intención es agregar mucho
más contenido avanzado.
Mis razones para seguir este enfoque son bastante simples: los estudiantes pueden mane-
jarlo, e incluso parecen disfrutarlo. En los últimos años Me ha sorprendido gratamente
la poca dificultad que he tenido para hacer que los estudiantes de psicología aprendan R.
Ciertamente no es fácil para ellos, y he descubierto que necesito ser un poco caritativo
al establecer marcando estándares, pero eventualmente lo logran. Del mismo modo,
ellos no parece tener muchos problemas para tolerar la ambigüedad y la complejidad en
la presentación de ideas estadísticas, siempre que se les asegure que los estándares de
evaluación se establecerán de manera apropiada para ellos. Entonces, si los estudiantes
pueden manejarlo, ¿por qué no enseñarlo? los las ganancias potenciales son bastante
tentadoras. Si aprenden R, los estudiantes obtienen acceso a CRAN, que es quizás el
más grande y completo library( de herramientas estadísticas existentes. Y si aprenden
sobre teoría de la probabilidad en detalle, es más fácil para ellos cambiar de prueba
de hipótesis nula ortodoxa a métodos bayesianos si así lo desean. Mejor aún, apren-
den habilidades de análisis de datos que pueden llevar a un empleador sin depender de
software costoso y propietario.
Lamentablemente, este libro no es la panacea que hace posible todo esto. Es un trabajo
en progreso, y tal vez cuando esté terminado será un Herramienta útil. Uno entre mu-
8 Prefacio
chos, diría yo. Hay una serie de otros libros que tratan de proporcionar una introducción
básica a la estadística usando R, y no soy tan arrogante como para creer que la mía es
mejor. Aún así, yo gusta bastante el libro, y tal vez a otras personas les resulte útil,
aunque sea incompleto.
Danielle Navarro 13 de enero de 2013
Part I
Comienzo
9
Chapter 1
11
12 CHAPTER 1. ¿POR QUÉ APRENDEMOS ESTADÍSTICA?
de fe entre los científicos, y especialmente entre los científicos sociales, que no se puede
confiar en los hallazgos hasta que hayamos utilizado la estadística. Se puede perdonar al
estudiantado universitario por pensar que todos estamos completamente locos, porque
nadie se toma la molestia de responder una pregunta muy sencilla:
¿Por qué haces estadística? ¿Por qué los científicos no usan el sentido común?
Es una pregunta ingenua en algunos aspectos, pero la mayoría de las buenas preguntas
lo son. Hay muchas buenas respuestas, 2 pero, en mi opinión, la mejor respuesta es
realmente sencilla: no confiamos lo suficiente en nosotras mismas. Nos preocupa que
seamos humanos y susceptibles a todos los prejuicios, tentaciones y debilidades que
sufren los humanos. Gran parte de la estadística es básicamente una salvaguarda. Usar
el “sentido común” para evaluar la evidencia significa confiar en los instintos, confiar en
argumentos verbales y usar el poder puro de la razón humana para llegar a la respuesta
correcta. La mayoría de los científicos no cree que este enfoque funcione.
De hecho, ahora que lo pienso, esto me suena mucho a una pregunta psicológica, y dado
que trabajo en un departamento de psicología, parece una buena idea profundizar un
poco más aquí. ¿Es realmente plausible pensar que este enfoque de “sentido común” es
muy fiable? Los argumentos verbales tienen que construirse con lenguaje, y todos los
lenguajes tienen sesgos: algunas cosas son más difíciles de decir que otras, y no necesari-
amente porque sean falsas (p. ej., la electrodinámica cuántica es una buena teoría, pero
difícil de explicar con palabras). Los instintos de nuestro “intestino” no están diseñados
para resolver problemas científicos, están diseñados para manejar inferencias cotidianas,
y dado que la evolución biológica es más lenta que el cambio cultural, deberíamos decir
que están diseñados para resolver los problemas cotidianos para un mundo diferente
al que vivimos. Fundamentalmente, el razonamiento sensato requiere que las personas
participen en la “inducción”, haciendo conjeturas sabias y llevando el razonamiento
más allá de la evidencia inmediata de los sentidos para hacer generalizaciones sobre el
mundo. Si crees que puedes hacer eso sin dejarte influir por diversos factores, bueno,
no hace falta que continuemos discutiendo. Incluso, como muestra la siguiente sección,
ni siquiera podemos resolver problemas “deductivos” (aquellos en los que no se requiere
adivinar) sin que nuestros sesgos preexistentes nos influyan.
(a)
(b)
(a)
(b)
(a)
(b)
analizaba exactamente esto. Lo que descubrieron es que cuando los sesgos preexistentes
(es decir, las creencias) coincidían con la estructura de los datos, todo salía como se
esperaba (Table 1.2).
No es perfecto, pero es bastante bueno. Pero mira lo que sucede cuando nuestros
sentimientos intuitivos sobre la verdad de la conclusión van en contra de la estructura
lógica del argumento (Table 1.3):
Vaya, eso no es tan bueno. Aparentemente, cuando a las personas se nos presenta un
argumento sólido que contradice nuestras creencias preexistentes, nos resulta bastante
difícil incluso percibirlo como un argumento sólido (la gente solo lo hizo el 46 % de las
veces). Peor aún, cuando a las personas se nos presenta un argumento débil que está de
acuerdo con nuestros prejuicios preexistentes, casi nadie puede ver que el argumento es
débil (¡la gente se equivocó el 92 % de las veces!). 3
Si lo piensas bien, no es que estos datos sean extremadamente incriminatorios. En
general, a las personas les fue mejor que al azar para compensar sus sesgos anteriores,
ya que alrededor del 60 % de los juicios de las personas fueron correctos (se esperaría que
el 50 % fuera por casualidad). Aun así, si fueras un “evaluador de evidencia” profesional,
y alguien viniera y te ofreciera una herramienta mágica que mejora tus posibilidades
de tomar la decisión correcta del 60% al (digamos) 95%, probablemente lo aceptarías,
¿verdad? Por supuesto que lo harías. Afortunadamente, tenemos una herramienta que
puede hacer esto. Pero no es magia, es la estadística. Esa es la razón número 1 por la
que a los científicos les encanta la estadística. Es demasiado fácil para nosotros “creer
lo que queremos creer”. Entonces, si queremos “creer en los datos”, vamos a necesitar
un poco de ayuda para mantener bajo control nuestros sesgos personales. Eso es lo que
hace la estadística, nos ayuda a mantenernos honestos.
3 En mis momentos más cínicos siento que este hecho por sí solo explica el 95% de lo que leo en
Internet.
1.2. LA HISTORIA CON MORALEJA DE LA PARADOJA DE SIMPSON 15
(a)
(b)
Number of
applicants Percent admitted
Males 8442 44%
Females 4321 35%
dadas. Pero eso no es cierto. Hay un buen comentario sobre esto aquí: https://www.refsmmat.com/p
osts/2016-05-08-simpsons-paradox-berkeley.html
16 CHAPTER 1. ¿POR QUÉ APRENDEMOS ESTADÍSTICA?
Table 1.5: Estudiantes de Berkeley por género para los seis departamentos más grandes
(a)
(b)
Males Females
Percent Percent
Department Applicants admitted Applicants admitted
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%
Antes de dejar este tema por completo, quiero señalar algo más realmente crítico que a
menudo se pasa por alto en una clase de métodos de investigación. La estadística solo re-
suelve parte del problema. Recuerda que comenzamos todo esto con la preocupación de
que los procesos de admisión de Berkeley pudieran estar sesgados injustamente en contra
de las mujeres solicitantes. Cuando miramos los datos “agregados”, parecía que la uni-
versidad estaba discriminando a las mujeres, pero cuando “desagregamos” y miramos el
comportamiento individual de todos los departamentos, resultó que los departamentos
estaban, en todo caso, ligeramente sesgados a favor de las mujeres. El sesgo de género en
el total de admisiones se debió al hecho de que las mujeres tendían a autoseleccionarse
para los departamentos más difíciles. Desde un punto de vista legal, eso probablemente
eximiría a la universidad. Las admisiones de posgrado se determinan a nivel del de-
partamento individual, y hay buenas razones para hacerlo. A nivel de departamentos
individuales, las decisiones son más o menos imparciales (el débil sesgo a favor de las
mujeres en ese nivel es pequeño y no es consistente en todos los departamentos). Dado
1.2. LA HISTORIA CON MORALEJA DE LA PARADOJA DE SIMPSON 17
que la universidad no puede dictar a qué departamentos eligen postularse las personas,
y la toma de decisiones se lleva a cabo a nivel del departamento, difícilmente se le puede
responsabilizar por cualquier sesgo que produzcan esas elecciones.
Figure 1.1: Los datos de admisión a la universidad de Berkeley de 1973. Esta cifra traza
la tasa de admisión para los 85 departamentos que tenían al menos una aspirante mujer,
en función del porcentaje de aspirantes que eran mujeres. La trama es un nuevo dibujo
de la Figura 1 de Bickel et al. (1975). Los círculos parcelan departamentos con más
de 40 aspirantes; el área del círculo es proporcional al número total de aspirantes. Los
cruces parcelan los departamentos con menos de 40 aspirantes
Esa fue la base de mis comentarios algo simplistas anteriores, pero esa no es exacta-
mente toda la historia, ¿verdad? Después de todo, si estamos interesadas en esto desde
una perspectiva más sociológica y psicológica, podríamos preguntarnos por qué hay
diferencias de género tan marcadas en las solicitudes. ¿Por qué los hombres tienden a
postularse a la ingeniería con más frecuencia que las mujeres, y por qué esto se invierte
en el departamento de inglés? ¿Y por qué los departamentos que tienden a tener un
sesgo de solicitud de mujeres tienden a tener tasas de admisión generales más bajas que
18 CHAPTER 1. ¿POR QUÉ APRENDEMOS ESTADÍSTICA?
aquellos departamentos que tienen un sesgo de solicitud de hombres? ¿No podría esto
seguir reflejando un sesgo de género, a pesar de que cada departamento es imparcial en
sí mismo? Que podría. Supongamos, hipotéticamente, que los hombres prefieren aplicar
a “ciencias duras” y las mujeres prefieren “humanidades”. Y supongamos además que la
razón por la cual los departamentos de humanidades tienen bajas tasas de admisión es
porque el gobierno no quiere financiar las humanidades (los lugares de doctorado, por
ejemplo, a menudo están vinculados a proyectos de investigación financiados por el gob-
ierno). ¿Eso constituye un sesgo de género? ¿O simplemente una visión poco ilustrada
del valor de las humanidades? ¿Qué pasaría si alguien de alto nivel en el gobierno
recortara los fondos de humanidades porque sintiera que las humanidades son “cosas de
chicas inútiles”? Eso parece bastante descaradamente sesgado por género. Nada de esto
cae dentro del ámbito de la estadística, pero es importante para el proyecto de investi-
gación. Si estás interesada en los efectos estructurales generales de los sutiles sesgos de
género, entonces probablemente quieras ver los datos agregados y desagregados. Si es-
tás interesada en el proceso de toma de decisiones en Berkeley, entonces probablemente
solo estés interesada en los datos desagregados.
En resumen, hay muchas preguntas críticas que no puedes responder con estadísticas,
pero las respuestas a esas preguntas tendrán un gran impacto en la forma en que analizas
e interpretas los datos. Y esta es la razón por la que siempre debes pensar en la
estadística como una herramienta para ayudarte a conocer tus datos. Nada mas y nada
menos. Es una herramienta poderosa para ese fin, pero no hay sustituto para una
reflexión cuidadosa.
Cuando empecé a redactar mis apuntes de clase, cogí los 20 artículos más recientes
publicados en la web de noticias de ABC. De esos 20 artículos, resultó que en 8 de ellos
se discutía algo que yo llamaría un tema estadístico y en 6 de ellos se cometía un error.
El error más común, si tienes curiosidad, fue no informar de los datos de referencia
(p. ej., el artículo menciona que el 5% de las personas en la situación X tienen alguna
característica Y, pero no dice lo común que es la característica para todos los demás).
Lo que quiero decir con esto no es que los periodistas sean malos en estadística (aunque
casi siempre lo son), sino que un conocimiento básico de estadística es muy útil para
intentar averiguar cuándo alguien está cometiendo un error o incluso mintiéndote. De
hecho, una de las cosas más importantes que te aporta el conocimiento de la estadística
es que te enfadas con el periódico o con Internet con mucha más frecuencia. Puedes
encontrar un buen ejemplo de esto en Section 4.1.5 en el Chapter 4. En versiones
posteriores de este libro intentaré incluir más anécdotas en ese sentido.
Pero ten en cuenta que “urgente” no es lo mismo que “importante”: ambos son impor-
tantes. Quiero insistir en que el diseño de la investigación es tan importante como el
análisis de datos, y este libro le dedica bastante tiempo. Sin embargo, mientras que la
estadística tiene una especie de universalidad y proporciona un conjunto de herramien-
tas básicas que son útiles para la mayoría de los tipos de investigación psicológica, los
métodos de investigación no son tan universales. Hay algunos principios generales que
todo el mundo debería tener en cuenta, pero gran parte del diseño de la investigación
1.5. LOS MÉTODOS DE INVESTIGACIÓN VAN MÁS ALLÁ DE LAS ESTADÍSTICAS21
23
24CHAPTER 2. UNA BREVE INTRODUCCIÓN AL DISEÑO DE INVESTIGACIÓN
las “cosas”. Por tanto, cualquiera de los siguientes elementos podría considerarse una
medida psicológica:
• Mi edad es 33 años.
• No me gustan las anchoas.
• Mi género cromosómico es masculino.
• Mi género autoidentificado es femenino.
En la breve lista anterior, la parte en negrita es “lo que se va a medir”, y la parte en
cursiva es “la medida en sí”. De hecho, podemos ampliarlo un poco más, pensando en
el conjunto de posibles medidas que podrían haber surgido en cada caso:
• Mi edad (en años) podría haber sido 0, 1, 2, 3 …, etc. El límite superior de lo
que podría ser mi edad es un poco difuso, pero en la práctica se puede decir que
la mayor edad posible es 150, ya que ningún ser humano ha vivido tanto tiempo.
• A la pregunta de si me gustan las anchoas, podría haber respondido que me
gustan, o no, o no tengo opinión, o a veces me gustan.
• Es casi seguro que mi género cromosómico será masculino ( 𝑋𝑌 ) o femenino
( 𝑋𝑋), pero existen otras posibilidades. También podría tener síndrome de Klin-
felter (𝑋𝑋𝑌 ), que es más parecido al masculino que al femenino. E imagino que
también hay otras posibilidades.
• También es muy probable que mi género autoidentificado sea masculino o fe-
menino, pero no tiene por qué coincidir con mi género cromosómico. También
puedo elegir identificarme con ninguno, o llamarme explícitamente transgénero.
Como puedes ver, para algunas cosas (como la edad) parece bastante obvio cuál debería
ser el conjunto de medidas posibles, mientras que para otras cosas la cosa se complica
un poco. Pero quiero señalar que incluso en el caso de la edad de alguien es mucho más
sutil que esto. Por ejemplo, en el ejemplo anterior asumí que estaba bien medir la edad
en años. Pero si eres un psicólogo del desarrollo, eso es demasiado burdo, por lo que a
menudo se mide la edad en años y meses (si un niño tiene 2 años y 11 meses, se suele
escribir como “2;11”). Si te interesan los recién nacidos, quizás prefieras medir la edad
en días desde el nacimiento, o incluso en horas desde el nacimiento. En otras palabras,
la forma de especificar los valores de medición permitidos es importante.
Si lo analizamos un poco más detenidamente, nos daremos cuenta de que el concepto de
“edad” no es tan preciso. En general, cuando decimos “edad” implícitamente queremos
decir “el tiempo transcurrido desde el nacimiento”. Pero no siempre es así. Supongamos
que nos interesa saber cómo los bebés recién nacidos controlan sus movimientos oculares.
Si te interesan los niños tan pequeños, es posible que también empieces a preocuparte
de que el “nacimiento” no sea el único momento significativo del que preocuparse. Si
Alice nace 3 semanas prematura y Bianca nace 1 semana tarde, ¿tendría sentido decir
que tienen “la misma edad” si las encontramos “2 horas después de nacer”? En cierto
sentido, sí. Por convención social, usamos el nacimiento como punto de referencia para
hablar de la edad en la vida cotidiana, ya que define el tiempo que la persona lleva
funcionando como una entidad independiente en el mundo. Pero desde una perspectiva
científica no es lo único que nos importa. Cuando pensamos en la biología de los seres
humanos, suele ser útil considerarnos organismos que han estado creciendo y madurando
desde su concepción, y desde esa perspectiva, Alice y Bianca no tienen la misma edad
en absoluto. Por lo tanto, es posible que queramos definir el concepto de “edad” de dos
maneras diferentes: el tiempo transcurrido desde la concepción y el tiempo transcurrido
desde el nacimiento. Cuando se trata de adultos no hay mucha diferencia, pero cuando
2.1. INTRODUCCIÓN A LA MEDICIÓN PSICOLÓGICA 25
Sin embargo, aunque hay muchas cuestiones que son específicas de cada proyecto de
investigación, hay algunos aspectos que son bastante generales.
Antes de continuar, quiero aclarar la terminología y, de paso, introducir un término más.
He aquí cuatro cosas diferentes que están estrechamente relacionadas entre sí:
• Un constructo teórico. Es aquello que se intenta medir, como “edad”, “sexo”
o una “opinión”. Un constructo teórico no se puede observar directamente y, a
menudo, son un poco vagos.
• Una medida. La medida se refiere al método o la herramienta que se utiliza
para realizar las observaciones. Una pregunta en una encuesta, una observación
del comportamiento o un escáner cerebral pueden considerarse medidas.
• Una operativización. El término “operativización” se refiere a la conexión lógica
entre la medida y el constructo teórico, o al proceso mediante el cual intentamos
derivar una medida a partir de un constructo teórico.
• Una variable. Finalmente, un nuevo término. Una variable es lo que obtenemos
cuando aplicamos nuestra medida a algo del mundo. Es decir, las variables son
los “datos” reales con los que terminamos en nuestros conjuntos de datos.
En la práctica, incluso los científicos tienden a difuminar la distinción entre estas cosas,
pero es muy útil intentar comprender las diferencias.
(a)
(b)
Table 2.2: Cómo llegaron 100 personas al trabajo hoy, una vista diferente
(a)
(b)
(a)
(b)
Response Number
(1) Temperatures are rising because
of human activity 51
(2) Temperatures are rising but we
don�t know why 20
(3) Temperatures are rising but not
because of humans 10
(4) Temperatures are not rising 19
los números son interpretables, pero la variable no tiene un valor cero “natural”. Un
buen ejemplo de una variable de escala de intervalo es medir la temperatura en grados
centígrados. Por ejemplo, si ayer hacía 15∘ y hoy 18∘ , la diferencia de 3∘ entre ambas
es realmente significativa. Además, esa diferencia de 3∘ es exactamente la misma que la
diferencia de 3∘ entre 7∘ y 10∘ . En resumen, la suma y la resta tienen sentido para las
variables de escala de intervalo.2
Sin embargo, fíjate que 0∘ no significa “ninguna temperatura”. En realidad significa “la
temperatura a la que se congela el agua”, lo cual es bastante arbitrario. En consecuencia,
no tiene sentido intentar multiplicar y dividir las temperaturas. Es incorrecto decir que
20∘ es el doble de caliente que 10∘ , del mismo modo que es extraño y carece de sentido
intentar afirmar que 20∘ es dos veces más caliente que -10∘ .
Veamos de nuevo un ejemplo más psicológico. Supongamos que me interesa analizar
cómo han cambiado las actitudes de los estudiantes universitarios de primer año con el
tiempo. Obviamente, voy a querer registrar el año en el que empezó cada estudiante.
Se trata de una variable de escala de intervalo. Un estudiante que empezó en 2003 llegó
5 años antes que un estudiante que empezó en 2008. Sin embargo, sería completamente
absurdo dividir 2008 entre 2003 y decir que el segundo estudiante empezó “1,0024 veces
más tarde” que el primero. Eso no tiene ningún sentido.
atura no es estrictamente una escala de intervalo, en el sentido de que la cantidad de energía necesaria
para calentar algo 3° depende de su temperatura actual. Por tanto, en el sentido que interesa a los
físicos, la temperatura no es en realidad una escala de intervalo. Pero sigue siendo un buen ejemplo,
así que voy a ignorar esta pequeña verdad incómoda.
30CHAPTER 2. UNA BREVE INTRODUCCIÓN AL DISEÑO DE INVESTIGACIÓN
Table 2.4: La relación entre las escalas de medida y la distinción discreta/continua. Las
celdas con una marca de verificación corresponden a cosas que son posibles
(a)
(b)
continuous discrete
nominal ✓
ordinal ✓
interval ✓ ✓
ratio ✓ ✓
Probablemente estas definiciones parezcan un poco abstractas, pero son bastante sencil-
las si vemos algunos ejemplos. Por ejemplo, el tiempo de respuesta es continuo. Si Alan
tarda 3,1 segundos y Ben tarda 2,3 segundos en responder a una pregunta, el tiempo
de respuesta de Cameron estará en el medio si tarda 3,0 segundos. Y, por supuesto,
también sería posible que David tardara 3,031 segundos en responder, lo que significa
que su TR estaría entre el de Cameron y el de Alan. Y aunque en la práctica sea imposi-
ble medir TR con tanta precisión, en principio es posible. Dado que siempre podemos
encontrar un nuevo valor de TR entre dos valores cualesquiera, consideramos que el TR
es una medida continua.
Las variables discretas ocurren cuando se infringe esta regla. Por ejemplo, las variables
de escala nominal siempre son discretas. No hay un tipo de transporte que se encuentre
“entre” los trenes y las bicicletas, no de la forma matemática estricta en que 2,3 se
encuentra entre 2 y 3. Por lo tanto, el tipo de transporte es discreto. Del mismo
modo, las variables de escala ordinal siempre son discretas. Aunque el “segundo lugar”
se encuentra entre el “primer lugar” y el “tercer lugar”, no hay nada que pueda estar
lógicamente entre el “primer lugar” y el “segundo lugar”. Las variables de escala de
intervalo y escala de razón pueden ir en cualquier dirección. Como vimos anteriormente,
el tiempo de respuesta (una variable de escala de razón) es continuo. La temperatura
en grados centígrados (una variable de escala de intervalo) también es continua. Sin
embargo, el año en que fuiste a la escuela (una variable de escala de intervalo) es
discreto. No hay ningún año entre 2002 y 2003. El número de preguntas que aciertas en
una prueba de verdadero o falso (una variable de escala de razón) también es discreto.
Dado que una pregunta de verdadero o falso no permite ser “parcialmente correcta”, no
hay nada entre 5/10 y 6/10. Table 2.4 resume la relación entre las escalas de medida y la
distinción discreta/continua. Las celdas con una marca de verificación corresponden a
cosas que son posibles. Intento insistir en este punto porque (a) algunos libros de texto
se equivocan y (b) la gente suele decir “variable discreta” cuando quiere decir “variable
de escala nominal”. Es una lástima.
te ayudan a pensar en las situaciones en las que debes tratar diferentes variables de
manera diferente. Nada mas.
Miremos un ejemplo clásico, tal vez el ejemplo clásico, de una herramienta de medición
psicológica: la escala Likert. La humilde escala Likert es el pan de cada día en el
diseño de encuestas. Tú misma has completado cientos, tal vez miles, de ellas y lo más
probable es que incluso hayas usado una. Supongamos que tenemos una pregunta de
encuesta parecida a esta:
¿Cuál de las siguientes opciones describe mejor su opinión sobre la afirmación de que
“todos los piratas son increíbles”?
1. Totalmente en desacuerdo
2. En desacuerdo
3. Ni de acuerdo ni en desacuerdo
4. De acuerdo
5. Totalmente de acuerdo
Este conjunto de ítems es un ejemplo de una escala Likert de 5 puntos, en la que se pide
a las personas que elijan entre varias (en este caso 5) posibilidades claramente ordenadas,
generalmente con un descriptor verbal dado en cada caso. Sin embargo, no es necesario
que todos los elementos se describan explícitamente. Este es un buen ejemplo de una
escala Likert de 5 puntos también:
1. Totalmente en desacuerdo
2.
3.
4.
5. Totalmente de acuerdo
Las escalas Likert son herramientas muy útiles, aunque algo limitadas. La pregunta
es ¿qué tipo de variable son? Obviamente son discretas, ya que no se puede dar una
respuesta de 2.5. Obviamente no son de escala nominal, ya que los ítems están ordenados;
y tampoco son escalas de razón, ya que no hay un cero natural.
¿Pero son escala ordinal o escala de intervalo? Uno de los argumentos dice que no
podemos demostrar que la diferencia entre “totalmente de acuerdo” y “de acuerdo”
sea del mismo tamaño que la diferencia entre “de acuerdo” y “ni de acuerdo ni en
desacuerdo”. De hecho, en la vida cotidiana es bastante obvio que no son lo mismo.
Esto sugiere que deberíamos tratar las escalas Likert como variables ordinales. Por otro
lado, en la práctica, la mayoría de los participantes parecen tomarse bastante en serio la
parte “en una escala del 1 al 5”, y tienden a actuar como si las diferencias entre las cinco
opciones de respuesta fueran bastante similares entre sí. Como consecuencia, muchos
investigadores tratan los datos de la escala Likert como una escala de intervalo.3 No es
una escala de intervalo, pero en la práctica se acerca lo suficiente como para pensar en
ella como si fuera una escala de cuasi-intervalo.
materias que enseño, Ciencia Cognitiva Computacional, tiene una estructura de evalu-
ación que tiene un componente de investigación y un componente de examen (además
de otras cosas). El componente del examen está destinado a medir algo diferente del
componente de investigación, por lo que la evaluación en su conjunto tiene una consisten-
cia interna baja. Sin embargo, dentro del examen hay varias preguntas que pretenden
(aproximadamente) medir las mismas cosas, y tienden a producir resultados similares.
Entonces, el examen por sí solo tiene una consistencia interna bastante alta. Lo que es
como debería ser. ¡Solo debes exigir fiabilidad en aquellas situaciones en las que deseas
medir lo mismo!
4 Sin embargo, hay muchos nombres diferentes que se utilizan. No voy a enumerarlos todos (no tendría
sentido hacerlo), salvo señalar que a veces se usa “variable de respuesta” donde he usado “resultado”.
Este tipo de confusión terminológica es muy común, me temo.
34CHAPTER 2. UNA BREVE INTRODUCCIÓN AL DISEÑO DE INVESTIGACIÓN
(a)
(b)
de no fumadores, podemos estar bastante seguras de que (a) fumar sí causa cáncer y
(b) somos asesinos.
Una distinción que vale la pena hacer entre dos tipos de investigación no experimental
es la diferencia entre investigación cuasi-experimental y estudios de casos. El
ejemplo que mencioné anteriormente, en el que queríamos examinar la incidencia de
cáncer de pulmón entre fumadores y no fumadores sin intentar controlar quién fuma y
quién no, es un diseño cuasi-experimental. Es decir, es lo mismo que un experimento
pero no controlamos los predictores (VIs). Podemos seguir utilizando la estadística para
analizar los resultados, pero tenemos que ser mucho más cuidadosos y circunspectos.
El enfoque alternativo, los estudios de casos, pretende ofrecer una descripción muy
detallada de uno o unos pocos casos. En general, no se puede usar la estadística para
analizar los resultados de los estudios de casos y suele ser muy difícil sacar conclusiones
generales sobre “la gente en general” a partir de unos pocos ejemplos aislados. Sin
embargo, los estudios de casos son muy útiles en algunas situaciones. En primer lugar,
hay situaciones en las que no se tiene otra alternativa. La neuropsicología se enfrenta
mucho a este problema. A veces, simplemente no se puede encontrar a mucha gente con
daño cerebral en un área específica del cerebro, así que lo único que se puede hacer es
describir los casos que sí se tienen con tanto detalle y cuidado como sea posible. Sin
embargo, los estudios de casos también tienen sus ventajas. Al no tener que estudiar
a tanta gente, se puede invertir mucho tiempo y esfuerzo en comprender los factores
específicos de cada caso. Esto es algo muy valioso. En consecuencia, los estudios de
casos pueden complementar los enfoques más orientados a la estadística que se ven en
los diseños experimentales y cuasi-experimentales. En este libro no hablaremos mucho
de los estudios de casos, pero sin embargo son herramientas muy valiosas.
36CHAPTER 2. UNA BREVE INTRODUCCIÓN AL DISEÑO DE INVESTIGACIÓN
El ejemplo clásico de este problema es el hecho de que una gran proporción de los estu-
dios de psicología utilizarán como participantes a estudiantes universitarios de psicología.
Obviamente, sin embargo, los investigadores no se preocupan solo por el estudiantado
de psicología. Se preocupan por la gente en general. Por ello, un estudio que utiliza
como participantes únicamente a estudiantes de psicología siempre conlleva el riesgo de
carecer de validez externa. Es decir, si hay algo “especial” en los estudiantes de psi-
cología que los diferencia de la población general en algún aspecto relevante, entonces
podemos comenzar a preocuparnos por la falta de validez externa.
Dicho esto, es absolutamente crítico darse cuenta de que un estudio que utiliza solo
estudiantes de psicología no necesariamente tiene un problema con la validez externa.
Volveré a hablar de esto más adelante, pero es un error tan común que lo mencionaré
aquí. La validez externa de un estudio se ve amenazada por la elección de la población
si (a) la población de la que tomas muestras de sus participantes es muy reducida
(por ejemplo, estudiantes de psicología), y (b) la población reducida de la que tomas
muestras es sistemáticamente diferente de la población general en algún aspecto que
sea relevante para el fenómeno psicológico que pretendes estudiar. La parte en cursiva
es la parte que mucha gente olvida. Es cierto que el alumnado de psicología difiere
de la población general en muchos aspectos, por lo que un estudio que utilice solo
estudiantes de psicología puede tener problemas con la validez externa. Sin embargo, si
esas diferencias no son muy relevantes para el fenómeno que estás estudiando, entonces
no hay de qué preocuparse. Para hacer esto un poco más concreto, aquí hay dos ejemplos
extremos:
• Quieres medir las “actitudes del público en general hacia la psicoterapia”, pero
todos tus participantes son estudiantes de psicología. Es casi seguro que este
estudio tendrá un problema con la validez externa.
• Quieres medir la efectividad de una ilusión visual y tus participantes son todos
estudiantes de psicología. Es poco probable que este estudio tenga un problema
con la validez externa.
Habiendo pasado los últimos dos párrafos centrándonos en la elección de los partici-
pantes, dado que es un tema importante que tiende a preocupar más a todos, vale la
pena recordar que la validez externa es un concepto más amplio. Los siguientes tam-
bién son ejemplos de cosas que podrían representar una amenaza para la validez externa,
según el tipo de estudio que estés realizando:
estadísticos sofisticados para lidiar con el factor de confusión. Debido a la existencia de estas soluciones
estadísticas al problema de los factores de confusión, a menudo nos referimos a un factor de confusión
que hemos medido y tratado como una covariable. Tratar con covariables es un tema más avanzado,
pero pensé en mencionarlo de pasada ya que es un poco reconfortante saber al menos que esto existe.
40CHAPTER 2. UNA BREVE INTRODUCCIÓN AL DISEÑO DE INVESTIGACIÓN
diferentes sobre el manejo del riesgo que las personas evaluadas en diciembre de
2010. ¿Cuál (si alguna) de estas refleja las creencias “verdaderas” de los par-
ticipantes? Creo que la respuesta es probablemente ambas. Las inundaciones de
Queensland cambiaron genuinamente las creencias del público australiano, aunque
posiblemente solo temporalmente. La clave aquí es que la “historia” de las per-
sonas evaluadas en febrero es bastante diferente a la de las personas evaluadas en
diciembre.
• Estás probando los efectos psicológicos de un nuevo medicamento contra la an-
siedad. Entonces lo que haces es medir la ansiedad antes de administrar el fármaco
(por ejemplo, por autoinforme y tomando medidas fisiológicas). Luego administras
la droga y luego tomas las mismas medidas. Sin embargo, en el medio, debido a
que tu laboratorio está en Los Ángeles, hay un terremoto que aumenta la ansiedad
de los participantes.
les va en la universidad. Resulta que les está yendo mucho mejor que el promedio, pero
no son los mejores de la clase en la universidad a pesar de que sí fueron los mejores
en bachillerato. ¿Que esta pasando? El primer pensamiento natural es que esto debe
significar que las clases de psicología deben tener un efecto adverso en esos estudiantes.
Sin embargo, si bien esa podría ser la explicación, es más probable que lo que estás
viendo sea un ejemplo de “regresión a la media”. Para ver cómo funciona, pensemos por
un momento qué se requiere para obtener la mejor calificación en una clase, sin importar
si esa clase es en bachillerato o en la universidad. Cuando tienes una clase grande, habrá
muchas personas muy inteligentes inscritas. Para sacar la mejor nota tienes que ser muy
inteligente, trabajar muy duro y tener un poco de suerte. El examen tiene que hacer
las preguntas correctas para tus habilidades idiosincrásicas, y tienes que evitar cometer
errores tontos (todos lo hacemos a veces) al responderlas. Y esa es la cuestión, mientras
que la inteligencia y el trabajo duro son transferibles de una clase a otra, la suerte no lo
es. Las personas que tuvieron suerte en la escuela secundaria no serán las mismas que
las que tuvieron suerte en la universidad. Esa es la definición misma de “suerte”. La
consecuencia de esto es que cuando seleccionas personas en los valores extremos de una
medición (los 20 mejores estudiantes), estás seleccionando por trabajo duro, habilidad
y suerte. Pero debido a que la suerte no se transfiere a la segunda medición (solo la
habilidad y el trabajo), se espera que todas estas personas bajen un poco cuando las
midas por segunda vez (en la universidad). Entonces sus puntuaciones retroceden un
poco, hacia todos los demás. Esta es la regresión a la media.
La regresión a la media es sorprendentemente común. Por ejemplo, si dos personas muy
altas tienen hijos, sus hijos tenderán a ser más altos que el promedio pero no tan altos
como los padres. Lo contrario sucede con los padres muy bajos. Dos padres muy bajos
tenderán a tener hijos pequeños, pero sin embargo esos niños tenderán a ser más altos
que los padres. También puede ser extremadamente sutil. Por ejemplo, se han realizado
estudios que sugieren que las personas aprenden mejor con comentarios negativos que
con comentarios positivos. Sin embargo, la forma en que las personas intentaron mostrar
esto fue dándoles un refuerzo positivo cada vez que lo hacían bien y un refuerzo negativo
cuando lo hacían mal. Y lo que se ve es que después del refuerzo positivo la gente tendía
a hacerlo peor, pero después del refuerzo negativo tendía a hacerlo mejor. ¡Pero fíjate
que aquí hay un sesgo de selección! Cuando a las personas les va muy bien, estás
seleccionando valores “altos”, por lo que debes esperar, debido a la regresión a la media,
que el rendimiento en la siguiente prueba sea peor, independientemente de si se da
refuerzo. De manera similar, después de una mala prueba, las personas tenderán a
mejorar por sí mismas. La aparente superioridad de la retroalimentación negativa es un
artefacto causado por la regresión a la media (ver Kahneman & Tversky (1973), para
discusión).
que data de 1907 (Pfungst, 1911). Clever Hans era un caballo que aparentemente podía
leer y contar y realizar otras hazañas de inteligencia similares a las de los humanos.
Después de que Clever Hans se hiciera famoso, los psicólogos comenzaron a examinar su
comportamiento más de cerca. Resultó que, como era de esperar, Hans no sabía hacer
matemáticas. Más bien, Hans estaba respondiendo a los observadores humanos que lo
rodeaban, porque los humanos sí sabían contar y el caballo había aprendido a cambiar
su comportamiento cuando la gente cambiaba el suyo.
La solución general al problema del sesgo del experimentador es participar en estudios
doble ciego, en los que ni el experimentador ni el participante saben en qué condición se
encuentra el participante ni cuál es el comportamiento deseado. Esto proporciona una
muy buena solución al problema, pero es importante reconocer que no es del todo ideal
y difícil de lograr a la perfección. Por ejemplo, la forma obvia en la que podría intentar
construir un estudio doble ciego es tener uno de mis estudiantes de doctorado (uno que
no sabe nada sobre el experimento) dirigiendo el estudio. Eso parece que debería ser
suficiente. La única persona (yo) que conoce todos los detalles (p. ej., las respuestas
correctas a las preguntas, las asignaciones de los participantes a las condiciones) no
interactúa con los participantes, y la persona que habla con la gente (el estudiante de
doctorado) no sabe nada. Excepto por la realidad de que es muy poco probable que
la última parte sea cierta. Para que el estudiante de doctorado pueda llevar a cabo el
estudio de manera efectiva, deben haber sido informados por mí, el investigador. Y,
como sucede, el estudiante también me conoce y sabe un poco acerca de mis creencias
generales sobre las personas y la psicología (p. ej., tiendo a pensar que los humanos son
mucho más inteligentes de lo que los psicólogos piensan). Como resultado de todo esto,
es casi imposible que el experimentador deje de saber un poco sobre las expectativas que
tengo. E incluso un poco de conocimiento puede tener un efecto. Supongamos que el ex-
perimentador transmite accidentalmente el hecho de que se espera que los participantes
lo hagan bien en esta tarea. Bueno, hay una cosa llamada “efecto Pigmalión”, donde si
esperas grandes cosas de las personas, tenderán a estar a la altura de las circunstancias.
Pero si esperas que fracasen, también lo harán. En otras palabras, las expectativas se
convierten en una profecía autocumplida.
psicólogo social y observar algunos de los roles que las personas pueden adoptar durante
un experimento, pero podría no adoptar si los eventos correspondientes estuvieran ocur-
riendo en el mundo real:
• El buen participante trata de ser demasiado útil para el investigador. Él o ella
busca descifrar las hipótesis del experimentador y confirmarlas.
• El participante negativo hace exactamente lo contrario del buen participante. Él
o ella busca romper o destruir el estudio o la hipótesis de alguna manera.
• El participante fiel es anormalmente obediente. Él o ella busca seguir las instruc-
ciones a la perfección, independientemente de lo que podría haber sucedido en un
entorno más realista.
• El participante aprensivo se pone nervioso acerca de ser evaluado o estudiado,
tanto que su comportamiento se vuelve muy antinatural o demasiado socialmente
deseable.
no pude evitar notar que parecen asumir que el investigador es honesto. Me parece
divertidísimo. Si bien la gran mayoría de los científicos son honestos, al menos según
mi experiencia, algunos no lo son.6 No solo eso, como mencioné anteriormente, los
científicos no son inmunes al sesgo de creencias. Es fácil para un investigador terminar
engañándose a sí mismo creyendo algo incorrecto, y esto puede llevarlos a realizar una
investigación sutilmente defectuosa y luego ocultar esos defectos cuando la escriben. Por
lo tanto, debes considerar no solo la posibilidad (probablemente poco probable) de un
fraude absoluto, sino también la posibilidad (probablemente bastante común) de que
la investigación esté “sesgada” sin querer. Abrí algunos libros de texto estándar y no
encontré mucha discusión sobre este problema, así que aquí está mi propio intento de
enumerar algunas formas en que pueden surgir estos problemas:
6Algunas personas podrían argumentar que si no eres honesto, entonces no eres un verdadero cientí-
fico. Supongo que tiene algo de verdad, pero eso es falso (busque la falacia “No hay verdadero escocés”).
El hecho es que hay muchas personas que están empleadas ostensiblemente como científicos, y cuyo
trabajo tiene todas las trampas de la ciencia, pero que son totalmente fraudulentas. Pretender que no
existen diciendo que no son científicos es solo un pensamiento confuso.
48CHAPTER 2. UNA BREVE INTRODUCCIÓN AL DISEÑO DE INVESTIGACIÓN
2.8 Resumen
En realidad, este capítulo no pretende proporcionar una discusión exhaustiva de los
métodos de investigación psicológica. Se necesitaría otro volumen tan largo como este
para hacer justicia al tema. Sin embargo, en la vida real, la estadística y el diseño de
estudios están tan estrechamente entrelazados que es muy útil discutir algunos de los
temas clave. En este capítulo, he discutido brevemente los siguientes temas:
• Introducción a la medición psicológica. ¿Qué significa operativizar un constructo
teórico? ¿Qué significa tener variables y tomar medidas?
• Escalas de medida y tipos de variables. Recuerda que hay dos distinciones difer-
entes aquí. Existe la diferencia entre datos discretos y continuos, y existe la difer-
encia entre los cuatro tipos de escala diferentes (nominal, ordinal, de intervalo y
de razón).
• Evaluación de la fiabilidad de una medida. Si mido “lo mismo” dos veces, ¿debería
esperar ver el mismo resultado? Sólo si mi medida es fiable. Pero, ¿qué significa
hablar de hacer “lo mismo”? Bueno, es por eso que tenemos diferentes tipos de
fiabilidad. Asegúrate de recordar cuáles son.
• El “rol” de las variables: predictores y resultados. ¿Qué papel juegan las variables
en un análisis? ¿Puedes recordar la diferencia entre predictores y resultados?
¿Variables dependientes e independientes? Etc.
• Diseños [de investigación experimental y no experimental]. ¿Qué hace que un
experimento sea un experimento? ¿Es una bonita bata blanca de laboratorio o
tiene algo que ver con el control del investigador sobre las variables?
• Evaluar la validez de un estudio. ¿Tu estudio mide lo que tú quieres? ¿Cómo
podrían salir mal las cosas? ¿Y es mi imaginación, o fue una lista muy larga de
posibles formas en que las cosas pueden salir mal?
Todo esto debería dejarte claro que el diseño del estudio es una parte fundamental de
la metodología de la investigación. Construí este capítulo a partir del librito clásico
50CHAPTER 2. UNA BREVE INTRODUCCIÓN AL DISEÑO DE INVESTIGACIÓN
de Campbell & Stanley (1963), pero, por supuesto, hay una gran cantidad de libros
de texto sobre diseños de investigación. Dedica unos minutos a tu motor de búsqueda
favorito y encontrarás docenas.
Part II
51
Chapter 3
En este capítulo hablaré de cómo empezar a utilizar jamovi. Hablaré brevemente sobre
cómo descargar e instalar jamovi, pero la mayor parte del capítulo se centrará en que
te familiarices con la interfaz gráfica de jamovi. Nuestro objetivo en este capítulo no
es aprender ningún concepto estadístico: solo trataremos de aprender cómo funciona
jamovi para sentirnos cómodas interactuando con el sistema. Para ello, dedicaremos
algo de tiempo a ver conjuntos de datos y variables. Al hacerlo, te harás una idea de
cómo es trabajar en jamovi.
Sin embargo, antes de entrar en detalles, merece la pena hablar un poco de por qué
quieres usar jamovi. Dado que estás leyendo esto, probablemente tengas tus propias
razones. Sin embargo, si esas razones son “porque es lo que se usa en mi clase de
estadística”, puede que merezca la pena explicar un poco por qué tu profesor o profesora
ha elegido usar jamovi para la clase. Por supuesto, no sé realmente por qué otras
personas eligen jamovi, así que realmente estoy hablando de por qué lo uso yo.
• Es algo obvio, pero vale la pena decirlo de todos modos: calcular los estadísticos
en un ordenador es más rápido, más fácil y más potente que hacerlo a mano.
Los ordenadores destacan en tareas repetitivas sin sentido, y muchos cálculos
estadísticos son repetitivos y sin sentido. Para la mayoría de la gente, la única
razón para hacer cálculos estadísticos con lápiz y papel es el aprendizaje. En mi
clase sugiero de vez en cuando hacer algunos cálculos de esa manera, pero el único
valor real es pedagógico. Hacer algunos cálculos te ayuda a “sentir” la estadística,
así que vale la pena hacerlo una vez. Pero sólo una vez.
• Hacer estadística en una hoja de cálculo convencional (por ejemplo, Microsoft
Excel) suele ser una mala idea a largo plazo. Aunque es probable que mucha
gente se sienta más familiarizada con ellas, las hojas de cálculo son muy limitadas
en cuanto a los cálculos que permiten realizar. Si te acostumbras a intentar hacer
análisis de datos de la vida real usando hojas de cálculo, te habrás metido en un
agujero muy profundo.
1 Fuente: Dismal Light (1968).
53
54 CHAPTER 3. PRIMEROS PASOS CON JAMOVI
trabajo que haremos en este libro. De hecho, durante la redacción de este libro lo actualicé varias veces
y no supuso ninguna diferencia con respecto al contenido de este libro.
3.2. ANÁLISIS 55
3.2 Análisis
Los análisis se pueden seleccionar desde la cinta o el menú de análisis en la parte
superior. Al seleccionar un análisis, aparecerá un “panel de opciones” para ese análisis
en particular, que te permitirá asignar diferentes variables a distintas partes del análisis y
seleccionar diferentes opciones. Al mismo tiempo, los resultados del análisis aparecerán
en el ‘Panel de resultados’ de la derecha y se actualizarán en tiempo real a medida que
modifiques las opciones.
Cuando hayas configurado correctamente el análisis, puedes descartar las opciones de
análisis haciendo clic en la flecha en la parte superior derecha del panel opcional. Si
56 CHAPTER 3. PRIMEROS PASOS CON JAMOVI
deseas volver a estas opciones, puedes hacer clic en los resultados que se produjeron. De
esta forma, puedes volver a cualquier análisis que tú (o, por ejemplo, un colega) hayas
creado anteriormente.
Si decides que ya no necesitas un análisis en particular, puedes eliminarlo con el menú
contextual de resultados. Haciendo clic con el botón derecho del ratón en los resultados
del análisis, aparecerá un menú y seleccionando ‘Análisis’ y luego ‘Eliminar’, se puede
eliminar el análisis. Pero hablaremos de esto más adelante. Primero, echemos un vistazo
más detallado a la vista de hoja de cálculo.
3.3.1 Variables
Las variables más utilizadas en jamovi son las ‘variables de datos’, que contienen datos
cargados desde un archivo de datos o ‘escritos’ por el usuario. Las variables de datos
pueden ser uno de varios niveles de medida (Figure 3.2).
también pueden tener un valor numérico. Estas variables se utilizan más a menudo
cuando se importan datos que codifican valores con números en lugar de texto. Por
ejemplo, una columna de un conjunto de datos puede contener los valores 1 para hombres
y 2 para mujeres. Es posible añadir etiquetas ‘legibles’ a estos valores con el editor de
variables (más información más adelante).
Las variables ordinales son como las variables Nominales, excepto que los valores tienen
un orden específico. Un ejemplo es una escala Likert en la que 3 es ‘totalmente de
acuerdo’ y -3 es ‘totalmente en desacuerdo’.
Las variables continuas son variables que existen en una escala continua. Por ejemplo,
la altura o el peso. También se denomina ‘Escala de intervalo’ o ‘Escala de razón’.
Además, también puedes especificar diferentes tipos de datos: las variables tienen un
tipo de datos de ‘Texto’, ‘Entero’ o ‘Decimal’.
Al empezar con una hoja de cálculo en blanco e introducir valores el tipo de variable
cambiará automáticamente en función de los datos que introduzcas. Esta es una buena
manera de hacerse una idea de qué tipos de variables van con qué tipo de datos. Del
mismo modo, al abrir un archivo de datos, Jamovi intentará adivinar el tipo de variable
a partir de los datos de cada columna. En ambos casos, este enfoque automático puede
no ser correcto y puede ser necesario especificar manualmente el tipo de variable con el
editor de variables.
El editor de variables se puede abrir seleccionando ‘Configuración’ en la pestaña de datos
o haciendo doble clic en la cabecera de la columna de variables. El editor de variables
permite cambiar el nombre de la variable y, en el caso de las variables de datos, el tipo
de variable, el orden de los niveles y la etiqueta que aparece en cada nivel. Los cambios
se pueden aplicar haciendo clic en la ‘marca’ situada en la parte superior derecha. Se
puede salir del editor de variables haciendo clic en la flecha ‘Ocultar’.
Se pueden insertar o añadir nuevas variables al conjunto de datos usando el botón
‘añadir’ de la cinta de datos. El botón ‘añadir’ también permite añadir variables calcu-
ladas.
jamovi para la nueva variable calculada como la puntuación z de len (del conjunto de
datos de ejemplo ‘Crecimiento de dientes’).
3.3.2.1 Funciones V
usas para elegir un archivo; en Windows se parece a una ventana del Explorador. En
Figure 3.5 se muestra un ejemplo del aspecto en un Mac. Asumo que estás familiarizada
con tu ordenador, así que no deberías tener ningún problema para encontrar el archivo
csv que quieres importar. Busca el que quieras y haz clic en el botón “Abrir”.
Hay algunas cosas que puedes comprobar para asegurarte de que los datos se importan
correctamente:
• Encabezamiento. ¿La primera fila del archivo contiene los nombres de cada vari-
able, una fila de “encabezado”? El archivo booksales.csv tiene un encabezado, así
que eso es un sí.
• Decimal. ¿Qué carácter se utiliza para especificar el punto decimal? En los países
de habla inglesa, es casi siempre un punto (es decir, .). Sin embargo, esto no es
universalmente cierto, muchos países europeos usan una coma.
• Cita. ¿Qué carácter se utiliza para denotar un bloque de texto? Suele ser una
comilla doble (“). Lo es para el archivo booksales.csv.
Figure 3.5: Un cuadro de diálogo en un Mac pidiéndote que selecciones el archivo csv que
jamovi debe intentar importar. Los usuarios de Mac reconocerán esto inmediatament,
es la forma habitual en que un Mac te pide que busques un archivo. Los usuarios
de Windows no verán esto, en su lugar verán la ventana del explorador habitual que
Windows siempre te ofrece cuando quiere que selecciones un archivo.
• valores perdidos. A menudo recibirás datos con valores omitidos. Por una razón
u otra, faltan algunas entradas en la tabla. El archivo de datos debe incluir un
valor “especial” para indicar que falta la entrada. Por defecto, jamovi asume que
este valor es 995 , tanto para datos numéricos como de texto, por lo que debes
asegurarte de que, cuando sea necesario, todos los valores que faltan en el archivo
csv se reemplacen con 99 (o -9999; lo que elijas) antes de abrir/importar el archivo
en jamovi. Una vez que hayas abierto/importado el archivo en jamovi, todos los
valores que falten se convertirán en celdas en blanco o sombreadas en la vista de
hoja de cálculo de jamovi. También puedes cambiar el valor que falta para cada
variable como una opción en la vista Datos - Configuración.
derecho (tres puntos verticales), pero esto solo funciona en el momento de importar los archivos de
datos a jamovi. El valor omitido por defecto en el conjunto de datos no debe ser un número válido
asociado a ninguna de las variables, por ejemplo, podrías usar -9999 ya que es poco probable que sea
un valor válido.
6 Sé que esto es una chapuza, pero funciona y espero que se arregle en una versión posterior de
jamovi.
3.7. INSTALACIÓN DE MÓDULOS ADICIONALES EN JAMOVI 63
continuos: los valores nominales a veces se pueden leer como ordinales o incluso contin-
uos. Es muy probable que a veces quieras convertir una variable de un nivel de medida
a otro. O, para utilizar el término correcto, quieres coaccionar la variable de una clase
a otra.
Para instalar módulos adicionales, haz clic en el + grande de la parte superior derecha
de la ventana de jamovi, selecciona “jamovi-library” y navega por los diversos módulos
adicionales disponibles. Elige los que quieras e instálalos, como en Figure 3.6. Así de
fácil. Podrás acceder a los módulos recién instalados desde la barra de botones “Análisis”.
Pruébalo… entre los módulos complementarios útiles para instalar se incluyen “scatr”
(añadido en “Descriptivos”) y 𝑅𝑗 .
3.9 Resumen
Todos los libros que intentan enseñar un nuevo programa de software estadístico a los
principiantes tienen que cubrir más o menos los mismos temas y más o menos en el
mismo orden. El nuestro no es una excepción así que, siguiendo la gran tradición de
hacerlo de la misma manera que todos los demás, este capítulo cubre los siguientes
temas:
• [Instalando jamovi]. Descargamos e instalamos jamovi y lo ponemos en marcha.
• Análisis. Nos orientamos muy brevemente hacia la parte de jamovi en la que
se realizan los análisis y aparecen los resultados, pero lo aplazamos hasta más
adelante en el libro.
• La hoja de cálculo. Dedicamos más tiempo a la parte de la hoja de cálculo de
jamovi, y consideramos diferentes tipos de variables y cómo calcular nuevas vari-
ables.
• Carga de datos en jamovi. También vimos cómo cargar archivos de datos en
jamovi.
• [Importanción de archivos de datos inusuales]. Luego vimos cómo abrir otros
archivos de datos, de diferentes tipos de archivos.
• Cambio de datos de un nivel a otro. Y vimos que a veces necesitamos coaccionar
datos de un tipo a otro.
• [Instalando módulos adicionales en jamovi]. La instalación de módulos adicionales
de la comunidad jamovi realmente amplía las capacidades de jamovi.
• Salir de jamovi. Por último, examinamos las buenas prácticas en términos de
guardar el conjunto de datos y los análisis cuando se ha terminado y se está a
punto de salir de jamovi.
Todavía no hemos llegado a nada que se parezca al análisis de datos. Quizá el próximo
capítulo nos acerque un poco más.
Part III
65
Chapter 4
Estadística descriptiva
Cuando se dispone de un nuevo conjunto de datos, una de las primeras tareas que hay
que hacer es encontrar la manera de resumirlos de forma compacta y fácil de entender.
En eso consiste la estadística descriptiva (a diferencia de la estadística inferencial).
De hecho, para mucha gente el término “estadística” es sinónimo de estadística descrip-
tiva. Este es el tema que trataremos en este capítulo, pero antes de entrar en detalles,
tomemos un momento para entender por qué necesitamos la estadística descriptiva. Para
ello, abramos el archivo aflsmall_margins y veamos qué variables están almacenadas en
él, véase Figure 4.1.
De hecho, aquí solo hay una variable, afl.margins. Nos centraremos un poco en esta
variable en este capítulo, así que será mejor que te diga lo que es. A diferencia de la
mayoría de los conjuntos de datos de este libro, se trata en realidad de datos reales
relativos a la Liga de fútbol australiana (AFL).1 La variable afl.margins contiene el
margen ganador (número de puntos) de los 176 partidos jugados en casa y fuera de casa
durante la temporada 2010.
Este resultado no facilita la comprensión de lo que dicen realmente los datos. Simple-
mente “mirar los datos” no es una forma muy eficaz de entenderlos. Para hacernos
una idea de lo que dicen realmente los datos, tenemos que calcular algunos estadísticos
descriptivos (este capítulo) y dibujar algunas imágenes bonitas (Chapter 5). Dado que
los estadísticos descriptivos son los más fáciles de los dos temas, comenzaremos con
ellos, pero sin embargo, vamos a mostrar un histograma de los datos de afl.margins, ya
que debería ayudar a tener una idea de cómo son los datos que estamos tratando de
describir, ver Figure 4.2. Hablaremos mucho más sobre cómo dibujar histogramas en
Section 5.1 en el próximo capítulo. Por ahora, basta con mirar el histograma y observar
que proporciona una representación bastante interpretable de los datos de afl.margins.
necesario saber nada sobre las reglas australianas para seguir esta sección.
67
68 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
Figure 4.1: una captura de pantalla de jamovi que muestra las variables almacenadas
en el archivo aflsmallmargins.csv
4.1. MEDIDAS DE TENDENCIA CENTRAL 69
Figure 4.2: Un histograma de los datos del margen ganador de la AFL 2010 (la variable
afl.margins). Como era de esperar, cuanto mayor sea el margen de victoria, con menos
frecuencia se tiende a verlo.
70 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
4.1.1 La media
La media de un conjunto de observaciones no es más que un promedio normal y corri-
ente. Se suman todos los valores y se dividen por el número total de valores. Los cinco
primeros márgenes ganadores de la AFL fueron 56, 31, 56, 8 y 32, por lo que la media
de estas observaciones es simplemente:
56 + 31 + 56 + 8 + 32 183
= = 36, 60
5 5
Por supuesto, esta definición de la media no es nueva para nadie. Los promedios (es
decir, las medias) se usan tan a menudo en la vida cotidiana que se trata de algo
bastante familiar. Sin embargo, dado que el concepto de media es algo que todo el
mundo entiende, usaré esto como excusa para empezar a introducir algo de la notación
matemática que los estadísticos utilizan para describir este cálculo y hablar de cómo se
harían los cálculos en jamovi.
La primera notación que hay que introducir es 𝑁 , que usaremos para referirnos al
número de observaciones que estamos promediando (en este caso, 𝑁 = 5). A contin-
uación, debemos adjuntar una etiqueta a las observaciones. Es habitual usar X para
esto y utilizar subíndices para indicar de qué observación estamos hablando. Es decir,
usaremos 𝑋1 para referirnos a la primera observación, 𝑋2 para referirnos a la segunda
observación, y así sucesivamente hasta llegar a 𝑋𝑁 para la última. O, para decir lo
mismo de una manera un poco más abstracta, usamos 𝑋𝑖 para referirnos a la i-ésima
observación. Solo para asegurarnos de que tenemos clara la notación, Table 4.1 enumera
las 5 observaciones en la variable afl.margins, junto con el símbolo matemático utilizado
para referirse a ella y el valor real al que corresponde la observación.
[Detalle técnico adicional2 ]
2 Bien, ahora intentemos escribir una fórmula para la media. Por tradición, usamos 𝑋̄ como notación
para la media. Así que el cálculo de la media podría expresarse mediante la siguiente fórmula:
𝑋 + 𝑋2 ... + 𝑋𝑁−1 + 𝑋𝑁
𝑋̄ = 1
𝑁
Esta fórmula es completamente correcta pero es terriblemente larga, por lo que usamos el símbolo del
sumatorio ∑ para acortarla.𝑎 Si quiero sumar las cinco primeras observaciones, podría escribir la suma
de la forma larga, 𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 + 𝑋5 o podría usar el símbolo de suma para acortarla a esto:
5
∑ 𝑋𝑖
𝑖=1
Tomado al pie de la letra, esto podría leerse como “la suma, tomada sobre todos los valores i del 1 al
5, del valor 𝑋𝑖 ”. Pero básicamente lo que significa es “sumar las primeras cinco observaciones”. En
cualquier caso, podemos usar esta notación para escribir la fórmula de la media, que tiene este aspecto:
1 𝑁
𝑋̄ = ∑𝑋
𝑁 𝑖=1 𝑖
Sinceramente, no creo que toda esta notación matemática ayude a aclarar el concepto de la media en
absoluto. De hecho, no es más que una forma elegante de escribir lo mismo que dije con palabras:
4.1. MEDIDAS DE TENDENCIA CENTRAL 71
(a)
(b)
4.1.3 La mediana
La segunda medida de tendencia central que la gente usa mucho es la mediana, y es
incluso más fácil de describir que la media. La mediana de un conjunto de observaciones
es simplemente el valor medio. Como antes, imaginemos que solo nos interesan los
primeros 5 márgenes ganadores de la AFL: 56, 31, 56, 8 y 32. Para calcular la mediana
ordenamos estos números en orden ascendente:
sumar todos los valores y dividirlos por el número total de elementos. Sin embargo, esa no es realmente
la razón por la que entré en tanto detalle. Mi objetivo era tratar de asegurarme de que todo el mundo
leyendo este libro tenga clara la notación que usaremos a lo largo del mismo: 𝑋̄ para la media, ∑ para
la idea del sumatorio, $ X_i$ para la i-ésima observación y 𝑁 para el número total de observaciones.
Vamos a reutilizar estos símbolos un poco, por lo que es importante que los entiendas lo suficientemente
bien como para poder “leer” las ecuaciones y poder ver que solo está diciendo “suma muchas cosas y
luego divide por otra cosa”. —𝑎 La elección de usar ∑ para denotar el sumatorio no es arbitraria. Es
la letra mayúscula griega sigma, que es el análogo de la letra 𝑆 en ese alfabeto. De manera similar,
hay un símbolo equivalente que se usa para denotar la multiplicación de muchos números, dado que las
multiplicaciones también se llaman “productos” usamos el símbolo ∏ para esto (la pi mayúscula griega,
que es el análogo de la letra 𝑃 ).
72 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
Figure 4.3: Descriptivos por defecto para los datos del margen ganador de AFL 2010
(la variable afl.margins)
Vamos a ampliar un poco esta última parte. Una consecuencia es que hay diferencias
sistemáticas entre la media y la mediana cuando el histograma es asimétrico (asimetría
y apuntamiento). Esto se ilustra en Figure 4.4. Observa que la mediana (a la derecha)
se sitúa más cerca del “cuerpo” del histograma, mientras que la media (a la izquierda)
se arrastra hacia la “cola” (donde están los valores extremos). Por poner un ejemplo
concreto, supongamos que Bob (ingreso $50 000), Kate (ingreso $60 000) y Jane (ingreso
$65 000) están sentados en una mesa. La renta media de la mesa es $58,333 y la renta
mediana es $60,000. Entonces Bill se sienta con ellos (ingresos $100,000,000). La renta
media ha subido a $25,043,750 pero la mediana sube solo a $62,500. Si lo que te interesa
es ver la renta total en la tabla, la media podría ser la respuesta correcta. Pero si lo
que te interesa es lo que se considera una renta típica en la mesa, la mediana sería una
mejor opción.
4.1.6 Moda
La moda de una muestra es muy sencilla. Es el valor que aparece con más frecuencia.
Podemos ilustrar la moda utilizando una variable diferente de la AFL: ¿quién ha jugado
más finales? Abre el archivo de finalistas de aflsmall y echa un vistazo a la variable
afl.finalists, ver Figure 4.5. Esta variable contiene los nombres de los 400 equipos que
jugaron en las 200 finales disputadas durante el período de 1987 a 2010.
Lo que podríamos hacer es leer las 400 entradas y contar el número de veces en las
que aparece el nombre de cada equipo en nuestra lista de finalistas, produciendo así
una tabla de frecuencias. Sin embargo, sería una tarea aburrida y sin sentido: ex-
actamente el tipo de tarea para la que los ordenadores son excelentes. Así que usemos
jamovi para que lo haga por nosotros. En ‘Exploración’ - ‘Descriptivos’, haz clic en la
pequeña casilla de verificación etiquetada como ‘Tablas de frecuencias’ y obtendrás algo
como Figure 4.6.
Ahora que tenemos nuestra tabla de frecuencias, podemos mirarla y ver que, en los
24 años de los que tenemos datos, Geelong ha jugado más finales que cualquier otro
equipo. Por lo tanto, la moda de los datos de afl.finalists es “Geelong”. Podemos ver
que Geelong (39 finales) jugó más finales que cualquier otro equipo durante el período
1987-2010. También vale la pena señalar que en la tabla ‘Descriptivos’ no se calculan
los resultados de Media, Mediana, Mínimo o Máximo. Esto se debe a que la variable
afl.finalists es una variable de texto nominal, por lo que no tiene sentido calcular estos
valores.
Una última observación sobre la moda. Aunque la moda se calcula con mayor frecuencia
cuando se tienen datos nominales, porque las medias y las medianas son inútiles para
ese tipo de variables, hay algunas situaciones en las que realmente se desea conocer la
moda de una variable de escala ordinal, de intervalo o de escala de razón. Por ejemplo,
76 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
Figure 4.5: Una captura de pantalla de jamovi que muestra las variables almacenadas
en el archivo aflsmall finalists.csv
4.2. MEDIDAS DE VARIABILIDAD 77
Figure 4.6: Una captura de pantalla de jamovi que muestra la tabla de frecuencias para
la variable afl.finalists
volvamos a nuestra variable afl.margins. Esta variable es claramente una escala de razón
(si no te queda claro, puede que te ayude volver a leer la sección sobre Section 2.2), por
lo que en la mayoría de las situaciones la media o la mediana es la medida de tendencia
central que quieres. Pero considera esta situación: un amigo te ofrece una apuesta y elige
un partido de fútbol al azar. Sin saber quién juega, debes adivinar el margen ganador
exacto. Si aciertas, ganas $50. Si no aciertas, pierdes $1. No hay premios de consolación
por “casi” acertar. Tienes que acertar exactamente el margen ganador exacto. Para
esta apuesta, la media y la mediana no te sirven para nada. Debes apostar por la moda.
Para calcular la moda de la variable afl.margins en jamovi, vuelve a ese conjunto de
datos y en la pantalla ‘Exploración’ - ‘Descriptivos’ verás que puedes ampliar la sección
marcada como ‘Estadísticas’. Haz clic en la casilla de verificación marcada como ‘Moda’
y verás el valor modal presentado en la tabla ‘Descriptivos’, como en Figure 4.7. Así,
los datos de 2010 sugieren que deberías apostar por un margen de 3 puntos.
Figure 4.7: Una captura de pantalla de jamovi que muestra el valor modal para la
variable afl.margins
4.2.1 Rango
Los estadísticos que hemos discutido hasta ahora se relacionan con la tendencia central.
Es decir, todos hablan sobre qué valores están “en el medio” o “populares” en los datos.
Sin embargo, la tendencia central no es el único tipo de resumen estadístico que queremos
calcular. Lo segundo que realmente queremos es una medida de la variabilidad de los
datos. Es decir, ¿qué tan “dispersos” están los datos? ¿Qué tan “lejos” de la media
o mediana tienden a estar los valores observados? Por ahora, supongamos que los
datos son escala de intervalo o razón, y continuaremos usando los datos de afl.margins.
Usaremos estos datos para discutir varias medidas diferentes de propagación, cada una
con diferentes fortalezas y debilidades.
El rango de una variable es muy sencillo. Es el valor mayor menos el valor menor. Para
los datos de márgenes ganadores de la AFL, el valor máximo es 116 y el valor mínimo es
0. Aunque el rango es la forma más sencilla de cuantificar la noción de “variabilidad”,
es una de las peores. Recuerda de nuestra discusión sobre la media que queremos que
nuestra medida de resumen sea robusta. Si el conjunto de datos tiene uno o dos valores
extremadamente malos, nos gustaría que nuestros estadísticos no se vean excesivamente
influidos por estos casos. Por ejemplo, en una variable que contenga valores atípicos
muy extremos
-100, 2, 3, 4, 5, 6, 7, 8, 9, 10
está claro que el rango no es robusto. Esta variable tiene un rango de 110, pero si se
4.2. MEDIDAS DE VARIABILIDAD 79
Figure 4.8: Una captura de pantalla de jamovi que muestra los cuartiles para la variable
afl.margins
4.2. MEDIDAS DE VARIABILIDAD 81
(a)
(b)
deviation
from absolute
English notation value mean deviation
notation: 𝑖 𝑋𝑖 𝑋𝑖 − 𝑋̄ ∣ 𝑋𝑖 − 𝑋̄ ∣
1 56 19.4 19.4
2 31 -5.6 5.6
3 56 19.4 19.4
4 8 -28.6 28.6
5 32 -4.6 4.6
4.2.4 Variancia
Aunque la medida de la desviación absoluta media tiene su utilidad, no es la mejor
medida de variabilidad que se puede utilizar. Desde una perspectiva puramente
matemática, hay algunas razones sólidas para preferir las desviaciones al cuadrado en
lugar de las desviaciones absolutas. Si lo hacemos obtenemos una medida llamada
variancia, que tiene muchas propiedades estadísticas realmente buenas que voy a
4 Sin embargo, aunque nuestros cálculos para este pequeño ejemplo han llegado a su fin, nos quedan un
par de cosas de las que hablar. En primer lugar, deberíamos intentar escribir una fórmula matemática
adecuada. Pero para ello necesito una notación matemática para referirme a la desviación absoluta
media. “Desviación absoluta media” y “desviación absoluta mediana” tienen el mismo acrónimo (MAD
en inglés), lo que genera cierta ambigüedad, así que mejor me invento algo diferente para la desviación
absoluta media. Lo que haré es usar DAP en su lugar, abreviatura de desviación absoluta promedio.
Ahora que tenemos una notación inequívoca, esta es la fórmula que describe lo que acabamos de calcular:
1 𝑁
𝐴𝐴𝐷(𝑋) = ∑ ∣ 𝑋𝑖 − 𝑋̄ ∣= 15.52
𝑁 𝑖=1
82 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
Table 4.3: medidas de variabilidad para los cinco primeros juegos de la AFL
(a)
(b)
deviation
from absolute
English maths: value mean deviation
notation: 𝑖 𝑋𝑖 𝑋𝑖 − 𝑋̄ (𝑋𝑖 − 𝑋)̄ 2
1 56 19.4 376.36
2 31 -5.6 31.36
3 56 19.4 376.36
4 8 -28.6 817.96
5 32 -4.6 21.16
ignorar,5 y un defecto psicológico del que voy a hacer un gran problema en un momento.
La variancia de un conjunto de datos 𝑋 a veces se escribe como Var( 𝑋 ), pero se
denota más comúnmente como 𝑠2 (la razón de esto se aclarará en breve).
[Detalle técnico adicional6 ]
Ahora que ya tenemos la idea básica, veamos un ejemplo concreto. Una vez más,
utilizaremos como datos los cinco primeros juegos de la AFL. Si seguimos el mismo
planteamiento que la última vez, obtendremos la información que se muestra en Ta-
ble 4.3.
Esa última columna contiene todas nuestras desviaciones al cuadrado, así que todo lo que
tenemos que hacer es promediarlas. Si lo hacemos a mano, es decir, con una calculadora,
obtenemos una variancia de 324, 64. Emocionante, ¿verdad? Por el momento, vamos a
ignorar la pregunta candente que probablemente todas estáis pensando (es decir, ¿qué
diablos significa realmente una variancia de $ 324.64 $?) Y en su lugar hablemos un poco
más sobre cómo hacer los cálculos en jamovi, porque esto revelará algo muy extraño.
Inicia una nueva sesión de jamovi haciendo clic en el botón del menú principal (tres líneas
horizontales en la esquina superior izquierda) y seleccionan ‘Nuevo’. Ahora escribe los
cinco primeros valores del conjunto de datos de afl.margins en la columna A (56, 31 , 56,
8, 32. Cambia el tipo de variable a ‘Continua’ y, en ‘Descriptivas’, haz clic en la casilla
de verificación ‘Variancia’ y obtendrás los mismos valores de variancia que calculamos a
5 Bueno, mencionaré muy brevemente la que me parece más guay, para una definición muy particular
de “guay”, claro. Las variancias son aditivas. Esto es lo que eso significa. Supongamos que tengo dos
variables 𝑋 y 𝑌 , cuyas variancias son 𝑉 𝑎𝑟(𝑋) y 𝑉 𝑎𝑟(𝑌 ) respectivamente. Ahora imagina que quiero
definir una nueva variable Z que sea la suma de las dos, 𝑍 = 𝑋 + 𝑌 . Resulta que la variancia de 𝑍 es
igual a 𝑉 𝑎𝑟(𝑋) + 𝑉 𝑎𝑟(𝑌 ). Esta es una propiedad muy útil, pero no es cierta para las otras medidas
de las que hablo en esta sección.
6 La fórmula que usamos para calcular la variancia de un conjunto de observaciones es la siguiente:
1 𝑁 ̄ 2
𝑉 𝐴𝑅(𝑋) = ∑(𝑋 − 𝑋)
𝑁 𝑖=1 𝑖
Como puedes ver, es básicamente la misma fórmula que usamos para calcular la desviación absoluta
media, salvo que en lugar de usar “desviaciones absolutas” usamos “desviaciones al cuadrado”. Es por
esta razón que la variancia a veces se denomina “desviación cuadrática media”.
4.2. MEDIDAS DE VARIABILIDAD 83
mano (324, 64). No, espera, obtienes una respuesta completamente diferente ($ 405.80
$) - mira Figure 4.9. Eso es muy raro. ¿Jamovi no funciona? ¿Es un error tipográfico?
¿Soy idiota?
Figure 4.9: Captura de pantalla de jamovi que muestra la variancia de los 5 primeros
valores de la variable afl.margins
Sin embargo, como habrás adivinado por nuestra discusión sobre la variancia, lo que
jamovi calcula en realidad es ligeramente diferente a la fórmula anterior. Al igual que
vimos con la variancia, lo que jamovi calcula es una versión que divide por 𝑁 − 1 en
lugar de 𝑁 .
[Detalle técnico adicional10 ]
Interpretar las desviaciones estándar es un poco más complejo. Como la desviación
estándar se obtiene a partir de la variancia, y la variancia es una cantidad que tiene
poco o ningún significado para nosotros, los humanos, la desviación estándar no tiene
una interpretación sencilla. En consecuencia, la mayoría de nosotras nos basamos en
una simple regla empírica. En general, cabe esperar que el 68 % de los datos se sitúen
dentro de 1 desviación estándar de la media, el 95 % de los datos dentro de 2 desviaciones
estándar de la media y el 99,7 % de los datos dentro de 3 desviaciones estándar de la
media. Esta regla suele funcionar bastante bien la mayoría de las veces, pero no es
exacta. En realidad, se calcula basándose en la suposición de que el histograma es
simétrico y tiene “forma de campana”.[^04.5] Como puedes ver en el histograma de
márgenes ganadores de la AFL en Figure 4.2, esto no es exactamente cierto en nuestros
datos. Aun así, la regla es aproximadamente correcta. Resulta que el 65,3 % de los
datos de los márgenes de la AFL caen dentro de una desviación estándar de la media.
Esto se muestra visualmente en Figure 4.10.
de cantidades desconocidas de una muestra] me referiré a esta nueva cantidad como 𝜎̂ (léase como:
“sombrero sigma”), y la fórmula para esto es:
√ 𝑁
√ 1
𝜎̂ = √ ̄ 2
∑(𝑋 − 𝑋)
𝑁 − 1 𝑖=1 𝑖
⎷
86 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
datos, por lo que se puede interpretar bastante bien. En situaciones en las que la
media es la medida de tendencia central, esta es la medida por defecto. Es, con
mucho, la medida de variación más popular.
En resumen, el RIC y la desviación estándar son fácilmente las dos medidas más uti-
lizadas para informar de la variabilidad de los datos. Pero hay situaciones en las que
se utilizan las otras. Las he descrito todas en este libro porque es muy probable que te
encuentres con la mayoría de ellas en alguna parte.
1 𝑁 ̄ 3
𝑎𝑠𝑖𝑚𝑒𝑡𝑟𝑎(𝑋) = ∑(𝑋 − 𝑋)
𝑁 𝜎̂ 3 𝑖=1 𝑖
Figure 4.10: Ilustración de la desviación estándar de los datos de los márgenes ganadores
de la AFL. Las barras sombreadas del histograma muestran la proporción de datos que
se sitúan dentro de una desviación estándar de la media. En este caso, el 65,3 % del
conjunto de datos se encuentra dentro de este intervalo, lo que es bastante consistente
con la “regla de aproximadamente el 68%” comentada en el texto principal.
88 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
(a)
(b)
La última medida a la que a veces se hace referencia, aunque muy raramente en la prác-
tica, es el apuntamiento de un conjunto de datos. En pocas palabras, el apuntamiento
es una medida de lo delgadas o gruesas que son las colas de una distribución, como se
ilustra en Figure 4.12. Por convención, decimos que la “curva normal” (líneas negras)
tiene apuntamiento cero, por lo que el grado de apuntamiento se evalúa en relación con
esta curva.
En esta figura, los datos de la izquierda tienen una distribución bastante plana, con
colas finas, por lo que el apuntamiento es negativo y decimos que los datos son plat-
icúrticos. Los datos de la derecha tienen una distribución con colas gruesas, por lo que
el apuntamiento es positivo y decimos que los datos son leptocúrticos. Pero los datos
del medio no tienen colas gruesas ni gordas, por lo que decimos que son mesocúrticos y
tienen apuntamiento cero. Esto se resume en Table 4.4:
[Detalle técnico adicional12 ]
Más concretamente, jamovi tiene una casilla de verificación para el apuntamiento justo
debajo de la casilla de verificación para la asimetría, y esto da un valor para el apun-
tamiento de 0.101 con un error estándar de 0.364. Esto significa que los datos de
márgenes ganadores de la AFL tienen solo un pequeño apuntamiento, lo cual está bien.
para la variancia y la asimetría. Salvo que donde la variancia incluía desviaciones al cuadrado y la
asimetría incluía desviaciones al cubo, la curtosis implica elevar las desviaciones a la cuarta potencia: 𝑏
1 𝑁 ̄ 4−3
𝑐𝑢𝑟𝑡𝑜𝑠𝑖𝑠(𝑋) = ∑(𝑋 − 𝑋)
𝑁 𝜎̂ 4 𝑖=1 𝑖
Lo sé, a mí tampoco me interesa mucho. — 𝑏 El “-3” es algo que los estadísticos añaden para asegurarse
de que la curva normal tenga un apuntamiento cero. Parece un poco estúpido poner un “-3” al final de
la fórmula, pero existen buenas razones matemáticas para hacerlo.
90 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
Platykurtic Leptokurtic
Mesokurtic
("thin tails") ("fat tails")
encontrar una descripción completa de los datos al principio de ese capítulo). Vamos a
cargarlo y ver lo que tenemos (Figure 4.13):
Evidentemente, había tres fármacos: un placebo, algo llamado “anxifree” y algo llamado
“joyzepam”, y cada fármaco se le administró a 6 personas. Hubo 9 personas tratadas
con terapia cognitiva conductual (TCC) y 9 personas que no recibieron tratamiento
psicológico. Y podemos ver al mirar las ‘Descriptivas’ de la variable mood.gain que la
mayoría de las personas mostraron una mejora en el estado de ánimo (𝑚𝑒𝑑𝑖𝑎 = 0.88),
aunque sin saber cuál es la escala aquí es difícil decir mucho más que eso. Aún así, no
está nada mal. En general, creo que he aprendido algo.
También podemos seguir adelante y ver otros estadísticos descriptivos, y esta vez por
separado para cada tipo de terapia. En jamovi, marca Desviación Estándar, Asimetría
y Apuntamiento en las opciones de ‘Estadísticas’. Al mismo tiempo, mueve la variable
de terapia al cuadro ‘Dividir por’ y deberías obtener algo como Figure 4.14.
¿Qué ocurre si tienes múltiples variables de agrupación? Supongamos que deseas obser-
var el aumento medio del estado de ánimo por separado para todas las combinaciones
posibles de fármaco y terapia. Es posible hacerlo añadiendo otra variable, fármaco, en
el cuadro ‘Dividir por’. Fácil, aunque a veces si divides demasiado no hay suficientes
datos en cada combinación de desglose para hacer cálculos significativos. En este caso,
jamovi lo indica diciendo algo como NaN o Inf. 13
Figure 4.13: Captura de pantalla de jamovi que muestra las variables almacenadas en
el archivo clinictrial.csv
4.5. PUNTUACIONES ESTÁNDAR 93
Figure 4.14: Captura de pantalla de jamovi que muestra descriptivos divididos por tipo
de terapia
describir mi mal humor en términos de la distribución general del mal humor de los seres
humanos, es la idea cualitativa a la que intenta llegar la estandarización. Una forma de
hacerlo es hacer exactamente lo que acabo de mostrar y describirlo todo en términos de
percentiles. Sin embargo, el problema es que “estás solo en la cima”. Supongamos que
mi amigo solo había recogido una muestra de 1000 personas (todavía es una muestra
bastante grande a efectos de probar un nuevo cuestionario, me gustaría añadir), y esta
vez hubiera obtenido, digamos, una media de 16 sobre 50 con una desviación estándar
de 5. El problema es que es casi con toda seguridad ni una sola persona en esa muestra
sería tan gruñona como yo.
Sin embargo, no todo está perdido. Un enfoque diferente es convertir mi puntuación
de mal humor en una puntuación estándar, también conocida como puntuación z.
La puntuación estándar se define como el número de desviaciones estándar por encima
de la media en la que se encuentra mi puntuación de mal humor. Para expresarlo en
“pseudomatemáticas”, la puntuación estándar se calcula así:
𝑋𝑖 − 𝑋̄
𝑧𝑖 =
𝜎̂
94 CHAPTER 4. ESTADÍSTICA DESCRIPTIVA
Así que, volviendo a los datos de mal humor, ahora podemos transformar el mal humor
en bruto de Dani en una puntuación de mal humor estandarizada.
35 − 17
𝑧= = 3, 6
5
Para interpretar este valor, recuerda la heurística aproximada que proporcioné en la
sección sobre Desviación estándar en la que señalé que se espera que el 99,7 % de los
valores se encuentran dentro de 3 desviaciones estándar de la media. Así que el hecho de
que mi mal humor corresponda a una puntuación z de 3,6 indica que soy muy gruñona.
De hecho, esto sugiere que soy más gruñóna que el 99,98% de las personas. Me parece
correcto.
Además de permitirte interpretar una puntuación bruta en relación con una población
más amplia (y, por tanto, darle sentido a variables que se sitúan en escalas arbitrarias),
las puntuaciones estándar cumplen una segunda función útil. Las puntuaciones están-
dar se pueden comparar entre sí en situaciones en las que las puntuaciones brutas no
pueden. Supongamos, por ejemplo, que mi amigo también tiene otro cuestionario que
mide la extraversión utilizando un cuestionario de 24 ítems. La media general de esta
medida resulta ser 13 con una desviación estándar de 4 y yo obtuve una puntuación de
2. Como puedes imaginar, no tiene mucho sentido intentar comparar mi puntuación
bruta de 2 en el cuestionario de extraversión con mi puntuación bruta de 35 en el cues-
tionario de mal humor. Las puntuaciones brutas para las dos variables son “sobre” cosas
fundamentalmente diferentes, así que sería como comparar manzanas con naranjas.
¿Y las puntuaciones estándar? Bueno, esto es un poco diferente. Si calculamos las
puntuaciones estándar obtenemos (𝑧 = (35−17)5 = 3, 6) para el mal humor y (𝑧 = (2−13)
4 =
−2, 75) para la extraversión. Estos dos números se pueden comparar entre sí.15 Soy
mucho menos extrovertida que la mayoría de la gente (𝑧 = −2, 75) y mucho más gruñóna
que la mayoría de la gente (𝑧 = 3, 6). Pero el alcance de mi rareza es mucho más extremo
en el caso del mal humor, ya que 3, 6 es un número mayor que 2, 75. Dado que cada
puntuación estandarizada es una afirmación sobre el lugar que ocupa una observación
en relación con su propia población, es posible comparar puntuaciones estandarizados
entre variables completamente diferentes.
4.6 Resumen
Calcular algunos estadísticos descriptivos básicos es una de las primeras cosas que se
hacen cuando se analizan datos reales, y los estadísticos descriptivos son mucho más
sencillos de entender que los estadísticaos inferenciales, así que, como cualquier otro libro
de texto de estadística, he empezado con los descriptivos. En este capítulo, hablamos
de los siguientes temas:
• Medidas de tendencia central. En términos generales, las medidas de tendencia
central indican dónde se encuentran los datos. Hay tres medidas que suelen apare-
cer en la literatura: la media, la mediana y la moda.
15 Aunque suele estar justificada con cautela. No siempre se da el caso de que una desviación estándar
en la variable A corresponda al mismo “tipo” de cosas que una desviación estándar en la variable B. Usa
el sentido común cuando intentes determinar si las puntuaciones z de dos variables se pueden comparar
significativamente o no.
4.6. RESUMEN 95
Dibujando gráficos
97
98 CHAPTER 5. DIBUJANDO GRÁFICOS
5.1 Histogramas
Comencemos con el humilde histograma. Los histogramas son una de las formas más
sencillas y útiles de visualizar datos. Tienen más sentido cuando tienes una variable de
escala de intervalo o razón (p. ej., los datos de afl.margins de Chapter 4 y lo que quieres
hacer es obtener una impresión general de la variable. La mayoría probablemente sabéis
cómo funcionan los histogramas). Funcionan, ya que se usan mucho, pero para que
estén completos, los describiré. Todo lo que debes hacer es dividir los valores posibles
en contenedores y luego contar el número de observaciones que caen dentro de cada
contenedor. Este conteo se conoce como la frecuencia o densidad del contenedor y se
muestra como una barra vertical.En los datos de márgenes ganadores de la AFL, hay 33
juegos en los que el margen ganador fue inferior a 10 puntos y es este hecho el que está
representado por la altura de la barra más a la izquierda que mostramos anteriormente
en Chapter 4, Figure 4.2. Con los gráficos anteriores, usamos un paquete de trazado
avanzado en R que, por ahora, va más allá de la capacidad de jamovi. Pero jamovi
nos acerca, y dibujar este histograma en jamovi es bastante sencillo. Abre las opciones
de ‘gráficos’ en ‘Exploración’ - ‘Descriptivas’ y haz clic en la casilla de verificación
‘histograma’, como en Figure 5.1. jamovi por defecto etiqueta el eje y como ‘densidad’ y
el eje x con el nombre de la variable. Los contenedores se seleccionan automáticamente
y no hay información de escala o conteo en el eje y, a diferencia de la Figure 4.2 anterior.
Pero esto no importa demasiado porque después de todo lo que realmente nos interesa
es nuestra impresión de la forma de la distribución: ¿se distribuye normalmente o hay
sesgo o curtosis? Nuestras primeras impresiones de estas características provienen de
dibujar un histograma.
Una característica adicional que proporciona jamovi es la capacidad de trazar una curva
de ‘Densidad’. Puedes hacer esto haciendo clic en la casilla de verificación ‘Densidad’
debajo de las opciones de ‘Gráficos’ (y desmarcando ‘Histograma’), y esto nos da el
gráfico que se muestra en Figure 5.3. Un gráfico de densidad visualiza la distribución
de datos en un intervalo continuo o período de tiempo. Este gráfico es una variación
de un histograma que usa suavizado de kernel para trazar valores, lo que permite
distribuciones más suaves al suavizar el ruido. Los picos de una gráfica de densidad
ayudan a mostrar dónde se concentran los valores en el intervalo. Una ventaja que
tienen los gráficos de densidad sobre los histogramas es que son mejores para determinar
la forma de distribución porque no se ven afectados por la cantidad de contenedores
utilizados (cada barra utilizada en un histograma típico). Un histograma compuesto
por solo 4 contenedores no produciría una forma de distribución lo suficientemente
distinguible como lo haría un histograma de 20 contenedores. Sin embargo, con gráficos
de densidad, esto no es un problema.
Aunque esta imagen necesitaría mucha limpieza para hacer un buen gráfico de pre-
sentación (es decir, uno que incluirías en un informe), hace un buen trabajo al describir
los datos. De hecho, la gran fortaleza de un histograma o gráfico de densidad es que (uti-
5.1. HISTOGRAMAS 99
100 metres
Castle St E
Oxford Market Oxford St #2
Oxford St #1
Gt Marlborough
Crown Chapel
Broad St
Dean St
So Soho
Briddle St
Warwick
Vigo St Coventry St
Figure 5.1: Redibujo estilizado del mapa original del cólera de John Snow. Cada pe-
queño cuadrado naranja representa la ubicación de una muerte por cólera y cada círculo
azul muestra la ubicación de una bomba de agua. Como se aprecia claramente en el
gráfico, el brote de cólera se concentra en el surtidor de la calle Broad.
100 CHAPTER 5. DIBUJANDO GRÁFICOS
Figure 5.2: pantalla jamovi que muestra la casilla de verificación del histograma
lizado correctamente) muestra la distribución completa de los datos, por lo que puedes
tener una idea bastante clara de cómo se ve. La desventaja de los histogramas es que
no son muy compactos. A diferencia de algunas de las otras tramas de las que hablaré,
es difícil meter 20-30 histogramas en una sola imagen sin abrumar al espectador. Y, por
supuesto, si tus datos son de escala nominal, los histogramas son inútiles.
Una variación del diagrama de caja tradicional es el diagrama de violín. Los diagramas
de violín son similares a los diagramas de caja, excepto que también muestran la den-
104 CHAPTER 5. DIBUJANDO GRÁFICOS
sidad de probabilidad de kernel de los datos en diferentes valores. Por lo general, los
diagramas de violín incluirán un marcador para la mediana de los datos y un cuadro
que indica el rango intercuartílico, como en los diagramas de caja estándar. En jamovi,
puedes conseguir este tipo de funcionalidad marcando las casillas de verificación ‘Violín’
y ‘Box plot’. Consulta Figure 5.5, que también tiene activada la casilla de verificación
‘Datos’ para mostrar los puntos de datos reales en el gráfico. Sin embargo, esto hace
que el gráfico esté demasiado recargado, en mi opinión. La claridad es simplicidad, por
lo que en la práctica sería mejor usar un simple diagrama de caja.
Figure 5.6: captura de pantalla de jamovi que muestra la ventana ‘Dividir por’
Figure 5.7: diagramas de caja múltiples trazados en jamovi, para las variables de margen
por año
106 CHAPTER 5. DIBUJANDO GRÁFICOS
Figure 5.8: Un diagrama de caja que muestra dos valores atípicos muy sospechosos
5.2. DIAGRAMAS DE CAJA 107
aquellas observaciones que pasan el filtro. Una buena manera de identificar rápidamente
qué observaciones son estas es decirle a jamovi que produzca una ‘Tabla de frecuencia’
(en la ventana ‘Exploración’ - ‘Descriptivas’) para la variable ID (que debe ser una
variable nominal; de lo contrario, la tabla de frecuencia no se genera). En Figure 5.10
puedes ver que los valores de ID para las observaciones donde el margen era superior a
300 son 14 y 134. Estos son casos u observaciones sospechosas, donde debes volver a la
fuente de datos original para averiguar qué está pasando.
Suele ocurrir que alguien se equivoca de número. Aunque esto pueda parecer un ejemplo
tonto, debo subrayar que este tipo de cosas ocurren realmente a menudo. Los conjuntos
de datos del mundo real suelen estar plagados de errores estúpidos, especialmente cuando
alguien ha tenido que teclear algo en un ordenador en algún momento. De hecho, esta
fase en el análisis de datos tiene un nombre y, en la práctica, puede ocupar una gran
parte de nuestro tiempo: limpieza de datos. Consiste en buscar errores tipográficos
(“erratas”), datos faltantes y todo tipo de errores molestos en los archivos de datos
brutos.
Figure 5.10: tabla de frecuencias para ID que muestra los números de ID de los dos
valores atípicos sospechosos, 14 y 134
Cuando hayas hecho esto, verás, en la vista ‘Datos’, que jamovi ha filtrado todos los val-
ores excepto los que hemos especificado. A continuación, abre la ventana ‘Exploración’
- ‘Descriptivas’ y haz clic en la casilla de verificación ‘Gráfico de barras’ (recuerda mover
la variable ‘afl.finalists’ al cuadro ‘Variables’ para que jamovi sepa qué variable usar).
Luego deberías obtener un gráfico de barras, algo como el que se muestra en Figure 5.11.
Figure 5.11: filtrar para incluir solo cuatro equipos de la AFL y dibujar un gráfico de
barras en jamovi
110 CHAPTER 5. DIBUJANDO GRÁFICOS
5.5 Resumen
Tal vez soy una persona de mente simple, pero me encantan las fotos. Cada vez que
escribo un nuevo artículo científico, una de las primeras cosas que hago es sentarme
y pensar en cuáles serán las imágenes. En mi cabeza, un artículo no es más que una
secuencia de imágenes unidas por una historia. Todo lo demás es solo un escaparate.
Lo que realmente estoy tratando de decir aquí es que el sistema visual humano es una
herramienta de análisis de datos muy poderosa. Dale el tipo correcto de información y
proporcionará al lector humano una gran cantidad de conocimiento muy rápidamente.
No en vano tenemos el dicho “una imagen vale más que mil palabras”. Con eso en
mente, creo que este es uno de los capítulos más importantes del libro. Los temas
tratados fueron:
• Gráficos comunes. Gran parte del capítulo se centró en los gráficos estándar que
a los estadísticos les gusta producir: Histogramas, Diagramas de caja y Gráficos
de barras
• Guardar archivos de imagen usando jamovi. Es importante destacar que también
cubrimos cómo exportar sus imágenes.
Una última cosa a señalar. Si bien jamovi produce algunos gráficos predetermina-
dos realmente buenos, actualmente no es posible editarlos. Para gráficos más avan-
zados y capacidad de trazado, los paquetes disponibles en R son mucho más potentes.
Uno de los sistemas de gráficos más populares lo proporciona el paquete ggplot2 (ver
https://ggplot2.tidyverse.org/), que se basa libremente en “La gramática de los gráfi-
cos” (Wilkinson et al., 2006). No es para novatos. Necesitas tener un conocimiento
bastante bueno de R antes de poder comenzar a usarlo, e incluso entonces lleva un
tiempo dominarlo. Pero cuando esté listo, vale la pena tomarse el tiempo para aprender
por ti misma, porque es un sistema mucho más poderoso y más limpio.
Chapter 6
Cuestiones prácticas
El jardín de la vida nunca parece limitarse a las parcelas que los filósofos
han trazado para su conveniencia. Tal vez algunos tractores más bastarían.
– Roger Zelazny1
Este es un capítulo un tanto extraño, incluso para mis estándares. Mi objetivo en este
capítulo es hablar sobre las realidades de trabajar con datos un poco más honestamente
de lo que verás en cualquier otra parte del libro. El problema con los conjuntos de
datos del mundo real es que están desordenados. Muy a menudo, el archivo de datos
con el que comienzas no tiene las variables almacenadas en el formato correcto para
el análisis que quieres realizar. A veces puede puede que falten muchos valores en el
conjunto de datos. A veces, solo quieres analizar un subconjunto de los datos. Etcétera.
En otras palabras, hay un montón de manipulación de datos que necesitas hacer solo
para obtener las variables en el formato que necesitas. El propósito de este capítulo es
proporcionar una introducción básica a estos temas prácticos. Aunque el capítulo está
motivado por los tipos de problemas prácticos que surgen cuando se manipulan datos
reales, seguiré con la práctica que he adoptado durante la mayor parte del libro y me
basaré en conjuntos de datos muy pequeños que ilustran el problema subyacente. Como
este capítulo es esencialmente una colección de técnicas y no cuenta una sola historia
coherente, puede ser útil empezar con una lista de temas:
• Tabulación y tabulación cruzada de datos
• Expresiones lógicas en jamovi
• Transformar y recodificar una variable
• Otras funciones y operaciones matemáticas
• Extracción de un subconjunto de datos
Como puedes ver, la lista de temas que cubre el capítulo es bastante amplia y hay mucho
contenido. Aunque este es uno de los capítulos más largos y difíciles del libro, en realidad
solo estoy arañando la superficie de varios temas bastante diferentes e importantes.
Mi consejo, como siempre, es que leas el capítulo una vez e intentes seguirlo todo
lo que puedas. No te preocupe demasiado si no puedes entenderlo todo de una vez,
especialmente las últimas secciones. El resto del libro depende muy poco de este capítulo,
así que puedes conformarte con entender lo básico. Sin embargo, lo más probable es que
1 La cita proviene de Home is the Hangman, publicado en 1975.
111
112 CHAPTER 6. CUESTIONES PRÁCTICAS
(a)
(b)
más adelante tengas que volver a este capítulo para entender algunos de los conceptos
a los que me refiero aquí.
No te preocupes por la tabla “𝜒2 Tests” que se genera. Veremos esto más adelante en
Chapter 10. Al interpretar la tabla de contingencia recuerda que estos son recuentos,
por lo que el hecho de que la primera fila y la segunda columna de números correspondan
a un valor de 2 indica que Makka-Pakka (fila 1) dice “onk” (columna 2) dos veces en
este conjunto de datos.
Figure 6.2: Tabla de contingencia para las variables locutor y enunciados, con porcenta-
jes de fila
Figure 6.3: Tabla de contingencia para las variables locutor y enunciados, con porcenta-
jes de columna
6.2. EXPRESIONES LÓGICAS EN JAMOVI 115
2 + 2 == 5
no se pueden hacer.
3 puedes hacer esto en la pantalla Calcular nueva variable, ¡aunque calcular 2 + 2 para cada celda
común que se comete cuando se intentan escribir comandos lógicos en jamovi (u otros idiomas, ya que
la distinción “= versus ==” es importante en muchos programas informáticos y estadísticos) es escribir
accidentalmente = cuando realmente quieres decir ==. Ten especial cuidado con esto, he estado
programando en varios lenguajes desde que era adolescente y todavía me equivoco mucho. Mmm. Creo
que veo por qué no era guay cuando era adolescente. Y por qué todavía sigo sin molar.
116 CHAPTER 6. CUESTIONES PRÁCTICAS
2 + 2 != 5
Aún no hemos terminado. Hay tres operaciones lógicas más que vale la pena conocer,
enumeradas en Table 6.3. Estos son el operador no !, el operador y and, y el operador
o or. Al igual que los otros operadores lógicos, su comportamiento es más o menos el
que cabría dados sus nombres. Por ejemplo, si te pido que evalúes la afirmación de que
“o bien 2 + 2 = 4 o 2 + 2 = 5”, dirías que es verdad. Dado que es una declaración de “o
esto o lo otro”, lo que necesitamos es que una de las dos partes sea verdadera. Eso es
lo que hace el operador or:5
(2 + 2 == 4) o (2 + 2 == 5)
Por otro lado, si te pido que evalúes la afirmación de que “ambos 2 + 2 = 4 y 2 + 2 = 5”,
dirías que es falso. Dado que se trata de una afirmación y necesitamos que ambas partes
sean verdaderas. Y eso es lo que hace el operador and:
(2 + 2 == 4) y (2 + 2 == 5)
Finalmente, está el operador not, que es simple pero molesto de describir en inglés. Si
te pido que evalúes mi afirmación de que “no es cierto que 2 + 2 = 5”, entonces dirías
5 He aquí una peculiaridad en jamovi. Cuando tenemos expresiones lógicas simples como las que ya
hemos visto, por ejemplo, 2 + 2 == 5, jamovi indica claramente ‘falso’ (o ‘verdadero’) en la columna
correspondiente de la hoja de cálculo. En realidad, jamovi almacena ‘falso’ como 0 y ‘verdadero’ como
1. Cuando tenemos expresiones lógicas más complejas, como (2+2 == 4) o (2+2 == 5), jamovi
simplemente muestra 0 o 1, dependiendo de si la expresión lógica se evalúa como falsa o verdadera.
6.2. EXPRESIONES LÓGICAS EN JAMOVI 117
(a)
(b)
example
operation operator input answer
less than 2 TRUE
less than or
equal to < 2<=2 TRUE
greater than > 2>3 FALSE
greater than or
equal to >= 2>=2 TRUE
equal to == 2==3 FALSE
not equal to != 2 != 3 TRUE
(a)
(b)
example
operation operator input answer
not NOT NOT(1==1) FALSE
(1==1) or
or or (2==3) TRUE
(1==1) and
and and (2==3) FALSE
118 CHAPTER 6. CUESTIONES PRÁCTICAS
𝑁 𝑂(2 + 2 == 5)
En otras palabras, dado que 2 + 2 == 5 es una afirmación FALSA, debe darse el caso
de que 𝑁 𝑂(2 + 2 == 5) sea VERDADERA. Esencialmente, lo que realmente hemos
hecho es afirmar que “no falso” es lo mismo que “verdadero”. Obviamente, esto no es
del todo correcto en la vida real. Pero jamovi vive en un mundo mucho más blanco o
negro. Para jamovi todo es verdadero o falso. No se permiten matices de gris.
Por supuesto, en nuestro ejemplo de 2 + 2 = 5, realmente no necesitábamos usar el oper-
ador “no” 𝑁 𝑂𝑇 y el operador “igual a” == como dos operadores separados. Podríamos
haber usado el operador “no es igual a” ! = así:
2 + 2 != 5
(a)
(b)
! ” # $ % & ’ (
) * + , - . / 0
1 2 3 4 5 6 7 8
9 : ; < = > ? @
A B C D E F G H
I J K L M N O P
Q R S T U V W X
Y Z [ \ ] ̂ _ ‘
a b c d e g h i
j k l m n o p q
r s t u v w x y
z { | }
De hecho, esto se evalúa como ‘verdadero’. En otras palabras, jamovi asume que las
letras mayúsculas van antes que las minúsculas. Me parece bien. Es probable que no
te sorprenda. Lo que podría sorprenderte es que jamovi asume que todas las letras
mayúsculas van antes que las minúsculas. Es decir, mientras que “ardilla” < “zorro”
es una afirmación verdadera, y el equivalente en mayúsculas “ARDILLA” < “ZORRO”
también es cierto, no es cierto decir que “ardilla” < “ZORRO” “, como ilustra el siguiente
extracto. Prueba esto:
Esto se evalúa como ‘falso’, y puede parecer un poco contraintuitivo. Con eso en mente,
puede ser útil echar un vistazo rápido a Table 6.4 que enumera varios caracteres de
texto en el orden en que jamovi los procesa.
Una de las razones por las que puede ser útil tener los datos en este formato es que
6.3. TRANSFORMAR Y RECODIFICAR UNA VARIABLE 121
hay muchas situaciones en las que se puede preferir analizar la fuerza de la opinión por
separado de la dirección de la opinión. Podemos hacer dos transformaciones diferentes
en esta variable Likert centrada para distinguir entre estos dos conceptos diferentes.
Primero, para calcular la variable opinion.strength (fuerza de la opinión) coge el valor
absoluto de los datos centrados (usando la función ‘ABS’).6 En jamovi se crea una nueva
variable utilizando el botón ‘Calcular’. Llama a la variable opinion.strength y esta vez
haz clic en el botón fx situado al lado de la casilla ‘Fórmula’. Esto muestra las diferentes
‘Funciones’ y ‘Variables’ que puedes añadir a la casilla ‘Fórmula’, así que haz doble clic
en ‘ABS’ y luego doble clic en “likert.centred” y verás que la casilla ‘Fórmula’ se rellena
con ABS(likert.centred) y se ha creado una nueva variable en la vista de hoja de cálculo,
como en Figure 6.5.
En segundo lugar, para calcular una variable que contiene solo la dirección de la opinión
e ignora la fuerza, queremos calcular el ‘signo’ de la variable. En jamovi podemos usar
la función IF para hacerlo. Crea otra nueva variable con el botón ‘Calcular’, llámala
opinion.sign, y luego escribe lo siguiente en el cuadro de función:
IF(likert.centred == 0, 0, likert.centred / opinion.strength) Cuando termines, verás que
todos los números negativos de la variable likert.centred se convierten en -1, todos los
números positivos se convierten en 1 y cero se queda como 0, así:
-1 1 -1 0 0 0 -1 1 1 1
Analicemos qué está haciendo este comando ‘IF’. En jamovi hay tres partes en una
declaración ‘IF’, escrita como ‘IF (expression, value, else)’. La primera parte, ‘expres-
6 El valor absoluto de un número es su distancia al cero, independientemente de si su signo es negativo
o positivo.
122 CHAPTER 6. CUESTIONES PRÁCTICAS
sion’, puede ser un enunciado lógico o matemático. En nuestro ejemplo, hemos especi-
ficado ‘likert.centred == 0’, que es VERDADERO para valores donde likert.centred es
cero. La siguiente parte, ‘value’, es el nuevo valor donde la expresión en la primera parte
es VERDADERA. En nuestro ejemplo, hemos dicho que para todos aquellos valores
donde likert.centred es cero, mantenlos en cero. En la siguiente parte, ‘else’, podemos
incluir un enunciado lógico o matemático que se usará si la parte uno se evalúa como
FALSO, es decir, donde likert.centred no es cero. En nuestro ejemplo hemos dividido
likert.centred por opinion.strength para dar ‘-1’ o ‘+1’ dependiendo del signo del valor
original en likert.centred.7
Y ya está. Ahora tenemos tres nuevas variables brillantes, todas las cuales son transfor-
maciones útiles de los datos originales de likert.raw.
simplemente usar likert.centred / opinion.strength para calcular el signo de likert.centred, porque dividir
matemáticamente cero por cero no funciona. Pruébalo y verás
6.3. TRANSFORMAR Y RECODIFICAR UNA VARIABLE 123
Figure 6.6: descomponer una variable en un número menor de niveles discretos usando
la función ‘IF’ de jamovi
alguien que elige hacer un ANOVA usando AgeCats como la variable de agrupación, en lugar de
ejecutar una regresión utilizando la edad como predictor. A veces hay buenas razones para hacer esto.
Por ejemplo, si la relación entre la edad y tu variable de resultado es altamente no lineal y no te sientes
cómoda intentando ejecutar una regresión no lineal. Sin embargo, a menos que realmente tengas una
buena razón para hacerlo, es mejor no hacerlo. Tiende a introducir todo tipo de problemas (p. ej., los
datos probablemente violarán la suposición de normalidad) y puedes perder mucho poder estadístico.
124 CHAPTER 6. CUESTIONES PRÁCTICAS
Figure 6.7: Creando una nueva transformación de variable usando el comando jamovi
‘Transformar’
Figure 6.8: especificando una transformación en jamovi, para guardarla como la imagi-
nativamente llamada ‘Transform 1’
126 CHAPTER 6. CUESTIONES PRÁCTICAS
Figure 6.9: transformación jamovi en tres categorías de edad, usando el botón ‘Agregar
condición’
(a)
(b)
example
function input (answer)
square root SQRT(x) SQRT(25) 5
absolute value ABS(x) ABS(-23) 23
logarithm (base
10) LOG10(x) LOG10(1000) 3
logarithm (base
e) LN(x) LN(1000) 6.91
exponentiation EXP(x) EXP(6.908) 1e+03
BOXCOX(x, BOXCOX(6.908,
box-cox lamda) 3) 110
6.4. OTRAS FUNCIONES Y OPERACIONES MATEMÁTICAS 127
103 = 1000
El truco para entender un logaritmo es reconocer que la afirmación de que “10 elevado
a 3 es igual a 1000” es equivalente a la afirmación de que “el logaritmo (en base 10) de
1000 es igual a 3”. Matemáticamente, lo escribimos de la siguiente manera,
log10 (1000) = 3
Bien, puesto que la función LOG10() está relacionada con las potencias de 10, es de
esperar que haya otros logaritmos (en bases distintas de 10) que también estén rela-
cionados con otras potencias. Y, por supuesto, es cierto: en realidad el número 10 no
tiene nada de especial desde el punto de vista matemático. Nos resulta útil porque los
números decimales se construyen alrededor del número 10, pero el malvado mundo de las
matemáticas se burla de nuestros números decimales. Lamentablemente, al universo no
le importa cómo escribimos los números. La consecuencia de esta indiferencia cósmica
es que no tiene nada de especial calcular logaritmos en base 10. Podrías, por ejemplo,
calcular tus logaritmos en base 2. Alternativamente, un tercer tipo de logaritmo, y que
vemos mucho más en estadística que la base 10 o la base 2, se llama logaritmo natural
y corresponde al logaritmo en base e. Como es posible que algún día te encuentres con
él, mejor te explico qué es e. El número e, conocido como número de Euler, es uno
de esos molestos números “irracionales” cuya expansión decimal es infinitamente larga,
y se considera uno de los números más importantes de las matemáticas. Los primeros
dígitos de e son:
128 CHAPTER 6. CUESTIONES PRÁCTICAS
𝑒 ≈ 2.718282
Y con eso, creo que ya hemos tenido suficientes exponenciales y logaritmos para este
libro.
Esta sección vuelve al conjunto de datos nightgarden.csv. Si estás leyendo todo este
capítulo de una sola vez, entonces ya deberías tener este conjunto de datos cargado en
una ventana jamovi. Para esta sección, vamos a centrarnos en las dos variables locutor y
enunciado (consulta Tabulación y tabulación cruzada de datos si has olvidado cómo son
estas variables). Supongamos que lo que queremos es extraer solo las frases pronunciadas
por Makka-Pakka. Para ello, tenemos que especificuniversity holidaysar un filtro en
jamovi. En primer lugar, abre una ventana de filtro haciendo clic en ‘Filtros’ en la barra
de herramientas principal de ‘Datos’ de jamovi. A continuauniversity holidaysción, en
el cuadro de texto ‘Filtro 1’, junto al signo ‘=’, escribe lo siguiente:
locutor == ‘makka-pakka’
Cuando lo hayas hecho, verás que se ha añadido una nueva columna a la ventana de
la hoja de cálculo (véase Figure 6.10), etiquetada como ‘Filtro 1’, con los casos en los
que el locutor no es ‘makka-pakka’ en gris (es decir, filtrado) y, por el contrario, los
casos en los que el locutor es ‘makka-pakka’ tienen una marca de verificación verde que
indica que están filtrados. Puedes comprobarlo ejecutando ‘Exploración’ - ‘Descriptivos’
- ‘Tablas de frecuencia’ para la variable locutor y ver qué muestra. Pruébalo.
A partir de este sencillo ejemplo, también puedes crear filtros más complejos utilizando
expresiones lógicas en jamovi. Por ejemplo, supongamos que quisieras mantener solo
aquellos casos en los que el enunciado es “pip” o “oo”. En este caso, en el cuadro de
texto ‘Filtro 1’, junto al signo ‘=’, escribirías lo siguiente:
6.6 Resumen
Obviamente, este capítulo no tiene ninguna coherencia. No es más que un conjunto de
temas y trucos que puede ser útil conocer, así que lo mejor que puedo hacer es repetir
esta lista:
• Tabulación y tabulación cruzada de datos
• Expresiones lógicas en jamovi
• Transformar y recodificar una variable
• Otras funciones y operaciones matemáticas
• [Extracción de un subconjunto de los datos]
130 CHAPTER 6. CUESTIONES PRÁCTICAS
Part IV
Teoría estadística
131
Sobre los límites del
razonamiento lógico
# Preludio {.unnumbered}
La Parte IV del libro es, con mucho, la más teórica, ya que se centra sobre la teoría de
la inferencia estadística. Durante los próximos tres capítulos mi El objetivo es brindarle
una Introducción a la probabilidad teoría, muestreo y estimación en el capítulo sobre
Estimación de cantidades desconocidas de una muestra y estadística Prueba de hipótesis.
Sin embargo, antes de comenzar, quiero para decir algo sobre el panorama general. La
inferencia estadística es principalmente sobre el aprendizaje de los datos. El objetivo ya
no es simplemente describir nuestros datos, sino utilizar los datos para sacar conclusiones
sobre el mundo. Para motivar la discusión quiero pasar un poco de tiempo hablando
sobre un rompecabezas filosófico conocido como el acertijo de la inducción, porque habla
de un problema que aparecerá una y otra vez a lo largo el libro: la inferencia estadística
se basa en suposiciones. esto suena como una cosa mala. En la vida cotidiana, la gente
dice cosas como y las clases de psicología a menudo hablan de suposiciones. y sesgos
como cosas malas que debemos tratar de evitar. de amargo experiencia personal he
aprendido a nunca decir tales cosas alrededor filósofos!
Todo el arte de la guerra consiste en llegar a lo que está del otro lado de
la colina, o, en otras palabras, en aprender lo que no sabemos de lo que
hacemos. - Arthur Wellesley, primer duque de Wellington
Me dijeron que la cita anterior surgió como consecuencia de un carruaje cabalga por el
campo.10 Él y su compañero, J. W. Croker, estaban jugando un juego de adivinanzas,
cada uno tratando de predecir qué estaría al otro lado de cada colina. En todos los casos
resultó que Wellesley tenía razón y Croker estaba equivocado. Muchos años después
cuando Cuando se le preguntó a Wellesley sobre el juego, explicó que. De hecho, la
guerra no es especial a este respecto. Toda la vida es una adivinanza juego de una
forma u otra, y sobrellevar el día a día requiere que hagamos buenas conjeturas. Así
que digamos que W se refiere a una victoria de Wellesley y C se refiere a una victoria
de Croker. Después de tres colinas, nuestro conjunto de datos parece como esto:
𝑊𝑊𝑊
Nuestra conversación es así:
tu: tres seguidos no es un poco de un jugador. Es informativo y no veo
10 http://www.bartleby.com/344/400.html
133
134 Sobre los límites del razonamiento lógico
razón para preferir Wellesleys. Puedo organizar los datos en bloques de tres
para que puedas ver qué lote corresponde a las observaciones que teníamos
disponibles en cada paso en nuestro pequeño juego secundario. Después de
ver este nuevo lote, nuestra conversación continúa:
tú: Seis victorias seguidas para Duke Wellesley. Esto está empezando a
sentirse un un poco sospechoso Va a ganar el siguiente también.
yo: Supongo que no veo ninguna razón lógica por la que eso significa que
está bien con mi elección.
Por segunda vez tuviste razón, y por segunda vez yo me equivoqué. Wellesley gana
las siguientes tres colinas, extendiendo su récord de victorias contra Croker a 9-0. El
conjunto de datos disponible para nosotros ahora es este: 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 Y
nuestra conversación es así:
tu: Bien, esto es bastante obvio. Wellesley es mucho mejor en este juego.
Ambos coincidimos en que habría dicho que todas eran igualmente probables.
yo Asume que tú también lo habrías hecho, ¿verdad? Quiero decir, que no
tienes idea?
tu:supongo que si
yo: pues entonces el observaciones que hemos encontrado hasta ahora, ares
cambiado ¿después? Al comienzo de nuestro juego, te has encontrado con
discriminado entre estas dos posibilidades. Por lo tanto, estos dos posibil-
idades siguen siendo igualmente plausibles y no veo ninguna razón lógica
para prefieren uno sobre el otro. Así que sí, aunque estoy de acuerdo con-
tigo en que Wellesleyt pensar en un buena razón para pensar que todavía
está dispuesto a correr el riesgo. Su racha ganadora continúa durante las
próximas tres colinas. El puntaje en el juego Wellesley-Croker ahora es 12-0,
y el puntaje en nuestro juego ahora es 3-0. A medida que nos acercamos a
la cuarta ronda de nuestro juego, nuestro conjunto de datos es este: 𝑊 𝑊 𝑊
𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 y la conversación continúa:
tu: ah si! Tres victorias más para Wellesley y otra victoria para mí. ¡Ad-
mítelo, tenía razón sobre él! Supongo que mojado sé qué pensar. me siento
como húmedo ya descartado, 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝐶 y 𝑊 𝑊 𝑊
𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 𝑊 . ¿Son estos dos? igualmente sensato dado que
nuestras observaciones aportan la evidencia lógica de que la racha contin-
uará?
tu: creo que eres el experto en estadisticas y estás perdiendo. Estoy ganando.
Tal vez tú debería cambiar de estrategia.
yo: Hmm, ese es un buen punto y no me temo que no he observado que es una
serie de tres victorias para ti. Sus datos se verían así: 𝑌 𝑌 𝑌 . Lógicamente,
yo no pareces mucho evidencia, y no veo ninguna razón para pensar que su
estrategia está funcionando nada mejor que el mío. Si no fuera mejor en
¿nuestro?
Introducción a la probabilidad
137
138 CHAPTER 7. INTRODUCCIÓN A LA PROBABILIDAD
23%?
La respuesta a la pregunta es bastante obvia. Si llamo a 1000 personas al azar y 230 de
ellas dicen que tienen intención de votar al ALP, parece muy poco probable que estas
sean las únicas 230 personas de todo el público votante que realmente tienen la intención
de votar por ALP. En otras palabras, asumimos que los datos recopilados por la empresa
encuestadora son bastante representativos de la población en general. Pero, ¿hasta qué
punto? ¿Nos sorprendería descubrir que el verdadero voto ALP en las primarias es en
realidad el 24%? 29%? 37%? En este punto, la intuición cotidiana empieza a fallar un
poco. Nadie se sorprendería del 24 % y todo el mundo se sorprendería del 37 %, pero
es un poco difícil decir si el 29 % es plausible. Necesitamos herramientas más potentes
que mirar los números y adivinar.
La estadística inferencial nos proporciona las herramientas que necesitamos para
responder este a tipo de preguntas y, dado que este tipo de preguntas constituyen el
núcleo de la empresa científica, ocupan la mayor parte de los cursos introductorios sobre
estadística y métodos de investigación. Sin embargo, la teoría de la inferencia estadística
se basa en la teoría de la probabilidad. Y es a la teoría de la probabilidad a la que
debemos referirnos ahora. Esta discusión de la teoría de la probabilidad es básicamente
un detalle de fondo. No hay mucha estadística en sí en este capítulo, y no es necesario
comprender este material con tanta profundidad como los otros capítulos de esta parte
del libro. Sin embargo, dado que la teoría de la probabilidad sustenta gran parte de la
estadística, merece la pena cubrir algunos de los aspectos básicos.
𝑃 (𝑐𝑎𝑟𝑎) = 0.5
que se puede leer como “la probabilidad de que salga cara es 0,5”. Como veremos más
adelante, del mismo modo que los porcentajes son números que van del 0% al 100%,
las probabilidades son números que van del 0 al 1. Cuando utilizo este modelo de
probabilidad para responder a la primera pregunta, en realidad no sé exactamente lo
que va a pasar. Puede que salga, como dice la pregunta. Pero tal vez obtenga tres caras.
Esa es la clave. En la teoría de la probabilidad se conoce el modelo, pero no los datos.
Eso es probabilidad. ¿Y la estadística? Las preguntas estadísticas funcionan al revés.
En estadística no sabemos la verdad sobre el mundo. Lo único que tenemos son los
datos y es a partir de ellos que queremos saber la verdad sobre el mundo. Las preguntas
estadísticas tienden a parecerse más a estas:
• Si mi amigo lanza una moneda 10 veces y sale 10 caras, ¿me está gastando una
broma?
• Si cinco cartas de la parte superior de la baraja son corazones, ¿qué probabilidad
hay de que la baraja se haya barajado?
• Si el cónyuge del comisario de lotería gana la lotería, ¿qué probabilidad hay de
que la lotería estuviera amañada?
Esta vez lo único que tenemos son datos. Lo que sé es que vi a mi amigo lanzar la
moneda 10 veces y que salió cara todas las veces. Y lo que quiero deducir es si debo o
no concluir que lo que acabo de ver era realmente una moneda justa lanzada 10 veces
seguidas, o si debo sospechar que mi amigo me está gastando una broma. Los datos
que tengo son los siguientes:
HHHHHHHHHHHH
y lo que intento es averiguar en qué “modelo del mundo” debo confiar. Si la moneda
es justa, entonces el modelo que debo adoptar es el que dice que la probabilidad de
que salga cara es 0.5, es decir P(cara) = 0,5. Si la moneda no es justa, debo concluir
que la probabilidad de cara no es 0,5, lo que escribiríamos como 𝑃 (𝑐𝑎𝑟𝑎) ≠ 0, 5. En
otras palabras, el problema de la inferencia estadística consiste en averiguar cuál de
estos modelos de probabilidad es correcto. Evidentemente, la pregunta estadística no es
la misma que la pregunta de probabilidad, pero están profundamente conectadas entre
sí. Debido a esto, una buena introducción a la teoría estadística comenzará con una
discusión de lo que es la probabilidad y cómo funciona.
has entendido del todo y que (como muchos conceptos cotidianos) resulta que no sabes
realmente de qué se trata.
Así que voy a intentarlo. Supongamos que quiero apostar en un partido de fútbol entre
dos equipos de robots, el Arduino Arsenal y el C Milan. Después de pensarlo, decido
que hay un 80% de probabilidad de que el Arduino Arsenal gane. ¿Qué quiero decir con
eso? Aquí hay tres posibilidades:
• Son equipos de robots, así que puedo hacer que jueguen una y otra vez, y si lo
hiciera, el Arduino Arsenal ganaría 8 de cada 10 juegos en promedio.
• Para cualquier partido, estaría de acuerdo en que apostar en este partido solo es
“justo” si una apuesta de $1 al C Milan da un beneficio de $5 (es decir, recupero
mi $1 más una recompensa de $4 por acertar), al igual que una apuesta de $4 al
Arduino Arsenal (es decir, mi apuesta de $4 más una recompensa de $1).
• Mi “creencia” o “confianza” subjetiva en una victoria del Arduino Arsenal es
cuatro veces mayor que mi creencia en una victoria del C Milan.
Cada una de ellas parece sensata. Sin embargo, no son idénticas y no todos los estadís-
ticos las respaldarían todas. La razón es que existen diferentes ideologías estadísticas
(sí, de verdad) y dependiendo de a cuál te suscribas, podrías decir que algunas de esas
afirmaciones no tienen sentido o son irrelevantes. En esta sección presento brevemente
los dos enfoques principales que existen en la literatura. No son ni mucho menos los
únicos enfoques, pero son los dos grandes.
(a)
(b)
muestran en Figure 7.1. Como puedes ver, la proporción de caras observadas deja de
fluctuar y se estabiliza. Cuando lo hace, el número en el que finalmente se asienta es la
verdadera probabilidad de caras.
Sin embargo, también tiene características indeseables. En primer lugar, las secuencias
infinitas no existen en el mundo físico. Supongamos que cogemos una moneda del
bolsillo y empezamos a lanzarla. Cada vez que cae, impacta contra el suelo. Cada
impacto desgasta un poco la moneda. Al final, la moneda se destruye. Por tanto,
cabe preguntarse si realmente tiene sentido pretender que una secuencia “infinita” de
lanzamientos de monedas es siquiera un concepto significativo u objetivo. No podemos
decir que una “secuencia infinita” de sucesos sea algo real en el universo físico, porque el
universo físico no permite nada infinito. Y lo que es más grave, la definición frecuentista
tiene un alcance limitado. Hay muchas cosas a las que los seres humanos asignan
probabilidades en el lenguaje cotidiano, pero que no pueden (ni siquiera en teoría)
asignarse a una secuencia hipotética de sucesos. Por ejemplo, si un meteorólogo sale
en la televisión y dice “la probabilidad de que llueva en Adelaide el 2 de noviembre
de 2048 es del 60%”, los seres humanos lo aceptamos de buen grado. Pero no está
claro cómo definir esto en términos frecuentistas. Solo hay una ciudad, Adelaide, y solo
un 2 de noviembre de 2048. Aquí no hay una secuencia infinita de eventos, solo algo
único. La probabilidad frecuentista nos prohibe hacer afirmaciones probabilísticas sobre
un único suceso. Desde la perspectiva frecuentista, mañana lloverá o no lloverá. No
existe una “probabilidad” asociada a un único suceso no repetible. Ahora bien, hay que
decir que los frecuentistas pueden utilizar algunos trucos muy ingeniosos para evitar
esto. Una posibilidad es que lo que quiere decir el meteorólogo sea algo así como “Hay
una categoría de días para los que predigo un 60% de probabilidad de lluvia, y si nos
fijamos solo en los días para los que hago esta predicción, entonces el 60% de esos días
lloverá de verdad”. Es muy extraño y contraintuitivo pensar de este modo, pero los
frecuentistas a veces lo hacen. Y aparecerá más adelante en este libro (por ejemplo, en
Section 8.5).
que ocurre es que si se quiere hacer una afirmación sobre la probabilidad, debe ser posible volver a
describir esa afirmación en términos de una secuencia de sucesos potencialmente observables, junto con
las frecuencias relativas de los distintos resultados que aparecen dentro de esa secuencia.
7.2. ¿QUÉ SIGNIFICA PROBABILIDAD? 143
0.7 0.7
Proportion of heads
Proportion of heads
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0 250 500 750 1000 0 250 500 750 1000
Number of flips Number of flips
0.7 0.7
Proportion of heads
Proportion of heads
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0 250 500 750 1000 0 250 500 750 1000
Number of flips Number of flips
Figure 7.1: Una ilustración de cómo funciona la probabilidad frecuentista. Si lanzas una
moneda al aire una y otra vez, la proporción de caras que has visto se estabiliza y con-
verge a la probabilidad real de 0.5. Cada panel muestra cuatro experimentos simulados
diferentes. En cada caso simulamos que lanzamos una moneda 1000 veces y llevamos la
cuenta de la proporción de lanzamientos que salieron cara a medida que avanzábamos.
Aunque en realidad ninguna de estas secuencias terminó con un valor exacto de .5, si hu-
biéramos ampliado el experimento a un número infinito de lanzamientos de la moneda,
hubiera llegado a ese valor
144 CHAPTER 7. INTRODUCCIÓN A LA PROBABILIDAD
En general, soy pragmática, así que usaré cualquier método estadístico en el que con-
fíe. Resulta que prefiero los métodos bayesianos por razones que explicaré al final del
libro. Pero no me opongo fundamentalmente a los métodos frecuentistas. No todo el
mundo está tan relajado. Por ejemplo, consideremos a Sir Ronald Fisher, una de las
figuras más destacadas de la estadística del siglo XX y un opositor vehemente a todo lo
bayesiano, cuyo artículo sobre los fundamentos matemáticos de la estadística se refería
a la probabilidad bayesiana como “una jungla impenetrable [que] detiene el progreso
hacia la precisión de los conceptos estadísticos” (Fisher, 1922b, p. 311). O el psicólogo
Paul Meehl, quien sugiere que confiar en los métodos frecuentistas podría convertirte en
“un libertino intelectual potente pero estéril que deja en su alegre camino una larga cola
de doncellas violadas pero ninguna descendencia científica viable” (Meehl, 1967, p. 114).
La historia de la estadística, como se puede deducir, no está exenta de entretenimiento.
En cualquier caso, aunque personalmente prefiero la visión bayesiana, la mayoría de los
análisis estadísticos se basan en el enfoque frecuentista. Mi razonamiento es pragmático.
El objetivo de este libro es cubrir aproximadamente el mismo territorio que una clase
típica de estadística de grado en psicología, y si quieres entender las herramientas es-
tadísticas utilizadas por la mayoría de los psicólogos y psicólogas, necesitarás una buena
comprensión de los métodos frecuentistas. Te prometo que no es un esfuerzo en vano.
Incluso si al final quieres pasarte a la perspectiva bayesiana, deberías leer al menos un
libro sobre la visión frecuentista “ortodoxa”. Además, no no voy a ignorar por completo
la perspectiva bayesiana. De vez en cuando añadiré algún comentario desde un punto
de vista bayesiano, y volveré a tratar el tema con más profundidad en Chapter 16.
(a)
(b)
Bien, ahora que tenemos un espacio muestral (un armario), que se construye a partir de
muchos sucesos elementales posibles (pantalones), lo que queremos hacer es asignar una
probabilidad a uno de estos sucesos elementales. Para un suceso 𝑋, la probabilidad
de ese suceso 𝑃 (𝑋) es un número comprendido entre 0 y 1. Cuanto mayor sea el valor
de 𝑃 (𝑋), más probable es que ocurra el suceso. Así, por ejemplo, si 𝑃 (𝑋) = 0 significa
que el suceso 𝑋 es imposible (es decir, nunca me pongo esos pantalones). Por otro lado,
si 𝑃 (𝑋) = 1 significa que el suceso 𝑋 seguramente ocurrirá (es decir, siempre llevo esos
pantalones). Para valores de probabilidad intermedios significa que a veces llevo esos
pantalones. Por ejemplo, si 𝑃 (𝑋) = 0.5 significa que llevo esos pantalones la mitad de
las veces.
Llegados a este punto, casi hemos terminado. Lo último que debemos reconocer es que
“siempre pasa algo”. Cada vez que me pongo unos pantalones, realmente acabo llevando
pantalones (loco, ¿no?). Lo que significa esta afirmación un tanto trillada, en términos
probabilísticos, es que las probabilidades de los sucesos elementales tienen que sumar 1.
Esto se conoce como la ley de probabilidad total, aunque a ninguna de nosotras nos
importe realmente. Y lo que es más importante, si se cumplen estos requisitos, lo que
tenemos es una distribución de probabilidad. Por ejemplo, la Table 7.2 muestra un
ejemplo de una distribución de probabilidad.
Cada uno de los sucesos tiene una probabilidad comprendida entre 0 y 1, y si sumamos
las probabilidades de todos los sucesos, suman 1. Impresionante. Incluso podemos
dibujar un bonito gráfico de barras (ver Section 5.3) para visualizar esta distribución,
como se muestra en la Figure 7.2. Y, llegados a este punto, todos hemos conseguido algo.
Aprendiste lo que es una distribución de probabilidad y yo, por fin, encontré una manera
de crear un gráfico que se centre por completo en mis pantalones. ¡Todo el mundo gana!
Lo único que tengo que decir es que la teoría de la probabilidad permite hablar tanto
de sucesos no elementales como de los elementales. La forma más fácil de ilustrar
el concepto es con un ejemplo. En el ejemplo de los pantalones, es perfectamente
legítimo referirse a la probabilidad de que yo lleve vaqueros. En este escenario, el
suceso “Dani lleva vaqueros” se dice que ha ocurrido siempre que el suceso elemental que
realmente ocurrió sea uno de los apropiados. En este caso “vaqueros azules”, “vaqueros
negros” o “vaqueros grises”. En términos matemáticos definimos el suceso “vaqueros”
𝐸 como el conjunto de sucesos elementales (𝑋1, 𝑋2, 𝑋3). Si se produce alguno de
estos sucesos elementales, también se dice que se ha producido 𝐸. Habiendo decidido
escribir la definición del E de esta manera, es bastante sencillo establecer cuál es la
7.4. LA DISTRIBUCIÓN BINOMIAL 147
(a)
(b)
probabilidad P(E) y, puesto que las probabilidades de los vaqueros azules, grises y
negros respectivamente son .5, .3 y $ .1$, la probabilidad de que lleve vaqueros es igual
a .9. es: simplemente lo sumamos todo. En este caso concreto,
𝑃 (𝐸) = 𝑃 (𝑋1 ) + 𝑃 (𝑋2 ) + 𝑃 (𝑋3 )
Llegados a este punto, puede que estés pensando que todo esto es terriblemente obvio y
sencillo y estarías en lo cierto. En realidad, lo único que hemos hecho es envolver unas
cuantas intuiciones de sentido común con algunas matemáticas básicas. Sin embargo, a
partir de estos sencillos principios es posible construir algunas herramientas matemáticas
extremadamente potentes. No voy a entrar en detalles en este libro, pero lo que sí voy
a hacer es enumerar, en la Table 7.3, algunas de las otras reglas que satisfacen las
probabilidades. Estas reglas se pueden derivar de los supuestos básicos que he descrito
anteriormente, pero como en realidad no usamos estas reglas para nada en este libro,
no lo haré aquí.
0.5
0.4
Probability of event
0.3
0.2
0.1
0.0
Blue jeans Grey jeans Black jeans Black suit Blue track
Event
Como de costumbre, tendremos que introducir algunos nombres y alguna notación. De-
jaremos que 𝑁 denote el número de lanzamientos de dados en nuestro experimento,
cantidad que suele denominarse parámetro de tamaño de nuestra distribución bino-
mial. También usaremos 𝜃 para referirnos a la probabilidad de que un solo dado salga
calavera, cantidad que generalmente se denomina probabilidad de éxito de la bino-
mial.2 Finalmente, usaremos 𝑋 para referirnos a los resultados de nuestro experimento,
es decir, el número de calaveras que obtengo al tirar los dados. Dado que el valor real
de 𝑋 se debe al azar, nos referimos a él como variable aleatoria. En cualquier caso,
ahora que tenemos toda esta terminología y notación podemos usarla para plantear el
problema con un poco más de precisión. La cantidad que queremos calcular es la prob-
abilidad de que 𝑋 = 4 dado que sabemos que 𝜃 = .167 y 𝑁 = 20. La “forma” general
de lo que me interesa calcular podría escribirse como
𝑃 (𝑋|𝜃, 𝑁 )
sea algo deseable. Si 𝜃 se refiriera a la probabilidad de que un pasajero resulte herido en un accidente
de autobús, seguiría llamándola probabilidad de éxito, pero eso no significa que quiera que la gente
resulte herida en accidentes de autobús.
3 Para los lectores que sepan un poco de cálculo, daré una explicación un poco más precisa. Del
mismo modo que las probabilidades son números no negativos que deben sumar 1, las densidades de
probabilidad son números no negativos que deben integrarse en 1 (donde la integral se toma a lo largo
de todos los valores posibles de X). Para calcular la probabilidad de que X se encuentre entre a y b
calculamos la integral definida de la función de densidad sobre el intervalo correspondiente, ∫ _𝑎𝑏 𝑝(𝑥)𝑑𝑥.
Si no recuerdas o nunca has aprendido cálculo, no te preocupes. No es necesario para este libro.
4 En la ecuación de la binomial, 𝑋! es la función factorial (es decir, multiplicar todos los números
enteros de 1 a 𝑋):
𝑁!
𝑃 (𝑋|𝜃, 𝑁) = 𝜃𝑋 (1 − 𝜃)𝑁−𝑋
𝑋!(𝑁 − 𝑋)!
Si esta ecuación no tiene mucho sentido para ti, no te preocupes.
150 CHAPTER 7. INTRODUCCIÓN A LA PROBABILIDAD
0.20
0.15
Probability
0.10
0.05
0.00
0 5 10 15 20
Para que nos hagamos una idea de cómo cambia la distribución binomial cuando mod-
ificamos los valores de 𝑡ℎ𝑒𝑡𝑎 y 𝑁 , supongamos que, en lugar de tirar los dados, lo que
hago es lanzar monedas. Esta vez, mi experimento consiste en lanzar una moneda al
aire repetidamente y el resultado que me interesa es el número de caras que observo.
En este escenario, la probabilidad de éxito ahora es 𝜃 = 12 . Supongamos que lanzo la
moneda 𝑁 = 20 veces. En este ejemplo, he cambiado la probabilidad de éxito pero he
mantenido el mismo tamaño del experimento. ¿Cómo afecta esto a nuestra distribución
binomial? Bueno, como muestra la Figure 7.4, el efecto principal de esto es desplazar
toda la distribución, como era de esperar. Bien, ¿y si lanzamos una moneda 𝑁 = 100
veces? Bueno, en ese caso obtenemos la Figure 7.4 (b). La distribución se mantiene
aproximadamente en el centro, pero hay un poco más de variabilidad en los posibles
resultados.
(a)
0.15
Probability
0.10
0.05
0.00
0 5 10 15 20
Number of skulls observed
(b)
0.08
0.06
Probability
0.04
0.02
0.00
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
Figure 7.4: dos distribuciones binomiales, en un escenario en el que lanzo una moneda
justa, por lo que la probabilidad de éxito subyacente es 𝜃 = 12 . En el panel (a), lancé la
moneda 𝑁 = 20 veces. En el panel (b) la moneda se lanzó 𝑁 = 100 veces
152 CHAPTER 7. INTRODUCCIÓN A LA PROBABILIDAD
en este libro, porque creo que es lo suficientemente importante como para que todo el que aprenda
estadística deba al menos echarle un vistazo, pero como éste es un texto introductorio no quiereo
centrarme en ella, así que la he escondido en esta nota a pie de página:
1 (𝑋−𝜇)2
−
𝑝(𝑋|𝜇, 𝜎) = √ 𝑒 2𝜎2
𝜎 2𝜋
6 en la práctica, la distribución normal es tan práctica que la gente tiende a utilizarla incluso cuando
la variable no es realmente continua. Siempre que haya suficientes categorías (p. ej., las respuestas
de una escala Likert a un cuestionario), es una práctica bastante habitual usar la distribución normal
como aproximación. Esto funciona mucho mejor de lo que parece.
7.5. LA DISTRIBUCIÓN NORMAL 153
0.4
0.3
Probability Density
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
Observed Value
del área cae dentro de 1 desviación estándar de la media. Del mismo modo, 95, 4%
de la distribución cae dentro de 2 desviaciones estándar de la media, y (99, 7%) de la
distribución está dentro de 3 desviaciones estándar. Esta idea se ilustra en la Figure 7.8;
ver también la Figure 7.9.
0.4
0.3
Probability Density
0.2
0.1
0.0
0 2 4 6 8 10
Observed Value
Figure 7.6: ilustración de lo que ocurre cuando se modifica la media de una distribución
normal. La línea continua representa una distribución normal con una media de 𝜇 = 4.
La línea discontinua muestra una distribución normal con una media de 𝜇 = 7. En
ambos casos, la desviación estándar es 𝜎 = 1. Como es lógico, las dos distribuciones
tienen la misma forma, pero la línea discontinua está desplazada hacia la derecha.
0.4
0.3
Probability Density
0.2
0.1
0.0
0 2 4 6 8 10
Observed Value
Figure 7.7: ilustración de lo que ocurre cuando se cambia la desviación estándar de una
distribución normal. Ambas distribuciones representadas en esta figura tienen una me-
dia de 𝜇 = 5, pero tienen diferentes desviaciones estándar. La línea continua representa
una distribución con desviación estándar 𝜎 = 1 y la línea discontinua muestra una dis-
tribución con desviación estándar 𝜎 = 2. Por consiguiente, ambas distribuciones están
‘centradas’ en el mismo punto, pero la línea discontinua es más ancha que la continua.
156 CHAPTER 7. INTRODUCCIÓN A LA PROBABILIDAD
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4
(a) (b)
Figure 7.8: El área bajo la curva indica la probabilidad de que una observación se encuen-
tre dentro de un intervalo determinado. Las líneas continuas representan distribuciones
normales con media 𝜇 = 0 y desviación estándar 𝜎 = 1. Las áreas sombreadas ilustran
las ‘áreas bajo la curva’ de dos casos importantes. En el panel (a), podemos ver que
hay un 68,3% de probabilidad de que una observación caiga dentro de una desviación
estándar de la media. En el panel (b), vemos que hay un 95,4 % de probabilidad de que
una observación se sitúe a dos desviaciones estándar de la media
−4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4
(a) (b)
Figure 7.9: Dos ejemplos más de la ‘idea del área bajo la curva’. Hay una probabilidad
del 15,9 % de que una observación esté una desviación estándar por debajo de la media
o menos (panel (a)), y una probabilidad del 34,1 % de que la observación esté entre
una desviación estándar por debajo de la media y la media (panel (b) ). Fijate que
si sumas estas dos cifras, obtienes 15,9 % + 34,1 % = 50 %. Para datos distribuidos
normalmente, existe un 50% de probabilidad de que una observación se sitúe por debajo
de la media. Y, por supuesto, eso también implica que hay un 50% de probabilidades
de que se sitúe por encima de la media.
158 CHAPTER 7. INTRODUCCIÓN A LA PROBABILIDAD
número tan cercano a cero que bien podría ser cero”. ¿A qué se debe esto? Es como
intentar lanzar un dardo a una diana infinitamente pequeña. Por muy buena puntería
que tengas, nunca acertarás. En la vida real, nunca obtendrás un valor de exactamente
$ 23 $. Siempre será algo como $ 23,1 $ o $ 22,99998 $ o algo así. En otras palabras, no
tiene ningún sentido hablar de la probabilidad de que la temperatura sea exactamente
de 23 grados. Sin embargo, en el lenguaje cotidiano, si te dijera que afuera había $23
grados y resultara que hace $22,9998, probablemente no me llamarías mentirosa. Porque
en el lenguaje cotidiano “23 grados” suele significar algo así como “algo entre 22, 5 y
23, 5 grados”. Y aunque no parece muy significativo preguntar sobre la probabilidad de
que la temperatura sea exactamente de 23 grados, sí parece sensato preguntar sobre la
probabilidad de que la temperatura esté entre 22, 5 y 23, 5, o entre 20 y 30. , o cualquier
otro rango de temperaturas.
El objetivo de esta discusión es dejar claro que, cuando hablamos de distribuciones
continuas, no tiene sentido hablar de la probabilidad de un valor concreto. Sin embargo,
de lo que sí podemos hablar es de la probabilidad de que el valor se encuentre dentro
de un rango concreto de valores. Para averiguar la probabilidad asociada a un rango
particular, lo que hay que hacer es calcular el “área bajo la curva”. Ya hemos visto este
concepto, en la Figure 7.8 las áreas sombreadas muestran probabilidades reales (p. ej.,
en la Figure 7.8 muestra la probabilidad de observar un valor que se encuentra dentro
de 1 desviación estándar de la media).
Vale, eso explica parte de la historia. He explicado un poco acerca de cómo las dis-
tribuciones continuas de probabilidad deben ser interpretadas (es decir, el área bajo la
curva es la clave). Pero, ¿qué significa realmente la fórmula para ppxq que he descrito
antes? Obviamente, 𝑃 (𝑥) no describe una probabilidad, pero ¿qué es? El nombre de
esta cantidad 𝑃 (𝑥) es densidad de probabilidad y, en términos de los gráficos que
hemos estado dibujando, corresponde a la altura de la curva. Las densidades en sí mis-
mas no son significativas, pero están “amañadas” para garantizar que el área bajo la
curva siempre se pueda interpretar como probabilidades genuinas. Para ser sincera, eso
es todo lo que necesitas saber por ahora.7
misma manera que las probabilidades son números no negativos que deben sumar 1, las densidades de
probabilidad son números no negativos que deben integrarse a 1 (donde la integral se toma a través
de todos los valores posibles de X). Para calcular la probabilidad de que X se encuentre entre a y b
calculamos la integral definida de la función de densidad sobre el intervalo correspondiente, ∫ _𝑎𝑏 𝑝(𝑥)𝑑𝑥.
Si no recuerdas o nunca has aprendido cálculo, no te preocupes por esto. No es necesario para este
libro.
7.6. OTRAS DISTRIBUCIONES ÚTILES 159
0.4
0.3
Probability Density
0.2
0.1
0.0
−4 −2 0 2 4
Observed Value
Figure 7.10: Una distribución 𝑡 con 3 grados de libertad (línea continua). Se parece a
una distribución normal, pero no es exactamente lo mismo. Para comparar, he trazado
una distribución normal estándar como línea discontinua
160 CHAPTER 7. INTRODUCCIÓN A LA PROBABILIDAD
0.25
0.20
Probability Density
0.15
0.10
0.05
0.00
0 2 4 6 8 10
Observed Value
Figure 7.11: distribución 𝜒2 con 3 grados de libertad. Fíjate que los valores observados
siempre deben ser mayores que cero y que la distribución está bastante sesgada. Estas
son las características clave de una distribución ji-cuadrado
7.6. OTRAS DISTRIBUCIONES ÚTILES 161
0.6
Probability Density
0.4
0.2
0.0
0 2 4 6 8 10
Observed Value
son “más pesadas” (es decir, se extienden más hacia afuera) que las colas de la dis-
tribución normal. Esa es la diferencia importante entre ambas. Esta distribución
suele aparecer en situaciones en las que se cree que los datos en realidad siguen
una distribución normal, pero se desconoce la media o la desviación estándar. Nos
encontraremos con esta distribución nuevamente en Chapter 11.
• La distribución 𝜒2 es otra distribución que aparece en muchos lugares diferentes.
La situación en la que la veremos será cuando hagamos un análisis de datos
categóricos en Chapter 10, pero es una de esas cosas que aparecen por todas partes.
Cuando se profundiza en las matemáticas (¿y a quién no le gusta hacerlo?), resulta
que la razón principal por la que la distribución 𝜒2 aparece por todas partes es
que si tienes un montón de variables que se distribuyen normalmente, se elevan al
cuadrado sus valores y luego se suman (un procedimiento conocido como “suma
de cuadrados”), esta suma tiene una distribución 𝜒2 . Te sorprendería saber con
qué frecuencia este hecho resulta útil. De todos modos, así es como se ve una
distribución 𝜒2 : Figure 7.11.
• La distribución 𝐹 se parece un poco a una distribución 𝜒2 , y surge siempre que
se necesita comparar dos distribuciones 𝜒2 entre sí. Hay que reconocer que esto
no suena exactamente como algo que cualquier persona en su sano juicio querría
hacer, pero resulta ser muy importante en el análisis de datos del mundo real.
¿Recuerdas cuando dije que 𝜒2 resulta ser la distribución clave cuando tomamos
una “suma de cuadrados”? Bueno, lo que eso significa es que si quieres comparar
dos “sumas de cuadrados” diferentes, probablemente estés hablando de algo que
tiene una distribución F. Por supuesto, aún no te he dado un ejemplo de algo que
involucre una suma de cuadrados, pero lo haré en Chapter 13. Y ahí es donde
veremos la distribución F. Ah, y hay una imagen en la Figure 7.12.
Bien, es hora de terminar esta sección. Hemos visto tres distribuciones nuevas: 𝜒2 ),
𝑡 y 𝐹 . Todas son distribuciones continuas y están estrechamente relacionadas con la
distribución normal. Lo principal para nuestros propósitos es que comprendas la idea
básica de que estas distribuciones están profundamente relacionadas entre sí y con la
distribución normal. Más adelante en este libro nos encontraremos con datos que se
distribuyen normalmente, o que al menos se supone que se distribuyen normalmente.
Lo que quiero que entiendas ahora es que, si asumes que tus datos se distribuyen nor-
malmente, no deberías sorprenderte al ver las distribuciones 𝜒2 , 𝑡 y 𝐹 apareciendo por
todas partes cuando empieces a intentar hacer tu análisis de datos.
7.7 Resumen
En este capítulo hemos hablado de la probabilidad. Hemos hablado sobre lo que significa
probabilidad y de por qué los estadísticos no se ponen de acuerdo sobre su significado.
Hemos hablado de las reglas que deben cumplir las probabilidades. Hemos introducido
la idea de distribución de probabilidad y hemos dedicado una buena parte del capítulo
a hablar de algunas de las distribuciones de probabilidad más importantes con las que
trabajan los estadísticos. El desglose por secciones es el siguiente:
• Teoría de la probabilidad versus estadística: ¿En qué se diferencian la probabilidad
y la estadística?
• [La visión frecuentista] versus [La visión bayesiana] de la probabilidad
• Teoría básica de la probabilidad
• La distribución binomial, La distribución normal y Otras distribuciones útiles
7.7. RESUMEN 163
Estimación de cantidades
desconocidas de una muestra
165
166CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
allá del alcance de este libro. No seremos técnicas aquí y diremos que un proceso tiene un elemento de
aleatoriedad siempre que sea posible repetir el proceso y obtener respuestas diferentes cada vez.
168CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
Figure 8.1: muestreo aleatorio simple sin reemplazo de una población finita
bolsa y sacamos una ficha. Repetimos este procedimiento hasta tener 4 fichas. Los con-
juntos de datos generados de esta forma siguen siendo muestras aleatorias simples, pero
como volvemos a meter las fichas en la bolsa inmediatamente después de extraerlas, se
denomina muestra con reemplazo. La diferencia entre esta situación y la primera es
que es posible observar al mismo miembro de la población varias veces, como se ilustra
en Figure 8.3.
Figure 8.3: Muestreo aleatorio simple con reemplazo de una población finita
2 Nada en la vida es tan sencillo. No existe una división obvia de las personas en categorías binarias
como “esquizofrénico” y “no esquizofrénico”. Pero este no es un texto de psicología clínica, así que os
ruego que me perdonéis algunas simplificaciones aquí y allá.
8.1. MUESTRAS, POBLACIONES Y MUESTREO 171
una única subpoblación. En segundo lugar, los estudiantes suelen elegir en qué
estudios participarán, por lo que la muestra es un subconjunto de estudiantes de
psicología autoseleccionados y no un subconjunto seleccionado al azar. En la vida
real, la mayoría de los estudios son muestras de conveniencia de una forma u otra.
Esto es a veces una limitación grave, pero no siempre.
Sin embargo, en términos más generales, es importante recordar que el muestreo aleato-
rio es un medio para alcanzar un fin, y no el fin en sí mismo. Supongamos que has
recurrido a una muestra de conveniencia y, como tal, puedes suponer que está sesgada.
Un sesgo en tu método de muestreo es solo un problema si te lleva a sacar conclusiones
equivocadas. Visto desde esa perspectiva, yo diría que no necesitamos que la muestra
se genere aleatoriamente en todos los aspectos, solo necesitamos que sea aleatoria con
respecto al fenómeno psicológicamente relevante de interés. Supongamos que estoy ha-
ciendo un estudio sobre la capacidad de memoria de trabajo. En el estudio 1, puedo
tomar muestras aleatorias de todos los seres humanos vivos, con una excepción: solo
puedo tomar muestras de personas nacidas un lunes. En el estudio 2, puedo tomar
muestras al azar de la población australiana. Quiero generalizar mis resultados a la
población de todos los seres humanos vivos. ¿Qué estudio es mejor? La respuesta, obvi-
amente, es el estudio 1. ¿Por qué? Porque no tenemos ninguna razón para pensar que
“nacer un lunes” tenga alguna relación interesante con la capacidad de la memoria de
trabajo. En cambio, se me ocurren varias razones por las que “ser australiano” podría
ser importante. Australia es un país rico e industrializado con un sistema educativo muy
bien desarrollado. Las personas que crecen en ese sistema habrán tenido experiencias
vitales mucho más parecidas a las de las personas que diseñaron las pruebas de capaci-
dad de memoria de trabajo. Esta experiencia compartida podría traducirse fácilmente
en creencias similares sobre cómo “hacer un examen”, una suposición compartida sobre
cómo funciona la experimentación psicológica, etc. Estas cosas podrían ser realmente
importantes. Por ejemplo, el estilo de “hacer exámenes” podría haber enseñado a los
participantes australianos a dirigir su atención exclusivamente a materiales de examen
bastante abstractos mucho más que a las personas que no han crecido en un entorno sim-
ilar. Por tanto, esto podría dar lugar a una imagen engañosa de lo que es la capacidad
de memoria de trabajo.
Hay dos puntos ocultos en esta discusión. En primer lugar, al diseñar tus propios estu-
dios, es importante pensar en qué población te interesa y esforzarte por muestrear de
forma adecuada esa población. En la práctica, una suele verse obligada a conformarse
con una “muestra de conveniencia” (por ejemplo, los profesores de psicología recogen
172CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
1500
15
Probability Density
0.02
Frequency
Frequency
10 1000
0.01
5 500
0.00 0 0
60 80 100 120 140 60 80 100 120 140 60 80 100 120 140
Supongamos que hago un experimento. Selecciono 100 personas al azar y les administro
una prueba de CI, lo que me da una muestra aleatoria simple de la población. Mi
muestra consistiría en una colección de números como esta:
106 101 98 80 74 … 107 72 100
Cada una de estas puntuaciones de CI es una muestra de una distribución normal con
media 100 y desviación estándar 15. Así que si trazo un histograma de la muestra,
obtengo algo como lo que se muestra en Figure 8.4 (b). Como puedes ver, el histograma
tiene aproximadamente la forma correcta, pero es una aproximación muy burda a la
distribución real de la población que se muestra en Figure 8.4 (a). Cuando calculo
la media de mi muestra, obtengo un número bastante cercano a la media poblacional
100, pero no idéntico. En este caso, resulta que las personas de mi muestra tienen
una media de CI de 98,5 y la desviación estándar de sus puntuaciones de CI es 15,9.
Estos estadísticos muestrales son propiedades de mi conjunto de datos y, aunque
son bastante similares a los valores reales de la población, no son iguales. En general,
los estadísticos muestrales son las cosas que puedes calcular a partir de tu conjunto de
datos y los parámetros poblacionales son las cosas sobre las que quieres aprender. Más
adelante en este capítulo hablaré de [Estimar los parámetros poblacionales] utilizando
tus estadísticos muestrales y también de [Estimar un intervalo de confianza], pero antes
de llegar a eso hay algunas ideas más sobre la teoría del muestreo que debes conocer.
Figure 8.5: Una muestra aleatoria extraída de una distribución normal usando jamovi
8.3. DISTRIBUCIONES MUESTRALES Y EL TEOREMA CENTRAL DEL LÍMITE175
describirse como un promedio de cantidades independientes. Esto es cierto para la media muestral.
Sin embargo, también es posible escribir muchos otros estadísticos muestrales como promedios de una
forma u otra. La varianza de una muestra, por ejemplo, se puede reescribir como un tipo de promedio
y, por tanto, está sujeta a la ley de los grandes números. Sin embargo, el valor mínimo de una muestra
no se puede escribir como un promedio de nada y, por lo tanto, no se rige por la ley de los grandes
números.
176CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
Table 8.1: Diez repeticiones del experimento CI, cada una con un tamaño de muestra
de $( N = 5 )$
(a)
(b)
IQ score
Figure 8.6: La distribución muestral de la media del ‘experimento de las cinco puntua-
ciones de CI’. Si se toma una muestra de 5 personas al azar y se calcula su CI promedio,
es casi seguro que se obtendrá un número entre 80 y 120, aunque hay bastantes personas
que tienen CI superiores a 120 o inferiores a 80. A modo de comparación, la línea negra
muestra la distribución poblacional de las puntuaciones de CI
8.3. DISTRIBUCIONES MUESTRALES Y EL TEOREMA CENTRAL DEL LÍMITE179
IQ score
Figure 8.7: La distribución muestral del máximo para el ‘experimento de las cinco
puntuaciones de CI’. Si tomas una muestra de 5 personas al azar y seleccionas a la que
tenga la puntuación de CI más alta, probablemente verás a alguien con un CI entre 100
y 140.
180CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
Figure 8.8: Ilustración de cómo la distribución muestral de la media depende del tamaño
de la muestra. En cada panel, he generado 10 000 muestras de datos de coeficiente
intelectual y he calculado la media de CI observada en cada uno de estos conjuntos
de datos. Los histogramas de estos gráficos muestran la distribución de estas medias
(es decir, la distribución muestral de la media). Cada puntuación individual de CI se
extrajo de una distribución normal con una media de 100 y una desviación estándar de
15, que se muestra como la línea negra continua. En el panel (a), cada conjunto de datos
contiene una única observación, por lo que la media de cada muestra es la puntuación
de CI de una sola persona. En consecuencia, la distribución muestral de la media es, por
supuesto, idéntica a la distribución poblacional de las puntuaciones de CI. Sin embargo,
cuando aumentamos el tamaño de la muestra a 2, la media de cualquier muestra tiende
a estar más cerca de la media de la población que la puntuación de CI de cualquier
persona, por lo que el histograma (es decir, la distribución muestral) es un poco más
estrecho que la distribución de la población. En el momento en que aumentamos el
tamaño de la muestra a 10 (panel (c)), podemos ver que la distribución de las medias
muestrales tiende a agruparse bastante estrechamente en torno a la media real de la
población.
8.3. DISTRIBUCIONES MUESTRALES Y EL TEOREMA CENTRAL DEL LÍMITE181
muestral será muy estrecha. Puedes ver esto visualmente en Figure 8.8, que muestra que
cuanto mayor es el tamaño de la muestra, más estrecha es la distribución de muestreo.
Podemos cuantificar este efecto calculando la desviación estándar de la distribución de
muestreo, que se denomina error estándar. El error estándar de un estadístico se suele
denotar SE, y como normalmente nos interesa el error estándar de la media muestral,
a menudo usamos el acrónimo SEM. Como se puede ver con solo mirar la imagen, a
medida que aumenta el tamaño de la muestra 𝑁 , el SEM disminuye.
Bien, esa es una parte de la historia. Sin embargo, hay algo que he pasado por alto
hasta ahora. Todos mis ejemplos hasta ahora se han basado en los experimentos de
“puntuaciones de CI”, y como las puntuaciones de CI se distribuyen de forma aproxi-
madamente normal, he supuesto que la distribución de la población es normal. ¿Y si no
es normal? ¿Qué ocurre con la distribución muestral de la media? Lo sorprendente es
que, sea cual sea la forma de la distribución de la población, a medida que N aumenta,
la distribución muestral de la media empieza a parecerse más a una distribución normal.
Para que te hagas una idea, he realizado algunas simulaciones. Para ello, empecé con la
distribución “en rampa” que se muestra en el histograma en Figure 8.9. Como se puede
ver al comparar el histograma de forma triangular con la curva de campana trazada por
la línea negra, la distribución de la población no se parece mucho a una distribución
normal. A continuación, simulé los resultados de un gran número de experimentos. En
cada experimento, tomé 𝑁 = 2 muestras de esta distribución y calculé la media mues-
tral. Figure 8.9 (b) representa el histograma de estas medias muestrales (es decir, la
distribución muestral de la media para 𝑁 = 2). Esta vez, el histograma produce una
distribución en forma de 𝜒2 . Sigue sin ser normal, pero está mucho más cerca de la línea
negra que la distribución de la población en Figure 8.9 (a). Cuando aumento el tamaño
de la muestra a 𝑁 = 4, la distribución muestral de la media es muy cercana a la normal
(Figure 8.9 (c)), y cuando llegamos a un tamaño de muestra de N = 8 es casi perfecta-
mente normal. En otras palabras, mientras el tamaño de la muestra no sea pequeño, la
distribución muestral de la media será aproximadamente normal, ¡independientemente
de cómo sea la distribución de la población!
A partir de estas cifras, parece que tenemos pruebas de todas las afirmaciones siguientes
sobre la distribución muestral de la media.
• La media de la distribución muestral es la misma que la media de la población
• La desviación estándar de la distribución muestral (es decir, el error estándar)
disminuye a medida que aumenta el tamaño de la muestra
• La forma de la distribución muestral se vuelve normal a medida que aumenta el
tamaño de la muestra.
Resulta que no solo todas estas afirmaciones son ciertas, sino que hay un teorema muy
famoso en estadística que demuestra las tres cosas, conocido como el teorema central
del límite. Entre otras cosas, el teorema central del límite nos dice que si la distribución
de la población tiene media 𝜇 y desviación estándar 𝜎, entonces la distribución muestral
de la media también tiene media 𝜇 y el error estándar de la media es
𝜎
𝑆𝐸𝑀 = √
𝑁
Como dividimos la desviación estándar de la población 𝜎 por la raíz cuadrada del tamaño
de la muestra N, el SEM se hace más pequeño a medida que aumenta el tamaño de la
182CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
Sample Mean Sample Mean
(c) Sample size = 4 (d) Sample size = 8
0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
Sample Mean Sample Mean
Figure 8.9: Demostración del teorema central del límite. En el panel (a), tenemos
una distribución de población no normal, y los paneles (b)-(d) muestran la distribución
muestral de la media para muestras de tamaño 2, 4 y 8 para datos extraídos de la
distribución en el panel (a). Como se puede ver, aunque la distribución original de la
población no es normal, la distribución muestral de la media se aproxima bastante a la
normalidad cuando se tiene una muestra de 4 observaciones.
8.4. ESTIMACIÓN DE LOS PARÁMETROS POBLACIONALES 183
muestra. También nos dice que la forma de la distribución muestral se vuelve normal.4
Este resultado es útil para todo tipo de cosas. Nos dice por qué los experimentos
grandes son más fiables que los pequeños, y como nos da una fórmula explícita para el
error estándar, nos dice cuánto más fiable es un experimento grande. Nos dice por qué la
distribución normal es, bueno, normal. En los experimentos reales, muchas de las cosas
que queremos medir son en realidad promedios de muchas cantidades diferentes (por
ejemplo, podría decirse que la inteligencia “general” medida por el CI es un promedio
de una gran cantidad de habilidades y capacidades “específicas”), y cuando esto ocurre,
la cantidad promediada debería seguir una distribución normal. Debido a esta ley
matemática, la distribución normal aparece una y otra vez en los datos reales.
poco más general de lo que parece en esta sección. Como en la mayoría de los textos de introducción
a la estadística, he tratado una situación en la que se cumple el teorema central del límite: cuando se
toma la media de muchos sucesos independientes extraídos de la misma distribución. Sin embargo, el
teorema central del límite es mucho más amplio que esto. Por ejemplo, hay toda una clase de cosas
llamadas “estadísticos U”, todas las cuales cumplen el teorema central del límite y, por lo tanto, se
distribuyen normalmente para muestras de gran tamaño. La media es uno de esos estadísticos, pero no
es el único.
5 Ten en cuenta que si realmente estuvieras interesada en esta cuestión, tendrías que ser mucho más
cuidadosa que yo. No se puede comparar sin más las puntuaciones de CI de Whyalla con las de Port
Pirie y suponer que cualquier diferencia se debe a la intoxicación por plomo. Aunque fuera cierto que
las únicas diferencias entre las dos ciudades correspondieran a las diferentes refinerías (y no lo es, ni
mucho menos), hay que tener en cuenta que la gente ya cree que la contaminación por plomo provoca
déficits cognitivos. Si volvemos a Chapter 2, esto significa que hay diferentes efectos de demanda para
la muestra de Port Pirie que para la muestra de Whyalla. En otras palabras, es posible que los datos
muestren una diferencia de grupo ilusoria en tus datos, causada por el hecho de que la gente cree que
existe una diferencia real. Me parece bastante inverosímil pensar que los lugareños no se darían cuenta
de lo que se estaba intentando hacer si un grupo de investigadores apareciera en Port Pirie con batas
184CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
(a)
(b)
Do we know what it
Symbol What is it? is?
Yes, calculated from
𝑋̂ Sample mean the raw data
True population Almost never known
𝜇 mean for sure
Yes, identical to the
Estimate of the sample mean in simple
𝜇̂ population mean random samples
vación. Para este ejemplo, es útil considerar una muestra en la que no tengas ninguna
intuición sobre cuáles podrían ser los valores reales de la población, así que usemos algo
completamente ficticio. Supongamos que la observación en cuestión mide la cromulencia
de mis zapatos. Resulta que mis zapatos tienen una cromulencia de 20. Así que aquí
está mi muestra:
Se trata de una muestra perfectamente legítima, aunque tenga un tamaño muestral
de 𝑁 = 1. Tiene una media muestral de 20 y dado que cada observación de esta
muestra es igual a la media muestral (¡obviamente!) tiene una desviación estándar
muestral de 0. Como descripción de la muestra parece bastante correcta, la muestra
contiene una única observación y, por tanto, no se observa ninguna variación dentro
de la muestra. Una desviación estándar muestral de 𝑠 = 0 es la respuesta correcta en
este caso. Pero como estimación de la desviación estándar de la población parece una
completa locura, ¿verdad? Es cierto que tú y yo no sabemos nada en absoluto sobre lo
que es la “cromulencia”, pero sabemos algo sobre datos. La única razón por la que no
vemos ninguna variabilidad en la muestra es que la muestra es demasiado pequeña para
mostrar ninguna variación. Por lo tanto, si tenemos un tamaño de muestra de 𝑁 = 1,
parece que la respuesta correcta es simplemente decir “ni idea”.
Observa que no tienes la misma intuición cuando se trata de la media muestral y la
media poblacional. Si nos vemos obligadas a hacer una suposición sobre la media de
la población, no nos parecerá una locura adivinar que la media de la población es 20.
Claro, probablemente no te sentirías muy segura de esa suposición porque solo tienes
una observación con la que trabajar, pero sigue siendo la mejor suposición que puedes
hacer.
Ampliemos un poco este ejemplo. Supongamos que ahora hago una segunda observación.
Mi conjunto de datos ahora tiene 𝑁 = 2 observaciones de la cromulencia de los zapatos,
y la muestra completa tiene ahora este aspecto:
20, 22
Esta vez, nuestra muestra es lo suficientemente grande como para que podamos observar
cierta variabilidad: ¡dos observaciones es el número mínimo necesario para observar
186CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
estimador, pero hay otras cosas que importan además del sesgo. Sin embargo, está fuera del alcance de
este libro discutir esto en detalle. Solo quiero llamar tu atención sobre el hecho de que hay una cierta
complejidad oculta aquí.
8.4. ESTIMACIÓN DE LOS PARÁMETROS POBLACIONALES 187
0 10 20 30 40 50 60
Sample standard deviation
106
15
10
102
100
5
98
96 0
2 4 6 8 10 2 4 6 8 10
(a) (b)
Figure 8.11: Ilustración del hecho de que la media muestral es un estimador insesgado
de la media poblacional (panel a), pero la desviación estándar muestral es un estimador
sesgado de la desviación estándar poblacional (panel b). Para la figura, generé conjun-
tos de datos simulados de $ 10,000 $ con 1 observación cada uno, $ 10,000 $ más con 2
observaciones, y así sucesivamente hasta un tamaño de muestra de 10. Cada conjunto
de datos estaba formado por datos de CI falsos, es decir, los datos se distribuían nor-
malmente con una media poblacional real de 100 y una desviación estándar de 15. En
promedio, las medias muestrales resultan ser 100, independientemente del tamaño de
la muestra (panel a). Sin embargo, las desviaciones estándar de la muestra resultan ser
sistemáticamente demasiado pequeñas (panel b), sobre todo para tamaños de muestra
pequeños.
8.4. ESTIMACIÓN DE LOS PARÁMETROS POBLACIONALES 189
1 𝑁
𝑠2 = ∑(𝑋 − 𝑋)̄ 2
𝑁 𝑖=1 𝑖
(a)
(b)
Do we know what it
Symbol What is it? is?
Sample standard Yes, calculated from
𝑠 deviation the raw data
Population standard Almost never known
𝜎 deviation for sure
Estimate of the Yes, but not the same
population standard as the sample standard
𝜎̂ deviation deviation
(a)
(b)
Do we know what it
Symbol What is it? is?
Yes, calculated from
𝑠2 Sample variance the raw data
Almost never known
𝜎2 Population variance for sure
Estimate of the Yes, but not the same
𝜎̂ 2 population variance as the sample variance
Para terminar esta sección, aquí hay otro par de tablas para ayudar a mantener las
cosas claras (Table 8.3 y Table 8.4).
donde el SEM es igual a √𝜎𝑁 N y podemos estar seguras al 95% de que esto es cierto. Sin embargo, eso no
responde a la pregunta que realmente nos interesa. La ecuación anterior nos dice lo que debemos esperar
sobre la media muestral dado que sabemos cuáles son los parámetros de la población. Lo que queremos
es que funcione al revés. Queremos saber qué debemos creer sobre los parámetros poblacionales, dado
que hemos observado una muestra concreta. Sin embargo, no es demasiado difícil hacer esto. Usando
un poco de álgebra de secundaria, una forma astuta de reescribir nuestra ecuación es la siguiente:
Lo que esto nos dice es que el rango de valores tiene una probabilidad del 95% de contener la media
poblacional µ. Nos referimos a este rango como un intervalo de confianza del 95 %, denominado
𝐶𝐼95 . En resumen, siempre que N sea lo suficientemente grande (lo suficientemente grande par que
creamos que la distribución muestral de la media es normal), entonces podemos escribir esto como
nuestra fórmula para el intervalo de confianza del 95%:
𝜎
𝐶𝐼95 = 𝑋̄ ± (1, 96 × √ )
𝑁
192CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
110
* ** * * *
Mean IQ
100
90
80
0 10 20 30 40 50
Replication Number
110
* * *
Mean IQ
100
90
80
0 10 20 30 40 50
Replication Number
Figure 8.12: Intervalos de confianza del 95%. El panel superior (a) muestra 50 réplicas
simuladas de un experimento en el que medimos el CI de 10 personas. El punto marca
la posición de la media muestral y la línea muestra el intervalo de confianza del 95%.
La mayoría de los 50 intervalos de confianza contienen media real (es decir, 100), pero
algunos, en azul y marcados con asteriscos, no la contienen. El gráfico inferior (panel
b) muestra una simulación similar, pero esta vez simulamos réplicas de un experimento
que mide el CI de 25 personas.
194CHAPTER 8. ESTIMACIÓN DE CANTIDADES DESCONOCIDAS DE UNA MUESTRA
casilla de verificación tanto para ‘Error estándar de la media’ como para el ‘Intervalo
de confianza para la media’, por lo que puedes usar esto para averiguar el intervalo
de confianza del 95% (que es el valor predeterminado). Así, por ejemplo, si cargo el
archivo IQsim.omv, marco la casilla ‘Intervalo de confianza para la media’, puedo ver el
intervalo de confianza asociado con el CI medio simulado: IC del 95 % inferior = 99,39
y IC del 95 % superior = 99,97. Así, en nuestros datos de muestra grande con N = 10
000, la puntuación media del CI es 99,68 con un IC del 95 % de 99,39 a 99,97.
Cuando se trata de trazar intervalos de confianza en jamovi, puede especificar que la
media se incluya como opción en un diagrama de caja. Además, cuando aprendamos
sobre pruebas estadísticas específicas, por ejemplo, en Chapter 13, veremos que también
podemos trazar intervalos de confianza como parte del análisis de datos. Eso está muy
bien, así que te mostraremos cómo hacerlo más adelante.
8.6 Resumen
En este capítulo hemos tratado dos temas principales. La primera mitad del capítulo
trata sobre la teoría del muestreo, y la segunda mitad trata sobre cómo podemos usar
la teoría del muestreo para construir estimaciones de los parámetros de la población. El
desglose de las secciones es el siguiente:
• Ideas básicas sobre Muestras, poblaciones y muestreo
• Teoría estadística del muestreo: La ley de los grandes números y Distribuciones
muestrales y el teorema central del límite
• [Estimación de parámetros poblacionales]. Medias y desviaciones estándar
• Estimación de un intervalo de confianza
Como siempre, hay muchos temas relacionados con el muestreo y la estimación que no
se tratan en este capítulo, pero creo que para una clase de introducción a la psicología
es bastante completo. Para la mayoría de los investigadores aplicados, no necesitará
mucha más teoría que esta. Una cuestión importante que no he tocado en este capítulo
es qué hacer cuando no se dispone de una muestra aleatoria simple. Hay mucha teoría
estadística a la que se puede recurrir para manejar esta situación, pero va mucho más
allá del alcance de este libro.
Chapter 9
Prueba de hipótesis
195
196 CHAPTER 9. PRUEBA DE HIPÓTESIS
(a)
(b)
vamos a pensar en lo que sería esa afirmación. La cantidad que me interesa dentro
del experimento es 𝑃 (𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎), la probabilidad verdadera pero desconocida con la que
los participantes en mi experimento responden la pregunta correctamente. Usemos la
letra griega 𝜃 (theta) para referirnos a esta probabilidad. Aquí hay cuatro hipótesis
estadísticas diferentes:
Todos estos son ejemplos legítimos de una hipótesis estadística porque son afirmaciones
sobre un parámetro de la población y están relacionados de forma significativa con mi
experimento.
Lo que esta discusión deja claro, espero, es que cuando se intenta construir una prueba
de hipótesis estadística, el investigador tiene que tener en cuenta dos hipótesis muy
distintas. En primer lugar, tiene una hipótesis de investigación (una afirmación sobre
la psicología), que corresponde a una hipótesis estadística (una afirmación sobre la
población que genera los datos). En mi ejemplo de PES, podrían ser las que se muestran
en Table 9.1.
Y una cosa clave que hay que reconocer es lo siguiente. Una prueba de hipótesis estadís-
tica es una prueba de la hipótesis estadística, no de la hipótesis de investigación. Si el
estudio está mal diseñado, se rompe el vínculo entre la hipótesis de investigación y la
hipótesis estadística. Para poner un ejemplo tonto, supongamos que mi estudio de PES
se realizara en una situación en la que el participante pudiera ver realmente la tarjeta
reflejada en una ventana. Si eso sucede, podrías encontrar pruebas muy sólidas de que
𝜃 ≠ 0.5, pero esto no nos diría nada sobre si “la PES existe”.
9.2. DOS TIPOS DE ERRORES 199
(a)
(b)
retain 𝐻0 reject 𝐻0
𝐻0 is true correct decision error (type I)
𝐻0 is false error (type II) correct decision
Llegados a este punto, debemos ser un poco más precisas sobre lo que entendemos por
“errores”. En primer lugar, digamos lo obvio. O bien la hipótesis nula es verdadera, o
bien es falsa, y nuestra prueba mantendrá la hipótesis nula o la rechazará.5 Así que,
como ilustra Table 9.2, después de ejecutar la prueba y hacer nuestra elección, podría
haber ocurrido una de cuatro cosas:
Por consiguiente, en realidad hay dos tipos de error. Si rechazamos una hipótesis nula
que en realidad es cierta, cometemos un error de tipo I. Por otro lado, si mantenemos
la hipótesis nula cuando en realidad es falsa, cometemos un error de tipo II.
¿Recuerdas que dije que las pruebas estadísticas eran como un juicio penal? Pues lo
decía en serio. Un juicio penal requiere que se demuestre “más allá de toda duda
razonable” que el acusado lo hizo. Todas las normas probatorias están (al menos en
teoría) diseñadas para garantizar que no haya (casi) ninguna probabilidad de condenar
injustamente a un acusado inocente. El juicio está diseñado para proteger los derechos
de un acusado, como dijo el famoso jurista inglés William Blackstone, es “mejor que
escapen diez culpables a que sufra un inocente”. En otras palabras, un juicio penal no
trata de la misma manera los dos tipos de error. Castigar al inocente se considera mucho
peor que dejar libre al culpable. Una prueba estadística es más o menos lo mismo. El
principio de diseño más importante de la prueba es controlar la probabilidad de un error
de tipo I, para mantenerla por debajo de una probabilidad fija. Esta probabilidad, que
se denota 𝛼, se llama nivel de significación de la prueba. Y lo diré de nuevo, porque
es fundamental para todo el montaje: se dice que una prueba de hipótesis tiene un nivel
de significación 𝛼 si la tasa de error tipo I no es mayor que 𝛼.
¿Y qué pasa con la tasa de error tipo II? Bueno, también nos gustaría tenerla bajo
control, y denotamos esta probabilidad por 𝛽. Sin embargo, es mucho más común
referirse a la potencia de la prueba, que es la probabilidad con la que rechazamos una
hipótesis nula cuando realmente es falsa, que es 1 − 𝛽. Para que no nos equivoquemos,
5 un inciso sobre el lenguaje que utilizas para hablar sobre la prueba de hipótesis. En primer lugar, hay
que evitar la palabra “demostrar”. Una prueba estadística realmente no demuestra que una hipótesis
sea verdadera o falsa. La prueba implica certeza y, como dice el refrán, la estadística significa nunca
tener que decir que estás seguro. En eso casi todo el mundo está de acuerdo. Sin embargo, más allá
de eso, hay bastante confusión. Algunas personas sostienen que solo se pueden hacer afirmaciones
como “rechazó la nula”, “no rechazó la nula” o posiblemente “retuvo la nula”. Según esta línea de
pensamiento, no se pueden decir cosas como “acepta la alternativa” o “acepta la nula”. Personalmente
creo que esto es demasiado fuerte. En mi opinión, confunde la prueba de hipótesis nulas con la visión
falsacionista del proceso científico de Karl Popper. Aunque hay similitudes entre el falsacionismo y la
prueba de hipótesis nula, no son equivalentes. Sin embargo, aunque personalmente creo que está bien
hablar de aceptar una hipótesis (con la condición de que “aceptar” no significa que sea necesariamente
cierta, especialmente en el caso de la hipótesis nula), mucha gente no estará de acuerdo. Y lo que
es más, deberías ser consciente de que esta rareza particular existe para que no te pille desprevenida
cuando escribas tus propios resultados.
9.3. PRUEBAS ESTADÍSTICAS Y DISTRIBUCIONES MUESTRALES 201
(a)
(b)
retain 𝐻0 reject 𝐻0
1-𝛼 (probability of
𝐻0 is true correct retention) 𝛼 (type I error rate)
𝛽 (type II error 1 − 𝛽 (power of the
𝐻0 is false rate) test)
aquí tenemos de nuevo la misma tabla pero con los números correspondientes añadidos
(Table 9.3):
Una prueba de hipótesis “potente” es aquella que tiene un valor pequeño de 𝛽, mientras
mantiene 𝛼 fijo en algún nivel (pequeño) deseado. Por convención, los científicos utilizan
tres niveles 𝛼 diferentes: .05, .01 y .001. Fíjate en la asimetría aquí; las pruebas están
diseñadas para garantizar que el nivel de 𝛼 se mantiene bajo, pero no hay ninguna
garantía correspondiente con respecto a 𝛽. Sin duda, nos gustaría que la tasa de error
de tipo II fuera pequeña y tratamos de diseñar pruebas que la mantengan pequeña,
pero esto suele ser secundario frente a la abrumadora necesidad de controlar la tasa de
error de tipo I. Como habría dicho Blackstone si fuera estadístico, es “mejor retener
10 hipótesis nulas falsas que rechazar una única verdadera”. Para ser sincera, no sé si
estoy de acuerdo con esta filosofía. Hay situaciones en las que creo que tiene sentido y
situaciones en las que creo que no, pero eso no viene al caso. Es como se construyen las
pruebas.
El nombre de esta cosa que calculamos para guiar nuestras decisiones es la prueba
estadística.
Una vez elegida la prueba estadística, el siguiente paso es establecer con precisión qué
valores de la prueba estadística harían que se rechazara la hipótesis nula y qué valores
harían que la mantuviéramos. Para ello, debemos determinar cuál sería la distribución
muestral de la prueba estadística si la hipótesis nula fuera realmente cierta (ya
hemos hablado de las distribuciones muestrales en Section 8.3.1 ¿Por qué necesitamos
esto? Porque esta distribución nos dice exactamente qué valores de X nos llevaría a
esperar nuestra hipótesis nula. Y, por tanto, podemos usar esta distribución como
una herramienta para evaluar hasta qué punto la hipótesis nula concuerda con nuestros
datos.
¿Cómo determinamos realmente la distribución muestral de la prueba estadística? Para
muchas pruebas de hipótesis, este paso es bastante complicado, y más adelante en el
libro verás que soy un poco evasiva al respecto para algunas de las pruebas (algunas ni
yo misma las entiendo). Sin embargo, a veces es muy fácil. Y, afortunadamente para
nosotras, nuestro ejemplo PES nos proporciona uno de los casos más fáciles. Nuestro
parámetro poblacional 𝜃 es simplemente la probabilidad global de que la gente responda
correctamente a la pregunta, y nuestra prueba estadística 𝑋 es el recuento del número de
personas que lo hicieron de una muestra de tamaño N. Ya hemos visto una distribución
como esta antes, en Section 7.4, ¡y eso es exactamente lo que describe la distribución
binomial! Así que, para usar la notación y la terminología que introduje en esa sección,
diríamos que la hipótesis nula predice que 𝑋 se distribuye binomialmente, lo cual se
escribe
𝑋 ∑ 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝜃, 𝑁 )
Dado que la hipótesis nula establece que 𝜃 = 0.5 y nuestro experimento tiene 𝑁 = 100
personas, tenemos la distribución muestral que necesitamos. Esta distribución muestral
se representa en Figure 9.1. En realidad, no hay sorpresas, la hipótesis nula dice que
𝑋 = 50 es el resultado más probable, y dice que es casi seguro que veamos entre 40 y
60 respuestas correctas.
0.08
0.06
Probability
0.04
0.02
0.00
0 20 40 60 80 100
Figure 9.1: La distribución muestral para nuestra prueba estadística 𝑋 cuando la hipóte-
sis nula es verdadera. Para nuestro escenario PES se trata de una distribución binomial.
No es de extrañar, dado que la hipótesis nula dice que la probabilidad de una respuesta
correcta es 𝜃 = .5, la distribución muestral dice que el valor más probable es 50 (de 100)
respuestas correctas. La mayor parte de la masa de probabilidad se encuentra entre 40
y 60
204 CHAPTER 9. PRUEBA DE HIPÓTESIS
crítica también se denomina a veces región de rechazo). ¿Cómo encontramos esta región
crítica? Consideremos lo que sabemos:
• 𝑋 debe ser muy grande o muy pequeña para rechazar la hipótesis nula
• Si la hipótesis nula es verdadera, la distribución muestral de 𝑋 es 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(0.5, 𝑁 )
• Si 𝛼 = .05, la región crítica debe cubrir el 5% de esta distribución muestral.
Es importante que comprendas este último punto. La región crítica corresponde a
aquellos valores de 𝑋 para los que rechazaríamos la hipótesis nula, y la distribución
muestral en cuestión describe la probabilidad de que obtuviéramos un valor particular
de 𝑋 si la hipótesis nula fuera realmente cierta. Ahora, supongamos que elegimos una
región crítica que cubre 20% de la distribución muestral, y supongamos que la hipótesis
nula es realmente cierta. ¿Cuál sería la probabilidad de rechazar incorrectamente la
nula? La respuesta es, por supuesto, 20%. Y, por tanto, habríamos construido una
prueba que tuviera un nivel � de 0.2. Si queremos 𝛼 = .05, la región crítica solo puede
cubrir el 5% de la distribución muestral de nuestra prueba estadística.
Resulta que esas tres cosas resuelven el problema de forma única. Nuestra región crítica
consiste en los valores más extremos, conocidos como las colas de la distribución. Esto
se ilustra en Figure 9.2. Si queremos 𝛼 = .05 entonces nuestras regiones críticas corre-
sponden a 𝑋 ≤ 40 y 𝑋 ≥ 60.6 Es decir, si el número de personas que dicen ” verdadero”
está entre 41 y 59, entonces deberíamos mantener la hipótesis nula. Si el número está
entre 0 y 40, o entre 60 y 100, debemos rechazar la hipótesis nula. Los números 40 y
60 suelen denominarse valores críticos, ya que definen los bordes de la región crítica.
En este punto, nuestra prueba de hipótesis está prácticamente completa:
1. Elegimos un nivel � (por ejemplo, 𝛼 = .05);
2. Obtenemos alguna prueba estadística (por ejemplo, 𝑋) que haga un buen trabajo
(en algún sentido significativo) al comparar 𝐻0 con 𝐻1 ;
3. Calculamos la distribución muestral de la prueba estadística suponiendo que la
hipótesis nula es verdadera (en este caso, binomial); y entonces
4. Calculamos la región crítica que produce un nivel � apropiado (0-40 y 60-100).
Todo lo que tenemos que hacer ahora es calcular el valor de la prueba estadística para
los datos reales (por ejemplo, X = 62) y luego compararlo con los valores críticos para
tomar nuestra decisión. Dado que 62 es mayor que el valor crítico de 60, rechazaríamos
la hipótesis nula. O, dicho de otro modo, decimos que la prueba produjo un resultado
estadísticamente significativo.
generosa. Sin embargo, si hubiera elegido 39 y 61 como límites de la región crítica, ésta solo cubriría
3.5% de la distribución. Pensé que tiene más sentido usar 40 y 60 como mis valores críticos, y estar
dispuesta a tolerar una tasa de error tipo I de 5.7%, ya que eso es lo más cerca que puedo llegar a un
valor de 𝛼 = .05.
7 Internet parece bastante convencido de que Ashley dijo esto, aunque no puedo encontrar a nadie
0 20 40 60 80 100
Figure 9.2: La región crítica asociada con la prueba de hipótesis para el estudio PES,
para una prueba de hipótesis con un nivel de significación de 𝛼 = .05. El gráfico muestra
la distribución muestral de 𝑋 bajo la hipótesis nula (es decir, igual que Figure 9.1).
Las barras grises corresponden a aquellos valores de 𝑋 para los que mantendríamos la
hipótesis nula. Las barras azules (sombreadas más oscuras) muestran la región crítica,
aquellos valores de 𝑋 para los que rechazaríamos la hipótesis nula. Debido a que la
hipótesis alternativa es bilateral (es decir, permite tanto 𝜃 < .5 como 𝜃 > .5, la región
crítica cubre ambas colas de la distribución. Para asegurar un nivel de 𝛼 de $.05 $,
debemos asegurarnos de que cada una de las dos regiones abarca 2.5% de la distribución
muestral
206 CHAPTER 9. PRUEBA DE HIPÓTESIS
Llegados a este punto, conviene hacer una breve digresión sobre la palabra “significativo”.
El concepto de significación estadística es en realidad muy sencillo, pero tiene un nombre
muy desafortunado. Si los datos nos permiten rechazar la hipótesis nula, decimos que “el
resultado es estadísticamente significativo”, que a menudo se abrevia como “el resultado
es significativo”. Esta terminología es bastante antigua y se remonta a una época en la
que “significativo” solo significaba algo así como “indicado”, en lugar de su significado
moderno, que es mucho más cercano a “importante”. Como resultado, muchos lectores
modernos se confunden mucho cuando comienzan a aprender estadística porque piensan
que un “resultado significativo” debe ser importante. No significa eso en absoluto. Lo
único que significa “estadísticamente significativo” es que los datos nos han permitido
rechazar una hipótesis nula. Si el resultado es realmente importante o no en el mundo
real es una cuestión muy diferente, y depende de muchas otras cosas.
𝐻0 ∶ 𝜃 ≤ 0.5
𝐻1 ∶ 𝜃 > 0.5
Cuando esto ocurre, tenemos lo que se llama una prueba unilateral y la región crítica
solo cubre una cola de la distribución muestral. Esto se ilustra en Figure 9.3.
critical region
(5% of the distribution)
0 20 40 60 80 100
Figure 9.3: La región crítica para una prueba unilateral. En este caso, la hipótesis
alternativa es que 𝜃 ≥ .5 por lo que solo rechazaríamos la hipótesis nula para valores
grandes de 𝑋. Como consecuencia, la región crítica solo cubre la cola superior de la
distribución muestral, concretamente el 5% superior de la distribución. Contrasta esto
con la versión bilateral en Figure 9.2
208 CHAPTER 9. PRUEBA DE HIPÓTESIS
(a)
(b)
Value of
𝛼 0.05 0.04 0.03 0.02 0.01
Reject the
null? Yes Yes Yes No No
Por el contrario, supongamos que mi experimento arrojó 𝑋 = 97. ¿Qué sucede con mi
valor p ahora? Esta vez se ha reducido a 𝑝 = 1.36 x 10−25 , que es una tasa de error de
Tipo I minúscula, minúscula8 . En este segundo caso, podrías rechazar la hipótesis nula
con mucha más confianza, porque solo tengo que estar “dispuesta” a tolerar una tasa
de error tipo I de aproximadamente $ 1 $ en $ 10 $ billones de billones para justificar
mi decisión de rechazar.
científica!
210 CHAPTER 9. PRUEBA DE HIPÓTESIS
resto del libro, dedicaré algo de tiempo a hablar sobre cómo informar de los resultados
de diferentes pruebas (consulta Section 10.1.9 para ver un ejemplo especialmente detal-
lado, para que puedas hacerte una idea de cómo se hace normalmente). Sin embargo,
independientemente de la prueba que estés haciendo, lo único que siempre tienes que
hacer es decir algo sobre el valor de 𝑝 y si el resultado fue significativo o no.
El hecho de tener que hacer esto no es sorprendente, es el objetivo de la prueba. Lo
que puede sorprender es que haya cierta controversia sobre cómo hacerlo exactamente.
Dejando a un lado a las personas que están completamente en desacuerdo con todo el
marco en el que se basa la prueba de hipótesis nula, existe cierta tensión sobre si se
debe informar o no el valor exacto de 𝑝 que se ha obtenido, o si sólo se debe indicar
que 𝑝 < 𝛼 para un nivel de significación que se ha elegido de antemano (por ejemplo,
𝑝 < .05).
9.6.1 La cuestión
Para ver por qué esto es un problema, la clave es reconocer que los valores p son terrible-
mente convenientes. En la práctica, el hecho de que podamos calcular el valor p significa
que en realidad no tenemos que especificar ningún nivel 𝛼 para realizar la prueba. En
su lugar, lo que puedes hacer es calcular su valor p e interpretarlo directamente. Si
obtienes 𝑝 = 0, 062, significa que tendrías que estar dispuesta a tolerar una tasa de error
de tipo I de 6, 2% para justificar el rechazo de la hipótesis nula. Si tú personalmente
encuentras 6.2% intolerable entonces retienes la hipótesis nula. Por lo tanto, se argu-
menta, ¿por qué no nos limitamos a comunicar el valor real de 𝑝 y dejamos que el lector
decida por sí mismo cuál es la tasa de error de Tipo I aceptable? Este enfoque tiene
la gran ventaja de “suavizar” el proceso de toma de decisiones. De hecho, si aceptas la
definición de Neyman del valor p, ese es el punto central del valor p. Ya no tenemos un
nivel de significación fijo de 𝛼 = .05 como una línea brillante que separa las decisiones
de “aceptar” de las de “rechazar”, y esto elimina el problema bastante patológico de
verse obligado a tratar 𝑝 = .051 de una manera fundamentalmente diferente a 𝑝 = .049.
Esta flexibilidad es a la vez una ventaja y un inconveniente del valor 𝑝. La razón por
la que a mucha gente no le gusta la idea de comunicar un valor 𝑝 exacto es que le da
demasiada libertad al investigador. En particular, le permite cambiar de opinión sobre
la tolerancia de error que está dispuesto a tolerar después de ver los datos. Por ejemplo,
consideremos mi experimento PES. Supongamos que realicé mi prueba y terminé con
un valor de 𝑝 de .09. ¿Debo aceptar o rechazar? Para ser sincera, todavía no me he
molestado en pensar qué nivel de error Tipo I estoy “realmente” dispuesta a aceptar.
No tengo una opinión sobre ese tema. Pero sí tengo una opinión sobre si la PES existe
o no, y definitivamente tengo una opinión sobre si mi investigación debería publicarse
en una revista científica de prestigio. Y sorprendentemente, ahora que he mirado los
datos, estoy empezando a pensar que una tasa de error de 9% no es tan mala, especial-
mente cuando se compara con lo molesto que sería tener que admitirle al mundo que mi
experimento ha fracasado. Así que, para evitar que parezca que lo inventé a posteriori,
ahora digo que mi 𝛼 es .1, con el argumento de que una tasa de error tipo I de 10% no
es tan mala y en ese nivel mi prueba es significativa! Yo gano.
En otras palabras, lo que me preocupa es que aunque tenga las mejores intenciones y
sea la persona más honesta, la tentación de “matizar” las cosas aquí y allá es muy, muy
fuerte. Como puede atestiguar cualquiera que haya realizado un experimento alguna
vez, es un proceso largo y difícil y, a menudo, te apegas mucho a tus hipótesis. Es difícil
9.6. INFORMAR LOS RESULTADOS DE UNA PRUEBA DE HIPÓTESIS 211
(a)
(b)
Usual English
notation Signif. stars translation The null is...
The test
wasn’t
p > .05 significant Retained
The test was
significant at
𝛼 = .05 but
not at 𝛼 = .01
p < .05 * or 𝛼 = .001. Rejected
The test was
significant at
𝛼 = .05 and 𝛼
= .01 but not
p < .01 ** at 𝛼 = .001. Rejected
The test was
significant at
p < .001 *** all levels Rejected
escribir 𝑝 < .001 en lugar de informar un valor exacto para p pequeño. Esto se debe en
parte a que una gran cantidad de software en realidad no imprime el valor p cuando es
tan pequeño (p. ej., SPSS solo escribe 𝑝 = .000 siempre que 𝑝 < .001), y en parte porque
un valor muy pequeño de p puede ser engañoso. La mente humana ve un número como
.0000000001 y es difícil suprimir la sensación visceral de que las pruebas a favor de la
hipótesis alternativa son casi seguras. En la práctica, sin embargo, esto suele ser erróneo.
La vida es algo grande, desordenado y complicado, y todas las pruebas estadísticas que
se han inventado se basan en simplificaciones, aproximaciones y suposiciones. Como
consecuencia, probablemente no sea razonable salir de ningún análisis estadístico con
una sensación de confianza mayor de la que implica 𝑝 < .001. En otras palabras,
𝑝 < .001 es en realidad un código para “en lo que respecta a esta prueba, las pruebas
son abrumadoras”.
A la luz de todo esto, es posible que te preguntes qué debes hacer exactamente. Hay
bastantes consejos contradictorios sobre el tema, con algunas personas que sostienen que
debes informar el valor p exacto y otras que debes usar el enfoque escalonado ilustrado
en Table 9.1. Como resultado, el mejor consejo que puedo dar es sugerir que mires
los artículos/informes escritos en tu campo y veas cuál parece ser la convención. Si no
parece haber ningún patrón coherente, utiliza el método que prefieras.
binomial de jamovi corresponde a la probabilidad de dar una respuesta correcta, según la hipótesis nula.
En otras palabras, es el valor 𝜃.
9.8. TAMAÑO DEL EFECTO, TAMAÑO DE LA MUESTRA Y POTENCIA 213
que solo 5% de las hipótesis nulas verdaderas se rechacen incorrectamente. Sin em-
bargo, esto no significa que no nos importen los errores de tipo II. De hecho, desde
la perspectiva del investigador, el error de no rechazar la nula cuando en realidad es
falsa es extremadamente molesto. Teniendo eso en cuenta, un objetivo secundario de
las pruebas de hipótesis es tratar de minimizar 𝛽, la tasa de error de Tipo II, aunque
normalmente no hablamos en términos de minimizar los errores de Tipo II. En su lugar,
hablamos de maximizar la potencia de la prueba. Dado que la potencia se define como
1 − 𝛽, es lo mismo.
0 20 40 60 80 100
que cuando la hipótesis nula es errónea, una proporción mucho mayor de la distribución
muestral cae en la región crítica. Y, por supuesto, eso es lo que debería suceder. ¡La
probabilidad de rechazar la hipótesis nula es mayor cuando la hipótesis nula es realmente
falsa! Sin embargo 𝜃 = .55 no es la única posibilidad consistente con la hipótesis
alternativa. Supongamos que el verdadero valor de 𝜃 es en realidad 0, 7. ¿Qué sucede
con la distribución muestral cuando esto ocurre? La respuesta, que se muestra en
Figure 9.6, es que casi la totalidad de la distribución muestral ahora se ha movido a la
región crítica. Por tanto, si 𝜃 = 0, 7, la probabilidad de que rechacemos correctamente
la hipótesis nula (es decir, la potencia de la prueba) es mucho mayor que si 𝜃 = 0, 55.
En resumen, aunque 𝜃 = .55 y 𝜃 = .70 forman parte de la hipótesis alternativa, la tasa
de error de Tipo II es diferente.
0 20 40 60 80 100
Figure 9.6: Distribución muestral bajo la hipótesis alternativa para un valor del
parámetro poblacional de 𝜃 = 0.70. Casi toda la distribución se encuentra en la región
de rechazo.
216 CHAPTER 9. PRUEBA DE HIPÓTESIS
Lo que todo esto significa es que la potencia de una prueba (es decir, 1 − 𝛽) depende
del verdadero valor de 𝜃. Para ilustrar esto, he calculado la probabilidad esperada de
rechazar la hipótesis nula para todos los valores de 𝜃 y la he representado en Figure 9.7.
Este gráfico describe lo que normalmente se denomina función de potencia de la prueba.
Es un buen resumen de lo buena que es la prueba, porque en realidad nos dice la
potencia (1 − 𝛽) para todos los valores posibles de 𝜃. Como se puede ver, cuando el
valor verdadero de 𝜃 está muy cerca de 0, 5, la potencia de la prueba cae bruscamente,
pero cuando está más lejos, la potencia es grande.
binomial de jamovi corresponde a la probabilidad de dar una respuesta correcta, según la hipótesis nula.
9.8. TAMAÑO DEL EFECTO, TAMAÑO DE LA MUESTRA Y POTENCIA 217
0.75
0.50
0.25
Table 9.6: Una guía básica para entender la relación entre la significación estadística y los
tamaños del efecto. Básicamente, si no se obtiene un resultado significativo, el tamaño
del efecto carece de sentido porque no hay pruebas de que sea real. Por otro lado, si se
obtiene un efecto significativo pero el tamaño del efecto es pequeño, es muy probable
que el resultado (aunque sea real) no sea tan interesante. Sin embargo, esta guía es muy
rudimentaria. Depende mucho de lo que se esté estudiando exactamente. Los pequeños
efectos pueden tener una enorme importancia práctica en algunas situaciones. Así que
no te tomes esta tabla demasiado en serio. Como mucho, es una guía aproximada.
(a)
(b)
interesante, aunque sea una diferencia real. Por ejemplo, supongamos que estamos
estudiando las diferencias en los resultados de los exámenes de la escuela secundaria
entre hombres y mujeres y resulta que los resultados de las mujeres son 1% más altas
en promedio que los de los hombres. Si tengo datos de miles de estudiantes, es casi
seguro que esta diferencia será estadísticamente significativa, pero independientemente
de lo pequeño que sea el valor p, simplemente no es muy interesante. Difícilmente
querrías ir por ahí proclamando una crisis en la educación de los chicos basándote en
una diferencia tan pequeña, ¿verdad? Por este motivo cada vez es más habitual (lenta,
pero inexorablemente) comunicar algún tipo de medida estándar del tamaño del efecto
junto con los resultados de la prueba de hipótesis. La prueba de hipótesis en sí te dice
si debes creer que el efecto que has observado es real (es decir, que no se debe al azar),
mientras que el tamaño del efecto te dice si debes preocuparte o no.
inmutable de la naturaleza. En este contexto, 𝜃 no es más que la probabilidad real de que la gente
9.8. TAMAÑO DEL EFECTO, TAMAÑO DE LA MUESTRA Y POTENCIA 219
adivine correctamente el color de la carta de la otra habitación. Como tal, el parámetro poblacional
puede verse influido por todo tipo de cosas. Por supuesto, todo esto suponiendo que la PES exista.
12 Una posible excepción es cuando se estudia la efectividad de un nuevo tratamiento médico y se
especifica de antemano cuál sería un tamaño de efecto importante de detectar, por ejemplo, por encima
de cualquier tratamiento existente. De esta forma se puede obtener cierta información sobre el valor
potencial de un nuevo tratamiento.
220 CHAPTER 9. PRUEBA DE HIPÓTESIS
1.00
0.75
Probability of Rejecting the Null
0.50
0.25
0.00
0 25 50 75 100
Sample size, N
la que tanto (a) como (b) fueran ciertas. Puede que en el futuro me convenzan de lo
contrario, y probablemente una versión futura de este libro incluya una discusión más
detallada del análisis de potencia, pero por ahora esto es todo lo que puedo decir sobre
el tema.
Como puedes ver, lo que tenemos hoy es una mezcla extraña de los dos. Hablamos de
tener tanto una hipótesis nula como una alternativa (Neyman), pero generalmente 13
definimos el valor de 𝑝 en términos de datos extremos (Fisher), pero seguimos teniendo 𝛼
valores (Neyman). Algunas de las pruebas estadísticas han especificado explícitamente
alternativas (Neyman), pero otras son bastante vagas al respecto (Fisher). Y, según
algunas personas al menos, no se nos permite hablar de aceptar la alternativa (Fisher).
Es un lío, pero espero que esto al menos explique por qué es un lío.
9.9.3 Trampas
Como puedes ver, la teoría que subyace a las pruebas de hipótesis es un lío, e incluso
ahora hay discusiones en estadística sobre cómo “debería” funcionar. Sin embargo, los
desacuerdos entre los estadísticos no son nuestra verdadera preocupación aquí. Nuestra
verdadera preocupación es el análisis práctico de datos. Y aunque el enfoque “ortodoxo”
de la prueba de significancia de la hipótesis nula tiene muchos inconvenientes, incluso
una bayesiana impenitente como yo estaría de acuerdo en que pueden ser útiles si se usan
de manera responsable. La mayoría de las veces dan respuestas sensatas y se pueden
utilizar para aprender cosas interesantes. Dejando a un lado las diversas ideologías y
confusiones históricas que hemos discutido, el hecho es que el mayor peligro en toda la
estadística es la irreflexión. No me refiero a la estupidez, sino literalmente a la irreflexión.
La prisa por interpretar un resultado sin dedicar tiempo a pensar qué dice realmente
cada prueba sobre los datos y comprobar si es coherente con la interpretación que se ha
hecho. Ahí es donde está la mayor trampa.
13 Aunque este libro describe la definición del valor de 𝑝 tanto de Neyman como de Fisher, la mayoría
no lo hace. La mayoría de los libros de texto introductorios solo le darán la versión de Fisher.
9.10. RESUMEN 223
Para dar un ejemplo de esto, considera el siguiente ejemplo (ver Gelman & Stern (2006)).
Supongamos que estoy realizando mi estudio sobre PES y he decidido analizar los datos
por separado para los participantes masculinos y femeninos. De los participantes mas-
culinos, 33 de 50 adivinaron correctamente el color de la carta. Se trata de un efecto
significativo (𝑝 = .03). Las mujeres acertaron 29 de cada 50. No es un efecto significa-
tivo (𝑝 = .32). Al observar esto, es muy tentador que la gente empiece a preguntarse por
qué existe una diferencia entre hombres y mujeres en cuanto a sus habilidades psíquicas.
Sin embargo, esto es erróneo. Si lo piensas bien, en realidad no hemos realizado una
prueba que compare explícitamente a los hombres con las mujeres. Todo lo que hemos
hecho es comparar a los hombres con el azar (la prueba binomial fue significativa) y
comparar a las mujeres con el azar (la prueba binomial no fue significativa). Si queremos
argumentar que hay una diferencia real entre los hombres y las mujeres, probablemente
deberíamos realizar una prueba de la hipótesis nula de que no hay diferencia. Podemos
hacerlo usando una prueba de hipótesis diferente,14 pero cuando lo hacemos resulta que
no tenemos pruebas de que los hombres y las mujeres sean significativamente diferentes
(𝑝 = .54). ¿Crees que hay alguna diferencia fundamental entre los dos grupos? Por
supuesto que no. Lo que sucedió aquí es que los datos de ambos grupos (hombres y
mujeres) están bastante en el límite. Por pura casualidad, uno de ellos acabó en el lado
mágico de la línea 𝑝 = .05, y el otro no. Eso no implica que los hombres y las mujeres
sean diferentes. Este error es tan común que siempre hay que tener cuidado con él. La
diferencia entre significativo y no significativo no es prueba de una diferencia real. Si
quieres decir que hay una diferencia entre dos grupos, tienes que probar esa diferencia.
El ejemplo anterior es solo eso, un ejemplo. Lo he seleccionado porque es muy común,
pero lo más importante es que el análisis de datos puede ser difícil de hacer bien. Piensa
qué es lo que quieres probar, por qué quieres probarlo y si las respuestas que da tu prueba
podrían tener algún sentido en el mundo real.
9.10 Resumen
Las pruebas de hipótesis nulas son uno de los elementos más ubicuos de la teoría estadís-
tica. La inmensa mayoría de artículos científicos presentan los resultados de una u otra
prueba de hipótesis. Como consecuencia, es casi imposible desenvolverse en el mundo
de la ciencia sin tener al menos una comprensión superficial de lo que significa un valor
p, lo que hace que este sea uno de los capítulos más importantes del libro. Como de
costumbre, terminaré el capítulo con un resumen rápido de las ideas clave de las que
hemos hablado:
• Una colección de hipótesis. Hipótesis de investigación e hipótesis estadísticas.
Hipótesis nula y alternativa.
• Dos tipos de errores. Tipo I y Tipo II.
• [Estadísticas de prueba y distribuciones muestrales].
• Contraste de hipótesis para [Tomar decisiones]
• El valor p de una prueba. valores p como decisiones “suaves”
• [Comunicar los resultados de una prueba de hipótesis]
• [Ejecución de la prueba de hipótesis en la práctica]
• Tamaño del efecto, tamaño de la muestra y potencia
• [Algunos temas a considerar] con respecto a la prueba de hipótesis
14 En este caso, la prueba de independencia ji-cuadrado de Pearson (ver Chapter 10)
224 CHAPTER 9. PRUEBA DE HIPÓTESIS
Más adelante en el libro, en Chapter 16, revisaré la teoría de las pruebas de hipótesis
nulas desde una perspectiva bayesiana y presentaré una serie de herramientas nuevas
que puedes usar si no te gusta mucho el enfoque ortodoxo. Pero, por ahora, hemos ter-
minado con la teoría estadística abstracta y podemos empezar a hablar de herramientas
específicas de análisis de datos.
Part V
Instrumentos estadística
225
Chapter 10
Ahora que hemos cubierto la teoría básica de las pruebas de hipótesis, es hora de comen-
zar a buscar pruebas específicas que se usan habitualmente en psicología. ¿Por dónde
empezar? No todos los libros de texto se ponen de acuerdo sobre por dónde empezar,
pero yo voy a empezar con “𝜒2 tests” (este capítulo, pronunciado “chi-square”1 y ”
pruebas t” en Chapter 11). Ambas herramientas se usan con mucha frecuencia en la
práctica científica, y aunque no son tan potentes como la “regresión” y el “análisis de
varianza” que trataremos en capítulos posteriores, son mucho más fáciles de entender.
El término “datos categóricos” no es más que otro nombre para “datos de escala nom-
inal”. No es nada que no hayamos discutido ya, sólo que en el contexto del análisis
de datos, la gente tiende a usar el término “datos categóricos” en lugar de “datos de
escala nominal”. No sé por qué. En cualquier caso, análisis de datos categóricos se
refiere a una colección de herramientas que puedes usar cuando tus datos son de escala
nominal. Sin embargo, hay muchas herramientas diferentes que se pueden usar para el
análisis de datos categóricos, y este capítulo cubre solo algunas de las más comunes.
227
228 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
(a)
(b)
Table 10.2: Relación entre las descripciones en español y los símbolos matemáticos
(a)
(b)
math.
label index, i symbol the value
clubs, ♣ 1 𝑂1 35
diamonds, ♢ 2 𝑂2 51
hearts, ♡ 3 𝑂3 64
spades, ♠ 4 𝑂4 50
conjunto de todas las frecuencias observadas, los estadísticos agrupan todos los valores
observados en un vector 2 , al que me referiré como 𝑂.
𝑂 = (𝑂1 , 𝑂2 , 𝑂3 , 𝑂4 )
Una vez más, esto no es nada nuevo o interesante. Es solo notación. Si digo que 𝑂 =
(35, 51, 64, 50) todo lo que estoy haciendo es describir la tabla de frecuencias observadas
(es decir, observadas), pero me estoy refiriendo a ella usando notación matemática.
Ahora, debido a que esto es estadística, tenemos que poder decir lo mismo de manera
matemática. Para hacer esto, usemos la notación 𝑃𝑗 para referirnos a la verdadera
probabilidad de que se elija el j-ésimo palo. Si la hipótesis nula es verdadera, entonces
cada uno de los cuatro palos tiene un 25% de posibilidades de ser seleccionado. En
otras palabras, nuestra hipótesis nula afirma que 𝑃1 = .25, 𝑃2 = .25, 𝑃 3 = .25 y
finalmente que 𝑃4 = .25. Sin embargo, de la misma manera que podemos agrupar
nuestras frecuencias observadas en un vector O que resume todo el conjunto de datos,
podemos usar P para referirnos a las probabilidades que corresponden a nuestra hipótesis
nula. Entonces, si permito que el vector 𝑃 = (𝑃1 , 𝑃2 , 𝑃3 , 𝑃4 ) se refiera a la colección de
probabilidades que describen nuestra hipótesis nula, entonces tenemos:
𝐸𝑖 = 𝑁 × 𝑃𝑖
Esto es bastante fácil de calcular. Si hay 200 observaciones que pueden clasificarse
en cuatro categorías, y pensamos que las cuatro categorías son igualmente probables,
entonces, en promedio, esperaríamos ver 50 observaciones en cada categoría, ¿verdad?
Ahora, ¿cómo traducimos esto en una prueba estadística? Claramente, lo que queremos
hacer es comparar el número esperado de observaciones en cada categoría (𝐸𝑖 ) con
el número observado de observaciones en esa categoría (𝑂𝑖 ). Y sobre la base de esta
comparación deberíamos poder llegar a una buena prueba estadística. Para empezar,
calculemos la diferencia entre lo que la hipótesis nula esperaba que encontráramos y lo
que realmente encontramos. Es decir, calculamos la puntuación de diferencia “observada
menos esperada”, 𝑂𝑖 − 𝐸𝑖 . Esto se ilustra en Table 10.3.
10.1. LA PRUEBA DE BONDAD DE AJUSTE 𝜒2 (JI-CUADRADO) 231
(a)
(b)
♣ ♢ ♡ ♠
expected
frequency 𝐸𝑖 50 50 50 50
observed
frequency 𝑂𝑖 35 51 64 50
difference
score
𝑂𝑖 − 𝐸 𝑖 -15 1 14 0
(a)
(b)
♣ ♢ ♡ ♠
225 1 196 0
Así, según nuestros cálculos, está claro que la gente eligió más corazones y menos tréboles
de lo que predijo la hipótesis nula. Sin embargo, un momento de reflexión sugiere que
estas diferencias en bruto no son exactamente lo que estamos buscando. Intuitivamente,
parece que es tan malo cuando la hipótesis nula predice muy pocas observaciones (que es
lo que sucedió con los corazones) como cuando predice demasiadas (que es lo que sucedió
con los tréboles). Entonces es un poco extraño que tengamos un número negativo para
los tréboles y un número positivo para los corazones. Una manera fácil de arreglar esto
es elevar todo al cuadrado, de modo que ahora calculemos las diferencias al cuadrado,
(𝐸𝑖 − 𝑂𝑖 )2 . Como antes, podemos hacer esto a mano (Table 10.4).
Ahora estamos progresando. Lo que tenemos ahora es una colección de números que son
grandes cuando la hipótesis nula hace una mala predicción (tréboles y corazones), pero
son pequeños cuando hace una buena (diamantes y picas). A continuación, por algunas
razones técnicas que explicaré en un momento, también dividamos todos estos números
2
por la frecuencia esperada Ei, de modo que en realidad estemos calculando (𝐸𝑖 −𝑂𝐸𝑖
𝑖)
.
Dado que 𝐸𝑖 = 50 para todas las categorías en nuestro ejemplo, no es un cálculo muy
interesante, pero hagámoslo de todos modos (Table 10.5).
En efecto, lo que tenemos aquí son cuatro puntuaciones de “error” diferentes, cada una
de las cuales nos indica la magnitud del “error” que cometió la hipótesis nula cuando
intentamos usarla para predecir nuestras frecuencias observadas. Entonces, para con-
vertir esto en una prueba estadística útil, una cosa que podríamos hacer es simplemente
sumar estos números. El resultado se denomina estadístico de bondad de ajuste,
conocido convencionalmente como 𝜒2 (ji-cuadrado) o GOF. Podemos calcularlo como
en Table 10.6.
232 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
Table 10.5: dividir las diferencias de puntuaciones al cuadrado por la frecuencia esperada
para proporcionar una puntuación de 'error'
(a)
(b)
♣ ♢ ♡ ♠
4.50 0.02 3.92 0.00
Intuitivamente, está claro que si 𝑐ℎ𝑖2 es pequeño, entonces los datos observados Oi están muy cerca de
lo que predijo la hipótesis nula 𝐸𝑖 , por lo que vamos a necesitar un gran estadístico 𝜒2 para rechazar
la hipótesis nula.
10.1. LA PRUEBA DE BONDAD DE AJUSTE 𝜒2 (JI-CUADRADO) 233
escenario antes. Es exactamente la misma configuración que dio lugar a Section 7.4 en
Chapter 7. En otras palabras, si la hipótesis nula es verdadera, se deduce que nuestras
frecuencias observadas se generaron muestreando a partir de una distribución binomial:
𝑂𝑖 ∑ 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑃𝑖 , 𝑁 )
Ahora bien, si recuerdas nuestra discusión sobre Section 8.3.3, la distribución bino-
mial empieza a parecerse bastante a la distribución normal, especialmente cuando 𝑁 es
grande y cuando 𝑃𝑖 no está demasiado cerca a 0 o 1. En otras palabras, siempre que 𝑁𝑖𝑃
sea lo suficientemente grande. O, dicho de otro modo, cuando la frecuencia esperada
Ei es lo suficientemente grande, entonces la distribución teórica de 𝑂𝑖 es aproximada-
mente normal. Mejor aún, si 𝑂𝑖 se distribuye normalmente, entonces también lo es
(𝑂𝑖 − 𝐸𝑖 )/√(𝐸𝑖 ) . Dado que 𝐸𝑖 es un valor fijo, restando Ei y dividiendo por ? Ei
cambia la media y la desviación estándar de la distribución normal, pero eso es todo
lo que hace. Bien, ahora echemos un vistazo a cuál es realmente nuestro estadístico
de bondad de ajuste. Lo que estamos haciendo es tomar un montón de cosas que es-
tán normalmente distribuidas, elevarlas al cuadrado y sumarlas. Espera. ¡También lo
hemos visto antes! Como discutimos en la sección sobre Section 7.6, cuando tomas
un montón de cosas que tienen una distribución normal estándar (es decir, media 0 y
desviación estándar 1), las elevas al cuadrado y luego las sumas, la cantidad resultante
tiene una distribución ji-cuadrado. Así que ahora sabemos que la hipótesis nula predice
que la distribución muestral del estadístico de bondad de ajuste es una distribución de
ji-cuadrado. Genial.
Hay un último detalle del que hablar, a saber, los grados de libertad. Si recuerdas
Section 7.6, dije que si el número de cosas que está sumando es k, entonces los grados
de libertad para la distribución de ji-cuadrado resultante es k. Sin embargo, lo que
dije al comienzo de esta sección es que los grados de libertad reales para la prueba de
bondad de ajuste de ji-cuadrado son 𝑘 − 1. ¿Por qué? La respuesta aquí es que lo que
se supone que estamos mirando es el número de cosas realmente independientes que
se suman. Y, como continuaré hablando en la siguiente sección, aunque hay k cosas
que estamos agregando solo 𝑘 − 1 de ellas son realmente independientes, por lo que los
grados de libertad en realidad son solo 𝑘 − 1. Ese es el tema de la siguiente sección4 .
df = 3
df = 4
df = 5
0 2 4 6 8 10 12
Observed Value
Figure 10.1: distribuciones 𝜒2 (ji-cuadrado) con diferentes valores para los ‘grados de
libertad’
10.1. LA PRUEBA DE BONDAD DE AJUSTE 𝜒2 (JI-CUADRADO) 235
es tratar de comprender los grados de libertad en términos de nuestros datos. Así que
aquí va.
La idea básica detrás de los grados de libertad es bastante sencilla. Se calculan contando
el número de “cantidades” distintas que se utilizan para describir los datos y restando
todas las “restricciones” que esos datos deben satisfacer.5 Esto es un poco vago, así que
usemos los datos de nuestras cartas como un ejemplo concreto. Describimos nuestros
datos utilizando cuatro números, 𝑂1, 𝑂2, 𝑂3 y O4 correspondientes a las frecuencias
observadas de las cuatro categorías diferentes (corazones, tréboles, diamantes, picas).
Estos cuatro números son los resultados aleatorios de nuestro experimento. Pero mi
experimento en realidad tiene una restricción fija incorporada: el tamaño de la muestra
𝑁 . 6 Es decir, si sabemos
cuántas personas eligieron corazones, cuántas eligieron diamantes y cuántas eligieron
tréboles, entonces podríamos averiguar exactamente cuántas eligieron espadas. En otras
palabras, aunque nuestros datos se describen usando cuatro números, en realidad solo
corresponden a 4 − 1 = 3 grados de libertad. Una forma ligeramente diferente de
pensar al respecto es notar que hay cuatro probabilidades que nos interesan (nuevamente,
correspondientes a las cuatro categorías diferentes), pero estas probabilidades deben
sumar uno, lo que impone una restricción. Por lo tanto los grados de libertad son
4−1 = 3. Independientemente de si deseas pensar en términos de frecuencias observadas
o en términos de probabilidades, la respuesta es la misma. En general, cuando se ejecuta
la prueba de bondad de ajuste 𝜒2 (ji-cuadrado) para un experimento con 𝑘 grupos, los
grados de libertad serán 𝑘 − 1.
situaciones, pero de vez en cuando nos encontraremos con valores de grados de libertad que no son
números enteros. No dejes que esto te preocupe demasiado; cuando te encuentres con esto, recuerda
que los “grados de libertad” son en realidad un concepto un poco confuso, y que la bonita y simple
historia que te estoy contando aquí no es toda la historia. Para una clase introductoria, por lo general
es mejor ceñirse a la historia simple, pero creo que es mejor advertirte que esperes que esta historia
simple se desmorone. Si no te hiciera esta advertencia, podrías comenzar a confundirte cuando veas
𝑑𝑓 = 3.4 o algo así, pensando (incorrectamente) que has entendido mal algo de lo que te he enseñado
en lugar de darte cuenta (correctamente) de que hay algo que no te he contado.
6 en la práctica, el tamaño de la muestra no siempre es fijo. Por ejemplo, podemos ejecutar el
experimento durante un período fijo de tiempo y la cantidad de personas que participan depende de
cuántas personas se presenten. Eso no importa para los propósitos actuales.
236 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
haya una probabilidad del 5% de que 𝜒2 pueda llegar a ser tan grande si la hipótesis
nula es cierta. Esto se ilustra en Figure 10.2.
0 2 4 6 8 10 12
Observed Value
Ah, pero te escucho preguntar, ¿cómo encuentro el valor crítico de una distribución
ji-cuadrado con 𝑘 − 1 grados de libertad? Hace muchos años, cuando tomé por primera
vez una clase de estadística de psicología, solíamos buscar estos valores críticos en un
libro de tablas de valores críticos, como el de Figure 10.3. Mirando esta figura, podemos
ver que el valor crítico para una distribución 𝜒2 con 3 grados de libertad y p=0.05 es
7.815.
Así, si nuestro estadístico 𝜒2 calculado es mayor que el valor crítico de 7.815, entonces
podemos rechazar la hipótesis nula (recuerda que la hipótesis nula, 𝐻0 , es que los cuatro
palos se eligen con la misma probabilidad). Como en realidad ya lo calculamos antes
(es decir, 𝜒2 = 8,44), podemos rechazar la hipótesis nula. Y eso es todo, básicamente.
Ahora conoces la “prueba de 𝜒2 de Pearson para la bondad de ajuste”. Qué suerte
10.1. LA PRUEBA DE BONDAD DE AJUSTE 𝜒2 (JI-CUADRADO) 237
tienes.
Figure 10.4: Una prueba de proporciones de una muestra de 𝜒2 en jamovi, con una
tabla que muestra las frecuencias y proporciones tanto observadas como esperadas
(a)
(b)
♣ ♢ ♡ ♠
expected
frequency 𝐸𝑖 40 60 60 40
proporción 30% : 20% es lo mismo que 1,5 : 1). Esto me parece una teoría tonta, y
es bastante fácil probar esta hipótesis nula explícitamente especificada con los datos de
nuestro análisis jamovi. En la ventana de análisis (etiquetada como ‘Prueba de propor-
ción (N resultados)’ en Figure 10.4, puedes expandir las opciones para ‘Proporciones
esperadas’. Si haces esto, hay opciones para introducir diferentes valores de relación para
la variable que has seleccionado, en nuestro caso esta es la opción 1. Cambia la relación
para reflejar la nueva hipótesis nula, como en Figure 10.5, y fíjate cómo cambian los
resultados.
Los recuentos esperados ahora se muestran en Table 10.6.
y el estadístico 𝜒2 es 4,74, 3 gl, 𝑝 = 0, 182. Ahora, los resultados de nuestras hipótesis
actualizadas y las frecuencias esperadas son diferentes a las de la última vez. Como
consecuencia, nuestra prueba estadística 𝜒2 es diferente, y nuestro valor p también es
diferente. Desgraciadamente, el valor p es $ 0,182 $, por lo que no podemos rechazar la
hipótesis nula (consulta Section 9.5 para recordar por qué). Lamentablemente, a pesar
10.1. LA PRUEBA DE BONDAD DE AJUSTE 𝜒2 (JI-CUADRADO) 239
de que la hipótesis nula corresponde a una teoría muy tonta, estos datos no aportan
pruebas suficientes en su contra.
7 Bueno, más o menos. Las convenciones sobre cómo se deben presentarse las estadísticas tienden a
diferir un poco de una disciplina a otra. He tendido a ceñirme a cómo se hacen las cosas en psicología,
ya que es a lo que me dedico. Pero creo que el principio general de proporcionar suficiente información
al lector para que pueda comprobar los resultados es bastante universal.
8 para algunas personas, este consejo puede sonar extraño, o al menos contradictorio con los consejos
“habituales” sobre cómo redactar un informe técnico. Por lo general, a los estudiantes se les dice que la
sección de “resultados” de un informe sirve para describir los datos e informar del análisis estadístico,
y que la sección de “discusión” sirve para interpretarlos. Eso es cierto, pero creo que la gente suele
interpretarlo de forma demasiado literal. Yo suelo hacer una interpretación rápida y sencilla de los
datos en la sección de resultados, para que el lector entienda lo que nos dicen los datos. Luego, en la
discusión, intento contar una historia más amplia sobre cómo mis resultados encajan con el resto de
la literatura científica. En resumen, no dejes que el consejo de “la interpretación va en la discusión”
10.1. LA PRUEBA DE BONDAD DE AJUSTE 𝜒2 (JI-CUADRADO) 241
Como con todo lo demás, tu principal preocupación debe ser explicar las cosas a tu
lector. Recuerda siempre que el objetivo de informar tus resultados es comunicarlo a
otro ser humano. No puedo decirte cuántas veces he visto la sección de resultados de
un informe o una tesis o incluso un artículo científico que es simplemente un galimatías,
porque el escritor se ha centrado únicamente en asegurarse de haber incluido todos los
números y se olvidó de realmente comunicarse con el lector humano.
Satanás se deleita por igual en las estadísticas y en citar las escrituras9 –
convierta tu sección de resultados en una basura incomprensible. Ser entendido por tu lector es mucho
más importante.
9 si has estado leyendo con mucha atención y eres una pedante matemática como yo, hay una cosa
sobre la forma en que escribí la prueba de ji-cuadrado en la última sección que podría estar molestándote
un poco. Hay algo que no cuadra al escribir “𝜒2 (3) = 8.44”, estarás pensando. Después de todo, es
el estadístico de bondad de ajuste lo que equivale a 8,44, así que ¿no debería haber escrito 𝑋2 = 8, 44
o tal vez 𝐺𝑂𝐹 = 8, 44? Esto parece combinar la distribución muestral (es decir, 𝜒2 con gl = 3) con
la prueba estadística (es decir, 𝑋2 ). Lo más probable es que pensaras que era un error tipográfico, ya
que 𝜒 y X se parecen bastante. Curiosamente, no lo es. Escribir 𝜒2 (3)= 8,44 es esencialmente una
forma muy condensada de escribir “la distribución muestral de la prueba estadística es 𝜒2 (3). y el
valor de la prueba estadística es 8,44”. En cierto sentido, esto es algo estúpido. Hay muchas pruebas
estadísticas diferentes que resultan tener una distribución muestral de ji-cuadrado. El estadístico 𝑋2
que hemos usado para nuestra prueba de bondad de ajuste es solo uno de muchos (aunque uno de
los más comunes). En un mundo sensato y perfectamente organizado, siempre tendríamos un nombre
distinto para la prueba estadística y la distribución muestral. De esa manera, el bloque de estadísticos
en sí mismo te diría exactamente qué fue lo que calculó el investigador. A veces esto sucede. Por
ejemplo, la prueba estadística utilizada en la prueba de bondad de ajuste de Pearson se escribe 𝑋2 ,
pero hay una prueba estrechamente relacionada conocida como G-test𝑎 (Sokal & Rohlf, 1994), en la
que la prueba estadística se escribe como 𝐺. Da la casualidad de que la prueba de bondad de ajuste
de Pearson y la prueba G prueban la misma hipótesis nula, y la distribución muestral es exactamente
la misma (es decir, ji-cuadrado con 𝑘 − 1 grados de libertad). Si hubieras hecho una prueba G para
los datos de las cartas en lugar de una prueba de bondad de ajuste, habrías terminado con una prueba
estadística de 𝐺 = 8.65, que es ligeramente diferente del valor $X^ 2 = 8,44 $ que obtuve antes y
que produce un valor p ligeramente más pequeño de $p = 0,034 $. Supongamos que la convención
fuera informar de la prueba estadística, luego la distribución muestral y luego el valor p. Si eso fuera
cierto, estas dos situaciones producirían diferentes bloques de estadísticos: mi resultado original sería
𝑋2 = 8.44, 𝜒2 (3), 𝑝 = .038, mientras que la nueva versión usando la prueba G se escribiría como
𝐺 = 8.65, 𝜒2 (3), 𝑝 = .034. Sin embargo, la norma de información condensada, el resultado original
se escribe 𝜒2 (3) = 8.44, 𝑝 = .038, y el nuevo se escribe 𝜒2 (3) = 8.65, 𝑝 = .034, por lo que en realidad
no está claro qué prueba realicé. Entonces, ¿por qué no vivimos en un mundo en el que el contenido
del bloque de estadísticos especifica de forma única qué pruebas se realizaron? La razón profunda
es que la vida es un lío. Nosotras (como usuarias de herramientas estadísticas) queremos que sea
agradable, ordenada y organizada. Queremos que esté diseñada, como si fuera un producto, pero no
es así como funciona la vida. La estadística es una disciplina intelectual tanto como cualquier otra, y
como tal es un proyecto distribuido masivamente, en parte colaborativo y en parte competitivo que
nadie realmente entiende por completo. Las cosas que tú y yo usamos como herramientas de análisis
de datos no fueron creadas por un acto de los dioses de la estadística. Fueron inventadas por muchas
personas diferentes, publicadas como artículos en revistas académicas, implementadas, corregidas y
modificadas por muchas otras personas y luego explicadas a los estudiantes en libros de texto por otra
persona. Como consecuencia, hay muchas pruebas estadísticas que ni siquiera tienen nombre y, como
consecuencia, reciben el mismo nombre que la distribución muestral correspondiente. Como veremos
más adelante, cualquier prueba estadística que siga una distribución 𝜒2 se denomina comúnmente
“estadístico ji-cuadrado”, cualquier estadístico que siga una distribución 𝑡 se denomina “estadístico t”,
etcétera. Pero, como ilustra el ejemplo de 𝜒2 versus 𝐺, dos cosas diferentes con la misma distribución
muestral siguen siendo, bueno, diferentes. Como consecuencia, a veces es una buena idea tener claro
cuál fue la prueba real que se ejecutó, especialmente si estás haciendo algo inusual. Si solo dices “prueba
de ji-cuadrado”, en realidad no está claro de qué prueba estás hablando. Aunque, dado que las dos
pruebas de ji-cuadrado más comunes son la prueba de bondad de ajuste y la prueba de independencia, la
mayoría de los lectores con entrenamiento en estadística probablemente puedan adivinar. Sin embargo,
es algo a tener en cuenta. – 𝑎 Para complicar las cosas, la prueba G es un caso especial de toda una
clase de pruebas que se conocen como pruebas de razón de verosimilitud. No cubro las pruebas de
razón de verosimilitud en este libro, pero es muy útil conocerlas.
242 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
HG pozos
(a)
(b)
(a)
(b)
construir una prueba de la hipótesis nula de que “los humanos y los robots responden a
la pregunta de la misma manera”? Como antes, comenzamos estableciendo una notación
para describir los datos (Table 10.8).
En esta notación decimos que 𝑂𝑖𝑗 es un recuento (frecuencia observada) del número
de encuestados que son de la especie j (robots o humanos) que dieron la respuesta i
(cachorro, flor o datos) cuando se les pidió que hicieran una elección. El número total
de observaciones se escribe 𝑁 , como de costumbre. Finalmente, he usado 𝑅𝑖 para indicar
los totales de las filas (p. ej., 𝑅1 es el número total de personas que eligieron la flor) y
𝐶𝑗 para indicar los totales de las columnas (p. ej., 𝐶1 es el total número de robots).10
Pensemos ahora en lo que dice la hipótesis nula. Si los robots y los humanos responden
de la misma manera a la pregunta, significa que la probabilidad de que “un robot diga
cachorro” es la misma que la probabilidad de que “un humano diga cachorro”, y así
sucesivamente para las otras dos posibilidades. Entonces, si usamos 𝑃𝑖𝑗 para denotar
“la probabilidad de que un miembro de la especie j dé una respuesta i”, entonces nuestra
hipótesis nula es que:
10 Nota técnica. La forma en que describí la prueba supone que los totales de las columnas son fijos (es
decir, el investigador tenía la intención de encuestar a 87 robots y 93 humanos) y los totales de las filas
son aleatorios (es decir, resulta que 28 personas eligieron el cachorro). Para usar la terminología de mi
libro de texto de estadística matemáticas [@ Hogg2005], técnicamente debería referirme a esta situación
como una prueba ji-cuadrado de homogeneidad y reservar el término prueba de independencia de ji-
cuadrado para la situación en la que tanto los totales de fila como de columna son resultados aleatorios
del experimento. En los borradores iniciales de este libro, eso es exactamente lo que hice. Sin embargo,
resulta que estas dos pruebas son idénticas, por lo que las he unido.
244 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
Y en realidad, dado que la hipótesis nula afirma que las probabilidades verdaderas de
elección no dependen de la especie de la persona que hace la elección, podemos dejar
que Pi se refiera a esta probabilidad, por ejemplo, P1 es la probabilidad verdadera de
elegir al cachorro.
A continuación, de la misma manera que hicimos con la prueba de bondad de ajuste,
lo que debemos hacer es calcular las frecuencias esperadas. Es decir, para cada uno de
los recuentos observados 𝑂𝑖𝑗 , necesitamos averiguar qué nos diría la hipótesis nula que
debemos esperar. Vamos a denotar esta frecuencia esperada por 𝐸𝑖𝑗 . Esta vez, es un
poco más complicado. Si hay un total de 𝐶𝑗 personas que pertenecen a la especie 𝑗, y
la verdadera probabilidad de que cualquiera (independientemente de la especie) elija la
opción 𝑖 es 𝑃𝑖 , entonces la frecuencia esperada es simplemente:
𝐸𝑖𝑗 = 𝐶𝑗 × 𝑃𝑖
Ahora bien, todo esto está muy bien, pero tenemos un problema. A diferencia de la
situación que tuvimos con la prueba de bondad de ajuste, la hipótesis nula en realidad
no especifica un valor particular para Pi.
Es algo que tenemos que estimar (ver Chapter 8) a partir de los datos. Afortunadamente,
es bastante fácil. Si 28 de 180 personas seleccionaron las flores, una estimación natural
28
de la probabilidad de elegir flores es 180 , que es aproximadamente .16. Si expresamos
esto en términos matemáticos, lo que estamos diciendo es que nuestra estimación de la
probabilidad de elegir la opción i es solo el total de la fila dividido por el tamaño total
de la muestra:
𝑅𝑖
𝑃𝑖̂ =
𝑁
Por lo tanto, nuestra frecuencia esperada se puede escribir como el producto (es decir,
la multiplicación) del total de filas y el total de columnas, dividido por el número total
de observaciones:11
𝑅𝑖 × 𝐶 𝑗
̂ =
𝐸𝑖𝑗
𝑁
12
[Detalle técnico adicional ]
Como antes, los valores grandes de 𝑋 2 indican que la hipótesis nula proporciona una
mala descripción de los datos, mientras que los valores pequeños de 𝑋 2 sugieren que
11 Técnicamente, 𝐸 ̂
𝑖𝑗 aquí es una estimación, por lo que probablemente debería escribir 𝐸𝑖𝑗 . Pero
como nadie más lo hace, yo tampoco lo haré.
12 Ahora que ya sabemos cómo calcular las frecuencias esperadas, es sencillo definir una prueba es-
tadística, siguiendo exactamente la misma estrategia que usamos en la prueba de bondad de ajuste. De
hecho, es prácticamente el mismo estadístico. Para una tabla de contingencia con r filas y c columnas,
10.2. LA PRUEBA DE INDEPENDENCIA (O ASOCIACIÓN) 𝜒2 245
hace un buen trabajo al explicar los datos. Por lo tanto, al igual que la última vez,
queremos rechazar la hipótesis nula si 𝑋 2 es demasiado grande.
No es sorprendente que este estadístico tenga una distribución 𝜒2 . Todo lo que tenemos
que hacer es averiguar cuántos grados de libertad hay, lo que en realidad no es demasiado
difícil. Como mencioné antes, se puede pensar (normalmente) que los grados de libertad
son iguales al número de puntos de datos que estás analizando, menos el número de
restricciones. Una tabla de contingencia con r filas y c columnas contiene un total de 𝑟𝑐
frecuencias observadas, por lo que ese es el número total de observaciones. ¿Qué pasa
con las restricciones? Aquí, es un poco más complicado. La respuesta es siempre la
misma
𝑑𝑓 = (𝑟 − 1)(𝑐 − 1)
pero la explicación de por qué los grados de libertad toman este valor es diferente
dependiendo del diseño experimental. Por ejemplo, supongamos que hubiéramos querido
encuestar exactamente a 87 robots y 93 humanos (totales de las columnas fijados por
el experimentador), pero hubiéramos dejado que los totales de fila variaran libremente
(los totales de fila son variables aleatorias). Pensemos en las restricciones que se aplican
en este caso. Bien, puesto que hemos fijado deliberadamente los totales de las columnas
por Acto del Experimentador, tenemos restricciones de 𝑐 allí mismo. Pero, en realidad
hay más que eso. ¿Recuerdas que nuestra hipótesis nula tenía algunos parámetros libres
(es decir, tuvimos que estimar los valores de Pi)? Esos también importan. No voy a
explicar por qué en este libro, pero cada parámetro libre en la hipótesis nula es como una
restricción adicional. Entonces, ¿cuántas hay? Bueno, dado que estas probabilidades
tienen que sumar 1, solo hay 𝑟 − 1 de estas. Así que nuestros grados de libertad totales
son:
= (𝑟 × 𝑐) − (𝑐 + (𝑟 − 1))
= 𝑟𝑐 − 𝑐 − 𝑟 + 1
= (𝑟 − 1)(𝑐 − 1)
Por otra parte, supongamos que lo único que el experimentador fijó fue el tamaño total
de la muestra N. Es decir, quer interrogamos a las primeras 180 personas que vimos y
resultó que 87 eran robots y 93 eran humanos. Esta vez, nuestro razonamiento sería
ligeramente diferente, pero nos llevaría a la misma respuesta. Nuestra hipótesis nula
sigue siendo 𝑟 − 1 parámetros libres correspondientes a las probabilidades de elección,
la ecuación que define nuestro estadístico 𝑋2 es
𝑟 𝑐 (𝐸𝑖𝑗 − 𝑂𝑖𝑗 )2
𝑋2 = ∑ ∑
𝑖=1 𝑗=1
𝐸𝑖𝑗
La única diferencia es que tengo que incluir dos signos de suma (es decir, ∑ ) para indicar que estamos
sumando sobre ambas filas y columnas.
246 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
= (𝑟 × 𝑐) − ((𝑐 − 1) + (𝑟 − 1) + 1)
= (𝑟 − 1)(𝑐 − 1)
Increíble.
tiene cierto sentido, ya que la autoridad civil de Chapek 9 tiene una desafor-
tunada tendencia a matar y diseccionar a los humanos cuando son identifi-
cados. Por lo tanto, lo más probable es que los participantes humanos no
respondieran honestamente a la pregunta, para evitar consecuencias poten-
cialmente indeseables. Esto debería considerarse una debilidad metodológica
importante.
Esto podría clasificarse como un ejemplo bastante extremo de un efecto de reactividad,
supongo. Obviamente, en este caso el problema es lo suficientemente grave como para
que el estudio sea más o menos inútil como herramienta para comprender las diferen-
cias de preferencias entre humanos y robots. Sin embargo, espero que esto ilustre la
diferencia entre obtener un resultado estadísticamente significativo (nuestra hipótesis
nula se rechaza a favor de la alternativa) y encontrar algo de valor científico (los datos
no nos dicen nada de interés sobre nuestra hipótesis de investigación debido a un gran
problema metodológico).
todo bien, especialmente cuando solo se tiene 1 grado de libertad (por ejemplo, cuando
se realiza una prueba de independencia en una tabla de contingencia de 2 × 2). La
razón principal principal es que la verdadera distribución muestral para el estadístico
𝑋 2 es en realidad discreta (¡porque se trata de datos categóricos!) pero la distribución
𝜒2 es continua. Esto puede introducir problemas sistemáticos. En concreto, cuando N
es pequeño y cuando 𝑑𝑓 = 1, el estadístico de bondad de ajuste tiende a ser “demasiado
grande”, lo que significa que en realidad tiene un valor � mayor de lo que piensas (o, de
manera equivalente, los valores p son un poco demasiado pequeño).
Como ya hemos comentado en Section 9.8, cada vez es más habitual pedir a los inves-
tigadores que informen sobre alguna medida del tamaño del efecto. Supongamos que
hemos realizado la prueba de ji-cuadrado, que resulta ser significativa. Ahora sabes
que existe alguna asociación entre las variables (prueba de independencia) o alguna
desviación de las probabilidades especificadas (prueba de bondad de ajuste). Ahora de-
seas informar una medida del tamaño del efecto. Es decir, dado que hay una asociación
o desviación, ¿cuán fuerte es?
Hay varias medidas diferentes que puedes elegir para informar y varias herramientas
diferentes que puedes usar para calcularlas. No voy a hablar de todas ellas, sino que me
centraré en las medidas del tamaño del efecto que se informan con más frecuencia.
Por defecto, las dos medidas que la gente tiende a informar con más frecuencia son el
estadístico 𝜙 y la versión algo superior, conocida como 𝑉 de Cramer.
14 Yates (1934) sugirió una solución simple, en la que redefine el estadístico de bondad de ajuste como:
(|𝐸𝑖 − 𝑂𝑖 | − 0.5)2
𝜒2 = ∑
𝑖
𝐸𝑖
15
[Detalle técnico adicional ]
Y ya está. Esta parece ser una medida bastante popular, presumiblemente porque es
fácil de calcular y da respuestas que no son completamente tontas. Con 𝑉 de Cramer, se
sabe que el valor realmente oscila entre 0 (ninguna asociación) a 1 (asociación perfecta).
𝑋2
𝜙=√
𝑁
La idea es que el estadístico 𝜙 oscila entre 0 (ninguna asociación) y 1 (asociación perfecta), pero no
siempre lo hace cuando la tabla de contingencia es mayor que $2 ×2 $, lo que es un auténtico incordio.
Para tablas más grandes, es posible obtener 𝜙 > 1, lo cual es bastante insatisfactorio. Así que, para
corregir esto, la gente suele preferir informar el estadístico 𝑉 propuesto por Cramer (1946). Es un
ajuste bastante simple de 𝜙. Si tienes una tabla de contingencia con r filas y c columnas, defines
𝑘 = 𝑚𝑖𝑛(𝑟, 𝑐) como el menor de los dos valores. Si es así, entonces el estadístico 𝑉 de Cramer es
𝑋2
𝑉 =√
𝑁(𝑘 − 1)
250 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
(a)
(b)
pero también puede ocurrir al contrario. Para dar un ejemplo un poco menos es-
túpido, consideremos lo que pasaría si hubiera hecho el experimento con las cartas
de forma ligeramente diferente. En lugar de pedir a 200 personas que imaginen la
selección de una carta al azar, supongamos que pido a 50 personas que seleccio-
nen 4 cartas. Una posibilidad sería que todos seleccionen un corazón, un trébol,
un diamante y una pica (de acuerdo con la “heurística de la representatividad”
(Tversky & Kahneman, 1974). Se trata de un comportamiento muy poco aleatorio
de las personas, pero en este caso obtendría una frecuencia observada de 50 para
los cuatro palos. Para este ejemplo, el hecho de que las observaciones no sean
independientes (porque las cuatro cartas que elija estarán relacionadas entre sí)
en realidad conduce al efecto opuesto, manteniendo falsamente la hipótesis nula.
Si te encuentras en una situación en la que se viola la independencia, puedes utilizar
la prueba de McNemar (de la que hablaremos) o la prueba de Cochran (de la que no
hablaremos). Del mismo modo, si los recuentos esperados son demasiado pequeños,
consulta la prueba exacta de Fisher. A continuación abordaremos estos temas.
(a)
(b)
Table 10.11: Tabla de contingencia con datos de anuncios políticos del PPGA
(a)
(b)
Table 10.12: tabula los datos de una manera diferente cuando tienes datos de medidas
repetidas
(a)
(b)
políticos del PPGA. Así que decides reunir una muestra de 𝑁 = 100 personas y pedirles
que vean los anuncios de AGPP. Antes de que vean nada, les preguntas si tienen in-
tención de votar al PPGA, y después de ver los anuncios, les vuelves a preguntar para
ver si alguien ha cambiado de opinión. Obviamente, si eres buena en tu trabajo, tam-
bién harías muchas otras cosas, pero consideremos sólo este sencillo experimento. Una
forma de describir los datos es mediante la tabla de contingencia que se muestra en
Table 10.11.
A primera vista, se podría pensar que esta situación se presta a la prueba de inde-
pendencia 𝜒2 de Pearson (según La prueba de independencia (o asociación) 𝜒2 ). Sin
embargo, un poco de reflexión revela que tenemos un problema. Tenemos 100 partici-
pantes, pero 200 observaciones. Esto se debe a que cada persona nos ha proporcionado
una respuesta tanto en la columna del antes como en la del después. Esto significa
que las 200 observaciones no son independientes entre sí. Si el votante A dice “sí” la
primera vez y el votante B dice “no”, entonces es de esperar que el votante A tenga más
probabilidades de decir “sí” la segunda vez que el votante B. La consecuencia de esto es
que la prueba habitual 𝜒2 no dará respuestas fiables debido a la violación del supuesto
de independencia. Ahora bien, si esta fuera una situación realmente poco común, no
me molestaría en hacerte perder el tiempo hablando de ella. Pero no es poco común en
absoluto. Este es un diseño estándar de medidas repetidas, y ninguna de las pruebas
que hemos considerado hasta ahora puede manejarlo.
La solución al problema fue publicada por McNemar (1947). El truco consiste en comen-
zar tabulando los datos de una forma ligeramente distinta (Table 10.12).
A continuación, pensemos en cuál es nuestra hipótesis nula: es que la prueba del “antes”
y la prueba del “después” tienen la misma proporción de personas que dicen “Sí, votaré
254 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
por PPGA”. Debido a la forma en que hemos reescrito los datos, significa que ahora
estamos probando la hipótesis de que los totales de fila y los totales de columna provienen
de la misma distribución. Así, la hipótesis nula en la prueba de McNemar es que tenemos
“homogeneidad marginal”. Es decir, que los totales de fila y los totales de columna tienen
la misma distribución: 𝑃𝑎 + 𝑃𝑏 = 𝑃𝑎 + 𝑃𝑐 y de manera similar que 𝑃𝑐 + 𝑃𝑑 = 𝑃𝑏 + 𝑃𝑑 .
Observa que esto significa que la hipótesis nula en realidad se simplifica a Pb = Pc. En
otras palabras, en lo que respecta a la prueba de McNemar, ¡solo importan las entradas
fuera de la diagonal de esta tabla (es decir, b y c)! Después de observar esto, la prueba
de homogeneidad marginal de McNemar no es diferente a una prueba habitual de
𝜒2 . Después de aplicar la corrección de Yates, nuestra prueba estadística se convierte
en:
(|𝑏𝑐| − 0.5)2
𝜒2 =
𝑏+𝑐
Table 10.13: tabulación cruzada de la primera contra la segunda opción con los datos
de Randomness.omv (cartas)
(a)
(b)
Supongamos que quisiera saber si, en promedio, las frecuencias de las elecciones de palo
fueron diferentes la segunda vez que la primera vez. En esa situación, lo que realmente
estoy intentando ver es si los totales de las filas son diferentes de los totales de las
columnas. Es entonces cuando se utiliza la prueba de McNemar.
En Figure 10.9 se muestran los diferentes estadísticos producidos por esos distintos
análisis. ¡Observe que los resultados son diferentes! No se trata de la misma prueba.
10.9 Resumen
Las ideas clave discutidas en este capítulo son:
• La prueba de bondad de ajuste 𝜒2 (ji-cuadrado) se usa cuando tienes una tabla
de frecuencias observadas de diferentes categorías, y la hipótesis nula te da un
conjunto de probabilidades “conocidas” para compararlas.
• La prueba de independencia (o asociación) 𝜒2 se usa cuando se tiene una tabla de
contingencia (tabulación cruzada) de dos variables categóricas. La hipótesis nula
es que no existe relación o asociación entre las variables.
• Tamaño del efecto para una tabla de contingencia se puede medir de varias man-
eras. En particular, observamos el estadístico 𝑉 de Cramer.
• Ambas versiones de la prueba de Pearson se basan en dos supuestos: que las
frecuencias esperadas son suficientemente grandes y que las observaciones son
independientes (Supuestos de la(s) prueba(s). La prueba exacta de Fisher se
puede usar cuando las frecuencias esperadas son pequeñas La prueba de McNemar
se puede utilizar para algunos tipos de violaciones de la independencia.
Si estás interesada en obtener más información sobre el análisis de datos categóricos,
una buena primera opción sería Agresti (1996) que, como sugiere el título, ofrece una
Introducción al análisis de datos categóricos. Si el libro introductorio no es suficiente
para ti (o no puedes resolver el problema en el que estás trabajando), podrías considerar
Agresti (2002), Análisis de datos categóricos. Este último es un texto más avanzado,
por lo que probablemente no sea prudente pasar directamente de este libro a aquel.
10.9. RESUMEN 257
Figure 10.9: Independiente vs. Emparejado (McNemar) con los datos de Random-
ness.omv (cartas)
258 CHAPTER 10. ANÁLISIS DE DATOS CATEGÓRICOS
Chapter 11
1 La experimentación informal en mi jardín sugiere que sí. Los nativos australianos están adaptados
a niveles bajos de fósforo en relación con cualquier otro lugar de la Tierra, por lo que si compraste una
casa con un montón de plantas exóticas y desea plantar nativas, manténlas separadas; los nutrientes
para las plantas europeas son veneno para las australianas.
259
260 CHAPTER 11. COMPARAR DOS MEDIAS
tura/importación del archivo csv jamovi lo convirtió en una variable de nivel nominal, que no es
adecuada para mi análisis
11.1. LA PRUEBA Z DE UNA MUESTRA 261
50 60 70 80 90
Grades
Figure 11.1: La distribución teórica (línea sólida) a partir de la cual se supone que se
generaron las calificaciones (barras) de los estudiantes de psicología
𝐻0 ∶ 𝜇 = 67.5
𝐻1 ∶ 𝜇 ≠ 67.5
aunque, para ser sincera, esta notación no añade mucho a nuestra comprensión del
problema, es solo una forma compacta de escribir lo que estamos tratando de aprender
de los datos. Las hipótesis nulas 𝐻0 alternativa 𝐻1 para nuestra prueba se ilustran en
Figure 11.2. Además de ofrecernos estas hipótesis, el escenario descrito anteriormente
nos proporciona una buena cantidad de conocimientos previos que podrían ser útiles.
En concreto, hay dos datos especiales que podemos añadir:
1. Las calificaciones de psicología se distribuyen normalmente.
2. Se sabe que la verdadera desviación estándar de estas puntuaciones 𝜎 es 9,5.
Por el momento, actuaremos como si estos fueran hechos absolutamente fiables. En
la vida real, este tipo de conocimiento de fondo absolutamente fiable no existe, por lo
que si queremos confiar en estos hechos, solo tendremos que suponer que estas cosas
son ciertas. Sin embargo, dado que estas suposiciones pueden o no estar justificadas,
es posible que debamos verificarlas. Sin embargo, por ahora, mantendremos las cosas
simples.
El siguiente paso es averiguar cuál sería una buena opción para la prueba estadística,
algo que nos ayudara a discriminar entre 𝐻0 y 𝐻1 . Dado que todas las hipótesis se
refieren a la media de la población 𝜇, la media de la muestra 𝑋̄ sería un punto de partida
muy útil. Lo que podríamos hacer es observar la diferencia entre la media muestral 𝑋̄
y el valor que predice la hipótesis nula para la media poblacional. En nuestro ejemplo,
eso significaría que calculamos 𝑋̄ − 67.5. De forma más general, si hacemos que 𝜇0 se
262 CHAPTER 11. COMPARAR DOS MEDIAS
µ = µ0 µ ... µ0
σ = σ0 σ = σ0
Value of X Value of X
Figure 11.2: Ilustración gráfica de las hipótesis nula y alternativa asumidas por la
prueba 𝑧 de una muestra (es decir, la versión de dos colas). Tanto la hipótesis nula
como la alternativa suponen que la distribución de la población es normal y, además,
suponen que se conoce la desviación estándar de la población (fijada en algún valor
$𝑠𝑖𝑔𝑚𝑎0 ). La hipótesis nula (izquierda) es que la media poblacional 𝜇 es igual a algún
valor especificado 𝜇0 . La hipótesis alternativa (derecha) es que la media poblacional
difiere de este valor, 𝜇 ≠ 𝜇0
refiera al valor que la hipótesis nula afirma que es nuestra media poblacional, entonces
querríamos calcular
𝑋̄ − 𝜇0
Si esta cantidad es igual o está muy cerca de 0, las cosas pintan bien para la hipótesis
nula. Si esta cantidad está muy lejos de 0, entonces parece menos probable que valga
la pena mantener la hipótesis nula. Pero, ¿a qué distancia de cero debería estar para
que rechacemos H0?
Para averiguarlo debemos ser un poco más astutos, y necesitaremos confiar en esos
dos conocimientos previos que anoté anteriormente; es decir, que los datos sin procesar
se distribuyen normalmente y que conocemos el valor de la desviación estándar de la
población 𝜎. Si la hipótesis nula es realmente verdadera y la media verdadera es 𝜇0 ,
entonces estos hechos juntos significan que conocemos la distribución completa de la
población de los datos: una distribución normal con media 𝜇0 y desviación estándar 𝜎
.3
Bien, si eso es cierto, ¿qué podemos decir sobre la distribución de 𝑋?̄ Bueno, como
discutimos anteriormente (ver Section 8.3.3), la distribución muestral de la media 𝑋̄
3 adoptando la notación de Section 7.5, un estadístico podría escribir esto como:
𝑋 ∑ 𝑁𝑜𝑟𝑚𝑎𝑙(𝜇0 , 𝜎2 )
11.1. LA PRUEBA Z DE UNA MUESTRA 263
𝜎
𝑠𝑒(𝑋)̄ = √
𝑁
Ahora viene el truco. Lo que podemos hacer es convertir la media muestral 𝑋̄ en una
puntuación estándar (ver Section 4.5). Esto se escribe convencionalmente como z, pero
por ahora me referiré a él como 𝑧𝑋̄ . La razón para usar esta notación expandida es
ayudarte a recordar que estamos calculando una versión estandarizada de una media
muestral, no una versión estandarizada de una sola observación, que es a lo que general-
mente se refiere una puntuación z). Cuando lo hacemos, la puntuación z para nuestra
media muestral es
𝑋̄ − 𝜇0
𝑧𝑋̄ =
𝑆𝐸(𝑋)̄
o, equivalentemente
𝑋̄ − 𝜇0
𝑧𝑋̄ =
√𝜎
𝑁
Esta puntuación z es nuestra prueba estadística. Lo bueno de usar esto como nuestra
prueba estadística es que, como todas las puntuaciones z, tiene una distribución normal
estándar:5
𝑧𝑋̄ ∑ 𝑁 𝑜𝑟𝑚𝑎𝑙(0, 1)
𝑋̄ ∑ 𝑁𝑜𝑟𝑚𝑎𝑙(𝜇0 , 𝐸𝑆(𝑋))
̄
5 Nuevamente, ver Section 4.5 si has olvidado por qué esto es cierto.
264 CHAPTER 11. COMPARAR DOS MEDIAS
(a)
(b)
critical z value
desired 𝛼 level two-sided test one-sided test
.1 1.644854 1.281552
.05 1.959964 1.644854
.01 2.575829 2.326348
.001 3.290527 3.090232
Figure 11.3: Regiones de rechazo para la prueba z de dos colas (panel (a)) y la prueba
z de una cola (panel (b))
𝑠𝑑.𝑡𝑟𝑢𝑒
𝑠𝑒𝑚.𝑡𝑟𝑢𝑒 = √
𝑁
9.5
=√
20
= 2.124265
𝑠𝑎𝑚𝑝𝑙𝑒.𝑚𝑒𝑎𝑛 − 𝑚𝑢.𝑛𝑢𝑙𝑙
𝑧.𝑠𝑐𝑜𝑟𝑒 =
𝑠𝑒𝑚.𝑡𝑟𝑢𝑒
(72.3 − 67.5)
=
2.124265
= 2.259606
En vista de la estupidez de suponer que se conoce 𝛼, veamos si podemos vivir sin ello.
¡Esto nos saca del lúgubre dominio de la prueba z y nos lleva al reino mágico de la
prueba t, con unicornios, hadas y duendes!
Está bien, genial. Lo más obvio que podría pensar hacer es ejecutar una prueba z, pero
usando la desviación estándar estimada de 9.52 en lugar de confiar en mi suposición de
que la verdadera desviación estándar es 9.5. Y probablemente no te sorprenda saber
que esto aún nos daría un resultado significativo. Este enfoque está cerca, pero no es
del todo correcto. Debido a que ahora confiamos en una estimación de la desviación
estándar poblacional, necesitamos hacer algunos ajustes por el hecho de que tenemos
cierta incertidumbre sobre cuál es realmente la desviación estándar poblacional real. Tal
vez nuestros datos sean solo una casualidad… tal vez la verdadera desviación estándar
poblacional sea 11, por ejemplo. Pero si eso fuera realmente cierto, y ejecutamos la
prueba z asumiendo 𝜎 = 11, entonces el resultado terminaría siendo no significativo.
Esto es un problema, y es uno que vamos a tener que abordar.
11.2. LA PRUEBA T DE UNA MUESTRA 267
µ = µ0 µ ... µ0
σ = ?? σ = ??
Value of X Value of X
Figure 11.4: Ilustración gráfica de las hipótesis nula y alternativa asumidas por la prueba
t de una muestra (bilateral). Ten en cuenta la similitud con la prueba z (Figure 11.2).
La hipótesis nula es que la media poblacional 𝜇 es igual a algún valor especificado 𝜇0 , y
la hipótesis alternativa es que no lo es. Al igual que la prueba z, asumimos que los datos
se distribuyen normalmente, pero no asumimos que la desviación estándar poblacional
𝜎 se conoce de antemano
𝑋̄ − 𝜇
𝑡=
√𝜎̂
𝑁
df = 2 df = 10
−4 −2 0 2 4 −4 −2 0 2 4
Consulta Figure 11.6, que, entre otras cosas a las que llegaremos en un momento, te da
una prueba t = 2.25, con 19 grados de libertad y un valor p asociado de $ 0.036 $.
También se informan otras dos cosas que podrían interesarte: el intervalo de confianza
del 95% y una medida del tamaño del efecto (hablaremos más sobre los tamaños del
efecto más adelante). Eso parece bastante sencillo. Ahora, ¿qué hacemos con este
resultado? Bueno, ya que estamos fingiendo que realmente nos importa mi ejemplo de
juguete, nos alegramos al descubrir que el resultado es estadísticamente significativo (es
decir, un valor de p por debajo de 0,05). Podríamos informar del resultado diciendo
algo así:
Con una nota media de 72, 3, los estudiantes de psicología obtuvieron una
puntuación ligeramente superior a la nota media de 67, 5 (𝑡(19) = 2, 25,
𝑝 = 0, 036); la diferencia de medias fue de 4, 80 y el intervalo de confianza
de 95% fue de 0, 34 a 9, 26.
…donde 𝑡(19) es la notación abreviada de un estadístico t que tiene 19 grados de libertad.
Dicho esto, a menudo sucede que no se informa el intervalo de confianza, o se hace usando
una forma mucho más reducida que la que he utilizado aquí. Por ejemplo, no es raro
ver el intervalo de confianza incluido como parte del bloque de estadísticos después de
informar la diferencia media, así:
Con tanta jerga metida en media línea, sabes que debes ser muy inteligente.8
8 Más en serio, tiendo a pensar que lo contrario es cierto. Desconfío mucho de los informes técnicos
270 CHAPTER 11. COMPARAR DOS MEDIAS
z para que solo estemos hablando de la distribución muestral, podemos debilitar los supuestos de la
prueba t para que no tengamos que asumir la normalidad poblacional. Sin embargo, para la prueba
t es más complicado hacer esto. Como antes, podemos reemplazar el supuesto de normalidad de la
población con el supuesto de que la distribución muestral de 𝑋̄ es normal. Sin embargo, recuerda que
también confiamos en una estimación muestral de la desviación estándar, por lo que también requerimos
que la distribución muestral de 𝜎̂ sea ji-cuadrado. Eso hace que las cosas sean más desagradables, y
esta versión rara vez se usa en la práctica. Afortunadamente, si la distribución poblacional es normal,
entonces se cumplen estos dos supuestos.
10Aunque es el más simple, por eso empecé con él.
11.3. LA PRUEBA T DE MUESTRAS INDEPENDIENTES (PRUEBA DE STUDENT)271
(a)
(b)
la calificación promedio para la clase en general. En la clase hay dos tutores, Anastasia
y Bernadette. Hay 𝑁1 = 15 estudiantes en las tutorías de Anastasia y 𝑁2 = 18 en las
tutorías de Bernadette. La pregunta de investigación que me interesa es si Anastasia
o Bernadette son mejores tutoras, o si no hay mucha diferencia. El Dr. Harpo me
envía por correo electrónico las calificaciones del curso en el archivo harpo.csv. Como
de costumbre, cargaré el archivo en jamovi y veré qué variables contiene: hay tres
variables, ID, calificación y tutor. La variable de calificación contiene la calificación
de cada estudiante, pero no se importa a jamovi con el atributo de nivel de medición
correcto, por lo que necesito cambiar esto para que se considere una variable continua
(ver Section 3.6). La variable tutor es un factor que indica quién fue la tutora de cada
estudiante, ya sea Anastasia o Bernadette.
Podemos calcular las medias y las desviaciones estándar, utilizando el análisis ‘Explo-
ración’ - ‘descriptivo’, y aquí hay un pequeño cuadro resumen (Table 11.2).
Para darte una idea más detallada de lo que está pasando aquí, he trazado diagramas de
caja y violín en jamovi, con puntuaciones medias agregadas al diagrama con un pequeño
cuadrado sólido. Estos gráficos muestran la distribución de calificaciones para ambas
tutoras (Figure 11.7),
los estudiantes de Bernadette),11 y, como de costumbre, dejaremos que 𝑋1̄ y 𝑋2̄ denoten
las medias muestrales observadas para ambos grupos. Nuestra hipótesis nula establece
que las medias de las dos poblaciones son idénticas (𝜇1 = 𝜇2 ) y la alternativa a esto es
que no lo son (𝜇1 ≠ 𝜇2 ) (Figure 11.8). Escrito en lenguaje matemático, esto es:
null hypothesis alternative hypothesis
µ µ1 µ2
Value of X Value of X
Figure 11.8: Ilustración gráfica de las hipótesis nula y alternativa asumidas por la prueba
t de Student. La hipótesis nula supone que ambos grupos tienen la misma media 𝜇,
mientras que la alternativa supone que tienen medias diferentes 𝜇1 y 𝜇2 . Observa que
se supone que las distribuciones de la población son normales y que, aunque la hipótesis
alternativa permite que el grupo tenga diferentes medias, se supone que tienen la misma
desviación estándar.
𝐻0 ∶ 𝜇 1 = 𝜇 2
𝐻0 ∶ 𝜇 1 ≠ 𝜇 2
Para construir una prueba de hipótesis que maneje este escenario, comenzamos obser-
vando que si la hipótesis nula es verdadera, entonces la diferencia entre las medias
poblacionales es exactamente cero, 𝜇1 − 𝜇2 = 0. Como consecuencia, una prueba es-
tadística se basará en la diferencia entre las medias de las dos muestras. Porque si la
hipótesis nula es verdadera, esperaríamos que 𝑋̄ 1 − 𝑋̄ 2 sea bastante cercano a cero. Sin
embargo, tal como vimos con nuestras pruebas de una muestra (es decir, la prueba z de
una muestra y la prueba t de una muestra), debemos ser precisos acerca la proximidad
11 Casi siempre surge una pregunta divertida en este punto: ¿a qué diablos se refiere la población en
este caso? ¿Es el grupo de estudiantes que realmente recibe la clase del Dr. Harpo (los 33)? ¿El conjunto
de personas que podrían recibir la clase (un número desconocido de ellos)? ¿O algo mas? ¿Importa cuál
de estos escojamos? En una clase introductoria de estadística del comportamiento murmurar mucho en
este punto, pero como mis alumnos me hacen esta pregunta todos los años, daré una respuesta breve.
Técnicamente sí, sí importa. Si cambias tu definición de lo que realmente es la población del “mundo
real”, entonces la distribución muestral de tu media observada 𝑋̄ también cambia. La prueba t se basa
en el supuesto de que las observaciones se muestrean al azar de una población infinitamente grande y,
en la medida en que la vida real no sea así, entonces la prueba t puede ser incorrecta. En la práctica, sin
embargo, esto no suele ser un gran problema. Aunque el supuesto casi siempre es incorrecto, no conduce
a una gran cantidad de comportamiento patológico de la prueba, por lo que tendemos a ignorarlo.
274 CHAPTER 11. COMPARAR DOS MEDIAS
𝑋1̄ − 𝑋2̄
𝑡=
𝑆𝐸
Solo necesitamos averiguar cuál es realmente esta estimación del error estándar. Esto es
un poco más complicado que en el caso de cualquiera de las dos pruebas que hemos visto
hasta ahora, por lo que debemos analizarlo con mucho más cuidado para comprender
cómo funciona.
𝑤1 𝜎̂ 12 + 𝑤2 𝜎̂ 22
𝜎̂ 𝑝2 =
𝑤1 + 𝑤2
Finalmente, convertimos la estimación de la varianza agrupada a una estimación de desviación estándar
agrupada, haciendo la raíz cuadrada.
𝑤1 𝜎̂ 12 + 𝑤2 𝜎̂ 22
𝜎̂ 𝑝 = √
𝑤1 + 𝑤2
Y si mentalmente sustituyes (𝑤1 = 𝑁1 − 1) y 𝑤2 = 𝑁2 − 1 en esta ecuación obtendrá una fórmula muy
fea. Una fórmula muy fea que en realidad parece ser la forma “estándar” de describir la estimación de
la desviación estándar agrupada. Sin embargo, no es mi forma favorita de pensar en las desviaciones
estándar agrupadas. Prefiero pensarlo así. Nuestro conjunto de datos en realidad corresponde a un
conjunto de N observaciones que se clasifican en dos grupos. Así que usemos la notación 𝑋𝑖𝑘 para
referirnos a la calificación recibida por el i-ésimo estudiante en el k-ésimo grupo de tutoría. Es decir,
(𝑋11 es la calificación que recibió el primer estudiante en la clase de Anastasia, 𝑋21 es su segundo
estudiante, y así sucesivamente. Y tenemos dos medias grupales separadas 𝑋̄ 1 y 𝑋̄ 2 , a las que podríamos
referirnos “genéricamente” usando la notación 𝑋̄ 𝑘 , es decir, la calificación media para el k-ésimo grupo
de tutoría. Hasta ahora, todo bien. Ahora, dado que cada estudiante cae en una de las dos tutorías,
podemos describir su desviación de la media del grupo como la diferencia
𝑋𝑖𝑘 − 𝑋̄ 𝑘
11.4. COMPLETANDO LA PRUEBA 275
Tal como vimos con nuestra prueba de una muestra, la distribución muestral de este
estadístico t es una distribución t (sorprendente, ¿no es así?) siempre que la hipótesis
nula sea verdadera y se cumplan todos los supuestos de la prueba. Los grados de
libertad, sin embargo, son ligeramente diferentes. Como de costumbre, podemos pensar
que los grados de libertad son iguales al número de puntos de datos menos el número
de restricciones. En este caso, tenemos N observaciones (𝑁1 en la muestra 1 y 𝑁2 en la
muestra 2) y 2 restricciones (las medias de la muestra). Entonces, los grados de libertad
totales para esta prueba son 𝑁 − 2.
Entonces, ¿por qué no usar estas desviaciones (es decir, ¿en qué medida la calificación de cada estudiante
difiere de la calificación media en su tutoría?). Recuerda, una varianza es solo el promedio de un montón
de desviaciones al cuadrado, así que hagamos eso. Matemáticamente, podríamos escribirlo así
𝑓𝑟𝑎𝑐∑(𝑋𝑖𝑘 − 𝑋̄ 𝑘 )2 𝑁
𝑖𝑘
donde la notación “∑𝑖𝑘 ” es una forma perezosa de decir “calcular una suma mirando a todos los
estudiantes en todas las tutorías”, ya que cada “𝑖𝑘 ” corresponde a un estudiante.𝑎 Pero, como vimos
en Section 8.5, calcular la varianza dividiendo por N produce una estimación sesgada de la varianza de
la población. Y previamente necesitábamos dividir por (𝑁 − 1) para arreglar esto. Sin embargo, como
mencioné en ese momento, la razón por la que existe este sesgo es que la estimación de la varianza se
basa en la media muestral y, en la medida en que la media muestral no es igual a la media poblacional,
puede sesgar sistemáticamente nuestra estimación de la media. ¡Pero esta vez nos basamos en dos
medias muestrales! ¿Significa esto que tenemos más sesgos? Sí, eso significa. ¿Significa esto que ahora
debemos dividir por (𝑁 − 2) en lugar de (𝑁 − 1), para calcular nuestra estimación de la varianza
agrupada? Pues sí
∑ (𝑋𝑖𝑘 − 𝑋̄ 𝑘 )2
𝜎̂ 𝑝2 = 𝑖𝑘
𝑁 −2
Ah, y si sacas la raíz cuadrada de esto entonces obtienes 𝜎̂ 𝑝 , la estimación de la desviación estándar
agrupada. En otras palabras, el cálculo de la desviación estándar agrupada no es nada especial. No
es muy diferente al cálculo de la desviación estándar normal. — 𝑎 Se introducirá una notación más
correcta en Chapter 13.
13 Siempre que las dos variables realmente tengan la misma desviación estándar, nuestra estimación
Figure 11.9: prueba t independiente en jamovi, con opciones verificadas para obtener
resultados útiles
La salida tiene una forma muy familiar. Primero, te dice qué prueba se ejecutó y te
dice el nombre de la variable dependiente que usaste. Luego informa los resultados
de la prueba. Al igual que la última vez, los resultados de la prueba consisten en un
estadístico t, los grados de libertad y el valor p. La sección final informa dos cosas: te
ofrece un intervalo de confianza y un tamaño del efecto. Hablaré sobre los tamaños del
efecto más adelante. Del intervalo de confianza, sin embargo, debería hablar ahora.
Es muy importante tener claro a qué se refiere realmente este intervalo de confianza. Es
un intervalo de confianza para la diferencia entre las medias de los grupos. En nuestro
ejemplo, los estudiantes de Anastasia obtuvieron una calificación promedio de $74,53 $
y los estudiantes de Bernadette tuvieron una calificación promedio de $69,06 $, por lo
que la diferencia entre las medias de las dos muestras es $5,48 $. Pero, por supuesto,
la diferencia entre las medias de la población puede ser mayor o menor que esto. El
intervalo de confianza informado en Figure 11.10 te dice que si replicamos este estudio
una y otra vez, entonces $ 95 % $ del tiempo, la verdadera diferencia en las medias
estaría entre $ 0.20 $ y $ 10.76 $. Consulta Section 8.5 para recordar qué significan los
11.4. COMPLETANDO LA PRUEBA 277
intervalos de confianza.
En cualquier caso, la diferencia entre los dos grupos es significativa (apenas), por lo que
podríamos escribir el resultado usando un texto como este:
La nota media en la clase de Anastasia fue de 74, 5% (desviación están-
dar = 9, 0), mientras que la media en la clase de Bernadette fue de 69, 1%
(desviación estándar = 5, 8). La prueba t de Student de muestras indepen-
dientes mostró que esta diferencia de 5.4% fue significativa (𝑡(31) = 2.1, 𝑝 <
.05, 𝐶𝐼95 = [0.2, 10.8], 𝑑 = .74), lo que sugiere que se ha producido una
diferencia genuina en los resultados del aprendizaje.
Observa que he incluido el intervalo de confianza y el tamaño del efecto en el bloque de
estadísticos. La gente no siempre lo hace. Como mínimo, esperarías ver el estadístico
t, los grados de libertad y el valor p. Entonces deberías incluir algo como esto como
mínimo: 𝑡(31) = 2.1, 𝑝 < .05. Si los estadísticos se salieran con la suya, todos también
informarían el intervalo de confianza y probablemente también la medida del tamaño del
efecto, porque son cosas útiles que hay que saber. Pero la vida real no siempre funciona
de la forma en que los estadísticos quieren que lo haga, por lo que debes hacer un juicio
en función de si crees que ayudará a tus lectores y, si estás escribiendo un artículo
científico, el estándar editorial de la revista en cuestión. Algunas revistas esperan que
informes los tamaños del efecto, otras no. Dentro de algunas comunidades científicas
es una práctica estándar informar intervalos de confianza, en otras no lo es. Tendrás
que averiguar qué espera tu audiencia. Pero, para que quede claro, si estás en mi clase,
mi posición por defecto es que normalmente merce la pena incluir tanto el tamaño del
efecto como el intervalo de confianza.
media 1-media 2
𝑡=
𝑆𝐸
Si “media 1” es mayor que “media 2”, el estadístico t será positivo, mientras que si
“media 2” es mayor, el estadístico t será negativo. De manera similar, el intervalo de
confianza que informa jamovi es el intervalo de confianza para la diferencia “(media 1)
menos (media 2)”, que será la inversa de lo que obtendrías si estuvieras calculando el
intervalo de confianza para la diferencia “( media 2) menos (media 1)”.
278 CHAPTER 11. COMPARAR DOS MEDIAS
De acuerdo, eso es bastante sencillo cuando lo piensas, pero ahora considera nuestra
prueba t que compara la clase de Anastasia con la clase de Bernadette. ¿Cuál de-
beríamos llamar “media 1” y cuál deberíamos llamar “media 2”. Es arbitrario. Sin
embargo, necesitas designar uno de ellos como “media 1” y el otro como “media 2”. No
es sorprendente que la forma en que jamovi maneja esto también sea bastante arbitraria.
En versiones anteriores del libro, solía tratar de explicarlo, pero después de un tiempo
me di por vencida, porque en realidad no es tan importante y, para ser honesta, nunca
puedo recordarme. Cada vez que obtengo un resultado significativo en la prueba t y
quiero averiguar cuál es la media más grande, no trato de averiguarlo mirando el estadís-
tico t. ¿Por qué me molestaría en hacer eso? Es una tontería ¡Es más fácil simplemente
mirar las medias del grupo real ya que la salida de jamovi realmente las muestra!
Esto es lo importante. Debido a que realmente no importa lo que te muestre jamovi,
generalmente trato de informar el estadístico t de tal manera que los números coincidan
con el texto. Supongamos que lo que quiero escribir en mi informe es: La clase de
Anastasia tuvo calificaciones más altas que la clase de Bernadette. El enunciado aquí
implica que el grupo de Anastasia es el primero, por lo que tiene sentido informar
del estadístico t como si la clase de Anastasia correspondiera al grupo 1. Si es así,
escribiría La clase de Anastasia tuvo calificaciones más altas que la clase de Bernadette
(𝑡(31) = 2.1, 𝑝 = .04).
(En realidad, no subrayaría la palabra “más alto” en la vida real, solo lo hago para
enfatizar el punto de que “más alto” corresponde a valores t positivos). Por otro lado,
supongamos que la frase que quiero usar tiene la clase de Bernadette en primer lugar.
Si es así, tiene más sentido tratar a su clase como el grupo 1, y si es así, la redacción
sería así: La clase de Bernadette tenía calificaciones más bajas que la clase de Anastasia
(𝑡(31) = −2.1, 𝑝 = .04).
Debido a que estoy hablando de un grupo que tiene puntuaciones “más bajas” esta vez,
es más sensato usar la forma negativa del estadístico t. Simplemente hace que se lea de
manera más limpia.
Una última cosa: ten en cuenta que no puedes hacer esto para otros tipos de pruebas
estadísticas. Funciona para las pruebas t, pero no tendría sentido para las pruebas de
ji-cuadrado, las pruebas F o, de hecho, para la mayoría de las pruebas de las que hablo
en este libro. ¡Así que no generalices demasiado este consejo! ¡En realidad, solo estoy
hablando de pruebas t y nada más!
pero si ambos grupos tienen datos normalmente distribuidos, entonces la diferencia en las medias
también estará normalmente repartido. En la práctica, el teorema central del límite nos asegura que,
en general, las distribuciones de las medias de las dos muestras que se prueban se aproximarán a las
11.5. LA PRUEBA T DE MUESTRAS INDEPENDIENTES (PRUEBA DE WELCH) {##SEC-THE-INDEPEN
𝑋̄ 1 − 𝑋̄ 2
𝑡=
𝑆𝐸(𝑋̄ 1 − 𝑋̄ 2 )
La principal diferencia es que los cálculos del error estándar son diferentes. Si las dos
distribuciones normales a medida que los tamaños de las muestras aumentan, independientemente de
las distribuciones de los datos subyacentes.
280 CHAPTER 11. COMPARAR DOS MEDIAS
µ µ1
µ2
Value of X Value of X
Figure 11.10: Ilustración gráfica de las hipótesis nula y alternativa asumidas por la
prueba t de Welch. Al igual que la prueba de Student (Figure 11.9), asumimos que
ambas muestras se extraen de una población normal; pero la hipótesis alternativa ya no
requiere que las dos poblaciones tengan la misma varianza
batido de frutas. Pero nadie piensa realmente que un batido de frutas sea una buena manera de describir
las frutas originales, ¿verdad?
16 pero aún se puede estimar el error estándar de la diferencia entre las medias muestrales, sólo que
Figure 11.11: resultados que muestran la prueba de Welch junto con la prueba t de
Student predeterminada en jamovi
tus estadísticos descriptivos, los resultados de las pruebas y alguna otra información.
Así que todo eso es bastante fácil.
Excepto, excepto… nuestro resultado ya no es significativo. Cuando ejecutamos la
prueba de Student, obtuvimos un efecto significativo, pero la prueba de Welch en el
mismo conjunto de datos no lo es (𝑡(23.02) = 2.03, 𝑝 = .054). ¿Qué significa esto? ¿De-
bería cundir el pánico? ¿Se está quemando el cielo? Probablemente no. El hecho de
que una prueba sea significativa y la otra no, no significa gran cosa, sobre todo porque
he manipulado los datos para que esto sucediera. Como regla general, no es una buena
idea esforzarse por intentar interpretar o explicar la diferencia entre un valor p de $
0,049 y un valor p de $ 0,051. Si esto sucede en la vida real, la diferencia en estos
valores p se debe casi con seguridad al azar. Lo que importa es que tengas un poco de
cuidado al pensar qué prueba usas. La prueba de Student y la prueba de Welch tienen
diferentes fortalezas y debilidades. Si las dos poblaciones realmente tienen varianzas
iguales, entonces la prueba de Student es un poco más potente (menor tasa de error
de tipo II) que la prueba de Welch. Sin embargo, si no tienen las mismas varianzas,
entonces se violan los supuestos de la prueba de Student y es posible que no puedas
confiar en ella; podrías terminar con una tasa de error Tipo I más alta. Así que es un
intercambio. Sin embargo, en la vida real tiendo a preferir la prueba de Welch, porque
casi nadie cree que las varianzas de la población sean idénticas.
una sorpresa. Ambos son diseños estándar de medidas repetidas que involucran dos medidas. La única
diferencia es que esta vez nuestra variable de resultado está en una escala de intervalo (capacidad de
la memoria de trabajo) en lugar de una variable de escala nominal binaria (una pregunta de sí o no).
18 En este punto tenemos a los Drs. Harpo, Chico y Zeppo. No hay premios por adivinar quién es el
Dr. Groucho.
11.6. LA PRUEBA T DE MUESTRAS PAREADAS 283
Figure 11.12: descriptivos para las dos variables de prueba de grado en el conjunto de
datos de chico
casi todos los puntos de datos se sitúan por encima de la línea diagonal: casi todos
los estudiantes parecen haber mejorado su calificación, aunque solo sea un poco. Esto
sugiere que deberíamos observar la mejora realizada por cada estudiante de una prueba a
la siguiente y tratarla como nuestros datos brutos. Para hacer esto, necesitaremos crear
una nueva variable para la mejora que hace cada estudiante y agregarla al conjunto de
datos de chico. La forma más sencilla de hacer esto es calcular una nueva variable, con
la expresión calificación prueba2 - calificación prueba1.
Una vez que hayamos calculado esta nueva variable de mejora, podemos dibujar un
histograma que muestre la distribución de estas puntuaciones de mejora, que se muestra
en Figure 11.14. Si nos fijamos en el histograma, está muy claro que hay una mejora
real aquí. La gran mayoría de los estudiantes obtuvo una puntuación más alta en la
prueba 2 que en la prueba 1, lo que se refleja en el hecho de que casi todo el histograma
está por encima de cero.
(a) (b)
Figure 11.13: Nota media para la prueba 1 y la prueba 2, con intervalos de confianza del
95% asociados (a). Diagrama de dispersión que muestra las calificaciones individuales
para la prueba 1 y la prueba 2 (b).
sujeto (que es lo que nos interesa probar) con la variabilidad entre sujetos (que no
nos interesa).
La solución al problema es obvia, espero, ya que ya hicimos todo el trabajo duro en
la sección anterior. En lugar de ejecutar una prueba t de muestras independientes en
grade_test1 y grade_test2, ejecutamos una prueba t de una muestra en la variable
de diferencia dentro del sujeto, mejora. Para formalizar esto un poco, si 𝑋𝑖1 es la pun-
tuación que obtuvo el i-ésimo participante en la primera variable, y 𝑋𝑖2 es la puntuación
que obtuvo la misma persona en la segunda, entonces la puntuación de diferencia es:
𝐷𝑖 = 𝑋𝑖1 − 𝑋𝑖2
Ten en cuenta que las puntuaciones de diferencia son la variable 1 menos la variable
2 y no al revés, por lo que si queremos que la mejora corresponda a una diferencia
de valor positivo, en realidad queremos que la “prueba 2” sea nuestra “variable 1”.
Igualmente, diríamos que 𝜇𝐷 = 𝜇1 − 𝜇2 es la media poblacional para esta variable
diferencia. Entonces, para convertir esto en una prueba de hipótesis, nuestra hipótesis
nula es que esta diferencia de medias es cero y la hipótesis alternativa es que no lo es.
𝐻0 ∶ 𝜇 𝐷 = 0
𝐻1 ∶ 𝜇 𝐷 ≠ 0
Asumiendo que estamos hablando de una prueba bilateral. Esto es más o menos idéntico
a la forma en que describimos las hipótesis para la prueba t de una muestra. La única
diferencia es que el valor específico que predice la hipótesis nula es 0. Por lo tanto,
nuestro estadístico t también se define más o menos de la misma manera. Si hacemos
que 𝐷̄ denote la media de las puntuaciones de diferencia, entonces
11.6. LA PRUEBA T DE MUESTRAS PAREADAS 285
Figure 11.14: Histograma que muestra la mejora realizada por cada estudiante en la
clase del Dr. Chico. Ten en cuenta que casi toda la distribución está por encima de cero:
la gran mayoría de los estudiantes mejoraron su rendimiento des la primera prueba a la
segunda
286 CHAPTER 11. COMPARAR DOS MEDIAS
𝐷̄
𝑡=
𝑆𝐸(𝐷)̄
que es
𝐷̄
𝑡= 𝜎̂ 𝐷
√
𝑁
donde 𝜎̂𝐷 es la desviación estándar de las puntuaciones de diferencia. Dado que esta
es solo una prueba t ordinaria de una muestra, sin nada especial, los grados de libertad
siguen siendo 𝑁 − 1. Y eso es todo. La prueba t de muestras pareadas realmente no
es una prueba nueva en absoluto. Es una prueba t de una muestra, pero aplicada a
la diferencia entre dos variables. En realidad es muy simple. La única razón por la
que merece una discusión tan larga como la que acabamos de ver es que debes poder
reconocer cuándo una prueba de muestras pareadas es apropiada y comprender por qué
es mejor que una prueba t de muestras independientes.
Figure 11.15: resultados que muestran una prueba t de una muestra en puntajes de
diferencia emparejados
El resultado que se muestra en Figure 11.15 tiene (obviamente) el mismo formato que
tenía la última vez que usamos el análisis de prueba t de una muestra (Section 11.2),
y confirma nuestra intuición. Hay una mejora promedio de 1.4% de la prueba 1 a la
prueba 2, y esto es significativamente diferente de 0 (𝑡(19) = 6.48, 𝑝 < .001).
Sin embargo, supongamos que eres perezosa y no quieres hacer todo el esfuerzo de
crear una nueva variable. O tal vez solo quieras mantener clara la diferencia entre las
pruebas de una muestra y muestras pareadas. Si es así, puedes usar el análisis ‘Prueba
T de muestras emparejadas’ de jamovi, obteniendo los resultados que se muestran en
Figure 11.16.
Las cifras son idénticas a las de la prueba de una muestra, lo que, por supuesto, tiene
que ser así, dado que la prueba t de muestras pareadas no es más que una prueba de
una muestra.
11.7. PRUEBAS UNILATERALES 287
Figure 11.16: resultados que muestran una prueba t de muestra pareada. Comparar
con Figure 11.15
Figure 11.17: resultados de jamovi que muestran una ‘Prueba T de una muestra’ donde
la hipótesis real es unilateral, es decir, que la media real es mayor que 67.5%
Ten en cuenta que hay algunos cambios con respecto a la salida que vimos la última
vez. Lo más importante es el hecho de que la hipótesis real ha cambiado, para reflejar
la prueba diferente. La segunda cosa a tener en cuenta es que aunque el estadístico t y
los grados de libertad no han cambiado, el valor p sí lo ha hecho. Esto se debe a que
la prueba unilateral tiene una región de rechazo diferente de la prueba bilateral. Si has
olvidado por qué es esto y qué significa, puede que te resulte útil volver a leer Chapter 9
y Section 9.4.3 en particular. La tercera cosa a tener en cuenta es que el intervalo de
confianza también es diferente: ahora informa un intervalo de confianza “unilateral” en
lugar de uno bilateral. En un intervalo de confianza de dos colas, estamos tratando de
encontrar los números a y b de modo que estemos seguros de que, si tuviéramos que
repetir el estudio muchas veces, entonces 95% del tiempo la media estaría entre a y b.
288 CHAPTER 11. COMPARAR DOS MEDIAS
Figure 11.18: resultados de jamovi que muestran una ‘Prueba t de muestras indepen-
dientes’ donde la hipótesis real es unilateral, es decir, que los estudiantes de Anastasia
obtuvieron calificaciones más altas que los de Bernadette
Una vez más, la salida cambia de forma predecible. La definición de la hipótesis alter-
nativa ha cambiado, el valor p ha cambiado y ahora informa un intervalo de confianza
unilateral en lugar de uno bilateral.
¿Qué pasa con la prueba t de muestras pareadas? Supongamos que quisiéramos probar
la hipótesis de que las calificaciones suben de la prueba 1 a la prueba 2 en la clase del
Dr. Zeppo y no estamos preparados para considerar la idea de que las calificaciones
bajan. En jamovi, harías esto especificando, en la opción ‘Hipótesis’, que grade_test2
(‘Medida 1’ en jamovi, porque copiamos esto primero en el cuadro de pares de variables)
> grade test1 (‘Medida 2’ en jamovi). Deberías obtener los resultados que se muestran
en Figure 11.19.
Una vez más, la salida cambia de forma predecible. La hipótesis ha cambiado, el valor
p ha cambiado y el intervalo de confianza ahora es unilateral.
Figure 11.19: resultados de jamovi que muestran una ‘Prueba T de muestras empare-
jadas’ donde la hipótesis real es unilateral, es decir, calificación prueba2 (‘Medida 1’) >
calificación prueba1 (‘Medida 2’)
Table 11.3: Una guía (muy) aproximada para interpretar la d de Cohen. Mi recomen-
dación personal es no usarlos a ciegas. El estadístico d tiene una interpretación natural
en sí mismo. Vuelve a describir la diferencia de medias como el número de desviaciones
estándar que separa esas medias. Por lo tanto, generalmente es una buena idea pensar
en lo que eso significa en términos prácticos. En algunos contextos, un efecto 'pequeño'
podría ser de gran importancia práctica. En otras situaciones, un efecto 'grande' puede
no ser tan interesante
(a)
(b)
del efecto es dividir la diferencia entre las medias por una estimación de la desviación
estándar. En otras palabras, estamos buscando calcular algo similar a esto:
(media 1) − (media 2)
𝑑=
desviación estándar
𝑋̄ − 𝜇0
𝑑=
𝜎̂
Cuando volvemos a mirar los resultados en Figure 11.6, el valor del tamaño del efecto
es 𝑑 = 0, 50 de Cohen. Entonces, en general, los estudiantes de psicología de la clase
del Dr. Zeppo obtienen calificaciones (𝑚𝑒𝑑𝑖𝑎 = 72, 3%) que son alrededor de 0,5 desvia-
ciones estándar más altas que el nivel que esperarías (67, 5%) si tuvieran un rendimiento
igual que otros estudiantes. A juzgar por la guía aproximada de Cohen, este es un
tamaño de efecto moderado.
𝜇1 − 𝜇2
𝛿=
𝜎
𝑋̄ 1 − 𝑋̄ 2
𝑑=
𝜎̂𝑝
donde 𝜎̂𝑝 es exactamente la misma medida de desviación estándar agrupada que aparece
en la prueba t. Esta es la versión más utilizada de la d de Cohen cuando se aplica al
resultado de una prueba t de Student, y es la que se proporciona en jamovi. A veces se
la denomina estadístico 𝑔 de Hedges (Hedges, 1981).
Sin embargo, hay otras posibilidades que describiré brevemente. En primer lugar, es
posible que tengas razones para querer usar solo uno de los dos grupos como base
para calcular la desviación estándar. Este enfoque (a menudo llamado △ de Glass,
pronunciado delta) solo tiene sentido cuando tienes una buena razón para tratar a uno
de los dos grupos como un reflejo más puro de la “variación natural” del otro. Esto
11.8. TAMAÑO DEL EFECTO 291
puede suceder si, por ejemplo, uno de los dos grupos es un grupo de control. En segundo
lugar, recuerda que en el cálculo habitual de la desviación estándar agrupada dividimos
entre 𝑁 − 2 para corregir el sesgo en la varianza de la muestra. En una versión de la
d de Cohen se omite esta corrección y en su lugar se divide por 𝑁 . Esta versión tiene
sentido principalmente cuando intentas calcular el tamaño del efecto muestral en lugar
de estimar el tamaño del efecto poblacional. Finalmente, hay una versión llamada g de
Hedge, basada en Hedges & Olkin (1985), que señala que existe un pequeño sesgo en la
estimación habitual (agrupada) para la d de Cohen.19
En cualquier caso, ignorando todas aquellas variaciones que podrías utilizar si quisieras,
echemos un vistazo a la versión por defecto en jamovi. En Figure 11.10 la de de Cohen es
𝑑 = 0.74, lo que indica que las calificaciones de los estudiantes en la clase de Anastasia
son, en promedio, 0.74 desviaciones estándar más altas que las calificaciones de los
estudiantes en la clase de Bernadette. Para una prueba de Welch, el tamaño del efecto
estimado es el mismo (Figure 11.12).
𝐷̄
𝑑=
𝜎̂𝐷
19 Introducen (𝑁−3)
una pequeña corrección al multiplicar el valor habitual de 𝑑 por (𝑁−2.25) .
20 si estás interesada, puedes ver cómo se hizo esto en el archivo chico2.omv
292 CHAPTER 11. COMPARAR DOS MEDIAS
11.9.1 Gráficos QQ
Una forma de verificar si una muestra viola el supuesto de normalidad es dibujar un
“Gráfico QQ” (Gráfico Cuantil-Cuantil). Esto te permite verificar visualmente si estás
viendo alguna infracción sistemática. En un gráfico QQ, cada observación se representa
como un solo punto. La coordenada x es el cuantil teórico en el que debería caer
la observación si los datos se distribuyeran normalmente (con la media y la varianza
estimadas a partir de la muestra), y en la coordenada y está el cuantil real de los datos
dentro de la muestra. Si los datos son normales, los puntos deben formar una línea
recta. Por ejemplo, veamos qué sucede si generamos datos tomando muestras de una
distribución normal y luego dibujando un gráfico QQ. Los resultados se muestran en
Figure 11.20.
Como puedes ver, estos datos forman una línea bastante recta; ¡lo cual no es una sorpresa
dado que los cogimos como muestra de una distribución normal! Por el contrario, echa
un vistazo a los dos conjuntos de datos que se muestran en Figure 11.21. Los paneles
superiores muestran el histograma y un gráfico QQ para un conjunto de datos que está
muy sesgado: el gráfico QQ se curva hacia arriba. Los paneles inferiores muestran los
mismos gráficos para un conjunto de datos de cola pesada (es decir, alta curtosis): en
este caso, el gráfico QQ se aplana en el medio y se curva bruscamente en cada extremo.
2
20
Standardized Residuals
15
Frequency
10
−1
5 −2
−3
0
−2 0 2 −2 −1 0 1 2
Figure 11.20: Histograma (panel (a)) y gráfico QQ normal (panel (b)) de normal.data,
una muestra distribuida normalmente con 100 observaciones. El estadístico de Shapiro-
Wilk asociado con estos datos es 𝑊 = .99, lo que indica que no se detectaron desviaciones
significativas de la normalidad (𝑝 = .54)
análisis, obtenemos los gráficos QQ que se muestran en Figure 11.22 y Figure 11.23,
respectivamente. Mi interpretación es que estos gráficos muestran que las puntuaciones
de diferencia están razonablemente distribuidas normalmente, ¡así que estamos listos
para comenzar!
Shapiro-Wilk. Aunque la mayoría de las cosas que he leído parecen sugerir que Shapiro-Wilk es la
mejor prueba de normalidad, Kolomogorov Smirnov es una prueba de propósito general de equivalencia
distribucional que se puede adaptar para manejar otros tipos de pruebas de distribución. En jamovi se
prefiere la prueba de Shapiro-Wilk.
23 la prueba estadística que calcula se denota convencionalmente como 𝑊 y se calcula de la siguiente
manera. Primero, clasificamos las observaciones en orden creciente y dejamos que 𝑋1̄ sea el valor más
pequeño de la muestra, 𝑋2 el segundo más pequeño y así sucesivamente. Entonces el valor de 𝑊 viene
dado por
𝑁
(∑ 𝑎𝑖 𝑋𝑖 )2
𝑊 = 𝑁 𝑖=1
∑ (𝑋𝑖 − 𝑋) ̄ 2
𝑖=1
donde 𝑋̄ es la media de las observaciones, y los valores de 𝑎𝑖 son … algo complicado que está fuera del
alcance de un texto introductorio.
294 CHAPTER 11. COMPARAR DOS MEDIAS
2
20
Standardized Residuals
Frequency
10
0 1 2 3 −2 −1 0 1 2
5
Standardized Residuals
40
Frequency
20
−5
0 −10
−10 −5 0 5 10 −2 −1 0 1 2
Sampling distribution of W
(for normally distributed data)
N = 10
N = 20
N = 50
Value of W
11.9.4 Ejemplo
Mientras tanto, probablemente valga la pena mostrarte un ejemplo de lo que sucede
con el gráfico QQ y la prueba de Shapiro-Wilk cuando los datos no son normales. Para
eso, veamos la distribución de nuestros datos de márgenes ganadores de la AFL, que
si recuerdas Chapter 4, no parecían provenir de una distribución normal en absoluto.
Esto es lo que sucede con el gráfico QQ (Figure 11.25).
Table 11.4: Comparación de observaciones por grupo para una prueba U de Mann-
Whitney de dos muestras
(a)
(b)
group B
14.5 10.4 12.4 11.7 13.0
group 6.4 . . . . .
A 10.7 . ✓ . . .
11.9 . ✓ . ✓ .
7.3 . . . . .
10 . . . . .
Table 11.5: Comparación de observaciones por grupo para una prueba U de Wilcoxon
de una muestra
(a)
(b)
all differences
positive −24 −14 −10 7 −6 −38 2 −35 −30 5
differ-
7 . . . ✓ ✓ . ✓ . . ✓
ences
2 . . . . . . ✓ . . .
5 . . . . . . ✓ . . ✓
que muestran que 𝑈 = 3 (es decir, el mismo número de marcas de verificación que se
muestra arriba), y un valor p = 0.05556. Ver Figure 11.26.
Figure 11.26: pantalla jamovi que muestra los resultados de la prueba 𝑈 Mann-Whitney
o menos lo que cabría esperar. Para la versión de una muestra, especifica la opción
‘Clasificación de Wilcoxon’ en ‘Pruebas’ en la ventana de análisis ‘Prueba T de una
muestra’. Esto te da Wilcoxon 𝑊 = 7, valor p = 0.03711. Como esto demuestra,
tenemos un efecto significativo. Evidentemente, tomar una clase de estadística tiene un
efecto en tu felicidad. Cambiar a una versión de la prueba con muestras emparejadas
no nos dará una respuesta diferente, por supuesto; ver Figure 11.27.
11.11 Resumen
• La prueba t de una muestra se utiliza para comparar la media de una sola muestra
con un valor hipotético para la media poblacional.
• Se utiliza una prueba t de muestras independientes para comparar las medias de
dos grupos y prueba la hipótesis nula de que tienen la misma media. Viene en dos
formas: La prueba t de muestras independientes (prueba de Student) (#sec-the-
independent-samples-t-test-student-test) asume que los grupos tienen la misma
desviación estándar, Las muestras independientes prueba t (prueba de Welch) no
lo hace.
• [La prueba t de muestras relacionadas] se usa cuando tienes dos puntuaciones de
cada persona y deseas probar la hipótesis nula de que las dos puntuaciones tienen la
misma media. Es equivalente a tomar la diferencia entre las dos puntuaciones para
cada persona y luego ejecutar una prueba t de una muestra en las puntuaciones
de diferencia.
• [Las pruebas unilaterales] son perfectamente legítimas siempre que estén planifi-
cadas previamente (¡como todas las pruebas!).
• Los cálculos de Tamaño del efecto para la diferencia entre las medias se pueden
302 CHAPTER 11. COMPARAR DOS MEDIAS
Figure 11.27: pantalla jamovi que muestra los resultados de las pruebas no paramétricas
de Wilcoxon de una muestra y muestras emparejadas
12.1 Correlaciones
En esta sección hablaremos sobre cómo describir las relaciones entre variables en los
datos. Para ello, queremos hablar principalmente de la correlación entre variables.
Pero primero, necesitamos algunos datos (Table 12.1).
propósitos no importa cómo especifiquemos la variable ID dado que no lo incluiremos en ningún análisis.
303
304 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
Table 12.1: datos para el análisis de correlación:- estadísticas descriptivas para los datos
de paternidad
(a)
(b)
std.
variable min max mean median dev IQR
Dani’s
grumpiness 41 91 63.71 62 10.05 14
Dani’s
hours
slept 4.84 9.00 6.97 7.03 1.02 1.45
Dani’s
son’s
hours
slept 3.25 12.07 8.05 7.95 2.07 3.21
Si estuviera escribiendo esto para un informe, probablemente elegiría los estadísticos que
son de mayor interés para mí (y para mis lectores) y luego los colocaría en una tabla
agradable y simple como la de la Tabla 12.1.2 Ten en cuenta que cuando lo puse en
una tabla, le di a todo nombres “legibles por humanos”. Esta es siempre una buena
práctica. Nota también que no estoy durmiendo lo suficiente. Esta no es una buena
práctica, pero otros padres me dicen que es bastante estándar.
Figure 12.1: Histogramas de jamovi para las tres variables interesantes en el conjunto
de datos de paternidad
personas eligen una medida de tendencia central y una sola medida de variabilidad.
12.1. CORRELACIONES 305
(a) (b)
Figure 12.2: Gráficos de dispersión de jamovi que muestran la relación entre baby.sleep
y dani.grump (izquierda) y la relación entre dani.sleep y dani.grump (derecha)
entes. Creo que la forma más sencilla de escribir la fórmula es dividirla en dos pasos. En primer lugar,
introduzcamos la idea de una covarianza. La covarianza entre dos variables 𝑋 y 𝑌 es una general-
306 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
(a) (b)
ización de la noción de varianza y es una forma matemáticamente simple de describir la relación entre
dos variables que no es muy informativa para los humanos
𝑁
1 ̄ ̄
𝐶𝑜𝑣(𝑋, 𝑌 ) = ∑(𝑋 − 𝑋)(𝑌 𝑖 −𝑌)
𝑁 − 1 𝑖=1 𝑖
Porque estamos multiplicando (es decir, tomando el “producto” de) una cantidad que depende de X por
una cantidad que depende de Y y luego promediando 𝑎 , puedes pensar en la fórmula para la covarianza
como un “producto cruzado promedio” entre 𝑋 y 𝑌 . La covarianza tiene la buena propiedad de
que, si 𝑋 y 𝑌 no están relacionados en absoluto, entonces la covarianza es exactamente cero. Si la
relación entre ellos es positiva (en el sentido que se muestra en Figure 12.4, entonces la covarianza
también es positiva, y si la relación es negativa, la covarianza también es negativa. En otras palabras,
la covarianza captura la idea cualitativa básica de la correlación. Desafortunadamente, la magnitud
bruta de la covarianza no es fácil de interpretar, ya que depende de las unidades en las que se expresan
𝑋 y 𝑌 y, peor aún, las unidades reales en las que se expresa la covarianza misma son realmente raras.
Por ejemplo, si 𝑋 se refiere a la variable dani.sleep (unidades: horas) y 𝑌 se refiere a la variable
dani.grump (unidades: grumps), entonces las unidades para su covarianza son $horas ×gruñones
.𝑌 𝑛𝑜𝑡𝑒𝑛𝑔𝑜𝑛𝑖𝑖𝑑𝑒𝑎𝑑𝑒𝑙𝑜𝑞𝑢𝑒𝑒𝑠𝑜𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑟𝑎.𝐸𝑙𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒𝑑𝑒𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑛𝑑𝑒𝑃 𝑒𝑎𝑟𝑠𝑜𝑛𝑟𝑠𝑜𝑙𝑢𝑐𝑖𝑜𝑛𝑎𝑒𝑠𝑡𝑒𝑝𝑟𝑜𝑏𝑙𝑒𝑚𝑎𝑑𝑒𝑖𝑛𝑡𝑒𝑟𝑝𝑟𝑒𝑡𝑎𝑐𝑖
En otras palabras, la correlación entre 𝑋 y 𝑌 se puede escribir de la siguiente manera:
𝐶𝑜𝑣(𝑋, 𝑌 )
𝑟𝑋𝑌 =
𝜎̂ 𝑋 𝜎̂ 𝑌
—𝑎 Tal como vimos con la varianza y la desviación estándar, en la práctica dividimos por 𝑁 − 1 en
lugar de 𝑁. 𝑏 Esta es una simplificación excesiva, pero servirá para nuestros propósitos.
12.1. CORRELACIONES 307
0 0
0.33 −0.33
0.66 −0.66
1 −1
Figure 12.4: Ilustración del efecto de variar la fuerza y la dirección de una correlación.
En la columna de la izquierda, las correlaciones son 0, .33, .66 y 1. En la columna de la
derecha, las correlaciones son 0, −.33, −.66 y −1
308 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
Figure 12.5: Una captura de pantalla jamovi que muestra las correlaciones entre las
variables en el archivo parenthood.csv
(a)
(b)
Figure 12.6: Diagramas de dispersión del cuarteto de Anscombe en jamovi. Los cuatro
conjuntos de datos tienen una correlación de Pearson de r = .816, pero son cualitativa-
mente diferentes entre sí.
12.1. CORRELACIONES 311
Figure 12.7: La relación entre las horas trabajadas y la calificación recibida para un
conjunto de datos de juguete que consta de solo 10 estudiantes (cada punto corresponde
a un estudiante). La línea que pasa por el medio muestra la relación lineal entre las
dos variables. Esto produce una fuerte correlación de Pearson de 𝑟 = .91. Sin embargo,
lo interesante a tener en cuenta aquí es que en realidad existe una relación monótona
perfecta entre las dos variables. En este ejemplo de juguete, aumentar las horas traba-
jadas siempre aumenta la calificación recibida, como lo ilustra la línea continua. Esto se
refleja en una correlación de Spearman de 𝜌 = 1. Sin embargo, con un conjunto de datos
tan pequeño, la pregunta es qué versión describe mejor la relación real involucrada.
12.2. GRÁFICO DE DISPERSIÓN 313
(a)
(b)
Figure 12.9: Diagrama de dispersión a través del módulo adicional ‘scatr’ en - jamovi
316 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
cómo funcionan las correlaciones. Recuerda que, en este conjunto de datos, estábamos
tratando de averiguar por qué Dani está tan malhumorada todo el tiempo y nuestra
hipótesis de trabajo era que no estoy durmiendo lo suficiente. Dibujamos algunos dia-
gramas de dispersión para ayudarnos a examinar la relación entre la cantidad de sueño
que duermo y mi mal humor al día siguiente, como en Figure 12.9, y como vimos an-
teriormente, esto corresponde a una correlación de $r = -.90 $, pero nos encontramos
imaginando en secreto algo que se parece más a Figure 12.11 (a). Es decir, dibujamos
mentalmente una línea recta a través de la mitad de los datos. En estadística, esta línea
que estamos dibujando se llama línea de regresión. Ten en cuenta que la línea de
regresión pasa por la mitad de los datos. No nos imaginamos nada parecido al gráfico
que se muestra en Figure 12.11 (b).
Esto no es muy sorprendente. La línea que he dibujado en Figure 12.11 (b) no “encaja”
muy bien con los datos, por lo que no tiene mucho sentido proponerla como una forma de
resumir los datos, ¿verdad? Esta es una observación muy simple, pero resulta ser muy
poderosa cuando empezamos a tratar de envolverla con un poco de matemática. Para
hacerlo, comencemos con un repaso de algunas matemáticas de la escuela secundaria.
La fórmula de una línea recta generalmente se escribe así
𝑦 = 𝑎 + 𝑏𝑥
O, al menos, así era cuando fui a la escuela secundaria hace tantos años. Las dos
variables son 𝑥 y 𝑦, y tenemos dos coeficientes, 𝑎 y 𝑏.4 El coeficiente a representa
la intersección de y de la línea, y el coeficiente b representa la pendiente de la línea.
Profundizando más en nuestros recuerdos decadentes de la escuela secundaria (lo siento,
para algunas de nosotras la escuela secundaria fue hace mucho tiempo), recordamos que
la intersección se interpreta como “el valor de y que obtienes cuando 𝑥 = 0”. De manera
similar, una pendiente de b significa que si aumentas el valor de x en 1 unidad, entonces
el valor de y sube b unidades, y una pendiente negativa significa que el valor de y bajaría
en lugar de subir. Ah, sí, ahora me acuerdo de todo. Ahora que lo hemos recordado no
debería sorprendernos descubrir que usamos exactamente la misma fórmula para una
línea de regresión. Si 𝑌 es la variable de resultado (la VD) y X es la variable predictora
(la 𝑉 𝐼), entonces la fórmula que describe nuestra regresión se escribe así
𝑌𝑖̂ = 𝑏0 + 𝑏1 𝑋𝑖
Mmm. Parece la misma fórmula, pero hay algunas partes extra en esta versión. Ase-
gurémonos de entenderlos. En primer lugar, fíjate que he escrito 𝑋𝑖 y 𝑌𝑖 en lugar de
simplemente 𝑋 y 𝑌 . Esto se debe a que queremos recordar que estamos tratando con
datos reales. En esta ecuación, 𝑋𝑖 es el valor de la variable predictora para la i-ésima
observación (es decir, la cantidad de horas de sueño que dormí el día i de mi pequeño
estudio), y 𝑌𝑖 es el valor correspondiente de la variable de resultado (es decir, mi mal
humor ese día). Y aunque no lo he dicho explícitamente en la ecuación, lo que estamos
asumiendo es que esta fórmula funciona para todas las observaciones en el conjunto de
datos (es decir, para todo i). En segundo lugar, observa que escribí 𝑌𝑖̂ y no 𝑌𝑖 . Esto
se debe a que queremos hacer la distinción entre los datos reales 𝑌𝑖 y la estimación 𝑌𝑖̂
(es decir, la predicción que hace nuestra línea de regresión). En tercer lugar, cambié
4 también se escribe a veces como 𝑦 = 𝑚𝑥 + 𝑐 donde m es el coeficiente de pendiente y 𝑐 es el
90 90
80 80
My grumpiness (0−100)
My grumpiness (0−100)
70 70
60 60
50 50
40 40
5 6 7 8 9 5 6 7 8 9
My sleep (hours) My sleep (hours)
(a) (b)
las letras utilizadas para describir los coeficientes de a y 𝑏 a 𝑏0 y 𝑏1 . Así es como a los
estadísticos les gusta referirse a los coeficientes en un modelo de regresión. No tengo ni
idea de por qué eligieron b, pero eso es lo que hicieron. En cualquier caso, 𝑏0 siempre
se refiere al término de intersección y 𝑏1 se refiere a la pendiente.
Excelente, excelente. A continuación, no puedo dejar de notar que, independientemente
de si estamos hablando de la línea de regresión buena o mala, los datos no caen per-
fectamente en la línea. O, dicho de otra forma, los datos 𝑌𝑖 no son idénticos a las
predicciones del modelo de regresión 𝑌𝑖̂ . Dado que a los estadísticos les encanta adjun-
tar letras, nombres y números a todo, nos referiremos a la diferencia entre la predicción
del modelo y ese punto de datos real como un valor residual, y lo llamaremos 𝜖𝑖 .5 En
términos matemáticos, los residuales se definen como
𝜖𝑖 = 𝑌𝑖 − 𝑌𝑖̂
lo que a su vez significa que podemos escribir el modelo de regresión lineal completo
como
𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝜖𝑖
90 90
80 80
My grumpiness (0−100)
My grumpiness (0−100)
70 70
60 60
50 50
40 40
5 6 7 8 9 5 6 7 8 9
My sleep (hours) My sleep (hours)
(a) (a)
Figure 12.12: Una representación de los residuales asociados con la línea de regresión de
mejor ajuste (panel a) y los residuales asociados con una línea de regresión pobre (panel
b). Los residuales son mucho más pequeños para la línea de regresión buena. Una vez
más, esto no es una sorpresa dado que la línea buena es la que pasa por la mitad de los
datos.
12.5. REGRESIÓN LINEAL MÚLTIPLE 321
lea esto sea un verdadero maestro de kung fu de álgebra lineal (y para ser justos, siempre tengo algunas
de estas personas en mi clase de introducción a la estadística), te ayudará saber que la solución al
′ ′
problema de estimación resulta ser 𝑏̂ = (𝑋 𝑋)−1 𝑋 𝑦, donde 𝑏̂ es un vector que contiene los coeficientes
de regresión estimados, 𝑋 es la “matriz de diseño” que contiene las variables predictoras (más una
columna adicional que contiene todos unos; estrictamente 𝑋 es una matriz de los regresores, pero aún
no he discutido la distinción), e y es una vector que contiene la variable de resultado. Para todos los
demás, esto no es exactamente útil y puede ser francamente aterrador. Sin embargo, dado que bastantes
cosas en la regresión lineal se pueden escribir en términos de álgebra lineal, verás un montón de notas
al pie como esta en este capítulo. Si puedes seguir las matemáticas en ellas, genial. Si no, ignóralas.
322 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
Figure 12.13: una captura de pantalla de jamovi que muestra un análisis de regresión
lineal simple
𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖1 + 𝑏2 𝑋𝑖2 + 𝜖𝑖
(a)
(b)
de explicar por qué estoy tan malhumorado, entonces mueve baby.sleep al cuadro ‘Co-
variables’ junto a dani.sleep. Por defecto, jamovi asume que el modelo debe incluir una
intersección. Los coeficientes que obtenemos esta vez se muestran en Table 12.4.
El coeficiente asociado con dani.sleep es bastante grande, lo que sugiere que cada hora
de sueño que pierdo me vuelve mucho más gruñona. Sin embargo, el coeficiente de sueño
del bebé es muy pequeño, lo que sugiere que en realidad no importa cuánto duerma mi
hijo. Lo que importa en cuanto a mi mal humor es cuánto duermo. Para tener una idea
de cómo es este modelo de regresión múltiple, Figure 12.14 muestra un gráfico 3D que
representa las tres variables, junto con el propio modelo de regresión.
[Detalle técnico adicional7 ]
12.6.1 El valor de 𝑅2
Una vez más, pongamos un poco de matemática alrededor de esto. En primer lugar,
tenemos la suma de los residuales al cuadrado
que esperamos que sea bastante pequeña. Específicamente, lo que nos gustaría es que
sea muy pequeña en comparación con la variabilidad total en la variable de resultado.
7 la fórmula general: la ecuación que di en el texto principal muestra cómo es un modelo de regresión
múltiple cuando incluye dos predictores. Entonces, no es sorprendente que si deseas más de dos predic-
tores, todo lo que tienes que hacer es agregar más términos X y más coeficientes b. En otras palabras,
si tienes K variables predictoras en el modelo, la ecuación de regresión se verá así
𝐾
𝑌𝑖 = 𝑏0 + (∑ 𝑏𝑘 𝑋𝑖𝑘 ) + 𝜖𝑖
𝑘=1
324 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
90
80
dan.grum
70
60
p
50
12
10 5
8 6
ba
7
by
6 p
.
ee
sle
8 . s l
ep
4 n
da
9
Figure 12.14: una visualización en 3D de un modelo de regresión múltiple. Hay dos
predictores en el modelo, dani.sleep y baby.sleep y la variable de resultado es dani.grump.
Juntas, estas tres variables forman un espacio 3D. Cada observación (punto) es un punto
en este espacio. De la misma manera que un modelo de regresión lineal simple forma
una línea en el espacio 2D, este modelo de regresión múltiple forma un plano en el
espacio 3D. Cuando estimamos los coeficientes de regresión, lo que intentamos hacer es
encontrar un plano que esté lo más cerca posible de todos los puntos azules.
12.6. CUANTIFICANDO EL AJUSTE DEL MODELO DE REGRESIÓN 325
𝑆𝑆𝑡𝑜𝑡 = ∑(𝑌𝑖 − 𝑌 ̄ )2
𝑖
Ya que estamos aquí, calculemos estos valores nosotras mismas, aunque no a mano.
Usemos algo como Excel u otro programa de hoja de cálculo estándar. Hice esto abriendo
el archivo parenthood.csv en Excel y guardándolo como parenthood rsquared.xls para
poder trabajar en él. Lo primero que debes hacer es calcular los valores de 𝑌 ̂ , y para el
modelo simple que usa solo un único predictor, haríamos lo siguiente:
1. crea una nueva columna llamada ‘Y.pred’ usando la fórmula ‘= 125.97 + (-8.94
× dani.sleep)’
2. calcula el SS(resid) creando una nueva columna llamada ‘(YY.pred)^2’ utilizando
la fórmula ’ = (dani.grump - Y.pred)^2 ’.
3. Luego, en la parte inferior de esta columna, calcula la suma de estos valores, es
decir, ’ sum( ( YY.pred)^2 ) .
4. En la parte inferior de la columna dani.grump, calcula el valor medio para
dani.grump (NB Excel usa la palabra ‘PROMEDIO’ en lugar de ‘promedio’ en su
función).
5. Luego crea una nueva columna, llamada ’ (Y - mean(Y))^2 )’ usando la fórmula ’
= (dani.grump - AVERAGE(dani.grump))^2 ’.
6. Luego, en la parte inferior de esta columna, calcula la suma de estos valores, es
decir, ‘sum( (Y - mean(Y))^2 )’.
7. Calcula R.squared escribiendo en una celda en blanco lo siguiente: ‘= 1 - (SS(resid)
/ SS(tot) )’.
Esto da un valor para 𝑅2 de ‘0.8161018’. El valor 𝑅2 , a veces llamado coeficiente de
determinación8 tiene una interpretación simple: es la proporción de la varianza en la
variable de resultado que puede ser explicada por el predictor. Entonces, en este caso, el
hecho de que hayamos obtenido 𝑅2 = .816 significa que el predictor (my.sleep) explica
81.6% de la varianza del resultado (my.grump).
Naturalmente, no necesitas escribir todos estos comandos en Excel tú misma si deseas
obtener el valor de 𝑅2 para tu modelo de regresión. Como veremos más adelante en la
sección sobre [Ejecutar las pruebas de hipótesis en jamovi], todo lo que necesitas hacer
es especificar esto como una opción en jamovi. Sin embargo, dejemos eso a un lado por
el momento. Hay otra propiedad de 𝑅2 que quiero señalar.
“R-cuadrado”.
326 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
Para un modelo de regresión con 𝐾 predictores, ajustado a un conjunto de datos que contiene 𝑁
observaciones, el 𝑅2 ajustado es:
𝑆𝑆𝑟𝑒𝑠 𝑁 −1
adj.𝑅2 = 1 − ( × )
𝑆𝑆𝑡𝑜𝑡 𝑁𝐾 − 1
12.7. PRUEBAS DE HIPÓTESIS PARA MODELOS DE REGRESIÓN 327
¿Cómo podemos contrastar estas dos hipótesis? El truco es entender que es posible dividir la varianza
total 𝑆𝑆𝑡𝑜𝑡 en la suma de la varianza residual SCres y la varianza del modelo de regresión SCmod. Me
saltaré los tecnicismos, ya que llegaremos a eso más adelante cuando veamos ANOVA en Chapter 13.
Pero ten en cuenta que 𝑆𝑆𝑚𝑜𝑑 = 𝑆𝑆𝑡𝑜𝑡 − 𝑆𝑆𝑟𝑒𝑠 Y podemos convertir las sumas de cuadrados en medias
cuadráticas dividiendo por los grados de libertad.
𝑆𝑆𝑚𝑜𝑑
𝑀𝑆𝑚𝑜𝑑 =
𝑑𝑓𝑚𝑜𝑑
𝑆𝑆𝑟𝑒𝑠
𝑀𝑆𝑟𝑒𝑠 =
𝑑𝑓𝑟𝑒𝑠
Entonces, ¿cuántos grados de libertad tenemos? Como es de esperar, el gl asociado con el modelo está
estrechamente relacionado con la cantidad de predictores que hemos incluido. De hecho, resulta que
𝑑𝑓𝑚 𝑜𝑑 = 𝐾. Para los residuales, los grados de libertad totales son 𝑑𝑓𝑟 𝑒𝑠 = 𝑁 − 𝐾 − 1. Ahora que
tenemos nuestras medias cuadráticas, podemos calcular un estadístico F como este
𝑀𝑆𝑚𝑜𝑑
𝐹 =
𝑀𝑆𝑟𝑒𝑠
𝐻0 ∶ 𝑏 = 0
𝐻1 ∶ 𝑏 ≠ 0
¿Cómo podemos probar esto? Bueno, si el teorema central del límite es bueno con
nosotros, podríamos suponer que la distribución muestral de 𝑏,̂ el coeficiente de regresión
estimado, es una distribución normal con la media centrada en 𝑏. Lo que eso significaría
es que si la hipótesis nula fuera cierta, entonces la distribución muestral de 𝑏̂ tiene una
media cero y una desviación estándar desconocida. Suponiendo que podemos llegar a
una buena estimación del error estándar del coeficiente de regresión, 𝑠𝑒(𝑏), ̂ entonces
tenemos suerte. Esa es exactamente la situación para la que introdujimos la prueba t
de una muestra en Chapter 11. Así que definamos un estadístico t como este
𝑏̂
𝑡=
𝑆𝐸(𝑏)̂
Pasaré por alto las razones, pero nuestros grados de libertad en este caso son 𝑑𝑓 =
𝑁 − 𝐾 − 1. De manera irritante, la estimación del error estándar del coeficiente de
̂ no es tan fácil de calcular como el error estándar de la media que
regresión, 𝑠𝑒(𝑏),
usamos para las pruebas t más sencillas en Chapter 11. De hecho, la fórmula es algo
fea y no muy útil de ver.11 Para nuestros propósitos, es suficiente señalar que el error
estándar del coeficiente de regresión estimado depende de las variables predictoras y de
resultado, y es algo sensible a las violaciones del supuesto de homogeneidad de varianzas
(discutido en breve).
En cualquier caso, este estadístico t se puede interpretar de la misma manera que los
estadísticos t que analizamos en Chapter 11. Suponiendo que tienes una alternativa de
dos colas (es decir, no te importa si b > 0 o b < 0), entonces son los valores extremos
de t (es decir, mucho menos que cero o mucho mayor que cero) que sugieren que debes
rechazar la hipótesis nula.
Figure 12.15: una captura de pantalla de jamovi que muestra un análisis de regresión
lineal múltiple, con algunas opciones útiles marcadas
95% alrededor de la estimación b (más sobre esto más adelante). La quinta columna te
̂
da el estadístico t, y vale la pena notar que en esta tabla 𝑡 = 𝑠𝑒(𝑏𝑏)̂ cada vez. Finalmente,
la última columna te muestra el valor p real para cada una de estas pruebas.12
Lo único que la tabla de coeficientes en sí no incluye son los grados de libertad utilizados
en la prueba t, que siempre es 𝑁 − 𝐾 − 1 y se enumeran en la parte superior de la
tabla, etiquetada como ‘Medidas de ajuste del modelo’. Podemos ver en esta tabla que
el modelo funciona significativamente mejor de lo que cabría esperar por casualidad
(𝐹 (2, 97) = 215.24, 𝑝 < .001), lo cual no es tan sorprendente: el valor 𝑅2 = .81 indica
que el modelo de regresión representa 81% de la variabilidad en la medida de resultado
(y 82% para el 𝑅2 ajustado). Sin embargo, cuando volvemos a mirar las pruebas t para
cada uno de los coeficientes individuales, tenemos pruebas bastante sólidas de que la
variable sueño del bebé no tiene un efecto significativo. Todo el trabajo en este modelo
lo realiza la variable dani.sleep. En conjunto, estos resultados sugieren que este modelo
de regresión es en realidad el modelo incorrecto para los datos. Probablemente sea mejor
que deje por completo el predictor del sueño del bebé. En otras palabras, el modelo de
regresión simple con el que comenzamos es el mejor modelo.
12 ten en cuenta que, aunque jamovi ha realizado varias pruebas aquí, no ha realizado una corrección
de Bonferroni ni nada (consulta Chapter 13). Estas son pruebas t estándar de una muestra con una
alternativa bilateral. Si quieres realizar correcciones para varias pruebas, debes hacerlo tú misma.
330 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
La idea básica es bastante simple; los coeficientes estandarizados son los coeficientes
que habrías obtenido si hubieras convertido todas las variables a puntuaciones z antes
13 Afortunadamente, los intervalos de confianza para los pesos de regresión se pueden construir de la
forma habitual 𝐶𝐼(𝑏) = 𝑏̂ ± (𝑡𝑐𝑟𝑖𝑡 × 𝑆𝐸(𝑏)) ̂ donde 𝑠𝑒(𝑏)̂ es el error estándar del coeficiente de regresión
y t_crit es el valor crítico relevante de la distribución t apropiada. Por ejemplo, si lo que queremos es
un intervalo de confianza del 95 %, entonces el valor crítico es el cuantil 97, 5 de la distribución at con
𝑁 − 𝐾 − 1 grados de libertad. En otras palabras, este es básicamente el mismo enfoque para calcular
los intervalos de confianza que hemos usado en todo momento.
12.8. SOBRE LOS COEFICIENTES DE REGRESIÓN 331
Figure 12.16: Coeficientes estandarizados, con intervalos de confianza del 95%, para
regresión lineal múltiple
14 Estrictamente, estandarizas todos los regresores. Es decir, cada “cosa” que tiene asociado un
coeficiente de regresión en el modelo. Para los modelos de regresión de los que he hablado hasta ahora,
cada variable predictora se asigna exactamente a un regresor y viceversa. Sin embargo, eso no es
cierto en general y veremos algunos ejemplos de esto más adelante en Chapter 14. Pero, por ahora, no
necesitamos preocuparnos demasiado por esta distinción.
15 Dejando de lado los problemas de interpretación, veamos cómo se calcula. Lo que podrías hacer es
estandarizar todas las variables tú misma y luego ejecutar una regresión, pero hay una forma mucho
más sencilla de hacerlo. Resulta que el coeficiente 𝛽 para un predictor 𝑋 y un resultado 𝑌 tiene una
fórmula muy simple, a saber, 𝛽𝑋 = 𝑏𝑋 × 𝜎𝜎𝑋 donde 𝑠𝑖𝑔𝑚𝑎𝑋 es la desviación estándar del predictor, y
𝑌
�Y es la desviación estándar de la variable de resultado Y. Esto simplifica mucho las cosas.
332 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
Estos resultados muestran claramente que la variable dani.sleep tiene un efecto mucho
más fuerte que la variable baby.sleep. Sin embargo, este es un ejemplo perfecto de una
situación en la que probablemente tendría sentido utilizar los coeficientes b originales
en lugar de los coeficientes estandarizados 𝛽. Después de todo, mi sueño y el sueño del
bebé ya están en la misma escala: número de horas dormidas. ¿Por qué complicar las
cosas al convertirlos en puntuaciones z?
técnico del modelo (o más bien, está implícito en todos los demás), pero hay un
supuesto implícito de que tu modelo de regresión no está muy influenciado por
uno o dos puntos de datos anómalos porque esto plantea dudas sobre la idoneidad
del modelo y la fiabilidad de los datos en algunos casos. Consulta la sección sobre
Datos atípicos y anómalos.
𝜖𝑖 = 𝑌𝑖 − 𝑌𝑖̂
Por supuesto, esto es lo que vimos antes y, a menos que me refiera específicamente a
algún otro tipo de residual, este es del que estoy hablando. Así que no hay nada nuevo
334 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
aquí. Solo quería repetirme. Una desventaja de usar residuales ordinarios es que siem-
pre están en una escala diferente, dependiendo de cuál sea la variable de resultado y qué
tan bueno sea el modelo de regresión. Es decir, a menos que hayas decidido ejecutar
un modelo de regresión sin un término de intersección, los residuales ordinarios tendrán
media 0 pero la varianza es diferente para cada regresión. En muchos contextos, espe-
cialmente donde solo estás interesada en el patrón de los residuales y no en sus valores
reales, es conveniente estimar los residuales estandarizados, que se normalizan de
tal manera que tienen una desviación estándar de 1.
[Detalle técnico adicional16 ]
El tercer tipo de residuales son los residuales estudentizados (también llamados
“residuales jackknifed”) y son incluso más sofisticados que los residuales estandarizados.
Nuevamente, la idea es coger el residuo ordinario y dividirlo por alguna cantidad para
estimar alguna noción estandarizada del residual. 17
Antes de continuar, debo señalar que a menudo no es necesario obtener estos residuales
por ti misma, a pesar de que son la base de casi todos los diagnósticos de regresión.
La mayoría de las veces, las diversas opciones que proporcionan los diagnósticos, o las
comprobaciones de supuestos, se encargarán de estos cálculos por ti. Aun así, siempre
es bueno saber cómo obtener estas cosas tú misma en caso de que alguna vez necesites
hacer algo no estándar.
estándar (poblacional) de estos residuales. Por razones técnicas, la fórmula para esto es
′ 𝜖𝑖
𝜖𝑖 =
𝜎√1
̂ − ℎ𝑖
donde 𝜎̂ en este contexto es la desviación estándar de la población estimada de los residuales ordinarios,
y ℎ𝑖 es el “valor sombrero” de la 𝑖ésima observación. Todavía no te he explicado los valores sombrero,
así que esto no tendrá mucho sentido. Por ahora, basta con interpretar los residuales estandarizados
como si hubiéramos convertido los residuales ordinarios en puntuaciones z.
17 La fórmula para hacer los cálculos esta vez es sutilmente diferente 𝜖∗ = 𝜖𝑖
𝑖 𝜎̂ √1−ℎ
Fíjate que
(−𝑖) 𝑖
nuestra estimación de la desviación estándar aquí se escribe 𝜎̂ (−𝑖) . Esto corresponde a la estimación
de la desviación estándar residual que habría obtenido si hubiera eliminado la i-ésima observación del
conjunto de datos. Esto parece una pesadilla de calcular, ya que parece estar diciendo que tienes que
ejecutar N nuevos modelos de regresión (incluso un ordenador moderno podría quejarse un poco de
eso, especialmente si tienes un gran conjunto de datos). Afortunadamente, esta desviación estándar
′2
estimada en realidad viene dada por la siguiente ecuación: 𝜎̂ (−𝑖) = 𝜎̂ √
𝑁𝐾−1−𝜖𝑖
𝑁𝐾−2
12.10. COMPROBACIÓN DEL MODELO 335
Figure 12.17: diagrama jamovi de los valores pronosticados contra los valores observados
de la variable de resultado. Una línea recta (-ish) es lo que esperamos ver aquí. Esto se
ve bastante bien, lo que sugiere que no hay nada muy mal.
336 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
observar la relación entre los valores pronosticados y los residuales mismos. Nuevamente,
en jamovi puedes guardar los residuales en el conjunto de datos y luego dibujar un
diagrama de dispersión de los valores pronosticados contra los valores residuales, como en
Figure 12.18. Como puedes ver, no solo dibuja el diagrama de dispersión que muestra el
valor pronosticado contra los residuales, sino que también puede trazar una línea a través
de los datos que muestra la relación entre los dos. Idealmente, debería ser una línea
recta y perfectamente horizontal. En la práctica, buscamos una línea razonablemente
recta o plana. Es una cuestión de criterio.
Figure 12.18: diagrama jamovi de los valores pronosticados contra los residuales, con
una línea que muestra la relación entre los dos. Si esto es horizontal y recto (-ish),
entonces podemos sentirnos razonablemente seguros de que el “residual promedio” para
todos los “valores pronosticados” es más o menos el mismo.
Se producen versiones algo más avanzadas del mismo gráfico al marcar ‘Gráficos de
residuales’ en las opciones de análisis de regresión ‘Comprobaciones de supuestos’ en
jamovi. Estos son útiles no solo para verificar la linealidad, sino también para verificar
la normalidad y el supuesto de homogeneidad de varianzas, y los analizamos con más
detalle en Section 12.10.3. Esta opción no solo dibuja gráficos que comparan los valores
pronosticados con los residuales, sino que también lo hace para cada predictor individual.
12.10. COMPROBACIÓN DEL MODELO 337
Figure 12.19: Gráfico de los cuantiles teóricos según el modelo, contra los cuantiles de
los residuos estandarizados, producidos en jamovi
Otra cosa que debemos verificar es la relación entre los valores predichos (ajustados)
y los residuales mismos. Podemos hacer que jamovi haga esto usando la opción ‘Grá-
ficos de residuales’, que proporciona un gráfico de dispersión para cada variable pre-
dictora, la variable de resultado y los valores pronosticados contra los residuales, ver
Figure 12.20. En estas parcelas buscamos una distribución bastante uniforme de ‘pun-
tos’, sin agrupamientos ni patrones claros de los ‘puntos’. Mirando estos gráficos, no
hay nada particularmente preocupante ya que los puntos están distribuidos de manera
338 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
centro de la gráfica.20
Figure 12.21: diagrama jamovi de los valores predichos (predicciones del modelo) frente
a la raíz cuadrada de los residuales estandarizados absolutos. Este gráfico se utiliza para
diagnosticar violaciones de la homogeneidad de varianzas. Si la varianza es realmente
constante, entonces la línea que pasa por el medio debe ser horizontal y plana (más o
menos).
la homogeneidad de varianzas, pero te daré una idea rápida de lo que debes tener en cuenta. Lo
principal de lo que preocuparse, si se viola la homogeneidad de varianzas, es que las estimaciones
del error estándar asociadas con los coeficientes de regresión ya no son completamente fiables, por lo
que tus pruebas de 𝑡 para los coeficientes no son del todo correctas. Una solución simple al problema
es hacer uso de una “matriz de covarianza corregida por heteroscedasticidad” al estimar los errores
estándar. Estos a menudo se denominan estimadores sándwich, y se pueden estimar en R (pero no
directamente en jamovi).
340 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
Outlier
Outcome
Predictor
Figure 12.24: Una ilustración de valores atípicos. La línea continua muestra la línea de
regresión con la observación de valores atípicos anómalos incluida. La línea discontinua
traza la línea de regresión estimada sin incluir la observación anómala de valores atípicos.
La línea vertical desde el punto del valor atípico hasta la línea de regresión discontinua
ilustra el gran error residual del valor atípico. El valor atípico tiene un valor inusual
en el resultado (ubicación del eje y) pero no en el predictor (ubicación del eje x), y se
encuentra muy lejos de la línea de regresión
12.10. COMPROBACIÓN DEL MODELO 343
de hasta qué punto la i-ésima observación “controla” hacia dónde se dirige la línea de
regresión.
High leverage
Outcome
Predictor
que convierte el vector de valores observados 𝑦 en un vector de valores predichos 𝑦,̂ tal que 𝑦̂ = 𝐻𝑦. El
nombre proviene del hecho de que esta es la matriz que “le pone un sombrero a y”. El valor sombrero
de la i-ésima observación es el i-ésimo elemento diagonal de esta matriz (así que técnicamente deberías
′ ′
escribirlo como ℎ𝑖𝑖 en lugar de ℎ𝑖 ). Y así es como se calcula: 𝐻 = 𝑋(𝑋 𝑋)1 𝑋 .
344 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
y ten en cuenta que la suma de los valores sombrero está limitada a ser igual a 𝐾 + 1).
También vale la pena analizar con más detalle los puntos de alto apalancamiento, pero
es mucho menos probable que sean motivo de preocupación a menos que también sean
valores atípicos.
Esto nos lleva a nuestra tercera medida de inusualidad, la influencia de una observación.
Una observación de alta influencia es un valor atípico que tiene un alto apalancamiento.
Es decir, es una observación que es muy diferente a todas las demás en algún aspecto, y
también se encuentra muy lejos de la línea de regresión. Esto se ilustra en Figure 12.26.
Nota el contraste con las dos figuras anteriores. Los valores atípicos no mueven mucho
la línea de regresión y tampoco los puntos de alto apalancamiento. Pero algo que es
un valor atípico y tiene un alto apalancamiento, bueno, eso tiene un gran efecto en la
línea de regresión. Por eso llamamos a estos puntos de alta influencia, y es por eso que
son la mayor preocupación. Operacionalizamos la influencia en términos de una medida
conocida como distancia de Cook. 23
Para tener una distancia de Cook grande, una observación debe ser un valor atípico
bastante sustancial y tener un alto apalancamiento. Como guía aproximada, la distancia
de Cook superior a 1 a menudo se considera grande (eso es lo que normalmente uso como
una regla rápida).
Puedes ver que, en este ejemplo, el valor medio de la distancia de Cook es $ 0.01 $, y el
rango es de $ 0.00 $ a $ 0.11 $, por lo que esto se aleja de la regla general mencionada
anteriormente de que una distancia de Cook mayor que 1 se considera grande.
Una pregunta obvia para hacer a continuación es, si tienes valores grandes de distancia
de Cook, ¿qué debes hacer? Como siempre, no hay una regla estricta y rápida. Prob-
ablemente, lo primero que debes hacer es intentar ejecutar la regresión con el valor
atípico con la mayor distancia de Cook24 excluido y ver qué sucede con el rendimiento
del modelo y con los coeficientes de regresión. Si realmente son sustancialmente difer-
entes, es hora de comenzar a profundizar en tu conjunto de datos y las notas que sin
duda escribías mientras realizabas tu estudio. Trata de averiguar por qué el dato es
tan diferente. Si estás convencida de que este punto de datos está distorsionando grave-
mente sus resultados, entonces podrías considerar excluirlo, pero eso no es ideal a menos
que tengas una explicación sólida de por qué este caso en particular es cualitativamente
diferente de los demás y, por lo tanto, merece ser manejado por separado.
2
23 𝐷 𝜖∗
𝑖 ℎ𝑖
𝑖 = 𝐾+1 × 1−ℎ Observa que esto es una multiplicación de algo que mide el valor atípico de la
𝑖
observación (la parte de la izquierda) y algo que mide el apalancamiento de la observación (la parte de
la derecha).
24 en jamovi, puedes guardar los valores de distancia de Cook en el conjunto de datos y luego dibujar
un diagrama de caja de los valores de distancia de Cook para identificar los valores atípicos específicos.
O podrías usar un programa de regresión más poderoso, como el paquete ‘car’ en R, que tiene más
opciones para el análisis de diagnóstico de regresión avanzado.
12.10. COMPROBACIÓN DEL MODELO 345
Outcome
High influence
Predictor
Figure 12.26: Una ilustración de puntos de alta influencia. En este caso, la observación
anómala es muy inusual en la variable predictora (eje x) y se aleja mucho de la línea de
regresión. Como consecuencia, la línea de regresión está muy distorsionada, aunque (en
este caso) la observación anómala es completamente típica en términos de la variable
de resultado (eje y)
346 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
Figure 12.27: salida de jamovi que muestra la tabla de estadísticos de distancia de Cook
irrelevantes solo para aumentar tu R2. Mmm. Sí, el original era mejor.
Cuanto menor sea el valor de AIC, mejor será el rendimiento del modelo. Si ignoramos
los detalles de bajo nivel, es bastante obvio lo que hace el AIC. A la izquierda tenemos un
término que aumenta a medida que empeoran las predicciones del modelo; a la derecha
tenemos un término que aumenta a medida que aumenta la complejidad del modelo.
El mejor modelo es el que se ajusta bien a los datos (residuales bajos, lado izquierdo)
usando la menor cantidad de predictores posible (K bajo, lado derecho). En resumen,
esta es una implementación simple de la navaja de Ockham.
AIC se puede agregar a la tabla de resultados ‘Model Fit Measures’ cuando se hace clic en
la casilla de verificación ‘AIC’, y una forma bastante torpe de evaluar diferentes modelos
es ver si el valor ‘AIC’ es más bajo si eliminas uno o más de los predictores en el modelo
de regresión. Esta es la única forma implementada actualmente en jamovi, pero existen
alternativas en otros programas más potentes, como R. Estos métodos alternativos
pueden automatizar el proceso de eliminar (o agregar) variables predictoras de forma
selectiva para encontrar el mejor AIC. Aunque estos métodos no están implementados
en jamovi, los mencionaré brevemente a continuación para que los conozcas.
Aunque la selección hacia atrás y hacia adelante pueden llevar a la misma conclusión,
no siempre es así.
25 en el contexto de un modelo de regresión lineal (¡e ignorando los términos que no dependen del
modelo de ninguna manera!), el AIC para un modelo que tiene un predictor con K variables más una
intersección es 𝐴𝐼𝐶 = 𝑆𝑆𝜎𝑟𝑒𝑠
̂2
+ 2𝐾
348 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
esta situación, lo que nos gustaría saber es si dani.grump ~ dani.sleep + day + baby
.sleep (que llamaré Modelo 2 o M2) es un mejor modelo de regresión para estos datos
que dani.grump ~ dani.sleep + day (que llamaré Modelo 1 o M1). Hay dos formas
diferentes en que podemos comparar estos dos modelos, una basada en un criterio de
selección de modelo como AIC, y la otra basada en una prueba de hipótesis explícita.
Primero te mostraré el enfoque basado en AIC porque es más simple y se deriva natu-
ralmente de la discusión en la última sección. Lo primero que debo hacer es ejecutar las
dos regresiones, anotar el AIC para cada una y luego seleccionar el modelo con el valor
de AIC más pequeño, ya que se considera que es el mejor modelo para estos datos. De
hecho, no lo hagas todavía. Sigue leyendo porque en jamovi hay una manera fácil de
obtener los valores de AIC para diferentes modelos incluidos en una tabla.26
Un enfoque algo diferente del problema surge del marco de prueba de hipótesis. Supón
que tienes dos modelos de regresión, donde uno de ellos (Modelo 1) contiene un sub-
conjunto de los predictores del otro (Modelo 2). Es decir, el Modelo 2 contiene todos
los predictores incluidos en el Modelo 1, además de uno o más predictores adicionales.
Cuando esto sucede, decimos que el Modelo 1 está anidado dentro del Modelo 2, o
posiblemente que el Modelo 1 es un submodelo del Modelo 2. Independientemente de
la terminología, lo que esto significa es que podemos pensar en el Modelo 1 como una
hipótesis nula y el Modelo 2 como una hipótesis alternativa. Y, de hecho, podemos
construir una prueba F para esto de una manera bastante sencilla. 27
Bien, esa es la prueba de hipótesis que usamos para comparar dos modelos de regresión
entre sí. Ahora bien, ¿cómo lo hacemos en jamovi? La respuesta es usar la opción
26 Mientras estoy en este tema, debo señalar que la evidencia empírica sugiere que BIC es un mejor
criterio que AIC. En la mayoría de los estudios de simulación que he visto, BIC trabaja mucho mejor
al seleccionar el modelo correcto.
27 podemos ajustar ambos modelos a los datos y obtener una suma de cuadrados residual para ambos
(1) (2)
modelos. Los denotaré como 𝑆𝑆𝑟𝑒𝑠 y 𝑆𝑆𝑟𝑒𝑠 respectivamente. El superíndice aquí solo indica de qué
modelo estamos hablando. Entonces nuestro estadístico F es
(1) (2)
𝑆𝑆𝑟𝑒𝑠 −𝑆𝑆𝑟𝑒𝑠
𝐹 = 𝑘
2
𝑆𝑆𝑟𝑒𝑠
𝑁𝑝−1
La razón por la que esto es útil es que podemos expresar 𝑆𝑆Δ como una medida de hasta qué punto
los dos modelos hacen diferentes predicciones sobre la variable de resultado. Específicamente,
(2) (1)
𝑆𝑆Δ = ∑ (𝑦𝑖̂ − 𝑦𝑖̂ )2
𝑖
donde 𝑦𝑖̂ (1) es el valor previsto para 𝑦𝑖 según el modelo 𝑀1 y 𝑦𝑖̂ (2) es el valor previsto para $y_i $
según modelo 𝑀2 . — 𝑑 Vale la pena señalar de paso que este mismo estadístico F se puede usar para
probar una gama mucho más amplia de hipótesis que las que estoy mencionando aquí. Muy brevemente,
observa que el modelo anidado M1 corresponde al modelo completo M2 cuando restringimos algunos
de los coeficientes de regresión a cero. A veces es útil construir submodelos colocando otros tipos de
restricciones en los coeficientes de regresión. Por ejemplo, quizás dos coeficientes diferentes tengan
que sumar cero. También puedes construir pruebas de hipótesis para ese tipo de restricciones, pero es
un poco más complicado y la distribución muestral de F puede terminar siendo algo conocido como
distribución F no central, que está mucho más allá del alcance de este libro. Todo lo que quiero hacer
es alertarte de esta posibilidad.
350 CHAPTER 12. CORRELACIÓN Y REGRESIÓN LINEAL
‘Model Builder’ y especificar los predictores del Modelo 1 dani.sleep y day en el ‘Bloque
1’ y luego agregar el predictor adicional del Modelo 2 (baby.sleep) en el ‘Bloque 2’, como
en Figure 12.27. Esto muestra, en la tabla de ‘Comparaciones de modelos’, que para
las comparaciones entre el Modelo 1 y el Modelo 2, 𝐹 (1, 96) = 0.00, 𝑝 = 0.954. Como
tenemos p > .05 mantenemos la hipótesis nula (M1). Este enfoque de regresión, en
el que agregamos todas nuestras covariables en un modelo nulo, luego agregamos las
variables de interés en un modelo alternativo y luego comparamos los dos modelos en
un marco de prueba de hipótesis, a menudo se denomina regresión jerárquica .
También podemos usar esta opción de ‘Comparación de modelos’ para construir una
tabla que muestra el AIC y BIC para cada modelo, lo que facilita la comparación e
identificación de qué modelo tiene el valor más bajo, como en Figure 12.28.
12.12 Resumen
• ¿Quieres saber qué tan fuerte es la relación entre dos variables? Calcular correla-
ciones
• Dibujo [diagramas de dispersión]
• Ideas básicas sobre ¿Qué es un modelo de regresión lineal? y Estimación de un
modelo de regresión lineal
• Regresión lineal múltiple
• Cuantificando el ajuste del modelo de regresión usando 𝑅2 .
• Pruebas de hipótesis para modelos de regresión
• En Sobre los coeficientes de regresión hablamos sobre calcular Intervalos de confi-
anza para los coeficientes y Cálculo de coeficientes de regresión estandarizados
• Los Supuestos de regresión y Comprobación del modelo (#sec-Model-checking)
12.12. RESUMEN 351
Este capítulo presenta una de las herramientas más utilizadas en estadística psicológica,
conocida como “análisis de la varianza”, pero generalmente denominada ANOVA. La
técnica básica fue desarrollada por Sir Ronald Fisher a principios del siglo XX y es a
él a quien le debemos la terminología bastante desafortunada. El término ANOVA es
un poco engañoso, en dos aspectos. En primer lugar, aunque el nombre de la técnica
se refiere a las varianzas, ANOVA se ocupa de investigar las diferencias en las medias.
En segundo lugar, hay diferentes cosas que se conocen como ANOVA, algunas de las
cuales tienen poca relación. Más adelante en el libro, encontraremos diferentes métodos
ANOVA que se aplican en situaciones bastante diferentes, pero para los propósitos de
este capítulo solo consideraremos la forma más simple de ANOVA, en la que tenemos
varios grupos diferentes de observaciones, y nos interesa averiguar si esos grupos difieren
en términos de alguna variable de resultado de interés. Esta es la pregunta que se aborda
mediante un ANOVA unifactorial.
La estructura de este capítulo es la siguiente: primero presentaré un conjunto de datos
ficticios que usaremos como ejemplo a lo largo del capítulo. Después de presentar los
datos, describiré la mecánica de cómo funciona realmente un ANOVA unifactorial Cómo
funciona ANOVA y luego me centraré en cómo puedes ejecutar uno en jamovi [Ejecutar
un ANOVA en jamovi]. Estas dos secciones son el núcleo del capítulo.
El resto del capítulo analiza algunos temas importantes que inevitablemente surgen
cuando se ejecuta un ANOVA, a saber, cómo calcular los tamaños del efecto, las pruebas
post hoc y las correcciones para comparaciones múltiples y los supuestos en las que se
basa el ANOVA. También hablaremos sobre cómo verificar esos supuestos y algunas de
las cosas que puedes hacer si se violan los supuestos. Luego hablaremos de ANOVA de
medidas repetidas.
353
354CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
Para los objetivos de este capítulo, lo que realmente nos interesa es el efecto de los fárma-
cos sobre el estado de ánimo. Lo primero que debes hacer es calcular algunos estadísticos
descriptivos y dibujar algunos gráficos. En el capítulo Chapter 4 te mostramos cómo
hacer esto, y algunos de los estadísticos descriptivos que podemos calcular en jamovi se
muestran en Figure 13.1
Como el gráfico muestra, hay una mayor mejora en el estado de ánimo de los partici-
pantes en el grupo de Joyzepam que en el grupo de Anxifree o en el grupo de placebo. El
grupo Anxifree muestra una mayor mejora del estado de ánimo que el grupo de control,
pero la diferencia no es tan grande. La pregunta que queremos responder es si estas
diferencias son “reales” o solo se deben al azar.
13.2. CÓMO FUNCIONA ANOVA 355
𝐻0 ∶ es cierto que 𝜇𝑃 = 𝜇𝐴 = 𝜇𝐽
Como consecuencia, nuestra hipótesis alternativa es que al menos uno de los tres
tratamientos es diferente de los demás. Es un poco complicado escribir esto matemática-
mente, porque (como veremos) hay bastantes maneras diferentes en las que la hipótesis
nula puede ser falsa. Así que por ahora escribiremos la hipótesis alternativa así:
Esta hipótesis nula es mucho más difícil de probar que cualquiera de las que hemos
visto anteriormente. ¿Cómo lo haremos? Una forma sensata sería “hacer un ANOVA”,
ya que ese es el título del capítulo, pero no está particularmente claro por qué un
“análisis de varianzas” nos ayudará a aprender algo útil sobre las medias. De hecho,
esta es una de las mayores dificultades conceptuales que tienen las personas cuando se
encuentran por primera vez con ANOVA. Para ver cómo funciona, me parece más útil
comenzar hablando de variancias, específicamente variabilidad entregrupo y variabilidad
intragrupo (Figure 13.2).
está “equilibrado”. El equilibrio no es un gran problema para ANOVA unifactorial, que es el tema de
este capítulo. Es más importante cuando haces ANOVA más complicados.
356CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
(a) (b)
Figure 13.2: Ilustración gráfica de la variación ‘entre grupos’ (panel (a)) y la variación
‘intra grupos’ (panel (b)). A la izquierda, las flechas muestran las diferencias en las
medias de los grupos. A la derecha, las flechas resaltan la variabilidad dentro de cada
grupo.
Esta fórmula parece bastante idéntica a la fórmula para la varianza en Section 4.2. La
única diferencia es que ahora tengo dos sumas aquí: estoy sumando entre grupos (es
decir, valores para 𝑘) y las personas dentro de los grupos (es decir, valores para 𝑖). Esto
es puramente un detalle cosmético. Si, en cambio, hubiera usado la notación 𝑌𝑝 para
referirme al valor de la variable de resultado para la persona p en la muestra, tendría
una sola suma. La única razón por la que tenemos una suma doble aquí es porque
clasifiqué a las personas en grupos y luego asigné números a las personas dentro de los
grupos.
Un ejemplo concreto podría sernos útil. Consideremos Table 13.1, en el que tenemos un
total de 𝑁 = 5 personas clasificadas en 𝐺 = 2 grupos. Arbitrariamente, digamos que las
personas “geniales” son el grupo 1 y las personas “no geniales” son el grupo 2. Resulta
que tenemos tres personas geniales (𝑁1 = 3) y dos personas no geniales (𝑁2 = 2)
13.2. CÓMO FUNCIONA ANOVA 357
(a)
(b)
group index
person num. in grumpiness
name P group k group 𝑌𝑖𝑘 or 𝑌𝑝
Ann 1 cool 1 1 20
Ben 2 cool 1 2 55
Cat 3 cool 1 3 21
Tim 4 uncool 2 1 91
Egg 5 uncool 2 2 22
Ten en cuenta que he construido dos esquemas de etiquetado diferentes aquí. Tenemos
una variable de “persona” p, por lo que sería perfectamente sensato referirse a Yp como
el mal humor de la p-ésima persona en la muestra. Por ejemplo, la tabla muestra que
Tim es el cuarto, entonces diríamos 𝑝 = 4. Así, cuando hablamos del mal humor 𝑌 de
esta persona “Tim”, quienquiera que sea, podríamos referirnos a su mal humor diciendo
que 𝑌𝑝 = 91, para la persona 𝑝 = 4. Sin embargo, esa no es la única forma en que
podemos referirnos a Tim. Como alternativa, podemos señalar que Tim pertenece al
grupo “no geniales” (𝑘 = 2) y, de hecho, es la primera persona que figura en el grupo no
geniales (𝑖 = 1). Así que es igualmente válido referirse al mal humor de Tim diciendo
que 𝑌𝑖𝑘 = 91, donde 𝑘 = 2 y 𝑖 = 1.
En otras palabras, cada persona p corresponde a una única combinación ik, por lo que la
fórmula que di arriba es en realidad idéntica a nuestra fórmula original para la varianza,
que sería
1 𝑁
𝑉 𝑎𝑟(𝑌 ) = ∑(𝑌 − 𝑌 ̄ )2
𝑁 𝑝=1 𝑝
En ambas fórmulas, lo único que hacemos es sumar todas las observaciones de la muestra.
La mayoría de las veces solo usaríamos la notación Yp más simple; la ecuación que usa 𝑌𝑝
es claramente la más simple de las dos. Sin embargo, al hacer un ANOVA es importante
hacer un seguimiento de qué participantes pertenecen a qué grupos, y necesitamos usar
la notación Yik para hacer esto.
varianza
𝐺 𝑁𝑘
𝑆𝑆𝑡𝑜𝑡 = ∑ ∑(𝑌𝑖𝑘 − 𝑌 ̄ )2
𝑘=1 𝑖=1
358CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
donde 𝑌𝑘̄ es la media del grupo. En nuestro ejemplo, 𝑌𝑘̄ sería el cambio de estado de ánimo promedio
experimentado por aquellas personas que recibieron el k-ésimo fármaco. Así, en lugar de comparar
individuos con el promedio de todas las personas en el experimento, solo los estamos comparando con
aquellas personas del mismo grupo. Como consecuencia, esperaríamos que el valor de 𝑆𝑆𝑤 fuera menor
que la suma de cuadrados total, porque ignora por completo las diferencias de grupo, es decir, si los
fármacos tendrán efectos diferentes en el estado de ánimo de las personas.
4 para cuantificar el alcance de esta variación, lo que hacemos es calcular la suma de cuadrados entre
grupos
𝐺 𝑁𝑘
𝑆𝑆𝑏 = ∑ ∑(𝑌𝑘̄ − 𝑌 ̄ )2
𝑘=1 𝑖=1
= 𝑠𝑢𝑚𝐺 ̄ ̄ 2
𝑘=1 𝑁𝑘 (𝑌𝑘 − 𝑌 )
5 SS_w también se conoce en un ANOVA independiente como la varianza del error, o 𝑆𝑆𝑒𝑟𝑟𝑜𝑟
13.2. CÓMO FUNCIONA ANOVA 359
para sospechar que las medias poblacionales para los diferentes grupos no son idénticas
entre sí. Para convertir esto en una prueba de hipótesis viable, se necesita “jugar” un
poco. Lo que haré será mostrarte primero lo que hacemos para calcular nuestra prueba
estadística, la razón de F, y luego trataré de darte una idea de por qué lo hacemos de
esta manera.
Para convertir nuestros valores SC en una razón de F, lo primero que debemos calcular
son los grados de libertad asociados con los valores 𝑆𝑆𝑏 y 𝑆𝑆𝑤 . Como es habitual,
los grados de libertad corresponden al número de “datos” únicos que contribuyen a
un cálculo particular, menos el número de “restricciones” que deben satisfacer. Para
la variabilidad dentro de los grupos, lo que estamos calculando es la variación de las
observaciones individuales (𝑁 datos) alrededor de las medias del grupo (𝐺 restricciones).
Por el contrario, para la variabilidad entre grupos, nos interesa la variación de las medias
de los grupos (datos G) alrededor de la media total (restricción 1). Por lo tanto, los
grados de libertad aquí son:
𝑑𝑓𝑏 = 𝐺 − 1
𝑑𝑓𝑤 = 𝑁 𝐺
Bueno, eso parece bastante simple. Lo que hacemos a continuación es convertir nuestro
valor de sumas de cuadrados en un valor de “medias cuadráticas”, lo que hacemos
dividiendo por los grados de libertad:
𝑆𝑆𝑏
𝑀 𝑆𝑏 =
𝑑𝑓𝑏
𝑆𝑆𝑤
𝑀 𝑆𝑤 =
𝑑𝑓𝑤
𝑀 𝑆𝑏
𝐹 =
𝑀 𝑆𝑤
A un nivel muy general, la explicación del estadístico F es sencilla. Los valores más
grandes de F significan que la variación entre grupos es grande en relación con la
variación dentro de los grupos. Como consecuencia, cuanto mayor sea el valor de F,
más evidencia tendremos en contra de la hipótesis nula. Pero, ¿qué tamaño tiene que
tener 𝐹 para rechazar realmente 𝐻0 ? Para comprender esto, necesitas una compren-
sión un poco más profunda de qué es ANOVA y cuáles son realmente los valores de las
medias cuadráticas.
La siguiente sección trata eso con un poco de detalle, pero para quien no tenga interés
en los detalles de lo que realmente mide la prueba, iré al grano. Para completar nuestra
prueba de hipótesis, necesitamos conocer la distribución muestral de F si la hipótesis
nula es verdadera. No es sorprendente que la distribución muestral para el estadístico
F bajo la hipótesis nula sea una distribución 𝐹 . Si recuerdas nuestra discusión sobre la
distribución F en Chapter 7, la distribución 𝐹 tiene dos parámetros, correspondientes a
360CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
Table 13.2: todas las cantidades clave involucradas en un ANOVA organizadas en una
tabla ANOVA 'estándar'. Se muestran las fórmulas para todas las cantidades (excepto
el valor p que tiene una fórmula muy fea y sería terriblemente difícil de calcular sin una
computadora)
(a)
(b)
los dos grados de libertad involucrados. El primero 𝑑𝑓1 son los grados de libertad entre
grupos 𝑑𝑓𝑏 , y el segundo 𝑑𝑓2 son los grados de libertad intra grupos 𝑑𝑓𝑤 .
En Table 13.2 se muestra un resumen de todas las cantidades clave involucradas en un
ANOVA unifactorial, incluidas las fórmulas que muestran cómo se calculan.
[Detalle técnico adicional 6 ]
6 En un nivel básico, ANOVA es una competición entre dos modelos estadísticos diferentes, 𝐻0 y 𝐻1 .
Cuando describí las hipótesis nula y alternativa al comienzo de la sección, fui un poco imprecisa acerca
de cuáles son realmente estos modelos. Arreglaré eso ahora, aunque probablemente no te agradaré
por hacerlo. Si recuerdas, nuestra hipótesis nula era que todas las medias de los grupos son idénticas
entre sí. Si es así, entonces una forma natural de pensar en la variable de resultado 𝑌𝑖𝑘 es describir
las puntuaciones individuales en términos de una sola media poblacional µ, más la desviación de esa
media poblacional. Esta desviación generalmente se denota 𝜖𝑖𝑘 y tradicionalmente se le llama el error o
residual asociado con esa observación. PEro ten cuidado. Tal como vimos con la palabra “significativo”,
la palabra “error” tiene un significado técnico en estadística que no es exactamente igual a su definición
cotidiana en español. En el lenguaje cotidiano, “error” implica un error de algún tipo, pero en estadística
no (o al menos, no necesariamente). Con eso en mente, la palabra “residual” es un término mejor que
la palabra “error”. En estadística, ambas palabras significan “variabilidad sobrante”, es decir, “cosas”
que el modelo no puede explicar. En cualquier caso, así es como se ve la hipótesis nula cuando la
escribimos como un modelo estadístico
𝑌𝑖𝑘 = 𝜇 + 𝜖𝑖𝑘
donde asumimos (discutido más adelante) que los valores residuales 𝜖𝑖𝑘 se distribuyen normalmente,
con media 0 y una desviación estándar 𝜎 que es igual para todos los grupos. Para usar la notación que
presentamos en Chapter 7, escribiríamos esta suposición así
𝜖𝑖𝑘 ∑ 𝑁𝑜𝑟𝑚𝑎𝑙(0, 𝜎2 )
¿Qué pasa con la hipótesis alternativa, 𝐻1 ? ? La única diferencia entre la hipótesis nula y la hipótesis
alternativa es que permitimos que cada grupo tenga una media poblacional diferente. Así, si dejamos
que 𝜇𝑘 denote la media de la población para el k-ésimo grupo en nuestro experimento, entonces el
modelo estadístico correspondiente a 𝐻1 es
𝑌𝑖𝑘 = 𝜇𝑘 + 𝜖𝑖𝑘
donde, una vez más, asumimos que los términos de error se distribuyen normalmente con media 0 y
desviación estándar 𝜎. Es decir, la hipótesis alternativa también asume que 𝜖 ∼ 𝑁𝑜𝑟𝑚𝑎𝑙(0, 𝜎2 ) Bueno,
una vez que hemos descrito los modelos estadísticos que sustentan 𝐻0 y 𝐻1 con más detalle, ahora
es bastante sencillo decir qué miden los valores de las medias cuadráticas y qué significa esto para la
13.2. CÓMO FUNCIONA ANOVA 361
interpretación de 𝐹 . No te aburriré con la justificación de esto, pero resulta que la media cuadrática
intra grupos, 𝑀𝑆𝑤 , puede verse como un estimador de la varianza del error 𝜎2 . La media cuadrática
entre grupos 𝑀𝑆𝑏 también es un estimador, pero lo que estima es la varianza del error más una cantidad
que depende de las verdaderas diferencias entre las medias de los grupos. Si llamamos a esta cantidad
𝑄, podemos ver que el estadístico F es básicamente 𝑎
𝑄̂ + 𝜎̂ 2
𝐹 =
𝜎̂ 2
donde el valor verdadero 𝑄 = 0 si la hipótesis nula es verdadera, y Q < 0 si la hipótesis alternativa es
verdadera (p. ej., Hays (1994), cap. 10). Por lo tanto, como mínimo, el valor 𝐹 debe ser mayor que
1 para tener alguna posibilidad de rechazar la hipótesis nula. Ten en cuenta que esto no significa que
sea imposible obtener un valor F menor que 1. Lo que significa es que si la hipótesis nula es verdadera,
la distribución muestral de la razón F tiene una media de 1,[^b] por lo que necesitamos ver valores
F mayores que 1 para rechazar con seguridad el valor nulo. Para ser un poco más precisas sobre la
distribución muestral, observa que si la hipótesis nula es verdadera, tanto la media cuadrática entre
grupos como la media cuadrática intra grupos son estimadores de la varianza de los residuales 𝜖𝑖𝑘 . Si
esos residuales se distribuyen normalmente, entonces podrías sospechar que la estimación de la varianza
de 𝜖𝑖𝑘 tiene una distribución de ji cuadrado, porque (como se discutió en Section 7.6) eso es lo que la
distribución ji cuadrado es: lo que obtienes cuando elevas al cuadrado un montón de cosas normalmente
distribuidas y las sumas. Y dado que la distribución F es (nuevamente, por definición) lo que obtienes
cuando calculas la relación entre dos cosas que están distribuidas en 𝜒2 , tenemos nuestra distribución
muestral. Obviamente, estoy pasando por alto un montón de cosas cuando digo esto, pero en términos
generales, de aquí es de donde proviene nuestra distribución muestral. — 𝑎 Si sigues leyendo Chapter 14
y observas cómo se define el “efecto de tratamiento” en el nivel k de un factor en términos de $�_k $
(ver sección sobre ANOVA factorial 2: diseños balanceados, interacciones permitidas]), resulta que 𝑄
𝐺
(∑𝑘=1 𝑁𝑘 𝛼2
𝑘) 𝑏
se refiere a una media ponderada de los efectos del tratamiento al cuadrado, 𝑄 = (𝐺−1) O, si
queremos ser rigurosos con la precisión, 1 + 𝑑𝑓 2−2
2
7 O, para ser precisas, imagina que “es 1899 y no tenemos amigos y nada mejor que hacer con nuestro
tiempo que hacer algunos cálculos que no habría tenido ningún sentido en 1899 porque ANOVA no
existió hasta alrededor de la década de 1920”.
362CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
(a)
(b)
(a)
(b)
(a)
(b)
dev.
from
group squared
outcome group mean deviation
group k 𝑌𝑖𝑘 mean 𝑌𝑘̄ 𝑌𝑖𝑘 − 𝑌𝑘̄ (𝑌𝑖𝑘 − 𝑌𝑘̄ )2
placebo 0.5 0.45 0.05 0.0025
placebo 0.3 0.45 -0.15 0.0225
placebo 0.1 0.45 -0.35 0.1225
anxifree 0.6 0.72 -0.12 0.0136
anxifree 0.4 0.72 -0.32 0.1003
13.2. CÓMO FUNCIONA ANOVA 363
(a)
(b)
squared
group grand deviation deviation
group k mean 𝑌𝑘̄ mean 𝑌 ̄ 𝑌𝑘̄ − 𝑌 ̄ (𝑌𝑘̄ − 𝑌 ̄ )2
placebo 0.45 0.88 -0.43 0.19
anxifree 0.72 0.88 -0.16 0.03
joyzepam 1.48 0.88 0.60 0.36
El último paso es igualmente sencillo. Para calcular la suma de cuadrados intra grupo,
simplemente sumamos las desviaciones al cuadrado de todas las observaciones:
(a)
(b)
squared weighted
devia- squared
tions sample dev
group k ... (𝑌𝑘̄ − 𝑌 ̄ )2 size 𝑁𝑘 𝑁𝑘 (𝑌𝑘̄ − 𝑌 ̄ )2
placebo ... 0.19 6 1.14
anxifree ... 0.03 6 0.18
joyzepam ... 0.36 6 2.16
Como puedes ver, los cálculos entre grupos son mucho más cortos8 . Ahora que hemos
calculado nuestros valores de sumas de cuadrados, 𝑆𝑆𝑏 y 𝑆𝑆𝑤 , el resto del ANOVA es
bastante sencillo. El siguiente paso es calcular los grados de libertad. Como tenemos
𝐺 = 3 grupos y 𝑁 = 18 observaciones en total, nuestros grados de libertad se pueden
calcular mediante una simple resta:
𝑑𝑓𝑏 = 𝐺 − 1 = 2
𝑑𝑓𝑤 = 𝑁 𝐺 = 15
A continuación, dado que ahora hemos calculado los valores de las sumas de cuadrados y
los grados de libertad, tanto para la variabilidad intra grupos como para la variabilidad
entre grupos, podemos obtener los valores de las medias cuadráticas dividiendo uno por
el otro:
𝑆𝑆𝑏 3.48
𝑀 𝑆𝑏 = = = 1.74
𝑑𝑓𝑏 2
𝑆𝑆𝑤 1.39
𝑀 𝑆𝑤 = = = 0.09
𝑑𝑓𝑤 15
Ya casi hemos terminado. Las medias cuadráticas se pueden usar para calcular el valor
F, que es la prueba estadística que nos interesa. Hacemos esto dividiendo el valor de
MC entre grupos por el valor de MC intra grupos.
𝑀 𝑆𝑏 1.74
𝐹 = =
𝑀 𝑆𝑤 0.09
= 19, 3
¡Guauuu! Esto es muy emocionante, ¿verdad? Ahora que tenemos nuestra prueba
estadística, el último paso es averiguar si la prueba en sí nos da un resultado significativo.
8 En el ensayo clínico de Excel anova.xls, el valor de SCb resultó ser ligeramente diferente, 3, 45, que
(a)
(b)
sum of mean F-
df squares squares statistic p-value
between
groups 2 3.48 1.74 19.3 0.000071
within
groups 15 1.39 0.09 - -
Como se discutió en Chapter 9 en los “viejos tiempos”, lo que haríamos sería abrir un
libro de texto de estadística o pasar a la sección posterior que en realidad tendría una
tabla de búsqueda enorme y encontraríamos el valor umbral 𝐹 correspondiente a un
valor particular de alfa (la región de rechazo de la hipótesis nula), por ejemplo 0, 05,
0, 01 o 0, 001, para 2 y 15 grados de libertad. Hacerlo de esta manera nos daría un valor
umbral de F para un alfa de 0.001 de 11.34. Como esto es menor que nuestro valor 𝐹
calculado, decimos que 𝑝 < 0.001. Pero esos era antes, y ahora el sofisticado software
de estadística calcula el valor p exacto por ti. De hecho, el valor p exacto es 0.000071.
Entonces, a menos que estemos siendo extremadamente conservadores con respecto a
nuestra tasa de error Tipo I, estamos prácticamente seguras de que podemos rechazar
la hipótesis nula.
En estos días, probablemente no querrás construir una de estas tablas tú misma, pero
encontrarás que casi todo el software estadístico (incluido jamovi) tiende a organizar
la salida de un ANOVA en una tabla como esta, por lo que es una buena idea para
acostumbrarse a leerlas. Sin embargo, aunque el software generará una tabla ANOVA
completa, casi nunca se incluye la tabla completa en tu redacción. Una forma bastante
estándar de informar del apartado de estadística sería escribir algo como esto:
Figure 13.3: tabla de resultados jamovi para ANOVA de aumento del estado de ánimo
por fármaco administrado
La tabla de resultados de jamovi te muestra los valores de las sumas de cuadrados, los
grados de libertad y un par de otras cantidades que no nos interesan en este momento.
Ten en cuenta, sin embargo, que jamovi no usa los nombres “entre grupos” y “intra
grupo”. En su lugar, intenta asignar nombres más significativos. En nuestro ejemplo
particular, la varianza entre grupos corresponde al efecto que el fármaco tiene sobre la
variable de resultado, y la varianza intra grupos corresponde a la variabilidad “sobrante”,
por lo que se denomina residual. Si comparamos estos números con los números que
calculé a mano en [Un ejemplo práctico], puedes ver que son más o menos iguales,
aparte de los errores de redondeo. La suma de cuadrados entre grupos es 𝑆𝑆𝑏 = 3.45,
la suma de cuadrados intra grupos es 𝑆𝑆𝑤 = 1.39, y los grados de libertad son 2 y
15 respectivamente. También obtenemos el valor F y el valor p y, nuevamente, estos
son más o menos iguales, sumando o restando errores de redondeo, a los números que
calculamos nosotras mismas al hacerlo de la manera larga y tediosa.
𝑆𝑆𝑏
𝜂2 =
𝑆𝑆𝑡𝑜𝑡𝑎𝑙
9 los resultados de jamovi son más precisos que los del texto anterior, debido a errores de redondeo.
13.5. COMPARACIONES MÚLTIPLES Y PRUEBAS POST HOC 367
Eso es todo. Entonces, cuando miro la tabla ANOVA en Figure 13.3, veo que 𝑆𝑆𝑏 = 3, 45
y 𝑆𝑆𝑡 𝑜𝑡 = 3, 45 + 1, 39 = 4, 84. Así obtenemos un valor de 𝜂2 de
3.45
𝜂2 = = 0.71
4.84
(a)
(b)
is is is which hy-
possibility: 𝜇𝑃 = 𝜇 𝐴 ? 𝜇𝑃 = 𝜇𝐽 ? 𝜇𝐴 = 𝜇𝐽 ? pothesis?
1 ✓ ✓ ✓ null
2 ✓ ✓ alternative
3 ✓ ✓ alternative
4 ✓ alternative
5 ✓ ✓ ✓ alternative
6 ✓ alternative
7 ✓ alternative
8 alternative
ayuda mirar los datos. Por ejemplo, si observamos las gráficas en Figure 13.1, es tenta-
dor concluir que Joyzepam es mejor que el placebo y mejor que Anxifree, pero no hay
una diferencia real entre Anxifree y el placebo. Sin embargo, si queremos obtener una
respuesta más clara sobre esto, podría ser útil realizar algunas pruebas.
es diferente. En esas circunstancias, en realidad no estás ejecutando análisis “post hoc” en absoluto,
estás haciendo “comparaciones planificadas”. Hablo de esta situación más adelante en el libro: Sec-
tion 14.9, pero por ahora quiero mantener las cosas simples.
13.5. COMPARACIONES MÚLTIPLES Y PRUEBAS POST HOC 369
Figure 13.4: Pruebas t por pares no corregidas como comparaciones post hoc en jamovi
′
𝑝𝑗 = 𝑚 × 𝑝
11 vale la pena señalar de paso que no todos los métodos de ajuste intentan hacer esto. Lo que he
descrito aquí es un enfoque para controlar lo que se conoce como “Family-wise Type I error rate”. Sin
embargo, existen otras pruebas post hoc que buscan controlar la “tasa de descubrimiento falso”, que
es algo diferente.
370CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
′
Y por lo tanto, si usas la corrección de Bonferroni, rechazarías la hipótesis nula si 𝑝𝑗 < 𝛼.
La lógica de esta corrección es muy sencilla. Estamos haciendo m pruebas diferentes,
por lo que si lo organizamos para que cada prueba tenga una tasa de error de tipo I de
𝛼
𝑚 como máximo, entonces la tasa de error de tipo I total en estas pruebas no puede ser
mayor que 𝛼. Eso es bastante simple, tanto que en el artículo original, el autor escribe:
El método dado aquí es tan simple y tan general que estoy seguro de que debe
haber sido usado antes. Sin embargo, no lo encuentro, por lo que solo puedo
concluir que quizás su misma simplicidad ha impedido que los estadísticos
se den cuenta de que es un método muy bueno en algunas situaciones (Dunn
(1961), pp 52-53).
Para usar la corrección de Bonferroni en jamovi, simplemente haz clic en la casilla de
verificación ‘Bonferroni’ en las opciones de ‘Corrección’ y verás otra columna añadida a
la tabla de resultados de ANOVA que muestra los valores p ajustados para la corrección
de Bonferroni (Table 13.8). Si comparamos estos tres valores p con los de las pruebas t
por pares sin corregir, está claro que lo único que ha hecho jamovi es multiplicarlos por
3.
′
𝑝𝑗 = 𝑗 × 𝑝 𝑗
(es decir, el valor de p más grande permanece sin cambios, el segundo valor de p más
grande se duplica, el tercer valor de p más grande se triplica, y así sucesivamente), o
′ ′
𝑝𝑗 = 𝑝𝑗+1
el que sea más grande. Esto puede ser un poco confuso, así que hagámoslo un poco más
despacio. Esto es lo que hace la corrección de Holm. Primero, ordena todos sus valores
p en orden, de menor a mayor. Para el valor p más pequeño, todo lo que tiene que
hacer es multiplicarlo por 𝑚 y listo. Sin embargo, para todos los demás es un proceso
de dos etapas. Por ejemplo, cuando pasa al segundo valor p más pequeño, primero lo
multiplica por 𝑚 − 1. Si esto produce un número que es mayor que el valor p ajustado
que obtuvo la última vez, entonces lo conserva. Pero si es más pequeño que el último,
copia el último valor p. Para ilustrar cómo funciona esto, considera Table 13.10 que
muestra los cálculos de una corrección de Holm para una colección de cinco valores p.
Esperemos que eso aclare las cosas.
Aunque es un poco más difícil de calcular, la corrección de Holm tiene algunas
propiedades muy buenas. Es más potente que Bonferroni (es decir, tiene una tasa de
error de tipo II más baja) pero, aunque parezca contradictorio, tiene la misma tasa
de error tipo I. Como consecuencia, en la práctica casi nunca se utiliza la corrección
de Bonferroni, ya que siempre es superada por la corrección de Holm, un poco más
13.6. LOS SUPUESTOS DE ANOVA UNIFACTORIAL 371
(a)
(b)
leíste todo, describí los modelos estadísticos que sustentan ANOVA de esta manera:
𝐻0 ∶ 𝑌𝑖𝑘 = 𝜇 + 𝜖𝑖𝑘
𝐻1 ∶ 𝑌𝑖𝑘 = 𝜇𝑘 + 𝜖𝑖𝑘
372CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
Vale, ¿de qué nos sirve esto? Bueno, pensemos un momento qué es realmente 𝑍𝑖𝑘 y qué estamos
tratando de probar. El valor de 𝑍𝑖𝑘 es una medida de cómo la 𝑖-ésima observación en el 𝑘-ésimo grupo
se desvía de la media de su grupo. Y nuestra hipótesis nula es que todos los grupos tienen la misma
varianza, es decir, ¡las mismas desviaciones generales de las medias del grupo! Entonces, la hipótesis
nula en una prueba de Levene es que las medias poblacionales de 𝑍 son idénticas para todos los grupos.
Mmm. Entonces, lo que necesitamos ahora es una prueba estadística de la hipótesis nula de que todas
las medias de los grupos son ìguales. ¿Donde hemos visto eso antes? Ah, claro, eso es ANOVA, y todo
lo que hace la prueba de Levene es ejecutar un ANOVA en la nueva variable 𝑍𝑖𝑘 . ¿Qué pasa con la
prueba de Brown-Forsythe? ¿Hace algo particularmente diferente? No. El único cambio con respecto a
la prueba de Levene es que construye la variable transformada Z de una manera ligeramente diferente,
utilizando desviaciones respecto a las medianas del grupo en lugar de desviaciones respecto a las medias
del grupo. Es decir, para la prueba de Brown-Forsythe:
antes. La prueba t de Student asume varianzas iguales, por lo que la solución fue usar
la prueba t de Welch, que no lo hace. De hecho, Welch (1951) también mostró cómo
podemos resolver este problema para ANOVA (la prueba unifactorial de Welch).
Se implementa en jamovi utilizando el análisis ANOVA unifactorial. Se trata de un
enfoque de análisis específico solo para ANOVA unifactorial, y para ejecutar el ANOVA
unifactorial de Welch para nuestro ejemplo, volveríamos a ejecutar el análisis como antes,
pero esta vez usamos el comando de análisis jamovi ANOVA - ANOVA unifactorial, y
marcas la opción para la prueba de Welch (ver Figure 13.6). Para comprender lo que
está sucediendo aquí, comparemos estos números con lo que obtuvimos anteriormente
cuando Ejecutando un ANOVA en jamovi originalmente. Para ahorrarte la molestia de
retroceder, esto es lo que obtuvimos la última vez: 𝐹 (2, 15) = 18, 611, 𝑝 = 0, 00009, que
también se muestra como la prueba de Fisher en el ANOVA unifactorial que se muestra
en Figure 13.6.
Bien, originalmente nuestro ANOVA nos dio el resultado 𝐹 (2, 15) = 18, 6, mientras
que la prueba unifactorial de Welch nos dio 𝐹 (2, 9, 49) = 26, 32. En otras palabras, la
prueba de Welch ha reducido los grados de libertad dentro de los grupos de 15 a 9,49 y
el valor F ha aumentado de 18,6 a 26,32.
Figure 13.6: prueba de Welch como parte del análisis ANOVA unifactorial en jamovi
14
clasificados.
Ahora que hemos hecho esto, podemos calcular las desviaciones al cuadrado del rango medio general
𝑅.̄ Cuando hacemos esto para las puntuaciones individuales, es decir, si calculamos (𝑅𝑖𝑘 − 𝑅)̄ 2 , lo que
tenemos es una medida “no paramétrica” de cuánto se desvía la ik-ésima observación del rango medio
general . Cuando calculamos la desviación al cuadrado de las medias del grupo de las medias generales,
̄ 2 , entonces lo que tenemos es una medida no paramétrica de cuánto el
es decir, si calculamos (𝑅𝑖𝑘 − 𝑅)
grupo se desvía del rango medio general. Con esto en mente, seguiremos la misma lógica que hicimos
con ANOVA y definiremos nuestras medidas de sumas de cuadrados ordenadas, como lo hicimos antes.
Primero, tenemos nuestras “sumas de cuadrados totales ordenadas”
̄ 2
𝑅𝑆𝑆𝑡𝑜𝑡 = ∑ ∑(𝑅𝑖𝑘 − 𝑅)
𝑘 𝑖
y podemos definir las “sumas de cuadrados ordenadas entre grupos” como este
𝑅𝑆𝑆𝑏 = ∑ 𝑘 ∑(𝑅̄ 𝑘 − 𝑅)
̄ 2
𝑖
= ∑ 𝑁𝑘 (𝑅̄ 𝑘 − 𝑅)
̄ 2
𝑘
Entonces, si la hipótesis nula es verdadera y no hay ninguna diferencia verdadera entre los grupos,
esperarías que las sumas ordenadas entre grupos 𝑅𝑆𝑆𝑏 fueran muy pequeñas, mucho más pequeñas
que las sumas ordenadas totales 𝑅𝑆𝑆𝑡𝑜𝑡 . Cualitativamente, esto es muy similar a lo que encontramos
cuando construimos el estadístico F de ANOVA, pero por razones técnicas, el estadístico de Kruskal-
Wallis, generalmente denominado K, se construye de una manera ligeramente diferente,
𝑅𝑆𝑆𝑏
𝐾 = (𝑁 − 1) ×
𝑅𝑆𝑆𝑡𝑜𝑡
y si la hipótesis nula es verdadera, entonces la distribución muestral de K es aproximadamente ji
cuadrada con 𝐺 − 1 grados de libertad (donde $G $ es el número de grupos). Cuanto mayor sea el valor
de K, menos consistentes serán los datos con la hipótesis nula, por lo que esta es una prueba unilateral.
Rechazamos 𝐻0 cuando K es suficientemente grande.
15 Sin embargo, desde una perspectiva puramente matemática es innecesariamente complicado. No te
mostraré la derivación, pero puedes usar un poco de ingenio algebraicos𝑏 para ver que la ecuación para
K puede ser
12
𝐾= ∑ 𝑁𝑘 𝑅̄ 𝑘2 − 3(𝑁 + 1)
𝑁(𝑁 − 1) 𝑘
Es esta última ecuación la que a veces ves para K. Es mucho más fácil de calcular que la versión que
describí en la sección anterior, pero es solo que no tiene sentido para los humanos reales. Probablemente
sea mejor pensar en K como lo describí anteriormente, como un análogo de ANOVA basado en rangos.
Pero ten en cuenta que la prueba estadística que se calcula termina con un aspecto bastante diferente
al que usamos para nuestro ANOVA original. — 𝑏 Un término técnico
378CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
Table 13.11: tabla de frecuencias de aumento del estado de ánimo a partir de los datos
de Clinicaltrials.csv
(a)
(b)
0.1 0.2 0.3 0.4 0.5 0.6 0.8 0.9 1.1 1.2 1.3 1.4 1.7 1.8
1 1 2 1 1 2 1 1 1 1 2 2 1 1
tengan exactamente el mismo valor. Si hay empates, entonces tenemos que introducir
un factor de corrección a estos cálculos. En este punto, asumo que incluso el lector más
diligente ha dejado de preocuparse (o al menos se ha formado la opinión de que el factor
de corrección de empates es algo que no requiere su atención inmediata). Así que te
diré muy rápidamente cómo se calcula y omitiré los tediosos detalles sobre por qué se
hace de esta manera. Supongamos que construimos una tabla de frecuencias para los
datos sin procesar y que fj sea el número de observaciones que tienen el j-ésimo valor
único. Esto puede sonar un poco abstracto, así que aquí hay un ejemplo concreto de la
tabla de frecuencias de mood.gain del conjunto de datos Clinicaltrials.csv (Table 13.11)
Observando esta tabla, fíjate que la tercera entrada en la tabla de frecuencias tiene un
valor de 2. Dado que esto corresponde a una ganancia de estado de ánimo de 0,3, esta
tabla nos dice que el estado de ánimo de dos personas aumentó en 0,3. 16
Y entonces jamovi usa un factor de corrección por empates para calcular el estadístico
de Kruskall-Wallis corregido por empates. Y por fin hemos terminado con la teoría de la
prueba de Kruskal-Wallis. Estoy segura de que estáis aliviadas de que os haya curado de
la ansiedad existencial que surge naturalmente cuando os dais cuenta de que no sabeis
cómo calcular el factor de corrección por empates para la prueba de Kruskal-Wallis.
¿Verdad?
16 Más concretamente, en la notación matemática que introduje anteriormente, esto nos dice que
𝑓3 = 2. Hurra. Entonces, ahora que sabemos esto, el factor de corrección por empates (FCE) es:
∑𝑗 𝑓𝑗3 − 𝑓𝑗
𝑇 𝐶𝐹 = 1 −
𝑁3 − 𝑁
El valor del estadístico de Kruskal-Wallis corregido por empates se obtiene dividiendo el valor de K por
esta cantidad. Es esta versión corregida por empates la que calcula jamovi.
13.7. ANOVA UNIFACTORIAL DE MEDIDAS REPETIDAS 379
𝑀 𝑆𝑏
𝐹 =
𝑀 𝑆𝑤
(a)
(b)
cada paciente se muestra en Table 13.11. Introduce estos datos en jamovi listos para el
análisis (o coge un atajo y carga el archivo broca.csv).
Para realizar un ANOVA relacionado unifactorial en jamovi, abre el cuadro de diálogo
ANOVA de medidas repetidas unifactoriales, como en Figure 13.9, a través de ANOVA
- ANOVA de medidas repetidas.
Después:
• Introduce un nombre de factor de medidas repetidas. Esta debe ser una etiqueta
que elijas para describir las condiciones repetidas por todos los participantes. Por
ejemplo, para describir las tareas de habla, conceptuales y sintácticas realizadas
por todos los participantes, una etiqueta adecuada sería ‘Tarea’. Ten en cuenta que
este nuevo nombre del factor representa la variable independiente en el análisis.
• Agrega un tercer nivel en el cuadro de texto Factores de medidas repetidas, ya que
hay tres niveles que representan las tres tareas: discurso, conceptual y sintaxis.
Cambia las etiquetas de los niveles respectivamente.
• Luego, mueve cada uno de los niveles de las variables al cuadro de texto de la
celda de medidas repetidas.
• Finalmente, en la opción Comprobaciones de supuestos, marca el cuadro de texto
“Comprobaciones de esfericidad”.
La salida jamovi para un ANOVA unifactorial de medidas repetidas se produce como
se muestra en Figure 13.10 a Figure 13.13. El primer resultado que debemos observar
es la prueba de esfericidad de Mauchly, que prueba la hipótesis de que las varianzas de
las diferencias entre las condiciones son iguales (lo que significa que la dispersión de las
puntuaciones de la diferencia entre las condiciones del estudio es aproximadamente la
misma). En Figure 13.10, el nivel de significación de la prueba de Mauchly es 𝑝 = .720.
Si la prueba de Mauchly no es significativa (es decir, p > 0,05, como es el caso en
este análisis), entonces es razonable concluir que las varianzas de las diferencias no son
significativamente diferentes (es decir, son aproximadamente iguales y se puede asumir
la esfericidad).
Si por el contrario la prueba de Mauchly hubiera sido significativa (p < .05) entonces
concluiríamos que existen diferencias significativas entre la varianza de las diferencias, y
no se cumple el requisito de esfericidad. En este caso, deberíamos aplicar una corrección
al valor F obtenido en el análisis ANOVA relacionado unifactorial:
• Si el valor de Greenhouse-Geisser en la tabla “Pruebas de esfericidad” es > 0,75,
debes utilizar la corrección de Huynh-Feldt
• Pero si el valor de Greenhouse-Geisser es < .75, entonces debes usar la corrección
de Greenhouse-Geisser.
Ambos valores F corregidos se pueden especificar en las casillas de verificación Correc-
ciones de esfericidad en las opciones de Comprobaciones de supuestos, y los valores F
corregidos se muestran luego en la tabla de resultados, como en la Figura 13.11.
En nuestro análisis, vimos que la significación de la prueba de esfericidad de Mauchly
fue p = .720 (es decir, p > 0.05). Por lo tanto, esto significa que podemos suponer que
se ha cumplido el requisito de esfericidad, por lo que no es necesario corregir el valor
F. Por lo tanto, podemos usar los valores de la corrección de esfericidad ‘Ninguno’ para
la medida repetida ‘Tarea’: 𝐹 = 6.93, 𝑑𝑓 = 2, 𝑝 = .013, y podemos concluir que el
número de pruebas exitosas completado en cada tarea de lenguaje varió significativa-
382CHAPTER 13. COMPARACIÓN DE VARIAS MEDIAS (ANOVA UNIDIRECCIONAL)
Las pruebas post-hoc también se pueden especificar en jamovi para ANOVA de medidas
repetidas de la misma manera que para ANOVA independiente. Los resultados se
muestran en Figure 13.12. Estos indican que existe una diferencia significativa entre
Habla y Sintaxis, pero no entre otros niveles.
Los estadísticos descriptivos (medias marginales) se pueden revisar para ayudar a inter-
pretar los resultados, producidos en la salida jamovi como en Figure 13.13. La compara-
ción del número medio de intentos completados con éxito por los participantes muestra
que las personas con afasia de Broca se desempeñan razonablemente bien en las tareas
de producción del habla (media = 7,17) y comprensión del lenguaje (media = 6,17). Sin
embargo, su desempeño fue considerablemente peor en la tarea de sintaxis (media =
4.33), con una diferencia significativa en las pruebas post-hoc entre el desempeño de la
tarea de habla y sintaxis.
producción del habla (mediana = 7,5) y comprensión del lenguaje (mediana = 6,5). Sin
embargo, su desempeño fue considerablemente peor en la tarea de sintaxis (mediana =
4.5), con una diferencia significativa en las pruebas post-hoc entre el desempeño de la
tarea de Habla y Sintaxis.
13.10 Resumen
Hemos tratado bastante en este capítulo, pero aún falta mucho 18 . Obviamente, no
he discutido cómo ejecutar un ANOVA cuando nos interesa más de una variable de
agrupación, pero eso se discutirá con mucho detalle en Chapter 14. En términos de lo
que hemos discutido, los temas clave fueron:
• La lógica básica que subyace a Cómo funciona ANOVA y [Ejecutar un ANOVA
en jamovi]
• Cómo calcular un Tamaño del efecto para un ANOVA.
• Comparaciones múltiples y pruebas post hoc para pruebas múltiples.
• Los supuestos de ANOVA unifactorial
• [Comprobación del supuesto de homogeneidad de varianza] y qué hacer si se in-
fringe: [Eliminación del supuesto de homogeneidad de varianza]
• Comprobación del supuesto de normalidad y qué hacer si se infringe: [Eliminación
del supuesto de normalidad]
• ANOVA unifactorial de medidas repetidas y el equivalente no paramétrico, La
prueba ANOVA no paramétrica de medidas repetidas de Friedman
18 Al igual que con todos los capítulos de este libro, me he basado en fuentes diferentes, pero el texto
destacado que más me ha influido Sahai & Ageel (2000). No es un libro para principiantes, pero es un
libro excelente para lectores más avanzados con interés en comprender las matemáticas que subyacen
a ANOVA.
Chapter 14
ANOVA factorial
En el transcurso de los últimos capítulos hemos hecho bastante. Hemos analizado las
pruebas estadísticas que puedes usar cuando tienes una variable de predicción nominal
con dos grupos (por ejemplo, la prueba t en Chapter 11) o con tres o más grupos
(Chapter 13). Chapter 12 introdujo una idea nueva y potente, que consiste en crear
modelos estadísticos con múltiples variables predictoras continuas que se usan para
explicar una única variable de resultado. Por ejemplo, se podría usar un modelo de
regresión para predecir la cantidad de errores que comete un estudiante en una prueba
de comprensión lectora en función de la cantidad de horas que estudió para la prueba y
su puntuación en una prueba estandarizada de 𝐶𝐼.
El objetivo de este capítulo es ampliar la idea de utilizar múltiples predictores en el
marco ANOVA. Por ejemplo, supongamos que estamos interesadas en usar la prueba
de comprensión lectora para medir los logros del alumnado en tres escuelas diferentes, y
sospechamos que las niñas y los niños se están desarrollando a ritmos diferentes (y, por
lo tanto, se espera que tengan un desempeño diferente en promedio). Cada estudiante
se clasifica de dos maneras diferentes: en función de su género y en función de su
escuela. Lo que nos gustaría hacer es analizar las puntuaciones de comprensión lectora
en términos de estas dos variables de agrupación. La herramienta para hacerlo se
denomina genéricamente ANOVA factorial. Sin embargo, dado que tenemos dos
variables de agrupación, a veces nos referimos al análisis como un ANOVA de dos vías,
en contraste con los ANOVA de una vía que ejecutamos en Chapter 13.
387
388 CHAPTER 14. ANOVA FACTORIAL
efecto significativo del fármaco, pero al final del capítulo también hicimos un análisis
para ver si había un efecto de la terapia. No encontramos ninguno, pero hay algo un
poco preocupante al tratar de ejecutar dos análisis separados para intentar predecir el
mismo resultado. ¿Tal vez en realidad hay un efecto de la terapia sobre el aumento
del estado de ánimo, pero no pudimos encontrarlo porque estaba “oculto” por el efecto
del fármaco? En otras palabras, vamos a querer ejecutar un único análisis que incluya
tanto el fármaco como la terapia como predictores. Para este análisis, cada persona
se clasifica en forma cruzada según el fármaco que recibió (un factor con 3 niveles) y
la terapia que recibió (un factor con 2 niveles). Nos referimos a esto como un diseño
factorial de 3 × 2.
Como puedes ver, no solo tenemos participantes correspondientes a todas las combina-
ciones posibles de los dos factores, lo que indica que nuestro diseño es completamente
cruzado, resulta que hay un número igual de personas en cada grupo. En otras pal-
abras, tenemos un diseño equilibrado. En esta sección explicaré cómo analizar datos
de diseños equilibrados, ya que este es el caso más simple. La historia de los diseños
desequilibrados es bastante tediosa, así que la dejaremos de lado por el momento.
14.1. ANOVA FACTORIAL 1: DISEÑOS BALANCEADOS, CENTRADOS EN LOS EFECTOS PRINCIPALES
Table 14.1: Medias de grupo para grupos de fármacos y terapias en los datos de Clini-
caltrial.csv
(a)
(b)
Table 14.2: Medias de grupo y medias totales para los grupos de fármacos y terapias
en los datos clintrial.csv
(a)
(b)
Ahora, la siguiente tabla (Table 14.2) muestra una lista de las medias de los grupos para
todas las combinaciones posibles de los dos factores (p. ej., personas que recibieron el
placebo y ninguna terapia, personas que recibieron el placebo mientras recibían TCC,
etc. .). Es útil organizar todos estos números, más las medias marginales y generales,
en una sola tabla como esta:
Ahora bien, cada una de estas diferentes medias es, por supuesto, un estadístico mues-
tral. Es una cantidad que pertenece a las observaciones específicas que hemos hecho
390 CHAPTER 14. ANOVA FACTORIAL
(a)
(b)
durante nuestro estudio. Sobre lo que queremos hacer inferencias son los parámetros
de población correspondientes. Es decir, las verdaderas medias tal como existen dentro
de una población más amplia. Esas medias poblacionales también se pueden organizar
en una tabla similar, pero necesitaremos un poco de notación matemática para hacerlo
(Table 14.3). Como de costumbre, usaré el símbolo 𝜇 para indicar la media de una
población. Sin embargo, debido a que hay muchas medias diferentes, tendré que usar
subíndices para distinguirlas.
Así es como funciona la notación. Nuestra tabla se define en términos de dos factores.
Cada fila corresponde a un nivel diferente del Factor A (en este caso, fármaco), y
cada columna corresponde a un nivel diferente del Factor B (en este caso, terapia). Si
dejamos que R indique el número de filas en la tabla y 𝐶 indique el número de columnas,
podemos referirnos a esto como un ANOVA factorial 𝑅×𝐶. En este caso 𝑅 = 3 y 𝐶 = 2.
Usaremos letras minúsculas para referirnos a filas y columnas específicas, por lo que 𝜇𝑟𝑐
se refiere a la media poblacional asociada con el nivel 𝑟-ésimo del Factor 𝐴 (es decir, el
número de fila 𝑟) y el 𝑐-ésimo nivel del Factor B (columna número c).1 Entonces, las
medias poblacionales ahora se escriben como en Table 14.1:
Bien, ¿qué pasa con las entradas restantes? Por ejemplo, ¿cómo deberíamos describir el
aumento promedio del estado de ánimo en toda la población (hipotética) de personas
que podrían recibir Joyzepam en un experimento como este, independientemente de
si estaban en TCC? Usamos la notación “punto” para expresar esto. En el caso de
Joyzepam, fíjate que estamos hablando de la media asociada con la tercera fila de la
tabla. Es decir, estamos promediando las medias de dos celdas (es decir, 𝜇31 y 𝜇32 ).
El resultado de este promedio se denomina media marginal y se denotaría 𝜇3 . en este
caso. La media marginal para la TCC corresponde a la media poblacional asociada
a la segunda columna de la tabla, por lo que usamos la notación porque es la media
obtenida al promediar (marginalizar2 ) sobre ambas. Entonces, nuestra tabla completa
de medias poblacionales se puede escribir como en Table 14.4.
1 lo bueno de la notación de subíndices es que se generaliza muy bien. Si nuestro experimento hubiera
involucrado un tercer factor, entonces podríamos simplemente agregar un tercer subíndice. En principio,
la notación se extiende a tantos factores como desees incluir, pero en este libro rara vez consideraremos
análisis que involucren más de dos factores y nunca más de tres.
2 técnicamente, la marginalización no es exactamente idéntica a una media normal. Es un promedio
ponderado en el que se tiene en cuenta la frecuencia de los diferentes eventos sobre los que se está
promediando. Sin embargo, en un diseño equilibrado, todas las frecuencias de nuestras celdas son
iguales por definición, por lo que las dos son equivalentes. Discutiremos los diseños desequilibrados más
adelante, y cuando lo hagamos, verás que todos nuestros cálculos se convierten en un verdadero dolor
de cabeza. Pero ignoremos esto por ahora.
14.1. ANOVA FACTORIAL 1: DISEÑOS BALANCEADOS, CENTRADOS EN LOS EFECTOS PRINCIPALES
Table 14.4: Notación para las medias poblacionales y totales en una tabla factorial
(a)
(b)
Ahora que tenemos esta notación, es sencillo formular y expresar algunas hipótesis.
Supongamos que el objetivo es averiguar dos cosas. Primero, ¿la elección del fármaco
tiene algún efecto sobre el estado de ánimo? Y segundo, ¿la TCC tiene algún efecto
sobre el estado de ánimo? Por supuesto, estas no son las únicas hipótesis que podríamos
formular, y veremos un ejemplo realmente importante de un tipo diferente de hipótesis
en la sección [ANOVA factorial 2: diseños balanceados, interacciones permitidas], pero
estas son las dos hipótesis más simples para poner a prueba, así que empezaremos por
ahí. Considera la primera prueba. Si el fármaco no tiene efecto entonces esperaríamos
que todas las medias de la fila fueran idénticas, ¿verdad? Así que esa es nuestra hipótesis
nula. Por otro lado, si el fármaco sí importa, deberíamos esperar que estas medias de
fila sean diferentes. Formalmente, escribimos nuestras hipótesis nula y alternativa en
términos de igualdad de medias marginales:
Hipótesis nula, 𝐻0 : las medias de las filas son las mismas, es decir, 𝜇1. = 𝜇2. = 𝜇3.
Vale la pena señalar que estas son exactamente las mismas hipótesis estadísticas que
formamos cuando ejecutamos un ANOVA unifactorial en estos datos en Chapter 13. En
aquel entonces, usé la notación 𝜇 × 𝑃 para referirme a la ganancia media en el estado
de ánimo del grupo placebo, con 𝜇𝐴 y 𝜇 × 𝐽 correspondientes a las medias del grupo.
para los dos fármacos, y la hipótesis nula fue 𝜇𝑃 = 𝜇𝐴 = 𝜇𝐽 . Entonces, en realidad
estamos hablando de la misma hipótesis, solo que el ANOVA más complicado requiere
una notación más cuidadosa debido a la presencia de múltiples variables de agrupación,
por lo que ahora nos referimos a esta hipótesis como 𝜇1. = 𝜇2. = 𝜇3. . Sin embargo,
como veremos en breve, aunque la hipótesis es idéntica, la prueba de esa hipótesis es
sutilmente diferente debido al hecho de que ahora estamos reconociendo la existencia
de la segunda variable de agrupación.
Hablando de la otra variable de agrupación, no te sorprenderás al descubrir que nuestra
segunda prueba de hipótesis está formulada de la misma manera. Sin embargo, dado
que estamos hablando de terapia psicológica en lugar de fármacos, nuestra hipótesis
nula ahora corresponde a la igualdad de las medias de la columna:
Hipótesis nula, 𝐻0 : las medias de las columnas son las mismas, es decir, 𝜇.1 = 𝜇.2
392 CHAPTER 14. ANOVA FACTORIAL
Hipótesis alternativa, 𝐻1 : las medias de las columnas son diferentes, es decir, 𝜇.1 ≠ 𝜇.2
Ahora, supongamos que también tengo curiosidad por saber si la terapia tiene una
relación con el aumento del estado de ánimo. A la luz de lo que hemos visto de nuestra
discusión sobre la regresión múltiple en Chapter 12, probablemente no te sorprenda que
todo lo que tenemos que hacer es agregar la terapia como un segundo ‘Factor fijo’ en el
análisis, ver Figure 14.3.
Esta salida es bastante simple de leer también. La primera fila de la tabla informa un
valor de suma de cuadrados (SC) entre grupos asociado con el factor de fármaco, junto
con un valor de gl entre grupos correspondiente. También calcula un valor de la media
cuadrática (MC), un estadístico F y un valor p. También hay una fila que corresponde
al factor de terapia y una fila que corresponde a los residuales (es decir, la variación
dentro de los grupos).
14.1. ANOVA FACTORIAL 1: DISEÑOS BALANCEADOS, CENTRADOS EN LOS EFECTOS PRINCIPALES
No solo todas las cantidades individuales son bastante familiares, sino que las relaciones
entre estas diferentes cantidades se han mantenido sin cambios, tal como vimos con
el ANOVA unifactorial original. Ten en cuenta que el valor de la media cuadrática se
calcula dividiendo 𝑆𝑆 por el 𝑑𝑓 correspondiente. Es decir, sigue siendo cierto que
𝑆𝑆
𝑀𝑆 =
𝑑𝑓
𝑀 𝑆𝐴
𝐹𝐴 =
𝑀 𝑆𝑅
y existe una fórmula equivalente para el factor B (es decir, terapia). Ten en cuenta que
este uso de “R” para referirse a los residuales es un poco incómodo, ya que también
usamos la letra R para referirnos al número de filas en la tabla, pero solo voy a usar “R”
para referirme a los residuales en el contexto de SCR y MCR, así que espero que esto
no sea confuso. De todos modos, para aplicar esta fórmula al factor fármacos cogemos
la media cuadrática de 1,73 y lo dividimos por el valor de la media cuadrática residual
de 0, 07, lo que nos da un estadístico F de 26,15. El cálculo correspondiente para la
394 CHAPTER 14. ANOVA FACTORIAL
variable de terapia sería dividir 0.47 por 0.07 lo que da 7.08 como estadístico F. Por
supuesto, no sorprende que estos sean los mismos valores que jamovi ha informado en
la tabla ANOVA anterior.
También en la tabla ANOVA está el cálculo de los valores de p. Una vez más, no hay
nada nuevo aquí. Para cada uno de nuestros dos factores, lo que intentamos hacer es
probar la hipótesis nula de que no existe una relación entre el factor y la variable de
resultado (seré un poco más precisa sobre esto más adelante). Con ese fin, (aparente-
mente) hemos seguido una estrategia similar a la que hicimos en el ANOVA unifactorial
y hemos calculado un estadístico F para cada una de estas hipótesis. Para convertirlos
en valores p, todo lo que debemos hacer es observar que la distribución muestral para
el estadístico F bajo la hipótesis nula (el factor en cuestión es irrelevante) es una dis-
tribución F. También ten en cuenta que los valores de los dos grados de libertad son los
correspondientes al factor y los correspondientes a los residuales. Para el factor de fár-
macos, estamos hablando de una distribución F con 2 y 14 grados de libertad (hablaré
de los grados de libertad con más detalle más adelante). En cambio, para el factor de
terapia la distribución muestral es F con 1 y 14 grados de libertad.
En este punto, espero que puedas ver que la tabla ANOVA para este análisis factorial
más complicado debe leerse de la misma manera que la tabla ANOVA para el análisis
unifactorial más simple. En resumen, nos dice que el ANOVA factorial para nuestro
diseño de 3𝑥2 encontró un efecto significativo del fármaco (𝐹2,14 = 26, 15, 𝑝 < 0, 001),
así como un efecto significativo de la terapia ( 𝐹1,14 = 7.08, 𝑝 = .02). O, para usar
la terminología más técnicamente correcta, diríamos que hay dos efectos principales
del fármaco y la terapia. Por el momento, probablemente parezca un poco redundante
referirse a estos como efectos “principales”, pero en realidad tiene sentido. Más adelante,
vamos a querer hablar sobre la posibilidad de “interacciones” entre los dos factores,
por lo que generalmente hacemos una distinción entre efectos principales y efectos de
interacción.
Table 14.5: Notación para medias muestrales para los datos de ensayos clínicos
(a)
(b)
referirnos al resultado asociado con el i-ésimo miembro del grupo rc (es decir, nivel/fila
r para el Factor A y nivel/columna c para el Factor B). Por lo tanto, si usamos 𝑌 ̄ para
referirnos a la media de una muestra, podemos usar la misma notación que antes para
referirnos a las medias de grupo, medias marginales y medias generales. Es decir, 𝑌𝑟𝑐 ̄ es
la media muestral asociada al r-ésimo nivel del Factor A y al c-ésimo nivel del Factor:
̄ sería la media marginal para el r-ésimo nivel del Factor A, 𝑌.𝑐
𝑌𝑟. ̄ sería la media marginal
para el c-ésimo nivel del Factor B, y 𝑌..̄ es la media general. En otras palabras, nuestras
medias muestrales se pueden organizar en la misma tabla que las medias poblacionales.
Para los datos de nuestro ensayo clínico, esa tabla se muestra en Table 14.5.
Y si observamos las medios muestrales que presenté anteriormente, tenemos 𝑌11 ̄ = 0, 30,
̄
𝑌12 = 0, 60, etc. En nuestro ejemplo del ensayo clínico, el factor de fármacos tiene 3
niveles y el factor de terapia tiene 2 niveles, entonces lo que estamos tratando de ejecutar
es un ANOVA factorial de 3 × 2. Sin embargo, seremos un poco más generales y diremos
que el Factor A (el factor de fila) tiene niveles R y el Factor B (el factor de columna)
tiene C niveles, por tanto lo que estamos ejecutando aquí es $R ×C $ ANOVA factorial.
396 CHAPTER 14. ANOVA FACTORIAL
para cada uno de los dos factores de una manera relativamente familiar. Para el Factor A, nuestra suma
de cuadrados entre grupos se calcula evaluando hasta qué punto las medias marginales (fila) 𝑌1. ̄ , 𝑌2.
̄ ,
etc., son diferente de la media general 𝑌..̄ Hacemos esto de la misma manera que lo hicimos para ANOVA
̄ y 𝑌..̄ . Específicamente,
unifactorial: calcula la suma de la diferencia al cuadrado entre los valores 𝑌𝑖.
si hay N personas en cada grupo, entonces calculamos
𝑅
̄ − 𝑌..̄ )2
𝑆𝑆𝐴 = (𝑁 × 𝐶) ∑(𝑌𝑟.
𝑟=1
Al igual que con ANOVA unifactorial, la parte 𝑎 es la más interesante de esta fórmula, que corresponde
a la desviación al cuadrado asociada con el nivel r. Lo que hace esta fórmula es calcular esta desviación
al cuadrado para todos los niveles R del factor, sumarlos y luego multiplicar el resultado por 𝑁 × 𝐶.
La razón de esta última parte es que hay múltiples celdas en nuestro diseño que tienen nivel 𝑟 en el
Factor A. De hecho, hay C de ellas, una correspondiente a cada nivel posible del Factor B. Por ejemplo,
en nuestro ejemplo hay dos celdas diferentes en el diseño correspondientes al fármaco sin ansiedad: una
para personas sin terapia y otra para el grupo de TCC. Y mo solo eso, dentro de cada una de estas
celdas hay N observaciones. Entonces, si queremos convertir nuestro valor SC en una cantidad que
calcule la suma de cuadrados entre grupos “por observación”, tenemos que multiplicar por 𝑁 × 𝐶. La
fórmula para el factor 𝐵 es, por supuesto, la mismo, solo que con algunos subíndices mezclados
𝐶
̄ − 𝑌..̄ )2
𝑆𝑆𝐵 = (𝑁 × 𝑅) ∑(𝑌.𝑐
𝑐=1
Ahora que tenemos estas fórmulas, podemos compararlas con la salida jamovi de la sección anterior. Una
vez más, unade hoja de cálculo es útil para este tipo de cálculos, así que pruébalo tú misma. También
puedes echarle un vistazo a la versión que hice en Excel en el archivo clinictrial_factorialanova.xls.
Primero, calculemos la suma de cuadrados asociada con el efecto principal del fármaco. Hay un total
de 𝑁 = 3 personas en cada grupo y 𝐶 = 2 diferentes tipos de terapia. O, dicho de otro modo, hay
3 × 2 = 6 personas que recibieron algún fármaco en particular. Cuando hacemos estos cálculos en una
hoja de cálculo, obtenemos un valor de 3,45 para la suma de cuadrados asociada con el efecto principal
del fármaco. No es sorprendente que este sea el mismo número que obtienes cuando buscas el valor SC
para el factor de fármacos en la tabla ANOVA que presenté anteriormente, en Figure 14.3. Podemos
repetir el mismo tipo de cálculo para el efecto de la terapia. Nuevamente, hay 𝑁 = 3 personas en cada
grupo, pero como hay 𝑅 = 3 medicamentos diferentes, esta vez notamos que hay 3 × 3 = 9 personas
que recibieron TCC y 9 personas adicionales que recibieron el placebo. Así que nuestro cálculo en
este caso nos da un valor de 0.47 para la suma de cuadrados asociada con el efecto principal de la
terapia. Una vez más, no nos sorprende ver que nuestros cálculos son idénticos a la salida de ANOVA
en Figure 14.3. Así es como se calculan los valores SC para los dos efectos principales. Estos valores
SC son análogos a los valores de suma de cuadrados entre grupos que calculamos al hacer ANOVA
unifactorial en Chapter 13. Sin embargo, ya no es una buena idea pensar en ellos como valores SC
entre grupos, porque tenemos dos variables de agrupación diferentes y es fácil confundirse. Sin embargo,
para construir una prueba 𝐹 , también necesitamos calcular la suma de cuadrados dentro de los grupos.
De acuerdo con la terminología que usamos en Chapter 12 y la terminología que jamovi usa al imprimir
la tabla ANOVA, comenzaré a referirme al valor SC dentro de los grupos como la suma de cuadrados
residual 𝑆𝐶𝑅 . Creo que la manera más fácil de pensar en los valores de la SC residual en este contexto
es pensar en ello como la variación sobrante en la variable de resultado después de tener en cuenta las
diferencias en las medias marginales (es decir, después de eliminar 𝑆𝐶𝐴 y 𝑆𝐶𝐵 ). Lo que quiero decir
con eso es que podemos comenzar calculando la suma de cuadrados total, que etiquetaré como 𝑆𝐶𝑇 .
La fórmula para esto es más o menos la misma que para ANOVA unifactorial. Cogemos la diferencia
entre cada observación Yrci y la media general 𝑌..̂ , elevamos al cuadrado las diferencias y las sumamos
todas
𝑅 𝐶 𝑁
𝑆𝑆𝑇 = ∑ ∑ ∑(𝑌𝑟𝑐𝑖 − 𝑌..̄ )2
𝑟=1 𝑐=1 𝑖=1
La “suma triple” aquí parece más complicada de lo que es. En las dos primeras sumas, sumamos todos
los niveles del Factor 𝐴 (es decir, todas las filas r posibles de nuestra tabla) y todos los niveles del
Factor 𝐵 (es decir, todas las columnas posibles 𝑐). Cada combinación rc corresponde a un solo grupo
y cada grupo contiene 𝑁 personas, por lo que también tenemos que sumar todas esas personas (es
decir, todos los valores de 𝑖). En otras palabras, todo lo que estamos haciendo aquí es sumar todas las
observaciones en el conjunto de datos (es decir, todas las posibles combinaciones de rci). En este punto,
conocemos la variabilidad total de la variable de resultado SCT y sabemos cuánto de esa variabilidad se
14.1. ANOVA FACTORIAL 1: DISEÑOS BALANCEADOS, CENTRADOS EN LOS EFECTOS PRINCIPALES
mismo.
¿Por qué sucede eso? La respuesta está en comprender cómo se calculan los residuales.
Recuerda que la idea que subyace a una prueba F es comparar la variabilidad que se
puede atribuir a un factor en particular con la variabilidad que no se puede explicar (los
residuales). Si ejecutas un ANOVA unifactorial para la terapia y, por lo tanto, ignoras
el efecto del fármaco, ¡el ANOVA terminará volcando toda la variabilidad inducida por
el fármaco en los residuales! Esto tiene el efecto de hacer que los datos parezcan más
ruidosos de lo que realmente son, y el efecto de la terapia que se encontró correctamente
significativo en el ANOVA de dos vías ahora se vuelve no significativo. Si ignoramos algo
realmente importante (p. ej., un fármaco) cuando tratamos de evaluar la contribución
de otra cosa (p. ej., una terapia), nuestro análisis se verá distorsionado. Por supuesto,
está perfectamente bien ignorar las variables que son genuinamente irrelevantes para el
fenómeno de interés. Si hubiéramos registrado el color de las paredes, y resultó ser un
factor no significativo en un ANOVA de tres vías, estaría perfectamente bien ignorarlo
e informar el ANOVA de dos vías más simple que no incluye este factor irrelevante. ¡Lo
que no debes hacer es descartar variables que realmente marcan la diferencia!
el hecho de que las dos líneas no son paralelas. El efecto de la TCC (diferencia entre
la línea continua y la línea punteada) cuando el fármaco es Joyzepam (lado derecho)
parece ser cercano a cero, incluso menor que el efecto de la TCC cuando se usa un
placebo (lado izquierdo). Sin embargo, cuando se administra Anxifree, el efecto de la
TCC es mayor que el del placebo (centro). ¿Este efecto es real o es solo una variación
aleatoria debida al azar? ¡Nuestro ANOVA original no puede responder a esta pregunta,
porque no tenemos en cuenta la idea de que las interacciones existen! En esta sección,
solucionaremos este problema.
Group mean
2.0 2.0
1.5 1.5
1.0 1.0
0.5 0.5
level 1 level 2 level 1 level 2
Factor A Factor A
(a) (b)
A and B both have an effect Neither A or B has an effect
2.5 Factor B, level 1 2.5 Factor B, level 1
Factor B, level 2 Factor B, level 2
Group mean
Group mean
2.0 2.0
1.5 1.5
1.0 1.0
0.5 0.5
level 1 level 2 level 1 level 2
Factor A Factor A
(c) (d)
Figure 14.4: Los cuatro resultados diferentes para un ANOVA de 2 × 2 cuando no hay
interacciones presentes. En el panel (a) vemos un efecto principal del Factor A y ningún
efecto del Factor B. El panel (b) muestra un efecto principal del Factor B pero ningún
efecto del Factor A. El panel (c) muestra los efectos principales tanto del Factor A como
del Factor A. Finalmente, el panel (d) muestra ningún efecto de ninguno de los factores
400 CHAPTER 14. ANOVA FACTORIAL
Group mean
2.0 2.0
1.5 1.5
1.0 1.0
0.5 0.5
level 1 level 2 level 1 level 2
Factor A Factor A
(a) (b)
One cell is different Effect for one level of Factor B
2.5 Factor B, level 1 2.5 Factor B, level 1
Factor B, level 2 Factor B, level 2
Group mean
Group mean
2.0 2.0
1.5 1.5
1.0 1.0
0.5 0.5
level 1 level 2 level 1 level 2
Factor A Factor A
(c) (d)
Figure 14.6: pantalla jamovi que muestra cómo generar un gráfico de interacción de-
scriptivo en ANOVA utilizando los datos de ensayos clínicos
de hipótesis nula y alternativa es un poco difícil, y supongo que muchos de los lectores de este libro
probablemente no están tan interesados. Aun así, intentaré ofrecer una idea básica. Para empezar,
necesitamos ser un poco más explícitos acerca de nuestros efectos principales. Considera el efecto
principal del Factor 𝐴 (fármaco en nuestro ejemplo). Originalmente formulamos esto en términos de
la hipótesis nula de que las dos medias marginales 𝜇𝑟 . son iguales entre si. Obviamente, si son iguales
entre sí, entonces también deben ser iguales a la media general 𝜇.. , ¿verdad? Entonces, lo que podemos
hacer es definir el efecto del Factor 𝐴 en el nivel 𝑟 para que sea igual a la diferencia entre la media
marginal 𝜇𝑟. y la media general 𝜇.. . Denotemos este efecto por 𝛼𝑟 , y observemos que
𝛼𝑟 = 𝜇𝑟. − 𝜇..
402 CHAPTER 14. ANOVA FACTORIAL
Ahora, por definición, todos los valores de 𝛼𝑟 deben sumar cero, por la misma razón que el promedio
de las medias marginales 𝜇𝑐 debe ser la media general 𝜇.. . De manera similar, podemos definir el efecto
del Factor B en el nivel i como la diferencia entre la media marginal de la columna 𝜇.𝑐 y la media
general 𝜇..
𝛽𝑐 = 𝜇.𝑐 − 𝜇..
y una vez más, estos valores de 𝛽𝑐 deben sumar cero. La razón por la que a veces a los estadísticos
les gusta hablar de los efectos principales en términos de estos valores 𝛼𝑟 y 𝛽𝑐 es que les permite ser
precisos sobre lo que significa decir que no hay efecto de interacción. Si no hay interacción en absoluto,
entonces estos valores 𝛼𝑟 y 𝛽𝑐 describirán perfectamente las medias del grupo 𝑚𝑢𝑟𝑐 . Específicamente,
significa que
𝜇𝑟𝑐 = 𝜇.. + 𝛼𝑟 + 𝛽𝑐
Es decir, no hay nada especial en las medias grupales que no pudieras predecir conociendo las medias
marginales. Y ahí está nuestra hipótesis nula. La hipótesis alternativa es que
𝜇𝑟𝑐 ≠ 𝜇.. + 𝛼𝑟 + 𝛽𝑐
para al menos un grupo 𝑟𝑐 en nuestra tabla. Sin embargo, a los estadísticos a menudo les gusta escribir
esto de manera ligeramente diferente. Por lo general, definirán la interacción específica asociada con el
grupo 𝑟𝑐 como un número, torpemente denominado (𝛼𝛽)𝑟𝑐 , y luego dirán que la hipótesis alternativa
es que
𝜇𝑟𝑐 = 𝜇.. + 𝛼𝑟 + 𝛽𝑐 + (𝛼𝛽)𝑟𝑐
donde (𝛼𝛽)𝑟𝑐 es distinto de cero para al menos un grupo. Esta notación es un poco fea a la vista, pero
es útil, como veremos cuando analicemos cómo calcular la suma de cuadrados. ¿Cómo debemos calcular
la suma de cuadrados para los términos de interacción, 𝑆𝑆𝐴∶𝐵 ? Bueno, en primer lugar, es útil notar
cómo acabamos de definir el efecto de interacción en términos de en qué medida las medias grupales
difieren de lo que esperarías mirando sólo las medias marginales. Por supuesto, todas esas fórmulas
se refieren a parámetros poblacionales en lugar de estadísticas muestrales, por lo que en realidad no
sabemos cuáles son. Sin embargo, podemos estimarlos usando medias muestrales en lugar de medias
poblacionales. Entonces, para el Factor 𝐴, una buena manera de estimar el efecto principal en el nivel
̄ y la media general muestral 𝑌..̄ Es decir,
r es como la diferencia entre la media marginal muestral 𝑌𝑟𝑐
usaríamos esto como nuestra estimación del efecto
𝛼̂ 𝑟 = 𝑏𝑎𝑟𝑌𝑟. − 𝑌..̄
De manera similar, nuestra estimación del efecto principal del Factor B en el nivel c se puede definir
de la siguiente manera
𝛽𝑐̂ = 𝑌.𝑐
̂ − 𝑌..̄
Ahora, si vuelves a las fórmulas que usé para describir los valores de 𝑆𝐶 para los dos efectos princi-
pales, notarás que estos términos de efectos son exactamente las cantidades que estábamos elevando
al cuadrado y sumando. Entonces, ¿cuál es el análogo de esto para los términos de interacción? La
respuesta a esto la podemos encontrar primero reorganizando la fórmula para las medias grupales 𝜇𝑟𝑐
bajo la hipótesis alternativa, de modo que obtengamos
(𝛼𝛽)𝑟𝑐 = 𝜇𝑟𝑐 − 𝜇.. − 𝛼𝑟 − 𝛽𝑐
= 𝜇𝑟𝑐 − 𝜇.. − (𝜇𝑟. − 𝜇.. ) − (𝜇.𝑐 − 𝜇.. )
= 𝜇𝑟𝑐 − 𝜇𝑟. − 𝜇.𝑐 + 𝜇..
Entonces , una vez más, si sustituimos nuestros estadísticos muestrales en lugar de las medias pobla-
cionales, obtenemos lo siguiente como nuestra estimación del efecto de interacción para el grupo 𝑟𝑐,
que es
̂
(𝛼𝛽) ̄ ̂ ̄ ̄
𝑟𝑐 = 𝑌𝑟𝑐 − 𝑌𝑟. − 𝑌.𝑐 + 𝑌..
Ahora lo que tenemos hacer es sumar todas estas estimaciones en todos los niveles de 𝑅 del Factor 𝐴
y todos los niveles de 𝐶 del Factor 𝐵, y obtenemos la siguiente fórmula para la suma de cuadrados
asociados con la interacción como un todo
𝑅 𝐶
̄ − 𝑌𝑟.
𝑆𝑆𝐴∶𝐵 = 𝑁 ∑ ∑(𝑌𝑟𝑐 ̄ − 𝑏𝑎𝑟𝑌.𝑐 + 𝑌..̄ )2
𝑟=1 𝑐=1
donde multiplicamos por N porque hay N observaciones en cada uno de los grupos, y queremos que
nuestros valores 𝑆𝐶 reflejen la variación entre observaciones explicada por la interacción, no la variación
entre grupos. Ahora que tenemos una fórmula para calcular 𝑆𝑆𝐴∶𝐵 , es importante reconocer que el
término de interacción es parte del modelo (por supuesto), por lo que la suma de cuadrados total
14.2. ANOVA FACTORIAL 2: DISEÑOS BALANCEADOS, INTERPRETACIÓN DE LAS INTERACCIONES
𝑑𝑓𝐴∶𝐵 = (𝑅 × 𝐶 − 1) − (𝑅 − 1) − (𝐶 − 1)
= 𝑅𝐶 − 𝑅 − 𝐶 + 1
= (𝑅 − 1)(𝐶 − 1)
que es simplemente el producto de los grados de libertad asociados con el factor de fila
y el factor de columna.
¿Qué pasa con los grados de libertad residuales? Debido a que hemos agregado términos
de interacción que absorben algunos grados de libertad, quedan menos grados de libertad
residuales. Específicamente, ten en cuenta que si el modelo con interacción tiene un total
de (𝑅 × 𝐶) − 1, y hay 𝑁 observaciones en su conjunto de datos que están restringidas
para satisfacer 1 media general, tus grados de libertad residuales ahora se convierten en
𝑁 − (𝑅 × 𝐶) − 1 + 1, o simplemente 𝑁 − (𝑅 × 𝐶).
Resulta que, aunque tenemos un efecto principal significativo del fármaco (𝐹2,12 =
31, 7, 𝑝 < 0, 001) y el tipo de terapia ($F_{1,12} = 8,6, p = 0,013 ), 𝑛𝑜ℎ𝑎𝑦𝑢𝑛𝑎𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖𝑛𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎𝑒𝑛𝑡𝑟𝑒𝑙𝑜𝑠𝑑𝑜𝑠(
= 2,5, p = 0,125$).
asociada con el modelo, SCM, ahora es igual a la suma de los tres valores SC relevantes, 𝑆𝐶𝐴 + 𝑆𝐶𝐵 +
𝑆𝐶𝐴∶𝐵 . La suma de cuadrados residual SCR se define como la variación sobrante, a saber, 𝑆𝐶𝑇 − 𝑆𝐶𝑀 ,
pero ahora que tenemos el término de interacción, se convierte en
Como consecuencia, la suma de cuadrados residual 𝑆𝑆𝑅 será menor que en nuestro ANOVA original
que no incluía interacciones.
5 Es posible que ya hayas notado esto al mirar el análisis de efectos principales en jamovi que de-
Figure 14.7: Resultados del modelo factorial completo, incluido el componente de inter-
acción fármaco × terapia
En segundo lugar, existe un problema de interpretación muy peculiar que surge cuando
se obtiene un efecto de interacción significativo pero no un efecto principal correspon-
diente. Esto sucede a veces. Por ejemplo, en la interacción cruzada que se muestra
en Figure 14.5 a, esto es exactamente lo que encontrarías. En este caso, ninguno de
los efectos principales sería significativo, pero el efecto de interacción sí lo sería. Esta
es una situación difícil de interpretar, y la gente a menudo se confunde un poco al re-
specto. El consejo general que les gusta dar a los estadísticos en esta situación es que
no debes prestar mucha atención a los efectos principales cuando hay una interacción.
La razón por la que dicen esto es que, aunque las pruebas de los efectos principales son
perfectamente válidas desde un punto de vista matemático, cuando hay un efecto de
interacción significativo, los efectos principales rara vez prueban hipótesis interesantes.
Recuerda de Section 14.1.1 que la hipótesis nula para un efecto principal es que las me-
dias marginales son iguales entre sí, y que una media marginal se forma promediando
varios grupos diferentes. Pero si tienes un efecto de interacción significativo, entonces
sabes que los grupos que componen la media marginal no son homogéneos, por lo que
no está claro por qué te interesarían esas medias marginales.
Esto es lo que quiero decir. Una vez más, sigamos con un ejemplo clínico. Supongamos
que tuviéramos un diseño de 2 × 2 que comparara dos tratamientos diferentes para las
fobias (p. ej., desensibilización sistemática frente a inundación) y dos fármacos diferentes
para reducir la ansiedad (p. ej., Anxifree frente a Joyzepam). Ahora, supongamos que
descubrimos que Anxifree no tuvo efecto cuando el tratamiento fue la desensibilización,
y Joyzepam no tuvo efecto cuando el tratamiento fue la inundación. Pero ambos fueron
bastante efectivos para el otro tratamiento. Esta es una interacción cruzada clásica,
14.3. TAMAÑO DEL EFECTO 405
2 𝑆𝑆𝐴
𝜂𝐴 =
𝑆𝑆𝑇
Como antes, esto se puede interpretar de la misma manera que 𝑅2 en regresión.6 Indica
la proporción de varianza en la variable de resultado que se puede explicar por el efecto
principal de Factor A. Por lo tanto, es un número que va de 0 (ningún efecto) a 1
(considera toda la variabilidad en el resultado). Además, la suma de todos los valores
de 𝜂2 , cogidos de todos los términos del modelo, sumará el total de 𝑅2 para el modelo
ANOVA. Si, por ejemplo, el modelo ANOVA se ajusta perfectamente (es decir, ¡no hay
ninguna variabilidad dentro de los grupos!), los valores de 𝜂2 sumarán 1. Por supuesto,
eso rara vez sucede en la vida real.
6 este capítulo parece estar estableciendo un nuevo récord por la cantidad de cosas diferentes que
puede representar la letra R. Hasta ahora tenemos R refiriéndose al paquete de software, el número
de filas en nuestra tabla de medias, los residuales en el modelo y ahora el coeficiente de correlación en
una regresión. Lo siento. Claramente no tenemos suficientes letras en el alfabeto. Sin embargo, me he
esforzado mucho para dejar claro a qué se refiere R en cada caso.
406 CHAPTER 14. ANOVA FACTORIAL
Table 14.6: tamaños del efecto cuando el término de interacción **no** está incluido
en el modelo ANOVA
(a)
(b)
eta.sq partial.eta.sq
drug 0.71 0.79
therapy 0.10 0.34
Sin embargo, al hacer un ANOVA factorial, hay una segunda medida del tamaño del
efecto que a la gente le gusta informar, conocida como 𝜂2 parcial. La idea que subyace a
2
𝜂2 parcial (que a veces se denomina 𝑝𝜂 o 𝜂𝑝2 ) es que, al medir el tamaño del efecto para
un término en particular (digamos, el efecto principal del Factor A), deseas ignorar
deliberadamente los otros efectos en el modelo (por ejemplo, el efecto principal del
Factor B). Es decir, supondrías que el efecto de todos estos otros términos es cero y
luego calcularías cuál habría sido el valor de 𝜂2 . En realidad, esto es bastante fácil de
calcular. Todo lo que tienes que hacer es quitar la suma de cuadrados asociada con
los otros términos del denominador. En otras palabras, si deseas el 𝜂2 parcial para el
efecto principal del Factor A, el denominador es solo la suma de los valores de SC para
el Factor A y los residuales
2 𝑆𝑆𝐴
parcial𝜂𝐴 =
𝑆𝑆𝐴 + 𝑆𝑆𝑅
Esto siempre te dará un número mayor que 𝜂2 , que la cínica en mí sospecha que explica
la popularidad de 𝜂2 parcial. Y una vez más obtienes un número entre 0 y 1, donde 0
representa ningún efecto. Sin embargo, es un poco más complicado interpretar lo que
significa un gran valor de 𝜂2 parcial. En particular, ¡no puedes comparar los valores de
𝜂2 parcial entre términos! Supongamos, por ejemplo, que no hay ninguna variabilidad
dentro de los grupos: si es así, 𝑆𝐶𝑅 = 0. Lo que eso significa es que cada término tiene
un valor de 𝜂2 parcial de 1. Pero eso no significa que todos los términos en tu modelo
sean igualmente importantes, o que sean igualmente grandes. Todo lo que significa
es que todos los términos en tu modelo tienen tamaños de efecto que son grandes en
relación con la variación residual. No es comparable entre términos.
Para ver lo que quiero decir con esto, es útil ver un ejemplo concreto. Primero, echemos
un vistazo a los tamaños del efecto para el ANOVA original (Table 14.6) sin el término
de interacción, de Figure 14.3.
Mirando primero los valores de 𝜂2 , vemos que el fármaco representa el 71 % de la varianza
(es decir, 𝜂2 = 0, 71) en el aumento del estado de ánimo, mientras que la terapia solo
representa el 10 %. Esto deja un total de 19% de la variación sin contabilizar (es decir,
los residuales constituyen el 19% de la variación en el resultado). En general, esto
implica que tenemos un efecto muy grande 7 del fármaco y un efecto modesto de la
terapia.
7 Inverosímilmente grande, creo. ¡La artificialidad de este conjunto de datos realmente está comen-
zando a mostrarse!
14.3. TAMAÑO DEL EFECTO 407
Table 14.7: tamaños del efecto cuando el término de interacción **se** incluye en el
modelo ANOVA
(a)
(b)
eta.sq partial.eta.sq
drug 0.71 0.84
therapy 0.10 0.42
drug*therapy 0.06 0.29
Ahora veamos los valores de 𝜂2 parcial, que se muestran en Figure 14.3. Debido a que el
efecto de la terapia no es tan grande, controlarlo no genera mucha diferencia, por lo que
2
el 𝜂2 parcial para el fármaco no aumenta mucho y obtenemos un valor de 𝑝𝜂 = 0, 79.
Por el contrario, debido a que el efecto del fármaco fue muy grande, controlarlo provoca
una gran diferencia, por lo que cuando calculamos el 𝜂2 parcial para la terapia, puedes
ver que aumenta a $p{� 2 } = 0,34 $. La pregunta que tenemos que hacernos es, ¿qué
significan realmente estos valores de 𝜂2 parcial? La forma en que generalmente interpreto
el 𝜂2 parcial para el efecto principal del Factor A es interpretarlo como una declaración
sobre un experimento hipotético en el que solo se varió el Factor A. Así, aunque en este
experimento variamos tanto A como B, podemos imaginar fácilmente un experimento en
el que solo se varió el Factor A, y el estadístico 𝜂2 parcial te dice cuánto de la varianza en
la variable de resultado esperarías ver contabilizado en ese experimento. Sin embargo,
debes tenerse en cuenta que esta interpretación, como muchas cosas asociadas con los
efectos principales, no tiene mucho sentido cuando hay un efecto de interacción grande
y significativo.
Hablando de efectos de interacción, Table 14.7 muestra lo que obtenemos cuando cal-
culamos los tamaños del efecto para el modelo que incluye el término de interacción,
como en Figure 14.7. Como puedes ver, los valores de 𝜂2 para los efectos principales no
cambian, pero los valores de 𝜂2 parcial sí:
Figure 14.8: captura de pantalla de jamovi que muestra las medias marginales para el
modelo saturado, es decir, incluido el componente de interacción, con el conjunto de
datos del ensayo clínico
Cuando el modelo no contiene el término de interacción, las medias estimadas del grupo
serán diferentes de las medias muestrales. En lugar de informar la media muestral,
jamovi calculará el valor de las medias del grupo que se esperaría sobre la base de las
medias marginales (es decir, suponiendo que no hay interacción). Usando la notación
que desarrollamos anteriormente, la estimación informada para 𝜇𝑟𝑐 , la media para el
nivel r en el Factor A (fila) y el nivel c en el Factor B (columna) sería $�_{..} + �_r +
�_c ps Si realmente no hay interacciones entre los dos factores, esta es en realidad una
mejor estimación de la media poblacional que la media muestral sin procesar. Eliminar
el término de interacción del modelo, a través de las opciones ‘Modelo’ en el análisis
ANOVA de jamovi, proporciona las medias marginales para el análisis que se muestra
en Figure 14.9.
Figure 14.9: captura de pantalla de jamovi que muestra las medias marginales para el
modelo no saturado, es decir, sin el componente de interacción, con el conjunto de datos
del ensayo clínico
410 CHAPTER 14. ANOVA FACTORIAL
también estás suponiendo que los términos omitidos no son importantes. Por supuesto,
puedes verificar esto último ejecutando un ANOVA con los términos omitidos incluidos
y ver si son significativos, por lo que es bastante fácil. ¿Qué pasa con la homogeneidad
de la varianza y la normalidad de los residuales? Son bastante fáciles de verificar. No
es diferente a las comprobaciones que hicimos en un ANOVA unifactorial.
difiere en los dos grupos. ¿Sería razonable esta conclusión? Probablemente no porque
las edades de los dos grupos no se superponen y el análisis de varianza esencialmente
“se ha extrapolado a una región sin datos” (Everitt (1996), p. 68).
Figure 14.11: Gráfica de la ansiedad estadística frente a la edad para dos grupos distintos
‘edad’ y transfiérela al cuadro de texto ‘Covariables’. Luego haz clic en las medias
marginales estimadas para que aparezcan las opciones de diagramas y tablas.
En la ventana de resultados jamovi (Figure 14.13) se genera una tabla ANCOVA que
muestra las pruebas de los efectos entre sujetos. El valor de F para la covariable ‘edad’
es significativo en 𝑝 = .023, lo que sugiere que la edad es un predictor importante
de la variable dependiente, la felicidad. Cuando observamos las puntuaciones medias
marginales estimadas (Figure 14.14), se han realizado ajustes (en comparación con un
análisis sin la covariable) debido a la inclusión de la covariable ‘edad’ en este ANCOVA.
Un gráfico (Figure 14.15) es una buena manera de visualizar e interpretar los efectos
significativos.
El valor 𝐹 para el efecto principal ‘estrés’ (52.61) tiene una probabilidad asociada
de 𝑝 < .001. El valor 𝐹 para el efecto principal ‘desplazamiento’ (42.33) tiene una
probabilidad asociada de 𝑝 < .001. Dado que ambos son menores que la proba-
bilidad que normalmente se usa para decidir si un resultado estadístico es significa-
tivo (𝑝 < .05), podemos concluir que hubo un efecto principal significativo del estrés
(𝐹 (1, 15) = 52.61, 𝑝 < .001) y un efecto principal significativo del método de desplaza-
miento (𝐹 (1, 15) = 42.33, 𝑝 < .001). También se encontró una interacción significativa
entre el estrés y el método de desplazamiento (𝐹 (1, 15) = 14.15, 𝑝 = .002).
En Figure 14.15 podemos ver las puntuaciones de felicidad medias marginales ajustadas
414 CHAPTER 14. ANOVA FACTORIAL
Figure 14.13: resultados de jamovi ANCOVA para la felicidad en función del estrés y el
método de desplazamiento, con la edad como covariable
Figure 14.14: Tabla del nivel medio de felicidad en función del estrés y el método de
desplazamiento (ajustado por la covariable edad) con intervalos de confianza del 95 %
14.6. ANOVA COMO MODELO LINEAL 415
Figure 14.15: gráfico del nivel medio de felicidad en función del estrés y el método de
desplazamiento
Una cosa que debes tener en cuenta es que, si estás pensando en incluir una covariable
en tu ANOVA, hay una suposición adicional: la relación entre la covariable y la variable
dependiente debe ser similar para todos los niveles de la variable independiente. Esto se
puede verificar agregando un término de interacción entre la covariable y cada variable
independiente en la opción Modelo jamovi - Términos del modelo. Si el efecto de
interacción no es significativo, se puede eliminar. Si es significativo, entonces podría
ser apropiada una técnica estadística diferente y más avanzada (que está más allá del
alcance de este libro, por lo que es posible que desees consultar a un estadístico amigo).
𝑌𝑝 = 𝑏0 + 𝑏1 𝑋1𝑝 + 𝑏2 𝑋2𝑝 + 𝜖𝑝
donde 𝑌𝑝 es el valor de resultado para la p-ésima observación (p. ej., p-ésima persona),
𝑋1𝑝 es el valor del primer predictor para la p-ésima observación, 𝑋2𝑝 es el valor del
segundo predictor para la p-ésima observación, los términos 𝑏0 , 𝑏1 y 𝑏2 son nuestros
coeficientes de regresión, y 𝜖𝑝 es el p-ésimo residuo. Si ignoramos los residuos 𝜖𝑝 y solo
nos centramos en la línea de regresión, obtenemos la siguiente fórmula:
donde 𝑌𝑝̂ es el valor de Y que la línea de regresión predice para la persona p, a difer-
encia del valor realmente observado 𝑌𝑝 . Lo que no es inmediatamente obvio es que
también podemos escribir ANOVA como un modelo lineal. Sin embargo, en realidad es
bastante sencillo hacerlo. Comencemos con un ejemplo realmente simple, reescribiendo
un ANOVA factorial de 2 × 2 como un modelo lineal.
(a)
(b)
attendance,
person, 𝑝 grade, 𝑌𝑝 𝑋1𝑝 reading, 𝑋2𝑝
1 90 1 1
2 87 1 1
3 75 0 1
4 60 1 0
5 35 0 0
6 50 0 0
7 65 1 0
8 70 0 1
𝑌𝑝 = 𝑏0 + 𝑏1 𝑋1𝑝 + 𝑏2 𝑋2𝑝 + 𝜖𝑝
¡Esta es, por supuesto, exactamente la misma ecuación que usé anteriormente para
describir un modelo de regresión de dos predictores! La única diferencia es que 𝑋1 y
418 CHAPTER 14. ANOVA FACTORIAL
𝑋2 ahora son variables binarias (es decir, los valores solo pueden ser 0 o 1), mientras
que en un análisis de regresión esperamos que 𝑋1 y 𝑋2 sean continuos. Hay un par de
formas en las que podría tratar de convencerte de esto. Una posibilidad sería hacer un
largo ejercicio matemático demostrando que los dos son idénticos. Sin embargo, voy a
arriesgarme y supongo que la mayoría de las lectoras de este libro lo encontrarán molesto
en lugar de útil. En su lugar, explicaré las ideas básicas y luego confiaré en jamovi para
mostrar que los análisis ANOVA y los análisis de regresión no solo son similares, sino
que son idénticos a todos los efectos. Comencemos ejecutando esto como un ANOVA.
Para hacer esto, usaremos el conjunto de datos rtfm y Figure 14.17 muestra lo que
obtenemos cuando ejecutamos el análisis en jamovi.
Figure 14.17: ANOVA del conjunto de datos rtfm.csv en jamovi, sin el término de
interacción
Entonces, al leer los números clave de la tabla ANOVA y las puntuaciones medias que
14.6. ANOVA COMO MODELO LINEAL 419
presentamos anteriormente, podemos ver que los estudiantes obtuvieron una calificación
más alta si asistieron a clase (𝐹1,5 = 21.6, 𝑝 = .0056 ) y si leen el libro de texto
(𝐹1,5 = 52.3, 𝑝 = .0008). Anotemos esos valores p y esos estadísticos 𝐹 .
Ahora pensemos en el mismo análisis desde una perspectiva de regresión lineal. En el
conjunto de datos de rtfm, hemos codificado la asistencia y la lectura como si fueran
predictores numéricos. En este caso, esto es perfectamente aceptable. Realmente hay
un sentido en el que un estudiante que se presenta a clase (es decir, atiende = 1) de
hecho ha tenido “más asistencia” que un estudiante que no lo hace (es decir, atiende
= 0). Por lo tanto, no es nada irrazonable incluirlo como predictor en un modelo de
regresión. Es un poco inusual, porque el predictor solo tiene dos valores posibles, pero
no viola ninguno de los supuestos de la regresión lineal. Y es fácil de interpretar. Si
el coeficiente de regresión para asistir es mayor que 0 significa que los estudiantes que
asisten a clases obtienen calificaciones más altas. Si es menor que cero, los estudiantes
que asisten a clases obtienen calificaciones más bajas. Lo mismo es cierto para nuestra
variable de lectura.
Sin embargo, espera un segundo. ¿Por qué es esto cierto? Es algo que es intuitiva-
mente obvio para todos los que han recibido algunas clases de estadísticas y se sienten
cómodos con las matemáticas, pero no está claro para todos los demás a primera vista.
Para ver por qué esto es cierto, ayuda mirar de cerca a algunos estudiantes específicos.
Comencemos por considerar a los estudiantes de 6.º y 7.º en nuestro conjunto de datos
(es decir, 𝑝 = 6 y 𝑝 = 7). Ninguno ha leído el libro de texto, por lo que en ambos casos
podemos poner lectura = 0. O, para decir lo mismo en nuestra notación matemática,
observamos 𝑋2,6 = 0 y 𝑋2,7 = 0. Sin embargo, el estudiante número 7 sí se presentó
a las clases (es decir, asistió = 1, 𝑋1,7 = 1) mientras que el estudiante número 6 no
lo hizo (es decir, asistió = 0, 𝑋1,6 = 0). Ahora veamos qué sucede cuando insertamos
estos números en la fórmula general de nuestra línea de regresión. Para el estudiante
número 6, la regresión predice que
(a)
(b)
read
textbook
no yes
attended? no 𝛽0 𝛽0 + 𝛽 2
yes 𝛽0 + 𝛽 1 𝛽0 + 𝛽 1 + 𝛽 2
terminan rindiendo mucho peor. De hecho, podemos llevar esto un poco más lejos. ¿Qué
pasa con el estudiante número 1, que apareció en clase (𝑋1,1 = 1) y leyó el libro de texto
(𝑋2,1 = 1)? Si reemplazamos estos números en la regresión obtenemos
Entonces, si asumimos que asistir a clase te ayuda a obtener una buena calificación (es
decir, 𝑏1 0) y si asumimos que leer el libro de texto también te ayuda a obtener una
buena calificación (es decir, 𝑏2 0), entonces nuestra expectativa es que el estudiante 1
obtenga una calificación más alta que el estudiante 6 y el estudiante 7.
Y en este punto no te sorprenderá saber que el modelo de regresión predice que el
estudiante 3, que leyó el libro pero no asistió a las clases, obtendrá una calificación de
𝑏2 + 𝑏0 . No os aburriré con otra fórmula de regresión. En su lugar, lo que haré es
mostrarte Table 14.9 con las calificaciones esperadas.
Como puedes ver, el término de intercepción 𝑏0 actúa como una especie de calificación
“de referencia” que esperaría de aquellos estudiantes que no se toman el tiempo para
asistir a clase o leer el libro de texto. De manera similar, 𝑏1 representa el impulso que se
espera que obtengas si asistes a clase, y 𝑏2 representa el impulso que proviene de leer el
libro de texto. De hecho, si se tratara de un ANOVA, es posible que quieras caracterizar
b1 como el efecto principal de la asistencia y 𝑏2 como el efecto principal de la lectura.
De hecho, para un ANOVA simple de 2 × 2, así es exactamente como funciona.
Bien, ahora que realmente comenzamos a ver por qué ANOVA y la regresión son bási-
camente lo mismo, ejecutemos nuestra regresión usando los datos de rtfm y el análisis
de regresión jamovi para convencernos de que esto es realmente cierto. Ejecutar la
regresión de la manera habitual da los resultados que se muestran en Figure 14.18.
Hay algunas cosas interesantes a tener en cuenta aquí. Primero, fíjate que el término de
intersección es 43,5, que está cerca de la media del “grupo” de 42,5 observada para esos
dos estudiantes que no leyeron el texto ni asistieron a clase. En segundo lugar, observa
que tenemos el coeficiente de regresión de 𝑏1 = 18.0 para la variable de asistencia, lo
que sugiere que aquellos estudiantes que asistieron a clase obtuvieron una puntuación
un 18% más alta que aquellos que no asistieron. Entonces, nuestra expectativa sería que
14.6. ANOVA COMO MODELO LINEAL 421
Figure 14.18: análisis de regresión del conjunto de datos rtfm.csv en jamovi, sin el
término de interacción
aquellos estudiantes que asistieron a clase pero no leyeron el libro de texto obtuvieran
una calificación de 𝑏0 + 𝑏1 , que es igual a 43.5 + 18.0 = 61.5. Puedes comprobar por ti
misma que sucede lo mismo cuando miramos a los alumnos que leen el libro de texto.
En realidad, podemos ir un poco más allá al establecer la equivalencia de nuestro
ANOVA y nuestra regresión. Mira los valores p asociados con la variable de asisten-
cia y la variable de lectura en el resultado de la regresión. Son idénticos a los que
encontramos anteriormente cuando ejecutamos el ANOVA. Esto puede parecer un poco
sorprendente, ya que la prueba utilizada al ejecutar nuestro modelo de regresión calcula
un estadístico t y el ANOVA calcula un estadístico F. Sin embargo, si puedes recor-
dar todo el camino de regreso a Chapter 7, mencioné que existe una relación entre la
distribución t y la distribución F. Si tienes una cantidad que se distribuye de acuerdo
con una distribución t con k grados de libertad y la elevas al cuadrado, entonces esta
nueva cantidad al cuadrado sigue una distribución F cuyos grados de libertad son 1 y k.
Podemos verificar esto con respecto a los estadísticos t en nuestro modelo de regresión.
Para la variable de atención obtenemos un valor de 4,65. Si elevamos al cuadrado este
número, obtenemos 21,6, que coincide con el estadístico F correspondiente en nuestro
ANOVA.
Finalmente, una última cosa que debes saber. Debido a que jamovi comprende el hecho
de que ANOVA y la regresión son ejemplos de modelos lineales, te permite extraer
la tabla ANOVA clásica de su modelo de regresión utilizando la ‘Regresión lineal’ -
‘Coeficientes del modelo’ - ‘Prueba ómnibus’ - ‘Prueba ANOVA’, y esto te dará la tabla
que se muestra en Figure 14.19.
Figure 14.19: Resultados de la prueba Omnibus ANOVA del análisis de regresión jamovi
Table 14.10: contrastes binarios para discriminar entre los tres posibles fármacos
(a)
(b)
La respuesta a esta pregunta es bastante simple, en realidad. Todo lo que tenemos que
hacer es darnos cuenta de que un factor de tres niveles se puede reescribir como dos
variables binarias. Supongamos, por ejemplo, que yo fuera a crear una nueva variable
binaria llamada druganxifree. Siempre que la variable fármacos sea igual a “anxifree”
ponemos druganxifree = 1. De lo contrario, ponemos druganxifree = 0. Esta variable
establece un contraste, en este caso entre anxifree y los otros dos fármacos. Por sí solo,
por supuesto, el contraste druganxifree no es suficiente para capturar completamente
toda la información en nuestra variable de fármacos. Necesitamos un segundo contraste,
uno que nos permita distinguir entre el joyzepam y el placebo. Para ello, podemos
crear un segundo contraste binario, llamado drugjoyzepam, que vale 1 si el fármaco es
joyzepam y 0 si no lo es. En conjunto, estos dos contrastes nos permiten discriminar
perfectamente entre los tres posibles fármacos. Table 14.10 ilustra esto.
Ahora hemos recodificado nuestro factor de tres niveles en términos de dos variables
binarias y ya hemos visto que ANOVA y la regresión se comportan de la misma manera
para las variables binarias. Sin embargo, existen algunas complejidades adicionales que
surgen en este caso, que analizaremos en la siguiente sección.
Obviamente, aquí no hay sorpresas. Ese es exactamente el mismo ANOVA que ejecuta-
mos antes. A continuación, hagamos una regresión usando druganxifree, drugjoyzepam
y terapia TCC como predictores. Los resultados se muestran en Figure 14.21.
que la salida de la regresión imprima los resultados de cada uno de los tres predictores
por separado, tal como lo hizo cada vez que realizamos un análisis de regresión. Por un
lado, podemos ver que el valor p para la variable TCC es exactamente el mismo que
el del factor de terapia en nuestro ANOVA original, por lo que podemos estar seguras
de que el modelo de regresión está haciendo lo mismo que hizo el ANOVA. Por otro
lado, este modelo de regresión está probando el contraste druganxifree y el contraste
drugjoyzepam por separado, como si fueran dos variables completamente independientes.
Por supuesto, no es sorprendente, porque el pobre análisis de regresión no tiene forma
de saber que drugjoyzepam y druganxifree son en realidad los dos contrastes diferentes
que usamos para codificar nuestro factor de farmacos de tres niveles. Por lo que se sabe,
Drugjoyzepam y Druganxifree no están más relacionados entre sí que Drugjoyzepam y
TerapiaTCC. Sin embargo, tú y yo lo sabemos mejor. En este punto no estamos en abso-
luto interesadas en determinar si estos dos contrastes son individualmente significativos.
Solo queremos saber si hay un efecto “general” del fármaco. Es decir, lo que queremos
que haga jamovi es ejecutar algún tipo de prueba de “comparación de modelos”, una en
la que los dos contrastes “relacionados con los fármacos” se agrupan para el propósito
de la prueba. ¿Te suenoa? Todo lo que tenemos que hacer es especificar nuestro modelo
nulo, que en este caso incluiría el predictor de la terapia TCC y omitiría las dos variables
relacionadas con el fármaco, como en Figure 14.22.
Figure 14.22: Comparación de modelos en la regresión jamovi, modelo nulo 1 vs. modelo
de contrastes 2
Ah, eso está mejor. Nuestro estadístico F es 26,15, los grados de libertad son 2 y 14,
y el valor p es 0,00002. Los números son idénticos a los que obtuvimos para el efecto
principal del fármaco en nuestro ANOVA original. Una vez más vemos que ANOVA
y regresión son esencialmente lo mismo. Ambos son modelos lineales y la maquinaria
estadística subyacente en ANOVA es idéntica a la maquinaria utilizada en la regresión.
14.6. ANOVA COMO MODELO LINEAL 425
La importancia de este hecho no debe ser subestimada. A lo largo del resto de este
capítulo vamos a basarnos en gran medida en esta idea.
Aunque analizamos todas las complicaciones de calcular nuevas variables en jamovi
para los contrastes druganxifree y drugjoyzepam, solo para mostrar que ANOVA y la
regresión son esencialmente lo mismo, en el análisis de regresión lineal de jamovi hay
un ingenioso atajo para obtener estos contrastes, ver Figure 14.23. Lo que jamovi está
haciendo aquí es permitirte introducir las variables predictoras que son factores como,
espera… ¡factores! Inteligente, eh. También puedes especificar qué grupo usar como
nivel de referencia, a través de la opción ‘Niveles de referencia’. Hemos cambiado esto
a ‘placebo’ y ‘no.terapia’, respectivamente, porque tiene más sentido.
Figure 14.23: análisis de regresión con factores y contrastes en jamovi, incluidos los
resultados de la prueba ANOVA ómnibus
¿Qué pasa cuando no parece haber un modelo nulo? Por ejemplo, podrías estar pensando
en la prueba F que aparece cuando seleccionas ‘Prueba F’ en las opciones ‘Regresión
lineal’ - ‘Ajuste del modelo’. Originalmente lo describí como una prueba del modelo
de regresión en su conjunto. Sin embargo, eso sigue siendo una comparación entre dos
modelos. El modelo nulo es el modelo trivial que solo incluye 1 coeficiente de regresión,
para el término de intersección. El modelo alternativo contiene 𝐾 + 1 coeficientes
de regresión, uno para cada una de las K variables predictoras y uno más para la
intersección. Entonces, el valor de gl que ves en esta prueba F es igual a 𝑑𝑓1 = 𝐾+1−1 =
𝐾.
¿Qué pasa con el segundo valor de gl que aparece en la prueba F? Esto siempre se
refiere a los grados de libertad asociados con los residuales. También es posible pensar
en esto en términos de parámetros, pero de una manera un poco contraria a la intuición.
Piensa en esto, de esta manera. Supón que el número total de observaciones en todo
el estudio es N. Si quieres describir perfectamente cada uno de estos valores N, debes
hacerlo usando, bueno… N números. Cuando creas un modelo de regresión, lo que
realmente estás haciendo es especificar que algunos de los números deben describir
perfectamente los datos. Si tu modelo tiene 𝐾 predictores y una intersección, entonces
has especificado 𝐾 + 1 números. Entonces, sin molestarte en averiguar exactamente
cómo se haría esto, ¿cuántos números más crees que se necesitarán para transformar un
modelo de regresión de parámetros K ‘1 en una redescripción perfecta de los datos sin
procesar? Si te encuentras pensando que (𝐾 + 1) + (𝑁 − 𝐾 − 1) = 𝑁 , por lo que la
respuesta tendría que ser 𝑁 − 𝐾 − 1, ¡bien hecho! Eso es correcto. En principio, puedes
imaginar un modelo de regresión absurdamente complicado que incluye un parámetro
para cada punto de datos y, por supuesto, proporcionaría una descripción perfecta de
los datos. Este modelo contendría 𝑁 parámetros en total, pero estamos interesadas
en la diferencia entre la cantidad de parámetros necesarios para describir este modelo
completo (es decir, 𝑁 ) y la cantidad de parámetros utilizados por el modelo de regresión
más simple en el que estás realmente interesada (es decir, 𝐾 + 1), por lo que el segundo
grado de libertad en la prueba F es 𝑑𝑓2 = 𝑁 −𝐾 −1, donde K es el número de predictores
(en un modelo de regresión) o el número de contrastes (en un ANOVA). En el ejemplo
anterior, hay (𝑁 = 18 observaciones en el conjunto de datos y 𝐾 + 1 = 4 coeficientes
de regresión asociados con el modelo ANOVA, por lo que los grados de libertad de los
residuales son 𝑑𝑓2 = 18 − 4 = 14.
Table 14.11: contrastes binarios para discriminar entre los tres posibles fármacos
(a)
(b)
Cada fila de la tabla corresponde a uno de los niveles de los factores, y cada columna
corresponde a uno de los contrastes. Esta tabla, que siempre tiene una fila más que
columnas, tiene un nombre especial. Se llama matriz de contraste. Sin embargo, hay
muchas formas diferentes de especificar una matriz de contraste. En esta sección, discuto
algunas de las matrices de contraste estándar que usan los estadísticos y cómo puedes
usarlas en jamovi. Si planeas leer la sección sobre [ANOVA factorial 3: diseños no
balanceados] más adelante, vale la pena leer esta sección detenidamente. Si no, puedes
pasarla por alto, porque la elección de los contrastes no importa mucho para los diseños
equilibrados.
(a)
(b)
Level 2 3 4 5
1 0 0 0 0
2 1 0 0 0
3 0 1 0 0
4 0 0 1 0
5 0 0 0 1
(a)
(b)
1 -1 -1 -1 -1
2 1 -1 -1 -1
3 0 2 -1 -1
4 0 0 3 -1
5 0 0 0 4
Algo útil acerca de los contrastes de Helmert es que cada contraste suma cero (es decir,
todas las columnas suman cero). Esto tiene como consecuencia que, cuando interpre-
tamos el ANOVA como una regresión, el término de la intersección corresponde a la
media general 𝜇.. si estamos usando contrastes de Helmert. Compara esto con los con-
trastes de tratamiento, en los que el término de intersección corresponde a la media del
grupo para la categoría de referencia. Esta propiedad puede ser muy útil en algunas
situaciones. Lo que hemos estado asumiendo hasta ahora no es tan importante si tienes
un diseño balanceado, pero será importante más adelante cuando consideremos [diseños
no balanceados] (ANOVA factorial: diseños no balanceados). De hecho, la razón princi-
pal por la que me he molestado en incluir esta sección es que los contrastes se vuelven
14.8. PRUEBAS POST HOC 429
(a)
(b)
1 -1 -1 -1 -1
2 1 0 0 0
3 0 1 0 0
4 0 0 1 0
5 0 0 0 1
(a)
(b)
Contrast type
Compares the mean of each level
(except a reference category) to the
mean of all of the levels (grand
Deviation mean)
Like the treatment contrasts, the
simple contrast compares the mean
of each level to the mean of a
specified level. This type of contrast
is useful when there is a control
group. By default the first category
is the reference. However, with a
simple contrast the intercept is the
grand mean of all the levels of the
Simple factors.
Compares the mean of each level
(except the first) to the mean of
previous levels. (Sometimes called
Difference reverse Helmert contrasts)
Compares the mean of each level of
the factor (except the last) to the
Helmert mean of subsequent levels
Compares the mean of each level
(except the last) to the mean of the
Repeated subsequent level
Compares the linear effect and
quadratic effect. The first degree of
freedom contains the linear effect
across all categories; the second
degree of freedom, the quadratic
effect. These contrasts are often
Polynomial used to estimate polynomial trends
14.8. PRUEBAS POST HOC 431
en ese capítulo nuestra solución fue ejecutar pruebas t para todos los pares de grupos
posibles, haciendo correcciones para comparaciones múltiples (por ejemplo, Bonferroni,
Holm) para controlar la tasa de error de tipo I en todas las comparaciones. Los méto-
dos que usamos en Chapter 13 tienen la ventaja de ser relativamente simples y ser el
tipo de herramientas que puedes usar en muchas situaciones diferentes en las que estás
probando múltiples hipótesis, pero no son necesariamente las mejores opciones si estás
interesada en realizar pruebas post hoc eficientes en un contexto ANOVA. En realidad,
hay muchos métodos diferentes para realizar comparaciones múltiples en la literatura
estadística (Hsu, 1996), y estaría fuera del alcance de un texto introductorio como este
discutirlos todos en detalle.
Dicho esto, hay una herramienta sobre la que quiero llamar tu atención, a saber, la
“Diferencia honestamente significativa” de Tukey, o HSD de Tukey para abreviar.
Por una vez, te ahorraré las fórmulas y me limitaré a las ideas cualitativas. La idea
básica en el HSD de Tukey es examinar todas las comparaciones por pares relevantes
entre grupos, y solo es realmente apropiado usar el HSD de Tukey si lo que te interesa
son las diferencias por pares.9 Por ejemplo, antes realizaste un ANOVA factorial usando
el conjunto de datos clinictrial.csv, y donde especificamos un efecto principal para el
fármaco y un efecto principal para la terapia, estaríamos interesados en las siguientes
cuatro comparaciones:
• La diferencia en el estado de ánimo de las personas que recibieron Anxifree frente
a las personas que recibieron el placebo.
• La diferencia en el estado de ánimo de las personas que recibieron Joyzepam versus
las personas que recibieron el placebo.
• La diferencia en el estado de ánimo de las personas que recibieron Anxifree frente
a las personas que recibieron Joyzepam.
• La diferencia en el aumento del estado de ánimo para las personas tratadas con
TCC y las personas que no recibieron terapia.
Para cualquiera de estas comparaciones, estamos interesadas en la verdadera diferencia
entre las medias de los grupos (población). El HSD de Tukey construye intervalos de
confianza simultáneos para las cuatro comparaciones. Lo que queremos decir con un
intervalo de confianza “simultáneo” del 95 % es que, si tuviéramos que repetir este
estudio muchas veces, entonces en el 95 % de los resultados del estudio, los intervalos
de confianza contendrían el valor verdadero relevante. Además, podemos usar estos
intervalos de confianza para calcular un valor p ajustado para cualquier comparación
específica.
La función TukeyHSD en jamovi es bastante fácil de usar. Simplemente especifica el
término del modelo ANOVA para el que deseas ejecutar las pruebas post hoc. Por
ejemplo, si buscáramos ejecutar pruebas post hoc para los efectos principales pero no
para la interacción, abriríamos la opción ‘Pruebas Post Hoc’ en la pantalla de análisis
de ANOVA, moverías las variables del fármaco y la terapia al recuadro de la derecha,
y luego seleccionas la casilla de verificación ‘Tukey’ en la lista de posibles correcciones
post hoc que podrían aplicarse. Esto, junto con la tabla de resultados correspondiente,
se muestra en Figure 14.24.
9 si, por ejemplo, realmente estás interesada en saber si el Grupo A es significativamente diferente de
la media del Grupo B y el Grupo C, entonces necesitas usar una herramienta diferente (por ejemplo,
el método de Scheffe , que es más conservador y está fuera del alcance de este libro). Sin embargo, en
la mayoría de los casos, probablemente estés interesada en las diferencias de grupos por parejas, por lo
que es útil conocer el HSD de Tukey.
432 CHAPTER 14. ANOVA FACTORIAL
Figure 14.24: prueba post hoc de Tukey HSD en ANOVA factorial jamovi, sin un
término de interacción
Hasta aquí todo bien. ¿Qué pasa si tu modelo incluye términos de interacción? Por
ejemplo, la opción predeterminada en jamovi es permitir la posibilidad de que exista una
interacción entre el fármaco y la terapia. Si ese es el caso, la cantidad de comparaciones
por pares que debemos considerar comienza a aumentar. Como antes, necesitamos
considerar las tres comparaciones que son relevantes para el efecto principal del fármaco
y la única comparación que es relevante para el efecto principal de la terapia. Pero, si
queremos considerar la posibilidad de una interacción significativa (y tratar de encontrar
las diferencias de grupo que sustentan esa interacción significativa), debemos incluir
comparaciones como las siguientes:
Hay muchas de estas comparaciones que debes considerar. Entonces, cuando ejecutamos
el análisis post hoc de Tukey para este modelo ANOVA, vemos que ha realizado muchas
comparaciones por pares (19 en total), como se muestra en Figure 14.25. Puedes ver
que es bastante similar al anterior, pero con muchas más comparaciones.
Figure 14.25: prueba post hoc de Tukey HSD en ANOVA factorial jamovi con un
término de interacción
434 CHAPTER 14. ANOVA FACTORIAL
sospecho que la mayoría de las personas ni siquiera se dan cuenta de que su paquete de
software estadístico está tomando muchas decisiones de análisis de datos sustantivos en
su nombre. En realidad, es un poco aterrador cuando lo piensas. Entonces, si quieres
evitar entregar el control de tu análisis de datos a un software estúpido, sigue leyendo.
Mirando la tabla de medias en Figure 14.26 tenemos una fuerte impresión de que hay
diferencias entre los grupos. Esto es especialmente cierto cuando comparamos estas
436 CHAPTER 14. ANOVA FACTORIAL
medias con las desviaciones estándar de la variable balbuceo. Entre los grupos, esta
desviación estándar varía de 0,14 a 0,71, que es bastante pequeña en relación con las
diferencias en las medias de los grupos.10 Si bien al principio esto puede parecer un
ANOVA factorial sencillo, un problema surge cuando miramos cuántas observaciones
tenemos en cada grupo. Fíjate en las diferentes N para los diferentes grupos que se
muestran en Figure 14.26. Esto viola una de nuestras suposiciones originales, a saber,
que el número de personas en cada grupo es el mismo. Realmente no hemos discutido
cómo manejar esta situación.
que he discutido en este libro. Por ejemplo, he ignorado por completo la diferencia entre los modelos
de efectos fijos en los que los niveles de un factor son “fijos” por el experimentador o el mundo, y los
modelos de efectos aleatorios en los que los niveles son muestras aleatorias de una población más grande
de niveles posibles (este libro solo cubre modelos de efectos fijos). No cometas el error de pensar que
este libro, o cualquier otro, te dirá “todo lo que necesitas saber” sobre estadística, más de lo que un solo
libro podría decirte todo lo que necesitas saber sobre psicología, física o filosofía. La vida es demasiado
complicada para que eso sea cierto. Sin embargo, esto no es motivo de desesperación. La mayoría de
los investigadores se las arreglan con un conocimiento práctico básico de ANOVA que no va más allá
que este libro. Solo quiero que tengas en cuenta que este libro es solo el comienzo de una historia muy
larga, no la historia completa.
14.10. ANOVA FACTORIAL 3: DISEÑOS NO EQUILIBRADOS 437
(a)
(b)
Table 14.17: más hipótesis nulas y alternativas con la variable de resultado 'balbuceo'
(a)
(b)
esas pruebas F corresponde a un par de modelos que se están comparando. Por supuesto,
esto lleva naturalmente a la pregunta de qué par de modelos se está comparando. Esta
es la diferencia fundamental entre ANOVA Tipos I, II y III: cada uno corresponde a
una forma diferente de elegir los pares de modelos para las pruebas.
Table 14.18: Y más hipótesis nulas y alternativas posibles con la variable de resultado
'balbuceo'
(a)
(b)
El gran problema con el uso de la suma de cuadrados Tipo I es el hecho de que realmente
depende del orden en que ingresas las variables. Sin embargo, en muchas situaciones el
investigador no tiene motivos para preferir un orden sobre otro. Este es presumiblemente
el caso de nuestro problema de la leche y el azúcar. ¿Deberíamos agregar primero la
leche o primero el azúcar? Es exactamente tan arbitrario como una pregunta de análisis
de datos que como una pregunta de preparación de café. De hecho, puede haber algunas
personas con opiniones firmes sobre el orden, pero es difícil imaginar una respuesta de
14.10. ANOVA FACTORIAL 3: DISEÑOS NO EQUILIBRADOS 439
principios a la pregunta. Sin embargo, mira lo que sucede cuando cambiamos el orden,
como en Figure 14.28.
Los valores p para ambos términos del efecto principal han cambiado, y de forma bas-
tante drástica. Entre otras cosas, el efecto de la leche se ha vuelto significativo (aunque
se debe evitar sacar conclusiones firmes al respecto, como mencioné anteriormente).
¿Cuál de estos dos ANOVA debe informarse? No es obvio de inmediato.
Cuando observas las pruebas de hipótesis que se utilizan para definir el “primer” efecto
principal y el “segundo”, está claro que son cualitativamente diferentes entre sí. En
nuestro ejemplo inicial, vimos que la prueba del efecto principal del azúcar ignora por
completo la leche, mientras que la prueba del efecto principal de la leche sí tiene en
cuenta el azúcar. Como tal, la estrategia de prueba Tipo I realmente trata el primer
efecto principal como si tuviera una especie de primacía teórica sobre el segundo. En
mi experiencia, muy rara vez hay primacía teórica de este tipo que justifique tratar
cualquiera de los dos efectos principales de forma asimétrica.
La consecuencia de todo esto es que las pruebas de Tipo I rara vez son de mucho interés,
por lo que deberíamos pasar a hablar de las pruebas de Tipo II y las pruebas de Tipo
III.
Table 14.19: Hipótesis nula y alternativa con la variable de resultado 'balbuceo', con
suma de cuadrados Tipo III
(a)
(b)
Table 14.20: Otras hipótesis nulas y alternativas con la variable de resultado 'balbuceo',
con suma de cuadrados Tipo III
(a)
(b)
principal del azúcar correspondería a una comparación entre los siguientes dos modelos
(Table 14.19).
Por fea que parezca esa tabla, es bastante simple. En todos los casos, la hipótesis alter-
nativa corresponde al modelo completo que contiene tres términos de efectos principales
(p. ej., A), tres interacciones de dos vías (p. ej., A*B) y una interacción de tres vías
(p. ej., A*B* C)). El modelo nulo siempre contiene 6 de estos 7 términos, y el que falta
es aquel cuyo significado estamos tratando de probar.
(a)
(b)
Table 14.22: pruebas de tipo III con tres factores y todos los efectos principales y
términos de interacción
(a)
(b)
A primera vista, las pruebas de Tipo III parecen una buena idea. En primer lugar,
eliminamos la asimetría que nos causaba problemas al ejecutar las pruebas de Tipo I.
Y como ahora estamos tratando todos los términos de la misma manera, los resultados
de las pruebas de hipótesis no dependen del orden en que los especifiquemos. Esto
es definitivamente algo bueno. Sin embargo, existe un gran problema al interpretar los
resultados de las pruebas, especialmente para los términos de efecto principal. Considera
los datos del café. Supongamos que resulta que el efecto principal de la leche no es
significativo según las pruebas de Tipo III. Lo que esto nos dice es que balbucear ~
azúcar + azúcar*leche es un modelo mejor para los datos que el modelo completo. Pero,
¿qué significa eso? Si el término de interacción azúcar*leche tampoco fuera significativo,
estaríamos tentados a concluir que los datos nos dicen que lo único que importa es el
azúcar. Pero supongamos que tenemos un término de interacción significativo, pero
un efecto principal no significativo de la leche. En este caso, ¿debemos suponer que
realmente hay un “efecto del azúcar”, una “interacción entre la leche y el azúcar”, pero no
un “efecto de la leche”? Eso parece una locura. La respuesta correcta simplemente debe
ser que no tiene sentido12 hablar sobre el efecto principal si la interacción es significativa.
En general, esto parece ser lo que la mayoría de los estadísticos nos aconsejan hacer, y
creo que ese es el consejo correcto. Pero si realmente no tiene sentido hablar de efectos
principales no significativos en presencia de una interacción significativa, entonces no es
del todo obvio por qué las pruebas de Tipo III deben permitir que la hipótesis nula se
base en un modelo que incluye la interacción pero omite una de los principales efectos
que lo componen. Cuando se caracterizan de esta manera, las hipótesis nulas realmente
Más adelante, veremos que las pruebas de Tipo III se pueden canjear en algunos con-
textos, pero primero echemos un vistazo a la tabla de resultados de ANOVA usando la
suma de cuadrados de Tipo III, consulta Figure 14.29.
Figure 14.29: tabla de resultados de ANOVA utilizando la suma de cuadrados Tipo III
en jamovi
Pero ten en cuenta que una de las características perversas de la estrategia de prueba de
Tipo III es que, por lo general, los resultados dependen de los contrastes que utilizas para
codificar tus factores (consulta la sección Diferentes formas de especificar contrastes si
has olvidado cuáles son los diferentes tipos de contrastes).13
De acuerdo, si los valores de p que normalmente surgen de los análisis de Tipo III
(pero no en jamovi) son tan sensibles a la elección de los contrastes, ¿significa eso
que las pruebas de Tipo III son esencialmente arbitrarias y no fiables? Hasta cierto
punto, eso es cierto, y cuando pasemos a una discusión sobre las pruebas de Tipo II,
veremos que los análisis de Tipo II evitan esta arbitrariedad por completo, pero creo
que es una conclusión demasiado firme. En primer lugar, es importante reconocer que
algunas elecciones de contrastes siempre producirán las mismas respuestas (ah, esto es
lo que sucede en jamovi). De particular importancia es el hecho de que si las columnas
de nuestra matriz de contraste están todas restringidas para sumar cero, entonces el
análisis Tipo III siempre dará las mismas respuestas.
En las pruebas de Tipo II veremos que los análisis de Tipo II evitan esta arbitrariedad
por completo, pero creo que es una conclusión demasiado fuerte. En primer lugar,
es importante reconocer que algunas elecciones de contrastes siempre producirán las
mismas respuestas (ah, esto es lo que sucede en jamovi). De particular importancia es
el hecho de que si las columnas de nuestra matriz de contraste están todas restringidas
para sumar cero, entonces el análisis Tipo III siempre dará las mismas respuestas.
13 Sin embargo, en jamovi los resultados para el ANOVA de suma de cuadrados Tipo III son los
mismos independientemente del contraste seleccionado, ¡así que jamovi obviamente está haciendo algo
diferente!
14.10. ANOVA FACTORIAL 3: DISEÑOS NO EQUILIBRADOS 443
Table 14.23: pruebas de tipo III para un efecto principal, A, en un ANOVA de tres vías
con todos los términos de interacción posibles
(a)
(b)
𝑜𝑢𝑡𝑐𝑜𝑚𝑒 ∼
Null model: 𝐵+𝐶 +𝐴∗𝐵+𝐴∗𝐶 +𝐵∗𝐶 +𝐴∗𝐵∗𝐶
𝑜𝑢𝑡𝑐𝑜𝑚𝑒 ∼ 𝐴 + 𝐵 + 𝐶 + 𝐴 ∗ 𝐵 + 𝐴 ∗
Alternative model: 𝐶 +𝐵∗𝐶 +𝐴∗𝐵∗𝐶
Table 14.24: pruebas de tipo II para un efecto principal, A, en un ANOVA de tres vías
con todos los términos de interacción posibles
(a)
(b)
(a)
(b)
De todos modos, solo para darte una idea de cómo se desarrollan las pruebas Tipo II,
aquí está la tabla completa (Table 14.25) de las pruebas que se aplicarían en un ANOVA
factorial de tres vías:
En el contexto del ANOVA de dos vías que hemos estado usando en los datos del café,
las pruebas de hipótesis son aún más simples. El efecto principal del azúcar corresponde
a una prueba F que compara estos dos modelos (Table 14.26).
La prueba del efecto principal de la leche está en Table 14.27.
Finalmente, la prueba para la interacción azúcar × leche está en Table 14.28.
Ejecutar las pruebas vuelve a ser sencillo. Simplemente selecciona ‘Tipo 2’ en el cuadro
de selección ‘Suma de cuadrados’ en las opciones jamovi ‘ANOVA’ - ‘Modelo’. Esto nos
da la tabla ANOVA que se muestra en Figure 14.30.
Las pruebas de tipo II tienen algunas ventajas claras sobre las pruebas de tipo I y tipo
III. No dependen del orden en que especificas los factores (a diferencia del Tipo I), y no
dependen de los contrastes que usas para especificar tus factores (a diferencia del Tipo
que sí incluiste.
14.10. ANOVA FACTORIAL 3: DISEÑOS NO EQUILIBRADOS 445
Table 14.26: Pruebas de tipo II para el efecto principal del azúcar en los datos del café
(a)
(b)
Table 14.27: Pruebas de tipo II para el efecto principal de la leche en los datos del café
(a)
(b)
(a)
(b)
III). Y aunque las opiniones pueden diferir sobre este último punto, y definitivamente
dependerá de lo que intentes hacer con sus datos, creo que es más probable que las
pruebas de hipótesis que especificas correspondan a algo que realmente te interese. Como
consecuencia, encuentro que por lo general es más fácil interpretar los resultados de una
prueba Tipo II que los resultados de una prueba Tipo I o Tipo III. Por esta razón,
mi consejo tentativo es que, si no puedes pensar en ninguna comparación de modelos
obvia que se corresponda directamente con tus preguntas de investigación, pero aun así
deseas ejecutar un ANOVA en un diseño no balanceado, las pruebas de Tipo II son
probablemente una mejor opción que las de Tipo I o Tipo III.15
SPSS y jamovi es Tipo III. Ninguno de estos me atrae tanto. En relación con esto, encuentro deprimente
que casi nadie en la literatura psicológica se moleste en informar qué tipo de pruebas realizaron, y mucho
menos el orden de las variables (para el Tipo I) o los contrastes utilizados (para el Tipo III). A menudo
tampoco informan qué software usaron. La única forma en que puedo entender lo que la gente suele
informar es tratar de adivinar a partir de pistas auxiliares qué software estaban usando y asumir que
nunca cambiaron la configuración predeterminada. ¡Por favor, no hagas esto! Ahora que conoces estos
problemas, asegúrate de indicar qué software usaste y, si estás informando los resultados de ANOVA
para datos desequilibrados, especifica qué Tipo de pruebas ejecutaste, especifica la información del
orden de los factores si has realizado pruebas Tipo I y especifica contrastes si has hecho pruebas de tipo
III. O, mejor aún, ¡haz pruebas de hipótesis que correspondan a las cosas que realmente te importan y
luego infórmalas!
14.11. RESUMEN 447
(a)
(b)
sugar no sugar
milk 100 0
no milk 0 100
(a)
(b)
sugar no sugar
milk 100 5
no milk 5 100
Esta vez, es técnicamente posible distinguir entre el efecto de la leche y el efecto del
azúcar, porque algunas personas tienen uno pero no el otro. Sin embargo, seguirá
siendo bastante difícil hacerlo, porque la asociación entre el azúcar y la leche sigue
siendo extremadamente fuerte y hay muy pocas observaciones en dos de los grupos.
Una vez más, es muy probable que estemos en una situación en la que sabemos que
las variables predictoras (leche y azúcar) están relacionadas con el resultado (balbuceo),
pero no sabemos si la naturaleza de esa relación es el efecto principal de un predictor u
otro, o de la interacción.
14.11 Resumen
• [ANOVA factorial 1: diseños balanceados, sin interacciones] y con interacciones
incluidas
• Tamaño del efecto, medias estimadas e intervalos de confianza en un ANOVA
factorial
• [Comprobación de suposiciones] en ANOVA
• Análisis de Covarianza (ANCOVA)
• Entender [ANOVA como un modelo lineal], incluyendo Diferentes formas de es-
pecificar contrastes
• Pruebas post hoc utilizando el HSD de Tukey y un breve comentario sobre El
método de las comparaciones planificadas
• [ANOVA factorial 3: diseños desequilibrados]
448 CHAPTER 14. ANOVA FACTORIAL
Chapter 15
Análisis factorial
Los capítulos anteriores han cubierto las pruebas estadísticas para las diferencias entre
dos o más grupos. Sin embargo, a veces, cuando realizamos una investigación, es posible
que deseemos examinar cómo múltiples variables co-varían. Es decir, cómo se relacionan
entre sí y si los patrones de relación sugieren algo interesante y significativo. Por ejem-
plo, a menudo nos interesa explorar si hay factores latentes no observados subyacentes
que están representados por las variables observadas, medidas directamente, en nuestro
conjunto de datos. En estadística, los factores latentes son inicialmente variables ocultas
que no se observan directamente, sino que se infieren (a través del análisis estadístico)
de otras variables que se observan (medidas directamente).
En este capítulo consideraremos una serie de análisis factorial diferentes y técnicas
relacionadas, comenzando con Análisis factorial exploratorio (AFE). EFA es una técnica
estadística para identificar factores latentes subyacentes en un conjunto de datos. Luego
cubriremos Análisis de componentes principales (PCA), que es una técnica de reducción
de datos que, estrictamente hablando, no identifica los factores latentes subyacentes.
En cambio, PCA simplemente produce una combinación lineal de variables observadas.
Después de esto, la sección sobre Análisis factorial confirmatorio (CFA) muestra que, a
diferencia de EFA, con CFA se comienza con una idea, un modelo, de cómo las variables
en sus datos se relacionan entre sí. Luego, prueba tu modelo con los datos observados y
evalúa qué tan bueno es el ajuste del modelo. Una versión más sofisticada de CFA es el
llamado enfoque [Multi-Trait Multi-Method CFA] en el que tanto el factor latente como
la varianza del método se incluyen en el modelo. Esto es útil cuando se utilizan diferentes
enfoques metodológicos para la medición y, por lo tanto, la variación del método es una
consideración importante. Finalmente, cubriremos un análisis relacionado: Análisis de
confiabilidad de consistencia interna prueba cuán consistentemente una escala mide una
construcción psicológica.
449
450 CHAPTER 15. ANÁLISIS FACTORIAL
cente. Este factor latente no puede medirse a través de una sola variable observada sino
que se manifiesta en las relaciones que provoca en un conjunto de variables observadas.
En Figure 15.1 cada variable observada 𝑉 es ‘causada’ hasta cierto punto por el factor
latente subyacente (𝐹 ), representado por los coeficientes 𝑏1 a 𝑏5 (también llamados
factores de carga). Cada variable observada también tiene un término de error asociado,
e1 a e5. Cada término de error es la varianza en la variable observada asociada, 𝑉𝑖 ,
que no se explica por el factor latente subyacente.
Figure 15.1: factor latente que subyace en la relación entre varias variables observadas
estadística baja darán respuestas bajas similares a estas variables debido a su ansiedad
estadística baja.
En el análisis factorial exploratorio (AFE), esencialmente estamos explorando las correla-
ciones entre las variables observadas para descubrir cualquier factor subyacente (latente)
interesante e importante que se identifique cuando las variables observadas covarían.
Podemos usar software estadístico para estimar cualquier factor latente e identificar
cuáles de nuestras variables tienen una carga alta1 (por ejemplo, carga > 0.5) en cada
factor, lo que sugiere que son una medida útil o indicador de el factor latente. Parte
de este proceso incluye un paso llamado rotación, que para ser honesto es una idea
bastante extraña pero afortunadamente no tenemos que preocuparnos por entenderlo;
solo necesitamos saber que es útil porque hace que el patrón de cargas en diferentes
factores sea mucho más claro. Como tal, la rotación ayuda a ver con mayor claridad
qué variables están vinculadas sustancialmente a cada factor. También necesitamos de-
cidir cuántos factores son razonables dados nuestros datos, y útil en este sentido es algo
llamado valores propios. Volveremos a esto en un momento, después de que hayamos
cubierto algunos de los principales supuestos de la EPT.
latentes y luego evaluarán si algunos elementos deben eliminarse porque no son útiles.
o medir claramente uno de los factores latentes.
De acuerdo con este enfoque, otra consecuencia de EFA es combinar las variables que
se cargan en distintos factores en un puntaje de factor, a veces conocido como puntaje
de escala. Hay dos opciones para combinar variables en una puntuación de escala:
• Crear una nueva variable con una puntuación ponderada por las cargas factoriales
de cada elemento que contribuye al factor.
• Crear una nueva variable a partir de cada ítem que contribuya al factor, pero
ponderándolos por igual.
En la primera opción, la contribución de cada ítem a la puntuación combinada depende
de qué tan fuertemente se relacione con el factor. En la segunda opción, generalmente
solo promediamos todos los elementos que contribuyen sustancialmente a un factor para
crear la variable de puntuación de escala combinada. Cuál elegir es una cuestión de pref-
erencia, aunque una desventaja con la primera opción es que las cargas pueden variar
bastante de una muestra a otra, y en las ciencias del comportamiento y de la salud, a
menudo estamos interesados en desarrollar y usar puntajes de escala de cuestionarios
compuestos en diferentes estudios. y diferentes muestras. En cuyo caso, es razonable
utilizar una medida compuesta que se base en los elementos sustantivos que contribuyen
por igual en lugar de ponderar por cargas específicas de muestra de una muestra difer-
ente. En cualquier caso, entender una medida de variable combinada como un promedio
de elementos es más simple e intuitivo que usar una combinación ponderada óptima-
mente específica de una muestra.
Una técnica estadística más avanzada, que está más allá del alcance de este libro, em-
prende el modelado de regresión donde los factores latentes se utilizan en modelos de
predicción de otros factores latentes. Esto se denomina “modelado de ecuaciones es-
tructurales” y existen programas de software específicos y paquetes R dedicados a este
enfoque. Pero no nos adelantemos; en lo que realmente deberíamos centrarnos ahora es
en cómo hacer un EFA en jamovi.
ver si hay algunos factores latentes subyacentes que se miden razonablemente bien con
las variables observadas de 25 en el archivo de datos bfi_sample.csv. Abra el conjunto
de datos y verifique que las variables de 25 estén codificadas como variables continuas
(técnicamente, son ordinales, aunque para EFA en jamovi en general no importa,
excepto si decide calcular puntajes de factores ponderados, en cuyo caso se necesitan
variables continuas) . Para realizar EFA en jamovi:
Figure 15.2: veinticinco elementos variables observados organizados por cinco factores
de personalidad putativos en el conjunto de datos bfi_sample.csv
extraer y ‘Salida adicional’. Consulte Figure 15.3 para ver las opciones sugeridas
para este EFA ilustrativo, y tenga en cuenta que el ‘Método’ de rotación y el
‘Número de factores’ extraídos normalmente los ajusta el investigador durante el
análisis para encontrar el mejor resultado, como se describe a continuación.
Primero, verifique las suposiciones (Figure 15.4). Puede ver que (1) la prueba de esferi-
cidad de Bartlett es significativa, por lo que se cumple esta suposición; y (2) la medida
de adecuación del muestreo (MSA) de KMO es de $ 0.81 $ en general, lo que sugiere
una buena adecuación del muestreo. No hay problemas aquí entonces!
Lo siguiente que debe verificar es cuántos factores usar (o “extraer” de los datos). Hay
tres enfoques diferentes disponibles:
• Una convención es elegir todos los componentes con valores propios mayores que
12 . Esto nos daría cuatro factores con nuestros datos (pruébalo y verás).
• El examen del diagrama de pantalla, como en Figure 15.5, le permite identificar
el “punto de inflexión”. Este es el punto en el que la pendiente de la curva del
pedregal se nivela claramente, por debajo del “codo”. Esto nos daría cinco factores
con nuestros datos. Interpretar scree plots es un poco un arte: en Figure 15.5 hay
un paso notable de 5 a 6 factores, pero en otros scree plots que mire no será tan
claro.
• Mediante una técnica de análisis en paralelo, los valores propios obtenidos se
comparan con los que se obtendrían a partir de datos aleatorios. El número
de factores extraídos es el número con valores propios mayores que los que se
encontrarían con datos aleatorios.
El tercer enfoque es bueno según Fabrigar et al. (1999), aunque en la práctica los
investigadores tienden a observar los tres y luego emitir un juicio sobre la cantidad de
factores que se interpretan de manera más fácil o útil. Esto puede entenderse como
el “criterio de significado”, y los investigadores normalmente examinarán, además de
la solución de uno de los enfoques anteriores, soluciones con uno o dos factores más o
menos. Luego adoptan la solución que tiene más sentido para ellos.
Al mismo tiempo, también debemos considerar la mejor manera de rotar la solución
final. Hay dos enfoques principales para la rotación: la rotación ortogonal (p. ej., ‘vari-
max’) obliga a que los factores seleccionados no estén correlacionados, mientras que la
rotación oblicua (p. ej., ‘oblimin’) permite correlacionar los factores seleccionados. Las
dimensiones de interés para los psicólogos y los científicos del comportamiento a menudo
no son dimensiones que esperaríamos que fueran ortogonales, por lo que las soluciones
oblicuas son posiblemente más sensatas2
Prácticamente, si en una rotación oblicua se encuentra que los factores están sustancial-
mente correlacionados (positivo o negativo, y > 0.3), como en Figure 15.6 donde una
correlación entre dos de los factores extraídos es 0.31, entonces esto confirmaría nuestra
2 las rotaciones oblicuas proporcionan dos matrices de factores, una denominada matriz de estructura
y otra denominada matriz de patrón. En jamovi, solo se muestra la matriz de patrones en los resultados,
ya que suele ser la más útil para la interpretación, aunque algunos expertos sugieren que ambos pueden
ser útiles. En una matriz de estructura, los coeficientes muestran la relación entre la variable y los
factores mientras ignoran la relación de ese factor con todos los demás factores (es decir, una correlación
de orden cero). Los coeficientes de matriz de patrones muestran la contribución única de un factor a
una variable mientras controlan los efectos de otros factores en esa variable (similar al coeficiente de
regresión parcial estandarizado). Bajo rotación ortogonal, los coeficientes de estructura y patrón son
los mismos.
15.1. ANÁLISIS FACTORIAL EXPLORATORIO 455
Figure 15.4: jamovi EFA comprueba la suposición de los datos del cuestionario de
personalidad
15.1. ANÁLISIS FACTORIAL EXPLORATORIO 457
Figure 15.5: gráfico de pantalla de los datos de personalidad en jamovi EFA, que muestra
una inflexión notable y se nivela después del punto 5 (el ‘codo’)
intuición para preferir la rotación oblicua. Si los factores están, de hecho, correlaciona-
dos, entonces una rotación oblicua producirá una mejor estimación de los verdaderos
factores y una mejor estructura simple que una rotación ortogonal. Y, si la rotación
oblicua indica que los factores tienen correlaciones cercanas a cero entre sí, entonces el
investigador puede continuar y realizar una rotación ortogonal (que luego debería dar
aproximadamente la misma solución que la rotación oblicua).
Al comprobar la correlación entre los factores extraídos, al menos una correlación fue
superior a 0,3 (Figure 15.6), por lo que se prefiere una rotación oblicua (“oblimin”) de
los cinco factores extraídos. También podemos ver en Figure 15.6 que la proporción
de la variación general en los datos que se explica por los cinco factores es del 46 %.
El factor uno representa alrededor del 10% de la varianza, los factores dos a cuatro
alrededor del 9% cada uno y el factor cinco un poco más del 7%. Esto no es genial;
Hubiera sido mejor si la solución general explicara una proporción más sustancial de la
varianza en nuestros datos.
Tenga en cuenta que en cada EFA podría tener potencialmente la misma cantidad de
factores que variables observadas, pero cada factor adicional que incluya agregará una
cantidad menor de varianza explicada. Si los primeros factores explican una buena can-
tidad de la varianza en las 25 variables originales, entonces esos factores son claramente
un sustituto útil y más simple para las 25 variables. Puede eliminar el resto sin perder
demasiado de la variabilidad original. Pero si se necesitan 18 factores (por ejemplo)
para explicar la mayor parte de la variación en esas 25 variables, también podría usar
los 25 originales.
Figure 15.7 muestra las cargas factoriales. Es decir, cómo se cargan los 25 elementos de
458 CHAPTER 15. ANÁLISIS FACTORIAL
personalidad diferentes en cada uno de los cinco factores seleccionados. Tenemos cargas
ocultas menores a 0.3 (configuradas en las opciones que se muestran en Figure 15.3.
Para los Factores 1, 2, 3 y 4, el patrón de las cargas factoriales coincide estrechamente con
los factores putativos especificados en Figure 15.2. ¡Uf! Y el factor 5 está bastante cerca,
con cuatro de las cinco variables observadas que supuestamente miden la “apertura”
cargando bastante bien en el factor. Sin embargo, la variable 04 no parece encajar, ya
que la solución factorial en Figure 15.7 sugiere que se carga en el factor 4 (aunque con
una carga relativamente baja) pero no sustancialmente en el factor 5.
La otra cosa a tener en cuenta es que aquellas variables que se denotaron como “R:
codificación inversa” en Figure 15.2 son aquellas que tienen cargas de factores negativas.
Eche un vistazo a los ítems A1 (“Soy indiferente a los sentimientos de los demás”) y A2
(“Pregunto por el bienestar de los demás”). Podemos ver que una puntuación alta en
𝐴1 indica baja simpatía, mientras que una puntuación alta en 𝐴2 (y todas las demás
variables “A” para el caso) indica alta simpatía. Por lo tanto, A1 se correlacionará
negativamente con las otras variables “A”, y es por eso que tiene una carga factorial
negativa, como se muestra en Figure 15.7.
Para ser honesto, es inusual obtener una solución tan clara en EPT. Por lo general, es
un poco más complicado que esto y, a menudo, interpretar el significado de los factores
es más desafiante. No es frecuente que tenga un grupo de artículos tan claramente
delineado. Más a menudo, tendrá un montón de variables observadas que cree que
pueden ser indicadores de algunos factores latentes subyacentes, ¡pero no tiene un sentido
tan fuerte de qué variables van a ir a dónde!
Por lo tanto, parece que tenemos una solución de cinco factores bastante buena, aunque
representa una proporción general relativamente baja de la varianza observada. Supong-
amos que estamos contentos con esta solución y queremos usar nuestros factores en
análisis posteriores. La opción sencilla es calcular una puntuación general (promedio)
para cada factor sumando la puntuación de cada variable que se carga sustancialmente
en el factor y luego dividiendo por el número de variables (en otras palabras, crear
una “puntuación media” para cada persona a través de los ítems para cada escala Para
cada persona en nuestro conjunto de datos que implica, por ejemplo, para el factor de
Amabilidad, sumando 𝐴1 + 𝐴2 + 𝐴3 + 𝐴4 + 𝐴5, y luego dividiendo por 5. 4 En esencia,
el puntaje factorial que hemos calculado se basa en puntajes igualmente ponderados de
cada una de las variables/ítems incluidos. Podemos hacer esto en jamovi en dos pasos:
Figure 15.7: Cargas factoriales para una solución de cinco factores en jamovi EFA
15.1. ANÁLISIS FACTORIAL EXPLORATORIO 461
Otra opción es crear un índice de puntaje factorial ** ponderado de manera óptima **.
Para hacer esto, guarde las puntuaciones de los factores en el conjunto de datos, usando
la casilla de verificación ‘Guardar’ - ‘Puntuaciones de los factores’. Una vez hecho esto
verás que se han añadido cinco nuevas variables (columnas) a los datos, una por cada
factor extraído. Ver Figure 15.10 y Figure 15.11.
Ahora puede continuar y realizar más análisis, utilizando las escalas factoriales basadas
en la puntuación media (p. ej., como en Figure 15.9) o utilizando las puntuaciones
factoriales ponderadas de forma óptima calculadas por jamovi. ¡Tu elección! Por ejem-
plo, una cosa que le gustaría hacer es ver si hay diferencias de género en cada una de
nuestras escalas de personalidad. Hicimos esto para la puntuación de Amabilidad que
calculamos utilizando el enfoque de puntuación media, y aunque la gráfica de la prueba
t (Figure 15.12) mostró que los hombres eran menos agradables que las mujeres, esto
no fue una diferencia significativa (Mann-Whitney $ U = 5768$, 𝑝 = .075).
462 CHAPTER 15. ANÁLISIS FACTORIAL
Figure 15.10: opción jamovi para puntajes factoriales para la solución de cinco factores,
utilizando el método de ponderación óptima ‘Bartlett’
Figure 15.11: vista de hoja de datos que muestra las cinco variables de puntaje factorial
recién creadas
464 CHAPTER 15. ANÁLISIS FACTORIAL
PCA simplemente produce una transformación matemática a los datos originales sin
suposiciones sobre cómo las variables co-varían. El objetivo de PCA es calcular algunas
combinaciones lineales (componentes) de las variables originales que se pueden usar para
resumir el conjunto de datos observados sin perder mucha información. Sin embargo,
si la identificación de la estructura subyacente es un objetivo del análisis, entonces se
prefiere EFA. Y, como vimos, EFA produce puntajes factoriales que se pueden usar para
propósitos de reducción de datos al igual que los puntajes de componentes principales
(Fabrigar et al., 1999).
PCA ha sido popular en psicología por varias razones y, por lo tanto, vale la pena
mencionarlo, aunque hoy en día EFA es tan fácil de hacer dada la potencia de las com-
putadoras de escritorio y puede ser menos susceptible al sesgo que PCA, especialmente
con una pequeña cantidad de factores. y variables. Gran parte del procedimiento es sim-
ilar a EFA, por lo que, aunque existen algunas diferencias conceptuales, prácticamente
los pasos son los mismos, y con muestras grandes y un número suficiente de factores y
variables, los resultados de PCA y EFA deberían ser bastante similares.
Para realizar PCA en jamovi, todo lo que necesita hacer es seleccionar ‘Factor’ - ‘Análisis
de componentes principales’ en la barra de botones principal de jamovi para abrir la
ventana de análisis de PCA. Luego puede seguir los mismos pasos de [EFA en jamovi]
arriba.
dríamos haber ido directamente a CFA y omitir el paso de EFA. Ya sea que use EFA y luego pase
a CFA, o vaya directamente a CFA, es una cuestión de juicio y qué tan seguro está inicialmente de
que tiene el modelo correcto (en términos de número de factores y variables). Más temprano en el
desarrollo de escalas, o en la identificación de construcciones latentes subyacentes, los investigadores
tienden a usar EFA. Más tarde, a medida que se acercan a una escala final, o si quieren verificar una
escala establecida en una nueva muestra, CFA es una buena opción.
15.3. ANÁLISIS FACTORIAL CONFIRMATORIO 467
Figure 15.13: Especificación previa inicial de la estructura de factores latentes para las
escalas de personalidad de cinco factores, para usar en CFA
15.3. ANÁLISIS FACTORIAL CONFIRMATORIO 469
• Cree otro Factor nuevo en el cuadro ‘Factores’ y etiquételo como “Apertura”. Se-
leccione las 5 variables O y transfiéralas al cuadro ‘Factores’ debajo de la etiqueta
“Apertura”.
• Verifique otras opciones apropiadas, los valores predeterminados están bien para
este trabajo inicial, aunque es posible que desee verificar la opción “Diagrama de
ruta” en “Gráficos” para ver que jamovi produce un diagrama (bastante) similar
a nuestro Figure 15.13 .
Una vez que hayamos configurado el análisis, podemos dirigir nuestra atención a la
ventana de resultados de jamovi y ver qué es qué. Lo primero que hay que mirar es
el ajuste del modelo (Figure 15.15), ya que nos dice qué tan bien se ajusta nuestro
modelo a los datos observados. NB en nuestro modelo solo se estiman las covarianzas
preespecificadas, incluidas las correlaciones de factores por defecto. Todo lo demás se
pone a cero.
Hay varias formas de evaluar el ajuste del modelo. La primera es una estadística de
chi-cuadrado que, si es pequeña, indica que el modelo se ajusta bien a los datos. Sin
embargo, la estadística de chi-cuadrado utilizada para evaluar el ajuste del modelo es
bastante sensible al tamaño de la muestra, lo que significa que con una muestra grande,
un ajuste lo suficientemente bueno entre el modelo y los datos casi siempre produce un
chi grande y significativo (p < .05). valor cuadrado.
Por lo tanto, necesitamos otras formas de evaluar el ajuste del modelo. En jamovi se
proporcionan varios por defecto. Estos son el índice de ajuste comparativo (CFI), el
índice de Tucker Lewis (TLI) y el error cuadrático medio de aproximación (RMSEA)
junto con el intervalo de confianza del 90 % para el RMSEA. Algunas reglas generales
útiles son que un ajuste satisfactorio está indicado por CFI > 0,9, TLI > 0,9 y RMSEA
de aproximadamente 0,05 a 0,08. Un buen ajuste es CFI > 0,95, TLI > 0,95 y RMSEA
y CI superior para RMSEA < 0,05.
Entonces, mirando Figure 15.15 podemos ver que el valor de chi-cuadrado es grande
y altamente significativo. Nuestro tamaño de muestra no es demasiado grande, por lo
que esto posiblemente indica un mal ajuste. El CFI es de 0.762 y el TLI es de 0.731, lo
que indica un mal ajuste entre el modelo y los datos. El RMSEA es de 0.085 con un
intervalo de confianza de 90% de 0.077 a 0.092, de nuevo esto no indica un buen ajuste.
Bastante decepcionante, ¿eh? Pero tal vez no sea demasiado sorprendente dado que
en el EFA anterior, cuando ejecutamos con un conjunto de datos similar (consulte la
sección Análisis factorial exploratorio), solo alrededor de la mitad de la varianza en los
datos fue explicada por el modelo de cinco factores.
Pasemos a ver las cargas factoriales y las estimaciones de la covarianza factorial, que
se muestran en Figure 15.16 y Figure 15.17. La estadística Z y el valor p para cada
uno de estos parámetros indican que hacen una contribución razonable al modelo (es
decir, no son cero), por lo que no parece haber ninguna razón para eliminar ninguna
de las rutas de factores variables especificadas. o correlaciones factor-factor del modelo.
A menudo, las estimaciones estandarizadas son más fáciles de interpretar y se pueden
especificar en la opción ‘Estimaciones’. Estas tablas pueden incorporarse de manera útil
en un informe escrito o artículo científico.
¿Cómo podríamos mejorar el modelo? Una opción es retroceder algunas etapas y volver
a pensar en los elementos/medidas que estamos usando y cómo podrían mejorarse o cam-
470 CHAPTER 15. ANÁLISIS FACTORIAL
Figure 15.15: Los resultados de jamovi CFA Model Fit para nuestro modelo CFA
biarse. Otra opción es hacer algunos ajustes post hoc al modelo para mejorar el ajuste.
Una forma de hacerlo es usar “índices de modificación” (Figure 15.18), especificados
como una opción de “Salida adicional” en jamovi.
Lo que estamos buscando es el valor más alto del índice de modificación (MI). Luego juz-
garíamos si tiene sentido agregar ese término adicional al modelo, usando una racional-
ización post hoc. Por ejemplo, podemos ver en Figure 15.18 que el MI más grande para
las cargas factoriales que aún no están en el modelo es un valor de 28.786 para la carga
de N4 (“A menudo se siente triste”) en el factor latente Extraversión . Esto indica que
si agregamos esta ruta al modelo, el valor de chi-cuadrado se reducirá aproximadamente
en la misma cantidad.
Pero en nuestro modelo, podría decirse que agregar este camino realmente no tiene
ningún sentido teórico o metodológico, por lo que no es una buena idea (a menos que
pueda presentar un argumento persuasivo de que “A menudo me siento triste” mide
tanto el neuroticismo como la extraversión). No puedo pensar en una buena razón.
Pero, por el bien del argumento, supongamos que tiene algún sentido y agreguemos
este camino al modelo. Vuelva a la ventana de análisis CFA (consulte Figure 15.14) y
agregue N4 al factor de extraversión. Los resultados del CFA ahora cambiarán (no se
muestra); el chi-cuadrado se ha reducido a alrededor de 709 (una caída de alrededor de
30, aproximadamente similar al tamaño del MI) y los otros índices de ajuste también
han mejorado, aunque solo un poco. Pero no es suficiente: todavía no es un buen modelo
de ajuste.
472 CHAPTER 15. ANÁLISIS FACTORIAL
Figure 15.16: La tabla jamovi CFA Factor Loadings para nuestro modelo CFA
15.3. ANÁLISIS FACTORIAL CONFIRMATORIO 473
Figure 15.17: La tabla de covarianzas del factor CFA jamovi para nuestro modelo CFA
razón para permitir que los residuos covaríen (o se correlacionen), y un buen ejemplo
de esto se muestra en la siguiente sección sobre [CFA de múltiples características y
múltiples métodos]. Antes de hacer eso, veamos cómo informar los resultados de un
CFA.
Los investigadores están interesados en verificar sus datos para ver si hay algunos fac-
tores latentes subyacentes que las 18 variables observadas en el ASQ miden razonable-
mente bien.
Primero, prueban EFA con estas 18 variables (no se muestran), pero no importa cómo
extraigan o roten, no pueden encontrar una buena solución factorial. Su intento de iden-
tificar los factores latentes subyacentes en el Cuestionario de Estilo Atribucional (ASQ)
resultó infructuoso. Si obtiene resultados como este, entonces su teoría es incorrecta (no
hay una estructura de factores latentes subyacente para el estilo atribucional, lo cual
es posible), la muestra no es relevante (lo cual es poco probable dado el tamaño y las
características de esta muestra de adultos jóvenes de el Reino Unido y Nueva Zelanda),
o el análisis no era la herramienta adecuada para el trabajo. Vamos a ver esta tercera
posibilidad.
478 CHAPTER 15. ANÁLISIS FACTORIAL
Figure 15.21: Seis preguntas sobre el ASQ para cada una de las dimensiones de Inter-
nalidad, Estabilidad y Globalidad
Podríamos representar esto como en el diagrama en Figure 15.22, que muestra que cada
variable es una medida de un factor latente subyacente. Por ejemplo, INT1 se predice
mediante el factor latente subyacente Internalidad. Y debido a que INT1 no es una
medida perfecta del factor de internalidad, hay un término de error, e1, asociado con él.
En otras palabras, e1 representa la varianza en INT1 que no se explica por el factor de
Internalidad. Esto a veces se denomina “error de medición”.
El siguiente paso es considerar si se debe permitir que los factores latentes se correlacio-
nen en nuestro modelo. Como se mencionó anteriormente, en las ciencias psicológicas
y del comportamiento, los constructos a menudo están relacionados entre sí, y tam-
bién pensamos que la Internalidad, la Estabilidad y la Globalidad pueden estar correla-
cionadas entre sí, por lo que en nuestro modelo deberíamos permitir que estos factores
latentes covaríen. , como se muestra en Figure 15.23.
Al mismo tiempo, debemos considerar si existe alguna buena razón sistemática para que
algunos de los términos de error estén correlacionados entre sí. Volviendo a las preguntas
del ASQ, había tres subpreguntas diferentes (a, byc) para cada pregunta principal (1-6).
La P1 se refería a la búsqueda de empleo sin éxito y es plausible que esta pregunta tenga
algunos aspectos metodológicos o artefactos distintivos además de las otras preguntas
(2-5), quizás algo relacionado con la búsqueda de empleo. De manera similar, P2 se
15.4. MÚLTIPLES RASGOS MÚLTIPLES MÉTODOS CFA 479
Figure 15.22: especificación previa inicial de la estructura del factor latente para el ASQ
480 CHAPTER 15. ANÁLISIS FACTORIAL
Figure 15.25: Los resultados de jamovi CFA Model Fit para nuestro modelo CFA
MTMM
grupos (una “mitad dividida”) y viendo si el análisis de las dos partes da resultados
comparables. Por supuesto, hay muchas formas de dividir un conjunto de elementos,
pero si se realizan todas las divisiones posibles, es posible generar una estadística que
refleje el patrón general de los coeficientes de división por mitades. El alfa de Cronbach
(𝛼) es una estadística de este tipo: una función de todos los coeficientes divididos por
la mitad de una escala. Si un conjunto de elementos que miden un constructo (por
ejemplo, una escala de Extraversión) tiene un 𝛼 de 0, 80, entonces la proporción de la
varianza del error en la escala es de 0, 20. En otras palabras, una escala con 𝛼 de 0.80
incluye aproximadamente un 20% de error.
PERO, (y ese es un GRAN “PERO”), el alfa de Cronbach no es una medida de unidimen-
sionalidad (es decir, un indicador de que una escala mide un solo factor o construcción
en lugar de múltiples construcciones relacionadas). Las escalas que son multidimension-
ales harán que se subestime alfa si no se evalúan por separado para cada dimensión,
pero los valores altos de alfa no son necesariamente indicadores de unidimensionalidad.
Por lo tanto, un 𝛼 de 0,80 no significa que se tenga en cuenta el 80 % de una única
construcción subyacente. Podría ser que el 80% provenga de más de una construcción
subyacente. Es por eso que EFA y CFA son útiles para hacer primero.
Además, otra característica de 𝛼 es que tiende a ser específico de la muestra: no es
una característica de la escala, sino una característica de la muestra en la que se ha
utilizado la escala. Una muestra sesgada, no representativa o pequeña podría producir
un coeficiente 𝛼 muy diferente al de una muestra grande y representativa. 𝛼 incluso
puede variar de una muestra grande a una muestra grande. Sin embargo, a pesar de
estas limitaciones, el 𝛼 de Cronbach ha sido popular en Psicología para estimar la
15.5. ANÁLISIS DE CONFIABILIDAD DE CONSISTENCIA INTERNA 485
Figure 15.26: Las tablas jamovi CFA Factor Loadings and Covariances para nuestro
modelo CFA MTMM
486 CHAPTER 15. ANÁLISIS FACTORIAL
Figure 15.28: Los resultados del análisis de confiabilidad jamovi para el factor de ama-
bilidad
15.6. RESUMEN 489
15.6 Resumen
En este capítulo sobre análisis factorial y técnicas relacionadas, presentamos y de-
mostramos análisis estadísticos que evalúan el patrón de relaciones en un conjunto de
datos. Específicamente, hemos cubierto:
• Análisis Factorial Exploratorio (AFE). EFA es una técnica estadística para iden-
tificar factores latentes subyacentes en un conjunto de datos. Cada variable ob-
servada se conceptualiza como una representación del factor latente hasta cierto
punto, indicado por una carga factorial. Los investigadores también utilizan EFA
como una forma de reducción de datos, es decir, identificando variables observadas
que pueden combinarse en nuevas variables de factores para análisis posteriores.
• Análisis de componentes principales (PCA) es una técnica de reducción de datos
que, estrictamente hablando, no identifica factores latentes subyacentes. En cam-
bio, PCA simplemente produce una combinación lineal de variables observadas.
• Análisis Factorial Confirmatorio (CFA). A diferencia de EFA, con CFA comienza
con una idea, un modelo, de cómo las variables en sus datos se relacionan entre sí.
Luego, prueba tu modelo con los datos observados y evalúa qué tan bien se ajusta
el modelo a los datos.
• En [Multi-Trait Multi-Method CFA] (MTMM CFA), tanto el factor latente como
la varianza del método se incluyen en el modelo en un enfoque que es útil cuando se
utilizan diferentes enfoques metodológicos y, por lo tanto, la varianza del método
es una consideración importante.
• [Análisis de fiabilidad de la consistencia interna]. Esta forma de análisis de confia-
bilidad prueba cuán consistentemente una escala mide una construcción de medi-
ción (psicológica).
490 CHAPTER 15. ANÁLISIS FACTORIAL
Part VI
Finales, alternativas y
perspectivas
491
Chapter 16
Estadística bayesianas
“En nuestros razonamientos relativos a los hechos, hay todos los grados
imaginables de seguridad, desde la certeza más alta hasta la especie más baja
de evidencia moral. Por lo tanto, un hombre sabio proporciona su creencia
a la evidencia”.
– David Hume 1
Las ideas que le he presentado en este libro describen la estadística inferencial desde la
perspectiva frecuentista. No estoy solo en hacer esto. De hecho, casi todos los libros
de texto que se entregan a los estudiantes de psicología presentan las opiniones del
estadístico frecuentista como la teoría de la estadística inferencial, la única forma ver-
dadera de hacer las cosas. He enseñado de esta manera por razones prácticas. La visión
frecuentista de la estadística dominó el campo académico de la estadística durante la
mayor parte del siglo XX, y este dominio es aún más extremo entre los científicos aplica-
dos. Era y es una práctica corriente entre los psicólogos utilizar métodos frecuentistas.
Debido a que los métodos frecuentistas son omnipresentes en los artículos científicos,
todos los estudiantes de estadística deben comprender esos métodos, de lo contrario,
¡no podrán entender lo que dicen esos artículos! Desafortunadamente, al menos en mi
opinión, la práctica actual en psicología a menudo está equivocada y la dependencia de
los métodos frecuentistas es en parte culpable. En este capítulo explico por qué pienso
esto y ofrezco una introducción a la estadística bayesiana, un enfoque que creo que es
generalmente superior al enfoque ortodoxo.
Este capítulo viene en dos partes. En las primeras tres secciones, hablo de qué se tratan
las estadísticas bayesianas, cubriendo las reglas matemáticas básicas de cómo funciona,
así como una explicación de por qué creo que el enfoque bayesiano es tan útil. Luego,
proporciono una breve descripción general de cómo puede hacer pruebas t bayesianas.
.org/wiki/David_Hume.
493
494 CHAPTER 16. ESTADÍSTICA BAYESIANAS
Table 16.1: ¿Qué tan probable es que llueva en Adelaide? Creencias preexistentes
basadas en el conocimiento de la precipitación promedio de enero
(a)
(b)
2 http://en.wikipedia.org/wiki/Climate_of_Adelaide
16.1. RAZONAMIENTO PROBABILÍSTICO POR AGENTES RACIONALES 495
Table 16.2: ¿Qué tan probable es que lleve un paraguas en días lluviosos y secos?
(a)
(b)
Data Data
Hypothesis Umbrella No umbrella
Rainy day 0.30 0.70
Dry day 0.05 0.95
(a)
(b)
Umbrella No-umbrella
Rainy 0.045 0.105
Dry 0.0425 0.807
En nuestro ejemplo, es posible que desee calcular la probabilidad de que hoy llueva (es
decir, la hipótesis h es verdadera) y llevo un paraguas (es decir, se observan los datos 𝑑).
La probabilidad conjunta de la hipótesis y los datos se escribe 𝑃 (𝑑, ℎ), y se puede
calcular multiplicando la anterior 𝑃 (ℎ) por la probabilidad 𝑃 (𝑑|ℎ) . Matemáticamente,
decimos que
Entonces, ¿cuál es la probabilidad de que hoy sea un día lluvioso y me acuerde de llevar
un paraguas? Como comentamos anteriormente, el anterior nos dice que la probabilidad
de un día lluvioso es del 15 %, y la probabilidad nos dice que la probabilidad de que me
acuerde de mi paraguas en un día lluvioso es de 30%. Entonces, la probabilidad de que
ambas cosas sean ciertas se calcula multiplicando las dos
En otras palabras, antes de que te digan nada de lo que realmente pasó, piensas que
hay un 4,5% de probabilidad de que hoy sea un día lluvioso y que me acuerde de un
paraguas. Sin embargo, por supuesto, hay cuatro cosas posibles que podrían suceder,
¿verdad? Así que repitamos el ejercicio para los cuatro. Si hacemos eso, terminamos
con Table 16.3.
Esta tabla captura toda la información sobre cuál de las cuatro posibilidades es probable.
Sin embargo, para obtener realmente una imagen completa, es útil sumar los totales de
las filas y los totales de las columnas. Eso nos da Table 16.4.
Esta es una tabla muy útil, por lo que vale la pena tomarse un momento para pensar
en lo que nos dicen todos estos números. Primero, observe que las sumas de las filas
no nos dicen nada nuevo en absoluto. Por ejemplo, la primera fila nos dice que si
ignoramos todo este asunto de los paraguas, la probabilidad de que hoy sea un día
lluvioso es del 15 %. Eso no es sorprendente, por supuesto, ya que es nuestro anterior.5
Lo importante no es el número en sí. Más bien, lo importante es que nos da cierta
confianza en que nuestros cálculos son sensatos. Ahora eche un vistazo a las sumas de
las columnas y observe que nos dicen algo que aún no hemos declarado explícitamente.
5 Para ser claros, la información “previa” es conocimiento o creencias preexistentes, antes de que
Table 16.4: Cuatro posibilidades combinando lluvia (o no) y paraguas (o no), con totales
de fila y columna
(a)
(b)
No-
Umbrella umbrella Total
Rainy 0.045 0.105 0.15
Dry 0.0425 0.807 0.85
Total 0.0875 0.912 1
Table 16.5: Cuatro posibilidades que combinan lluvia (o no) y paraguas (o no), expre-
sadas como probabilidades condicionales
(a)
(b)
No-
Umbrella umbrella
P(No-
P(Umbrella, umbrella,
Rainy Rainy) Rainy) P(Rainy)
P(No-
P(Umbrella, umbrella,
Dry Dry) Dry) P(Dry)
P(No-
P(Umbrella) umbrella)
De la misma manera que las sumas de las filas nos dicen la probabilidad de lluvia, las
sumas de las columnas nos dicen la probabilidad de que lleve un paraguas. En concreto,
la primera columna nos dice que de media (es decir, ignorando si es un día lluvioso o
no) la probabilidad de que lleve paraguas es del 8,75%. Finalmente, observe que cuando
sumamos los cuatro eventos lógicamente posibles, todo suma 1. En otras palabras, lo
que hemos escrito es una distribución de probabilidad adecuada definida sobre todas las
combinaciones posibles de datos e hipótesis.
Ahora, debido a que esta tabla es tan útil, quiero asegurarme de que comprenda a qué
corresponden todos los elementos y cómo se escribieron (Table 16.5):
Table 16.6: Cuatro posibilidades que combinan lluvia (o no) y paraguas (o no), expre-
sadas en términos hipotéticos como probabilidades condicionales
(a)
(b)
𝑑1 𝑑2
ℎ1 𝑃 (ℎ1 , 𝑑1 ) 𝑃 (ℎ1 , 𝑑2 ) 𝑃 (ℎ1 )
ℎ2 𝑃 (ℎ2 , 𝑑1 ) 𝑃 (ℎ2 , 𝑑2 ) 𝑃 (ℎ2 )
𝑃 (𝑑1 ) 𝑃 (𝑑2 )
Table 16.7: Revisión de creencias dados nuevos datos sobre llevar paraguas
(a)
(b)
Umbrella No-umbrella
Rainy 0
Dry 0
Total 1 0
de que esté mintiendo sobre el paraguas. Pero mantengamos las cosas simples, ¿de acuerdo?
16.1. RAZONAMIENTO PROBABILÍSTICO POR AGENTES RACIONALES 499
Table 16.8: Revisión de probabilidades dados nuevos datos sobre llevar paraguas
(a)
(b)
Umbrella No-umbrella
Rainy 0.514 0
Dry 0.486 0
Total 1 0
𝑃 (𝑑, ℎ)
𝑃 (ℎ|𝑑) =
𝑃 (𝑑)
Sin embargo, recuerda lo que dije al comienzo de la última sección, a saber, que la prob-
abilidad conjunta 𝑃 (𝑑, ℎ) se calcula multiplicando el Pphq anterior por la probabilidad
𝑃 (𝑑|ℎ). En la vida real, las cosas que realmente sabemos escribir son los antecedentes y
7 puede notar que esta ecuación es en realidad una reafirmación de la misma regla básica que enu-
meré al comienzo de la última sección. Si multiplica ambos lados de la ecuación por 𝑃 (𝑑), obtiene
𝑃 (𝑑)𝑃 (ℎ|𝑑) = 𝑃 (𝑑, ℎ), que es la regla para calcular las probabilidades conjuntas. Así que en realidad
no estoy introduciendo ninguna regla “nueva” aquí, solo estoy usando la misma regla de una manera
diferente.
500 CHAPTER 16. ESTADÍSTICA BAYESIANAS
𝑃 (𝑑|ℎ)𝑃 (ℎ)
𝑃 (ℎ|𝑑) =
𝑃 (𝑑)
Y esta fórmula, amigos, se conoce como regla de Bayes. Describe cómo un alumno
comienza con creencias previas sobre la plausibilidad de diferentes hipótesis y le dice
cómo se deben revisar esas creencias frente a los datos. En el paradigma bayesiano,
todas las inferencias estadísticas fluyen de esta regla simple.
𝑃 (𝑑|ℎ0 )𝑃 (ℎ0 )
𝑃 (ℎ0 |𝑑) =
𝑃 (𝑑)
Esta fórmula nos dice exactamente cuánta creencia debemos tener en la hipótesis nula
después de haber observado los datos d. De manera similar, podemos calcular cuánta
creencia colocar en la hipótesis alternativa usando esencialmente la misma ecuación.
Todo lo que hacemos es cambiar el subíndice
𝑃 (𝑑|ℎ1 )𝑃 (ℎ1 )
𝑃 (ℎ1 |𝑑) =
𝑃 (𝑑)
Es todo tan simple que me siento como un idiota incluso molestándome en escribir estas
ecuaciones, ya que todo lo que estoy haciendo es copiar la regla de Bayes de la sección
anterior.8
bayesianas de la vida real se reduce a cómo se calcula la probabilidad 𝑃 (𝑑‖ℎ) cuando la hipótesis h es
algo complejo y vago. No voy a hablar sobre esas complejidades en este libro, pero sí quiero resaltar
que, aunque esta simple historia es cierta hasta donde llega, la vida real es más complicada de lo que
puedo cubrir en un libro de texto de introducción a las estadísticas.
16.2. PRUEBAS DE HIPÓTESIS BAYESIANAS 501
(a)
(b)
𝑃 (ℎ1 |𝑑) 𝑃 (𝑑|ℎ1 ) 𝑃 (ℎ1 )
ℎ0 |𝑑 = 𝑑|ℎ0 × ℎ0
⇑ ⇑ ⇑
Posterior Bayes
odds factor Prior odds
En realidad, vale la pena ampliar esta ecuación. Aquí hay tres términos diferentes que
debe conocer. En el lado izquierdo, tenemos las probabilidades posteriores, que te dicen
lo que crees sobre la verosimilitud relativa de la hipótesis nula y la hipótesis alternativa
después de ver los datos. En el lado derecho, tenemos las cuotas previas, que indican
lo que pensabas antes de ver los datos. En el medio, tenemos el factor de Bayes, que
describe la cantidad de evidencia proporcionada por los datos. (Table 16.9).
El factor de Bayes (a veces abreviado como BF) tiene un lugar especial en la prueba
de hipótesis bayesiana, porque cumple una función similar al valor p en la prueba de
hipótesis ortodoxa. El factor de Bayes cuantifica la fuerza de la evidencia proporcionada
por los datos y, como tal, es el factor de Bayes que las personas tienden a informar cuando
realizan una prueba de hipótesis bayesiana. La razón para informar los factores de
Bayes en lugar de las probabilidades posteriores es que diferentes investigadores tendrán
antecedentes diferentes. Algunas personas pueden tener un fuerte sesgo para creer que
la hipótesis nula es verdadera, otras pueden tener un fuerte sesgo para creer que es falsa.
Debido a esto, lo cortés que debe hacer un investigador aplicado es informar el factor
de Bayes. De esa manera, cualquier persona que lea el periódico puede multiplicar el
factor de Bayes por sus propias probabilidades previas personales, y puede calcular por
sí mismo cuáles serían las probabilidades posteriores. En cualquier caso, por convención
nos gusta pretender que damos igual consideración tanto a la hipótesis nula como a la
alternativa, en cuyo caso la probabilidad anterior es igual a 1, y la probabilidad posterior
se vuelve igual al factor de Bayes.
502 CHAPTER 16. ESTADÍSTICA BAYESIANAS
(a)
(b)
Y para ser perfectamente honesto, creo que incluso los estándares de Kass & Raftery
(1995) están siendo un poco caritativos. Si fuera por mí, habría llamado a la categoría de
“evidencia positiva” “evidencia débil”. Para mí, cualquier cosa en el rango de 3:1 a 20:1
es evidencia “débil” o “modesta” en el mejor de los casos. Pero no hay reglas estrictas
y rápidas aquí. Lo que cuenta como evidencia fuerte o débil depende completamente de
qué tan conservador sea usted y de los estándares en los que insista su comunidad antes
de estar dispuesta a etiquetar un hallazgo como “verdadero”.
En cualquier caso, tenga en cuenta que todos los números enumerados anteriormente
tienen sentido si el factor de Bayes es mayor que 1 (es decir, la evidencia favorece la
hipótesis alternativa). Sin embargo, una gran ventaja práctica del enfoque bayesiano
en relación con el enfoque ortodoxo es que también le permite cuantificar la evidencia
del nulo. Cuando eso suceda, el factor de Bayes será menor que 1. Puede optar por
informar un factor de Bayes menor que 1, pero para ser honesto, lo encuentro confuso.
Por ejemplo, suponga que la probabilidad de los datos bajo la hipótesis nula 𝑃 (𝑑|ℎ0 ) es
igual a 0,2, y la probabilidad correspondiente 𝑃 (𝑑|ℎ1 ) bajo la hipótesis alternativa es
0,1. Usando las ecuaciones dadas arriba, el factor de Bayes aquí sería
𝑃 (𝑑|ℎ1 ) 0.1
𝐵𝐹 = = = 0.5
𝑃 (𝑑|ℎ0 ) 0.2
′ 𝑃 (𝑑|ℎ0 ) 0.2
𝐵𝐹 = = =2
𝑃 (𝑑|ℎ1 ) 0.1
Y lo que reportaríamos es un factor de Bayes de 2:1 a favor del nulo. Mucho más fácil
de entender, y puede interpretar esto usando la tabla de arriba.
que usa esta cita para quejarse de los métodos frecuentadores. Rich Morey y sus colegas tuvieron la
idea primero. Lo estoy robando descaradamente porque es una cita increíble para usar en este contexto
y me niego a perder cualquier oportunidad de citar La princesa prometida.
504 CHAPTER 16. ESTADÍSTICA BAYESIANAS
es significativa, es lo que más nos importa. . Es una idea tan atractiva que incluso los
estadísticos capacitados caen presa del error de tratar de interpretar un valor p de esta
manera. Por ejemplo, aquí hay una cita de un informe oficial de Newspoll en 2013, que
explica cómo interpretar su análisis de datos (frecuentista): 10
A lo largo del informe, en su caso, se han observado cambios estadísticamente
significativos. Todas las pruebas de significación se han basado en el nivel
de confianza del 95 por ciento. Esto significa que si se observa que un
cambio es estadísticamente significativo, existe un 95 por ciento
de probabilidad de que haya ocurrido un cambio real, y no se debe
simplemente a una variación aleatoria. (énfasis añadido)
¡No! Eso no es lo que significa p < .05. Eso no es lo que significa un 95% de confianza
para un estadístico frecuentista. La sección en negrita es simplemente incorrecta. Los
métodos ortodoxos no pueden decirle que “hay un 95% de posibilidades de que haya
ocurrido un cambio real”, porque este no es el tipo de evento al que se pueden asignar
probabilidades frecuentistas. Para un frecuentador ideológico, esta frase no debería
tener sentido. Incluso si eres un frecuentador más pragmático, sigue siendo la definición
incorrecta de un valor p. Simplemente no está permitido o es correcto decirlo si desea
confiar en las herramientas estadísticas ortodoxas.
Por otro lado, supongamos que eres bayesiano. Aunque el pasaje en negrita es la defini-
ción incorrecta de un valor p, es más o menos exactamente lo que quiere decir un
bayesiano cuando dice que la probabilidad posterior de la hipótesis alternativa es supe-
rior al 95%. Y aquí está la cosa. Si el posterior bayesiano es en realidad lo que desea
informar, ¿por qué está tratando de usar métodos ortodoxos? Si desea hacer afirma-
ciones bayesianas, todo lo que tiene que hacer es ser bayesiano y usar herramientas
bayesianas.
Hablando por mí mismo, descubrí que esto es lo más liberador de cambiar a la vista
bayesiana. Una vez que haya dado el salto, ya no tendrá que envolver su cabeza en
definiciones contrarias a la intuición de los valores p. No tiene que molestarse en recordar
por qué no puede decir que está 95% seguro de que la verdadera media se encuentra
dentro de algún intervalo. Todo lo que tiene que hacer es ser honesto acerca de lo que
creía antes de realizar el estudio y luego informar lo que aprendió al hacerlo. Suena bien,
¿no? Para mí, esta es la gran promesa del enfoque bayesiano. Usted hace el análisis que
realmente quiere hacer y expresa lo que realmente cree que le están diciendo los datos.
En su opinión, si consideramos que p < 0,05 significa que hay “un efecto real”, entonces
“no nos equivocaremos a menudo”. Esta vista no es inusual. En mi experiencia, la
mayoría de los practicantes expresan puntos de vista muy similares a los de Fisher. En
esencia, se supone que la convención p < .05 representa un estándar probatorio bastante
estricto.
Bueno, ¿qué tan cierto es eso? Una forma de abordar esta pregunta es tratar de convertir
los valores p en factores de Bayes y ver cómo se comparan los dos. No es algo fácil de
hacer porque un valor p es un tipo de cálculo fundamentalmente diferente a un factor
de Bayes, y no miden lo mismo. Sin embargo, ha habido algunos intentos de resolver
la relación entre los dos, y es algo sorprendente. Por ejemplo, Johnson (2013) presenta
un caso bastante convincente de que (al menos para las pruebas t) el umbral p < .05
corresponde aproximadamente a un factor de Bayes de entre 3:1 y 5:1 a favor de la
alternativa. Si eso es correcto, entonces la afirmación de Fisher es un poco exagerada.
Supongamos que la hipótesis nula es cierta aproximadamente la mitad de las veces
(es decir, la probabilidad previa de 𝐻0 es 0,5), y usamos esos números para calcular
la probabilidad posterior de la hipótesis nula dado que ha sido rechazada en p < .05.
Utilizando los datos de Johnson (2013), vemos que si rechaza el valor nulo en p ă .05,
estará en lo correcto aproximadamente el 80 % de las veces. No sé usted, pero, en mi
opinión, un estándar probatorio que le asegure que se equivocará en el 20 % de sus
decisiones no es suficiente. El hecho es que, contrariamente a la afirmación de Fisher,
si rechaza en p < 0,05, muy a menudo se equivocará. No es un umbral probatorio muy
estricto en absoluto.
2. Supone que podría haber un efecto e intenta publicarlo como un resultado “en el
límite significativo”
3. Te rindes e intentas un nuevo estudio
4. Reúne algunos datos más para ver si el valor p sube o (¡preferiblemente!) cae por
debajo del criterio “mágico” de p < .05
¿Cuál escogerías? Antes de seguir leyendo, le insto a que se tome un tiempo para
pensarlo. Se honesto contigo mismo. Pero no te preocupes demasiado por eso, porque
estás jodido sin importar lo que elijas. Basado en mis propias experiencias como autor,
revisor y editor, así como en las historias que escuché de otros, esto es lo que sucederá
en cada caso:
• Comencemos con la opción 1. Si intenta publicarlo como un resultado nulo, el
artículo tendrá dificultades para publicarse. Algunos revisores pensarán que p
= .072 no es realmente un resultado nulo. Argumentarán que está en el límite
significativo. Otros revisores estarán de acuerdo en que es un resultado nulo, pero
afirmarán que, aunque algunos resultados nulos son publicables, el suyo no lo es.
Uno o dos revisores podrían incluso estar de su lado, pero tendrá que luchar una
batalla cuesta arriba para lograrlo.
• Bien, pensemos en la opción número 2. Supongamos que intenta publicarlo como
un resultado límite significativo. Algunos revisores afirmarán que es un resultado
nulo y que no debería publicarse. Otros afirmarán que la evidencia es ambigua y
que debe recopilar más datos hasta que obtenga un resultado claro y significativo.
Una vez más, el proceso de publicación no le favorece.
• Dadas las dificultades para publicar un resultado “ambiguo” como p = .072, la
opción número 3 puede parecer tentadora: rendirse y hacer otra cosa. Pero esa es
una receta para el suicidio profesional. Si te rindes y pruebas un nuevo proyecto
cada vez que te enfrentas a la ambigüedad, tu trabajo nunca se publicará. Y si
estás en la academia sin un registro de publicación puedes perder tu trabajo. Así
que esa opción está descartada.
• Parece que está atascado con la opción 4. No tiene resultados concluyentes, por
lo que decide recopilar más datos y volver a ejecutar el análisis. Parece sensato,
pero desafortunadamente para usted, si hace esto, todos sus valores p ahora son
incorrectos. Todos ellos. No solo los valores p que calculó para este estudio.
Todos ellos. Todos los valores p que calculó en el pasado y todos los valores p que
calculará en el futuro. Afortunadamente, nadie se dará cuenta. Te publicarán y
habrás mentido.
¿Esperar lo? ¿Cómo puede ser cierta esa última parte? Quiero decir, suena como una
estrategia perfectamente razonable, ¿no? Recolectó algunos datos, los resultados no
fueron concluyentes, por lo que ahora lo que desea hacer es recopilar más datos hasta
que los resultados sean concluyentes. ¿Qué está mal con eso?
Honestamente, no hay nada de malo en ello. Es algo razonable, sensato y racional. En
la vida real, esto es exactamente lo que hace todo investigador. Desafortunadamente,
la teoría de nula Prueba de hipótesis como la describí en un capítulo anterior le prohíbe
hacer esto.12 La razón es que la teoría asume que el experimento ha terminado y
12 Para ser completamente honesto, debo reconocer que no todas las pruebas estadísticas ortodoxas
se basan en esta suposición tonta. Hay una serie de herramientas de análisis secuencial que a veces
se utilizan en ensayos clínicos y similares. Estos métodos se basan en el supuesto de que los datos se
16.3. ¿POR QUÉ SER BAYESIANO? 507
Table 16.11: prueba de significación de hipótesis nula convencional (NHST) con p <
0,05)
(a)
(b)
Outcome Action
p less than .05 Reject the null
p greater than .05 Retain the null
Table 16.12: llevar a cabo la recopilación de datos en función de los valores p obtenidos
en las pruebas preliminares
(a)
(b)
Outcome Action
Stop the experiment and reject the
p less than .05 null
p between .05 and .1 Continue the experiment
Stop the experiment and retain the
p greater than .1 null
todos los datos están in. Y debido a que asume que el experimento ha terminado, solo
considera dos decisiones posibles. Si usa el umbral convencional p < .05, esas decisiones
se muestran en Table 16.11.
Lo que estás haciendo es agregar una tercera acción posible al problema de toma de
decisiones. Específicamente, lo que estás haciendo es usar el valor p como una razón
para justificar continuar con el experimento. Y como consecuencia, ha transformado el
procedimiento de toma de decisiones en uno que se parece más a Table 16.12.
La teoría “básica” de nula prueba de hipótesis no está construida para manejar este
tipo de cosas, no en la forma que describí en ese capítulo anterior. Si usted es el tipo
de persona que elegiría “recolectar más datos” en la vida real, eso implica que no está
tomando decisiones de acuerdo con las reglas de la prueba de hipótesis nula. Incluso
si llega a la misma decisión que la prueba de hipótesis, no está siguiendo el proceso
de decisión que implica, y es esta falla en seguir el proceso lo que está causando el
problema.13 Su p -Los valores son una mentira.
Peor aún, son una mentira de una manera peligrosa, porque todos son demasiado pe-
queños. Para darle una idea de lo malo que puede ser, considere el siguiente escenario
analizan a medida que llegan, y estas pruebas no se rompen terriblemente en la forma en que me quejo
aquí. Sin embargo, los métodos de análisis secuencial se construyen de una manera muy diferente a la
versión “estándar” de la prueba de hipótesis nula. No se incluyen en ningún libro de texto introductorio
y no se utilizan mucho en la literatura psicológica. La preocupación que planteo aquí es válida para
todas las pruebas ortodoxas que he presentado hasta ahora y para casi todas las pruebas que he visto
reportadas en los artículos que leí.
13 un problema relacionado: http://xkcd.com/1478/ .
508 CHAPTER 16. ESTADÍSTICA BAYESIANAS
(en el peor de los casos). Imagina que eres un investigador súper entusiasta con un pre-
supuesto ajustado que no prestó atención a mis advertencias anteriores. Usted diseña
un estudio comparando dos grupos. Desea desesperadamente ver un resultado significa-
tivo en el nivel 𝑝 < .05, pero realmente no desea recopilar más datos de los necesarios
(porque es costoso). Para reducir los costos, comienza a recopilar datos, pero cada vez
que llega un conjunto de observaciones, ejecuta una prueba t en sus datos. Si la prueba
t dice 𝑝 < .05, detiene el experimento e informa un resultado significativo. Si no, sigue
recopilando datos. Siga haciendo esto hasta que alcance su límite de gasto predefinido
para este experimento. Digamos que el límite se activa en 𝑁 = 1000 observaciones.
Como resultado, la verdad del asunto es que no se puede encontrar ningún efecto real:
la hipótesis nula es verdadera. Entonces, ¿cuál es la probabilidad de que llegues al final
del experimento y (correctamente) concluyas que no hay efecto? En un mundo ideal, la
respuesta aquí debería ser 95%. Después de todo, el punto central del criterio 𝑝 < .05
es controlar la tasa de error Tipo I al 5 %, por lo que lo que esperamos es que solo haya
un 5 % de posibilidades de rechazar falsamente la hipótesis nula en esta situación. . Sin
embargo, no hay garantía de que eso sea cierto. Estás rompiendo las reglas. Debido a
que está ejecutando pruebas repetidamente, “echando un vistazo” a sus datos para ver
si ha obtenido un resultado significativo, todas las apuestas están canceladas.
Entonces, ¿qué tan malo es? La respuesta se muestra como una línea sólida en Fig-
ure 16.1, y es asombrosamente mala. Si echa un vistazo a sus datos después de cada
observación, hay un 53% de posibilidades de que cometa un error de tipo I. Eso es,
um, un poco más grande que el 5% que se supone que es. Y no mejora mucho con un
vistazo menos frecuente: si solo miras cada 10 o cada 50 observaciones. entonces las
tasas de error de Tipo I siguen siendo demasiado altas: 38% y 29%, respectivamente.
A modo de comparación, imagine que ha utilizado la siguiente estrategia. Comience a
recopilar datos. Cada vez que llegue una observación, ejecute pruebas t bayesianas y
mire el factor de Bayes. Asumiré que Johnson (2013) tiene razón, y trataré un factor
de Bayes de 3:1 como aproximadamente equivalente a un valor p de .05.14 Esta vez,
nuestro investigador de gatillo feliz utiliza el siguiente procedimiento. Si el factor de
Bayes es 3:1 o más a favor del nulo, detenga el experimento y conserve el nulo. Si es
3:1 o más a favor de la alternativa, detenga el experimento y rechace el nulo. De lo
contrario, continúe probando. Ahora, como la última vez, supongamos que la hipóte-
sis nula es verdadera. ¿Lo que sucede? Da la casualidad de que también ejecuté las
simulaciones para este escenario y los resultados se muestran como la línea discontinua
en @ fig-fig16-1. Resulta que la tasa de error de Tipo I para echar un vistazo cada vez
que llega una nueva observación es del 24%, mucho más baja que la tasa del 53% que
obtuvimos al usar la prueba t ortodoxa. Y para asomarse cada 10 o 50 observaciones
las tasas son del 11% y 8%, respectivamente.
En cierto modo, esto es notable. Todo el punto de la prueba de hipótesis nula ortodoxa
es controlar la tasa de error Tipo I. Los métodos bayesianos en realidad no están dis-
eñados para hacer esto en absoluto. Sin embargo, resulta que cuando se enfrenta a un
investigador de “gatillo feliz” que continúa realizando pruebas de hipótesis a medida
que ingresan los datos, el enfoque bayesiano es mucho más efectivo. Incluso el estándar
3:1, que la mayoría de los bayesianos consideraría inaceptablemente laxo, es mucho más
seguro que la regla p < 0,05.
14 Algunos lectores podrían preguntarse por qué elegí 3:1 en lugar de 5:1, dado que Johnson (2013)
sugiere que 𝑝 = 0, 05 se encuentra en algún lugar de ese rango. Lo hice para ser caritativo con el valor
p. Si hubiera elegido un factor Bayesiano de 5:1, los resultados se verían incluso mejor para el enfoque
bayesiano.
16.3. ¿POR QUÉ SER BAYESIANO? 509
0.6
0.4
0.2
alpha = .05
0.0
Y sí, estas reglas son sorprendentemente estrictas. Como ejercicio de clase hace un
par de años, les pedí a los estudiantes que pensaran en este escenario. Suponga que
comenzó a realizar su estudio con la intención de reunir 𝑁 = 80 personas. Cuando
comienza el estudio, sigues las reglas y te niegas a mirar los datos o realizar cualquier
prueba. Pero cuando llegas a 𝑁 = 50 tu fuerza de voluntad cede… y echas un vistazo.
¿Adivina qué? ¡Tienes un resultado significativo! Ahora, claro, sabes que dijiste que
seguirías realizando el estudio con un tamaño de muestra de 𝑁 = 80, pero parece un
poco inútil ahora, ¿verdad? El resultado es significativo con un tamaño de muestra de
𝑁 = 50, entonces, ¿no sería un desperdicio e ineficiente seguir recopilando datos? ¿No
estás tentado a parar? ¿Solo un poco? Bueno, tenga en cuenta que si lo hace, su tasa
de error de Tipo I en 𝑝 < .05 simplemente se disparó al 8%. Cuando reporta 𝑝 < .05
en su trabajo, lo que realmente está diciendo es 𝑝 < .08. Así de malas pueden ser las
consecuencias de “solo un vistazo”.
Ahora considera esto. La literatura científica está llena de pruebas t, ANOVA, regre-
siones y pruebas de chi-cuadrado. Cuando escribí este libro no elegí estas pruebas
arbitrariamente. La razón por la que estas cuatro herramientas aparecen en la mayoría
de los textos de introducción a la estadística es que son las herramientas básicas de la
ciencia. Ninguna de estas herramientas incluye una corrección para lidiar con el “vis-
tazo de datos”: todas asumen que no lo estás haciendo. Pero, ¿qué tan realista es esa
suposición? En la vida real, ¿cuántas personas cree que “miraron” sus datos antes de
que terminara el experimento y adaptaron su comportamiento posterior después de ver
cómo se veían los datos? Excepto cuando el procedimiento de muestreo está fijado por
una restricción externa, supongo que la respuesta es “la mayoría de la gente lo ha hecho”.
Si eso ha sucedido, puede inferir que los valores p informados son incorrectos. Peor aún,
debido a que no sabemos qué proceso de decisión siguieron en realidad, no tenemos
forma de saber cuáles deberían haber sido los valores p. No puede calcular un valor p
cuando no conoce el procedimiento de toma de decisiones que utilizó el investigador. Y
así, el valor p informado sigue siendo una mentira.
Teniendo en cuenta todo lo anterior, ¿cuál es el mensaje para llevar a casa? No es que
los métodos bayesianos sean infalibles. Si un investigador está decidido a hacer trampa,
siempre puede hacerlo. La regla de Bayes no puede impedir que la gente mienta, ni
puede impedir que manipulen un experimento. Ese no es mi punto aquí. Mi punto
es el mismo que planteé al comienzo del libro en la Sección 1.1: la razón por la que
realizamos pruebas estadísticas es para protegernos de nosotros mismos. Y la razón
por la que “mirar a escondidas los datos” es tan preocupante es que es muy tentador,
16.4. PRUEBAS T BAYESIANAS 511
incluso para los investigadores honestos. Una teoría para la inferencia estadística tiene
que reconocer esto. Sí, podría tratar de defender los valores de p diciendo que es culpa
del investigador por no usarlos correctamente, pero en mi opinión, eso no entiende el
punto. Una teoría de la inferencia estadística que es tan completamente ingenua acerca
de los humanos que ni siquiera considera la posibilidad de que el investigador pueda ver
sus propios datos no es una teoría que valga la pena tener. En esencia, mi punto es este:
Las buenas leyes tienen su origen en la mala moral.
– Ambrosius Macrobius 15
Las buenas reglas para las pruebas estadísticas deben reconocer la fragilidad humana.
Ninguno de nosotros está libre de pecado. Ninguno de nosotros está más allá de la
tentación. Un buen sistema de inferencia estadística debería funcionar incluso cuando
lo utilizan seres humanos reales. La prueba de hipótesis nula ortodoxa no lo hace.16
de esta sección. Mira, no soy tonto. Sé absolutamente que si adopta una perspectiva de análisis
secuencial puede evitar estos errores dentro del marco ortodoxo. También sé que puede diseñar estudios
explícitamente con análisis intermedios en mente. Así que sí, en cierto sentido estoy atacando una
versión de “hombre de paja” de los métodos ortodoxos. Sin embargo, el hombre de paja que estoy
atacando es el que usan casi todos los practicantes. Si alguna vez llega al punto en que los métodos
secuenciales se convierten en la norma entre los psicólogos experimentales y ya no estoy obligado a leer
20 ANOVA extremadamente dudosos al día, prometo que reescribiré esta sección y reduciré el vitriolo.
Pero hasta que llegue ese día, mantendré mi afirmación de que los métodos predeterminados del factor
de Bayes son mucho más sólidos frente a las prácticas de análisis de datos que existen en el mundo real.
Los métodos ortodoxos predeterminados apestan, y todos lo sabemos.
512 CHAPTER 16. ESTADÍSTICA BAYESIANAS
estadístico de Bayes de 1,75, lo que significa que la evidencia proporcionada por estos
datos es de aproximadamente 1,8:1 a favor de la hipótesis alternativa.
Antes de continuar, vale la pena resaltar la diferencia entre los resultados de la prueba
ortodoxa y la bayesiana. Según la prueba ortodoxa, obtuvimos un resultado significativo,
aunque apenas. Sin embargo, mucha gente aceptaría felizmente p = .043 como evidencia
razonablemente sólida de un efecto. Por el contrario, tenga en cuenta que la prueba
bayesiana ni siquiera alcanza una probabilidad de 2:1 a favor de un efecto y, en el
mejor de los casos, se consideraría una evidencia muy débil. En mi experiencia, ese
es un resultado bastante típico. Los métodos bayesianos generalmente requieren más
evidencia antes de rechazar el valor nulo.
Figure 16.3: análisis de factores de Bayes junto con la prueba t de muestras independi-
entes
16.5. RESUMEN 513
Figure 16.4: Muestras pareadas T-Test y Bayes Factor dan como resultado jamovi
16.5 Resumen
La primera mitad de este capítulo se centró principalmente en los fundamentos teóricos
de las estadísticas bayesianas. Presenté las matemáticas de cómo funciona la inferen-
cia bayesiana en la sección sobre Razonamiento probabilístico por agentes racionales,
y brindé una descripción general muy básica de las pruebas de hipótesis bayesianas].
Finalmente, dediqué algo de espacio a hablar sobre por qué creo que [vale la pena usar
los métodos bayesianos] (¿Por qué ser bayesiano?).
Luego di un ejemplo práctico, con pruebas t bayesianas. Si está interesado en aprender
más sobre el enfoque bayesiano, hay muchos buenos libros que podría consultar. El libro
de John Kruschke Doing Bayesian Data Analysis es un muy buen lugar para comenzar
(Kruschke, 2011) y es una buena combinación de teoría y práctica. Su enfoque es un
poco diferente al enfoque del “factor de Bayes” que he discutido aquí, por lo que no
cubrirá el mismo terreno. Si es psicólogo cognitivo, puede consultar Lee & Wagenmakers
(2014). Elegí estos dos porque creo que son especialmente útiles para las personas en
mi disciplina, pero hay muchos libros buenos, ¡así que mira a tu alrededor!
514 CHAPTER 16. ESTADÍSTICA BAYESIANAS
Epílogo
515
516 Epílogo
lineal. Por otro lado, cuando hablamos sobre el problema más simple de la cor-
relación en el Capítulo 4, vimos que existen herramientas (p. ej., correlaciones
de Spearman) que pueden evaluar relaciones no lineales entre variables. Hay una
serie de herramientas en estadística que se pueden usar para hacer una regresión
no lineal. Por ejemplo, algunos modelos de regresión no lineal suponen que la
relación entre predictores y resultados es monotónica (p. ej., regresión isotónica),
mientras que otros suponen que es suave pero no necesariamente monótona (p. ej.,
regresión de Lowess), mientras que otros suponen que la relación es de una forma
conocida que pasa a ser no lineal (por ejemplo, regresión polinomial).
• Regresión logística. Otra variación de la regresión ocurre cuando la variable
de resultado es binaria, pero los predictores son continuos. Por ejemplo, suponga
que está investigando las redes sociales y quiere saber si es posible predecir si
alguien está en Twitter o no en función de sus ingresos, su edad y una variedad
de otras variables. Este es básicamente un modelo de regresión, pero no puede
usar la regresión lineal regular porque la variable de resultado es binaria (o está
en Twitter o no lo está). Debido a que la variable de resultado es binaria, no
hay forma de que los residuos puedan distribuirse normalmente. Hay una serie de
herramientas que los estadísticos pueden aplicar a esta situación, la más destacada
de las cuales es la regresión logística.
• El modelo lineal general (GLM). El GLM es en realidad una familia de mode-
los que incluye regresión logística, regresión lineal, (algunas) regresiones no lineales,
ANOVA y muchos otros. La idea básica en el GLM es esencialmente la misma
idea que sustenta los modelos lineales, pero permite la idea de que sus datos po-
drían no estar distribuidos normalmente y permite relaciones no lineales entre los
predictores y los resultados. Hay muchos análisis muy útiles que puede ejecutar
que se encuentran dentro del GLM, por lo que es muy útil conocerlos.
• Análisis de supervivencia. En Una breve introducción al diseño de investi-
gación hablé sobre la “deserción diferencial”, la tendencia de las personas a aban-
donar el estudio de manera no aleatoria. En aquel entonces, estaba hablando de
ello como una posible preocupación metodológica, pero hay muchas situaciones
en las que el desgaste diferencial es realmente lo que le interesa. Suponga, por
ejemplo, que le interesa saber cuánto tiempo la gente jugar diferentes tipos de
juegos de computadora en una sola sesión. ¿La gente tiende a jugar juegos RTS
(estrategia en tiempo real) durante períodos más largos que juegos FPS (disparos
en primera persona)? Puede diseñar su estudio de esta manera. Las personas
entran al laboratorio y pueden jugar durante el tiempo que deseen. Una vez que
terminan, registras el tiempo que pasaron jugando. Sin embargo, debido a restric-
ciones éticas, supongamos que no puedes permitir que sigan jugando más de dos
horas. Muchas personas dejarán de jugar antes del límite de dos horas, por lo
que sabrás exactamente cuánto tiempo jugaron. Pero algunas personas se toparán
con el límite de dos horas, por lo que no sabes cuánto tiempo habrían seguido ju-
gando si hubieras podido continuar con el estudio. Como consecuencia, sus datos
se censuran sistemáticamente: se pierde todos los tiempos muy largos. ¿Cómo
analiza estos datos con sensatez? Este es el problema que resuelve el análisis de
supervivencia. Está diseñado específicamente para manejar esta situación, en la
que se pierde sistemáticamente un “lado” de los datos porque el estudio finalizó.
Se usa mucho en la investigación de la salud y, en ese contexto, a menudo se usa
literalmente para analizar la supervivencia. Por ejemplo, puede estar rastreando a
518 Epílogo
personas con un tipo particular de cáncer, algunas que han recibido el tratamiento
A y otras que han recibido el tratamiento B, pero solo tiene fondos para rastrear-
las durante 5 años. Al final del período de estudio, algunas personas están vivas,
otras no. En este contexto, el análisis de supervivencia es útil para determinar qué
tratamiento es más efectivo e informarle sobre el riesgo de muerte que enfrentan
las personas con el tiempo.
• Modelos mixtos. El ANOVA de medidas repetidas se usa a menudo en situa-
ciones en las que tiene observaciones agrupadas dentro de unidades experimentales.
Un buen ejemplo de esto es cuando realiza un seguimiento de personas individ-
uales en múltiples puntos de tiempo. Digamos que estás rastreando la felicidad
a lo largo del tiempo, para dos personas. La felicidad de Aaron comienza en 10,
luego baja a 8 y luego a 6. La felicidad de Belinda comienza en 6, luego sube a 8
y luego a 10. Estas dos personas tienen el mismo nivel “general” de felicidad (el
promedio en todo el grupo). tres puntos de tiempo es 8), por lo que un análisis
ANOVA de medidas repetidas trataría a Aaron y Belinda de la misma manera.
Pero eso está claramente mal. La felicidad de Aaron disminuye, mientras que la
de Belinda aumenta. Si desea analizar de manera óptima los datos de un exper-
imento en el que las personas pueden cambiar con el tiempo, entonces necesita
una herramienta más poderosa que ANOVA de medidas repetidas. Las herramien-
tas que la gente usa para resolver este problema se denominan modelos “mixtos”,
porque están diseñados para aprender sobre unidades experimentales individuales
(por ejemplo, la felicidad de personas individuales a lo largo del tiempo), así como
efectos generales (por ejemplo, el efecto del dinero en la felicidad a lo largo del
tiempo). ). ANOVA de medidas repetidas es quizás el ejemplo más simple de un
modelo mixto, pero hay mucho que puede hacer con modelos mixtos que no puede
hacer con ANOVA de medidas repetidas.
• Escalamiento multidimensional. El análisis factorial es un ejemplo de un mod-
elo de “aprendizaje no supervisado”. Lo que esto significa es que, a diferencia de
la mayoría de las herramientas de “aprendizaje supervisado” que he mencionado,
no puede dividir sus variables en predictores y resultados. La regresión es apren-
dizaje supervisado, mientras que el análisis factorial es aprendizaje no supervisado.
Sin embargo, no es el único tipo de modelo de aprendizaje no supervisado. Por
ejemplo, en el análisis factorial uno se ocupa del análisis de correlaciones entre
variables. Sin embargo, hay muchas situaciones en las que realmente te interesa
analizar las similitudes o diferencias entre objetos, elementos o personas. Hay una
serie de herramientas que puede utilizar en esta situación, la más conocida de las
cuales es el escalado multidimensional (MDS). En MDS, la idea es encontrar una
representación “geométrica” de sus elementos. Cada elemento se “traza” como un
punto en algún espacio, y la distancia entre dos puntos es una medida de cuán
diferentes son esos elementos.
• Clustering. Otro ejemplo de un modelo de aprendizaje no supervisado es el
agrupamiento (también conocido como clasificación), en el que desea organizar
todos sus elementos en grupos significativos, de modo que los elementos similares
se asignen a los mismos grupos. Gran parte de la agrupación no está supervisada,
lo que significa que no sabe nada sobre cuáles son los grupos, solo tiene que
adivinar. Existen otras situaciones de “agrupamiento supervisado” en las que es
necesario predecir la pertenencia a grupos en función de otras variables, y esas
pertenencias a grupos son en realidad observables. La regresión logística es un
Las estadísticas no descubiertas 519
buen ejemplo de una herramienta que funciona de esta manera. Sin embargo,
cuando en realidad no conoce las membresías del grupo, debe usar diferentes
herramientas (p. ej., agrupación en clústeres k-means). Incluso hay situaciones
en las que desea hacer algo llamado “agrupamiento en clústeres semisupervisado”,
en el que conoce la membresía del grupo para algunos elementos pero no para
otros. Como probablemente pueda adivinar, la agrupación en clústeres es un
tema bastante amplio y algo bastante útil para conocer.
• Modelos causales. Una cosa de la que no he hablado mucho en este libro es
cómo puede usar modelos estadísticos para aprender sobre las relaciones causales
entre variables. Por ejemplo, considere las siguientes tres variables que podrían
ser de interés al pensar en cómo murió alguien en un pelotón de fusilamiento.
Podríamos querer medir si se dio o no una orden de ejecución (variable A), si
un tirador disparó o no su arma (variable B) y si la persona recibió o no una
bala (variable C). Estas tres variables están todas correlacionadas entre sí (por
ejemplo, existe una correlación entre las armas que se disparan y las personas que
reciben balas), pero en realidad queremos hacer afirmaciones más sólidas sobre
ellas que simplemente hablar de correlaciones. Queremos hablar de causalidad.
Queremos poder decir que la orden de ejecución (A) hace que el tirador dispare
(B) lo que hace que alguien reciba un disparo (C). Podemos expresar esto mediante
una notación de flecha dirigida: lo escribimos como 𝐴 → 𝐵 → 𝐶. Esta “cadena
causal” es una explicación fundamentalmente diferente para los eventos que aquella
en la que el tirador dispara primero, lo que provoca el disparo 𝐵 → 𝐶, y luego
hace que el verdugo emita “retroactivamente” la orden de ejecución, $B →$. Este
modelo de “efecto común” dice que tanto A como C son causados por B. Puede
ver por qué son diferentes. En el primer modelo causal, si hubiésemos conseguido
que el verdugo no diera la orden (interviniendo para cambiar A), entonces no se
habría producido ningún disparo. En el segundo modelo, el tiro habría ocurrido
de cualquier manera porque el tirador no estaba siguiendo la orden de ejecución.
Existe una gran literatura en estadística sobre cómo tratar de comprender las
relaciones causales entre las variables, y existen varias herramientas diferentes
para ayudarlo a probar diferentes historias causales sobre sus datos. La más
utilizada de estas herramientas (al menos en psicología) es el modelo de ecuaciones
estructurales (SEM), y en algún momento me gustaría ampliar el libro para hablar
de ello.
Por supuesto, incluso esta lista está incompleta. No he mencionado el análisis de series
de tiempo, la teoría de la respuesta al ítem, el análisis de la cesta de la compra, los
árboles de clasificación y regresión, o cualquiera de una amplia gama de otros temas.
Sin embargo, la lista que he dado anteriormente es esencialmente mi lista de deseos
para este libro. Claro, duplicaría la longitud del libro, pero significaría que el alcance
se ha vuelto lo suficientemente amplio como para cubrir la mayoría de las cosas que los
investigadores de psicología aplicada necesitarían usar.
ideas existen desde principios del siglo XX, y las herramientas de las que he hablado
en el libro se basan en gran medida en las ideas teóricas de esa época. Me he sentido
obligado a ceñirme a esos temas porque la gran mayoría del análisis de datos en la ciencia
también depende de esas ideas. Sin embargo, la teoría de la estadística no se limita a
esos temas y, aunque todo el mundo debería conocerlos debido a su importancia práctica,
en muchos aspectos esas ideas no representan las mejores prácticas para el análisis de
datos contemporáneo. Una de las cosas con las que estoy especialmente contento es que
he podido ir un poco más allá. [Estadísticas bayesianas] ahora presenta la perspectiva
bayesiana con una cantidad razonable de detalles, pero el libro en general todavía está
muy inclinado hacia la ortodoxia frecuentista. Además, hay una serie de otros enfoques
de la inferencia que vale la pena mencionar:
• Arranque. A lo largo del libro, cada vez que introduje una prueba de hipótesis,
tuve una fuerte tendencia a hacer afirmaciones como “la distribución de muestreo
para BLAH es una distribución t” o algo así. En algunos casos, en realidad he
intentado justificar esta afirmación. Por ejemplo, cuando hablé de las pruebas
𝜒2 en Análisis de datos categóricos hice referencia a la relación conocida entre
las distribuciones normales y las distribuciones 𝜒2 (ver [Introducción a la proba-
bilidad) para explicar cómo terminamos suponiendo que la distribución muestral
del estadístico de bondad de ajuste es 𝜒2 . Sin embargo, también es cierto que
muchas de estas distribuciones de muestreo son, bueno, incorrectas. La prueba
𝜒2 es un buen ejemplo. Se basa en una suposición sobre la distribución de sus
datos, ¡una suposición que se sabe que es incorrecta para tamaños de muestra
pequeños! A principios del siglo XX, no había mucho que pudieras hacer sobre
esta situación. Los estadísticos habían desarrollado resultados matemáticos que
decían que “bajo suposiciones BLAH sobre los datos, la distribución de muestreo
es aproximadamente BLAH”, y eso era lo mejor que podía hacer. Muchas veces ni
siquiera tenían eso. Hay muchas situaciones de análisis de datos para las que nadie
ha encontrado una solución matemática para las distribuciones de muestreo que
necesita. Y así hasta finales del siglo XX, las pruebas correspondientes no existían
o no funcionaban. Sin embargo, las computadoras han cambiado todo eso ahora.
Hay muchos trucos sofisticados y algunos no tan sofisticados que puedes usar para
evitarlo. El más simple de estos es el arranque, y en su forma más simple es
increíblemente simple. Lo que hace es simular los resultados de su experimento
muchas veces, bajo las suposiciones gemelas de que (a) la hipótesis nula es ver-
dadera y (b) la distribución de la población desconocida en realidad se ve bastante
similar a sus datos sin procesar. En otras palabras, en lugar de suponer que los
datos están (por ejemplo) distribuidos normalmente, simplemente suponga que la
población tiene el mismo aspecto que su muestra y luego use computadoras para
simular la distribución de muestreo para su estadística de prueba si esa suposición
se cumple. A pesar de basarse en una suposición un tanto dudosa (es decir, ¡la
distribución de la población es la misma que la muestra!), el bootstrapping es un
método rápido y fácil que funciona notablemente bien en la práctica para muchos
problemas de análisis de datos.
• Validación cruzada. Una pregunta que aparece en mis clases de estadística de vez
en cuando, generalmente por parte de un estudiante que intenta ser provocativo,
es “¿Por qué nos preocupamos por las estadísticas inferenciales? ¿Por qué no
simplemente describir su muestra?” La respuesta a la pregunta suele ser algo como
esto: “Debido a que nuestro verdadero interés como científicos no es la muestra
Las estadísticas no descubiertas 521
errores en los datos son sutiles, por lo que no puede detectarlos simplemente ob-
servando la muestra, pero siguen siendo errores que contaminan sus datos y aún
afectan sus conclusiones. Las estadísticas sólidas se ocupan de cómo puede hacer
inferencias seguras, incluso cuando se enfrenta a una contaminación de la que no
tiene conocimiento. Es algo muy bueno.
Temas varios
• Suponga que está realizando una encuesta y le interesa el ejercicio y el peso. Envías
datos a cuatro personas. Adam dice que hace mucho ejercicio y no tiene sobrepeso.
Briony dice que hace mucho ejercicio y no tiene sobrepeso. Carol dice que no hace
ejercicio y tiene sobrepeso. Tim dice que no hace ejercicio y se niega a responder la
pregunta sobre su peso. Elaine no devuelve la encuesta. Ahora tiene un problema
de falta de datos. Falta una encuesta completa y falta una pregunta de otra, ¿Qué
haces al respecto? Ignorar los datos que faltan no es, en general, algo seguro.
Pensemos en la encuesta de Tim aquí. En primer lugar, observe que, sobre la base
de sus otras respuestas, parece ser más similar a Carol (ninguno de nosotros hace
ejercicio) que a Adam o Briony. Entonces, si te vieras obligado a adivinar su peso,
dirías que está más cerca de ella que de ellos. Tal vez haría alguna corrección por el
hecho de que Adam y Tim son hombres y Briony y Carol son mujeres. El nombre
estadístico para este tipo de adivinanzas es “imputación”. Hacer la imputación de
manera segura es difícil, pero es importante, especialmente cuando los datos que
faltan se pierden de manera sistemática. Debido al hecho de que a las personas
con sobrepeso a menudo se las presiona para que se sientan mal por su peso (a
menudo gracias a campañas de salud pública), en realidad tenemos motivos para
sospechar que las personas que no responden tienen más probabilidades de tener
sobrepeso que las personas que sí lo hacen. responde Imputar un peso a Tim
significa que el número de personas con sobrepeso en la muestra probablemente
aumentará de 1 de 3 (si ignoramos a Tim) a 2 de 4 (si imputamos el peso de
Tim). Claramente esto importa. Pero hacerlo con sensatez es más complicado de
lo que parece. Anteriormente, sugerí que deberías tratar a Tim como Carol, ya
que dieron la misma respuesta a la pregunta del ejercicio. Pero eso no es del todo
correcto. Hay una diferencia sistemática entre ellos. Ella respondió la pregunta y
Tim no. Dadas las presiones sociales que enfrentan las personas con sobrepeso, ¿no
es probable que Tim tenga más sobrepeso que Carol? Y, por supuesto, esto sigue
ignorando el hecho de que no es sensato imputar un peso único a Tim, como si
realmente supieras su peso. En cambio, lo que debe hacer es imputar un rango de
conjeturas plausibles (lo que se conoce como imputación múltiple), para capturar
el hecho de que está más inseguro sobre el peso de Tim que sobre el de Carol. Y
no comencemos con el problema planteado por el hecho de que Elaine no envió la
encuesta. Como probablemente pueda adivinar, lidiar con los datos faltantes es
un tema cada vez más importante. De hecho, me han dicho que muchas revistas
en algunos campos no aceptarán estudios en los que falten datos a menos que se
siga algún tipo de esquema de imputación múltiple sensato.
• Análisis de potencia. En Prueba de hipótesis hablé del concepto de potencia (es
decir, qué tan probable es que pueda detectar un efecto si realmente existe) y me
refiero al análisis de potencia, una colección de herramientas que son útiles para
evaluar la potencia de su estudio. posee. El análisis de potencia puede ser útil
para planificar un estudio (p. ej., averiguar qué tamaño de muestra es probable
Las estadísticas no descubiertas 523
que necesite), pero también cumple una función útil en el análisis de datos que
ya recopiló. Por ejemplo, suponga que obtiene un resultado significativo y tiene
una estimación del tamaño del efecto. Puede usar esta información para estimar
cuánta potencia tenía realmente su estudio. Esto es bastante útil, especialmente
si el tamaño de su efecto no es grande. Por ejemplo, suponga que rechaza la
hipótesis nula en 𝑝 < .05, pero usa el análisis de potencia para determinar que
su potencia estimada fue solo .08. El resultado significativo significa que, si la
hipótesis nula fuera cierta, había un 5% de posibilidades de obtener datos como
este. Pero la potencia baja significa que, incluso si la hipótesis nula es falsa y
el tamaño del efecto es realmente tan pequeño como parece, solo hay un 8 % de
posibilidades de obtener datos como los que obtuvo usted. ¡Esto sugiere que debe
ser bastante cauteloso, porque la suerte parece haber jugado un papel importante
en sus resultados, de una forma u otra!
probabilidad, etc. Hay muchas otras cosas que te empujan a aprender además de los
análisis específicos que cubre el libro. Entonces, si su objetivo había sido aprender a
ejecutar un ANOVA en el mínimo tiempo posible, este libro no era una buena opción.
Pero como digo, no creo que ese sea tu objetivo. Creo que quieres aprender a hacer
análisis de datos. Y si ese es realmente su objetivo, querrá asegurarse de que las habil-
idades que aprenda en su clase introductoria de estadísticas sean extensibles de forma
natural y limpia a los modelos más complicados que necesita en el análisis de datos del
mundo real. Quiere asegurarse de aprender a usar las mismas herramientas que usan
los analistas de datos reales, para que pueda aprender a hacer lo que ellos hacen. Y
sí, está bien, eres un principiante en este momento (o lo eras cuando comenzaste este
libro), pero eso no significa que debas contarte una historia tonta, una historia en la
que no te cuente sobre densidad de probabilidad, o una historia donde no les cuento
sobre la pesadilla que es el ANOVA factorial con diseños desbalanceados. Y eso no
significa que deban darle juguetes para bebés en lugar de herramientas de análisis de
datos adecuadas. Los principiantes no son tontos, simplemente les falta conocimiento.
Lo que necesita es que no se le oculten las complejidades del análisis de datos del mundo
real. Lo que necesita son las habilidades y herramientas que le permitirán manejar esas
complejidades cuando inevitablemente lo embosquen en el mundo real.
Y lo que espero es que este libro, o el libro terminado en el que se convertirá algún día,
pueda ayudarlo con eso.
Nota del autor: lo mencioné antes, pero lo mencionaré rápidamente de nuevo. La lista
de referencias del libro es terriblemente incompleta. Por favor, no asuma que estas son
las únicas fuentes en las que he confiado. La versión final de este libro tendrá muchas
más referencias. Y si ve algo que suena inteligente en este libro que no parece tener una
referencia, puedo prometerle absolutamente que la idea fue de otra persona. Este es
un libro de texto introductorio: ninguna de las ideas es original. Me haré responsable
de todos los errores, pero no puedo atribuirme nada de lo bueno. Todo lo inteligente
de este libro provino de otra persona, y todos merecen la atribución adecuada por su
excelente trabajo. Todavía no he tenido la oportunidad de dárselo.
526 Epílogo
Referencias
527
528 Referencias
supposed to have arisen from random sampling. Philosophical Magazine, 50, 157–
175.
Peterson, C., & Seligman, M. (1984). Causal explanations as a risk factor for depression:
Theory and evidence. Psychological Review, 91, 347–374.
Pfungst, O. (1911). Clever hans (the horse of mr. Von osten): A contribution to
experimental animal and human psychology (C. L. Rahn, Trans.). Henry Holt.
Rosenthal, R. (1966). Experimenter effects in behavioral research. Appleton.
Sahai, H., & Ageel, M. I. (2000). The analysis of variance: Fixed, random and mixed
models. Birkhauser.
Shaffer, J. P. (1995). Multiple hypothesis testing. Annual Review of Psychology, 46,
561–584.
Sokal, R. R., & Rohlf, F. J. (1994). Biometry: The principles and practice of statistics
in biological research (3rd ed.). Freeman.
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677–680.
Stigler, S. M. (1986). The history of statistics. Harvard University Press.
Student, A. (1908). The probable error of a mean. Biometrika, 6, 1–2.
Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and
biases. Science, 185(4157), 1124–1131.
Welch, B. L. (1951). On the comparison of several mean values: An alternative approach.
Biometrika, 38, 330–336.
Wilkinson, L., Wills, D., Rope, D., Norton, A., & Dubbs, R. (2006). The grammar of
graphics. Springer.
Adair, G. (1984). The hawthorne effect: A reconsideration of the methodological arti-
fact. Journal of Applied Psychology, 69, 334–345.
Agresti, A. (1996). An introduction to categorical data analysis. Wiley.
Agresti, A. (2002). Categorical data analysis (2nd ed.). Wiley.
Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions
on Automatic Control, 19, 716–723.
Anscombe, F. J. (1973). Graphs in statistical analysis. American Statistician, 27, 17–21.
Bickel, P. J., Hammel, E. A., & O’Connell, J. W. (1975). Sex bias in graduate admis-
sions: Data from Berkeley. Science, 187, 398–404.
Box, G. E. P. (1953). Non-normality and tests on variances. Biometrika, 40, 318–335.
Box, J. F. (1987). Guinness, gosset, fisher, and small samples. Statistical Science, 2,
45–52.
Brown, M. B., & Forsythe, A. B. (1974). Robust tests for equality of variances. Journal
of the American Statistical Association, 69, 364–367.
Campbell, D. T., & Stanley, J. C. (1963). Experimental and quasi-experimental designs
for research. Houghton Mifflin.
Chronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psy-
chometrika, 16(3), 297–334.
Cochran, W. G. (1954). The 𝜒2 test of goodness of fit. The Annals of Mathematical
Statistics, 23, 315–345.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.).
Lawrence Erlbaum.
Cramer, H. (1946). Mathematical methods of statistics. Princeton University Press.
Dunn, O. J. (1961). Multiple comparisons among means. Journal of the American
Statistical Association, 56, 52–64.
Ellis, P. D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis,
and the interpretation of research results. Cambridge University Press.
530 Referencias
Evans, J. St. B. T., Barston, J. L., & Pollard, P. (1983). On the conflict between logic
and belief in syllogistic reasoning. Memory and Cognition, 11, 295–306.
Evans, M., Hastings, N., & Peacock, B. (2011). Statistical distributions (3rd ed). Wiley.
Everitt, B. S. (1996). Making sense of statistics in psychology. A second-level course.
Oxford University Press.
Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evalu-
ating the use of exploratory factor analysis in psychological research. Psychological
Methods, 4, 272–299.
Fisher, R. A. (1922a). On the interpretation of 𝜒2 from contingency tables, and the
calculation of 𝑝. Journal of the Royal Statistical Society, 84, 87–94.
Fisher, R. A. (1922b). On the mathematical foundation of theoretical statistics. Philo-
sophical Transactions of the Royal Society A, 222, 309–368.
Fisher, R. A. (1925). Statistical methods for research workers. Oliver & Boyd.
Gelman, A., & Stern, H. (2006). The difference between “significant” and “not signifi-
cant” is not itself statistically significant. The American Statistician, 60, 328–331.
Geschwind, N. (1972). Language and the brain. Scientific American, 226(4), 76–83.
Hays, W. L. (1994). Statistics (5th ed.). Harcourt Brace.
Hedges, L. V. (1981). Distribution theory for glass’s estimator of effect size and related
estimators. Journal of Educational Statistics, 6, 107–128.
Hedges, L. V., & Olkin, I. (1985). Statistical methods for meta-analysis. Academic
Press.
Hewitt, A. K., Foxcroft, D. R., & MacDonald, J. (2004). Multitrait-multimethod con-
firmatory factor analysis of the attributional style questionnaire. Personality and
Individual Differences, 37(7), 1483–1491.
Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian
Journal of Statistics, 6, 65–70.
Hróbjartsson, A., & Gøtzsche, P. (2010). Placebo interventions for all clinical conditions.
Cochrane Database of Systematic Reviews, 1. https://doi.org//10.1002/14651858.
CD003974.pub3
Hsu, J. C. (1996). Multiple comparisons: Theory and methods. Chapman; Hall.
Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Med,
2(8), 697–701.
Jeffreys, H. (1961). The theory of probability (3rd ed.). Oxford.
Johnson, V. E. (2013). Revised standards for statistical evidence. Proceedings of the
National Academy of Sciences, 48, 19313–19317.
Kahneman, D., & Tversky, A. (1973). On the psychology of prediction. Psychological
Review, 80, 237–251.
Kass, R. E., & Raftery, A. E. (1995). Bayes factors. Journal of the American Statistical
Association, 90, 773–795.
Keynes, J. M. (1923). A tract on monetary reform. Macmillan; Company.
Kruschke, J. K. (2011). Doing Bayesian data analysis: A tutorial with R and BUGS.
Academic Press.
Kruskal, W. H., & Wallis, W. A. (1952). Use of ranks in one-criterion variance analysis.
Journal of the American Statistical Association, 47, 583–621.
Kühberger, A., Fritz, A., & Scherndl, T. (2014). Publication bias in psychology: A
diagnosis based on the correlation between effect size and sample size. Public Library
of Science One, 9, 1–8.
Larntz, K. (1978). Small-sample comparisons of exact levels for chi-squared goodness-
of-fit statistics. Journal of the American Statistical Association, 73, 253–263.
Referencias 531
Lee, M. D., & Wagenmakers, E.-J. (2014). Bayesian cognitive modeling: A practical
course. Cambridge University Press.
Lehmann, E. L. (2011). Fisher, Neyman, and the creation of classical statistics.
Springer.
Levene, H. (1960). Robust tests for equality of variances. In I. O. et al (Ed.), Contribu-
tions to probability and statistics: Essays in honor of harold hotelling (pp. 278–292).
Stanford University Press.
Meehl, P. H. (1967). Theory testing in psychology and physics: A methodological
paradox. Philosophy of Science, 34, 103–115.
Pearson, K. (1900). On the criterion that a given system of deviations from the probable
in the case of a correlated system of variables is such that it can be reasonably
supposed to have arisen from random sampling. Philosophical Magazine, 50, 157–
175.
Peterson, C., & Seligman, M. (1984). Causal explanations as a risk factor for depression:
Theory and evidence. Psychological Review, 91, 347–374.
Pfungst, O. (1911). Clever hans (the horse of mr. Von osten): A contribution to
experimental animal and human psychology (C. L. Rahn, Trans.). Henry Holt.
Rosenthal, R. (1966). Experimenter effects in behavioral research. Appleton.
Sahai, H., & Ageel, M. I. (2000). The analysis of variance: Fixed, random and mixed
models. Birkhauser.
Shaffer, J. P. (1995). Multiple hypothesis testing. Annual Review of Psychology, 46,
561–584.
Sokal, R. R., & Rohlf, F. J. (1994). Biometry: The principles and practice of statistics
in biological research (3rd ed.). Freeman.
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677–680.
Stigler, S. M. (1986). The history of statistics. Harvard University Press.
Student, A. (1908). The probable error of a mean. Biometrika, 6, 1–2.
Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and
biases. Science, 185(4157), 1124–1131.
Welch, B. L. (1951). On the comparison of several mean values: An alternative approach.
Biometrika, 38, 330–336.
Wilkinson, L., Wills, D., Rope, D., Norton, A., & Dubbs, R. (2006). The grammar of
graphics. Springer.
532 Referencias