0% encontró este documento útil (0 votos)
363 vistas243 páginas

Modelos Lineales

Este documento presenta los modelos lineales. Introduce el modelo lineal general y el método de mínimos cuadrados para estimar los parámetros del modelo. Explica las condiciones de Gauss-Markov que deben cumplirse para que los estimadores sean óptimos. Incluye ejemplos prácticos utilizando el paquete estadístico S-PLUS.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
363 vistas243 páginas

Modelos Lineales

Este documento presenta los modelos lineales. Introduce el modelo lineal general y el método de mínimos cuadrados para estimar los parámetros del modelo. Explica las condiciones de Gauss-Markov que deben cumplirse para que los estimadores sean óptimos. Incluye ejemplos prácticos utilizando el paquete estadístico S-PLUS.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 243

MODELOS LINEALES

Francesc Carmona

Departament d’Estadı́stica

Barcelona, 1 de octubre de 2003


Prólogo

Las páginas que siguen constituyen una parte de las exposiciones teóricas y prácticas de
asignaturas que se han impartido a lo largo de algunos años en varias licenciaturas y
cursos de doctorado. En particular en la licenciatura de Matemáticas, la licenciatura de
Biologı́a y la diplomatura de Estadı́stica de la Universidad de Barcelona. Se ha inten-
tado un cierto equilibrio entre las explicaciones teóricas y los problemas prácticos. Sin
embargo, nuestra intención siempre ha sido fundamentar sólidamente la utilización de los
modelos lineales como base de las aplicaciones de la regresión, el análisis de la varianza y
el diseño de experimentos. Por ello, en este libro la base matemática y estadı́stica es con-
siderable y creemos importante la correcta definición de los conceptos y la rigurosidad de
las demostraciones. Una sólida base impedirá cometer ciertos errores, habituales cuando
se aplican los procedimientos ciegamente.
Por otra parte, la aplicación práctica de los métodos de regresión y análisis de la varianza
requiere la manipulación de muchos datos, a veces en gran cantidad, y el cálculo de algunas
fórmulas matriciales o simples. Para ello es absolutamente imprescindible la utilización
de algún programa de ordenador que nos facilite el trabajo. En una primera instancia es
posible utilizar cualquier programa de hojas de cálculo que resulta sumamente didáctico.
También se puede utilizar un paquete estadı́stico que seguramente estará preparado para
ofrecer los resultados de cualquier modelo lineal estándar como ocurre con el paquete
SPSS. En cambio, en este libro se ha optado por incluir algunos ejemplos con el paquete
S-PLUS. Las razones son varias. En primer lugar, se trata de un programa que utiliza el
lenguaje S, está orientado a objetos, tiene algunos módulos especı́ficos para los modelos
lineales y es programable. El S-PLUS utiliza un lenguaje de instrucciones y al principio
puede resultar un poco duro en su aprendizaje, sin embargo superada la primera etapa de
adaptación, su utilización abre todo un mundo de posibilidades, no sólo en los modelos
lineales, sino en todo cálculo estadı́stico. Además, la razón más poderosa es que existe una
alternativa a S-PLUS que es el proyecto R, completamente gratuito y con la misma base
de instrucciones. De modo que los estudiantes pueden instalar en su casa el programa R
y practicar cuanto quieran sin coste económico alguno. Manuales para aprender S-PLUS
o R:
El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro
Sánchez Algarra (1996) que amablemente han cedido para su actualización en este libro
y a los que agradezco profundamente su colaboración. También es evidente que algunas
demostraciones tienen su origen en el clásico libro de Seber.
Por último, este libro ha sido escrito mediante el procesador de textos cientı́fico LATEX y
presentado en formato electrónico. Gracias a ello este libro puede actualizarse con relativa
facilidad. Se agradecerá cualquier la comunicación de cualquier errata, error o sugerencia.
Barcelona, 1 de octubre de 2003.
Dr. Francesc Carmona
Índice general

1. Las condiciones 9
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. El método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . 13
1.5. Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . 14
1.6. Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . 16
1.7. Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2. Estimación 22
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Suposiciones básicas del modelo lineal . . . . . . . . . . . . . . . . . . . . 25
2.4. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6. Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . . 32
2.7. Matriz de diseño reducida . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8. Matrices de diseño de rango no máximo . . . . . . . . . . . . . . . . . . . 36
2.8.1. Reducción a un modelo de rango máximo . . . . . . . . . . . . . . 37
2.8.2. Imposición de restricciones . . . . . . . . . . . . . . . . . . . . . . 37
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3. Funciones paramétricas estimables 41


3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Varianza de la estimación y multicolinealidad . . . . . . . . . . . . . . . 46
3.4. Sistemas de funciones paramétricas estimables . . . . . . . . . . . . . . . 48
3.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4
4. Complementos de estimación 55
4.1. Ampliar un modelo con más variables regresoras . . . . . . . . . . . . . . 55
4.1.1. Una variable extra . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.2. Una interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.3. Más variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Mı́nimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . 60
4.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.1. Estimación sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.2. Estimación robusta . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.3. Más posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5. Contraste de hipótesis lineales 65


5.1. Hipótesis lineales contrastables . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2. El modelo lineal de la hipótesis . . . . . . . . . . . . . . . . . . . . . . . 66
5.3. Teorema fundamental del Análisis de la Varianza . . . . . . . . . . . . . 69
5.3.1. Un contraste más general . . . . . . . . . . . . . . . . . . . . . . . 76
5.3.2. Test de la razón de verosimilitud . . . . . . . . . . . . . . . . . . 78
5.4. Cuando el test es significativo . . . . . . . . . . . . . . . . . . . . . . . . 79
5.5. Contraste de hipótesis sobre funciones paramétricas estimables . . . . . . 79
5.6. Elección entre dos modelos lineales . . . . . . . . . . . . . . . . . . . . . 80
5.6.1. Sobre los modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.6.2. Contraste de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.7. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6. Regresión lineal simple 89


6.1. Estimación de los coeficientes de regresión . . . . . . . . . . . . . . . . . 89
6.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3. Inferencia sobre los parámetros de regresión . . . . . . . . . . . . . . . . 94
6.3.1. Hipótesis sobre la pendiente . . . . . . . . . . . . . . . . . . . . . 94
6.3.2. Hipótesis sobre el punto de intercepción . . . . . . . . . . . . . . 95
6.3.3. Intervalos de confianza para los parámetros . . . . . . . . . . . . . 96
6.3.4. Intervalo para la respuesta media . . . . . . . . . . . . . . . . . . 96
6.3.5. Predicción de nuevas observaciones . . . . . . . . . . . . . . . . . 97
6.3.6. Región de confianza y intervalos de confianza simultáneos . . . . . 98
6.4. Regresión pasando por el origen . . . . . . . . . . . . . . . . . . . . . . . 98
6.5. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.6. Carácter lineal de la regresión simple . . . . . . . . . . . . . . . . . . . . 100
6.7. Comparación de rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.7.1. Dos rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.7.2. Varias rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.7.3. Contraste para la igualdad de varianzas . . . . . . . . . . . . . . . 111

5
6.8. Un ejemplo para la reflexión . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.9. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

7. Una recta resistente 121


7.1. Recta resistente de los tres grupos . . . . . . . . . . . . . . . . . . . . . . 121
7.1.1. Formación de los tres grupos . . . . . . . . . . . . . . . . . . . . . 121
7.1.2. Pendiente e intercepción . . . . . . . . . . . . . . . . . . . . . . . 122
7.1.3. Ajuste de los residuos e iteraciones . . . . . . . . . . . . . . . . . 123
7.1.4. Mejora del método de ajuste . . . . . . . . . . . . . . . . . . . . . 127
7.2. Métodos que dividen los datos en grupos . . . . . . . . . . . . . . . . . . 129
7.3. Métodos que ofrecen resistencia . . . . . . . . . . . . . . . . . . . . . . . 130
7.3.1. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

8. Regresión lineal múltiple 133


8.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.3. Inferencia sobre los coeficientes de regresión . . . . . . . . . . . . . . . . 137
8.4. Coeficientes de regresión estandarizados . . . . . . . . . . . . . . . . . . . 142
8.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.6. Regresión polinómica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.6.1. Polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . 148
8.6.2. Elección del grado . . . . . . . . . . . . . . . . . . . . . . . . . . 150
8.7. Comparación de curvas experimentales . . . . . . . . . . . . . . . . . . . 153
8.7.1. Comparación global . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8.7.2. Test de paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . . 154
8.8. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

9. Diagnosis del modelo 163


9.1. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.1.1. Estandarización interna . . . . . . . . . . . . . . . . . . . . . . . 163
9.1.2. Estandarización externa . . . . . . . . . . . . . . . . . . . . . . . 165
9.1.3. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
9.2. Diagnóstico de la influencia . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.2.1. Nivel de un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.2.2. Influencia en los coeficientes de regresión . . . . . . . . . . . . . . 170
9.2.3. Influencia en las predicciones . . . . . . . . . . . . . . . . . . . . . 171
9.3. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.3.1. Coeficiente de determinación ajustado . . . . . . . . . . . . . . . 172
9.3.2. Criterio CP de Mallows . . . . . . . . . . . . . . . . . . . . . . . . 172
9.3.3. Selección paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . 173

6
9.4. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
9.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

10.Análisis de la Varianza 177


10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
10.2. Diseño de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10.3. Diseño de dos factores sin interacción . . . . . . . . . . . . . . . . . . . . 184
10.4. Diseño de dos factores con interacción . . . . . . . . . . . . . . . . . . . . 189
10.5. Descomposición ortogonal de la variabilidad . . . . . . . . . . . . . . . . 194
10.5.1. Descomposición de la variabilidad en algunos diseños . . . . . . . 196
10.5.2. Estimación de parámetros y cálculo del residuo . . . . . . . . . . 199
10.6. Diseños no balanceados y con observaciones faltantes . . . . . . . . . . . 201
10.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

11.Análisis de Componentes de la Varianza 206


11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
11.1.1. Un modelo de efectos fijos . . . . . . . . . . . . . . . . . . . . . . 206
11.1.2. Un modelo de efectos aleatorios . . . . . . . . . . . . . . . . . . . 207
11.1.3. Un modelo mixto . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
11.2. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
11.3. Estimación puntual de los componentes de la varianza . . . . . . . . . . . 211
11.4. Comparación entre los modelos de efectos fijos y los modelos de efectos
aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
11.4.1. Diseño de un factor con efectos fijos . . . . . . . . . . . . . . . . . 212
11.4.2. Diseño de un factor con efectos aleatorios . . . . . . . . . . . . . . 214
11.4.3. Diseño de dos factores sin interacción con efectos fijos o diseño en
bloques al azar completos . . . . . . . . . . . . . . . . . . . . . . 219
11.4.4. Diseño de dos factores sin interacción con efectos aleatorios . . . . 222
11.4.5. Diseño de dos factores aleatorios con interacción . . . . . . . . . . 224
11.4.6. Diseño de tres factores aleatorios y réplicas . . . . . . . . . . . . . 225
11.5. Correlación intraclásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
11.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

A. Matrices 231
A.1. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
A.2. Derivación matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
A.3. Matrices idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
A.4. Matrices mal condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 233

B. Proyecciones ortogonales 234


B.1. Descomposición ortogonal de vectores . . . . . . . . . . . . . . . . . . . . 234
B.2. Proyecciones en subespacios . . . . . . . . . . . . . . . . . . . . . . . . . 236

7
C. Estadı́stica multivariante 237
C.1. Esperanza, varianza y covarianza . . . . . . . . . . . . . . . . . . . . . . 237
C.2. Normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

8
Capı́tulo 1

Las condiciones

1.1. Introducción
Los métodos de la Matemática que estudian los fenómenos deterministas relacionan, por
lo general, una variable dependiente con diversas variables independientes. El problema se
reduce entonces a resolver un sistema lineal, una ecuación diferencial, un sistema no lineal,
etc.. Sin embargo, la aplicación de los métodos cuantitativos a las Ciencias Experimentales
ha revelado la poca fiabilidad de las relaciones deterministas. En tales Ciencias, el azar,
la aleatoriedad, la variabilidad individual, las variables no controladas, etc. justifican el
planteo, en términos muy generales, de la ecuación fundamental

“observación” = “modelo” + “error aleatorio”

El experimentador puede, fijando las condiciones de su experimento, especificar la estruc-


tura del modelo, pero siempre debe tener en cuenta el error aleatorio o desviación entre
lo que observa y lo que espera observar según el modelo.
Los modelos de regresión utilizan la ecuación anterior fijando el modelo como una función
lineal de unos parámetros. El objetivo consiste, casi siempre, en la predicción de valores
mediante el modelo ajustado.
El Análisis de la Varianza es un método estadı́stico introducido por R.A. Fisher de gran
utilidad en las Ciencias Experimentales, que permite controlar diferentes variables cua-
litativas y cuantitativas (llamadas factores), a través de un modelo lineal, suponiendo
normalidad para el error aleatorio. Fisher(1938) definió este método como “la separación
de la varianza atribuible a un grupo de la varianza atribuible a otros grupos”. Como
veremos, los tests en Análisis de la Varianza se construyen mediante estimaciones inde-
pendientes de la varianza del error.
Ambos conjuntos de modelos se pueden abordar con una teorı́a común: los modelos li-
neales.
Iniciaremos este capı́tulo con un ejemplo de modelización de un problema y su aplicación
práctica. A continuación explicaremos en qué consiste esencialmente el método de los
mı́nimos cuadrados y estableceremos las condiciones para que este método sea válido
para su utilización en Estadı́stica.

9
1.2. Un ejemplo
En el libro de Sen and Srivastava en [62, pág. 2] se explica este ejemplo que nosotros
hemos adaptado a las medidas europeas.
Sabemos que cuantos más coches circulan por una carretera, menor es la velocidad del
tráfico. El estudio de este problema tiene como objetivo la mejora del transporte y la
reducción del tiempo de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehı́culos por km) y su corres-
pondiente velocidad (en km por hora).

Dato Densidad Velocidad Dato Densidad Velocidad


1 12,7 62,4 13 18,3 51,2
2 17,0 50,7 14 19,1 50,8
3 66,0 17,1 15 16,5 54,7
4 50,0 25,9 16 22,2 46,5
5 87,8 12,4 17 18,6 46,3
6 81,4 13,4 18 66,0 16,9
7 75,6 13,7 19 60,3 19,8
8 66,2 17,9 20 56,0 21,2
9 81,1 13,8 21 66,3 18,3
10 62,8 17,9 22 61,7 18,0
11 77,0 15,8 23 66,6 16,6
12 89,6 12,6 24 67,8 18,3

Tabla 1.1: Datos del problema de tráfico

Como la congestión afecta a la velocidad, estamos interesados en determinar el efecto


de la densidad en la velocidad. Por razones que explicaremos más adelante (ver ejercicio
9.2), tomaremos como variable dependiente la raı́z cuadrada de la velocidad.
El gráfico 1.1 presenta la nube de puntos o diagrama de dispersión (scatter plot) con
la variable independiente (densidad) en el eje horizontal y la variable dependiente (raı́z
cuadrada de la velocidad) en el eje vertical.

Gráfico de dispersión
10

8
RAIZ(vel)

0
0 20 40 60 80 100
densidad

Figura 1.1: Nube de puntos del problema de tráfico

10
Como primera aproximación podrı́amos tomar, como modelo √ de ajuste, la√ recta que une
dos puntos representativos, por ejemplo, los puntos (12, 7, 62, 4) y (87, 8, 12, 4). Dicha
recta es y = 8, 6397 − 0, 0583x.
Inmediatamente nos proponemos hallar la mejor de las rectas, según algún criterio. Como
veremos, el método de los mı́nimos cuadrados proporciona una recta, llamada recta de
regresión, que goza de muy buenas propiedades. Este método consiste en hallar a y b tales
que se minimice la suma de los errores al cuadrado.
n
X
(yi − (a + bxi ))2
i=1

En este caso la recta de regresión es y = 8, 0898 − 0, 0566x.


Para estudiar la bondad del ajuste se utilizan los residuos

ei = yi − ŷi

donde ŷi = 8, 0898 − 0, 0566xi . Los gráficos de la figura 1.2 nos muestran estos residuos.
Para mejorar el modelo podemos añadir el término cuadrático y considerar el modelo
parabólico
yi = a + bxi + cx2i
También aquı́, el método de los mı́nimos cuadrados proporciona un ajuste que es óptimo
en varios aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de los
errores al cuadrado n
X
(yi − (a + bxi + cx2i ))2
i=1

El cálculo de estos valores con los datos del tráfico se deja como ejercicio (ver ejercicio
1.3).
La figura 1.3 muestra los gráficos de los residuos para el modelo parabólico.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la
velocidad en la ecuación
flujo = velocidad × densidad
de modo que el flujo queda en función de la densidad. Por último, el máximo valor de
esta función es la capacidad de la carretera.
0,6 0,6

0,4 0,4

0,2 0,2
residuo
residuo

0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2

-0,4 -0,4

-0,6 -0,6
densidad predicción

Figura 1.2: Gráficos de los residuos del modelo recta de regresión.

11
0,6 0,6

0,4 0,4

0,2 0,2

residuo
residuo

0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2

-0,4 -0,4

-0,6 -0,6
densidad predicción

Figura 1.3: Gráficos de los residuos del modelo parabólico.

1.3. El modelo
Cuando en el ejemplo anterior ajustamos los datos a una recta, implı́citamente estamos
asumiendo la hipótesis de que los datos siguen un patrón lineal subyacente del tipo

y = β0 + β1 x

Pero el ajuste no es perfecto y contiene errores. La ecuación que define el modelo es

yi = β 0 + β 1 xi +  i i = 1, . . . , n

donde i son los errores aleatorios. Éste es el modelo de regresión simple o con una sola
variable independiente.
En el mismo ejemplo anterior, ajustamos mejor con el modelo

yi = β0 + β1 xi + β2 x2i + i i = 1, . . . , n

que continúa siendo un modelo lineal.


Un modelo es lineal si lo es para los parámetros. Por ejemplo, el modelo ln yi = β0 +
β1 ln(xi ) + i es lineal, mientras que yi = β0 exp(−β1 xi )i no.
En general, suponemos que una cierta variable aleatoria Y es igual a un valor fijo η más
una desviación aleatoria 
Y =η+
η representa la verdadera medida de la variable, es decir, la parte determinista de un
experimento, que depende de ciertos factores cualitativos y variables cuantitativas que
son controlables por el experimentador.
El término  representa el error. Es la parte del modelo no controlable por el experi-
mentador debido a múltiples causas aleatorias, inevitables en los datos que proceden de
la Biologı́a, Psicologı́a, Economı́a, Medicina,. . . El error  convierte la relación matemáti-
ca Y = η en la relación estadı́stica Y = η + , obligando a tratar el modelo desde la
perspectiva del análisis estadı́stico.
En particular, los modelos de la forma

yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + i i = 1, . . . , n

con k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regre-


sión múltiple. La variable cuyos datos observados son yi es la llamada variable dependiente
o respuesta.

12
Los parámetros βj son desconocidos y nuestro objetivo principal es su estimación. En
cuanto a los errores i , su cálculo explı́cito nos permitirá, como veremos extensamente, la
evaluación del modelo.
Observación:
En el modelo de regresión simple puede suceder que los datos xi i = 1, . . . , n correspondan
a los valores observados de una v.a. X o de una variable controlada no aleatoria. En
cualquier caso, vamos a considerar los valores xi como constantes y no como observaciones
de una variable aleatoria.
En la regresión simple
Y = φ(x) + 
donde Y es aleatoria y  es aleatoria con E() = 0. De manera que, para cada valor
X = x, Y es una v.a. con esperanza φ(x). Si asumimos

φ(x) = E[Y |X = x] = β0 + β1 x

podemos proceder considerando las inferencias como condicionadas a los valores observa-
dos de X.
En cualquier caso, también en regresión múltiple, vamos a considerar los valores de las
variables regresoras X1 , . . . , Xk como simplemente números.

1.4. El método de los mı́nimos cuadrados


La paternidad de este método se reparte entre Legendre que lo publicó en 1805 y Gauss
que lo utilizó en 1795 y lo publicó en 1809.
Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posibles
valores de los βj , el método de los mı́nimos cuadrados selecciona aquellos que minimizan
n
X n
X
S= 2i = (yi − (β0 + β1 xi1 + · · · + βk xik ))2
i=1 i=1

En el caso de la regresión lineal simple


n
X n
X
S= 2i = (yi − β0 − β1 xi )2
i=1 i=1

de modo que derivando e igualando a cero, se obtienen los estimadores MC (mı́nimo-


cuadráticos) ó LS (least squares)

βˆ0 = ȳ − βˆ1 x̄
Pn
s (y − ȳ)(xi − x̄)
βˆ1 =
xy
2
= i=1 Pn i 2
sx i=1 (xi − x̄)

También se puede considerar el modelo centrado, que consiste en centrar los datos de la
variable regresora
yi = γ0 + β1 (xi − x̄) + i i = 1, . . . , n
La estimación MC de γ0 , β1 es equivalente a la estimación de β0 , β1 , ya que γ0 = β0 + β1 x̄.
De modo que γˆ0 = ȳ y la estimación de β1 es la misma que en el modelo anterior.

13
Con las estimaciones de los parámetros, podemos proceder al cálculo de predicciones ŷi
y residuos ei

ŷi = βˆ0 + βˆ1 xi = ȳ + βˆ1 (xi − x̄)


ei = yi − ŷi = yi − ȳ − βˆ1 (xi − x̄)

Como consecuencia resulta que


n
X
ei = 0
i=1

lo que no ocurre en un modelo sin β0 .


Finalmente, si queremos
Pn una medida del ajuste de la regresión podemos pensar en la
2
suma de cuadrados i=1 ei , pero es una medida que depende de las unidades de yi al
cuadrado. Si β0 6= 0, la medida que se utiliza es el coeficiente de determinación
Pn 2
e
R = 1 − Pn i=1 i 2
2

i=1 (yi − ȳ)

Sabemos que 0 ≤ R2 ≤ 1 y cuando R2 ≈ 1 el ajuste es bueno.


En el caso β0 = 0, el coeficiente de determinación es
Pn 2
e
R = 1 − Pni=1 i2
2

i=1 yi

de modo que los modelos que carecen de término independiente no se pueden comparar
con los que sı́ lo tienen.

1.5. Las condiciones de Gauss-Markov


Hasta aquı́, el método de los mı́nimos cuadrados es analı́tico ¿dónde está la estadı́stica?
A lo largo de los siguientes capı́tulos vamos a ver que un modelo estadı́stico y la imposición
de algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de los
métodos estadı́sticos y calibrar la bondad del ajuste desde esa óptica.
Una primera pregunta es ¿qué tan bueno es el método de los mı́nimos cuadrados para
estimar los parámetros? La respuesta es que este método proporciona un buen ajuste y
buenas predicciones si se verifican las condiciones de Gauss-Markov.
En el modelo lineal que hemos definido anteriormente, se supone que los errores i son
desviaciones que se comportan como variables aleatorias. Vamos a exigir que estos errores
aleatorios verifiquen las siguientes condiciones:

1. E(i ) = 0 i = 1, . . . , n

2. var(i ) = σ 2 i = 1, . . . , n

3. E(i · j ) = 0 ∀i 6= j

Veamos con detalle estas condiciones:


Primera condición E(i ) = 0 i = 1, . . . , n

14
Se trata de una condición natural sobre un error.
De este modo nos aseguramos que E(yi ) = β0 +β1 xi , el
modelo lineal es correcto y la situación que representa
el gráfico no se puede dar.

Segunda condición var(i ) = E(2i ) = σ 2 constante i = 1, . . . , n

Es la propiedad de homocedasticidad.
En el gráfico se representa una situación anómala lla-
mada de heterocedasticidad, en la que la var(i ) crece
con xi .
El parámetro desconocido σ 2 es la llamada varianza
del modelo.

Otras situaciones extrañas, que también se pretende prevenir, son:

I El punto I del gráfico representa un punto influyente y


atı́pico (outlier ). En general es un punto a estudiar, un
error o incluso una violación de la primera condición.

I
El punto I del gráfico es claramente influyente, aunque
no es atı́pico (outlier), ya que proporciona un residuo
pequeño.

Tercera condición E(i j ) = 0 ∀i 6= j


Las observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta de
regresión. Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, poco
fiable.

Tales condiciones pueden expresarse en forma matricial como

E() = 0 var() = σ 2 In

15
donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas
de  = (1 , . . . , n )0 .
Como demostraremos en los siguientes capı́tulos, la adopción de estas condiciones evi-
tará teóricamente las situaciones anómalas que aquı́ hemos esquematizado.

1.6. Otros tipos de modelos lineales


Por suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aun-
que tienen diferentes objetivos, gozan de las mismas bases teóricas.
Por ejemplo, el Análisis de la Varianza con un factor (one-way Analysis of Variance),
representado por el modelo lineal

yij = µ + αi + ij con ij ∼ N (0, σ 2 ) indep.,

se resuelve de forma similar al modelo de regresión.


El Análisis de la Covarianza, que utiliza como variables independientes tanto variables
cuantitativas como factores, y el Análisis Multivariante de la Varianza, con varias variables
dependientes, son dos de los análisis que generalizan el estudio y aplicaciones de los
modelos lineales que vamos a investigar.

1.7. Algunas preguntas


Un tı́pico problema de estadı́stica consiste en estudiar la relación que existe, si existe,
entre dos variables aleatorias X e Y . Por ejemplo, altura y peso, edad del hombre y la
mujer en una pareja, longitud y anchura de unas hojas, temperatura y presión de un
determinado volumen de gas.
Si tenemos n pares de observaciones (xi , yi ) i = 1, 2, . . . , n, podemos dibujar estos puntos
en un gráfico o scatter diagram y tratar de ajustar una curva a los puntos de forma que
los puntos se hallen lo más cerca posible de la curva. No podemos esperar un ajuste
perfecto porque ambas variables están expuestas a fluctuaciones al azar debido a factores
incontrolables. Incluso aunque en algunos casos pudiera existir una relación exacta entre
variables fı́sicas como temperatura y presión, también aparecerı́an fluctuaciones debidas
a errores de medida.
Algunas cuestiones que podemos plantearnos en nuestras investigaciones son:

Si existe un modelo fı́sico teórico y lineal, podemos utilizar la regresión para estimar
los parámetros.

Si el modelo teórico no es lineal, se puede, en muchos casos, transformar en lineal.


Por ejemplo:
P V γ = c −→ log P = log c − γ log V

Si no es una recta, se puede estudiar un modelo de regresión polinómico. ¿De


qué grado?

En el modelo múltiple intervienen varias variables “predictoras” ¿son todas necesa-


rias? ¿son linealmente independientes las llamadas “variables independientes”?

16
¿Se verifican realmente las condiciones de Gauss-Markov?

¿Qué ocurre si las variables predictoras son discretas?

¿Qué ocurre si la variable dependiente es discreta o una proporción?

¿Y si faltan algunos datos?

¿Qué hacemos con los puntos atı́picos y los puntos influyentes?

Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes capı́tulos,
otras pueden quedar para una posterior profundización.

1.8. Ejemplos con S-PLUS


En esta sección vamos a ver como se calculan las regresiones que se han sugerido a partir
del ejemplo inicial con los datos de la tabla 1.1.
En primer lugar procedemos a introducir los datos en los vectores correspondientes.

> dens<-c(12.7,17.0,66.0,50.0,87.8,81.4,75.6,66.2,81.1,62.8,77.0,89.6,
+ 18.3,19.1,16.5,22.2,18.6,66.0,60.3,56.0,66.3,61.7,66.6,67.8)
> vel<-c(62.4,50.7,17.1,25.9,12.4,13.4,13.7,17.9,13.8,17.9,15.8,12.6,
+ 51.2,50.8,54.7,46.5,46.3,16.9,19.8,21.2,18.3,18.0,16.6,18.3)
> rvel<-sqrt(vel)

Las siguientes instrucciones generan el gráfico de puntos para estos datos.

> par(pty="m")
> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")

El cálculo de la regresión simple se realiza con la función lsfit(x,y) que asignamos al


objeto recta.ls

> recta.ls<-lsfit(dens,rvel)

Aunque esta última instrucción no muestra ninguna información en pantalla, ahora ya


podemos utilizar su resultado. Por ejemplo, podemos añadir la recta de regresión al gráfico
anterior.

> abline(recta.ls)

Los coeficientes de la recta son:

> recta.ls$coef
Intercept X
8.08981299 -0.05662558

También se puede obtener una información más completa con la instrucción ls.print,
aunque su resultado no se explicará hasta el capı́tulo correspondiente.

17
> ls.print(recta.ls, digits=4, print.it=T)
Residual Standard Error=0.2689
R-Square=0.9685
F-statistic (df=1, 22)=676.3944
p-value=0

Estimate Std.Err t-value Pr(>|t|)


Intercept 8.0898 0.1306 61.9295 0
X -0.0566 0.0022 -26.0076 0

La estimación de la desviación estándar de los errores y otros elementos de diagnosis del


modelo se obtienen con la función ls.diag como

> ls.diag(recta.ls)$std.dev
[1] 0.2689388

Con el vector de residuos y las predicciones se pueden dibujar unos gráficos similares a
los de la figura 1.2. La instrucción par(mfrow=c(1,2)) permite dos gráficos en la misma
figura.

> e<-recta.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)

Finalmente, podemos repetir los cálculos para el modelo parabólico. Simplemente debe-
mos introducir los valores de la variable densidad y sus cuadrados en una matriz de datos.
El resto es idéntico al modelo de regresión simple.

> matriz.frame<-data.frame(dens,dens^2)
> parabola.ls<-lsfit(matriz.frame,rvel)
> parabola.ls$coef
Intercept dens dens.2
8.8814208199 -0.1035152795 0.0004892585
> round(parabola.ls$coef,5)
Intercept dens dens.2
8.88142 -0.10352 0.00049
> e<-parabola.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)

18
Los gráficos serán muy similares a los de la figura 1.3.
En los siguientes capı́tulos veremos otras instrucciones de S-PLUS, en especial la función
lm, que permiten ajustar un modelo de regresión a unos datos.

19
1.9. Ejercicios
Ejercicio 1.1
Hallar las estimaciones de los parámetros en un modelo de regresión lineal simple, mini-
mizando la suma de los cuadrados de los errores:
Xn
S= (yi − β0 − β1 xi )2
i=1

Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.2
Hallar las estimaciones de los parámetros en un modelo de regresión parabólico, minimi-
zando la suma de los cuadrados de los errores:
X n
S= (yi − β0 − β1 xi − β2 x2i )2
i=1

Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.3
Consideremos el problema de tráfico planteado en el apartado 1.2 de este capı́tulo, con la
variable independiente densidad y la variable dependiente raı́z cuadrada de la velocidad.
Con los datos proporcionados en la tabla 1.1 realizar el siguiente proceso:

(a) Dibujar
√ la nube de puntos y la recta que pasa por los puntos (12,7, 62,4) y
(87,8, 12,4). Dibujar el gráfico de los residuos con la densidad y el gráfico con
las predicciones. Calcular la suma de cuadrados de los residuos.
(b) Hallar la recta de regresión simple. Dibujar el gráfico de los residuos con la densidad
y el gráfico con las predicciones. Calcular la suma de cuadrados de los residuos.
(c) Mejorar el modelo anterior considerando una regresión parabólica. Dibujar el gráfico
de los residuos con la densidad y el gráfico con las predicciones. Calcular la suma
de cuadrados de los residuos.
(d) Calcular la capacidad de la carretera o punto de máximo flujo. Recordar que flujo =
vel × densidad.
Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velo-
cidad en atletismo en los Juegos Olı́mpicos de Atlanta:
hombres mujeres
distancia tiempo
100 9,84 10,94
200 19,32 22,12
400 43,19 48,25
800 102,58 117,73
1500 215,78 240,83
5000 787,96 899,88
10000 1627,34 1861,63
42192 7956,00 8765,00

20
Si tomamos como variable regresora o independiente la distancia (metros) y como variable
respuesta o dependiente el tiempo (segundos):

(a) Calcular la recta de regresión simple con los datos de los hombres y dibujarla.
Dibujar el gráfico de los residuos con la distancia y el gráfico con las predicciones.
Calcular la suma de cuadrados de los residuos y el R2 .

(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo y
distancia.

(c) Repetir los dos apartados anteriores utilizando los datos de las mujeres.

21
Capı́tulo 2

Estimación

2.1. Introducción
En primer lugar concretaremos la definición general de un modelo lineal y hallaremos la
estimación por mı́nimos cuadrados de los parámetros del modelo.
Veremos que la estimación será única si la matriz de diseño es de rango máximo. En
caso contrario, resulta importante definir el concepto de función paramétrica estimable
y probar, para estas funciones, la unicidad del estimador mı́nimo-cuadrático, como estu-
diaremos en el siguiente capı́tulo.
Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teorema
de Gauss-Markov que demuestra que los estimadores mı́nimo-cuadráticos son los mejores,
en el sentido de que son insesgados y de mı́nima varianza.
Además, con la introducción de la hipótesis de normalidad de los errores, podremos
estudiar las distribuciones de los estimadores y de otros estadı́sticos, ası́ como la relación
con los estimadores de máxima verosimilitud.
Más adelante, trabajaremos la generalización del método de los mı́nimos cuadrados cuan-
do la matriz de varianzas-covarianzas de los errores no es σ 2 I. Por otra parte, también
profundizaremos el caso de matrices de diseño de rango no máximo.

2.2. El modelo lineal


Sea Y una variable aleatoria que fluctúa alrededor de un valor desconocido η, esto es

Y =η+

donde  es el error, de forma que η puede representar el valor verdadero e Y el valor


observado.
Supongamos que η toma valores distintos de acuerdo con diferentes situaciones experi-
mentales según el modelo lineal

η = β 1 x1 + · · · + β m xm

donde βi son parámetros desconocidos y xi son valores conocidos, cada uno de los cuales
ilustra situaciones experimentales diferentes.

22
En general se tienen n observaciones de la variable Y . Diremos que y1 , y2 , . . . , yn obser-
vaciones independientes de Y siguen un modelo lineal si

yi = xi1 β1 + · · · + xim βm + i i = 1, . . . , n

Estas observaciones de Y se pueden considerar variables aleatorias independientes y dis-


tribuidas como Y (son copias) o también realizaciones concretas (valores numéricos) para
los cálculos.
La expresión del modelo lineal en forma matricial es
      
y1 x11 x12 . . . x1m β1 1
 y2   x21 x22 . . . x2m   β2   2 
      
 ..  =  .. .. ..   ..  +  .. 
 .   . . .   .   . 
yn xn1 xn2 . . . xnm βm n

o en forma resumida
Y = Xβ +  (2.1)
Los elementos que constituyen el modelo lineal son:

1. El vector de observaciones Y = (y1 , y2 , . . . , yn )0 .

2. El vector de parámetros β = (β1 , β2 , · · · , βm )0 .

3. La matriz del modelo  


x11 x12 . . . x1m
 x21 x22 . . . x2m 
 
X= .. .. .. 
 . . . 
xn1 xn2 . . . xnm
cuyos elementos son conocidos.
En problemas de regresión, X es la matriz de regresión. En los llamados diseños
factoriales del Análisis de la Varianza, X recibe el nombre de matriz de diseño.

4. El vector de errores o desviaciones aleatorias  = (1 , 2 , . . . , n )0 , donde i es la


desviación aleatoria de yi .

Ejemplo 2.2.1
El modelo lineal más simple consiste en relacionar una variable aleatoria Y con una
variable controlable x (no aleatoria), de modo que las observaciones de Y verifiquen

yi = β 0 + β 1 xi +  i i = 1, . . . , n

Se dice que Y es la variable de predicción o dependiente y x es la variable predictora,


por ejemplo Y es la respuesta de un fármaco a una dosis x. Hallar β 0 y β1 es el clásico
problema de regresión lineal simple.

Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relación sea po-
linómica.

23
Consideremos el modelo

yi = β0 + β1 xi + β2 x2i + · · · + βp xpi +  i = 1, . . . , n

Observemos que es lineal en los parámetros βi . La matriz de diseño es


 
1 x1 . . . xp1
 1 x2 . . . xp2 
 
 .. .. .. 
 . . . 
1 xn . . . xpn

Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o más variables control. Ası́,
son modelos lineales:

a) yi = β0 + β1 xi1 + β2 xi2 + i

b) yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + β4 x2i1 + β5 x2i2 + i

c) yi = β0 + β1 xi1 + β2 cos(xi2 ) + β3 sen(xi2 ) + i

Sin embargo, no es modelo lineal

yi = β0 + β1 log(β2 xi1 ) + β3 xβi24 + i

Ejemplo 2.2.4
Supongamos que la producción Y de una planta depende de un factor F (fertilizante) y
un factor B (bloque o conjunto de parcelas homogéneas). El llamado modelo del diseño
del factor en bloques aleatorizados es

yij = µ + αi + βj + ij

donde

µ es una constante (media general)


αi el efecto del fertilizante
βj el efecto del bloque

Si tenemos 2 fertilizantes y 3 bloques, tendremos en total k = 2 × 3 = 6 situaciones


experimentales y la siguiente matriz de diseño:

µ α 1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1

La utilización del fertilizante 1 en el bloque 3 queda descrita a través de la fila 5 de X.

24
Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologı́a se utiliza la fórmula
C = αLβ1 Aβ2 H β3
donde L = longitud del cráneo, A = anchura parietal máxima y H = altura basio bregma.
La fórmula anterior se convierte en un modelo lineal tomando logaritmos
log C = log α + β1 log L + β2 log A + β3 log H
El parámetro α expresa el tamaño, mientras que los parámetros β expresan la forma del
cráneo.

2.3. Suposiciones básicas del modelo lineal


En el modelo lineal definido en el apartado anterior, se supone que los errores i son
desviaciones que se comportan como variables aleatorias que verifican las condiciones de
Gauss-Markov:
1. E(i ) = 0 i = 1, . . . , n
2. var(i ) = σ 2 i = 1, . . . , n
3. E(i · j ) = 0 ∀i 6= j
Como sabemos, la condición (2) es la llamada condición de homocedasticidad del modelo y
el parámetro desconocido σ 2 es la llamada varianza del modelo. La condición (3) significa
que las n desviaciones son mutuamente incorrelacionadas.
Estas condiciones pueden expresarse en forma matricial como
E() = 0 var() = σ 2 In
donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas
de  = (1 , . . . , n )0 .
Si además suponemos que cada i es N (0, σ) y que 1 , . . . , n son estocásticamente inde-
pendientes, entonces diremos que el modelo definido es un modelo lineal normal. Ası́ ten-
dremos que
Y ∼ Nn (Xβ, σ 2 In )
es decir, Y sigue la distribución normal multivariante de vector de medias Xβ y matriz
de covarianzas σ 2 In .
Se llama rango del diseño al rango de la matriz X
r = rango X
y es un elemento muy importante en la discusión de los modelos. Evidentemente r ≤ m.
El valor de r es el número efectivo de parámetros del diseño, en el sentido de que si r < m
es posible reparametrizar el modelo para que r sea igual al número de parámetros. En
muchos casos el diseño verifica directamente que r = m y entonces se dice que es de rango
máximo.
El modelo lineal que verifique las condiciones aquı́ expuestas, salvo la normalidad, diremos
que está bajo las condiciones de Gauss-Markov ordinarias.

25
2.4. Estimación de los parámetros
La estimación de los parámetros β = (β1 , . . . , βm )0 se hace con el criterio de los mı́nimos
cuadrados. Se trata de hallar el conjunto de valores de los parámetros β b = (βb1 , . . . , βbm )0
que minimicen la siguiente suma de cuadrados

0  = (Y − Xβ)0 (Y − Xβ) (2.2)


Xn
= (yi − xi1 β1 − · · · − xim βm )2
i=1

La estimación βb de β la llamaremos estimación MC, abreviación de mı́nimo-cuadrática,


o LS del inglés least squares.

Teorema 2.4.1
Toda estimación MC de β es solución de la ecuación

X0 Xβ = X0 Y (2.3)

Demostración:
Si desarrollamos la suma de cuadrados 0  tenemos

0  = (Y − Xβ)0 (Y − Xβ)
= Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ

y si derivamos matricialmente respecto a β resulta

∂0 
= −2X0 Y + 2X0 Xβ
∂β
De modo que, si igualamos a cero, obtenemos la ecuación enunciada en el teorema. 
Las ecuaciones 2.3 reciben el nombre de ecuaciones normales.
Si el rango es máximo y r = m, entonces X0 X tiene inversa y la única solución de las
ecuaciones normales es
b = (X0 X)−1 X0 Y
β
Si r < m el sistema de ecuaciones 2.3 es indeterminado y su solución no es única. En
estos casos, una posibilidad (ver Apéndice A) es considerar

b = (X0 X)− X0 Y
β

donde A− = (X0 X)− es una g-inversa de A = X0 X, es decir, A− verifica

AA− A = A

Entonces se puede demostrar que la solución general es


b = (X0 X)− X0 Y + (I − A− A)z
β

siendo z un vector paramétrico.

26
Ahora podemos definir la suma de cuadrados residual como
b 0 (Y − Xβ)
SCR = e0 e = (Y − Xβ) b

Como veremos, SCR entendido como un estadı́stico función de la muestra Y, desempeña


un papel fundamental en el Análisis de la Varianza.
El modelo lineal Y = Xβ + , bajo las hipótesis de Gauss-Markov, verifica
E(Y) = Xβ
Teorema 2.4.2
Sea Ω = hXi ⊂ Rn el subespacio vectorial generado por las columnas de X de dimensión
dimhXi = r = rango X.
Entonces se verifica:
(i) E(Y) ∈ hXi
b es una estimación MC, el vector de residuos e = Y − Xβ
(ii) Si β b es ortogonal a hXi.

Demostración:
En efecto,
i) Si x(1) , . . . , x(m) son las columnas de X, entonces
E(Y) = x(1) β1 + · · · + x(m) βm ∈ hXi

b = X 0 Y − X 0 Xβ
ii) X0 e = X0 (Y − Xβ) b=0 

Teorema 2.4.3
b solución MC de 2.3 se verifica que
Para cualquier β
Y b
b = Xβ b
e=Y−Y b 0 (Y − Xβ)
SCR = (Y − Xβ) b

son únicos.
Además
b 0 X0 Y
SCR = Y 0 Y − β (2.4)
Demostración:
Si desarrollamos la suma de cuadrados residual SCR resulta
b 0 X0 Y − Y 0 Xβ
SCR = Y 0 Y − β b +β
b 0 X0 Xβ
b
b = X0 Y, obtenemos
y como X0 Xβ
b 0 X0 Y + β
SCR = Y 0 Y − 2β b 0 X0 Y = Y 0 Y − β
b 0 X0 Y

Consideremos ahora los vectores Y b 1 = Xβb1 y Yb 2 = Xβ b 2 , donde β


b1 y β
b 2 son dos solu-
ciones MC. Entonces Y b1 y Yb 2 pertenecen al subespacio hXi generado por las columnas
b1 − Y
de X y su diferencia Y b 2 también. Por otra parte, observamos que
b1 − Y
X0 ( Y b 1 − X 0 Xβ
b 2 ) = X 0 Xβ b 2 = X0 Y − X0 Y = 0

de modo que Y b 1 −Y
b 2 pertenece al ortogonal de hXi. Ası́ pues, necesariamente Y
b 1 −Y
b2 = 0
y el vector de errores e = Y − Y b1 = Y − Y b 2 es único.
En consecuencia, la suma de cuadrados de los errores SCR también es única. 

27
Interpretación geométrica

El modelo teórico es
Y = Xβ +  = θ +  si θ = Xβ
Entonces E(Y) = Xβ = θ significa que el valor esperado de Y pertenece al subespacio
Ω = hXi y para estimar los parámetros β debemos minimizar

0  = kY − θk2 con θ ∈ Ω = hXi

Como el vector concreto de observaciones Y se puede considerar un vector de Rn , el


problema anterior se puede resolver en términos geométricos. Ası́ se sabe que cuando
θ ∈ Ω, kY − θk2 es mı́nimo para θ = Y b = PY, donde P es la matriz de la proyección
ortogonal en Ω = hXi (ver Apéndice B). La estimación MC es equivalente a hallar la
b de Y sobre hXi, es decir, la norma euclı́dea de e = Y − Y
proyección ortogonal Y b es
mı́nima:
SCR = e0 e = kek2 = kY − Yk b 2
Se comprende que cualquier otra proyección no ortogonal darı́a una solución menos ade-
cuada.

b es ortogonal a Ω, se verifica que


Como e = Y − Y
b =0
X0 (Y − Y) ó b = X0 Y
X0 Y

donde Yb está determinada por ser la única proyección ortogonal de Y en Ω. Cuando las
columnas de X son linealmente independientes, forman una base y existe un único vector
b tal que Y
β b = Xβ b de manera que

b = X0 Y
X0 Y ⇒ b = X0 Y
X 0 Xβ

son las ecuaciones normales. En caso contrario, es decir, cuando las columnas de X son de-
pendientes no podemos concretar una solución única para los parámetros β. Sin embargo
todas las soluciones deben verificar la siguiente propiedad.

Teorema 2.4.4
b es una estimación MC de β si y sólo si Xβ
β b = PY, donde P es la proyección ortogonal
en Ω = hXi

28
Demostración:
b de β es MC si y sólo si
Una estimación β
b 0 (Y − Xβ)
(Y − Xβ) b = mı́n (Y − Xβ)0 (Y − Xβ)
β

e una estimación cualquiera de β, entonces


Sea β
e 0 (Y − Xβ)
(Y − Xβ) e = (Y − PY + PY − Xβ) e 0 (Y − PY + PY − Xβ)
e
e
= (Y − PY)0 (Y − PY) + (Y − PY)0 (PY − Xβ)
e 0 (Y − PY) + (PY − Xβ)
+ (PY − Xβ) e 0 (PY − Xβ)
e

Sin embargo
e = Y 0 (I − P)PY − Y 0 (I − P)Xβ
(Y − PY)0 (PY − Xβ) e=0

ya que P es idempotente y además PX = X. De forma que


e 0 (Y − Xβ)
(Y − Xβ) e = (Y − PY)0 (Y − PY) + (PY − Xβ)
e 0 (PY − Xβ)
e

e y el segundo se minimiza
donde ambos términos son positivos, el primero no depende de β
b
si es cero, luego PY = Xβ. 
En resumen y como ya hemos visto, la solución del problema se basa en la proyección
ortogonal sobre el subespacio Ω que garantiza la unicidad del vector de predicciones
b = PY y por ende del vector de residuos e = Y − Y
Y b y de la suma de cuadrados de los
residuos
SCR = e0 e = (Y − PY)0 (Y − PY) = Y 0 (I − P)Y
ya que I − P es idempotente (ver Apéndice B).
La solución para los parámetros β debe salir de las ecuaciones normales o de la ecuación
Xβ = PY y sólo es única cuando el rango de la matriz X es máximo.

Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1

y1 = θ +  1
y2 = 2θ + 2
y3 = −θ + 3

que en expresión matricial escribimos


     
y1 1 1
 y2  =  2  θ +  2 
y3 −1 3

de modo que X0 = (1, 2, −1).


Las ecuaciones normales son

 
 1  y 1
1 2 −1  2  θ = 1 2 −1  y2 
−1 y3

29
es decir
6θ = y1 + 2y2 − y3
y la estimación MC de θ es θb = (y1 + 2y2 − y3 )/6.
La suma de cuadrados residual es

SCR = Y 0 Y − θb0 X0 Y = y12 + y22 + y32 − (y1 + 2y2 − y3 )2 /6

Ejemplo 2.4.2
Supongamos que se desea pesar tres objetos cuyos pesos exactos son β 1 , β2 y β3 . Se
dispone de una balanza de platillos con un error de pesada que podemos considerar con
distribución N (0, σ). Un artificio para mejorar la precisión y ahorrar pesadas consiste en
repartir los objetos en uno o en los dos platillos y anotar las sumas o diferencias de pesos:

x1 β 1 + x 2 β 2 + x 3 β 3 = y

donde y es el peso observado y xi = 0, 1, −1.


Consideremos las siguientes pesadas:

β1 + β 2 + β 3 = 5,53
β1 − β 2 + β 3 = 1,72
β1 + β 2 − β 3 = 0,64
β1 + β 2 + β 3 = 5,48
β1 − β 2 + β 3 = 1,70

A partir de estos datos, las ecuaciones normales son



 5β1 + β2 + 3β3 = 15,07
β1 + 5β2 − β3 = 8,23

3β1 − β2 + 5β3 = 13,79

La estimación de los parámetros proporciona

βb1 = 1,175 βb2 = 1,898 βb3 = 2,433

y la suma de cuadrados residual es

SCR = (5,53 − (βb1 + βb2 + βb3 ))2 + · · · = 0,00145

2.5. Estimación de la varianza


La varianza de los errores del modelo lineal

σ 2 = var(i ) = var(yi ) i = 1, . . . , n

es otro parámetro que debe ser estimado a partir de las observaciones de y1 , . . . , yn .

30
Teorema 2.5.1
Sea Y = Xβ +  el modelo lineal con las hipótesis impuestas en la sección 2.3. Entonces
el estadı́stico1
b2 = ECM = SCR/(n − r)
σ
es un estimador insesgado de la varianza σ 2 . En este estadı́stico SCR es la suma de
cuadrados residual, n el número total de observaciones y r el rango del diseño.

Demostración 1:
Las columnas x(1) , . . . , x(m) de la matriz de diseño X generan el subespacio de dimensión
r que escribimos
hXi = hx(1) , . . . , x(m) i
Sea ahora V una matriz ortogonal, es decir, tal que VV 0 = V0 V = In , cuyas columnas
v(1) , . . . , v(r) , v(r+1) , . . . , v(n) forman una base ortogonal de Rn . Es posible construir V de
modo que las r primeras columnas generen el subespacio hXi

hXi = hv(1) , . . . , v(r) i

Por otra parte, Y = (y1 , . . . , yn )0 es un vector aleatorio de Rn que, mediante V, transfor-


mamos en Z = (z1 , . . . , zn )0 = V0 Y

zi = v1i y1 + · · · + vni yn i = 1, . . . , n

Para las variables transformadas se verifica que


n
X 
0 ηi si i ≤ r
E(zi ) = vhi E(yh ) = v(i) Xβ =
0 si i > r
h=1

pues Xβ ∈ hXi que es ortogonal a v(i) para i > r.


b una estimación MC. Entonces
Sea β
b + (Y − Xβ)
Y = Xβ b = Xβ
b +e

donde obviamente Xβ b ∈ hXi y como sabemos e ∈ hXi⊥ , de manera que la transformación


ortogonal V0 aplicada sobre e proporciona

V0 e = (0, . . . , 0, zr+1 , . . . , zn )0

Luego, en función de las variables zi tenemos


n
X
0 0 0 0
SCR = e e = (V e) V e = zi2
i=r+1

Además, por ser una transformación ortogonal, las variables z1 , . . . , zn siguen siendo in-
correlacionadas y de varianza σ 2 . Ası́ pues

E(zi ) = 0 E(zi2 ) = var(zi ) = var(yi ) = σ 2


1
En muchos de los libros clásicos escritos en inglés este estadı́stico se llama MSE, siglas de mean
square error.

31
y por lo tanto
n
X
E(SCR) = E(zi2 ) = (n − r)σ 2
i=r+1

La expresión
2
SCR = zr+1 + · · · + zn2 (2.5)
se llama forma canónica de la suma de cuadrados residual del modelo lineal bajo las
hipótesis de Gauss-Markov. 
Demostración 2:
Se puede hacer una demostración mucho más directa a partir de la propiedad 2 explicada
en el Apéndice C1 de Estadı́stica Multivariante:
Para un vector aleatorio Y con esperanza E(Y) = µ y matriz de varianzas y covarianzas
var(Y) = V, se tiene que

E(Y0 AY) = tr(AV) + µ0 Aµ

donde A es una matriz constante.


En nuestro caso E(Y) = µ = Xβ y var(Y) = V = σ 2 I, de forma que

E(SCR) = E(Y 0 (I − P)Y) = tr(σ 2 (I − P)) + β 0 X0 (I − P)Xβ


= σ 2 tr(I − P)
= σ 2 rg(I − P) = σ 2 (n − r)

gracias a las propiedades de la matriz I − P. 

2.6. Distribuciones de los estimadores


Vamos ahora a establecer algunas propiedades de los estimadores MC para un modelo de
rango máximo.
Si asumimos que los errores son insesgados E() = 0, que es la primera condición de
Gauss-Markov, entonces βb es un estimador insesgado de β

b = (X0 X)−1 X0 E(Y) = (X0 X)−1 X0 Xβ = β


E(β)

Si asumimos además que los errores i son incorrelacionados y con la misma varianza, es
decir var() = σ 2 I, resulta que

var(Y) = var(Y − Xβ) = var() = σ 2 I

ya que Xβ no es aleatorio y en consecuencia


b = var((X0 X)−1 X0 Y) = (X0 X)−1 X0 var(Y)X(X0 X)−1
var(β)
= σ 2 (X0 X)−1 (X0 X)(X0 X)−1 = σ 2 (X0 X)−1

b y SCR bajo las


Veamos a continuación algunos resultados acerca de la distribución de β
hipótesis del modelo lineal normal en el caso de rango máximo.

32
Teorema 2.6.1
Sea Y ∼ N (Xβ, σ 2 In ) con rango X = m. Entonces se verifican las siguientes propiedades:
i) La estimación MC de β coincide con la estimación de la máxima verosimilitud.
Además es insesgada y de mı́nima varianza.
b ∼ N (β, σ 2 (X0 X)−1 )
ii) β
b − β)0 X0 X(β
iii) (β b − β)/σ 2 ∼ χ2
m

b es independiente de SCR
iv) β
v) SCR/σ 2 ∼ χ2n−m
Demostración:

i) La función de verosimilitud es
√  
2 −n 1 0
L(Y; β, σ ) = ( 2πσ 2 ) exp − 2 (Y − Xβ) (Y − Xβ)

de modo que el mı́nimo de (Y − Xβ)0 (Y − Xβ) es el máximo de L.
Ya hemos visto que β b es insesgado y además, cada βbi es un estimador lineal de va-
rianza mı́nima de βi , ya que es centrado y de máxima verosimilitud, luego suficiente.
Se llegará a la misma conclusión como consecuencia del Teorema 3.2.1.
Por otra parte, si sustituimos β por β b en la función de verosimilitud y derivamos
2
respecto a σ resulta que el el estimador de máxima verosimilitud de la varianza es
2
bM
σ V = SCR/n

Este estimador es sesgado y en la práctica no se utiliza, ya que disponemos del


estimador insesgado propuesto en el apartado anterior. Además, bajo ciertas condi-
b2 = SCR/(n−m) es un estimador de varianza
ciones generales se puede probar que σ
2
mı́nima de σ (véase Seber [61, pág. 52]).

ii) Como β b = [(X0 X)−1 X0 ]Y, βb es combinación lineal de una normal y, por tanto,
tiene distribución normal multivariante con matriz de varianzas-covarianzas
(X0 X)−1 σ 2

iii) Es consecuencia de las propiedades de la normal multivariante del apartado anterior


ya que
b − β)0 X0 X(β
(β b − β)/σ 2 = (βb − β)0 var(β)
b −1 (β
b − β) ∼ χ2
m

b i Y − Xβ
iv) Si calculamos la matriz de covarianzas entre β b tenemos
b Y − Xβ)
cov(β, b = cov((X0 X)−1 X0 Y, (I − P)Y)
= (X0 X)−1 X0 var(Y)(I − P)0
= σ 2 (X0 X)−1 X0 (I − P) = 0

de modo que efectivamente β b es independiente de (Y − Xβ) b 0 (Y − Xβ),


b ya que la
incorrelación entre normales multivariantes implica su independencia.
Este resultado se ampliará en el Teorema 3.4.1.

33
v) Aplicando la ecuación 2.5

SCR/σ 2 = (zm+1 /σ)2 + · · · + (zn /σ)2

obtenemos una suma de cuadrados de n − m variables normales independientes, es


decir, una distribución χ2n−m .

Ejemplo 2.6.1

La distribución de θb del ejemplo 2.4.1 es N (θ, σ/ 6)

b = E((y1 + 2y2 − y3 )/6) = (1/6)(θ + 4θ + θ) = θ


E(θ)
b = (σ 2 + 4σ 2 + σ 2 )/62 = σ 2 /6
var(θ)

La distribución de SCR/σ 2 es χ22 , siendo

b 2 + (y2 − 2θ)
SCR = (y1 − θ) b 2 + (y3 + θ)
b2

Ejemplo 2.6.2
La estimación de la varianza del error σ 2 en el ejemplo 2.4.2 es

b2 = 0,00145/(5 − 3) = 0,725 × 10−3


σ

Observemos que el número de pesadas necesarias para obtener la misma precisión serı́a
mayor si pesáramos cada objeto individualmente.

2.7. Matriz de diseño reducida


Supongamos que varias observaciones yi han sido obtenidas bajo las mismas condiciones
experimentales. Para estas observaciones, el modelo que liga yi con las β es el mismo, lo
que se traduce en que las filas de la matriz de diseño correspondientes están repetidas.
Para evitar la redundancia que esto supone nos será muy útil, a efectos teóricos y de
cálculo, introducir el concepto de matriz de diseño reducida.

Definición 2.7.1
Dado el modelo lineal Y = Xβ +, llamaremos matriz de diseño reducida X R a la matriz
k × m obtenida tomando las k filas distintas de la matriz de diseño original X. Diremos
entonces que k es el número de condiciones experimentales.

Las matrices de diseño original o ampliada y reducida las indicaremos por X y XR


respectivamente, cuando convenga distinguir una de otra.
Si la fila i-ésima de XR está repetida ni veces en X, significa que se han obtenido ni
réplicas de la variable observable bajo la i-ésima condición experimental. Si estos números
de réplicas son n1 , n2 , . . . , nk , entonces

n = n1 + n2 + · · · + n k

34
Además de la matriz reducida XR , utilizaremos también la matriz diagonal

D = diag(n1 , n2 , . . . , nk )

y el vector de medias
Ȳ = (ȳ1 , ȳ2 , . . . , ȳk )0
donde cada y i es la media de las réplicas bajo la condición experimental i.
En una experiencia bajo la cual todas las observaciones han sido tomadas en condiciones
experimentales distintas (caso de una sola observación por casilla), entonces

XR = X Ȳ = Y D=I ni = 1

Como veremos más adelante (ver sección 10.6), la utilización de XR , D e Ȳ nos permi-
tirá abordar diseños no balanceados y el caso de observaciones faltantes.

Teorema 2.7.1
La solución de las ecuaciones normales y la suma de cuadrados residual en términos de
la matriz de diseño reducida XR , de D e Ȳ es

b = (X0 DXR )−1 X0 DȲ


β R R
b 0 X0 DȲ
SCR = Y 0 Y − β R

Demostración:
Sea M una matriz n × k de forma que cada columna i es

(0, . . . , 0, 1, . . . , 1, 0, . . . , 0)0
| {z } | {z } | {z }
n0 ni n00

donde k es el número de condiciones experimentales (número de filas distintas de X), ni


el número de réplicas bajo la condición i, y además

n0 = n1 + · · · + ni−1 n00 = ni+1 + · · · + nk

Se verifica

M0 Y = DȲ MXR = X M0 M = D X0 Y = X0R M0 Y = X0R DȲ

de donde se siguen inmediatamente las fórmulas del teorema. 

Ejemplo 2.7.1
Con los datos del ejemplo 2.4.2
   
1 1 1 5,53
 1 −1 1   1,72 
   
X= 1  1 −1  Y= 0,64 
  
 1 1 1   5,48 
1 −1 1 1,70

35
Agrupando las filas 1, 4 y 2, 5 obtenemos
   
1 1 1 2 0 0
XR =  1 −1 1  D= 0 2 0 
1 1 −1 0 0 1
donde n1 = n2 = 2, n3 = 1, k = 3.
   
(5,53 + 5,48)/2 5,505
Ȳ =  (1,72 + 1,70)/2  =  1,710 
0,64 0,640
La matriz M es  
1 0 0
 1 0 0 
 
M=
 0 1 0 

 0 1 0 
0 0 1

Ejemplo 2.7.2
Consideremos el modelo
yij = µ + αi + βj + ij
correspondiente al diseño de dos factores sin interacción.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los
números de réplicas son

n11 = 2 n21 = 1 n12 = 3 n22 = 3 n13 = 5 n23 = 4

La matriz de diseño reducida es


µ α 1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
P
Sin embargo, la matriz de diseño ampliada tiene 6 columnas y nij = 18 filas.

2.8. Matrices de diseño de rango no máximo


Cuando el modelo lineal corresponde al análisis de los datos de un diseño experimental,
la matriz X tiene todos sus elementos con valores 0 ó 1 y sus columnas acostumbran a ser
linealmente dependientes. Ya sabemos que en este caso es posible hallar el estimador MC
de θ = Xβ pero, por desgracia, hay múltiples estimaciones de los parámetros β que más
bien podemos considerar como soluciones β b de las ecuaciones normales. En todo caso y
como veremos en el próximo capı́tulo estamos interesados en concretar una estimación
de los parámetros β aunque no sea única. A continuación se comentan algunos métodos
b o para hallar la SCR directamente.
para hallar una solución β

36
2.8.1. Reducción a un modelo de rango máximo
Sea X1 la matriz n×r con las r = rg X columnas linealmente independientes de la matriz
de diseño X, entonces P = X1 (X01 X1 )−1 X01 de forma que

b 0 X01 Y
SCR = Y 0 (I − P)Y = Y 0 Y − α

donde αb = (X01 X1 )−1 X01 Y es la solución del modelo Y = X1 α +  de rango máximo.


Podemos asumir, sin pérdida de generalidad, que X1 está formada por las r primeras filas
de X de manera que X = (X1 , X2 ). Entonces X2 = X1 F ya que las columnas de X2 son
linealmente dependientes de las de X1 y, por tanto, X = X1 (Ir , F). Ası́, éste es un caso
especial de una factorización más general del tipo

X = KL

donde K es n × r de rango r, y L es r × m de rango r. Entonces podemos escribir

Xβ = KLβ = Kα

y estimar α.

2.8.2. Imposición de restricciones


Este método consiste en imponer un conjunto de restricciones del tipo Hβ = 0 para
evitar la indeterminación de β. Las restricciones apropiadas, llamadas identificables, son
aquellas que, para cada θ ∈ Ω = hXi, existe un único β que satisface θ = Xβ y 0 = Hβ,
es decir, que satisface    
θ X
= β = Gβ
0 H
La solución es simple. Debemos elegir como filas de H un conjunto de m − r vectores
m × 1 linealmente independientes que sean también linealmente independientes de las
filas de X. Entonces la matriz G de orden (n + m − r) × m tendrá rango m de modo que
G0 G = X0 X + H0 H es m × m de rango m y en consecuencia tiene inversa. Luego hemos
salvado la deficiencia en el rango de X0 X introduciendo la matriz H0 H.
Ası́ pues, si añadimos H0 Hβ = 0 a las ecuaciones normales tenemos

G0 Gβ = X0 Y
b = (G0 G)−1 X0 Y. Se puede ver, a partir de θ
cuya solución es β b = Xβ b = PY, que
P = X(G0 G)−1 X0 ya que P es única.
La demostración de todos los detalles aquı́ expuestos puede verse en Seber [61, pág. 74].
Es interesante comprobar que, si Hβ = 0, entonces
b = (G0 G)−1 X0 Xβ
E(β)
= (G0 G)−1 (X0 X + H0 H)β = β

de modo que β b es un estimador insesgado de β.


Este método es particularmente útil en los modelos de análisis de la varianza para los que
H se halla con mucha facilidad.

37
Ejemplo 2.8.1
Consideremos el modelo correspondiente al diseño de un factor con, por ejemplo, 3 niveles

yij = µ + αi + ij i = 1, 2, 3 j = 1, . . . , ni

entonces, tenemos m = 4 y una matriz de diseño de rango 3. La estimación de los


parámetros resulta indeterminada.
P
Sin embargo, si añadimos la restricción αi = 0, es decir, si hacemos H = (0, 1, 1, 1),
el sistema conjunto es de rango 4 y podemos determinar una solución o calcular la suma
de cuadrados residual.

38
2.9. Ejercicios
Ejercicio 2.1
Una variable Y toma los valores y1 , y2 y y3 en función de otra variable X con los valores
x1 , x2 y x3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en su
caso, la matriz de diseño para x1 = 1, x2 = 2 y x3 = 3.

a) yi = β0 + β1 xi + β2 (x2i − 1) + i

b) yi = β0 + β1 xi + β2 exi + i

c) yi = β1 xi (β2 tang(xi )) + i

Ejercicio 2.2
Dado el modelo lineal      
y1 2 1
= θ+
y2 1 2
hallar la estimación MC de θ y la suma de cuadrados residual.

Ejercicio 2.3
b es una estimación MC, probar que
Si β
b 0 (Y − Xβ)
(Y − Xβ)0 (Y − Xβ) = (Y − Xβ) b + (β
b − β)0 X0 X(β
b − β)

Ejercicio 2.4
Cuatro objetos cuyos pesos exactos son β1 , β2 , β3 y β4 han sido pesados en una balanza
de platillos de acuerdo con el siguiente esquema:

β1 β2 β3 β4 peso
1 1 1 1 9,2
1 −1 1 1 8,3
1 0 0 1 5,4
1 0 0 −1 −1,6
1 0 1 1 8,7
1 1 −1 1 3,5

Hallar las estimaciones de cada βi y de la varianza del error.

Ejercicio 2.5
b la estimación MC de β. Si Y
Sea β b = PY, probar que la matriz P verifica
b = Xβ

P2 = P (I − P)2 = I − P

Ejercicio 2.6
La matriz de diseño reducida de un modelo lineal normal es
 
1 1 1
X= 1 0 1 
0 1 0

39
Se sabe además que

y 1 = 10 y 2 = 12 y 3 = 17 n1 = n2 = n3 = 10
1 X
s21 = (yi1 − y 1 )2 = 2,8 s22 = 4,2 s23 = 4,0
n1
Se pide:

a) Hallar la expresión general de las estimaciones MC de los parámetros β.

b) Calcular SCR. Estimar la varianza del diseño σ 2 .

c) Estudiar si la hipótesis nula H0 : σ 2 = 3 puede ser aceptada.

Ejercicio 2.7
Consideremos el modelo lineal

yi = β0 + β1 xi1 + · · · + βm xim + i i = 1, . . . , n

Sean βb0 , βb1 , . . . , βbm las estimaciones MC de los parámetros y sea

ybi = βb0 + βb1 xi1 + · · · + βbm xim i = 1, . . . , n

Probar que
n
X n
X
(yi − ybi ) = ei = 0
i=1 i=1

40
Capı́tulo 3

Funciones paramétricas estimables

3.1. Introducción
En los modelos lineales, además de la estimación de los parámetros βi y de σ 2 , interesa
también la estimación de ciertas funciones lineales de los parámetros. Como vamos a ver,
esto es especialmente necesario cuando los parámetros carecen de una estimación única.

Definición 3.1.1
Llamaremos función paramétrica a toda función lineal ψ de los parámetros

ψ = a 1 β1 + · · · + a m βm = a 0 β
b combi-
y diremos que una función paramétrica ψ es estimable si existe un estadı́stico ψ,
nación lineal de las observaciones y1 , . . . , yn

ψb = b1 y1 + · · · + bn yn = b0 Y

tal que
b =ψ
E(ψ)
es decir, ψb es estimador lineal insesgado de ψ.

Estas funciones paramétricas tienen la siguiente caracterización

Teorema 3.1.1
Sea ψ = a0 β una función paramétrica estimable asociada al modelo lineal Y = Xβ + .
Se verifica:

i) ψ es estimable si y sólo si el vector fila a0 es combinación lineal de las filas de X.

ii) Si ψ1 , . . . , ψq son funciones paramétricas estimables, entonces la combinación lineal


ψ = c1 ψ1 + · · · + cq ψq es también función paramétrica estimable.

iii) El número máximo de funciones paramétricas estimables linealmente independientes


es r = rango(X).

Demostración:

41
i) Sea ψb = b0 Y tal que E(ψ)
b = ψ. Entonces

a0 β = E(b0 Y) = b0 E(Y) = b0 Xβ

cualquiera que sea β, luego


a0 = b 0 X
lo que nos dice que a0 es combinación lineal de las filas de la matriz de diseño X.
Recı́procamente, si suponemos que b0 X = a0 , entonces basta tomar ψb = b0 Y como
estimador lineal insesgado de ψ.
ii) y iii) para el lector (ver ejercicio 3.4) 

Observaciones:

1) Si rango X = m, entonces todos los parámetros βi y todas las funciones paramétri-


cas ψ son estimables, pues el subespacio generado por las filas de X coincide con
Rm .
2) Si rango X < m, pueden construirse funciones paramétricas que no son estimables.
3) Una caracterización algebraica de que ψ = a0 β es estimable viene dada por la
identidad
a0 (X0 X)− X0 X = a0
donde (X0 X)− representa una g-inversa de X0 X.
En efecto, consideremos las matrices

S = X0 X S− = (X0 X)− H = S− S

entonces se comprueba fácilmente que

H2 = H SH = S

Puesto que H es idempotente

rango H = traza H = rango S = rango X = r

Por otra parte tenemos

0 = S − SH = (Im − H)0 (S − SH) = (Im − H)0 (X0 X − X0 XH)


= (Im − H)0 (X0 (X − XH)) = (X − XH)0 (X − XH)

luego
X = XH
Entonces, si ψ = a0 β es estimable, a0 = b0 X y

a0 H = b0 XH = b0 X = a0

Recı́procamente, si a0 H = a0 , resulta que

a0 = a0 S− S = (a0 S− X0 )X = b0 X

siendo b0 = a0 S− X0 .

42
3.2. Teorema de Gauss-Markov
Vamos a ver en primer lugar que, cuando el rango de la matriz de diseño no es máximo
y, por tanto, la estimación MC de los parámetros no es única, la estimación de cualquier
función paramétrica estimable utilizando cualquiera de los estimadores MC sı́ es única.

Teorema 3.2.1
b es un estimador MC de β, entonces
Si ψ = a0 β una función paramétrica estimable y β
b 0b
el estimador ψ = a β de ψ es único.

Demostración:
Si ψ es una función paramétrica estimable, existe un estimador lineal insesgado
ψb = b0 Y
donde b es un vector n × 1. Consideremos el subespacio Ω = hXi de Rn generado por las
columnas de X. Podemos descomponer de forma única
e+c
b=b e∈Ω
b c⊥Ω
de modo que c es ortogonal a todo vector de Ω.
e 0 Y y veamos que es insesgado y que su valor es
Consideremos ahora el estimador lineal b
único.
ψ = E(ψ)b = E(b0 Y) = E(b e 0 Y) + E(c0 Y) = E(b
e 0 Y)
pues
E(c0 Y) = c0 E(Y) = c0 Xβ = 0β = 0
Supongamos que b∗ 0 Y es otro estimador insesgado para ψ y b∗ ∈ Ω. Entonces
e 0 Y) − E(b∗ 0 Y) = (b
0 = E(b e 0 − b∗ 0 )Xβ

luego
e 0 − b∗ 0 )X = 0
(b
lo que quiere decir que (be 0 − b∗ 0 ) es ortogonal a Ω. Como también pertenece a Ω, debe
e − b∗ = 0, es decir, b
ser b e = b∗ .
Por último, sabemos que e = Y − Xβ b es ortogonal a Ω, de manera que
e0e = b
0=b e0Y − b
e 0 Xβ
b
e 0 Y = b0 Xβ.
de modo que b b Además, sabemos que b
e 0 X = a0 , luego
e
ψb = a0 β

A continuación se demuestra la principal ventaja de la utilización de los estimadores MC.

Teorema 3.2.2 (Gauss-Markov)


b es un estimador MC de β, entonces
Si ψ = a0 β una función paramétrica estimable y β
ψb = a β
0 b es el estimador de varianza mı́nima en la clase de los estimadores lineales
1

insesgados de ψ.
1
BLUE: best linear unbiased estimate

43
Demostración:
Con la notación
kbk2 = b21 + · · · + b2n
tenemos que
var(b0 Y) = b21 σ 2 + · · · + b2n σ 2 = kbk2 σ 2
Si consideramos la descomposición de cualquier estimador insesgado de ψ que hemos
utilizado en el teorema anterior y dado que
e 2 + kck2
kbk2 = kbk

resulta
b = var(b
var(a0 β) e 0 Y) = kbk
e 2 σ 2 ≤ (kbk
e 2 + kck2 )σ 2 = var(b0 Y)

Observaciones:

1) Estos resultados son válidos incluso para un modelo lineal sin la hipótesis de nor-
malidad.

2) La estimación con varianza mı́nima es

ψb = a0 (X0 X)− X0 Y

3) Como la varianza de b0 Y es b0 bσ 2 , resulta que la varianza mı́nima es


b = var(a0 β)
var(ψ) b = σ 2 a0 (X0 X)− a

4) Utilizando la matriz de diseño reducida tenemos

ψb = a0 (X0 DX)− X0 DȲ


b = σ 2 a0 (X0 DX)− a
var(ψ)

De aquı́ deducimos que ψb es combinación lineal de las medias de las k condiciones


experimentales
ψb = c1 Ȳ1 + · · · + ck Ȳk = c0 Ȳ
donde c = (c1 , . . . , ck )0 es
c = DX(X0 DX)− a
Entonces !
k
X
b =
var(ψ) c2i /ni σ2 = δ2σ2
i=1

Por otra parte, todo estimador lineal insesgado ψb = b0 Y de ψ = a0 β se descompone como


hemos visto en
e 0 Y + c0 Y
b0 Y = b
Diremos que b e 0 Y (donde b
e es único) pertenece al espacio estimación y que c0 Y pertenece
al espacio error.

44
Más explı́citamente, la descomposición de b0 es
b0 = b0 P + b0 (I − P)
siendo P = X(X0 X)− X0 la matriz del operador que proyecta b en Ω = hXi (ver Apéndice
B). El vector proyectado es be 0 = b0 P. Asimismo, I − P es otro operador que proyecta b
e 0 c = 0, se verifica
en el espacio ortogonal a Ω. La proyección es c0 = b0 (I − P). Como b
e 0 Y, c0 Y) = 0
cov(b

Ası́ pues, todo estimador lineal insesgado b0 Y se descompone en


b0 Y = b0 PY + b0 (I − P)Y
donde b0 PY es el estimador de Gauss-Markov, mientras que b0 (I − P)Y tiene esperanza
cero y provoca un aumento de la varianza mı́nima del mejor estimador ψb = b0 PY.
Finalmente, observemos que
ψb = b0 PY = b0 X(X0 X)− X0 Y = b0 X(X0 X)− X0 Xβ
b=
(3.1)
= b0 XHβb = a0 β
b

Siendo H = (X0 X)− X0 X, que verifica XH = X, y siendo a0 = b0 X.


El aspecto geométrico de las estimaciones se puede resumir en el hecho que el espacio
muestral Rn al que pertenece el vector de observaciones Y, se descompone en
Rn = Ω + Ω ⊥
donde Ω representa el espacio estimación. Toda estimación de los parámetros de regresión
está ligada a Ω. Toda estimación de la varianza del modelo está ligada al espacio error
Ω⊥ . Ambos espacios son ortogonales y bajo el modelo lineal normal, como veremos más
adelante, ambas clases de estimaciones son estocásticamente independientes.

Ejemplo 3.2.1
Sea y1 , . . . , yn una muestra aleatoria simple procedente de una población N (µ, σ). El mo-
delo lineal asociado es    
y1 1
 ..   .. 
 .  =  . µ + 
yn 1
P
El estimador MC de µ es µ b = (1/n) yi que también es de Gauss-Markov (centrado y
de varianza mı́nima).
En este caso Rn = Ω + Ω⊥ , siendo
Ω = h(1, . . . , 1)0 i
X
Ω⊥ = {(x1 , . . . , xn )0 | xi = 0}
P P
Sea a0 Y = ai yi otro estimador centrado de µ. Entonces E(a0 Y) = µ implica ai = 1.
Luego se verifica a = e a + b, es decir,
     
a1 1/n a1 − 1/n
 ..   ..   .. 
 . = . + . 
an 1/n an − 1/n

45
a ∈ Ω, b ∈ Ω⊥ . Es fácil ver que e
con e a0 b = 0. Además
X X X
ai yi = (1/n) yi + (ai − 1/n)yi

El primer término es estimador centrado y de varianza mı́nima σ 2 /n. El segundo término


verifica
X
E( (ai − 1/n)yi ) = 0
X X
cov(1/n yi , (ai − 1/n)yi ) = 0

La matriz del operador que proyecta a en Ω es


   
1 1/n . . . 1/n
   .. 
P = 1/n  ...  (1, . . . , 1) =  ... ...
. 
1 1/n . . . 1/n

siendo fácil ver que

a0 P = (1/n, . . . , 1/n)
a0 (I − P) = (a1 − 1/n, . . . , an − 1/n)

Ejemplo 3.2.2
Ver especialmente el final del ejemplo 5.3.2.

3.3. Varianza de la estimación y multicolinealidad


Sabemos que a0 β se dice estimable si tiene un estimador lineal insesgado b0 Y o, equiva-
lentemente, cuando a = X0 b. Es decir, cuando a es combinación lineal de las filas de la
matriz X.

Teorema 3.3.1
La función paramétrica a0 β es estimable si y sólo si

a ∈ hX0 i = hX0 Xi

Demostración:
Como sabemos, la función paramétrica a0 β es estimable si y sólo si a es combinación
lineal de las filas de X, es decir, cuando a ∈ hX0 i. De modo que sólo queda probar que

hX0 i = hX0 Xi

Pero X0 Xc = X0 d para d = Xc, de forma que hX0 Xi ⊂ hX0 i. Además, las dimensiones de
ambos subespacios son iguales ya que rg X0 = rg X0 X, de donde se deduce la igualdad.
Los detalles pueden verse en Seber [61, pág. 385]. 
En el apartado anterior hemos demostrado que para una función paramétrica estimable
b es el de mı́nima varianza. Pero, ¿cuanto vale esta varianza?
a0 β, su estimador MC a0 β

46
Supongamos que X0 X tiene como valores propios λ1 , . . . , λr todos positivos no nulos
asociados a los correspondientes vectores propios ortonormales v1 , . . . , vr , es decir
X0 Xvi = λi vi i = 1, . . . , r
y tales que vi0 vj = δij .
Si a0 β es estimable, entonces a ∈ hX0 Xi y este subespacio está generado por los vectores
propios. Ası́ pues, a se puede expresar en la forma
r
X
a= ci v i
i=1

Entonces
!
X
b = var
var(a0 β) b
ci vi0 β
i
X
= b
c2i var(vi0 β)
i
X
= σ2 c2i λ−1
i
i
ya que
cov(vi0 β, b = λ−1 λ−1 cov(v0 X0 Xβ,
b v0 β) b v0 X0 Xβ)
b
j i j i j
= (λi λj )−1 cov(vi0 X0 Y, vj0 X0 Y)
= (λi λj )−1 σ 2 vi0 X0 Xvj
= (λi λj )−1 σ 2 λj vi0 vj
= σ 2 λ−1
i δij

Silvey (1969) concluyó que es posible una estimación relativamente precisa en las direc-
ciones de los vectores propios de X0 X correspondientes a los mayores valores propios,
mientras que se obtienen unas estimaciones relativamente imprecisas (poco eficientes) en
las direcciones correspondientes a los valores propios más pequeños.
Supongamos que X tiene rango máximo pero que sus columnas están cerca de ser li-
nealmente dependientes. Entonces X0 X está cerca de ser singular (no inversible), en el
sentido que uno o varios de sus valores propios no nulos son excesivamente pequeños, casi
despreciables, y por lo que hemos visto las estimaciones en algunas direcciones serán muy
imprecisas.
La presencia de relaciones quasi lineales entre las variables regresoras se conoce en Eco-
nometrı́a con el nombre de multicolinealidad, cuya forma más extrema se presenta cuando
la matriz de datos X no tiene rango máximo. Este grave problema debe ser detectado
previamente a la estimación y se puede corregir de varias formas.
Una solución teórica consiste en minimizar o incluso erradicar la multicolinealidad, me-
diante la incorporación de nuevas observaciones en las direcciones de los vectores propios
con valores propios demasiado pequeños (o cero).
Supongamos que una nueva observación se añade al modelo Y = Xβ +  y resulta
     
Y X 
= β+
Yn+1 x0n+1 n+1
= X∗ β +  ∗

47
donde xn+1 = cv, donde v es un vector propio normalizado de X0 X correspondiente a un
valor propio λ. Entonces se puede probar que v es también un vector propio de X0∗ X∗
correspondiente al valor propio λ + c2 . Y de esta forma Sylvey propuso un análisis para
la elección de las direcciones en las que es conveniente elegir nuevas observaciones para
mejorar la precisión de las estimaciones de un a0 β particular.

3.4. Sistemas de funciones paramétricas estimables


Consideremos un sistema de funciones paramétricas estimables

ψ1 = a01 β, . . . , ψq = a0q β

sobre el mismo modelo lineal normal y donde los vectores a1 , . . . , aq (q ≤ r = rango X)


son linealmente independientes. Para cada una, tenemos las correspondientes estimaciones
de Gauss-Markov
ψbi = a0i β
b i = 1, . . . , q
que podemos condensar matricialmente en la forma
b = (ψb1 , . . . , ψbq )0 = Aβ
ψ b

donde  
a01
 
A =  ... 
a0q
b es el conjunto de estimadores MC del sistema de funciones paramétri-
Con esta matriz, ψ
cas ψ = Aβ.

Teorema 3.4.1
b = Aβ
Bajo el modelo lineal normal, el conjunto de estimadores ψ b del sistema de funciones
paramétricas ψ = Aβ verifica:
b sigue la distribución normal multivariante
i) ψ

b ∼ Nq (ψ, Σψ )
ψ

donde ψ = Aβ es el vector de medias y

Σψ = σ 2 A(X0 X)− A0

es la matriz de varianzas-covarianzas.

ii) Toda función paramétrica estimable es estocásticamente independiente de la suma


de cuadrados residual
SCR = (Y − Xβ) b 0 (Y − Xβ)
b
b = Aβ
En particular, ψ b es estocásticamente independiente de SCR.

Demostración:

48
b es una combinación lineal de variables normales indepen-
i) Es consecuencia de que ψ
dientes:
ψbi = a0i (X0 X)− X0 Y
luego si
A(X0 X)− X0 = C
b = ψ y la matriz de covarianzas de CY es Σ = σ 2 CC0 , de
sabemos que E(ψ)
manera que
Σψ = σ 2 CC0 = σ 2 A(X0 X)− X0 X(X0 X)− A0 = σ 2 A(X0 X)− A0

ii) Como en el teorema 2.5.1, consideremos la transformación ortogonal


Z = V0 Y
donde las primeras r columnas de la matriz ortogonal V generan el subespacio
Ω = hXi. Entonces las variables z1 , . . . , zn son normales e independientes, y toda
estimación de Gauss-Markov es una combinación lineal de
z1 , . . . , z r
puesto que pertenece al espacio estimación. Sin embargo, la suma de cuadrados
residual es
2
SCR = zr+1 + · · · + zn2
b
y, por tanto, será estocásticamente independiente de cualquier estimación ψbi = a0i β.
Esto mismo se puede deducir de la expresión 3.1 ya que ψ b = BPY, mientras que

SCR = Y 0 (I − P)Y = ((I − P)Y)0 (I − P)Y


donde (I − P)Y pertenece al espacio ortogonal de Ω.

Teorema 3.4.2
La distribución de U = (Aβb − Aβ)0 (σ 2 A(X0 X)− A0 )−1 (Aβ
b − Aβ) es una χ2 .
q
Además, U es estocásticamente independiente de SCR/σ 2 cuya distribución es χ2n−r .

Demostración:
Es consecuencia de las propiedades de la distribución normal multivariante y de los teo-
remas 2.5.1 y 3.4.1. 
Dos resultados importantes que se deducen de los teoremas anteriores son:

a) Para el modelo lineal normal y el sistema de q funciones paramétricas estimables


ψ = Aβ se verifica que la distribución de
b − Aβ)0 (A(X0 X)− A0 )−1 (Aβ
(Aβ b − Aβ)/q
F = (3.2)
SCR/(n − r)
es una F con q y n − r grados de libertad, ya que se trata de un cociente de dos
χ2 independientes divididas por sus grados de libertad respectivos. Observemos la
desaparición del parámetro σ 2 desconocido.

49
b) En el caso q = 1, si ψb es la estimación de Gauss-Markov de ψ, entonces ψb ∼
N (ψ, σψb), siendo
σψ2b = a0 (X0 X)− a σ 2 = δ 2 σ 2
luego la distribución de
ψb − ψ √
t= √ n−r (3.3)
δ 2 SCR
es la de una t de Student con n − r grados de libertad. Este resultado se puede
establecer directamente o a partir de 3.2 ya que F1,n−r = t2n−r .

3.5. Intervalos de confianza


by
Consideremos una función paramétrica estimable ψ = a0 β, su estimación MC ψb = a0 β
sea tα tal que
P (−tα < t < tα ) = 1 − α
para una distribución t de Student con n − r grados de libertad. Entonces, de la distri-
bución 3.3 deducimos que
!
ψb − ψ √
P −tα < √ n − r < tα = 1 − α
δ 2 SCR

y despejando obtenemos
r r !
δ 2 SCR δ 2 SCR
P ψb − tα < ψ < ψb + tα =1−α
n−r n−r

Por lo tanto r r
δ 2 SCR δ 2 SCR
ψb − tα < ψ < ψb + tα
n−r n−r
es decir
b ± tα [a0 (X0 X)− a σ
a0 β b2 ]1/2 (3.4)
es un intervalo de confianza para la función paramétrica estimable ψ = a0 β, con coeficiente
de confianza 1 − α.
Por otra parte, como SCR/σ 2 sigue una χ2n−r tenemos

P (a < SCR/σ 2 < b) = 1 − α

donde a y b son tales que

P (χ2n−r ≤ a) = α/2 P (χ2n−r > b) = α/2

Deducimos entonces que


 
SCR SCR
P < σ2 < =1−α (3.5)
b a

define un intervalo de confianza para la varianza σ 2 del modelo lineal normal, con coefi-
ciente de confianza 1 − α.

50
3.6. Ejercicios
Ejercicio 3.1
Sea ψ una función paramétrica estimable y ψb1 , ψb2 dos estimadores insesgados, estocásti-
camente independientes, de varianzas σ12 y σ22 . Hallar la combinación lineal de ψb1 , ψb2 cuya
varianza es mı́nima y además es insesgado.

Ejercicio 3.2
En un modelo lineal, la matriz de diseño es
 
1 1 1 1 1
 1 0 1 0 0 
 
 1 1 1 0 0 
1 0 1 1 1
Hallar la expresión general de las funciones paramétricas estimables.

Ejercicio 3.3
Probar que
ψb = b0 Y b = ψ = a0 β
E(ψ)
siendo b combinación lineal de las columnas de X, implica que a es combinación lineal
de las filas de X.

Ejercicio 3.4
Probar que toda combinación lineal de funciones paramétricas estimables es también fun-
ción paramétrica estimable y que r = rg X es el número máximo de funciones linealmente
independientes.

Ejercicio 3.5
Si ψb es la estimación de Gauss-Markov, probar que la expresión
ψb = c1 ȳ1 + · · · + ck ȳk
función de las medias de las condiciones experimentales, es única.

Ejercicio 3.6
La matriz de diseño reducida correspondiente a un modelo lineal normal es
 
1 0 1
X= 1 1 0 
0 −1 1
Se sabe además que
ȳ1 = 11 ȳ2 = 10 ȳ3 = 15
n1 = n2 = n3 = 10
Xn1
s21 = (1/n1 ) (yi − ȳ1 )2 = 4,5
i=1
s22 = 6,0 s23 = 4,3
Se pide

51
1) Hallar la expresión general de las estimaciones MC de β.

2) Calcular SCR. ¿Se ajustan los datos al modelo definido por X? (nivel de significación
0,05)

3) Dada la función paramétrica estimable

ψ = β 1 + β3

contrastar la hipótesis H0 : ψ = 3 en los casos:

a) σ 2 varianza del diseño desconocida


b) σ 2 = 5 varianza del diseño conocida

(nivel de significación 0,05)

4) Hallar la función paramétrica estimable ψ tal que

ψb = c1 ȳ1 + c2 ȳ2 + c3 ȳ3

verifica c21 + c22 + c23 = 1 y además ψb es máximo.

Ejercicio 3.7
Consideremos el modelo lineal

y1 = β 1 + β 2 +  1
y2 = β 1 + β 3 +  2
y3 = β 1 + β 2 +  3

Se pide:

1) ¿Es la función paramétrica


ψ = β 1 + β2 + β3
estimable?

2) Probar que toda función paramétrica

ψ = a 1 β1 + a 2 β2 + a 3 β3

es estimable si y sólo si a1 = a2 + a3 .

Ejercicio 3.8
Consideremos el modelo lineal
y1 = µ + α 1 + β 1 + 1
y2 = µ + α 1 + β 2 + 2
y3 = µ + α 2 + β 1 + 3
y4 = µ + α 2 + β 2 + 4
y5 = µ + α 3 + β 1 + 5
y6 = µ + α 3 + β 2 + 6

52
(a) ¿Cuando es λ0 µ + λ1 α1 + λ2 α2 + λ3 α3 + λ4 β1 + λ5 β2 estimable?
(b) ¿Es α1 + α2 estimable?
(c) ¿Es β1 − β2 estimable?
(d) ¿Es µ + α1 estimable?
(e) ¿Es 6µ + 2α1 + 2α2 + 2α3 + 3β1 + 3β2 estimable?
(f) ¿Es α1 − 2α2 + α3 estimable?
(g) Hallar la covarianza entre los estimadores lineales MC de las funciones paramétricas
β1 − β2 y α1 − α2 , si éstas son estimables.
(h) Hallar la dimensión del espacio paramétrico.
(i) Obtener una expresión del espacio de los errores.

Ejercicio 3.9
Cuatro objetos A, B, C, D están involucrados en un experimento de pesado. Todos reu-
nidos pesan y1 gramos. Cuando A y C se ponen en el plato izquierdo de la balanza y B
y D se ponen en el plato derecho, un peso de y2 gramos es necesario en el plato derecho
para equilibrar la balanza. Con A y B en el plato izquierdo y C, D en el plato derecho,
y3 gramos son necesarios en el plato derecho y, finalmente, con A, D en el plato izquierdo
y B, C en el plato derecho, y4 gramos son necesarios en la derecha para equilibrar. Si las
observaciones y1 , y2 , y3 , y4 son todas con errores incorrelacionados y con varianza común
σ 2 , obtener la estimación BLUE del peso total de los cuatro objetos y su varianza.

Ejercicio 3.10
Con el modelo lineal
y1 = θ1 + θ5 + 1
y2 = θ2 + θ5 + 2
y3 = θ3 + θ6 + 3
y4 = θ4 + θ6 + 4
y5 = θ1 + θ7 + 5
y6 = θ3 + θ7 + 6
y7 = θ2 + θ8 + 7
y8 = θ4 + θ8 + 8
contestar las siguientes preguntas:

(a) ¿Cuantas funciones paramétricas son estimables? Obtener el conjunto completo de


todas ellas.
(b) Probar que θ1 − θ2 es estimable. Calcular su estimador lineal MC y su varianza.
(c) Probar que θ1 + θ2 no es estimable.
(d) Hallar cuatro estimadores insesgados diferentes de θ1 − θ2 y calcular sus varianzas.
Compararlas con la varianza del estimador MC.

53
(e) Hallar un estimador insesgado de la varianza de los errores σ 2 .

Ejercicio 3.11
Diremos que el estimador lineal b0 Y pertenece al espacio error si E(b0 Y) = 0. Probar
que la covarianza entre b0 Y y todo estimador de Gauss-Markov ψb = a0 β es siempre cero.

Ejercicio 3.12
Consideremos el modelo lineal normal Y = Xβ + , siendo rg X = r. Sea X = U∆V 0
una descomposición en valores singulares de X. Se pide:

1) Expresar la estimación MC de β en términos de U, ∆, V y Y.

2) Sea ψ = a0 β una función paramétrica. Probar que ψ es estimable si y sólo si se


verifica
a0 = b 0 V 0
para algún vector b.

54
Capı́tulo 4

Complementos de estimación

En este capı́tulo se presentan algunas extensiones del método de los mı́nimos cuadrados.
Estos complementos no son estrictamente necesarios para continuar con el desarrollo de
la teorı́a de los modelos lineales y, en particular, para el contraste de hipótesis que se
explica en el capı́tulo 5. En una primera lectura de este libro se puede pasar directamente
a ese capı́tulo.

4.1. Ampliar un modelo con más variables regresoras


4.1.1. Una variable extra
Supongamos que después de ajustar el modelo lineal

E(Y) = Xβ var(Y) = σ 2 I

decidimos introducir una nueva variable regresora con las mismas observaciones que ya
tenı́amos.
Sean x(i) , i = 1, . . . , m las columnas de la matriz X n × m de rango m de modo que

E(Y) = Xβ = (x(1) , . . . , x(m) )β = x(1) β1 + · · · + x(m) βm

La inclusión de la nueva variable regresora x(m+1) proporciona un modelo ampliado

G : E(Y) = x(1) β1 + · · · + x(m) βm + x(m+1) βm+1 = Xβ + x(m+1) βm+1 = Gγ

donde la matriz G = (x(1) , . . . , x(m) , x(m+1) ) es n × (m + 1) de rango m + 1.


Para hallar la estimación de los m+1 parámetros γ = (β1 , . . . , βm , βm+1 )0 podemos hacerlo
directamente como

b G = (G0 G)−1 G0 Y
γ γ G ) = σ 2 (G0 G)−1
var(b

o a partir del modelo original que ya hemos resuelto. Vamos a ver el desarrollo de esta
segunda opción que proporciona unos cálculos más simples.
Partimos de las ecuaciones normales del modelo ampliado G0 Gbγ G = G0 Y que podemos
descomponer ası́
b G + X0 x(m+1) βbm+1 = X0 Y
X0 Xβ
b G + x0
x0(m+1) Xβ b 0
(m+1) x(m+1) βm+1 = x(m+1) Y

55
De la primera ecuación tenemos
b G = (X0 X)−1 X0 (Y − x(m+1) βbm+1 ) = β
β b − f βbm+1 (4.1)

donde f = (X0 X)−1 X0 x(m+1) , y sustituyendo en la segunda

x0(m+1) x(m+1) βbm+1 = x0(m+1) Y − x0(m+1) X(X0 X)−1 X0 (Y − x(m+1) βbm+1 )

es decir

x0(m+1) (I − X(X0 X)−1 X0 )x(m+1) βbm+1 = x0(m+1) (I − X(X0 X)−1 X0 )Y

de manera que

βbm+1 = [x0(m+1) (I − P)x(m+1) ]−1 x0(m+1) (I − P)Y = gx0(m+1) (I − P)Y (4.2)

donde g = [x0(m+1) (I − P)x(m+1) ]−1 es un escalar.


Observemos que ahora este resultado se puede sustituir en la ecuación 4.1 de modo que
b G queda determinado.
β
Por otra parte
b G − x(m+1) βbm+1 = Y − X(X0 X)−1 X0 (Y − x(m+1) βbm+1 ) − x(m+1) βbm+1
Y − Xβ
= (I − X(X0 X)−1 X0 )(Y − x(m+1) βbm+1 )
= (I − P)(Y − x(m+1) βbm+1 )
de manera que la suma de cuadrados de los residuos para el modelo ampliado es
γ G )0 (Y − Gb
SCRG = (Y − Gb γ G)
b G − x(m+1) βbm+1 )0 (Y − Xβ
= (Y − Xβ b G − x(m+1) βbm+1 )
= (Y − x(m+1) βbm+1 )0 (I − P)(Y − x(m+1) βbm+1 )
ya que I − P es simétrica e idempotente.
Si desarrollamos esta expresión se obtiene

SCRG = Y0 (I − P)Y − Y 0 (I − P)x(m+1) βbm+1


− x0 (I − P)Y βbm+1 + x0
(m+1) (I − P)x(m+1) βb2
(m+1) m+1

= Y0 (I − P)Y − x0(m+1) (I − P)Y βbm+1


− [x0(m+1) (I − P)Y − x0(m+1) (I − P)x(m+1) βbm+1 ]βbm+1

y por 4.2 resulta


SCRG = SCR − x0(m+1) (I − P)Y βbm+1 (4.3)
En cuanto a las varianzas y covarianzas de los estimadores se tiene lo siguiente: A partir
de la ecuación 4.2 tenemos

var(βbm+1 ) = σ 2 (x0(m+1) (I − P)x(m+1) )−1 = σ 2 g

Además
b βbm+1 ) = cov[(X0 X)−1 X0 Y, gx0
cov(β, (m+1) (I − P)Y]

= σ 2 g(X0 X)−1 X0 (I − P)x(m+1) = 0

56
b y βbm+1
ya que X0 (I − P) = 0. Esto permite calcular la covarianza entre β G

b G , βbm+1 ) = cov[β
cov(β b − f βbm+1 , βbm+1 ]
b βbm+1 ) − f var(βbm+1 )
= cov(β,
= 0 − f σ2g

Finalmente
b G ) = var(β
var(β b − f βbm+1 )
b − 2cov(β,
= var(β) b f βbm+1 ) + var(f βbm+1 )
= var(β)b − 2cov(β,b βbm+1 )f 0 + f var(βbm+1 )f 0
= σ 2 [(X0 X)−1 + gff 0 ]

En resumen  
2 (X0 X)−1 + gff 0 −gf
var(b
γ G) = σ (4.4)
−gf 0 g
donde g = [x0(m+1) (I − P)x(m+1) ]−1 y f = (X0 X)−1 X0 x(m+1) .
En consecuencia, las fórmulas 4.1, 4.2, 4.3 y 4.4 demuestran que es posible calcular todos
los elementos del modelo ampliado a partir del modelo original, mediante productos de
matrices en los que interviene únicamente la matriz (X0 X)−1 original.

4.1.2. Una interpretación


Partimos del modelo

Y = Xβ +  E() = 0, var() = σ 2 I (4.5)

donde X = (x(1) , . . . , x(m) ) y β = (β1 , . . . , βm )0 , y queremos ampliar el modelo con una


nueva variable regresora para llegar al modelo

G : Y = Xβ + x(m+1) βm+1 + G = Gγ + G (4.6)

donde G = (x(1) , . . . , x(m) , x(m+1) ) y γ = (β1 , . . . , βm , βm+1 )0 .


b la estimación MC en el modelo original, de forma que
Consideremos β
b +e
Y = Xβ (4.7)

donde e es el vector de residuos o parte de Y no explicada linealmente por X.


Sea b
c la estimación MC en el modelo lineal x(m+1) = Xc + m+1 , de forma que

x(m+1) = Xb
c + em+1 (4.8)

donde el vector de residuos em+1 representa la parte de x(m+1) no explicada linealmente


por las variables anteriores.
Consideremos ahora la regresión lineal simple de  (parte de Y no explicada por X) con
m+1 (parte de x(m+1) independiente de X)

e = em+1 db + e∗ (4.9)

57
Teorema 4.1.1 Si consideramos las estimaciones MC que se han calculado en las ecua-
ciones 4.7, 4.8 y 4.9, resulta que la estimación MC de βm+1 en el modelo ampliado 4.6 es
βbm+1 = d.
b

Demostración:
Si sustituimos 4.9 en la ecuación 4.7, se obtiene
b + em+1 db + e∗ = Xβ
Y = Xβ b + (x(m+1) − Xb
c)db + e∗

La solución MC del modelo ampliado es


b G + x(m+1) βbm+1 + eG
Y = Xβ

bG = β
donde β b − (X0 X)−1 X0 x(m+1) βbm+1 como hemos visto en 4.1. De forma que

b + (x(m+1) − X(X0 X)−1 X0 x(m+1) )βbm+1 + eG


Y = Xβ

c = (X0 X)−1 X0 x(m+1) , de manera que


Pero por 4.8 sabemos que b

b + (x(m+1) − Xb
Y = Xβ c)βbm+1 + eG

y entonces βbm+1 = db y eG = e∗ . 
En el gráfico se dibuja la consecuencia de añadir a un modelo con una variable regresora
x1 una nueva variable x2 .

En este gráfico tenemos los siguientes datos:

ED = em+1 c AB = em+1 db OB = x1 βb
OD = x1b

de forma que

ED||AB BC ⊥ OB ED ⊥ OD AB ⊥ OB AC ⊥ OA

y en especial
b =−
Y
−→ −→
OB + AB
Como conclusión podemos decir que cualquier coeficiente estimado βbi puede interpretarse
como la pendiente de la recta que relaciona los residuos de la regresión de Y respecto a

58
todas las otras variables, es decir, la parte de Y no explicada por el resto de las variables
regresoras, con la aportación diferencial de xi o parte de xi no común con las demás
variables regresoras que se obtiene tomando el residuo de la regresión de xi sobre las
restantes x.
Observemos que cuando x(m+1) es independiente de X el paso 4.8 no es posible. En esta
situación
Y = Xβ b +e
e = x(m+1) βbm+1 + eG
de modo que la solución del modelo ampliado es
b + x(m+1) βbm+1 + eG
Y = Xβ

Esto significa que si excluimos del modelo variables regresoras independientes, esto no
afecta a la estimación de los parámetros βi , pero si excluimos variables relevantes esto
afecta considerablemente a las estimaciones.

4.1.3. Más variables


Supongamos que después de ajustar el modelo lineal
E(Y) = Xβ var(Y) = σ 2 I
decidimos introducir un grupo de variables regresoras. El modelo es ahora
 
 β
G : E(Y) = Xβ + Zδ = X Z = Wγ
δ
y vamos a suponer que las matrices son de rango máximo, de forma que X es n × m de
rango m, Z es n × t de rango t, y las columnas de Z son linealmente independientes de
las columnas de X, de forma que W es n × (m + t) de rango m + t.
b G de γ, podemos hacerlo a partir
Si queremos hallar el estimador mı́nimo cuadrático γ
del modelo completo G
b G = (W0 W)−1 W0 Y
γ γ G ) = σ 2 (W0 W)−1
var(b
o reducir los cálculos utilizando los resultados del modelo inicial. El siguiente teorema
resume las principales propiedades de esta segunda propuesta.

59
Teorema 4.1.2
Consideremos las matrices P = X(X0 X)−1 X0 , PG = W(W0 W)−1 W0 , L = (X0 X)−1 X0 Z,
M = (Z0 (I − P)Z)−1 y el vector !
bG
β
bG =
γ bG
δ
Entonces,
b G = (X0 X)−1 X0 (Y − Zδ
(i) β bG ) = β
b − Lδ
bG

bG = (Z0 (I − P)Z)−1 Z0 (I − P)Y


(ii) δ
bG )0 (I − P)(Y − Zδ
(iii) SCRG = Y0 (I − PG )Y = (Y − Zδ bG )

b0 Z0 (I − P)Y
(iv) SCRG = SCR − δ G

(v)  
2 (X0 X)−1 + LML0 −LM
var(b
γ G) = σ
−ML0 M

Demostración:
Se puede reseguir sin mayor dificultad todos los cálculos que hemos realizado en el aparta-
do anterior. El único detalle importante es que debe demostrarse que la matriz Z0 (I−P)Z
es inversible. Este resultado y los detalles de la demostración pueden verse en Seber [61,
pág. 65]. 
0
A partir de estas fórmulas se deduce que, una vez invertida la matriz X X, podemos hallar
b G y su matriz de varianzas-covarianzas var(b
γ γ G ) simplemente invirtiendo Z0 (I − P)Z t × t
y no se necesita calcular la inversa de la matriz W 0 W (m + t) × (m + t).
Estos resultados se pueden utilizar de diversas formas en modelos de Análisis de la Va-
rianza y de Análisis de la Covarianza. Para introducir un grupo de variables en un modelo
de regresión es mejor hacerlo de una en una, lo que se llama regresión paso a paso.

4.2. Mı́nimos cuadrados generalizados


Hasta este momento se ha presentado la teorı́a de los modelos lineales Y = Xβ +  con
la asunción de las hipótesis E() = 0 y var() = σ 2 I. Vamos ahora a estudiar lo que
ocurre cuando permitimos a los i ser correlacionados. En particular, vamos a considerar
el modelo lineal más general

Y = Xβ +  E() = 0, var() = σ 2 V (4.10)

donde V es una matriz n × n definida positiva con valores plenamente conocidos.


Dado que V es definida positiva, existe una matriz n × n K no singular tal que V = KK0
y con la que podemos transformar el modelo anterior

K−1 Y = K−1 Xβ + K−1 


(4.11)
Z = Bβ + η

60
donde B es n × r, rgB = rgX y además
E(η) = K−1 E() = 0
var(η) = σ 2 K−1 V(K−1 )0 = σ 2 I
de forma que el modelo 4.11 verifica las condiciones del modelo lineal ordinario. Ası́ es
posible calcular el estimador MC de β que minimiza η 0 η.

Definición 4.2.1
Un estimador β ∗ es un estimador MCG de β para el modelo 4.10 si y sólo si β ∗ es un
estimador MC ordinario para el modelo 4.11. En el caso particular de que la matriz V
sea diagonal se llama MC ponderado.
En consecuencia, un estimador MCG β ∗ de β satisface la ecuación
B(B0 B)− B0 Z = Bβ ∗
K−1 X((K−1 X)0 K−1 X)− (K−1 X)0 K−1 Y = K−1 Xβ ∗
X(X0 V−1 X)− X0 V−1 Y = Xβ ∗
Como un estimador MCG es simplemente un estimador MC ordinario del modelo trans-
formado, es de esperar que tenga las mismas propiedades óptimas.
Propiedades

(a) Si X es de rango máximo, la estimación MC se puede obtener de las ecuaciones


normales
β ∗ = (B0 B)−1 B0 Z = (X0 V−1 X)−1 X0 V−1 Y
con las siguientes propiedades
E(β ∗ ) = (X0 V−1 X)−1 X0 V−1 (Xβ) = β
var(β ∗ ) = σ 2 (B0 B)−1 = σ 2 (X0 V−1 X)−1
SCR = (Z − Bβ ∗ )0 (Z − Bβ ∗ ) = (Y − Xβ ∗ )0 V−1 (Y − Xβ ∗ )

(b) Una función paramétrica a0 β es estimable en el modelo 4.10 si y sólo si es estimable


en el modelo 4.11.
En efecto, si a0 β es estimable en el modelo 4.10 podemos escribir
a0 = b0 X = (b0 K)K−1 X = c0 B
luego también es estimable en el modelo 4.11.
Si a0 β es estimable en el modelo 4.11, entonces
a0 = c0 B = c0 K−1 X = (c0 K−1 )X = b0 X
luego es estimable en el modelo 4.10.
(c) Para una f.p.e. a0 β, el estimador MCG es el mejor estimador lineal, en el sentido
de insesgado y de varianza mı́nima, y además es único.
Aplicando el teorema 3.2.1 de Gauss-Markov al modelo 4.11, sabemos que a0 β ∗ es
el estimador lineal insesgado y de mı́nima varianza entre todas las combinaciones
lineales del vector K−1 Y. Sin embargo, cualquier combinación lineal de Y se puede
obtener de K−1 Y porque K−1 es inversible. Luego el estimador MCG es el mejor.
También por una propiedad anterior sabemos que es único.

61
Para un modelo de rango no máximo y en el caso ordinario hemos visto que un estimador
b donde P es el operador proyección ortogonal sobre
debe verificar la ecuación PY = Xβ,
el subespacio hXi. Veamos una propiedad similar en el caso generalizado.

Teorema 4.2.1
Un estimador MCG β ∗ en el modelo 4.10 verifica la ecuación AY = Xβ ∗ donde A =
X(X0 V−1 X)− X0 V−1 es una matriz idempotente pero no, en general, simétrica.

Demostración:
Se trata de probar que A es una especie de operador proyección sobre hXi aunque no
necesariamente ortogonal.
Por la definición de estimador MCG ya hemos visto que

X(X0 V−1 X)− X0 V−1 Y = AY = Xβ ∗

Es fácil ver que AA = A de manera que A es idempotente y no necesariamente simétrica,


veamos ahora que A es un operador proyección sobre hXi, en el sentido de que hAi = hXi
de modo que AY ∈ hXi.
La proyección ortogonal sobre hK−1 Xi es

K−1 X[(K−1 X)0 (K−1 X)]− (K−1 X)0

Por la definición de proyección se verifica

K−1 X[(K−1 X)0 (K−1 X)]− (K−1 X)0 K−1 X = K−1 X


K−1 AX = K−1 X
AX = X

y en consecuencia hXi ⊂ hAi. Pero también tenemos que

A = X[(X0 V−1 X)− X0 V−1 ]

y por tanto hAi ⊂ hXi. 



Para una función paramétrica estimable a0 β con a0 = b0 X, el estimador MCG es a0 β =
b0 AY. Vamos a calcular su varianza.
En primer lugar

var(Xβ ∗ ) = var(AY) = σ 2 AVA0


= σ 2 AV
= σ 2 X(X0 V−1 X)− X0

de forma que si a0 β es estimable

var(a0 β ∗ ) = σ 2 a0 (X0 V−1 X)− a

También es necesario obtener un estimador para σ 2 .


A partir del modelo 4.11

SCR = (K−1 Y)0 [I − K−1 X((K−1 X)0 (K−1 X))− ]K−1 Y


= Y0 (I − A)0 V−1 (I − A)Y

62
y como rg(K−1 X) = rg(X), tenemos

σb2 = Y0 (I − A)0 V−1 (I − A)Y/(n − r)

Además, cuando asumimos la hipótesis de normalidad  ∼ N (0, σ 2 V) se verifican otras


propiedades también heredadas del caso ordinario. En especial, cualquier estimador MCG
de β es de máxima verosimilitud. También, para cualquier función estimable a0 β el esti-
mador MCG es insesgado de varianza mı́nima.
En cuanto a las distribuciones asociadas, si  tiene distribución normal, la SCR es inde-
pendiente de K−1 Xβ ∗ , ya que cov(Bβ ∗ , Z − Bβ ∗ ) = 0, y en consecuencia independiente
de Xβ ∗ .
Es evidente que Xβ ∗ se distribuye normalmente y se demuestra que SCR/σ 2 ∼ χ2 .
Ası́ pues, para una función paramétrica estimable a0 β

a0 β ∗ − a 0 β
∼ tn−r
[σb2 a0 (X0 V−1 X)a]1/2

lo que se puede utilizar para el cálculo de intervalos de confianza de a0 β o en contrastes


de hipótesis.
Por último nos podemos preguntar si la estimación generalizada β ∗ puede coincidir con
la ordinaria βb y en qué circunstancias. La respuesta es que ambas estimaciones coinciden
si y sólo si hV−1 Xi = hXi que es equivalente a hVXi = hXi. La demostración puede
verse en [61, pág. 63].

4.3. Otros métodos de estimación


4.3.1. Estimación sesgada
Dado el modelo lineal ordinario Y = Xβ + , donde E() = 0 y var() = σ 2 I, sabemos
que el estimador MC a0 βb es el estimador insesgado de varianza mı́nima para una f.p.e. a0 β
cuando  tiene distribución normal, y el estimador lineal insesgado de varianza mı́nima
sin la hipótesis de normalidad. Pero el hecho de ser un estimador de varianza mı́nima
no garantiza que ésta sea realmente pequeña. Ya hemos visto en el apartado 3.3 cómo se
calcula dicha varianza en función de los valores propios de la matriz X0 X y una posible
solución propuesta por Silvey. Veamos ahora otra propuesta cuando en un modelo de
rango máximo, X0 X está cerca de la singularidad, es decir, cuando uno o más de sus
valores propios son casi cero.
Consideremos la llamada varianza total de los estimadores de los parámetros en un modelo
m
X m
X
var(βbi ) = σ 2 tr[(X0 X)−1 ] = σ 2 λ−1 2 −1
i > σ λm
i=1 i=1

donde λm > 0 es el más pequeño de los valores propios de X0 X. En la práctica, aunque la


matriz X sea de rango máximo, puede ocurrir que λm sea muy pequeño y en consecuencia
provocar que la varianza total sea muy grande.

63
Para solucionar este problema Hoerl y Kennard (1970) introducen los ridge estimators

e (k) = (X0 X + kI)−1 X0 Y


β
= (X0 X + kI)−1 X0 Xβb
b
= (I + k(X0 X)−1 )−1 β
b
= Kβ

e es un estimador sesgado
donde k ≥ 0 es un escalar a elegir de forma que, si no es cero, β (k)
de β.
Las principales razones para la utilización de estos estimadores son:
e (k) y de sus correspondientes SCR al variar k
Los gráficos de los componentes de β
permiten estudiar la enfermedad de X.

Es posible elegir un valor de k tal que los coeficientes de regresión tengan valores
razonables y la SCR no sea muy grande.

Se ha demostrado que es posible hallar un k que, por un pequeño incremento del


sesgo, reduce la varianza total y, en consecuencia, el error cuadrático medio total.

El estudio de generalizaciones de estos estimadores y sus propiedades ha tenido bastante


éxito.

4.3.2. Estimación robusta


En el capı́tulo anterior se ha demostrado que, mientras se verifique la hipótesis de nor-
malidad para las observaciones, los estimadores obtenidos por el método de los mı́nimos
cuadrados gozan de muy buenas propiedades. Sin embargo también se han estudiado los
resultados cuando las observaciones siguen distribuciones distintas de la normal y se ha
constatado que el método de los mı́nimos cuadrados falla en muchos aspectos. En estos
casos, una posibilidad es la utilización de estimadores robustos de localización.
P
Otra alternativa es minimizar i |i | con respecto a β. Este es un problema de minimi-
zación de una norma L1 que se puede reducir a un problema de programación lineal y a
un procedimiento similar al método del simplex, aunque la solución no siempre es úni-
ca y algunos de los algoritmos proporcionan estimadores sesgados. Otros procedimientos
iterativos propuestos no tienen resuelta la cuestión de la convergencia y el sesgo.

4.3.3. Más posibilidades


También se ha estudiado el problema de la estimación mı́nimo cuadrática sujeta a las
restricciones βi ≥ 0, i = 1, . . . , m.
Por otra parte, en algunos problemas de regresión, los datos de la variable respuesta
pueden ser censurados, es decir, los valores de algunas observaciones sólo se conocen si
son superiores (o inferiores) a algún valor dado. Esto se suele producir en problemas
donde la variable observada es el tiempo de vida. En estos casos el método clásico de los
mı́nimos cuadrados no sirve y se han estudiado otros procedimientos.

64
Capı́tulo 5

Contraste de hipótesis lineales

5.1. Hipótesis lineales contrastables


Consideremos el modelo lineal Y = Xβ + , donde E(Y) = Xβ y var(Y) = σ 2 I.
Una hipótesis lineal consiste en una o varias restricciones lineales planteadas sobre los
parámetros β. En un diseño de rango máximo rg X = m vamos a ver que cualquier
hipótesis lineal es contrastable (testable o demostrable), es decir, es posible encontrar un
estadı́stico (el test F del teorema 5.3.1) mediante el cual podemos decidir si se rechaza o
acepta la hipótesis. Si rg X = r < m, entonces pueden existir hipótesis estadı́sticamente
no contrastables.

Definición 5.1.1
Una hipótesis lineal de rango q sobre los parámetros β es un conjunto de restricciones
lineales
ai1 β1 + · · · + aim βm = 0 i = 1, . . . , q
Si escribimos la matriz de la hipótesis como
 
a11 · · · a1m
 .. 
A =  ... . . . .  rg A = q
aq1 · · · aqm

entonces las restricciones se resumen en

H0 : Aβ = 0

Una hipótesis se dice que es contrastable o demostrable si el conjunto Aβ es un sistema


de funciones paramétricas estimables. Entonces, las filas de A son combinación lineal de
las filas de la matriz de diseño X, es decir, que existe una matriz B de tamaño q × n tal
que
A = BX
También B puede ser q × k si consideramos la matriz de diseño reducida X R k × m.

Cuando X no es de rango máximo, un conjunto de restricciones Aβ = 0 donde las


filas de A son linealmente independientes de las filas de X no forman una alternativa al
modelo general, en el sentido de un modelo más sencillo. En realidad son restricciones que
permiten identificar mejor las estimaciones indeterminadas que resultan de las ecuaciones

65
normales. Por ello exigimos que las filas de A sean linealmente dependientes de las filas de
X y que el rango de la matriz A q × m sea q. De hecho, cualquier ecuación a0i β = 0 para
la que a0i sea linealmente independiente de las filas de X puede ignorarse y la hipótesis
contrastable estará formada por el resto de las ecuaciones.
Una caracterización para saber si una hipótesis lineal es contrastable es

A(X0 X)− X0 X = A

Este resultado es una generalización del que se ha demostrado en la página 42 para una
función paramétrica estimable (ver ejercicio 5.3).

5.2. El modelo lineal de la hipótesis


El modelo lineal inicial Y = Xβ + , que se supone válido, constituye la hipótesis alter-
nativa
H1 : Y = Xβ +  rg X = r
Por otra parte, el modelo lineal junto con la restricción lineal contrastable forman la
hipótesis nula
H0 : Y = Xβ +  Aβ = 0 rg A = q
Pero esta restricción lineal transforma los parámetros β y la matriz de diseño X en un
nuevo modelo llamado el modelo lineal de la hipótesis
e +
H0 : Y = Xθ e =r−q >0
rg X

que es otra forma de plantear la hipótesis nula.


Existen varios procedimientos para estimar β o θ bajo la hipótesis nula y calcular la suma
de cuadrados residual.

Método 1

Si la hipótesis es contrastable, las filas de A son combinación lineal de las filas de X. El


subespacio hA0 i generado por las filas de A está incluido en el subespacio hX0 i generado
por las filas de X. Existe entonces una base ortogonal

v1 , . . . , vq , vq+1 , . . . , vr , vr+1 . . . , vm

tal que
hA0 i = hv1 , . . . , vq i ⊂ hv1 , . . . , vq , vq+1 , . . . , vr i = hX0 i ⊂ Rm
Sea entonces C una matriz m × r 0 , con r0 = r − q, construida tomando los vectores
columna vq+1 , . . . , vr
C = (vq+1 , . . . , vr )
y definamos el vector paramétrico θ = (θ1 , . . . , θr0 )0 tal que

β = Cθ

Los parámetros θ constituyen la reparametrización inducida por la hipótesis H 0 , pues

Aβ = ACθ = 0θ = 0

66
El modelo Y = Xβ +  bajo la restricción Aβ = 0, se convierte en
e
E(Y) = XCθ = Xθ

y la matriz de diseño se transforma en


e = XC
X

relación también válida para la matriz de diseño reducida


e R = XR C
X

La estimación MC de los parámetros θ es


b = (X
θ e 0 X)
e −1 X
e 0Y

La suma de cuadrados residual bajo la restricción Aβ = 0 es

b 0 (Y − X
e θ)
SCRH = mı́n (Y − Xβ)0 (Y − Xβ) = (Y − X b
e θ)
Aβ=0

b0 X
= Y0 Y − θ e 0Y

Método 2

Introduzcamos q multiplicadores de Lagrange

λ = (λ1 , . . . , λq )0

uno para cada restricción lineal. El mı́nimo restringido de (Y − Xβ)0 (Y − Xβ) se halla
igualando a cero las derivadas respecto a cada βi de
n q
X X
2
(yi − xi1 β1 − · · · − xim βm ) + λi (ai1 β1 + · · · + aim βm )
i=1 i=1

En notación matricial, donde ahora X es la matriz ampliada, escribiremos

f (β, λ) = (Y − Xβ)0 (Y − Xβ) + (β 0 A0 )λ

∂f /∂β = −2X0 Y + 2X0 Xβ + A0 λ = 0


1
X0 Xβ = X0 Y − A0 λ (5.1)
2
La solución es

b H = (X0 X)− X0 Y − 1 (X0 X)− A0 λ


β bH
2
=βb − 1 (X0 X)− A0 λ
bH
2
b H = 0, resulta
y como Aβ
b − 1 A(X0 X)− A0 λ
0 = Aβ bH
2

67
La matriz A(X0 X)− A0 posee inversa, puesto que es de rango q, ası́
1b b
λH = (A(X0 X)− A0 )−1 (Aβ)
2
y finalmente tenemos que la estimación MC restringida es
bH = β
β b − (X0 X)− A0 (A(X0 X)− A0 )−1 Aβ
b (5.2)

La suma de cuadrados residual es


b H )0 (Y − Xβ
SCRH = (Y − Xβ bH )

Hemos visto (teorema 2.5.1) que la forma canónica de la suma de cuadrados residual bajo
el modelo sin restricciones es
2
SCR = zr+1 + · · · + zn2

La hipótesis H0 : Aβ = 0, que implica Xe = XC, significa que las columnas de X e son


combinación lineal de las de X. Luego los subespacios generados por dichas columnas
verifican
e ⊂ hXi ⊂ Rn
hXi (5.3)
Podemos entonces construir una base ortogonal

u1 , . . . , ur0 , ur0 +1 , . . . , ur , ur+1 , . . . , un

tal que
e = hu1 , . . . , ur0 i ⊂ hXi = hu1 , . . . , ur i
hXi
Entonces, si se cumple la hipótesis, por idéntico razonamiento al seguido en el teorema
2.5.1 tendremos que la forma canónica de la suma de cuadrados residual bajo el modelo
H0 es
SCRH = zr20 +1 + · · · + zn2
Además, siempre se verificará que SCRH > SCR pues
r
X
SCRH − SCR = zi2
r 0 +1

Ejemplo 5.2.1
Consideremos el siguiente modelo lineal normal
y1 = β 1 + β 2 +  1
y2 = 2β2 + 2
y3 = −β1 + β2 + 3
y la hipótesis lineal
H0 : β1 = 2β2
Las matrices de diseño y de la hipótesis son
 
1 1
X= 0 2  A = (1 − 2) rg X = 2 rg A = 1
−1 1

68
Como A es combinación lineal de las filas de X, H0 es una hipótesis contrastable. Además,
en este caso particular el rango de la matriz de diseño es máximo, de modo que toda
hipótesis lineal es contrastable.
Con unos sencillos cálculos, tenemos:
Ecuaciones normales

2β1 + 0β2 = y1 − y3 0β1 + 6β2 = y1 + 2y2 + y3

Estimaciones MC
βb1 = (y1 − y3 )/2 βb2 = (y1 + 2y2 + y3 )/6
Suma de cuadrados residual

SCR = y12 + y22 + y32 − 2βb12 − 6βb22

Si consideramos los vectores columna

v1 = (1, −2)0 v2 = (2, 1)0

que constituyen una base ortogonal de R2 , se verifica

hA0 i = hv1 i ⊂ hX0 i = hv1 , v2 i

Podemos entonces tomar la matriz

C = (2, 1)0

que verifica AC = 0. La reparametrización β = Cθ es

β1 = 2θ β2 = θ

El modelo bajo la hipótesis es ahora

y1 = 3θ + 1
y2 = 2θ + 2
y3 = −θ + 3

Finalmente
θb = (3y1 + 2y2 − y3 )/14
SCRH = y12 + y22 + y32 − 14 θb2

5.3. Teorema fundamental del Análisis de la Varian-


za
En esta sección vamos a deducir el test F que nos permite decidir sobre la aceptación de
una hipótesis lineal contrastable.

69
Teorema 5.3.1
Sea Y = Xβ+ un modelo lineal normal, de manera que Y ∼ N (Xβ, σ 2 I). Consideremos
una hipótesis lineal contrastable

H0 : Aβ = 0 rango A = q

entonces, los estadı́sticos


b 0 (Y − Xβ)
SCR = (Y − Xβ) b
b 0 (Y − X
e θ)
SCRH = (Y − X b
e θ)

verifican:

(i) SCR/σ 2 ∼ χ2n−r

(ii) Si H0 es cierta

SCRH /σ 2 ∼ χ2n−r0 (r0 = r − q)


(SCRH − SCR)/σ 2 ∼ χ2q

(iii) Si H0 es cierta, los estadı́sticos SCRH − SCR y SCR son estocásticamente indepen-
dientes.

(iv) Si H0 es cierta, el estadı́stico


(SCRH − SCR)/q
F = (5.4)
SCR/(n − r)
sigue la distribución F de Fisher-Snedecor con q y n − r grados de libertad.

Demostración:

(i) Aunque este resultado ya se ha establecido en el teorema 3.4.2, nos interesa ahora
su demostración explı́cita. En el teorema 2.5.1 se ha visto que
2
SCR = zr+1 + · · · + zn2

donde las zi son normales, independientes y además E(zi ) = 0, var(zi ) = σ 2 . Luego


SCR/σ 2 es suma de los cuadrados de n − r variables N (0, 1) independientes.

(ii) La forma canónica de la suma de cuadrados residual bajo la restricción Aβ = 0 es

SCRH = zr20 +1 + · · · + zn2

luego análogamente tenemos que SCRH /σ 2 ∼ χ2n−r0 , donde r0 = r − q. Además

SCRH − SCR = zr20 +1 + · · · + zr2

es también una suma de cuadrados en las mismas condiciones.

(iii) Las variables zr0 +1 , . . . , zn son normales e independientes. SCRH − SCR depende de
las q primeras, mientras que SCR depende de las n − r últimas y no hay términos
comunes. Luego son estocásticamente independientes.

70
(iv) Es una consecuencia evidente de los apartados anteriores de este teorema. Si H0 es
cierta, el estadı́stico

[(SCRH − SCR)/σ 2 ]/q (SCRH − SCR)/q


F = 2
=
(SCR/σ )/(n − r) SCR/(n − r)

sigue la distribución F de Fisher-Snedecor con q y n − r grados de libertad.


2
Obsérvese que F no depende del parámetro desconocido σ y se puede calcular exclusi-
vamente en función de las observaciones Y.
La expresión de SCR es
0
b X0 Y
SCR = Y 0 (I − P)Y = Y 0 Y − β

Veamos que, del mismo modo, la expresión de SCRH es

b 0 X0 Y
SCRH = Y0 Y − β H

donde βb H es la estimación MC de β restringida a Aβ = 0.


En efecto,

b H )0 (Y − Xβ
SCRH = (Y − Xβ b H ) = Y0 Y − 2Y0 Xβ b 0 X0 Xβ
bH + β bH
H

Además (ver página 67), se verifica

b H = X 0 Y − 1 A0 λ
X0 Xβ bH
2
luego

b +β
SCRH = Y0 Y − 2Y0 Xβ b 0 (X0 Y − 1 A0 λ
bH )
H H
2
bH − 1 β
b H + Y 0 Xβ
= Y0 Y − 2Y0 Xβ b 0 A0 λ
bH
2 H
b H = 0, nos queda
Pero como Aβ

bH
SCRH = Y0 Y − Y0 Xβ

Calculemos ahora SCRH − SCR. Considerando 5.2 tenemos

b0 − β
β b 0 = (Aβ)
b 0 (A(X0 X)− A0 )−1 A(X0 X)−
H

luego

b0 − β
SCRH − SCR = (β b 0 )X0 Y
H
b (A(X0 X)− A0 )−1 A(X0 X)− X0 Y
= (Aβ) 0 (5.5)
b 0 (A(X0 X)− A0 )−1 (Aβ)
= (Aβ) b

71
El estadı́stico F puede escribirse entonces
b 0 (A(X0 X)− A0 )−1 (Aβ)
(Aβ) b
F = (5.6)
qσ b2

donde σ b2 = SCR/(n − r).


Cuando q > 2 es mejor obtener SCR y SCRH directamente por minimización de 0  sin
restricciones y con restricciones, respectivamente. Sin embargo, si q ≤ 2 se puede utilizar
la fórmula 5.6, ya que la matriz a invertir A(X0 X)− A0 es sólo de orden uno o dos.
Obsérvese que si Aβ = 0 es cierta, entonces Aβ b ≈ 0. Luego es probable que F no sea
significativa.
Cuando sea posible, también se puede utilizar la matriz de diseño reducida XR , junto con
las matrices D y Ȳ. Las expresiones son entonces

SCR = Y 0 Y − Ȳ0 DXR (X0R DXR )− X0R DȲ


SCRH − SCR = (Aβ) b
b 0 (A(X0 DXR )− A0 )− (Aβ)
R

El cálculo de ambas cantidades se suele expresar en forma de tabla general del análisis
de la varianza (ver tabla 5.1).

grados de suma de cuadrados


libertad cuadrados medios cociente
Desviación
hipótesis q SCRH − SCR (SCRH − SCR)/q F

Residuo n−r SCR SCR/(n − r)

Tabla 5.1: Tabla general del análisis de la varianza

Criterio de decisión

Si F > Fα se rechaza H0 ; si F ≤ Fα se acepta H0 .

Donde, para un nivel de significación α, Fα se elige


de forma que P (Fq,n−r > Fα ) = α.

Del teorema 5.3.1 deducimos que, si H0 es cierta, entonces

E[(SCRH − SCR)/q] = σ 2

Luego (SCRH −SCR)/q y SCR/(n−r) son dos estimaciones independientes de la varianza


σ 2 . El test F nos indica hasta que punto coinciden. Un valor grande de F indica que la
primera estimación difiere demasiado de la varianza σ 2 y entonces H0 debe ser rechazada.
Se puede demostrar además (ver ejercicio 5.7) que en general

E(SCRH − SCR) = qσ 2 + (Aβ)0 (A(X0 X)− A0 )− (Aβ) (5.7)

72
Ejemplo 5.3.1
Para decidir sobre la hipótesis H0 : β1 = 2β2 en el ejemplo 5.2.1 calcularemos

(SCRH − SCR)/1 −14θb2 + 2βb12 + 6βb22


F = =
SCR/(3 − 2) y12 + y22 + y32 − 2βb12 − 6βb22

Si utilizamos 5.6, se obtiene una expresión más sencilla

(βb1 − 2βb2 )2
F =
(SCR/1)(7/6)

En cualquier caso, se decide por la significación en una distribución F 1,1 con 1 y 1 grados
de libertad.

Ejemplo 5.3.2 Diseño “cross-over” simplificado


Supongamos una experiencia clı́nica en la que se desean comparar dos fármacos a y b,
para combatir una determinada enfermedad. El estado de los pacientes se valora mediante
una cierta variable cuantitativa Y .
En el diseño “cross-over” la experiencia se organiza asignando a N a pacientes el trata-
miento a y a Nb pacientes el tratamiento b, en un primer periodo. En un segundo periodo,
los que tomaban a pasan a tomar b y recı́procamente. En este diseño los datos son de la
forma:

Grupo 1 media varianza

1
PNa
a (primera vez) y11 y12 ... y1Na ȳ1· s21 = (y1i − ȳ1· )2
Na
1
Pi=1
Na
b (después de a) y21 y22 ... y2Na ȳ2· s22 = Na i=1 (y2i − ȳ2· )
2

Grupo 2

1
P Nb
b (primera vez) y31 y32 ... y3Nb ȳ3· s23 = (y3i − ȳ3· )2
Nb
1
Pi=1
Nb
a (después de b) y41 y42 ... y4Nb ȳ4· s24 = Nb i=1 (y4i − ȳ4· )
2

Indicando

µ = media general
α = efecto fármaco a
β = efecto fármaco b
γ = efecto recı́proco entre a y b

se propone el siguiente modelo:

a (primera vez) y1i = µ + α + 1i i = 1, . . . , Na


b (después de a) y2i = µ + β + γ + 2i i = 1, . . . , Na
b (primera vez) y3i = µ + β + 3i i = 1, . . . , Nb
a (después de b) y4i = µ + α + γ + 4i i = 1, . . . , Nb

73
Es decir, cuando sólo se ha tomado un fármaco actúa un solo efecto, pero cuando se ha
tomado uno después del otro actúa entonces un efecto aditivo γ que recoge la mejorı́a del
enfermo que ya ha tomado el primer medicamento.
Tenemos k = 4 condiciones experimentales, que en el “cross-over” simplificado se consi-
deran independientes, y N1 = N2 = Na , N3 = N4 = Nb . El vector de observaciones Y y
la matriz de diseño reducida XR son

Y = (y11 , . . . , y1Na , y21 , . . . , y2Na , y31 , . . . , y3Nb , y41 , . . . , y4Nb )0


 
1 1 0 0
 1 0 1 1 
XR =   1 0 1 0 
 rg XR = 3
1 1 0 1
La hipótesis nula de mayor interés es

H0 : α = β a y b tienen la misma efectividad

que expresada en forma de hipótesis lineal es


 
µ
 α 
H0 : 0 1 −1 0  
 β =0
γ

Como el vector 0 1 −1 0 es combinación lineal de las filas de XR , se trata de una
hipótesis contrastable. Para reparametrizar el diseño bajo H 0 tomaremos como matriz
ortogonal a A  
2/3 0
 1/3 0 
C=  1/3 0 

0 1
Obsérvese que las columnas de C son también combinación lineal de las filas de X R .
Al establecer la relación β = Cθ tendremos
 
θ1
θ=
θ2

siendo θ1 = µ + α = µ + β y θ2 = γ.
Es decir, bajo H0 el diseño reparametrizado depende de dos parámetros:

θ1 : efecto debido a la medicación (común a a y b bajo H0 )


θ2 : efecto recı́proco entre a y b

y la nueva matriz de diseño es


 
1 0
 1 1 
e R = XR C = 
X 
 1 0 
1 1

74
siendo rg X e R = r − t = 3 − 1 = 2.
Si el diseño es balanceado (Na = Nb ), entonces N = 4Na = 4Nb y se puede calcular que
4
!
Na X
SCR = (y1· + y2· − y3· − y4· )2 + Na s2i
4 i=1

con N − 3 grados de libertad


4
!
Na X
SCRH = [(y1· + y2· − y3· − y4· )2 + (y1· − y2· − y3· + y4· )2 ] + Na s2i
4 i=1

con N − 2 grados de libertad.


Luego, si H0 es cierta, bajo el modelo lineal normal, el estadı́stico
(y1· − y2· − y3· + y4· )2
F = Na (4Na − 3)
4 SCR
sigue la distribución F con 1 y N − 3 g.l..
La tabla 5.2 contiene los datos de dos grupos de 10 y 10 enfermos reumáticos a los que se
valoró la variación del dolor respecto del estado inicial, mediante una escala convencional,
con el deseo de comparar dos fármacos antirreumáticos a y b, administrados a lo largo
de dos meses. Se incluye además la tabla del análisis de la varianza para contrastar H 0 .
Grupo 1 Grupo 2

a (mes 1) b (mes 2) b (mes 1) a (mes 2)


17 17 21 10
34 41 20 24
26 26 11 32
10 3 26 26
19 -6 42 52
17 -4 28 28
8 11 3 27
16 16 3 28
13 16 16 21
11 4 -10 42

Tabla 5.2: Datos de los enfermos reumáticos

g.l. suma de cuadrados F


cuadrados medios
Entre fármacos 1 783.2 783.2 4.71 (p < 0,05)
Residuo 37 6147.9 166.2

Tabla 5.3: Tabla del análisis de la varianza para H0 : α = β

Con estos datos se han detectado diferencias significativas entre los dos fármacos a y
b. Para estimar la eficacia de cada fármaco, pasaremos a considerar las funciones pa-
ramétricas
ψa = µ + α ψb = µ + β

75
que son ambas estimables.
Para estimar ψa , ψb hallaremos primeramente “una” estimación MC de los parámetros:

b=0
µ b = 20,975
α βb = 12,125

Aplicando el teorema de Gauss-Markov, las estimaciones óptimas de ψ a , ψb se obtienen


sustituyendo parámetros por estimaciones MC, es decir
ca = µ
ψ b+α
b = 20,975 cb = µ
ψ b + βb = 12,125

Por otra parte, las expresiones en función de las medias y las varianzas mı́nimas corres-
pondientes son:
ca = 3/4ȳ1 − 1/4ȳ2 + 1/4ȳ3 + 1/4ȳ4
ψ ca ) = 0,075σ 2
var(ψ
cb = 1/4ȳ1 + 1/4ȳ2 + 3/4ȳ3 − 1/4ȳ4
ψ cb ) = 0,075σ 2
var(ψ

5.3.1. Un contraste más general


Consideremos la hipótesis nula

H0 : Aβ = c A es q × m, rg A = q

donde c es un vector columna que lógicamente debe ser combinación lineal de las columnas
de A. También suponemos que las filas de A son combinación lineal de las filas de X, de
manera que Aβ es un conjunto de funciones paramétricas estimables.
Sea β 0 tal que Aβ 0 = c y consideremos γ = β − β 0 . Entonces, si en el modelo lineal

Y − Xβ 0 = X(β − β 0 ) + 
e = Y − Xβ 0 , obtenemos el modelo transformado
ponemos Y
e = Xγ + 
Y (5.8)

y en este modelo la hipótesis planteada adopta la expresión

H0 : Aγ = 0

La estimación MC del conjunto de funciones paramétricas estimables Aγ en este modelo


transformado es
e
γ =BX(X0 X)− X0 Y
Ab
= BP(Y − Xβ 0 ) = BXβb − BXβ 0
b − Aβ = Aβ
= Aβ b −c
0

En consecuencia, de la ecuación 5.5 se deduce


γ )0 (A(X0 X)− A0 )−1 (Ab
SCRH − SCR = (Ab γ)
b − c)0 (A(X0 X)− A0 )−1 (Aβ
= (Aβ b − c)

b es tal que X0 Xβ
donde β b = X0 Y. Se verifica también

E(SCRH − SCR) = q σ 2 + (Aβ − c)0 (A(X0 X)− A0 )−1 (Aβ − c)

76
Finalmente, a partir de la fórmula 5.6 el test para contrastar la hipótesis es
b − c)0 (A(X0 X)− A0 )−1 (Aβ
(Aβ b − c)/q
F = (5.9)
SCR/(n − r)

donde, si es cierta la hipótesis nula, el estadı́stico F sigue una distribución F q,n−r .


En el caso particular q = 1, donde la hipótesis es H0 : a0 β = c, el test F se puede
simplificar en un test t con
b −c
a0 β
t = 2 0 0 − 1/2 (5.10)
(b
σ (a (X X) a))
que sigue una distribución tn−r , si H0 es cierta.

Ejemplo 5.3.3
Contraste de medias en poblaciones normales con igual varianza
Sean u1 , u2 , . . . , un1 y v1 , v2 , . . . , vn2 dos muestras aleatorias simples de dos poblaciones
normales N (µ1 , σ 2 ) y N (µ2 , σ 2 ), respectivamente.
Vamos a contrastar la hipótesis lineal H0 : µ1 = µ2 con la ayuda de la teorı́a de los
modelos lineales.
Podemos pensar que las observaciones son de la forma

ui = µ 1 +  i i = 1, . . . , n1
vj = µ2 + n1 +j j = 1, . . . , n2

o en notación matricial
     
u1 1 0 1
 ..   .. ..   .. 
 .   . .    . 
     
 un 1   1 0  µ1   
 =  +  n1 
 v1   0 1  µ2  n1 +1 
 .   .. ..   . 
 ..   . .   .. 
vn2 0 1 n

donde n = n1 + n2 . Observemos que, gracias a la igualdad de varianzas en las dos pobla-


ciones, se trata de un modelo lineal y se verifican las condiciones de Gauss-Markov.
En este modelo, la matriz de diseño reducida es 2 × 2 de rango máximo
   
1 0 n1 0
XR = y D=
0 1 0 n2

Ası́ pues, la hipótesis nula es lineal y contrastable


 
 µ1
H0 : µ 1 − µ 2 = 0 ⇔ H0 : 1 −1 =0 q=1
µ2

Con unos sencillos cálculos se obtiene


b = (µ̂1 , µ̂2 )0 = (X0 DXR )−1 X0 DȲ = Ȳ = (ū, v̄)0
β R R

b = µ̂1 − µ̂2 = ū − v̄

77
SCR = Y 0 Y − Ȳ0 DXR (X0R DXR )− X0R DȲ
X X
= u2i + vj2 − n1 ū2 − n2 v̄ 2
i j
X X
= (ui − ū)2 + (vj − v̄)2
i j

1 1
A(X0R DXR )−1 A0 = +
n1 n2
de modo que

b 0 (A(X0 DXR )−1 A0 )−1 (Aβ)


(Aβ) b (ū − v̄)2
R
F = =
b2
qσ b2 (1/n1 + 1/n2 )
σ

donde σb2 = SCR/(n1 + n2 − 2) y cuya distribución, bajo H0 , es una F1,n1 +n2 −2 .


Pero cuando q = 1, tenemos que F1,n1 +n2 −2 ≡ t2n1 +n2 −2 y se deduce que el contraste es
equivalente al test t usual.

5.3.2. Test de la razón de verosimilitud


Para simplificar, consideremos un modelo de rango máximo. Bajo la hipótesis de nor-
malidad de las observaciones, ya sabemos (ver pág. 33) que las estimaciones de máxima
verosimilitud de los parámetros son
b = (X0 X)−1 X0 Y bM
σ 2
β V = SCR/n

y el valor máximo de la función de verosimilitud es


b σ
L(β, 2
bM 2 −n/2 −n/2
V ) = (2πb
σM V) e

Del mismo modo, los estimadores de máxima verosimilitud de los parámetros con las
restricciones Aβ = c son
bH
β bH
σ 2
= SCRH /n
y el valor máximo de la función de verosimilitud, bajo la hipótesis nula, es
bH , σ
L(β bH2
) = (2πb
σH2 −n/2 −n/2
) e

De modo que el estadı́stico de la razón de verosimilitud es

bH , σ 2
 2 n/2
L(β bH ) b
σ
Λ= = M2V
b σ
L(β, 2
bM bH
σ
V)

Es fácil ver que


n − m −2/n
F = (Λ − 1)
q
luego son contrastes equivalentes.

78
5.4. Cuando el test es significativo
Si el estadı́stico F para H0 : Aβ = c es significativo, podemos investigar la causa del
rechazo de dicha hipótesis. Una posibilidad consiste en contrastar cada una de las res-
tricciones a0i β = ci , i = 1, . . . , q por separado, utilizando un test t para ver cual es la
responsable.
Hemos visto de varias formas que, bajo la hipótesis lineal Hi : a0i β = ci , el estadı́stico ti
verifica
b − ci
a0 β
ti = 2 0 i 0 − 1/2 ∼ tn−r
[b
σ ai (X X) ai ]
de modo que podemos rechazar Hi : a0i β = ci con un nivel de significación α si

|ti | ≥ tn−r (α)

donde tn−r (α) es el valor de la tabla tal que P (|tn−r | ≥ tn−r (α)) = α.
También podemos construir intervalos de confianza para cada a0i β

b ± tn−r (α) · σ
a0i β b(a0i (X0 X)− ai )1/2

Este procedimiento en dos etapas para el contraste de H0 : Aβ = c, es decir, un contraste


global F seguido de una serie de test t cuando F es significativo, se conoce con el nombre
de MDS1 o mı́nima diferencia significativa. El valor significativo mı́nimo es tn−r (α) y la
palabra “diferencia” se refiere a que este método se utiliza con frecuencia para comparar
parámetros tales como medias dos a dos.
Este método es simple y versátil, sin embargo tiene sus debilidades: es posible rechazar
H0 y no rechazar ninguna de las Hi . Este problema, otras dificultades y, en general, otros
métodos de inferencia simultánea se estudian de forma más completa en lo que se llama
Métodos de comparación múltiple.

5.5. Contraste de hipótesis sobre funciones paramé-


tricas estimables
Sea ψ = (ψ1 , . . . , ψq )0 = Aβ un sistema de funciones paramétricas estimables, de modo
que las filas de la matriz A sean linealmente independientes. La distribución F que sigue
la expresión 3.2 permite construir diferentes contrastes de hipótesis bajo el modelo lineal
normal.
Sea c = (c1 , . . . , cq )0 un vector de constantes, con la condición de que c sea combinación
lineal de las columnas de A. Planteamos la hipótesis nula

H0 : Aβ = c (5.11)

Para decidir la aceptación de H0 , como una consecuencia de 3.2, podemos utilizar el


estadı́stico
b − c)0 (A(X0 X)− A0 )−1 (Aβ
(Aβ b − c)/q
F = (5.12)
SCR/(n − r)
1
en inglés: LSD o least significant difference

79
con distribución Fq,n−r . Pero es evidente que 5.11 es una hipótesis lineal contrastable, de
modo que podemos utilizar el test F que resulta ser idéntico al anterior. Es otra forma
de demostrar 5.9 y también que
b − c)0 (A(X0 X)− A0 )−1 (Aβ
SCRH − SCR = (Aβ b − c)

Además, podemos plantear otras hipótesis sobre las funciones paramétricas estimables ψ,
siempre que sean lineales. Por ejemplo, consideremos ahora la hipótesis lineal planteada
sobre las q funciones linealmente independientes

H0 : ψ 1 = ψ 2 = · · · = ψ q (5.13)

es decir, bajo H0 las q funciones son iguales. Si consideramos las nuevas funciones

ψei = ψ1 − ψi+1 i = 1, . . . , q − 1

entonces 5.13 se reduce a 5.11 tomando ψe = (ψe1 , . . . , ψeq−1 )0 , c = 0 y sustituyendo q por


q − 1. Dicho de otra manera, sea la matriz
 
a11 a12 . . . a1m
 a21 a22 . . . a2m 
 
A =  .. .. .. 
 . . . 
aq1 aq2 . . . aqm

Entonces 5.13 es equivalente a la hipótesis lineal

H0 : A ∗ β = 0

tomando como matriz de hipótesis


 
a11 − a21 a12 − a22 . . . a1m − a2m
 .. .. .. 
A∗ =  . . . 
a11 − aq1 a12 − aq2 . . . a1m − aqm

Luego podemos utilizar el estadı́stico F de 5.6, con A∗ y q − 1, que bajo H0 tiene distri-
bución Fq−1,n−r , para decidir si 5.13 debe ser aceptada.

5.6. Elección entre dos modelos lineales


5.6.1. Sobre los modelos
Para la estimación en el modelo lineal

Y = Xβ +  E() = 0, var() = σ 2 I

hemos establecido (ver pág. 28) que el punto crucial es la utilización de la matriz P,
proyección ortogonal sobre el espacio de las estimaciones Ω = hXi. Ası́, dos modelos son
iguales si tienen el mismo espacio de las estimaciones. Dos de estos modelos darán las
mismas predicciones y el mismo estimador de σ 2 .

80
Sean Y = X1 β 1 + 1 y Y = X2 β 2 + 2 dos modelos lineales tales que hX1 i = hX2 i. La
matriz proyección no depende de X1 o X2 sino sólo de Ω(= hX1 i = hX2 i). La estimación
de σ 2 es la misma σ
b2 = SCR/(n − r) y las predicciones también
b 1 = X2 β
b = PY = X1 β
Y b2

En cuanto a las funciones paramétricas estimables, hemos visto que la estimabilidad se


restringe a las combinaciones lineales de las filas X1 , es decir, a01 β 1 es estimable si se
escribe como b0 X1 β 1 . Pero X1 β 1 pertenece a Ω de forma que X1 β 1 = X2 β 2 para algún
β 2 y ası́
a01 β 1 = b0 X1 β 1 = b0 X2 β 2 = a02 β 2
Las funciones paramétricas estimables son las mismas pero están escritas con diferentes
parámetros. Su estimador b0 PY también es único.

Ejemplo 5.6.1
El ANOVA de un factor se puede escribir de dos formas:
yij = µ + αi + ij i = 1, . . . , I, j = 1, . . . , ni
yij = µi + ij i = 1, . . . , I, j = 1, . . . , ni
pero son equivalentes puesto que hX1 i = hX2 i.
En este modelo las relaciones entre los dos conjuntos de parámetros son sencillas

µi = µ + α i µ1 − µ 2 = α 1 − α 2 etc.

Ejemplo 5.6.2
La regresión lineal simple admite dos modelos:
yi = β 0 + β 1 xi +  i i = 1, . . . , n
yi = γ0 + γ1 (xi − x̄) + i i = 1, . . . , n
pero son equivalentes ya que
γ0 = β0 + β1 x̄
γ1 = β 1

En resumen, en un modelo lineal Y = Xβ +  la esencia es el subespacio Ω = hXi. Si


conservamos Ω, podemos cambiar X a nuestra conveniencia.

5.6.2. Contraste de modelos


El contraste de hipótesis en modelos lineales se reduce esencialmente a restringir el espacio
de las estimaciones.
Si partimos de un modelo que sabemos o suponemos válido

Modelo inicial: Y = Xβ +  rg X = r

debemos intentar reducir este modelo, es decir, ver si algún modelo más simple se ajusta
aceptablemente a los datos, como

Modelo restringido: e +
Y = Xθ e = re
rg X

81
Dado que la esencia de un modelo está en el subespacio generado por las columnas de la
matriz de diseño o espacio de las estimaciones, es absolutamente necesario que el modelo
restringido verifique
e ⊂ hXi = Ω
Ω0 = hXi
Sólo en este caso se puede plantear la elección entre dos modelos alternativos como un
contraste de hipótesis

e +
H0 : Y = Xθ e
H0 : E(Y) ∈ Ω0 = hXi
⇔ (5.14)
H1 : Y = Xβ +  H1 : E(Y) ∈ Ω = hXi

e y E(Y) = Xβ, respectivamente.


donde E(Y) = Xθ
Sean PΩ y PΩ0 las proyecciones ortogonales sobre Ω = hXi y Ω0 = hXi e respectivamen-
te. Bajo el modelo inicial el estimador de E(Y) es PΩ Y, mientras que bajo el modelo
restringido el estimador es PΩ0 Y. Si la hipótesis H0 es cierta, ambas estimaciones deben
estar próximas.

Teorema 5.6.1
La condición necesaria y suficiente para que 5.14 sea contrastable es que se verifique
e ⊂ hXi = Ω
Ω0 = hXi (5.15)

El test F se basa entonces en el estadı́stico


(SCRH − SCR)/(r − re)
F =
SCR/(n − r)

cuya distribución, bajo H0 , es Fr−er,n−r y donde

SCRH = Y0 (I − PΩ0 )Y SCR = Y 0 (I − PΩ )Y

Demostración:
La expresión 5.15 implica la relación X e = XC para una cierta matriz C. Entonces H0
significa formular una hipótesis lineal contrastable al modelo E(Y) = Xβ, que lo reduce
a E(Y) = Xθ. e El resto es consecuencia del Método 1 explicado en la sección 5.2 y el
teorema 5.3.1. 
Observemos que si Ω0 * Ω, entonces estamos ante modelos de naturaleza diferente. No
podemos decidir entre ambos modelos mediante ningún criterio estadı́stico conocido. Si
se verifica Ω0 = Ω, entonces tenemos dos versiones paramétricas del mismo modelo,
pudiendo pasar del uno al otro por una reparametrización. Un modelo Y = Xβ + 
determina el espacio Ω = hXi, y recı́procamente el espacio Ω determina el modelo (salvo
reparametrizaciones que no disminuyan el rango).
Como ya hemos visto, la interpretación geométrica de la solución al modelo lineal Y =
Xβ +  es considerar la proyección del vector Y sobre el subespacio Ω = hXi de Rn . La
relación 5.15 indica que las columnas de X e generan un subespacio de hXi. Entonces SCR
e respectivamente.
y SCRH son distancias de la observación Y a los subespacios hXi y hXi,
El test F nos dice hasta que punto la diferencia SCRH − SCR es pequeña (comparada
con SCR) para poder afirmar que el modelo se ajusta al subespacio hXi e en lugar de hXi
(ver figura).

82
La longitud al cuadrado de la diferencia PΩ Y − PΩ0 Y es
((PΩ − PΩ0 )Y)0 ((PΩ − PΩ0 )Y) = Y 0 (PΩ − PΩ0 )Y
ya que PΩ − PΩ0 = PΩ⊥0 ∩Ω es una matriz proyección (ver Apéndice). Pero además
Y0 (PΩ − PΩ0 )Y = Y0 (I − PΩ0 )Y − Y0 (I − PΩ )Y = SCRH − SCR
Cuando la hipótesis nula se plantea en términos de un grupo de funciones paramétricas
estimables del tipo H0 : Aβ = 0, sabemos que existe una matriz B = A(X0 X)− X0 tal
que A = BX. De modo que
0 = Aβ = BXβ = BE(Y) ⇔ E(Y) ∈ ker(B)
y el subespacio que define la hipótesis nula es Ω0 = ker(B) ∩ Ω. En este caso se puede
demostrar (ver Apéndice) que Ω⊥ 0
0 ∩ Ω = hPΩ B i y reencontrar ası́ el test 5.6.

Ejemplo 5.6.3
Consideremos de nuevo el diseño cross-over explicado en el ejemplo 5.3.2. Supongamos
ahora que la influencia γ de un fármaco sobre el otro no es recı́proca. El efecto aditivo
no es necesariamente el mismo cuando se administra a después de b, que cuando se
administra b después de a. Entonces debemos introducir los parámetros
γ1 : influencia de a sobre b
γ2 : influencia de b sobre a
y admitir que la matriz de diseño reducida, para los parámetros µ, α, β, γ 1 , γ2 es
 
1 1 0 0 0
 1 0 1 1 0 
XR =   1 0
 rg XR = 4
1 0 0 
1 1 0 0 1
que representa una alternativa a la propuesta inicialmente para los parámetros µ, α, β, γ
 
1 1 0 0
 1 0 1 1 
eR = 
X  rg XeR = 3
 1 0 1 0 
1 1 0 1
e R y XR ,
Es fácil ver que se verifica 5.15. El análisis de la varianza para decidir entre X
sobre los datos de la tabla 5.2, se encuentra en la tabla 5.4. Como F no es significativo
se admite como válido el modelo más simple representado por X e R.

83
grados de suma de cuadrados
libertad cuadrados medios F
Desviación
hipótesis 1 600,6 600,6 3,898

Residuo 36 5547,3 154,1

Tabla 5.4: Tabla del análisis de la varianza para contrastar dos modelos de cross-over

5.7. Ejemplos con S-PLUS


En esta sección vamos a ver como se contrastan las hipótesis que hemos planteado en el
ejemplo 5.3.2 sobre el diseño cross-over simplificado.
En primer lugar procedemos a introducir los datos en el vector de observaciones.

> y<-c(17,34,26,10,19,17,8,16,13,11,
+ 17,41,26,3,-6,-4,11,16,16,4,
+ 21,20,11,26,42,28,3,3,16,-10,
+ 10,24,32,26,52,28,27,28,21,42)

A continuación construimos las columnas de la matriz de diseño que corresponden a los


parámetros α, β, γ con las funciones de repetición.

> alpha<-c(rep(1,10),rep(0,10),rep(0,10),rep(1,10))
> beta<-c(rep(0,10),rep(1,10),rep(1,10),rep(0,10))
> gamma<-c(rep(0,10),rep(1,10),rep(0,10),rep(1,10))

Los modelos lineales se definen en S-PLUS con la función lm. Ası́, el modelo general y el
modelo bajo la hipótesis nula se definen como

> crossover.lm<-lm(y~alpha+beta+gamma)
> crossover.lm0<-lm(y~gamma)

La columna de unos que corresponde al parámetro µ no es necesario escribirla, ya que


por defecto está incluida en cualquier modelo lineal de S-PLUS ası́ definido. Observemos
además que bajo la hipótesis nula H0 : α = β, el modelo a considerar sólo tiene dos
parámetros µ, γ. En este caso, el efecto del fármaco (común) se puede incluir en la media
general.
La tabla del análisis de la varianza para el contraste de la hipótesis nula considerada se
realiza mediante la función anova(modelo H0 ,modelo general ).

> anova(crossover.lm0,crossover.lm)
Analysis of Variance Table

Model 1: y ~ gamma
Model 2: y ~ alpha + beta + gamma
Res.Df RSS Df Sum of Sq F Pr(>F)
1 38 6931.1

84
2 37 6147.9 1 783.2 4.7137 0.03641 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Del mismo modo también se puede realizar el contraste de modelos propuesto en el ejemplo
5.6.3. En este caso, el modelo más general necesita las columnas correspondientes a los
parámetros γ1 , γ2 .

> gamma1<-c(rep(0,10),rep(1,10),rep(0,10),rep(0,10))
> gamma2<-c(rep(0,10),rep(0,10),rep(0,10),rep(1,10))
> crossover.lm1<-lm(y~alpha+beta+gamma1+gamma2)
> anova(crossover.lm,crossover.lm1)
Analysis of Variance Table

Model 1: y ~ alpha + beta + gamma


Model 2: y ~ alpha + beta + gamma1 + gamma2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 37 6147.9
2 36 5547.3 1 600.6 3.8978 0.05606 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

85
5.8. Ejercicios
Ejercicio 5.1
Sean X ∼ N (µ1 , σ), Y ∼ N (µ2 , σ) variables independientes. En muestras de extensión n1
de X, n2 de Y , plantear la hipótesis nula

H0 : µ 1 = µ 2

mediante el concepto de hipótesis lineal contrastable y deducir el test t de Student de


comparación de medias como una consecuencia del test F .

Ejercicio 5.2
Una variable Y depende de otra x (variable control no aleatoria) que toma los valores
x1 = 1, x2 = 2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal

yi = β0 + β1 xi + β2 x2i + i

Encontrar la expresión del estadı́stico F para la hipótesis

H0 : β 2 = 0

Ejercicio 5.3
Probar que una hipótesis lineal de matriz A es contrastable si y sólo si

A(X0 X)− X0 X = A

Ejercicio 5.4
Con el modelo del ejercicio 3.10:

(a) ¿Podemos contrastar la hipótesis H0 : θ1 + θ8 = 0?

(b) Contrastar la hipótesis H0 : θ1 = θ2 .

Ejercicio 5.5
Dado el siguiente modelo lineal normal

β1 + β 2 = 6,6
2β1 + β2 = 7,8
−β1 + β2 = 2,1
2β1 − β2 = 0,4

estudiar si se puede aceptar la hipótesis H0 : β2 = 2β1 .

Ejercicio 5.6
Consideremos el modelo lineal normal Y = Xβ + . Probar que para la hipótesis lineal

H0 : Xβ = 0

b 0 X0 Y. Hallar el estadı́stico F correspondiente.


se verifica SCRH − SCR = β

86
Ejercicio 5.7
Demostrar que para una hipótesis lineal contrastable se verifica

E(SCRH − SCR) = qσ 2 + (Aβ)0 (A(X0 X)− A0 )− (Aβ)

Indicación: Utilizar la propiedad 2 del Apéndice de Estadı́stica Multivariante con la ex-


presión 5.5.

Ejercicio 5.8
Demostrar que para una hipótesis lineal contrastable se verifica la siguiente descomposi-
ción en suma de cuadrados
b H k2 = kY − Yk
kY − Y b 2 + kY
b −Y
b H k2

Ejercicio 5.9
Supongamos que cada uno de los valores x1 , x2 , . . . , x12 son las observaciones de los ángu-
los a, a0 , A, A0 , b, b0 , B, B 0 , c, c0 , C, C 0 del triángulo del gráfico adjunto. Los errores de las
observaciones 1 , . . . , 12 se asume que son independientes y con distribución N (0, σ 2 ).
Antes de escribir el modelo asociado a estos datos observemos que, aunque aparentemente
hay 12 parámetros a, a0 , . . . , éstos están ligados por las conocidas propiedades de un
triángulo, es decir

a = a0 A = A0 a + A = 180 a + b + c = 180

y de forma similar para b, b0 , B, B 0 y c, c0 , C, C 0 . El conjunto de estas relaciones nos conduce


a que, realmente, sólo hay dos parámetros independientes, les llamaremos α y β. Si
trasladamos a la izquierda las cantidades 180 y con estos parámetros, el modelo es

y1 = α +  1 y2 = α +  2 y3 = −α + 3 y4 = −α + 4
y5 = β +  5 y6 = β +  6 y7 = −β + 7 y8 = −β + 8
y9 = −α − β + 9 y10 = −α − β + 10 y11 = α + β + 11 y12 = α + β + 12

donde
y1 = x 1 y2 = x 2 y3 = x3 − 180 y4 = x4 − 180
y5 = x 5 y6 = x 6 y7 = x7 − 180 y8 = x8 − 180
y9 = x9 − 180 y10 = x10 − 180 y11 = x11 y12 = x12
Deseamos contrastar la hipótesis de que el triángulo es equilátero, es decir, que a = b =
c = 60. Pero si a = 60, b = 60, c es automáticamente 60, luego la hipótesis es

H0 : α = β = 60

con 2 grados de libertad, no 3. Resolver el contraste.

Ejercicio 5.10
Con el modelo cross-over expuesto en el ejemplo 5.3.2 calcular los siguientes elementos:

(a) Una estimación de los parámetros mediante la fórmula (X0R DXR )− X0R DȲ.

87
(b) La suma de cuadrados residual
X
SCR = Y 0 Y − Y0 PY = yij2 − Y0 PY
4 4
!
X X
= Na ȳi·2 + s2i − Y0 PY
i=1 i=1
4 4
!
X X
= Na ȳi·2 + s2i − Ȳ0 DXR (X0R DXR )− X0R DȲ
i=1 i=1

(c) La estimación de la función paramétrica α − β y su varianza.

(d) El estadı́stico con distribución t de Student para contrastar la hipótesis H 0 : α = β

α̂ − β̂
t=
ee(α̂ − β̂)

cuyo cuadrado coincide con el estadı́stico F del ejemplo.

88
Capı́tulo 6

Regresión lineal simple

Sea Y una variable aleatoria y x una variable controlable, es decir, los valores que toma x
son fijados por el experimentador. Supongamos que calculamos Y para diferentes valores
de x de acuerdo con el siguiente modelo

yi = β 0 + β 1 xi +  i i = 1, . . . , n (6.1)

donde E(i ) = 0, var(i ) = σ 2 i = 1, . . . , n.


Este modelo es la formulación lineal del problema de hallar la recta de regresión de Y sobre
x. Los parámetros β0 , β1 reciben el nombre de coeficientes de regresión. El parámetro β0
es la ordenada en el origen, intercept en inglés, y β1 es la pendiente de la recta, slope en
inglés. La expresión matricial de 6.1 es
     
y1 1 x1   1
 ..   .. ..  β0  
 . = . .  +  ...  rg X = 2
β1
yn 1 xn n

Ahora podemos aplicar toda la teorı́a general desarrollada en los capı́tulos anteriores para
un modelo lineal cualquiera, al caso particular de la regresión lineal simple.

6.1. Estimación de los coeficientes de regresión


Con los datos observados se pueden calcular los siguientes estadı́sticos
P P
x̄ = (1/n) P xi s2x = (1/n) P(xi − x̄)2
ȳ = (1/n) yi s2y = (1/n) (yi − ȳ)2
X
sxy = (1/n) (xi − x̄)(yi − ȳ)
donde x̄, ȳ, s2x , s2y , sxy son las medias, varianzas y covarianzas muestrales, aunque el signi-
ficado de s2x y sxy es convencional pues x no es variable aleatoria. Con esta notación las
ecuaciones normales son:
    
0 0 n P nx̄ β0 P nȳ
X Xβ = X Y ⇔ =
nx̄ x2i β1 xi yi
y como  P 
0 −1 1 (1/n) x2i −x̄
(X X) = 2
nsx −x̄ 1

89
la solución es

β̂0 = ȳ − β̂1 x̄
Sxy sxy
βˆ1 = = 2
Sx sx

donde
X X X X
Sxy = xi yi − (1/n) xi yi = (xi − x̄)(yi − ȳ) = n sxy
X X X
Sx = x2i − (1/n)( xi ) 2 = (xi − x̄)2 = n s2x

En el ejercicio 6.2 se ven otras formas de expresar β̂1 .


La recta de regresión es
y = β̂0 + β̂1 x
que se expresa también en la forma

y − ȳ = β̂1 (x − x̄)

lo que deja claro que la recta pasa por el punto (x̄, ȳ) y que el modelo es válido en el
rango de las xi , centrado en x̄. Ésta es también la recta que se obtiene a partir del modelo
equivalente con los datos xi centrados (ver ejemplo 5.6.2 y ejercicio 6.3).
Recordemos que por lo que hemos estudiado, estas estimaciones son insesgadas y de
varianza mı́nima entre todos los estimadores lineales (teorema de Gauss-Markov). Las
varianzas y covarianza de los estimadores son
 
b = var( β̂ 0 ) cov( β̂ 0 , β̂ 1 )
var(β) = σ 2 (X0 X)−1 (6.2)
cov(β̂0 , β̂1 ) var(β̂1 )

Es decir
 
2 1 x̄2
E(β̂0 ) = β0 var(β̂0 ) = σ + (6.3)
n Sx
σ2
E(β̂1 ) = β1 var(β̂1 ) = (6.4)
Sx

cov(β̂0 , β̂1 ) = −σ 2 (6.5)
Sx
Ejemplo 6.1.1
Vamos a ilustrar el cálculo “manual” de las estimaciones de los parámetros con un ejemplo
muy sencillo de muy pocos datos.
Supongamos que una empresa de compra-venta de automóviles organiza exposiciones los
fines de semana i contrata un número variable de vendedores que oscila entre 3 y 8.
El gerente de esta empresa quiere estudiar la relación entre el número de vendedores
y el número de coches vendidos ya que, si es posible, podrı́a prever las ventas a partir
del número de vendedores que contrata. Para aclararlo, el gerente examina el registro
de ventas de los últimos cuatro meses y localiza un perı́odo de 10 semanas durante las
cuales no hubo ningún incentivo especial ni a la venta ni a la compra. El número de

90
Gráfico de dispersión
Semana Vendedores Coches 30
1 5 10
2 6 20 20

Coches
3 5 18
4 4 10
10
5 3 7
6 4 14
7 7 21 0
8 6 15 0 2 4 6 8 10
9 5 13 Vendedores
10 8 22

Tabla 6.1: Datos de las ventas en 10 semanas y gráfico de dispersión

coches vendidos durante este perı́odo y el número de vendedores empleados en cada caso
se muestra en la tabla adjunta.
Para examinar esta relación es muy útil empezar por dibujar un diagrama de dispersión.
Este gráfico muestra una relación bastante evidente entre el número de vendedores y las
ventas, relación que se podı́a esperar. Vamos a cuantificarla con la ayuda de la recta de
regresión MC.
En la siguiente tabla tenemos los cálculos necesarios para obtener los coeficientes de
regresión, las predicciones, los residuos y la suma de cuadrados de los errores para los
datos de las 10 semanas. Esta tabla se ha calculado con una hoja de cálculo, lo que permite
una mayor precisión en los cálculos sucesivos.

i xi yi x2i xi yi ŷi ei e2i


1 5 10 25 50 14,10 −4,10 16,85
2 6 20 36 120 17,09 2,91 8,47
3 5 18 25 90 14,10 3,90 15,18
4 4 10 16 40 11,12 −1,12 1,25
5 3 7 9 21 8,13 −1,13 1,29
6 4 14 16 56 11,12 2,88 8,30
7 7 21 49 147 20,07 0,93 0,86
8 6 15 36 90 17,09 −2,09 4,37
9 5 13 25 65 14,10 −1,10 1,22
10 8 22 64 176 23,06 −1,06 1,12
Suma 53 150 301 855 0 58,90
Media 5,3 15

Tabla 6.2: Cálculos de regresión simple para los datos de ventas

Con estos cálculos, las estimaciones de los coeficientes de regresión son


1
855 − 10 53 · 150
β̂1 = 1 = 2,9850746
301 − 10 (53)2
β̂0 = 15 − β̂1 · 5,3 = −0,820896

91
La ecuación de la recta de regresión es
y = −0,821 + 2,985x
o también
y − 15 = 2,985 (x − 5,3)
Para calcular la precisión de estas estimaciones, primero debemos estimar la varianza del
modelo.
Nota: Una aplicación de hojas de cálculo como Microsoft Excel tiene la función ESTI-
MACION.LINEAL que calcula de forma directa los coeficientes de regresión y algunos
estadı́sticos más. Otra función matricial es TENDENCIA que permite calcular directa-
mente las predicciones. Además, Excel lleva un conjunto de macros opcionales llamadas
“Herramientas para análisis” que, entre otras cosas, calculan una regresión lineal comple-
ta.
En el ejemplo anterior, se comprueba que las suma de los residuos es cero, salvo problemas
de redondeo. Esto no es una casualidad. Vamos a ver algunas propiedades adicionales para
las predicciones ŷi = β̂0 + β̂1 xi y para los residuos ei = yi − ŷi , cuya demostración se deja
para el lector (ver ejercicio 6.4).
P
(i) La suma de los residuos es cero: ei = 0.
P P
(ii) yi = ŷi
(iii) La
P suma de los residuos ponderada por los valores de la variable regresora es cero:
xi ei = 0.
(iv) La sumaPde los residuos ponderada por las predicciones de los valores observados
es cero: ŷi ei = 0.

6.2. Medidas de ajuste


La evaluación global del ajuste de la regresión
P 2 se puede hacer con la SCR o, mejor, con
la varianza muestral de los residuos (1/n) ei . Pero los residuos no son todos indepen-
dientes, si no que están ligados por dos ecuaciones, de forma que utilizaremos la llamada
varianza residual o estimación MC de σ 2 :
σ̂ 2 = SCR/(n − 2)
Su raı́z cuadrada σ̂, que tiene las mismas unidades que Y , es el llamado error estándar
de la regresión. La varianza residual o el error estándar son ı́ndices de la precisión del
modelo, pero dependen de las unidades de la variable respuesta y no son útiles para
comparar rectas de regresión de variables diferentes. Otra medida de ajuste requiere una
adecuada descomposición de la variabilidad de la variable respuesta.

Teorema 6.2.1
Consideremos el coeficiente de correlación muestral, cuyo significado es convencional,
sxy Sxy
r= =
sx sy (Sx Sy )1/2
Entonces se verifican las siguientes relaciones

92
P P P
(i) (yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
P P
(ii) SCR = (yi − ŷi )2 = (1 − r 2 ) (yi − ȳ)2 = (1 − r 2 )Sy
P
(iii) σ̂ 2 = ( e2i )/(n − 2) = (1 − r 2 )Sy /(n − 2)

Demostración:
X X
(yi − ȳ)2 = (yi − ŷi + ŷi − ȳ)2
X X X
= (yi − ŷi )2 + (ŷi − ȳ)2 + 2 (yi − ŷi )(ŷi − ȳ)
P P P
pero (yi − ŷi )(ŷi − ȳ) = (yi − ŷi )ŷi − ȳ (yi − ŷi ) = 0 por las propiedades del apartado
anterior. También podemos recordar la ortogonalidad de los subespacios de los errores y
de las estimaciones. Queda ası́ demostrada la relación (i).
Por otra parte, es fácil ver que
X X X
(ŷi − ȳ)2 = β̂12 (xi − x̄)2 = r2 (yi − ȳ)2

de forma que finalmente


X X X
(yi − ȳ)2 = (yi − ŷi )2 + r2 (yi − ȳ)2

Luego X X
(yi − ŷi )2 = (1 − r 2 ) (yi − ȳ)2
Como consecuencia tenemos que el estimador centrado de la varianza σ 2 del modelo 6.1
es
σ̂ 2 = SCR/(n − 2) = (1 − r 2 )Sy /(n − 2) (6.6)

La descomposición de la suma de cuadrados de las observaciones en dos términos inde-
pendientes se interpreta ası́: la variabilidad de la variable Y se descompone en un primer
término que refleja la variabilidad no explicada por la regresión, que es debida al azar, y
el segundo término que contiene la variabilidad explicada o eliminada por la regresión y
puede interpretarse como la parte determinista de la variabilidad de la respuesta.
Podemos definir:
X
Variación total = VT = (yi − ȳ)2 = Sy
X
Variación no explicada = VNE = (yi − ŷi )2 = SCR
X
Variación explicada = VE = (ŷi − ȳ)2 = β̂12 Sx

de forma que
VT = VNE + VE (6.7)

Definición 6.2.1
Una medida del ajuste de la recta de regresión a los datos es la proporción de variabilidad
explicada que definimos con el nombre de coeficiente de determinación ası́:
VE SCR
R2 = =1−
VT Sy

93
Esta medida se puede utilizar en cualquier tipo de regresión, pero en el caso particular
de la regresión lineal simple con una recta tenemos

(1 − r2 )Sy
R2 = 1 − = r2
Sy

que es el cuadrado del coeficiente de correlación lineal entre las dos variables.
El coeficiente de determinación R2 es una medida de la bondad del ajuste, 0 ≤ R2 ≤ 1,
mientras que el coeficiente de correlación es una medida de la dependencia lineal entre
las dos variables, cuando son aleatorias y sólo hay una variable regresora.

Ejemplo 6.2.1
Continuando con el ejemplo de los datos de ventas tenemos:

SCR = 58,896
σ̂ 2 = 58,896/8 = 7,362 σ̂ = 2,713
VT = Sy = 238
58,896
R2 = 1 − = 0,7525
238

6.3. Inferencia sobre los parámetros de regresión


Supongamos que el modelo 6.1 es un modelo lineal normal. Entonces (ver teorema 2.6.1)
se verifica que
b = (β̂0 , β̂1 )0 ∼ N2 (β, var(β))
β b

donde  
b = σ 2 (X0 X)−1 = σ 2 1/n + x̄/Sx −x̄/Sx
var(β)
−x̄/Sx 1/Sx
como hemos visto en 6.2–6.5. Además sabemos que β b es independiente de SCR.
Como consecuencia de estas distribuciones hemos demostrado (ver 3.3 o 5.10) que para
contrastar una hipótesis del tipo H0 : a0 β = c se utiliza el estadı́stico

b −c
a0 β
t = 2 0 0 −1 1/2 (6.8)
(σ̂ (a (X X) a))

que seguirá una distribución tn−2 , si H0 es cierta.

6.3.1. Hipótesis sobre la pendiente


El contraste de la hipótesis H0 : β1 = b1 frente a H1 : β1 6= b1 se resuelve rechazando H0
si
β̂ − b
1 1
2 > tn−2 (α)
(σ̂ /Sx )1/2
donde P [|tn−2 | > tn−2 (α)] = α.
En particular, estamos interesados en contrastar si la pendiente es cero, es decir, la hipóte-
sis H0 : β1 = 0. Vamos a deducir este contraste directamente.

94
Si H0 : β1 = 0 es cierta, el modelo 6.1 se simplifica y se convierte en

yi = β 0 +  i

de donde X X
SCRH = (yi − β̂0|H )2 = (yi − ȳ)2 = Sy (6.9)

dado que β̂0|H = ȳ.


Por el teorema 6.2.1 sabemos que SCR = (1 − r 2 )Sy , de manera que

SCRH − SCR Sy − (1 − r2 )Sy r2


F = = = (n − 2) ∼ F1,n−2
SCR/(n − 2) (1 − r2 )Sy /(n − 2) 1 − r2
Finalmente, √
√ n−2
t = F = r√ (6.10)
1 − r2
sigue la distribución t de Student con n − 2 grados de libertad.
Este contraste H0 : β1 = 0 se llama contraste para la significación de la regresión y se
formaliza en una tabla de análisis de la varianza donde se explicita la descomposición de
la suma de cuadrados 6.7.
Fuente de grados de suma de cuadrados
variación libertad cuadrados medios F
Regresión 1 β̂1 Sxy CMR CMR /ECM
Error n−2 SCR ECM
Total n−1 Sy

Tabla 6.3: Tabla del análisis de la varianza para contrastar la significación de la regresión

El hecho de aceptar H0 : β1 = 0 puede implicar que la mejor predicción para todas las
observaciones es ȳ, ya que la variable x no influye, y la regresión es inútil. Pero también
podrı́a pasar que la relación no fuera de tipo recta.
Rechazar la hipótesis H0 : β1 = 0 puede implicar que el modelo lineal 6.1 es adecuado.
Pero también podrı́a ocurrir que no lo sea. En todo caso, es muy importante no confundir
la significación de la regresión con una prueba de causalidad. Los modelos de regresión
únicamente cuantifican la relación lineal entre la variable respuesta y las variables expli-
cativas, una en el caso simple, pero no justifican que éstas sean la causa de aquella.
Tanto la adecuación del modelo 6.1, como la hipótesis de normalidad han de estudiarse
a través del análisis de los residuos.

6.3.2. Hipótesis sobre el punto de intercepción


Para el contraste de hipótesis H0 : β0 = b0 , se utiliza el estadı́stico

β̂0 − b0
t=
(σ̂ 2 (1/n+ x̄2 /Sx ))1/2
que, si la hipótesis es cierta, sigue una distribución t de Student con n − 2 grados de
libertad.

95
6.3.3. Intervalos de confianza para los parámetros
Además de los estimadores puntuales de β0 , β1 y σ 2 , con las distribuciones estudiadas
podemos proporcionar intervalos de confianza para estos parámetros. El ancho de estos
intervalos estará en función de la calidad de la recta de regresión.
Con la hipótesis de normalidad y teniendo en cuenta las distribuciones de β̂0 y β̂1 estu-
diadas, un intervalo de confianza para la pendiente β1 con nivel de confianza 100(1 − α) %
es
β̂1 ± tn−2 (α) · (σ̂ 2 /Sx )1/2
donde tn−2 (α) es tal que P [|tn−2 | < tn−2 (α)] = 1 − α.
Análogamente, para β0 es

β̂0 ± tn−2 (α) · (σ̂ 2 (1/n + x̄2 /Sx ))1/2

Las cantidades

ee(β̂1 ) = (σ̂ 2 /Sx )1/2 ee(β̂0 ) = (σ̂ 2 (1/n + x̄2 /Sx ))1/2

son los errores estándar de la pendiente β̂1 y la intercepción β̂0 , respectivamente. Se trata
de estimaciones de la desviación tı́pica de los estimadores. Son medidas de la precisión
de la estimación de los parámetros.
Como sabemos
SCR 1
σ̂ 2 = = Sy (1 − r2 )
n−2 n−2
es el estimador insesgado de σ 2 y la distribución de SCR/σ 2 es ∼ χ2n−2 . Ası́, el intervalo
de confianza al 100(1 − α) % de σ 2 es

SCR SCR
≤ σ2 ≤
χ2n−2 (α/2) χ2n−2 (1
− α/2)

donde χ2n−2 (α/2) y χ2n−2 (1 − α/2) son los valores de una χ2n−2 para que la suma de las
probabilidades de las colas sea α.

6.3.4. Intervalo para la respuesta media


Uno de los usos principales de los modelos de regresión es la estimación de la respuesta
media E[Y |x0 ] para un valor particular x0 de la variable regresora. Asumiremos que x0 es
un valor dentro del recorrido de los datos originales de x. Un estimador puntual insesgado
de E[Y |x0 ] se obtiene con la predicción

ŷ0 = β̂0 + β̂1 x0 = ȳ + β̂1 (x0 − x̄)

Podemos interpretar β0 + β1 x0 como una función paramétrica estimable

β0 + β1 x0 = (1, x0 )β = x00 β

b de manera que
cuyo estimador es ŷ0 = x00 β,

b = σ 2 x0 (X0 X)−1 x0
var(x00 β) 0

96
b es
y el error estándar de x00 β
b = [σ̂ 2 (1/n + (x0 − x̄)2 /Sx )]1/2
ee(x00 β)
Entonces, el intervalo de confianza para la respuesta media E[Y |x0 ] es
s
1 (x0 − x̄)2
ŷ0 ± tn−2 (α) · σ̂ +
n Sx
Destacaremos el hecho de que evidentemente el ancho del intervalo depende de x0 , es
mı́nimo para x0 = x̄ y crece cuando |x0 − x̄| crece. Esto es intuitivamente razonable.

6.3.5. Predicción de nuevas observaciones


Otra de las importantes aplicaciones de los modelos de regresión es la predicción de
nuevas observaciones para un valor x0 de la variable regresora. El intervalo definido en el
apartado anterior es adecuado para el valor esperado de la respuesta, ahora queremos un
intervalo de predicción para una respuesta individual concreta. Estos intervalos reciben el
nombre de intervalos de predicción en lugar de intervalos de confianza, ya que se reserva
el nombre de intervalo de confianza para los que se construyen como estimación de un
parámetro. Los intervalos de predicción tienen en cuenta la variabilidad en la predicción
del valor medio y la variabilidad al exigir una respuesta individual.
Si x0 es el valor de nuestro interés, entonces
ŷ0 = β̂0 + β̂1 x0
es el estimador puntual de un nuevo valor de la respuesta Y0 = Y |x0 .
Si consideramos la obtención de un intervalo de confianza para esta futura observación
Y0 , el intervalo de confianza para la respuesta media en x = x0 es inapropiado ya que es
un intervalo sobre la media de Y0 (un parámetro), no sobre futuras observaciones de la
distribución.
Se puede hallar un intervalo de predicción para una respuesta concreta de Y0 del siguiente
modo:
Consideremos la variable aleatoria Y0 − ŷ0 ∼ N (0, var(Y0 − ŷ0 )) donde
 
2 2 1 (x0 − x̄)2
var(Y0 − ŷ0 ) = σ + σ +
n Sx
ya que Y0 , una futura observación, es independiente de ŷ0 .
Si utilizamos el valor muestral de ŷ0 para predecir Y0 , obtenemos un intervalo de predicción
al 100(1 − α) % para Y0
s
1 (x0 − x̄)2
ŷ0 ± tn−2 (α) · σ̂ 1 + +
n Sx

Este resultado se puede generalizar al caso de un intervalo de predicción al 100(1 − α) %


para la media de k futuras observaciones de la variable respuesta cuando x = x0 . Si ȳ0 es
la media de k futuras observaciones para x = x0 , un estimador de ȳ0 es ŷ0 de forma que
el intervalo es s
1 1 (x0 − x̄)2
ŷ0 ± tn−2 (α) · σ̂ + +
k n Sx

97
6.3.6. Región de confianza y intervalos de confianza simultáneos
Habitualmente, los intervalos de confianza se dan de forma conjunta para los dos paráme-
tros β0 , β1 de la regresión simple. Sin embargo, la confianza conjunta de ambos intervalos
no es 100(1−α) %, aunque los dos se hayan construido para verificar ese nivel de confianza.
Si deseamos que el nivel de confianza conjunta sea el 100(1 − α) % debemos construir una
región de confianza o, alternativamente, los llamados intervalos de confianza simultáneos.
A partir de la distribución de la ecuación 5.9 sabemos que, en general,

b − Aβ)0 (A(X0 X)− A0 )−1 (Aβ


(Aβ b − Aβ)/q
F = ∼ Fq,n−r
SCR/(n − r)

b = Iβ
donde, en este caso, Aβ b = (β̂0 , β̂1 )0 y q = 2. Ası́ pues

b − β)0 X0 X(β
(β b − β)
∼ F2,n−2
2ECM
y  
0 n P nx̄
XX=
nx̄ x2i
Con esta distribución se puede construir una región de confianza al 100(1 − α) % para
β0 , β1 conjuntamente que viene dada por la elipse

b − β)0 X0 X(β
(β b − β)
≤ F2,n−2 (α)
2ECM
Con el mismo objetivo, se pueden utilizar diversos métodos de obtención de intervalos
simultáneos del tipo
β̂j ± ∆ · ee(β̂j ) j = 0, 1
Por ejemplo, el método de Scheffé proporciona los intervalos simultáneos

β̂j ± (2F2,n−2 (α))1/2 · ee(β̂j ) j = 0, 1

6.4. Regresión pasando por el origen


Supongamos que, por alguna razón justificada, el experimentador decide proponer el
modelo de regresión simple

yi = β 1 xi +  i i = 1, . . . , n

que carece del término β0 .


El estimador MC del parámetro β1 es
P
xi yi
β̂1 = P 2
xi

y su varianza es
1 X 1
var(β̂1 ) = P 2 2 x2i var(yi ) = σ 2 P 2
( xi ) xi

98
El estimador de σ 2 es
2 1 X 2 X 
σ̂ = SCR/(n − 1) = yi − β̂1 xi yi (6.11)
n−1

Con la hipótesis de normalidad se pueden construir intervalos de confianza al 100(1−α) %


para β1 s
1
β̂1 ± tn−1 (α) · σ̂ P 2
xi
para E[Y |x0 ] s
x2
ŷ0 ± tn−1 (α) · σ̂ P0 2
xi
y para predecir una futura observación
s
x2
ŷ0 ± tn−1 (α) · σ̂ 1 + P0 2
xi

Es preciso estar muy seguros para utilizar este modelo. Frecuentemente la relación entre
la variable respuesta Y y la variable regresora x varı́a cerca del origen. Hay ejemplos
en quı́mica y en otras ciencias. El diagrama de dispersión nos puede ayudar a decidir el
mejor modelo. Si no estamos seguros, es mejor utilizar el modelo completo y contrastar
la hipótesis H0 : β0 = 0.
Una medida del ajuste del modelo a los datos es el error cuadrático medio 6.11 que se
puede comparar con el del modelo completo 6.6. El coeficiente de determinación R 2 no
es un buen ı́ndice para comparar los dos tipos de modelos.
Para el modelo sin β0 , la descomposición
X X X
yi2 = (yi − ŷi )2 + ŷi2

justifica que la definición del coeficiente de determinación sea


P 2

R0 = P i2
2
yi

que no es comparable con el R2 de la definición 6.2.1. De hecho puede ocurrir que R02 > R2 ,
aunque ECM0 < ECM.

6.5. Correlación
Consideremos la situación en la que las dos variables son aleatorias, tanto la la variable
respuesta como la variable explicativa o regresora. De modo que tomamos una muestra
aleatoria simple de tamaño n formada por las parejas (x1 , y1 ), . . . , (xn , yn ) de dos variables
aleatorias (X, Y ) con distribución conjunta normal bivariante
 2 
0 0 σ1 σ1 σ2 ρ
(X, Y ) ∼ N2 (µ, Σ) µ = (µ1 , µ2 ) Σ=
σ1 σ2 ρ σ22

donde cov(X, Y ) = σ1 σ2 ρ y ρ es el coeficiente de correlación entre Y y X.

99
La distribución condicionada de Y dado un valor de X = x es
2
Y |X = x ∼ N (β0 + β1 x, σ2·1 )

donde
σ2
β0 = µ 1 − µ 2 ρ
σ1
σ2
β1 = ρ
σ1
2
σ2·1 = σ22 (1 − ρ2 )

De modo que la esperanza de Y |X = x es el modelo de regresión lineal simple

E[Y |X = x] = β0 + β1 x

Además, hay una clara relación entre β1 y ρ, ρ = 0 ⇔ β1 = 0, en cuyo caso no hay


regresión lineal, es decir, el conocimiento de X = x no nos ayuda a predecir Y .
El método de la máxima verosimilitud proporciona estimadores de β0 y β1 que coinciden
con los estimadores MC.
Ahora también es posible plantearse inferencias sobre el parámetro ρ. En primer lugar,
el estimador natural de ρ es
Sxy
r=
(Sx Sy )1/2
y
 1/2
Sy
β̂1 = r
Sx
Ası́, β̂1 y r están relacionados, pero mientras r representa una medida de la asociación
entre X e Y , β̂1 mide el grado de predicción en Y por unidad de X.
Nota: Ya hemos advertido de que cuando X es una variable controlada, r tiene un sig-
nificado convencional, porque su magnitud depende de la elección del espaciado de los
valores xi . En este caso, ρ no existe y r no es un estimador.
También sabemos que r 2 = R2 , de modo que el coeficiente de determinación es el cuadrado
de la correlación.
Finalmente, el principal contraste sobre ρ es el de incorrelación H0 : ρ = 0 que es equiva-
lente a H0 : β1 = 0 y se resuelve con el estadı́stico

r n−2
t= √
1 − r2
que, si H0 es cierta, sigue una distribución tn−2 .

6.6. Carácter lineal de la regresión simple


Supongamos ahora que estamos interesados en decidir si la regresión de Y sobre x es
realmente lineal. Consideremos las hipótesis

H 0 : Y i = β 0 + β 1 xi +  i
H1 : Yi = g(xi ) + i

100
donde g(x) es una función no lineal desconocida de x. Sin embargo, vamos a ver que
podemos reconducir el contraste a la situación prevista en la sección 5.6.2 para la elección
entre dos modelos lineales.
Necesitamos ni valores de Y para cada xi . Con un cambio de notación, para cada i =
1, . . . , k, sean
P P
xi : yi1 , . . . , yini ȳi = (1/ni ) j yij s2yi = (1/ni ) j (yij − ȳi )2
P P
ȳ = (1/n) i,j yij s2y = (1/n) i,j (yij − ȳ)2 n = n1 + · · · + n k
Introducimos a continuación el coeficiente
k
2 1 X s2yi
η̂ = 1 − ni (6.12)
n i=1 s2y

que verifica 0 ≤ η̂ 2 ≤ 1, y mide el grado de concentración de los puntos (xi , yij ) a lo largo
de la curva y = g(x) (ver figura 6.1).

Figura 6.1: Curva que mejor se ajusta a los datos

Si indicamos δi = g(xi ) i = 1, . . . , k convertimos la hipótesis H1 en una hipótesis lineal


con k parámetros. Cuando H1 es cierta, la estimación de δi es δ̂i = ȳi . La identidad
SCRH = SCR + (SCRH − SCR)
es entonces
X X X
(yij − β̂0 − β̂1 xi )2 = (yij − ȳi )2 + ni (ȳi − β̂0 − β̂1 xi )2
i,j i,j i

Dividiendo por n tenemos


s2y (1 − r2 ) = s2y (1 − η̂ 2 ) + s2y (η̂ 2 − r2 )
y el contraste para decidir si la regresión es lineal se resuelve a través del estadı́stico
(η̂ 2 − r2 )/(k − 2)
F = (6.13)
(1 − η̂ 2 )/(n − k)
que tiene (k − 2) y (n − k) grados de libertad. Si F resulta significativa, rechazaremos el
carácter lineal de la regresión.
Observaciones:

101
1) Solamente se puede aplicar este test si se tienen ni > 1 observaciones de Y para
cada xi (i = 1, . . . , k).

2) η̂ 2 es una versión muestral de la llamada razón de correlación entre dos variables


aleatorias X, Y
E[(g(X) − E(Y ))2 ]
η2 =
var(Y )
siendo
y = g(x) = E(Y |X = x)
la curva de regresión de la media de Y sobre X. Este coeficiente η 2 verifica:

a) 0 ≤ η 2 ≤ 1
b) η 2 = 0 =⇒ y = E(Y ) (la curva es la recta y = constante).
c) η 2 = 1 =⇒ y = g(X) (Y es función de X)

3) Análogamente, podemos también plantear la hipótesis de que Y es alguna función


(no lineal) de x frente a la hipótesis nula de que no hay ningún tipo de relación.
Las hipótesis son:

H0 : y i = µ +  i
H1 : yi = g(xi ) + i

siendo µ constante. Entonces, con las mismas notaciones de antes,


X
SCRH = (yij − ȳ)2 con n − 1 g.l.
i,j
X
SCR = (yij − ȳi )2 con n − k g.l.
i,j

Operando, se llega al estadı́stico

η̂ 2 /(k − 1)
F = (6.14)
(1 − η̂ 2 )/(n − k)

Comparando 6.14 con 6.10, podemos interpretar 6.14 como una prueba de signifi-
cación de la razón de correlación.

Ejemplo 6.6.1
Se mide la luminosidad (en lúmenes) de un cierto tipo de lámparas después de un tiempo
determinado de funcionamiento (en horas). Los resultados para una serie de 3, 2, 3, 2 y 2
lámparas fueron:

Tiempo (x) Luminosidad (Y)

250 5460 5475 5400 (n1 = 3)


500 4800 4700 (n2 = 2)
750 4580 4600 4520 (n3 = 3)
1000 4320 4300 (n4 = 2)
1250 4000 4010 (n5 = 2)

102
Con estos datos podemos ilustrar algunos aspectos de la regresión lineal de la luminosidad
sobre el tiempo de funcionamiento.

Recta de regresión y coeficiente de correlación:

x̄ = 708,33 ȳ = 4680,42 n=12


sx = 351,09 sy = 500,08 sxy = −170190,97
r = −0,969 β̂1 = −1,381
y − 4680,42 = −1,381(x − 708,33)

La hipótesis H0 : β1 = 0 debe ser rechazada pues (ver 6.10) obtenemos t = 12,403


(10 g.l.) que es muy significativo.

Razón de correlación y carácter lineal de la regresión:

ȳ1 = 5445 ȳ2 = 4750 ȳ3 = 4566,7 ȳ4 = 4310 ȳ5 = 4005
s2y1 = 1050 s2y2 = 2500 s2y3 = 1155,5 s2y4 = 100 s2y5 = 25
ȳ = 4680,42 s2y = 250077 n = 12 k=5

k
1 X s2yi
η̂ 2 = 1 − ni = 0,996
n i=1 s2y
Aplicando 6.13
(0,996 − 0,939)/3
F = = 33,3
(1 − 0,996)/7
con 3 y 7 g.l. Se puede rechazar que la regresión es lineal.
Aplicando ahora 6.14
0,996/4
F = = 435,7
(1 − 0,996)/7
vemos que la razón de correlación es muy significativa.

6.7. Comparación de rectas


En primer lugar, vamos a estudiar detalladamente la comparación de dos rectas, ya que
en este caso las fórmulas son un poco más sencillas. A continuación presentaremos el caso
general cuyos detalles pueden verse en Seber[61] pág. 197-205.

6.7.1. Dos rectas


Consideremos dos muestras independientes de tamaños n1 y n2
(x11 , y11 ), (x12 , y12 ), . . . , (x1n1 , y1n1 )
(x21 , y21 ), (x22 , y22 ), . . . , (x2n1 , y2n1 )

sobre la misma variable regresora x y la misma variable respuesta Y con distribución


normal, pero para dos poblaciones distintas.

103
Los dos modelos de regresión simple para las dos poblaciones por separado son

y1i = α1 + β1 x1i + 1i i = 1, . . . , n1


y2i = α2 + β2 x2i + 2i i = 1, . . . , n2

y sus estimadores MC son


 1/2
Syh
α̂h = ȳh − β̂h x̄h β̂h = rh h = 1, 2
Sxh
donde x̄h , Sxh , ȳh , Syh , rh son las medias, sumas de cuadrados de las desviaciones y coefi-
ciente de correlación para cada una de las muestras h = 1, 2 respectivamente.
También deberemos considerar x̄, Sx , ȳ, Sy , r las medias, sumas de cuadrados de las des-
viaciones y coeficiente de correlación de las dos muestras conjuntamente.
Vamos a considerar las dos regresiones simples como un único modelo lineal. Para ello
hacemos
Y = (y11 , . . . , y1n1 , y21 , . . . , y2n2 )0
y  
1 0 x11 0
 .. .. .. ..   
. . . .  α1
 
1 0 x1n1 0  α2 
Xγ =   
0 1 0 x21   β1 
. .. .. .. 
 .. . . .  β2
0 1 0 x2n2
donde X es (n1 + n2 ) × 4 de rg(X) = 4.
Ası́ pues, el modelo que presenta a las dos regresiones simples conjuntamente Y = Xγ +
es un modelo lineal siempre que los errores verifiquen las condiciones de Gauss-Markov.
Entonces es necesario suponer que las varianzas de los errores para las dos poblaciones
son iguales σ12 = σ22 .
Para este modelo lineal, las estimaciones MC de los parámetros α1 , α2 , β1 , β2 coinciden
con las estimaciones MC de las rectas por separado α̂1 , α̂2 , β̂1 , β̂2 y la suma de cuadrados
residual es
n1
X n2
X
2
SCR = (y1i − α̂1 − β̂1 x1i ) + (y2i − α̂2 − β̂2 x2i )2
i=1 i=1
(6.15)
= SCR1 + SCR2 = Sy1 (1 − r12 ) + Sy2 (1 − r22 )
= Sy1 − β̂12 Sx1 + Sy2 − β̂22 Sx2

Para contrastar la hipótesis de homogeneidad de varianzas H0 : σ22 = σ22 podemos utilizar


el estadı́stico
SCR1 /(n1 − 2)
F = ∼ Fn1 −2,n2 −2
SCR2 /(n2 − 2)
y la estimación de la varianza común es

ECM = SCR/(n1 + n2 − 4)

También se pueden utilizar los contrastes que se explican en la sección 6.7.3.

104
Test de coincidencia

Se trata de investigar si las dos rectas se pueden considerar iguales, es decir, vamos a
contrastar la hipótesis
H0 : α 1 = α 2 , β 1 = β 2
Ésta es una hipótesis lineal contrastable (el modelo es de rango máximo) del tipo H0 :
Aγ = 0 con  
  α1
1 −1 0 0  
 α2 
Aγ =
0 0 1 −1  β1 
β2
donde A es 2 × 4 y q = rg A = 2. Luego podrı́amos utilizar las fórmulas obtenidas para
el contraste. Sin embargo, en este caso es mucho más fácil calcular directamente la suma
de cuadrados bajo la hipótesis.
Bajo H0 la estimación MC de los parámetros comunes α = α1 = α2 y β = β1 = β2 es
sencillamente la que se obtiene del modelo lineal conjunto, es decir, una única recta de
regresión con todos los datos juntos:

α∗ = ȳ − β ∗ x̄
 1/2
∗ Sy
β =r
Sx

Luego
n1
X n2
X
∗ ∗ 2
SCRH = (y1i − α − β x1i ) + (y2i − α∗ − β ∗ x2i )2
i=1 i=1
= Sy (1 − r2 )

De modo que el estadı́stico F es

(SCRH − SCR)/2 (Sy (1 − r2 ) − SCR)/2


F = = (6.16)
SCR/(n1 + n2 − 4) ECM

con distribución F2,n1 +n2 −4 , si H0 es cierta.

Test de paralelismo

Ahora queremos comprobar la hipótesis

H00 : β1 = β2

para la que A es 1 × 4 y q = rg A = 1.
Bajo H00 , la estimación MC de los parámetros α1 , α2 y β = β1 = β2 se obtiene de la
minimización de
n1
X n2
X
2
ξ= (y1i − α1 − βx1i ) + (y2i − α2 − βx2i )2
i=1 i=1

105
Las derivadas parciales son
X 1n
∂ξ
= 2(y1i − α1 − βx1i )(−1)
∂α1 i=1
X 2n
∂ξ
= 2(y2i − α2 − βx2i )(−1)
∂α2 i=1
X 1n X 2 n
∂ξ
= 2(y1i − α1 − βx1i )(−x1i ) + 2(y2i − α2 − βx2i )(−x2i )
∂β i=1 i=1

Al igualar a cero, de las dos primeras ecuaciones tenemos

α̃1 = ȳ1 − β̃ x̄1 α̃2 = ȳ2 − β̃ x̄2

y si sustituimos en la tercera ecuación


Pn1 P 2
x1i (y1i − ȳ1 ) + ni=1 x (y − ȳ2 )
β̃ = Pn1 i=1 Pn2 2i 2i
x1i (x1i − x̄1 ) + i=1 x2i (x2i − x̄2 )
P2i=1 Pnh
(xhi − x̄h )(yhi − ȳh )
= h=1 P2 i=1Pnh 2
h=1 i=1 (xhi − x̄h )
r1 (Sx1 Sy1 )1/2 + r2 (Sx2 Sy2 )1/2
=
Sx1 + Sx2
De modo que la suma de cuadrados es
n1
X n2
X
SCRH 0 = (y1i − α̃1 − β̃x1i )2 + (y2i − α̃2 − β̃x2i )2
i=1 i=1
X2 Xnh
= (yhi − ȳh − β̃(xhi − x̄h ))2
h=1 i=1
X2 X nh nh
2 X
X
2 2
= (yhi − ȳh ) − β̃ (xhi − x̄h )2
h=1 i=1 h=1 i=1

y el numerador del test F es


2
X nh
X nh
2 X
X
SCRH 0 − SCR = β̂h2 2
(xhi − x̄h ) − β̃ 2
(xhi − x̄h )2
h=1 i=1 h=1 i=1

Finalmente el estadı́stico F se puede escribir

β̂12 Sx1 + β̂22 Sx2 − β̃ 2 (Sx1 + Sx2 )


F =
ECM
que bajo la hipótesis sigue una distribución F1,n1 +n2 −4 .
En la práctica, primero se realiza un test de paralelismo y, si se acepta, se realiza el test
cuyo estadı́stico es
SCRH 0 − SCRH
F =
SCRH /(n1 + n2 − 3)
Finalmente, y si este último ha sido no significativo, procederemos con el contraste de
coincidencia.

106
Test de concurrencia

Se trata de comprobar la igualdad de los términos independientes de las dos rectas, es


decir
H000 : α1 = α2
Como en el apartado anterior, se puede ver que el mı́nimo de la función
n1
X n2
X
∗ 2
ξ = (y1i − α − β1 x1i ) + (y2i − α − β2 x2i )2
i=1 i=1

se alcanza cuando
 −1  Pn1 P 2 
x2 x22· x1· x1i y1i x2· ni=1 x2i y2i
ᾰ = n1 + n2 − Pn11· − Pn2 2 y·· − i=1
Pn1 2 − Pn2 2
x21i
i=1 i=1 x2i i=1 x1i i=1 x2i
Pn1 Pn2
i=1 (y1i − ᾰ)x1i (y2i − ᾰ)x2i
β̆1 = Pn1 2 β̆2 = i=1Pn2 2
i=1 x1i i=1 x2i
P P h P 1 P 2
donde y·· = 2h=1 ni=1 yhi , x1· = ni=1 x1i y x2· = ni=1 x2i .
Con estos resultados se puede calcular la suma de cuadrados
nh
2 X
X
SCRH 00 = (yhi − ᾰ − β̆h xhi )2
h=1 i=1

y el estadı́stico
SCRH 00 − SCR
F =
ECM
00
que, bajo H0 , sigue una distribución F1,n1 +n2 −4 .
El test que acabamos de ver contrasta la concurrencia de las dos rectas en x = 0. Si
deseamos comprobar la concurrencia en un punto x = c, bastará aplicar este mismo test
sustituyendo los datos xhi por xhi − c. Si lo que queremos es saber simplemente si las
rectas se cortan (en algún punto), es suficiente con rechazar la hipótesis de paralelismo.

6.7.2. Varias rectas


Supongamos que tenemos la intención de comparar H rectas de regresión

Y = α h + β h xh +  h = 1, . . . , H

donde E() = 0 y var() = σ 2 es la misma para cada recta. Esta última condición
es absolutamente imprescindible para poder aplicar los contrastes estudiados al modelo
lineal conjunto que ahora describiremos.
Para cada h, consideremos los nh pares (xhi , yhi ) i = 1, . . . , nh de modo que

yhi = αh + βh xhi + hi i = 1, . . . , nh

con hi independientes e idénticamente distribuidos como N (0, σ 2 ).

107
Sea Y = (y11 , . . . , y1n1 , . . . , yH1 , . . . , yHn2 )0 y
 
α1
 α2 
  .. 
1 0 ··· 0 x1 0 ··· 0  
 . 
 0 1 ··· 0 0 x2 ··· 0  
  αH 
Xγ =  .... . . .. .. .. ... ..  
 . . . . . . .  β1 
 
0 0 ··· 1 0 0 · · · xH  β2 
 .. 
 . 
βH

donde xh = (xh1 , . . . , xhnh )0 , para cada h = 1, . . . , H.


Con todo ello disponemos del modelo lineal

Y = Xγ + 
P
donde X es N × 2H, con rg(X) = 2H y N = H h=1 nh .
De esta forma podemos contrastar cualquier hipótesis lineal de la forma H0 : Aγ = c.
La estimación MC de los parámetros αh , βh de este modelo se obtiene de cada recta
particular
P  1/2
i (yP
hi − ȳh· )(xhi − x̄h· ) Syh
β̂h = 2
= rh
i (xhi − x̄h· ) Sxh
α̂h = ȳh· − β̂h x̄h·
donde x̄h· , Sxh , ȳh· , Syh , rh son las medias, sumas de cuadrados de las desviaciones y coe-
ficiente de correlación para cada una de las muestras h = 1, . . . , H respectivamente.
También la suma de cuadrados general SCR es simplemente la suma de las sumas de
cuadrados de los residuos de cada recta de regresión por separado
H nh nh
!
X X X
2 2 2
SCR = (yhi − ȳh· ) − β̂h (xhi − x̄h· )
h=1 i=1 i=1
XH H
X
= SCRh = Syh (1 − rh2 )
h=1 h=1
XH
= Syh − β̂h2 Sxh
h=1

Test de coincidencia

Se trata de investigar si las rectas son iguales, es decir, si

H0 : α1 = α2 = · · · = αH (= α) ; β1 = β2 = · · · = βH (= β)

que podemos escribir matricialmente con una matriz A de tamaño (2H − 2) × 2H de


rango 2H − 2.

108
A partir de las estimaciones MC de los parámetros α, β que se obtienen de la recta
ajustada con todos los puntos reunidos en una única muestra, la suma de cuadrados
residual es
nh
H X
X
SCRH = (yhi − ȳ·· − β ∗ (xhi − x̄·· ))2
h=1 i=1
XH X nh nh
H X
X
2
= (yhi − ȳ·· ) − (β )∗ 2
(xhi − x̄·· )2
h=1 i=1 h=1 i=1
2
= Sy (1 − r )

donde P P  1/2
∗ (y hi − ȳ ·· )(x hi − x̄ ·· ) Sy
β = h Pi P 2
=r
h i (xhi − x̄·· ) Sx
y los estadı́sticos x̄·· , Sx , ȳ·· , Sy , r son las medias, sumas de cuadrados de las desviaciones
y coeficiente de correlación de la muestra conjunta.
Entonces el estadı́stico F para el contraste de esta hipótesis es

(SCRH − SCR)/(2H − 2)
F = (6.17)
SCR/(N − 2H)

Contraste de paralelismo

Ahora se trata de investigar si las pendientes de las rectas son iguales, es decir, si

H00 : β1 = β2 = · · · = βH

que matricialmente es equivalente a


 
0 0 ··· 0 1 0 ··· 0 −1
 0 0 ··· 0  
 0 1 ··· 0 −1  α
H00 :  .. .. . . .. .... . . .. ..  β = 0
 . . . . . . . . . 
0 0 ··· 0 0 0 ··· 1 −1

En este caso, la matriz A que representa las restricciones de los parámetros es (H −1)×2H
y su rango es H − 1. De modo que tomando, en el contraste F , los valores q = H − 1,
n = N y k = 2H, el estadı́stico especificado para este contraste es

(SCRH 0 − SCR)/(H − 1)
F =
SCR/(N − 2H)

Para calcular el numerador de este estadı́stico podemos proceder con las fórmulas ge-
nerales estudiadas u observar las peculiaridades de este modelo que permiten obtener
SCRH 0 .
P P
Primero hay que minimizar h i (yhi −αh −βxhi )2 , de donde se obtienen los estimadores

α̃h = ȳh· − β̃ x̄h· h = 1, . . . , H

109
P P
xhi (yhi − ȳh· )
β̃ = P h P i
x (x − x̄h· )
Ph Pi hi hi
(yhi − ȳh· )(xhi − x̄h· )
= h Pi P 2
h i (xhi − x̄h· )
P
rh (Sxh Syh )1/2
= h P
h Sxh

Este último estimador es un estimador conjunto (pooled ) de la pendiente común.


Con estas estimaciones se procede a calcular la suma de cuadrados
H
X H
X
SCRH 0 = Syh − β̃ 2 Sxh
h=1 h=1

y el estadı́stico F es P P
( h β̂h2 Sxh − β̃ 2 h Sxh )/(H − 1)
F =
SCR/(N − 2H)
que bajo H00 sigue una distribución FH−1,N −2H .
En la práctica, es aconsejable comenzar por un contraste de paralelismo y, si se acepta,
continuar con el contraste cuyo estadı́stico es

(SCRH 0 − SCRH )/(H − 1)


F =
SCRH /(N − H − 1)

Finalmente, y si este último ha sido no significativo, procederemos con el contraste 6.17.

Test de concurrencia

Deseamos contrastar la hipótesis de que todas las rectas se cortan en un punto del eje de
las Y , es decir, para x = 0:

H000 : α1 = α2 = · · · = αH (= α)

En este caso, las estimaciones de los parámetros bajo la hipótesis son


 −1  P P 
x21· x2H· x1· i x1i y1i xH· i xHi yHi
ᾰ = N − P 2 − · · · − P 2 y·· − P 2 − ··· − P 2 −
i x1i i xHi i x1i i xHi
P
(yhi − ᾰ)xhi
β̆h = i P 2 h = 1, 2, . . . , H
i xhi
P P P
donde xh· = i xhi y y·· = h i yhi .
La suma de cuadrados residual es
XX
SCRH 00 = (yhi − ᾰ − β̆h xhi )2
h i

y con ella se puede calcular el estadı́stico F para el contraste

(SCRH 00 − SCR)/(H − 1)
F =
SCR/(N − 2H)

110
Cuando los valores de las x son los mismos para todas las rectas, tenemos que nh = n y
xhi = xi para toda h = 1, . . . , H y ası́ las fórmulas son más simples
 −1  P 
Hx2· x· i xi y·i
ᾰ = Hn − P 2 y·· − P 2
i xi i xi
P P P
x̄ h i yhi (xi − x̄) β̂h
= ȳ·· − P 2
= ȳ·· − x̄ h
H i (xi − x̄) H

donde cada β̂h es la estimación de la pendiente de la h-ésima recta, mientras que ᾰ es el


corte de la recta de regresión media.
En este caso
XX P P P
2 ( h i xi yhi )2 2 (xi − x̄)2
SCRH 00 = yhi − P 2 − ᾰ Hn i P 2
h i i xi i xi

Además, como ȳ·· y β̂h están incorrelacionados

var(β̂h )
var(ᾰ) = var(ȳ·· ) + H x̄2
 H2  P
σ 2
1 x̄ 2
σ 2 i x2i
= +P 2
= P
H n i (xi − x̄) nH i (xi − x̄)2

de modo que tenemos la posibilidad de construir un intervalo de confianza para α ya que


 P 1/2
nH i (xi − x̄)2
(ᾰ − α) P ∼ tH(n−2)
ECM i x2i

donde ECM = SCR/(nH − 2H).


Por otra parte, también podemos estudiar si las rectas se cortan en un punto x = c distinto
del cero. Simplemente reemplazaremos xhi por xhi − c en todas las fórmulas anteriores.
La coordenada y del punto de corte sigue siendo estimada por ᾰ.
Sin embargo, si el punto de corte es desconocido x = φ, la hipótesis a contrastar es mucho
más complicada

H0000 : αh + βh φ = cte. = ᾱ + β̄φ h = 1, 2, . . . , h

o también
α1 − ᾱ αH − ᾱ
H0000 : = ··· =
β1 − β̄ βH − β̄
y desgraciadamente no es lineal.

6.7.3. Contraste para la igualdad de varianzas


En los contrastes de comparación de rectas se hace la suposición de la igualdad de las
varianzas σh2 de los modelos lineales simples h = 1, . . . , H.
Los estimadores de dichas varianzas son los errores cuadráticos medios particulares
P
2 (yhi − ȳh· − β̂h (xhi − x̄h· ))2
Sh = i
nh − 2

111
y sabemos que

(nh − 2)Sh2 /σh2 ∼ χ2nh −2 h = 1, . . . , H indep.

Para contrastar la hipótesis


H0 : σ12 = · · · = σH
2

hay varios métodos, desde los más clásicos de Bartlett(1937) o Hartley(1950), muy sensi-
bles a la no normalidad de los datos, hasta los más robustos entre los que destaca el de
Levene con sus variantes.
Si hacemos fh = nh − 2, el test de Bartlett es
P P
( fh )logS 2 − (fh logSh2 )
T =
C
donde P P P
fh S 2 fh−1 − ( fh )−1
S = P h
2
C =1+
fh 3(H − 1)
Si H0 es cierta, aproximadamente T ∼ χ2H−1 .
Cuando los fh son todos iguales, Hartley propone el estadı́stico

máx{S12 , . . . , SH
2
}
F = 2 2
mı́n{S1 , . . . , SH }

Sin embargo, como se trata de comparar las varianzas a partir de las observaciones o
réplicas de H poblaciones, es mejor considerar el problema como un análisis de la varianza
de un factor. La prueba robusta de Levene sobre la homogeneidad de varianzas se basa
en el análisis de la varianza de un factor con los datos zhi = |yhi − ȳh· |. Para reforzar la
resistencia del método se puede utilizar como medida de localización la mediana.
Finalmente podemos añadir que, cuando la heterogeneidad de las varianzas es evidente,
siempre es posible estudiar alguna transformación potencia de los datos originales y hi que
mejore la situación.

6.8. Un ejemplo para la reflexión


La siguiente tabla presenta cinco conjuntos de datos para cinco modelos de regresión
simple diferentes: los datos bajo el encabezamiento x1 (a-d) son los valores de una variable
regresora que es común en las cuatro regresiones con las variables respuesta y(a), y(b),
y(c) y y(d). Las series de datos x(e) y y(e) definen otra regresión.
Se puede comprobar que, en los cinco casos, la regresión de y sobre x conduce exactamente
a la misma recta
y = 0,520 + 0,809x
La varianza explicada, la no explicada i la varianza residual son idénticas en todas las
regresiones, ası́ como también el coeficiente de determinación.
Por lo tanto, las cinco regresiones parecen ser formalmente idénticas. A pesar de ello, si
dibujamos en cada caso los diagramas de dispersión y la recta de regresión, observaremos
que nuestra impresión se modifica radicalmente: en la página 114 tenemos los gráficos
para los cinco conjuntos de datos.

112
obs. x1 (a-d) y(a) y(b) y(c) y(d) x(e) y(e)
1 7 5,535 0,103 7,399 3,864 13,715 5,654
2 8 9,942 3,770 8,546 4,942 13,715 7,072
3 9 4,249 7,426 8,468 7,504 13,715 8,496
4 10 8,656 8,792 9,616 8,581 13,715 9,909
5 12 10,737 12,688 10,685 12,221 13,715 9,909
6 13 15,144 12,889 10,607 8,842 13,715 9,909
7 14 13,939 14,253 10,529 9,919 13,715 11,327
8 14 9,450 16,545 11,754 15,860 13,715 11,327
9 15 7,124 15,620 11,676 13,967 13,715 12,746
10 17 13,693 17,206 12,745 19,092 13,715 12,746
11 18 18,100 16,281 13,893 17,198 13,715 12,746
12 19 11,285 17,647 12,590 12,334 13,715 14,164
13 19 21,385 14,211 15,040 19,761 13,715 15,582
14 20 15,692 15,577 13,737 16,382 13,715 15,582
15 21 18,977 14,652 14,884 18,945 13,715 17,001
16 23 17,690 13,947 29,431 12,187 33,281 27,435

Tabla 6.4: Datos de cinco regresiones simples

número de obs. n = 16 β̂1 = 0,809 ee(β̂1 )=0,170


media de las x1 x̄1 = 14,938 β̂0 = 0,520 ee(β̂0 )=2,668
media de las y ȳ = 12,600 R2 = 0,617
P P
(yi − ȳ)2 = 380,403 con 15 g.l. (yi − ŷi )2 = 145,66 con 14 g.l.
σ̂ = 3,226

Tabla 6.5: Principales resultados de la regresión simple

La figura a es la que representan todos los manuales que explican la regresión simple.
El modelo de la regresión lineal simple parece correcto y adaptado a los datos que
permite describir correctamente. El modelo parece válido.

La figura b sugiere que el modelo lineal simple no está absolutamente adaptado


a los datos que pretende describir. Más bien, la forma adecuada es la cuadrática
con una débil variabilidad. El modelo lineal simple es incorrecto; en particular,
las predicciones que él proporciona son sesgadas: subestimaciones para los valores
próximos a la media de x y sobreestimaciones para el resto.

La figura c sugiere todavı́a que el modelo lineal simple no se adapta a los datos,
pero una única observación parece ser la causa. Por contra, las otras observaciones
están bien alineadas pero respecto a otra recta de ecuación y = 4,242+0,503x1 . Hay
pues, un dato verdaderamente sospechoso. La reacción natural del experimentador
será la de investigar con detalle la razón de esta desviación. ¿No será un error de
transcripción? ¿Hay alguna causa que justifique la desviación y que no tiene en
cuenta el modelo lineal simple?

113
30 a 30 b

20 20

10 10

0 0
0 10 20 30 0 10 20 30

30 c 30 d

20 20

10 10

0 0
0 10 20 30 0 10 20 30

30 e

20

10

0
0 10 20 30

Figura 6.2: Gráficos de los cinco conjuntos de datos con la recta de regresión

La figura d tiene un análisis más sutil: los puntos rodean la recta, pero aumentan
las desviaciones a medida que crecen los valores de la variable regresora. Se hace
evidente que la suposición de una varianza común de los residuos no se verifica.

Finalmente, la figura e es más contundente: el modelo parece correcto. Si la calidad


de los datos no puede ponerse en duda, este conjunto es tan válido como el primero
y los resultados numéricos de la regresión son correctos. Pero nosotros intuimos que
este resultado no es lo suficientemente satisfactorio: todo depende de la presencia

114
de un único punto, si lo suprimimos, incluso no será posible calcular la pendiente
de la recta, ya que la suma de los cuadrados de las desviaciones de las x es cero.
Éste no es el caso del primer conjunto de datos, donde la supresión de un punto no
conduce más que a una ligera modificación de los resultados. Ası́ pues, deberı́amos
ser extremadamente cautos con las posibles utilizaciones de este modelo. Además,
debemos indicar que el experimento definido por los valores de x es muy malo.

Naturalmente, los conjuntos de datos b, c, d y e muestran casos extremos que, en la


práctica, no hallaremos de forma tan clara. Ésta es una razón suplementaria para dotar al
experimentador de medios para detectarlos. Cuando las desviaciones de las suposiciones
del modelo son débiles, los resultados no serán erróneos, pero si las suposiciones son
groseramente falsas, las conclusiones pueden incluso no tener sentido. La herramienta
fundamental para la validación de las hipótesis del modelo es el análisis de los residuos
del modelo estimado.
El análisis de los residuos tiene como objetivo contrastar a posteriori las hipótesis del
modelo lineal. Es especialmente importante cuando, si tenemos un único valor de y para
cada x, los contrastes de homocedasticidad, normalidad e independencia no se pueden
hacer a priori. Analizaremos los residuos para comprobar:

a) si la distribución es aproximadamente normal;

b) si su variabilidad es constante y no depende de x o de otra causa;

c) si presentan evidencia de una relación no lineal entre las variables;

d) si existen observaciones atı́picas o heterogéneas respecto a la variable x, la y o


ambas.

6.9. Ejemplos con S-PLUS


Vamos a recuperar el ejemplo de la sección 1.8 donde se calculan algunas regresiones a
partir del ejemplo inicial con los datos de la tabla 1.1. En esa sección, el cálculo de la
regresión simple se realiza con la función lsfit(x,y) que asignamos al objeto recta.ls

> recta.ls<-lsfit(dens,rvel)

Ahora utilizaremos la función lm que define el modelo de regresión simple.

> recta<-lm(rvel~dens)
> recta
Call:
lm(formula = rvel ~ dens)

Coefficients:
(Intercept) dens
8.089813 -0.05662558

Degrees of freedom: 24 total; 22 residual


Residual standard error: 0.2689388

115
También se pueden obtener otros datos importantes con la función summary:

> recta.resumen<-summary(recta)
> recta.resumen

Call: lm(formula = rvel ~ dens)


Residuals:
Min 1Q Median 3Q Max
-0.3534 -0.2272 -0.03566 0.1894 0.5335

Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) 8.0898 0.1306 61.9295 0.0000
dens -0.0566 0.0022 -26.0076 0.0000

Residual standard error: 0.2689 on 22 degrees of freedom


Multiple R-Squared: 0.9685
F-statistic: 676.4 on 1 and 22 degrees of freedom, the p-value is 0

Correlation of Coefficients:
(Intercept)
dens -0.9074

Además se puede acceder a muchos valores de los objetos recta y recta.resumen de


forma directa.

> recta$coef
(Intercept) dens
8.089813 -0.05662558
> recta.resumen$sigma
[1] 0.2689388

En general, podemos saber los diferentes resultados que se obtienen con el comando lm
si escribimos names(recta) o names(summary(recta)).

> names(recta)
[1] "coefficients" "residuals" "fitted.values" "effects" "R" "rank"
[7] "assign" "df.residual" "contrasts" "terms" "call"
> names(summary(recta))
[1] "call" "terms" "residuals" "coefficients" "sigma" "df"
[7] "r.squared" "fstatistic" "cov.unscaled" "correlation"

De modo que podemos utilizar estos datos para nuevos cálculos. Por ejemplo podemos cal-
cular la matriz estimada de covarianzas entre los estimadores de los parámetros σ̂ 2 (X0 X)−1
ası́:

> cov.beta<-round(recta.resumen$sigma^2*recta.resumen$cov.unscaled,6)
> cov.beta
(Intercept) dens
(Intercept) 0.017064 -0.000258
dens -0.000258 0.000005

116
Por otra parte, y aunque el resumen proporcionado por la función summary(recta) inclu-
ye el test F de significación de la regresión, la tabla del Análisis de la Varianza se puede
calcular con la función aov.

> summary(aov(recta))
Df Sum of Sq Mean Sq F Value Pr(F)
dens 1 48.92231 48.92231 676.3944 0
Residuals 22 1.59122 0.07233

También se pueden calcular intervalos de confianza al 95 % para los parámetros β0 , β1 .

> coef(recta)
(Intercept) dens
8.089813 -0.05662558
> coef.recta<-coef(recta)
> names(coef.recta)
[1] "(Intercept)" "dens"
> names(coef.recta)<-NULL # Truco para utilizar mejor los coeficientes
> coef.recta
1 2
8.089813 -0.05662558
> ee0<-sqrt(cov.beta[1,1])
> ee1<-sqrt(cov.beta[2,2])
> c(coef.recta[1]+qt(0.025,22)*ee0,coef.recta[1]+qt(0.975,22)*ee0)
[1] 7.818905 8.360721
> c(coef.recta[2]+qt(0.025,22)*ee1,coef.recta[2]+qt(0.975,22)*ee1)
[1] -0.06126290 -0.05198826

Cabe señalar que si el modelo de regresión simple debe pasar por el origen, es decir, no
tiene término de intercepción, podemos utilizar la función lsfit(x,y,int=F) o la función
lm(y ~ x - 1).
La predicción puntual o por intervalo de nuevos valores de la variable respuesta se puede
hacer con la función predict del modelo lineal. Atención, porque los argumentos en
S-PLUS y R difieren.
Por último, podemos añadir que en R existe un conjunto de datos similares a los explicados
en la sección 6.8:

> data(anscombe)
> summary(anscombe)

117
6.10. Ejercicios
Ejercicio 6.1
Probar que bajo el modelo lineal normal yi = β0P + β1 xi + i las estimaciones MC β̂0 , β̂1
son estocásticamente independientes si y sólo si xi = 0.

Ejercicio 6.2
Comprobar que la pendiente de la recta de regresión es
1/2
Sy sy
β̂1 = r 1/2
=r
Sx sx

donde r es el coeficiente de correlación


Sxy sxy
r= =
(Sx Sy )1/2 sx sy

Ejercicio 6.3
Consideremos el modelo de regresión simple alternativo

yi = γ0 + γ1 (xi − x̄) + i i = 1, . . . , n

La matriz de diseño asociada es X∗ = (1, x− x̄1) donde 1 = (1, . . . , 1)0 y x = (x1 , . . . , xn )0 .


Este modelo es equivalente al modelo 6.1 ya que hX∗ i = hXi.
Calcular las estimaciones γb = (X0∗ X∗ )−1 X0∗ Y para comprobar que

γ̂0 = ȳ
X xi − x̄
γ̂1 = β̂1 = yi
Sx

Calcular la matriz de varianzas-covarianzas var(b γ ) = σ 2 (X0∗ X∗ )−1 y comprobar que


γ̂0 = ȳ está incorrelacionado con γ̂1 = β̂1 . A partir de este resultado, calcular var(β̂1 ) =
var(γ̂1 ) y var(β̂0 ) = var(ȳ − β̂1 x̄).
Calcular también la matriz proyección P = X∗ (X0∗ X∗ )−1 X0∗ = X(X0 X)−1 X0 .

Ejercicio 6.4
En un modelo de regresión simple, con β0 , demostrar que se verifican las siguientes pro-
piedades para las predicciones ŷi = β̂0 + β̂1 xi y los residuos ei = yi − ŷi :
P
(i) La suma de los residuos es cero: ei = 0.
P P
(ii) yi = ŷi

(iii) La
P suma de los residuos ponderada por los valores de la variable regresora es cero:
xi ei = 0.

(iv) La sumaPde los residuos ponderada por las predicciones de los valores observados
es cero: ŷi ei = 0.

118
Ejercicio 6.5 Modelo de regresión simple estandarizado
A partir de los datos observados de una variable respuesta yi y de una variable regresora
xi se definen unas nuevas variables estandarizadas como
xi − x̄ yi − ȳ
ui = 1/2
vi = 1/2
i = 1, . . . , n
Sx Sy

La estandarización significa que los datos transformados están centrados y los vectores
u = (u1 , . . . , un )0 , v = (v1 , . . . , vn )0 son de longitud uno, es decir, ||u|| = 1 y ||v|| = 1.
Se define el modelo de regresión simple estandarizado como

v i = b 1 ui +  i i = 1, . . . , n

En este modelo desaparece de manera natural la ordenada en el origen al realizar el


cambio de variables.
Comprobar que
r
Sy
β̂1 = b̂1
Sx
β̂0 = ȳ − β̂1 x̄

Además, la “matriz” u0 u = ||u||2 = 1 y la estimación de b1 es muy sencilla b̂1 = r.

Ejercicio 6.6
En el caso de una regresión lineal simple pasando por el origen y con la hipótesis de
normalidad, escribir el contraste de la hipótesis H0 : β1 = b1 , donde b1 es una constante
conocida.

Ejercicio 6.7
Para el modelo lineal simple consideremos la hipótesis

H 0 : y 0 = β 0 + β 1 x0

donde (x0 , y0 ) es un punto dado. Esta hipótesis significa que la recta de regresión pasa
por el punto (x0 , y0 ). Construir un test para esta hipótesis.

Ejercicio 6.8
Hallar la recta de regresión simple de la variable respuesta raı́z cuadrada de la velocidad
sobre la variable regresora densidad con los datos de la tabla 1.1 del capı́tulo 1.
Comprobar las propiedades del ejercicio 6.4 para estos datos.
Calcular la estimación de σ 2 y, a partir de ella, las estimaciones de las desviaciones
estándar de los estimadores de los parámetros β̂0 y β̂1 .
Escribir los intervalos de confianza para los parámetros con un nivel de confianza del
95 %.
Construir la tabla para la significación de la regresión y realizar dicho contraste.
Hallar el intervalo de la predicción de la respuesta media cuando la densidad es de 50
vehı́culos por km. Nivel de confianza: 90 %.

119
Ejercicio 6.9
Comparar las rectas de regresión de hombres y mujeres con los logaritmos de los datos
del ejercicio 1.4.

Ejercicio 6.10
Se admite que una persona es proporcionada si su altura en cm es igual a su peso en kg
más 100. En términos estadı́sticos si la recta de regresión de Y (altura) sobre X (peso)
es
Y = 100 + X
Contrastar, con un nivel de significación α = 0,05, si se puede considerar válida esta
hipótesis a partir de los siguientes datos que corresponden a una muestra de mujeres
jóvenes:

X : 55 52 65 54 46 60 54 52 56 65 52 53 60
Y : 164 164 173 163 157 168 171 158 169 172 168 160 172

Razonar la bondad de la regresión y todos los detalles del contraste.

Ejercicio 6.11
q
El perı́odo de oscilación de un péndulo es 2π gl , donde l es la longitud y g es la constante
de gravitación. En un experimento observamos tij (j = 1, . . . , ni ) perı́odos correspondien-
tes a li (i = 1, . . . , k) longitudes.

(a) Proponer un modelo, con las hipótesis que se necesiten, para estimar la constante


g
por el método de los mı́nimos cuadrados.

(b) En un experimento se observan los siguientes datos:

longitud perı́odo
18,3 8,58 7,9 8,2 7,8
20 8,4 9,2
21,5 9,7 8,95 9,2
15 7,5 8


Contrastar la hipótesis H0 : √
g
= 2.

120
Capı́tulo 7

Una recta resistente

Para ajustar una linea recta de la forma

y = a + bx

a un conjunto de datos (xi , yi ), i = 1, . . . , n se han desarrollado varios métodos a lo largo


de la historia. La regresión por mı́nimos cuadrados que hemos explicado es el método
más conocido y más ampliamente utilizado. Es un método que involucra cálculos alge-
braicamente simples, utiliza la inferencia deducida para la distribución normal y requiere
únicamente una derivación matemática sencilla. Desgraciadamente, la recta de regresión
mı́nimo-cuadrática no es resistente. Un dato “salvaje” puede tomar fácilmente el control
de la recta ajustada y conducirnos a conclusiones engañosas sobre la relación entre y y
x. La llamada recta resistente de los tres grupos evita esta dificultad. Ası́, esta recta es
muy útil en la exploración de los datos y-versus-x.
A continuación exponemos las principales ideas en este tema del clásico libro Understan-
ding Robust and Exploratory Data Analysis de Hoaglin, Mosteller y Tukey [35].

7.1. Recta resistente de los tres grupos


7.1.1. Formación de los tres grupos
Empezaremos por ordenar los valores x de manera que x1 ≤ x2 ≤ · · · ≤ xn . Entonces,
sobre la base de estos valores ordenados, dividiremos los n puntos (xi , yi ) en tres grupos:
un grupo izquierdo, un grupo central y un grupo derecho, de tamaño tan igual como sea
posible. Cuando no hay repeticiones en les xi , el número de puntos en cada uno de los
tres grupos depende del residuo de la división de n por 3:

Grupo n = 3k n = 3k + 1 n = 3k + 2
Izquierdo k k k+1
Central k k+1 k
Derecho k k k+1

Repeticiones de los xi nos harán estar alerta para formar tres conjuntos que no separen
los puntos con igual x en conjuntos diferentes. Un examen detallado del tratamiento de
las repeticiones nos puede llevar incluso a formar únicamente dos grupos. Cuando cada
uno de los tercios ha sido definitivamente formado, determinaremos las dos coordenadas
de unos puntos centrales, uno para cada grupo, con la mediana de los valores de las x y

121
la mediana de los valores de las y, por separado. Etiquetaremos las coordenadas de estos
tres puntos centrales con las letras I de izquierda, C de centro i D de derecha:

(xI , yI ), (xC , yC ), (xD , yD )

La figura 7.1 muestra los puntos observados y los puntos centrales de un ejemplo hipotético
con 9 puntos. Como se ve en este gráfico, ninguno de los puntos centrales coincide con un
punto de los datos, ya que las medianas de les x y de las y se han calculado separadamente.
A pesar de ello, los tres podrı́an ser puntos observados, como ocurre a menudo, cuando
las x y las y siguen el mismo orden.

Figura 7.1: Puntos observados y puntos centrales en un ejemplo hipotético.

Este sistema de determinación de los puntos centrales de cada grupo es el que da a la


recta que calcularemos su resistencia. Cuanto mayor es el número de puntos observados
en cada grupo, la mediana proporciona la resistencia a los valores influyentes de x, y o
ambos.

7.1.2. Pendiente e intercepción


Ahora utilizaremos los puntos centrales para calcular la pendiente b y la ordenada en el
origen o intercepción a de la recta y = a + bx que ajusta los valores observados y permite
la predicción de los valores xi observados y cualquier otro valor apropiado de x. En este
sentido, la pendiente b nos dice cuantas unidades de y cambian por una unidad de x. Es
razonable obtener esta información de los datos, en concreto de los puntos centrales de
los grupos izquierdo y derecho:
yD − y I
b0 =
xD − x I
La utilización de los dos puntos centrales de los grupos extremos nos da la ventaja de
medir el cambio de y sobre un intervalo bastante ancho de x, siempre que hayan suficientes
puntos observados en estos grupos para asegurar la resistencia.
Cuando tomamos la pendiente b0 para ajustar el valor y de cada punto central, la dife-
rencia es el valor de la intercepción de una linea con pendiente b0 que pasa exactamente
por este punto. La intercepción ajustada es la media de estos tres valores:
1
a0 = [(yI − b0 xI ) + (yC − b0 xC ) + (yD − b0 xD )]
3
De nuevo, como los puntos centrales están basados en la mediana, a0 es resistente.

122
El ajuste de una recta en términos de pendiente e intercepción es convencional, pero
usualmente artificial. La intercepción, que da el valor de y cuando x = 0, puede ser
determinada de forma imprecisa, especialmente cuando los valores de x están todos muy
alejados del cero y el cero es un valor sin sentido en el rango de las x. Ajustar la recta
en términos de pendiente y un valor central de las x, como la media, la mediana o xC , es
mucho más útil. Nosotros escogeremos xC por conveniencia y entonces la recta inicial es

y = a∗0 + b0 (x − xC )

donde b0 es la de antes y el valor central (también llamado nivel) es


1
a∗0 = [(yI − b0 (xI − xC )) + yC + (yD − b0 (xD − xC ))]
3
Como ahora explicaremos, esta recta se toma como punto de partida para ajustar una
mejor con iteraciones sucesivas.

7.1.3. Ajuste de los residuos e iteraciones


Una vez que hemos obtenido la pendiente y el nivel de la recta ajustada, el siguiente paso
es calcular los residuos para cada punto

ri = yi − [a∗ + b(xi − xC )]

Los gráficos de los residuos son muy útiles en la evaluación del ajuste y para descubrir
patrones de comportamiento inesperados. Pero ahora, de momento, resaltaremos una pro-
piedad general de todo conjunto de residuos, en nuestro problema actual o en situaciones
más complejas:

Si substituimos los valores originales de y por los residuos, es decir, si utiliza-


mos (xi , ri ) en lugar de (xi , yi ), i = 1, . . . , n y repetimos el proceso de ajuste,
llegaremos a un ajuste cero.

Para una linea recta esto significa que, con los puntos (xi , ri ), i = 1, . . . , n como datos, ob-
tendremos una pendiente cero y un nivel cero. En otras palabras, los residuos no contienen
más aportación a la recta ajustada.
Una importante caracterı́stica de los procedimientos resistentes es que habitualmente
requieren iteraciones. Es el caso de la recta resistente de los tres grupos. Los residuos de
la recta con la pendiente b0 y el nivel a∗0 no tienen pendiente y nivel cero cuando hacemos
el ajuste de la recta con las mismas xi , aunque los nuevos valores de pendiente y nivel
son substancialmente menores (en magnitud) que b0 y a∗0 . Por esta razón, pensaremos en
b0 y a∗0 como los valores iniciales de una iteración.
El ajuste a una recta de los residuos obtenidos con la recta inicial da unos valores δ1 y γ1
a la pendiente y el nivel, respectivamente. En concreto, utilizaremos los residuos iniciales
(0)
ri = yi − [a∗0 + b0 (xi − xC )], i = 1, . . . , n

en lugar de los yi y repetiremos los pasos del proceso de ajuste. Como el conjunto de los
xi no ha cambiado, los tres grupos y las medianas de los x en los puntos centrales serán
los mismos.

123
Tabla 7.1: Edad y altura de unos niños en una escuela privada.
Niño Edad Altura
(meses) (cm)
1 109 137,6
2 113 147,8
3 115 136,8
4 116 140,7
5 119 132,7
6 120 145,4
7 121 135,0
8 124 133,0
9 126 148,5
10 129 148,3
11 130 147,5
12 133 148,8
13 134 133,2
14 135 148,7
15 137 152,0
16 139 150,6
17 141 165,3
18 142 149,9

Fuente: B.G. Greenberg (1953). “The use of analysis of covariance and balan-
cing in analytical studies”, American Journal of Public Health, 43, 692-699
(datos de la tabla 1, pág. 694).

La pendiente y el nivel ajustados son b0 + δ1 y a∗0 + γ1 y los nuevos residuos


(1) (0)
ri = ri − [γ1 + δ1 (xi − xC )], i = 1, . . . , n

Ahora podemos avanzar con otra iteración. En general no sabremos si hemos conseguido
un conjunto apropiado de residuos, hasta que verifiquemos el ajuste cero. En la práctica
continuaremos las iteraciones hasta que el ajuste de la pendiente sea suficientemente
pequeño en magnitud, del orden del 1 % o del 0,01 % del tamaño de b0 . Cada iteración
añade su pendiente y su nivel a los valores previos

b1 = b 0 + δ 1 , b 2 = b 1 + δ 2 , . . .

y
a∗1 = a∗0 + γ1 , a∗2 = a∗1 + γ2 , . . .
Las iteraciones son normalmente pocas y los cálculos no muy largos.

Ejemplo 7.1.1
En una discusión en 1953, Greenberg consideró los datos de edad y altura de dos muestras
de niños, una de una escuela privada urbana y la otra de una escuela pública rural. En
la tabla 7.1 se reproducen los datos de los 18 niños de la escuela privada.
Aunque los datos no siguen claramente una linea recta, su patrón no es notablemente
curvado y el ajuste a una linea puede resumir cómo la altura y crece con la edad x en

124
este grupo de niños. Sólo los niños 13 y 17 tienen puntos muy separados y veremos cómo
influyen en el conjunto. Dado que 18 es divisible por 3 y los datos x no tienen repeticiones,
cada grupo contiene seis puntos. Los puntos centrales de cada grupo son

(xI , yI ) = (115,50, 139,15)


(xC , yC ) = (127,50, 147,90)
(xD , yD ) = (138,00, 150,25)

de forma que el valor inicial de la pendiente es


150,25 − 139,15
b0 = = 0,4933
138,00 − 115,50
y el valor inicial del nivel
1
a∗0 = [(139,15−0,4933(115,5−127,5))+147,9+(150,25−0,4933(138−127,5))] = 146,0133
3

180

160
Altura

140

120
100 110 120 130 140 150
Edad

Figura 7.2: Altura versus edad para los niños de una escuela privada.

Los datos de la tabla 7.2 están ya ordenados en función de los valores de x = Edad y se
han calculado los residuos de la recta inicial.
Para ver cómo van las iteraciones, calcularemos los primeros ajustes de la pendiente y
del nivel
−1,0500 − 0,5367
δ1 = = −0,0705
138,00 − 115,50
γ1 = −0,1519

Notemos que δ1 es sustancialmente menor en magnitud que b0 , pero todavı́a no es negli-


gible. Dos iteraciones más nos proporcionan unos valores para los que el proceso puede
parar: δ3 = −0,0006 es menor que un 1 % de la pendiente acumulada.
La recta ajustada es
y = 145,8643 + 0,4285(x − 127,5)
La figura 7.3 representa los residuos de este ajuste. En general, el aspecto global es bas-
tante satisfactorio. Sólo los dos puntos destacados, el del niño 13 y el del niño 17, se
separan mucho y son atı́picos. También hay tres residuos demasiado negativos para niños

125
Tabla 7.2: Edad y altura de los niños en los tres grupos y residuos de la recta inicial

Niño Edad Altura Residuo


(meses) (cm)
1 109 137,6 0,7133
2 113 147,8 8,9400
3 115 136,8 −3,0467
4 116 140,7 0,3600
5 119 132,7 −9,1200
6 120 145,4 3,0867

7 121 135,0 −7,8067


8 124 133,0 −11,2867
9 126 148,5 3,2267
10 129 148,3 1,5467
11 130 147,5 0,2533
12 133 148,8 0,0733

13 134 133,2 −16,0200


14 135 148,7 −1,0133
15 137 152,0 1,3000
16 139 150,6 −1,0867
17 141 165,3 12,6267
18 142 149,9 −3,2667

126
20

10

Residuos
0

-10

-20
100 110 120 130 140 150
Edad

Figura 7.3: Residuos de la altura versus edad, después del ajuste por la recta resistente.

que tienen alrededor de 120 meses. Si tuviéramos más información, podrı́amos estudiar
porqué estos niños son demasiado altos o demasiado bajos para su edad. Por ejemplo,
podrı́amos separar los niños de las niñas.
En este ejemplo hemos visto cómo dos puntos, hasta cierto punto inusuales, han tenido
muy poco efecto, si han tenido alguno, en el ajuste general de los datos. Una recta ajustada
por el método de los mı́nimos cuadrados corre mucho más riesgo de dejarse influenciar
por estos puntos. Para estos datos la recta de regresión mı́nimo-cuadrática es

y = 79,6962 + 0,5113x

o
y = 144,8853 + 0,5113(x − 127,5)
donde observamos cómo los puntos 5, 7, 8 y 17 han torcido la recta. Además, si el valor de
y del punto 13 no fuera tan bajo, la recta mı́nimo-cuadrática podrı́a ser más empinada. En
todo caso, como la evaluación del ajuste se hace con los residuos, la figura 7.4 nos muestra
los residuos mı́nimo-cuadráticos con la edad. Aunque es bastante similar al anterior,
este gráfico nos da la sensación de una ligera tendencia a la baja. Es decir, los residuos
mı́nimo-cuadráticos resultarı́an más horizontales si elimináramos de ellos una recta con
una pendiente ligeramente negativa.
En este ejemplo la variabilidad de los residuos merece más atención que la diferencia
entre las pendientes de la recta de regresión mı́nimo-cuadrática y la recta resistente. Por
ejemplo, la desviación estándar de los residuos mı́nimo-cuadráticos es 6,8188 y el error
estándar de la pendiente es 0,1621, sobre dos veces la diferencia entre las pendientes.
Ası́ hemos visto, cualitativamente, cómo algunos datos pueden afectar a la recta mı́nimo-
cuadrática mucho más que la recta resistente. En todo caso, cuando los datos están razo-
nablemente bien dispuestos las dos lı́neas son parecidas.

7.1.4. Mejora del método de ajuste


Para algunos conjuntos de datos, el procedimiento iterativo explicado para ajustar la
recta resistente encuentra dificultades. Los ajustes de la pendiente pueden decrecer muy
lentamente o, después de unos pocos pasos, dejar de decrecer y oscilar entre dos valores.

127
20

10

Residuos MC
0

-10

-20
100 110 120 130 140 150
Edad

Figura 7.4: Residuos mı́nimo-cuadráticos versus edad.

Afortunadamente, una modificación elimina completamente estos problemas y permite


que el número de iteraciones sea mucho más limitado.
La solución propuesta por Johnstone y Velleman (1982) es un procedimiento iterativo
para el cálculo de la pendiente que asegura la convergencia hacia un valor único.
En el cálculo de la pendiente en la j + 1 iteración tenemos
(j) (j)
rD − r I
δj+1 =
xD − x I
(j) (j)
y esto será 0 justamente cuando el numerador rD − rI = 0. Es decir, lo que debemos
hacer es hallar el valor de b que proporciona la misma mediana a los residuos del grupo
derecho y del grupo izquierdo. Más formalmente
∆r(b) = rD (b) − rI (b)
muestra la dependencia funcional de b y prescinde del número de la iteración. Buscamos
el valor de b que hace ∆r(b) = 0. Notemos que centraremos el proceso iterativo en b y
dejaremos a para el final.
Empezaremos por calcular b0 como antes y calcularemos ∆r(b0 ) y δ1 como ya sabemos.
A continuación calcularemos ∆r(b0 + δ1 ). Generalmente, ∆r(b0 ) y ∆r(b0 + δ1 ) tendrán
signos opuestos, indicando que el valor deseado de b cae entre b0 y b1 = b0 + δ1 . Si pasa lo
contrario, cuando ∆r(b0 ) y ∆r(b0 + δ1 ) tienen el mismo signo, hace falta seguir los pasos
desde b0 y b1 = b0 + δ1 hasta que hallamos un b1 tal que ∆r(b1 ) tiene el signo contrario a
∆r(b0 ).
En este punto tenemos un b0 con ∆r(b0 ) y un b1 con ∆r(b1 ) y sabemos que ∆r ha de
ser 0 para algún valor b entre b0 y b1 . (Este hecho y que la solución es única requieren
una demostración formal que aquı́ no reproducimos.) Ası́ que podemos continuar por
interpolación lineal
b1 − b 0
b2 = b1 − ∆r(b1 )
∆r(b1 ) − ∆r(b0 )
Cuando ∆r(b2 ) no es todavı́a 0 (o suficientemente cerca de cero), hace falta repetir la
interpolación con otro paso. Para hacer esto, consideraremos el intervalo que contiene b
utilizando b2 en lugar de b1 o de b0 , el que tenga ∆r con el mismo signo que ∆r(b2 ). Y
ası́ los pasos necesarios.

128
7.2. Métodos que dividen los datos en grupos
Otras técnicas anteriores al método resistente de los tres grupos fueron propuestas e
involucran la división de los datos en grupos. Algunos de estos métodos no pretenden ser
una alternativa al método de los mı́nimos cuadrados y fueron desarrollados para ajustar
una recta “cuando ambas variables están sujetas a error”.

Método de Wald

Wald (1940) propuso dividir los datos en dos grupos de igual tamaño. Idealmente, los
valores teóricos Xi del primer grupo son menores que los del segundo. En la práctica,
porque los valores de Xi son desconocidos, agruparemos los puntos en base a los xi
observados.
Supongamos que n es par y sea m = n/2. Entonces, si asumimos que los valores de x
están ordenados en orden creciente, la pendiente propuesta es
(ym+1 + · · · + yn ) − (y1 + · · · + ym )
bW =
(xm+1 + · · · + xn ) − (x1 + · · · + xm )
Si xm+1 = xm , el método descarta los puntos con repetición en el centro.
El punto de intercepción es
aW = ȳ − bW x̄
donde ȳ y x̄ son las medias totales, de la misma forma que en la recta mı́nimo-cuadrática.

Método de Nair y Shrivastava

Como una alternativa computacionalmente atractiva respecto al método de los mı́nimos


cuadrados, Nair y Shrivastava (1942) introdujeron el método de las medias por grupo. Si
ordenamos las x, podemos considerar un primer grupo con nI puntos, un segundo grupo
con nD puntos y descartamos los n − nI − nD restantes. Los puntos resumen de cada
grupo son las medias
x1 + · · · + x n I y1 + · · · + y n I
x̄I = ȳI =
nI nI
xn−nD +1 + · · · + xn yn−nD +1 + · · · + yn
x̄D = ȳD =
nD nD
y la pendiente y el punto de intercepción resultan de la recta que pasa por (x̄I , ȳI ) y
(x̄D , ȳD )
ȳD − ȳI
bN S =
x̄D − x̄I
aN S = ȳI − bN S x̄I = ȳD − bN S x̄D
Para formar los grupos se puede tomar nI = nD como el entero más próximo a n/3.

Método de Bartlett

Bartlett (1949) modificó los dos métodos anteriores con la propuesta


ȳD − ȳI
bB =
x̄D − x̄I
aB = ȳ − bB x̄

129
de forma que la recta pasa por el punto (x̄, ȳ).

Recta de Brown-Mood

La propuesta de Brown y Mood (1951) es un método diferente que utiliza la mediana de


dos grupos. La pendiente bBM y el punto de intercepción aBM se calculan de forma que
la mediana de los residuos en cada uno de los dos grupos sea cero:
mediana{yi − aBM − bBM xi } = 0
xi ≤Mx

mediana{yi − aBM − bBM xi } = 0


xi >Mx

La inclusión de la mediana Mx en el primer grupo es arbitraria: el objetivo es que los dos


grupos sean muy parecidos en su tamaño.
Para hallar los valores efectivos se propone un método iterativo similar al de las secciones
anteriores.

7.3. Métodos que ofrecen resistencia


En la sección anterior hemos visto que la recta resistente de los tres grupos no fue la
primera alternativa a la de los mı́nimos cuadrados. Incluso la última de las rectas pro-
puestas, la recta de Brown-Mood, ofrece también resistencia. Ahora acabaremos esta
breve descripción de técnicas con algunas que proporcionan como mı́nimo un cierto grado
de resistencia. Pero primero debemos definir una medida de resistencia.
Una de las atractivas caracterı́sticas de la recta resistente de los tres grupos es su habilidad
para tolerar puntos “salvajes”, es decir, puntos que son inusuales en su valor x o en su valor
y o en ambos. Para medir esta resistencia aplicaremos el concepto de colapso (breakdown)
introducido por Hampel (1971).

Definición 7.3.1
El punto de colapso (breakdown bound) de un procedimiento para ajustar una recta a n
parejas de datos y-versus-x es la proporción k/n, donde k es el mayor número de puntos
que pueden ser reemplazados arbitrariamente mientras dejen la pendiente y el punto de
intercepción delimitados.

En la práctica, podemos pensar en enviar puntos al infinito al azar o en direcciones


problemáticas hasta que la pendiente y el punto de intercepción no lo puedan tolerar más
y se colapsen yendo también ellos hacia el infinito. Nos preguntamos cuan grande debe
ser una parte de los datos para que un cambio drástico no afecte de forma considerable
la recta ajustada.
Está claro que la recta mı́nimo-cuadrática tiene punto de colapso cero.
Dado que la recta resistente de los tres grupos usa la mediana dentro de cada grupo,
hallaremos su punto de colapso en 1/3 veces el punto de colapso de la mediana de una
muestra ordinaria. La mediana es el valor central, entonces su punto de colapso es 1/2,
de manera que el punto de colapso de la recta resistente es 1/6. A pesar de las diversas
posibilidades de construcción de los tres grupos y el hecho que los puntos salvajes pueden
estar repartidos en los tres grupos, la idea es que 1/6 es lo mejor que podemos garantizar
en la más desfavorable de las circunstancias.

130
Residuos mı́nimo-absolutos

Minimizar la suma de los residuos en valor absoluto tiene una historia casi tan larga como
la del método de los mı́nimos cuadrados. Para ajustar una recta hace falta hallar bM A y
aM A que minimicen
Xn
|yi − aM A − bM A xi |
i=1

Al contrario que para los mı́nimos cuadrados, no hay una fórmula para calcular bM A y
aM A . De hecho, la pendiente y el punto de intercepción pueden no ser únicos.
Como la mediana es la medida que minimiza
n
X
|yi − t|
i=1

hace falta esperar que este procedimiento tenga un alto punto de colapso. Desgraciada-
mente, este colapso es 0. La suma que se minimiza involucra tanto los valores xi como los
yi y ası́ es posible pensar en un punto (xi , yi ) que tome el control de la recta.

Mediana de las pendientes por parejas

Otra forma de aplicar la mediana al ajuste de una recta consiste en determinar, para cada
pareja de puntos, la pendiente y entonces calcular la mediana de estas pendientes. Con
más cuidado, supongamos que los xi son todos diferentes, definimos
yj − y i
bij = 1≤i<j≤n
xj − x i

que son n(n − 1)/2 valores. La pendiente ajustada es

bT = Med{bij }

Este método es una propuesta de Theil (1950), mejorada por Sen (1968), para manejar
las repeticiones de los xi .
Para deducir el punto de colapso, supongamos que exactamente k de los n puntos son
salvajes. Entonces el número de pendientes salvajes es

k(k − 1
+ k(n − k)
2
Si este número es suficientemente grande, bT quedará descontrolada. Para valores de
n grandes, podemos multiplicar el número de pendientes n(n − 1)/2 por 1/2, el punto
de colapso de la mediana, y igualar con la expresión anterior. Si resolvemos la ecuación
planteada para k, obtenemos un valor de k/n aproximadamente de 0,29. Esto quiere decir
que el punto de colapso de bT es 0,29.

Recta con medianas repetidas

Para conseguir un alto punto de colapso, Siegel (1982) ideó el método de las medianas
repetidas.

131
Empezamos con las pendientes por parejas del método anterior, pero ahora tomaremos
las medianas en dos pasos, primero en cada punto y después para todos

bM R = Med{Med{bij }}
i j6=i

En el primer paso se toma la mediana de las pendientes de n − 1 rectas que pasan por el
punto (xi , yi ) y en el segundo paso se toma la mediana de estas n pendientes.
Para el punto de intercepción calcularemos ai = yi − bM R xi y entonces

aM R = Med{ai }
i

Siegel probó que el punto de colapso de la recta con medianas repetidas es esencialmente
1/2.

7.3.1. Discusión
Ahora que tenemos diversos métodos con diferentes puntos de colapso, ¿cómo podemos
elegir uno?
Una consideración es el grado de resistencia que una particular aplicación pide. Otro
asunto es la precisión relativa de las pendientes estimadas, especialmente en muestras
pequeñas. También es evidente que el tiempo de computación es otro de los factores a
tener en cuenta.
Finalmente, podemos decir que la recta resistente de los tres grupos tiene un comporta-
miento suficientemente bueno en los tres aspectos considerados y, por ello, es el método
resistente que hemos destacado.

132
Capı́tulo 8

Regresión lineal múltiple

8.1. El modelo
De forma análoga al caso de la regresión lineal simple, podemos considerar el modelo
lineal entre una variable aleatoria respuesta Y y un grupo de k variables no aleatorias
x1 , . . . , xk explicativas o regresoras.
Si y1 , . . . , yn son n observaciones independientes de Y , el modelo lineal de la regresión
múltiple se define como
yi = β0 + β1 xi1 + · · · + βk xik + i i = 1, . . . , n (8.1)
donde (xi1 , . . . , xik ) son los valores observados correspondientes a yi y se asumen las
consabidas hipótesis de Gauss-Markov sobre los errores.
En notación matricial, el modelo se escribe
Y = Xβ + 
donde Y = (y1 , . . . , yn )0 , β = (β0 , β1 , . . . , βk )0 ,  = (1 , . . . , n )0 y la matriz de diseño es
 
1 x11 . . . x1k
 1 x21 . . . x2k 
 
X =  .. .. .. 
 . . . 
1 xn1 . . . xnk

Se supone además que rg(X) = k + 1 = m coincide con el número de parámetros.


Se trata de calcular el ajuste MC a un hiperplano k dimensional, donde β0 es el punto de
intersección del hiperplano con el eje y cuando x1 = x2 = · · · = xk = 0.
Las ecuaciones normales son X0 Xβ = X0 Y donde
 P P P 
n P xi1 P xi2 . . . P xik  P 
  y i
P xi1 yi 
2
 xi1 Pxi1 xi2 . . . P xi1 xik 
0  2
xi2 . . . 
xi2 xik  0  
XX= X Y =  .. 
 ... ..   . 
  P
P. 2 xik yi
xik

y cuya solución son las estimaciones β̂0 , β̂1 , . . . , β̂k , sin ningún problema de estimabilidad
ya que el modelo es de rango máximo. Además, estas estimaciones son insesgadas y de
varianza mı́nima.

133
Las predicciones de los valores de Y dadas las observaciones de las variables regresoras
x1 , . . . , xk son
b = Xβ
Y b = PY
es decir
ŷi = β̂0 + β̂1 xi1 + · · · + β̂k xik i = 1, . . . , n (8.2)
También podemos considerar el modelo con las variables regresoras centradas
 
γ
 β1 
 
Y = (1, Z)  ..  + 
.
βk

donde las columnas de Z tienen media cero, es decir, z(j) = x(j) − x̄j 1 o

zij = xij − x̄j i = 1, . . . , n j = 1, . . . , k


P
Este modelo es equivalente al anterior con γ = β0 + j x̄j βj , pero su estimación es más
sencilla porque  
0 −1 1/n 0
[(1, Z) (1, Z)] =
0 (Z0 Z)−1
ya que Z0 1 = 0.
Entonces
γ̂ = ȳ (β̂1 , . . . , β̂k )0 = (Z0 Z)−1 Z0 (Y − 1ȳ)
Si definimos la matriz simétrica de varianzas-covarianzas, aunque de forma convencional,
entre las variables Y, x1 , . . . , xk
 2 
sy Sxy
S= = n−1 (Y − 1ȳ, Z)0 (Y − 1ȳ, Z)
Syx Sxx
resulta
(β̂1 , . . . , β̂k )0 = S−1
xx Syx

Por todo ello, si consideramos las medias de los datos


X X
ȳ = (1/n) yi x̄j = (1/n) xij j = 1, . . . , k
i i

8.2 se expresa también en la forma

ŷi − ȳ = β̂1 (xi1 − x̄1 ) + · · · + β̂k (xik − x̄k )

Finalmente, observemos que el parámetro βj , j = 1, . . . , k, indica el incremento en Y


cuando xj aumenta en una unidad manteniéndose constantes el resto de variables regre-
soras. A veces se les llama coeficientes de regresión parcial porque reflejan el efecto de
una variable regresora dada la presencia del resto que permanece constante.
Los residuos de la regresión son
b = (I − P)Y
e=Y−Y

que verifican las propiedades que se han explicado para la regresión simple en la página 92
(ver ejercicio 6.4).

134
8.2. Medidas de ajuste
Como en la regresión simple, la evaluación del ajuste del hiperplano de regresión a los
datos se puede hacer con la varianza residual o estimación MC de σ 2 .
La suma de cuadrados residual es
X
SCR = e0 e = (yi − β̂0 − β̂1 xi1 − · · · − β̂k xik )2 = Y0 Y − Y0 Xβ̂

que tiene n − m grados de libertad. Ası́, la estimación centrada de la varianza del diseño
es el llamado error cuadrático medio

σ̂ 2 = SCR/(n − m) = ECM

Su raı́z cuadrada σ̂, que tiene las mismas unidades que Y , es el error estándar de la
regresión múltiple. También aquı́, la varianza residual y el error estándar dependen de las
unidades de la variable respuesta y no son útiles para comparar diversas regresiones.
En primer lugar, vamos a introducir el coeficiente de correlación múltiple de Y sobre
x1 , . . . , xk . El uso del término correlación es convencional puesto que las variables regre-
soras no son aleatorias. El coeficiente se define como la correlación muestral entre Y e
Ŷ P
(yi − ȳ)(ŷi − ȳ)
ryx = corr(Y, Ŷ ) = P P
[ (yi − ȳ)2 (ŷi − ȳ)2 ]1/2
P
ya que (1/n) ŷi = ȳ.
El coeficiente de correlación múltiple ryx verifica 0 ≤ ryx ≤ 1 y es una buena medida del
ajuste de Y al modelo Xβ, pues
b =0
ryx = 1 =⇒ kY − Yk

El siguiente teorema, idéntico al teorema 6.2.1, justifica la definición del coeficiente de


determinación como medida de ajuste.

Teorema 8.2.1
Las sumas de cuadrados asociadas a la regresión múltiple verifican:
P P P
(i) (yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
P
2 (ŷi − ȳ)2
(ii) ryx = P
(yi − ȳ)2
P
(iii) SCR = (yi − ŷi )2 = (1 − ryx 2
)Sy

Demostración:
La descomposición en suma de cuadrados (i) se justifica de la misma forma que se ha
visto en el teorema 6.2.1. También se puede ver el ejercicio 5.8.
El hecho fundamental es la ortogonalidad
b 0Y
(Y − Y) b =0

pues el vector e = Y − Yb = Y − Xβ b es ortogonal a Ω = hXi, mientras que Y b∈Ω


b = Xβ
(ver teorema 2.4.2 y su interpretación geométrica).

135
Luego
X X
(yi − ȳ)(ŷi − ȳ) = (yi − ŷi + ŷi − ȳ)(ŷi − ȳ)
X X
= (yi − ŷi )(ŷi − ȳ) + (ŷi − ȳ)2
X
= (ŷi − ȳ)2

puesto que el primer sumando es nulo. Teniendo en cuenta la definición de ryx , es fácil
deducir (ii).
Finalmente, combinando (i) y (ii) obtenemos (iii). 
Como en 6.7, la descomposición (i) del teorema anterior justifica la definición del coefi-
ciente de determinación
VE SCR
R2 = =1−
VT Sy
También aquı́, esta medida del ajuste verifica 0 ≤ R2 ≤ 1 y coincide con el cuadrado del
coeficiente de correlación múltiple
2
(1 − ryx )Sy
R2 = 1 − 2
= ryx
Sy
Sin embargo, el coeficiente de correlación múltiple ryx es una medida de la asociación
lineal entre la variable respuesta Y y las regresoras x = (x1 , . . . , xk ) que, en este caso, es
convencional.
Como R2 es la proporción de variabilidad explicada por las variables regresoras, resulta
que si R2 ≈ 1, entonces la mayor parte de la variabilidad es explicada por dichas variables.
Pero R2 es la proporción de la variabilidad total explicada por el modelo con todas las
variables frente al modelo y = β0 , de manera que un R2 alto muestra que el modelo mejora
el modelo nulo y por tanto sólo tiene sentido comparar coeficientes de determinación entre
modelos anidados (casos particulares).
Además un valor grande de R2 no necesariamente implica que el modelo lineal es bueno.
El coeficiente R2 no mide si el modelo lineal es apropiado. Es posible que un modelo con
un valor alto de R2 proporcione estimaciones y predicciones pobres, poco precisas. El
análisis de los residuos es imprescindible.
Tampoco está claro lo que significa un valor “grande”, ya que problemas en diversas
ciencias (fı́sica, ingenierı́a, sociologı́a,. . . ) tienen razonablemente criterios diferentes.
Por otra parte, cuando se añaden variables regresoras R2 crece, pero eso no significa que
el nuevo modelo sea superior:

2 SCRnuevo SCR
Rnuevo =1− ≥ R2 = 1 − ⇒ SCRnuevo ≤ SCR
Sy Sy
pero es posible que
SCRnuevo SCR
ECMnuevo = ≥ ECM =
n − (m + p) n−m

luego, en esta situación, el nuevo modelo será peor. Ası́, como R 2 crece al añadir nuevas
variables regresoras, se corre el peligro de sobreajustar el modelo añadiendo términos
innecesarios. El coeficiente de determinación ajustado penaliza esto.

136
Definición 8.2.1
Una medida del ajuste de la regresión múltiple a los datos es el coeficiente de determina-
ción o proporción de variabilidad explicada
VE SCR
R2 = =1−
VT Sy
Sin embargo, para corregir el peligro de sobreajuste se define el coeficiente de determina-
ción ajustado como
SCR/(n − m) n−1
R̄2 = 1 − =1− (1 − R2 )
Sy /(n − 1) n−m

Cuando R̄2 y R2 son muy distintos, el modelo ha sido sobreajustado y debemos eliminar
variables o términos.

8.3. Inferencia sobre los coeficientes de regresión


Cuando asumimos la hipótesis de normalidad sobre la distribución de los errores  ∼
Nn (0, σ 2 I), se deduce la normalidad de la variable respuesta
Y ∼ Nn (Xβ, σ 2 I)
lo que nos permite utilizar las distribuciones asociadas a los estimadores de los parámetros
que hemos estudiado.
En el capı́tulo de contraste de hipótesis se ha visto de varias formas (ver 5.10) que para
una función paramétrica estimable a0 β
b − a0 β
a0 β
∼ tn−r
(σ̂ 2 · a0 (X0 X)− a)1/2
En nuestro caso, todas las funciones paramétricas son estimables ya que r = k + 1 = m.
De modo que el estimador β̂j verifica
β̂ − βj
pj ∼ tn−m (8.3)
ECM cjj
donde cjj es el j-ésimo elemento de la diagonal de (X0 X)−1 y σ̂ 2 = SCR/(n − m) = ECM.
En consecuencia, los intervalos de confianza de los coeficientes de regresión βj con un
nivel de confianza 100(1 − α) % son
β̂j ± tn−m (α) · ee(β̂j )
p
donde ee(β̂j ) = ECM cjj .
En cuanto a los intervalos de confianza para la respuesta media o los intervalos de predic-
ción para una respuesta concreta, su deducción es similar al caso de la regresión simple.
Si x0 = (1, x01 , . . . , x0k )0 recoge una observación particular del conjunto de variables
regresoras, el intervalo de confianza con nivel 100(1−α) % para la respuesta media E[Y |x 0 ]
está centrado en su estimación ŷ0 = x00 βb

ŷ0 ± tn−m (α) · (ECM x00 (X0 X)−1 x0 )1/2


ya que E(ŷ0 ) = x00 β = E[Y |x0 ] y var(ŷ0 ) = σ 2 x00 (X0 X)−1 x0 .

137
Extrapolación oculta

En la estimación de la respuesta media o la predicción de nuevas respuestas en un punto


(x01 , . . . , x0k ) debemos ser muy cuidadosos con la extrapolación. Si únicamente tenemos
en cuenta el producto cartesiano de los recorridos de las variables regresoras, es fácil
considerar la predicción para un punto que puede estar fuera de la nube de puntos con la
que hemos calculado la regresión. Para evitar este problema deberemos ceñirnos al menor
conjunto convexo que contiene los n puntos originales y que recibe el nombre de casco
(hull) de las variables regresoras (ver figura 8.1).

2
1
x2

0
-1
-2

-2 -1 0 1 2

x1

Figura 8.1: Conjunto convexo para los puntos de dos variables regresoras

Si consideramos los elementos hii de la diagonal de la matriz proyección P = X(X0 X)−1 X0 ,


podemos definir hmáx = máx{h11 , . . . , hnn } y se puede comprobar que

x0 (X0 X)−1 x ≤ hmáx

es un elipsoide que contiene al casco. No es el menor elipsoide, pero es el más fácil de


calcular.
Ası́ pues, para evitar en lo posible la extrapolación, podemos comprobar en el punto
x0 = (1, x01 , . . . , x0k )0 si
x00 (X0 X)−1 x0 < hmáx

Contraste de significación de la regresión

La hipótesis de mayor interés es la afirmación de que Y es independiente de las variables


x1 , . . . , xk , es decir
H0 : β 1 = β 2 = · · · = β k = 0 (8.4)
El Análisis de la Varianza del teorema 5.3.1 se puede aplicar al contraste de la significación
conjunta de los coeficientes de regresión puesto que se trata de una hipótesis contrastable
del tipo H0 : Aβ = 0, donde
 
0 1 0 ... 0
 0 0 1 ... 0 
 
A =  .. .. .. ..  rango A = k
 . . . . 
0 0 0 ... 1

138
Si H0 es cierta, al igual que en 6.9, la estimación del único parámetro que queda en el
modelo es β̂0|H = ȳ y la suma de cuadrados residual es
X
SCRH = (yi − ȳ)2 = Sy

que tiene n − 1 grados de libertad.


La descomposición en suma de cuadrados es

Sy = SCR + (SCRH − SCR)

es decir X X X
(yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2

La tabla siguiente recoge esta descomposición y realiza el contraste de la hipótesis. La


hipótesis se rechaza si F > Fk,n−k−1 (α).

Fuente de grados de suma de cuadrados


variación libertad cuadrados medios F
Regresión k SCR = SCRH − SCR CMR CMR /ECM
Error n−k−1 SCR ECM
Total n−1 Sy

Tabla 8.1: Tabla del análisis de la varianza para contrastar la significación de la regresión
múltiple

Teniendo en cuenta las fórmulas del teorema 8.2.1


2
SCRH − SCR = ryx Sy

y deducimos una expresión equivalente al estadı́stico F


2
ryx n−k−1
F = 2
·
1 − ryx k

que también se presenta en forma de tabla.

Fuente de Grados de Suma de F


variación libertad cuadrados
2
2
ryx n−k−1
Regresión k ryx Sy 2
·
1 − ryx k
2
Residuo n−k−1 (1 − ryx )Sy
Total n−1 Sy

Tabla 8.2: Tabla del análisis de la varianza en regresión múltiple

Del mismo modo que en la sección 6.5 la hipótesis 8.4 equivale a afirmar que el coeficiente
de correlación múltiple poblacional es cero y se resuelve con el contraste asociado a la
tabla anterior.

139
Significación parcial

El contraste de significación de un coeficiente de regresión particular H0 : βj = 0, para


un j fijo, se resuelve con el estadı́stico 8.3 y la región crı́tica

β̂
j
> tn−k−1 (α) (8.5)
(ECM cjj )1/2

donde cjj es el j-ésimo elemento de la diagonal de (X0 X)−1 .


Aceptar esta hipótesis significa que la variable regresora xj se puede eliminar del modelo.
Sin embargo, es preciso actuar con cuidado ya que se trata de un contraste parcial porque
el coeficiente β̂j depende de todas las otras variables regresoras xi (i 6= j). Es un contraste
de la contribución de xj dada la presencia de las otras variables regresoras en el modelo.
De forma general podemos estudiar la contribución al modelo de un subconjunto de
las variables regresoras. Esto se puede hacer mediante la descomposición de la suma de
cuadrados asociada a un contraste de modelos.
Consideremos el modelo lineal completo, dividido en dos grupos de variables regresoras,
 
 β1
Y = Xβ +  = X1 X2 +
β2

donde X1 es n × (m − p) y X2 es n × p.
b = (X0 X)−1 X0 Y y la suma de
Para este modelo, la estimación de los parámetros es β
cuadrados de la regresión es
0 0
b X0 Y) = β
SCR (β) = SCRH − SCR = Y 0 Y − (Y0 Y − β b X0 Y

con m grados de libertad. Esto es ası́ porque la hipótesis considerada es H0 : β = 0 y,


bajo esta hipótesis, SCRH = Y0 Y.
Para hallar la contribución de los términos de β 2 en la regresión, podemos considerar la
hipótesis H0 : β 2 = 0 que es equivalente al modelo reducido Y = X1 β 1 + . Bajo esta
hipótesis, la estimación de los parámetros es βb 1 = (X0 X1 )−1 X0 Y y la suma de cuadrados
1 1
de la regresión
SCR (β 1 ) = βb 0 X0 Y
1 1

con m − p grados de libertad.


Luego la suma de cuadrados de la regresión debida a β 2 , dado que β 1 está ya en el modelo,
es
SCR (β 2 |β 1 ) = SCR (β) − SCR (β 1 )
con m − (m − p) = p grados de libertad.
Como SCR (β 2 |β 1 ) es independiente de SCR, la hipótesis H0 : β 2 = 0 se puede contrastar
con el estadı́stico
SCR (β 2 |β 1 )/p
∼ Fp,n−m
ECM
que se puede llamar una F parcial, pues mide la contribución de X2 considerando que
X1 está en el modelo.
Por ejemplo, la suma de cuadrados de la regresión SCR (βj |β0 , β1 , . . . , βj−1 , βj+1 , . . . , βk )
para 1 ≤ j ≤ k es el crecimiento en la suma de cuadrados debido a añadir xj al modelo

140
que ya contiene todas las otras variables, como si fuera la última variable añadida al
modelo. El contraste es equivalente al contraste 8.5.
Estos contrastes F parciales juegan un papel muy importante en la búsqueda del mejor
conjunto de variables regresoras a utilizar en un modelo. Por ejemplo, en el modelo
parabólico Y = β0 + β1 x + β2 x2 +  estaremos interesados en SCR (β1 |β0 ) y luego en
SCR (β2 |β0 , β1 ) que es la contribución cuadrática al modelo lineal simple.
En el modelo Y = β0 + β1 x1 + β2 x2 + β3 x3 + , la descomposición en suma de cuadrados
es
Sy = SCR (β1 , β2 , β3 |β0 ) + SCR
pero

SCR (β1 , β2 , β3 |β0 ) = SCR (β1 |β0 ) + SCR (β2 |β0 , β1 ) + SCR (β3 |β0 , β1 , β2 )
= SCR (β2 |β0 ) + SCR (β1 |β0 , β2 ) + SCR (β3 |β0 , β1 , β2 )
= ...

Sin embargo, hay que ir con cuidado porque este método no siempre produce una partición
de la suma de cuadrados de la regresión y, por ejemplo,

SCR (β1 , β2 , β3 |β0 ) 6= SCR (β1 |β2 , β3 , β0 ) + SCR (β2 |β1 , β3 , β0 ) + SCR (β3 |β1 , β2 , β0 )

Un resultado interesante se tiene cuando las columnas de X1 y X2 son ortogonales, ya


que entonces
SCR (β 2 |β 1 ) = SCR (β 2 ) SCR (β 1 |β 2 ) = SCR (β 1 )

Región de confianza y intervalos simultáneos

Del mismo modo que hemos explicado en 6.3.6, en regresión múltiple la región con una
confianza conjunta del 100(1 − α) % es

b − β)0 X0 X(β
(β b − β)
≤ Fm,n−m (α)
mECM
Los intervalos simultáneos para los coeficientes de la regresión son del tipo

β̂j ± ∆ · ee(β̂j )

para un conjunto de s coeficientes entre los k + 1. Por ejemplo, el método de Scheffé pro-
porciona los intervalos simultáneos

β̂j ± (sFs,n−k−1 (α))1/2 · ee(β̂j )

Los intervalos simultáneos para un conjunto de s respuestas medias a los puntos x01 , . . . , x0s
son
ŷx0j ± ∆(ECM x00j (X0 X)−1 x0j )1/2
donde ∆ = (sFs,n−k−1 (α))1/2 por el método de Scheffé.

141
8.4. Coeficientes de regresión estandarizados
Es difı́cil comparar coeficientes de regresión porque la magnitud de β̂j refleja las unidades
de medida de la variable regresora. Por ejemplo, en el modelo

Y = 5 + x1 + 1000x2

donde x1 se mide en litros y x2 en mililitros, aunque β̂2 = 1000 es mucho mayor que
β̂1 = 1, el efecto sobre Y es el mismo.
Generalmente, las unidades de los coeficientes de regresión son
unidades Y
unidades β̂j =
unidades xj

Por todo ello, frecuentemente es de gran ayuda trabajar con variables estandarizadas que
producen coeficientes de regresión sin dimensión. Básicamente hay dos técnicas:
Escala normal unidad

xij − x̄j
zij = i = 1, . . . , n; j = 1, . . . , k
ŝj
∗ yi − ȳ
yi = i = 1, . . . , n
ŝy
donde
n n n
1X 1 X 1 X
x̄j = xij ŝ2j = (xij − x̄j )2 ŝ2y = (yi − ȳ)2
n i=1 n − 1 i=1 n − 1 i=1

El modelo es

yi∗ = b0 + b1 zi1 + b2 zi2 + · · · + bk zik + ηi i = 1, . . . , n

donde las variables regresoras y la variable respuesta tienen media cero y varianza muestral
uno. La estimación del modelo es b b = (b̂1 , . . . , b̂k )0 = (Z0 Z)−1 Z0 Y∗ y b̂0 = ȳ ∗ = 0.
Escala longitud unidad

xij − x̄j
wij = 1/2
i = 1, . . . , n; j = 1, . . . , k
Sj
yi − ȳ
yi0 = 1/2
i = 1, . . . , n
Sy
donde n n
X X
2
Sj = (xij − x̄j ) Sy = (yi − ȳ)2
i=1 i=1

El modelo es
yi0 = b1 wi1 + b2 wi2 + · · · + bk wik + ηi i = 1, . . . , n
donde las variables regresoras y la variable respuesta tienen media cero y longitud
v
u n
uX
t (wij − w̄j )2 = 1
i=1

142
b = (W0 W)−1 W0 Y0 .
y la estimación de los parámetros es b
Pero en este modelo tenemos
 
1 r12 . . . r1k
r21 1 . . . r2k 
0  
W W = Rxx =  .. .. . . .. 
 . . . . 
rk1 rk2 . . . 1

donde Rxx es la matriz de correlaciones de las variables regresoras ya que


Pn
(xsi − x̄i )(xsj − x̄j )
rij = s=1
(Si Sj )1/2

También podemos considerar que W0 Y0 = Rxy es el vector de correlaciones de las varia-


bles regresoras con la variable respuesta. También aquı́ el término correlación es conven-
cional.
En todo caso, como

Z0 Z = (n − 1)W0 W
Z0 Y∗ = (n − 1)W0 Y0

las estimaciones de b = (b1 , . . . , bk )0 por ambos métodos son idénticas.

Definición 8.4.1
Se llaman coeficientes de regresión estandarizados los que se obtienen como solución del
sistema de ecuaciones
b1 + r12 b2 + · · · + r1k bk = r1y
r21 b1 + b2 + · · · + r2k bk = r2y
.. .. .. ..
. . . .
rk1 b1 + rk2 b2 + · · · + bk = rky
es decir
Rxx b = Rxy
donde Rxx es la matriz de coeficientes de correlación entre las variables regresoras y
Rxy = (r1y , . . . , rky )0 el vector columna con los coeficientes de correlación entre las varia-
bles regresoras y la respuesta.

Los coeficientes de regresión ordinarios se deducen de las ecuaciones


 1/2
Sy sy
β̂j = b̂j = b̂j j = 1, . . . , k
Sj sj
Xk
β̂0 = ȳ − β̂j x̄j
j=1

Además, el coeficiente de determinación es

R2 = ryx
2
= b̂1 r1y + b̂2 r2y + · · · + b̂k rky

143
Algunos paquetes estadı́sticos calculan ambos conjuntos de coeficientes de regresión. En
algún caso, a los coeficientes de regresión estandarizados les llaman “beta coeficientes” lo
que para nosotros es confuso.
Finalmente señalaremos que debemos cuidar las interpretaciones puesto que los coeficien-
tes estandarizados todavı́a son parciales, es decir, miden el efecto de xj dada la presencia
de las otras variables regresoras. También b̂j está afectado por el recorrido de los valores
de las variables regresoras, de modo que es peligroso utilizar b̂j para medir la importancia
relativa de la variable regresora xj .

Ejemplo 8.4.1
En un estudio sobre la incidencia que puede tener sobre el rendimiento en lenguaje Y ,
la comprensión lectora x1 y la capacidad intelectual x2 , se obtuvieron datos sobre 10
estudiantes tomados al azar de un curso de básica (ver tabla 8.3).

Y x1 x2
3 1 3
2 1 4
4 3 7
9 7 9
6 8 7
7 7 6
2 4 5
6 6 8
5 6 5
8 9 7

Tabla 8.3: Tabla de datos del rendimiento en lenguaje

La matriz de correlaciones, las medias y las desviaciones tı́picas son:


x1 x2 Y
x1 1 0,6973 0,8491 x̄1 = 5,2 s1 = 2,82
x2 1 0,7814 x̄2 = 6,1 s2 = 1,86
Y 1 ȳ = 5,2 sy = 2,44

Empezaremos planteando el sistema


b1 + 0,6973 · b2 = 0,8491
0,6973 · b1 + b2 = 0,7814
cuya solución es
b̂1 = 0,592 b̂2 = 0,368
Entonces
sy sy
β̂1 = b̂1 = 0,512 β̂2 = b̂2 = 0,485
s1 s2
β̂0 = ȳ − β̂1 x̄1 − β̂2 x̄2 = −0,424
La ecuación de regresión es
y = −0,424 + 0,512x1 + 0,485x2

144
El coeficiente de determinación es

R2 = ryx
2
= b̂1 · 0,849 + b̂2 · 0,781 = 0,791

y puede afirmarse que hay una buena relación entre el rendimiento en lenguaje y la
comprensión lectora y la capacidad intelectual.
Finalmente, para decidir sobre la hipótesis H0 : β1 = β2 = 0 calcularemos
2
ryx 10 − 3
F = 2
· = 13,22
1 − ryx 3 − 1

con 2 y 7 grados de libertad. Ası́ H0 puede ser rechazada, es decir, la relación anterior es
significativa.

8.5. Multicolinealidad
Cuando la matriz X no es de rango máximo, sabemos que X0 X es singular y no podemos
calcular su inversa. Ya sabemos que la solución puede ser la utilización de alguna g-inversa,
aunque ello implica que la solución de las ecuaciones normales no es única. En el caso de
la regresión múltiple es difı́cil, aunque no imposible, que alguna columna sea linealmente
dependiente de las demás. Si ocurriera esto dirı́amos que existe colinealidad entre las
columnas de X. Sin embargo, el término colinealidad o multicolinealidad se refiere al
caso, mucho más frecuente, de que la dependencia entre las columnas no es exacta sino
aproximada, es decir, a la quasi-dependencia lineal entre las variables regresoras. Esto
puede provocar problemas de computación de los parámetros y en el cálculo de la precisión
de los mismos (ver Apéndice A.4).
Entre las múltiples formas de detección de la multicolinealidad vamos a destacar el cálculo
de los factores de inflación de la varianza. Nosotros hemos visto que la matriz de varianzas-
covarianzas de los estimadores de los parámetros de un modelo lineal es
b = σ 2 (X0 X)−1
var(β)

Si consideramos el modelo de regresión estandarizado por la escala de longitud unidad,


la matriz de varianzas-covarianzas de los coeficientes de regresión estandarizados es
b = σ̃ 2 R−1
var(b) xx

donde σ̃ 2 es la varianza del error del modelo transformado. En particular, la varianza de


uno de los coeficientes es
var(b̂j ) = σ̃ 2 [R−1
xx ]jj

donde [R−1xx ]jj es el j-ésimo elemento de la diagonal de la matriz. Estas varianzas pue-
den estar “infladas” a causa de la multicolinealidad que puede ser evidente a partir de
la observación de los elementos no nulos fuera de la diagonal de Rxx , es decir, de las
correlaciones simples entre las variables regresoras.

Definición 8.5.1
Los elementos de la diagonal de la matriz R−1 xx se llaman FIV o factores de inflación de
la varianza ya que
var(b̂j ) = σ̃ 2 FIVj

145
Se demuestra que
FIVj = (1 − Ri2 )−1
donde Rj2 es el coeficiente de determinación múltiple de la variable regresora xj con todas
las demás variables regresoras.
El factor de inflación de la varianza FIVj = 1 cuando Rj2 = 0, es decir, cuando xj no
depende linealmente del resto de las variables. Cuando Rj2 6= 0, entonces FIVj > 1 y si
Rj2 ≈ 1, entonces FIVj es grande. Ası́ pues, el factor de inflación de la varianza mide
el incremento que se produce en la varianza de los estimadores de los coeficientes de
regresión al comparar dicha varianza con la que deberı́an tener si las variables regresoras
fuesen incorrelacionadas.
Cuando FIVj > 10 tenemos un grave problema de multicolinealidad. Algunos autores
prefieren calcular la media de los FIVj y alertar sobre la multicolinealidad cuando dicha
media supera el número 10.
Una de las posibles soluciones tras la detección de multicolinealidad es la estimación por
la regresión ridge (ver 4.3.1).

Ejemplo 8.5.1
Con los datos del ejemplo 8.4.1, la matriz de correlaciones Rxx y su inversa son
   
1,0000 0,6973 −1 1,9465 −1,3574
Rxx = Rxx =
0,6973 1,0000 −1,3574 1,9465

y los factores de inflación de la varianza son FIV 1 = 1,9465, FIV2 = 1,9465, que coinciden
naturalmente cuando k = 2.

8.6. Regresión polinómica


Supongamos que una variable aleatoria Y se ajusta a una variable de control x según un
modelo polinómico de grado m

yi = β0 + β1 xi + β2 x2i + · · · + βm xm
i + i (8.6)

Observemos que se trata de un modelo de regresión lineal múltiple de Y sobre las variables
x1 = x, x2 = x2 , . . . , xm = xm . Para una regresión polinómica de grado m, la matriz de
diseño es  
1 x1 x21 . . . xm 1
 1 x 2 x2 . . . x m 
 2 2 
X =  .. .. .. .. 
 . . . . 
1 x n xn . . . x m
2
n

Estos modelos se pueden aplicar cuando el analista sabe que efectos curvilı́neos están
presentes en la función respuesta. También se pueden utilizar como aproximaciones a
desconocidas, y posiblemente muy complejas, relaciones no lineales. Ası́, los polinomios
se pueden considerar los desarrollos de Taylor de la función desconocida.
La regresión polinómica se justifica por el teorema de Weierstrass, el cual dice que toda
función continua f (x) se puede aproximar por un polinomio Pm (x) de grado m adecuado.
Se puede probar esta propiedad desde el punto de vista probabilı́stico:

146
Sea f (x) una función continua en el intervalo (0, 1) y consideremos
n
X
Pn (x) = f (k/n)xk (1 − x)n−k
k=0

llamados polinomios de Bernstein. Entonces Pn (x) converge a f (x) cuando n → ∞,


uniformemente en x.
Como en cualquier modelo lineal, la estimación de los parámetros de regresión se hace con
las ecuaciones normales. Sin embargo, hay varios problemas especiales que se presentan
en este caso.

1) Es muy importante que el orden del polinomio sea tan bajo como sea posible.
Para utilizar polinomio de grado m > 2 se debe justificar con razones externas a
los datos. Existen transformaciones de las variables, en particular de la respuesta,
que hacen que el modelo sea de primer orden. Un modelo de orden bajo con una
variable transformada es casi siempre preferible a un modelo de orden superior con
la métrica original. Se trata de mantener el principio de parsimonia o simplicidad
de los modelos.

2) Hay varias estrategias para elegir el grado del polinomio.


Selección hacia adelante (forward selection): Se trata de ir ajustando modelos en
orden creciente hasta que el test t para el término de mayor orden es no significativo
(α = 0,1).
Selección hacia atrás (backward selection): Se trata de ajustar un modelo de alto
orden e ir eliminando términos si no son significativos para el test t (α = 0,1).
Ambos métodos no necesariamente conducen al mismo modelo. En todo caso, hay
que recordar el consejo anterior y tratar con modelos de orden dos o muy bajo.

3) Debemos ser muy cuidadosos con la extrapolación (ver página 138), ya que las
consecuencias pueden ser ruinosas.

4) Cuando el orden del polinomio es alto, la matriz X0 X está mal condicionada (ver
apéndice A.4 y sección 8.5). Esto provoca problemas graves para el cálculo de los
coeficientes de regresión y deficiencias en la precisión de los mismos. En Seber [61]
pág. 214 se ve un ejemplo en el que variaciones del orden de 10−10 en X0 Y producen
variaciones del orden de 3 en los elementos de β. b
De hecho, los modelos de regresión polinómicos están notablemente mal condicio-
nados cuando el grado es mayor que 5 o 6, particularmente si los valores de x están
igualmente espaciados.

5) Si los valores de x tienen un recorrido muy estrecho, esto puede conducir a la


multicolinealidad entre las columnas de X. Por ejemplo, si x varı́a entre 1 y 2, x2
varı́a entre 1 y 4, lo que puede provocar una fuerte dependencia entre los datos de
x y x2 .

Para reducir el efecto no esencial de la mala condición de los modelos de regresión po-
linómicos se deben centrar las variables regresoras. Además se pueden utilizar polinomios
de Tchebychev o, mejor, polinomios ortogonales.

147
La utilización de polinomios de Tchebychev consiste en considerar el modelo

yi = γ0 T0 (xi ) + γ1 T1 (xi ) + · · · + γm Tm (xi ) + i

donde Tj (x) es un polinomio de Tchebychev de grado j. Estos polinomios se generan


mediante la relación de recurrencia

Tj+1 (x) = 2xTj (x) − Tj−1 (x)

Tomando inicialmente
T0 (x) = 1 T1 (x) = x
se obtienen
T2 (x) = 2x2 − 1
T3 (x) = 4x3 − 3x
T4 (x) = 8x4 − 8x2 + 1
..
.

El campo de variación de x debe “normalizarse” adecuadamente entre −1 y 1 mediante


un cambio de variable. Esto se hace en favor de la estabilidad numérica.
Los polinomios de Tchebychev tienen propiedades muy interesantes que sugieren que, pa-
ra valores de x razonablemente espaciados, la matriz del modelo X e tiene columnas que son
aproximadamente ortogonales, de forma que la matriz X e 0X
e tiene los elementos de fuera
de la diagonal bastante pequeños y generalmente está bien condicionada. Ası́ pues, un
procedimiento de cálculo de regresión polinómica consiste en usar polinomios de Tcheby-
chev junto con un método de descomposición ortogonal de la matriz de diseño, como el
algoritmo QR.

8.6.1. Polinomios ortogonales


El replanteamiento del modelo 8.6 mediante polinomios ortogonales permite una solución
sencilla de los problemas numéricos mencionados.
Consideremos ahora el modelo

yi = γ0 φ0 (xi ) + γ1 φ1 (xi ) + · · · + γm φm (xi ) + i (8.7)

donde φj (xi ) es un polinomio de grado j en xi (j = 0, 1, . . . , m). Supongamos que los m


polinomios son ortogonales, es decir,
n
X
φj (xi )φj 0 (xi ) = 0 ∀j 6= j 0 (8.8)
i=1

El modelo lineal es entonces


e +
Y = Xγ
donde  
φ0 (x1 ) φ1 (x1 ) . . . φm (x1 )
 φ0 (x2 ) φ1 (x2 ) . . . φm (x2 ) 
e =
X  .. .. ..


 . . . 
φ0 (xn ) φ1 (xn ) . . . φm (xn )

148
Entonces, debido a la ortogonalidad, tenemos que
 P 
φ20 (xi ) P 0 ... 0
 0 2
φ1 (xi ) . . . 0 
e =
e 0X
X  .. .. . ..


 . . . . 
P 2.
0 0 ... φm (xi )

y la solución de las ecuaciones normales es


P
φj (xi )yi
γ̂j = Pi 2 j = 0, 1, . . . , m
i φj (xi )

e implica que el estimador MC


lo que es cierto para toda m. La estructura ortogonal de X
de γj (j ≤ m) es independiente del grado m del polinomio, lo que es una propiedad muy
deseable.
Como φ0 (x) es un polinomio de grado cero, si tomamos φ0 (x) = 1 tendremos γ̂0 = ȳ.
La suma de cuadrados residual es entonces
X m X
X
SCR(m) = (yi − ȳ)2 − ( φ2j (xi ))γ̂j2 (8.9)
j=1 i

cantidad que indicaremos por Q(m).


En efecto: m
X
ŷi = φj (xi )γ̂j siendo ȳ = φ0 (xi )γ̂0
j=0

Aplicando (i) de 8.2.1 tenemos


X X X
SCR(m) = (yi − ŷi )2 = (yi − ȳ)2 − (ŷi − ȳ)2
i i i

siendo ahora m
X XX
(ŷi − ȳ)2 = ( φj (xi )γ̂j )2
i i j=1

Por otra parte


m
X XX
( φj (xi )γ̂j )2 = φj (xi )γ̂j · φj 0 (xi )γ̂j 0
j=1 j j0

y sumando respecto de i tenemos, considerando 8.8,


X XX X
(ŷi − ȳ)2 = γ̂j γ̂j 0 ( φj (xi )φj 0 (xi ))
i j j0 i
Xm Xn
= γ̂j2 ( φ2j (xi ))
j=1 i=1

lo que demuestra 8.9.

Existen diversos procedimientos para generar polinomios ortogonales (Fisher, Forsythe,


Hayes, etc.).

149
En el caso particular que los valores de x sean igualmente espaciados podemos transfor-
marlos de manera que

xi = i − 12 (n + 1) i = 1, 2, . . . , n

Entonces se puede considerar el siguiente sistema de polinomios ortogonales

φ0 (x) = 1
φ1 (x) = λ1 x
1
φ2 (x) = λ2 (x2 − 12
(n2 − 1))
1
φ3 (x) = λ3 (x3 − 20
(3n2 − 7)x)
..
.

donde las λj se eligen de forma que los valores de φj (xi ) sean enteros. Estos polinomios
se encuentran tabulados para varios valores de n.

8.6.2. Elección del grado


Un aspecto importante de la regresión polinómica es la elección del grado m adecuado.
El contraste de hipótesis

H0 : m = m 0
(8.10)
H1 : m = m 1 > m 0

equivale a plantear una regresión polinómica de grado m y entonces establecer la hipótesis


lineal
H0 : βm0 +1 = · · · = βm1 = 0
sobre el modelo 8.6, o bien, utilizando el modelo equivalente 8.7 en términos de polinomios
ortogonales
H0 : γm0 +1 = · · · = γm1 = 0
Las sumas de cuadrados residuales son

SCR = Q(m1 ) SCRH = Q(m0 )

Teniendo en cuenta 8.9 resulta


m1
X n
X
SCRH − SCR = Q(m0 ) − Q(m1 ) = ( φ2j (xi ))γ̂j2
j=m0 +1 i=1

Entonces, para contrastar H0 : m = m0 frente H1 : m = m1 , calcularemos el estadı́stico

(Q(m0 ) − Q(m1 ))/(m1 − m0 )


F = (8.11)
Q(m1 )/(n − m1 − 1)

cuya distribución, bajo H0 , es una F con m1 − m0 y n − m1 − 1 grados de libertad.


La estrategia para elegir el grado puede ser mediante elección descendente o elección as-
cendente. En el primer caso empezamos por el grado que se supone máximo. Supongamos,
por ejemplo, que m = 5. Entonces se contrasta m = 4 frente a m = 5. Si el test F no es

150
significativo, se contrasta m = 3 con m = 4, y ası́ sucesivamente. El proceso es el inverso
en el caso de elección ascendente.
También es útil tener en cuenta que un descenso importante de la suma de cuadrados
residual Q(m) al pasar de grado k a grado m, es un indicio de que el grado es m.
Finalmente, si disponemos de ni observaciones yi1 , . . . , yini para cada valor de la variable
de control xi i = 1, . . . , p, una vez elegido el grado m, podemos analizar la validez del
modelo planteando el contraste

H0 : yih = Pm (xi ) + ih


H1 : yih = g(xi ) + ih

donde g(x) es una función desconocida de x. La hipótesis nula significa afirmar que
g(x) = Pm (x) es un polinomio de grado m en x. Tenemos entonces (véase 6.12):
X
SCR = (yih − ȳi )2 = ns2y (1 − η̂ 2 ) n−p g.l.
i,h
SCRH = Q(m) = ns2y (1 − ryx
2
) n − m − 1 g.l.

donde ryx es la correlación múltiple de Y sobre x, x2 , . . . , xm (ver teorema 8.2.1). Calcu-


laremos entonces el estadı́stico
(η̂ 2 − ryx
2
)/(p − m − 1)
F =
(1 − η̂ 2 )/(n − p)

y aceptaremos el ajuste polinómico de grado m si esta F no es significativa.

Ejemplo 8.6.1
Se dispone de la respuesta a un test de conducta de dos grupos de ratas, uno control y
otro experimental, para diez observaciones realizadas cada tres dı́as desde el dı́a 47 al dı́a
74 de vida (ver tabla 8.4).

dia grupo control grupo experimental

47 25,7 34,1
50 20,1 24,9
53 16,2 21,2
56 14,0 23,3
59 21,3 22,0
62 20,3 30,9
65 28,4 31,4
68 23,5 26,5
71 16,8 23,0
74 9,9 17,2
Tabla 8.4: Datos del test de conducta a dos grupos de ratas

El modelo considerado hace depender la variable conducta (medida mediante el test) del
tiempo t según una función polinómica

var. obs. = polinomio de grado m en t + error ⇔ y = Pm (t) + 

151
Para determinar el grado del polinomio al cual se ajustan los valores experimentales se
plantea la hipótesis 8.10 que se resuelve mediante el test F 8.11.
Los resultados, obtenidos según el método de los polinomios ortogonales, son los siguientes
grupo control g.l. grupo experimental g.l.

Q(0) = 273,87 9 Q(0) = 249,99 9


Q(1) = 249,22 8 Q(1) = 216,12 8
Q(2) = 233,52 7 Q(2) = 213,15 7
Q(3) = 41,61 6 Q(3) = 37,80 6
Q(4) = 41,52 5 Q(4) = 27,10 5

Observemos que hay un fuerte descenso de la suma de cuadrados residual Q(m) al pasar
de grado 2 a grado 3, indicio de que los datos experimentales se ajustan a un polinomio
de grado 3.
Las F obtenidas son:
contraste grupo control grupo experimental

0 v.s. 1 F = 0,79 (n.s.) F = 1,25 (n.s.)


0 v.s. 2 F = 0,60 (n.s.) F = 0,60 (n.s.)
0 v.s. 3 F = 11,16 (p < 0,01) F = 11,23 (p < 0,01)
1 v.s. 3 F = 14,97 (p < 0,01) F = 14,25 (p < 0,01)
2 v.s. 3 F = 27,67 (p < 0,01) F = 27,83 (p < 0,01)
3 v.s. 4 F = 0,01 (n.s.) F = 1,98 (n.s.)
Efectivamente, tanto los datos del grupo control como los del grupo experimental se ajustan
a un polinomio de grado 3 (ver Figura 8.2).

40
35

30
25 grupo control

20 grupo
15 experimental

10
5
0
40 50 60 70 80

Figura 8.2: Gráfico de los dos grupos de ratas

El modelo es:
grupo control (◦)

yi = 1929,24 − 97,86ti + 1,654t2i − 0,0092t3i + i

grupo experimental (•)

yi = 1892,28 − 94,94ti + 1,593t2i − 0,0088t3i + i

152
8.7. Comparación de curvas experimentales
8.7.1. Comparación global
Si dos curvas experimentales se ajustan bien a modelos de formulación matemática di-
ferente (por ejemplo, dos polinomios de distinto grado) hay que aceptar que las curvas
experimentales son distintas.
Si las dos curvas son polinomios del mismo grado

y1 = Pm (x) + 
y2 = P̄m (x) + 

la comparación se expresa planteando el siguiente contraste de hipótesis

H0 : Pm (x) = P̄m (x)


(8.12)
H1 : Pm (x) 6= P̄m (x)

que implica la hipótesis lineal

H0 : βi = β̄i i = 0, 1, . . . , m

análoga a
H0 : γi = γ̄i i = 0, 1, . . . , m (8.13)
si utilizamos el modelo planteado mediante polinomios ortogonales (ver 8.7).
Sean SCR1 = Q1 (m), SCR2 = Q2 (m) las sumas de cuadrados residuales para cada curva
y SCR = SCR1 + SCR2 la suma de cuadrados residual del modelo conjunto construido
mediante la unión de los dos modelos.
La construcción del modelo conjunto es sólo posible si los dos modelos poseen varianzas
iguales. Por este motivo, es necesario plantear previamente el test de homogeneidad de
varianzas

H0 : σ12 = σ22
H1 : σ12 6= σ22

que se resuelve mediante el estadı́stico

SCR1 /(n1 − m − 1)
F = (8.14)
SCR2 /(n2 − m − 1)

cuya distribución si H0 es cierta es una F con n1 − m − 1 y n2 − m − 1 g.l..


Si aceptamos la igualdad de varianzas, podemos resolver 8.13 mediante el estadı́stico

(SCRH − SCR1 − SCR2 )/(m + 1)


F = (8.15)
(SCR1 + SCR2 )/(n1 + n2 − 2m − 2)

que bajo H0 sigue una F con m + 1 y n1 + n2 − 2m − 2 g.l.. La suma de cuadrados


SCRH = Q12 (m) es la suma de cuadrados residual bajo H0 , es decir, considerando que
las dos curvas son iguales y que en consecuencia todos los datos se ajustan a un mismo
polinomio de grado m.

153
8.7.2. Test de paralelismo
La hipótesis lineal de que las curvas son paralelas se plantea de la siguiente forma

H0 : βi = β̄i i = 1, . . . , m

o bien, si nos referimos a 8.7

H0 : γi = γ̄i i = 1, . . . , m (8.16)

Es decir, las curvas difieren únicamente respecto a la ordenada en el origen.


Esta hipótesis tiene generalmente interés cuando se rechaza H0 de 8.12. Se resuelve me-
diante el estadı́stico
(SCR∗H − SCR1 − SCR2 )/m
F = (8.17)
(SCR1 + SCR2 )/(n1 + n2 − 2m − 2)
cuya distribución sigue una F con m y n1 + n2 − 2m − 2 g.l. cuando H0 es cierta. La
suma de cuadrados SCR∗H es la suma de cuadrados residual bajo H0 que supone aceptar
la existencia de dos curvas distintas pero paralelas.

Ejemplo 8.7.1
En el ejemplo 8.6.1 hemos ajustado los datos del grupo control y del grupo experimental
a dos polinomios de grado 3.
¿Podemos aceptar que en realidad los dos polinomios son iguales? Esta pregunta equivale
a plantear la hipótesis lineal 8.13. Para resolverla es necesario realizar previamente el test
de homogeneidad de varianzas utilizando 8.14
41,61/(10 − 3 − 1)
F = = 1,10
37,80/(10 − 3 − 1)

con 6 y 6 g.l. (no significativa).


Pasamos pues a contrastar 8.13 mediante el estadı́stico 8.15. La suma de cuadrados re-
sidual bajo H0 es SCRH = Q12 (3) = 249,06

(249,06 − 41,61 − 37,80)/(3 + 1)


F = = 6,41
(41,61 + 37,80)/(10 + 10 − 6 − 2)

con 4 y 12 g.l. que es significativa (p < 0,01). Debemos aceptar en consecuencia que las
dos curvas son diferentes (la conducta de los individuos del grupo control es diferente de
la conducta de los individuos del grupo experimental).
No obstante, podemos preguntarnos si las dos curvas son paralelas y plantear la hipótesis
lineal 8.16 que resolveremos utilizando el estadı́stico 8.17. La suma de cuadrados residual
bajo H0 es ahora SCR∗H = Q∗12 = 82,59

(82,59 − 41,61 − 37,80)/3


F = = 0,16
(41,61 + 37,80)/(10 + 10 − 6 − 2)

con 3 y 12 g.l. (no significativa). Podemos entonces aceptar que las dos curvas experi-
mentales son paralelas. La interpretación en términos de la conducta podrı́a realizarse
conociendo con más precisión el planteamiento del problema.

154
8.8. Ejemplos con S-PLUS
Vamos a utilizar los datos del ejemplo 8.4.1 sobre el lenguaje. Las siguientes instrucciones
permiten introducir los datos y dibujar los diagramas de dispersión dos a dos de las
variables del ejemplo (ver figura 8.3).

2 4 6 8

8
6
y

4
2
8
6

x1
4
2

9
8
7
x2

6
5
4
3
2 4 6 8 3 4 5 6 7 8 9

Figura 8.3: Diagramas de dispersión dos a dos entre la variable respuesta y las variables
explicativas del ejemplo 8.4.1

> y<-c(3,2,4,9,6,7,2,6,5,8)
> x1<-c(1,1,3,7,8,7,4,6,6,9)
> x2<-c(3,4,7,9,7,6,5,8,5,7)
> exp<-cbind(x1,x2)
> lenguaje.datos<-data.frame(y,exp)
> par(pty="s")
> pairs(lenguaje.datos)

El siguiente paso es calcular el modelo de regresión lineal múltiple que permita predecir
los valores de Y en función de las variables explicativas x1 y x2 .

> regrem<-lm(y~x1+x2)
> summary(regrem)

Call: lm(formula = y ~ x1 + x2)


Residuals:
Min 1Q Median 3Q Max
-2.051 -0.5264 -0.05257 0.7989 1.47

Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) -0.4244 1.4701 -0.2887 0.7812
x1 0.5123 0.2087 2.4543 0.0438

155
x2 0.4853 0.3178 1.5273 0.1705

Residual standard error: 1.266 on 7 degrees of freedom


Multiple R-Squared: 0.7907
F-statistic: 13.22 on 2 and 7 degrees of freedom, the p-value is 0.004196

Correlation of Coefficients:
(Intercept) x1
x1 0.1811
x2 -0.8036 -0.6973

El plano estimado es ŷ = −0,4244 + 0,5123x1 + 0,4853x2 con un coeficiente de determi-


nación R2 = 0,7907 y el estadı́stico F nos dice que el modelo es útil, si un estudio más
profundo decide finalmente que es realmente válido.
Resulta curioso que en S-PLUS se puede obtener el coeficiente de determinación R 2 a
partir de la función summary.lm en la forma

> summary(regrem)$r.squared
[1] 0.790684

pero no hay nombre para el coeficiente ajustado. Mientras que en R sı́ es posible.
También se pueden obtener los coeficientes a partir de la matriz X0 X:

> XtX<-t(regrem$R)%*%regrem$R
> XtX
(Intercept) x1 x2
(Intercept) 10 52 61
x1 52 342 350
x2 61 350 403
> XtX.inv<-solve(XtX)
> XtX.inv
(Intercept) x1 x2
(Intercept) 1.34840753 0.03466479 -0.2342073
x1 0.03466479 0.02718635 -0.0288580
x2 -0.23420728 -0.02885800 0.0629949
> XtX.inv%*%t(cbind(1,exp))%*%y
[,1]
(Intercept) -0.4244237
x1 0.5123174
x2 0.4853071

La matriz XtX.inv se puede obtener de forma directa ası́:

> summary(regrem)$cov.unscaled
(Intercept) x1 x2
(Intercept) 1.34840753 0.03466479 -0.2342073
x1 0.03466479 0.02718635 -0.0288580
x2 -0.23420728 -0.02885800 0.0629949

También se obtiene más fácilmente con los elementos que proporciona la función lsfit:

156
> regrem.ls<-lsfit(exp,y)
> regrem.diag<-ls.diag(regre.ls)
> regrem.diag$cov.unscaled

La matriz σ̂ 2 (X0 X)−1 de varianzas y covarianzas entre los estimadores MC de los coefi-
cientes se obtiene de forma sencilla:

> summary(regrem)$sigma^2*summary(regrem)$cov.unscaled
(Intercept) x1 x2
(Intercept) 2.16117719 0.05555943 -0.37537868
x1 0.05555943 0.04357326 -0.04625252
x2 -0.37537868 -0.04625252 0.10096587

o también

> regrem.diag$std.dev^2*regrem.diag$cov.unscaled

Para calcular intervalos de confianza sobre los coeficientes de regresión hacemos

> beta.est<-cbind(regrem.ls$coef);beta.est
[,1]
Intercept -0.4244237
x1 0.5123174
x2 0.4853071
> cbind(beta.est+qt(0.025,7)*regrem.diag$std.err,
+ beta.est+qt(0.975,7)*regrem.diag$std.err)
[,1] [,2]
(Intercept) -3.90064431 3.051797
x1 0.01872084 1.005914
x2 -0.26605529 1.236669

Observamos que los intervalos correspondientes a β0 y β2 contienen al cero, en coherencia


con los test t parciales. Pero también nos puede interesar reproducir la tabla ANOVA
sobre la significación de la regresión, aunque el test F ya se ha obtenido con la función
summary(regrem). Las funciones anova.lm o summary.aov nos pueden ayudar.

> summary.aov(regrem)
Df Sum of Sq Mean Sq F Value Pr(F)
x1 1 38.64190 38.64190 24.10956 0.0017330
x2 1 3.73876 3.73876 2.33270 0.1705213
Residuals 7 11.21934 1.60276

Sin embargo, los resultados se refieren a contrastes F secuenciales y parciales. Exacta-


mente SCR (β0 , β1 ) = 38,64190 y SCR (β2 |β0 , β1 ) = 3,73876, de manera que

SCR = SCR (β1 , β0 ) + SCR (β2 |β0 , β1 ) = 42,38066

Por otra parte, se observa directamente que SCR = 11,21934. Con estos datos, completar
la tabla 8.1 es relativamente sencillo. Sin embargo se puede conseguir dicha tabla, aunque
con otra organización, mediante un contraste de modelos:

157
> regrem0<-lm(y~1)
> anova(regrem0,regrem)
Analysis of Variance Table

Response: y

Terms Resid. Df RSS Test Df Sum of Sq F Value Pr(F)


1 1 9 53.60000
2 x1 + x2 7 11.21934 2 42.38066 13.22113 0.00419574

Otro aspecto que también hemos visto ha sido el cálculo de los coeficientes de regresión
estandarizados, que con S-PLUS se obtienen ası́:

> cor(exp)
x1 x2
x1 1.0000000 0.6973296
x2 0.6973296 1.0000000
> cor(exp,y)
[,1]
x1 0.8490765
x2 0.7813857
> solve(cor(exp),cor(exp,y))
[,1]
x1 0.5921248
x2 0.3684796

Si queremos más detalles sobre los coeficientes de regresión estandarizados, podemos


utilizar el siguiente modelo sin coeficiente de intercepción:

> x1.est<-(x1-mean(x1))/stdev(x1)
> x2.est<-(x2-mean(x2))/stdev(x2)
> y.est<-(y-mean(y))/stdev(y)
> regrem.est<-lm(y.est~-1+x1.est+x2.est)
> summary(regrem.est)

Por último, podemos estudiar la multicolinealidad calculando los FIV

> diag(solve(cor(exp)))
[1] 1.946542 1.946542

que en este caso no existe.


El cálculo de predicciones puntuales o por intervalo se obtiene mediante la función
predict.lm del modelo lineal.

158
8.9. Ejercicios
Ejercicio 8.1
Consideremos el modelo de la regresión lineal múltiple

yi = β0 + β1 xi1 + · · · + βm xim i = 1, . . . , n

Sean β̂0 , β̂1 , . . . , β̂m las estimaciones MC de los parámetros. Explicar en qué condiciones
podemos afirmar que E(β̂j ) = βj , j = 0, 1, . . . , m.
Por otra parte, ¿es siempre válido afirmar que

ŷi = β̂0 + β̂1 xi1 + · · · + β̂m xim

es una estimación centrada de

β0 + β1 xi1 + · · · + βm xim ?

Ejercicio 8.2
En la regresión múltiple de una variable Y sobre tres variables control x1 , x2 , x3

yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + i i = 1, . . . , n

donde i ∼ N (0, σ 2 ), se desea contrastar la hipótesis nula

H0 : β 2 = β 3 = 0

Sea ryx el coeficiente de correlación múltiple de Y sobre x1 , x2 , x3 y sea ry1 el coeficiente


de correlación simple entre Y y x1 . Deducir un test F para contrastar H0 que sea función
de ryx y ry1 .

Ejercicio 8.3
En una gran ciudad, queremos relacionar el número de muertos diarios por enfermedades
cardio-respiratorias con la media de humos (mg/m3 ) i la media de dióxido de azufre
(partes/millón) medidas por los equipos del Ayuntamiento en diversas zonas de la ciudad.
Consideremos un modelo de regresión lineal no centrado con los siguientes datos:
   
15 6,87 21,09 0,2243 −1,2611 0,2987
X0 X =  5,6569 18,7243  (X0 X)−1 =  16,1158 −4,3527 
63,2157 1,2054
 
3922
X0 Y =  2439,54  Y0 Y = 1264224
7654,35
Se pide:

1) Calcular la estimación MC de todos los coeficientes de regresión del modelo.

2) Obtener una estimación insesgada de la varianza del modelo.

3) Contrastar la significación del modelo propuesto con α = 0,1.

159
4) Calcular el intervalo de confianza al 95 % para la media del valor respuesta para
una media de humos de 1 mg/m3 y una media de SO2 de 1.

Ejercicio 8.4
Se dispone de los siguientes datos sobre diez empresas fabricantes de productos de limpieza
doméstica:
Empresa V IP P U
1 60 100 1,8
2 48 110 2,4
3 42 130 3,6
4 36 100 0,6
5 78 80 1,8
6 36 80 0,6
7 72 90 3,6
8 42 120 1,2
9 54 120 2,4
10 90 90 4,2

En el cuadro anterior, V son las ventas anuales, expresadas en millones de euros, IP es un


ı́ndice de precios relativos (Precios de la empresa/Precios de la competencia) y P U son los
gastos anuales realizados en publicidad y campañas de promoción y difusión, expresados
también en millones de euros.
Tomando como base la anterior información:

1) Estimar el vector de coeficientes β = (β0 , β1 , β2 )0 del modelo

Vi = β0 + β1 IPi + β2 P Ui + i

b
2) Estimar la matriz de varianzas-covarianzas del vector β.

3) Calcular el coeficiente de determinación.

Ejercicio 8.5
Dado el modelo
Yt = β0 + β1 X1t + β2 X2t + ut
y los siguientes datos

Yt X1t X2t
10 1 0
25 3 −1
32 4 0
43 5 1
58 7 −1
62 8 0
67 10 −1
71 10 2

obtener:

160
(a) La estimación MC de β0 , β1 , β2 utilizando los valores originales.

(b) La estimación MC de β0 , β1 , β2 utilizando los datos expresados en desviaciones res-


pecto a la media.

(c) La estimación insesgada de σ 2 .

(d) El coeficiente de determinación.

(e) El coeficiente de determinación corregido.

(f) El contraste de la hipótesis nula H0 : β0 = β1 = β2 = 0.

(g) El contraste de la hipótesis nula H0 : β1 = β2 = 0 utilizando datos originales.

(h) El contraste de la hipótesis nula H0 : β1 = β2 = 0 utilizando datos en desviaciones


respecto a la media.

(i) La representación gráfica de una región de confianza del 95 % para β1 y β2 .

(j) El contraste individual de los parámetros β0 , β1 y β2 .

(k) El contraste de la hipótesis nula H0 : β1 = 10β2 .

(l) El contraste de la hipótesis nula H0 : 2β0 + 2β1 + 7β2 = 50.

(m) El contraste de la hipótesis nula conjunta H0 : β1 = 10β2 , 2β0 + 2β1 + 7β2 = 50.

Ejercicio 8.6
Supongamos que hemos estimado la siguiente ecuación utilizando MC (con las variables
medidas en logaritmos)

Yt = β0 + β1 X1t + β2 X2t t = 1, . . . , 17

y las estimaciones de los parámetros son:

β̂0 = 1,37 β̂1 = 1,14 β̂2 = −0,83

También hemos obtenido la siguiente expresión escalar:

Y0 [I − X(X0 X)−1 X0 ]Y = 0,0028

y los elementos triangulares de la matriz (X0 X)−1 son:


 
510,89 −254,35 0,42
 132,70 −6,82
7,11

Se pide:

1. Calcular las varianzas de los estimadores MC de β0 , β1 , β2 .

2. Si X1t aumenta en un 1 por 100 y X2t en un 2 por 100, ¿cuál serı́a el efecto estimado
en Yt ?

161
3. Efectuar un test estadı́stico para verificar la hipótesis de que β1 = 1 y β2 = −1
y dar el valor de dicho estadı́stico. ¿Cuáles son las tablas que necesitaremos para
realizar el test y cuántos son los grados de libertad?

Ejercicio 8.7
Una variable Y depende de otra variable control x que toma los valores x1 = 1, x2 =
2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal

yi = β0 + β1 xi + β2 x2i + i i = 1, 2, 3, 4

Estudiar la expresión del estadı́stico F para contrastar la hipótesis H0 : β1 = β2 .

Ejercicio 8.8
La puntuación del test open-field para un grupo de 10 ratas control (C) y otro grupo de
10 ratas experimentales (E) a lo largo de los dı́as 47, 50, . . . , 74 contados desde el instante
del nacimiento fue
Dı́a 47 50 53 56 59 62 65 68 71 74
grupo C 34 24 21 23 23 30 31 26 23 17
grupo E 25 20 16 15 21 20 28 23 18 9

Se ajustaron al grupo control polinomios de grado 0, 1, 2 y 3 respecto la variable “edad


en dı́as” y se obtuvieron las siguientes sumas de cuadrados residuales:
Q(0) = 235,6
Q(1) = 202,8
Q(2) = 199,4
Q(3) = 29,7
Se pide:

1) Comprobar que se puede aceptar como válido el polinomio de grado 3 como poli-
nomio de regresión de Y (puntuación) sobre x (edad en dı́as).
2) El polinomio de grado 3 que ajusta Y a x es

y = 318,8 − 93,3x + 1,56x2 − 0,0086x3

El coeficiente de correlación múltiple de Y sobre x, x2 , x3 es ryx = 0,8734. Estudiar


si es significativo.
3) Para el grupo experimental es también adecuado un ajuste polinómico de grado 3
con suma de cuadrados residual Q(3) = 29,2. Además, juntando todos los datos re-
ferentes a Y , es decir, juntando los dos grupos y en consecuencia las 20 observaciones
y realizando un ajuste polinómico de grado 3, se obtiene

SCRH = 225,8

Contrastar las hipótesis


H0 : los dos polinomios (C y E) son idénticos
H1 : hay diferencias significativas entre ambos polinomios

162
Capı́tulo 9

Diagnosis del modelo

En este capı́tulo se investiga la detección de posibles deficiencias en el modelo por incum-


plimiento de las hipótesis fijadas en 2.3. Para ello la principal herramienta es el análisis
de los residuos que nos permite detectar los siguientes problemas:

1. Algunas de las variables explicativas del modelo tienen una relación no lineal con
la variable respuesta.

2. No hay homocedasticidad, es decir, los errores no tienen varianza constante.

3. Los errores no son independientes.

4. Muchas observaciones atı́picas.

5. Hay observaciones demasiado influyentes.

6. Los errores no tienen distribución normal

También estudiaremos la consecución del mejor grupo reducido de variables regresoras.

9.1. Residuos
9.1.1. Estandarización interna
Los residuos de un modelo lineal se obtienen como diferencia entre los valores observados
de la variable respuesta y las predicciones obtenidas para los mismos datos:
b
e = (e1 , . . . , en )0 = Y − Y

La media de los residuos es cero


n
1X
ē = ei = 0
n i=1

y una estimación aproximada de la varianza es


X n X n
1 1
(ei − ē)2 = e2 = SCR/(n − k − 1) = ECM
n − k − 1 i=1 n − k − 1 i=1 i

163
que tiene sólo n − k − 1 grados de libertad, donde k es el número de variables regresoras,
ya que los n residuos no son independientes,
Se llaman residuos estandarizados a
ei
di = √ i = 1, . . . , n
ECM
que tienen media cero y varianza aproximada uno.
b = (I − P)Y = (I − P),
Ahora bien, como el vector de residuos aleatorios es e = Y − Y
donde P es la matriz proyección, la matriz de varianzas-covarianzas de los residuos es
var(e) = σ 2 (I − P) de manera que

var(ei ) = σ 2 (1 − hii )

donde hii es el i-ésimo elemento1 de la diagonal de P.


La utilización de los residuos e como estimaciones de los errores  requiere que mejoremos
la estandarización. Como 0 ≤ hii ≤ 1, utilizar ECM para estimar la varianza var(ei ) es
una sobreestimación:
0≤ var(ei ) ≤ σ2
0 ≤ ECM(1 − hii ) ≤ ECM

De modo que muchos autores recomiendan trabajar con los residuos studentizados
ei
ri = i = 1, . . . , n
[ECM(1 − hii )]1/2

Además, hii es una medida de la localización del i-ésimo punto xi respecto al punto medio.
En la regresión lineal simple

1 (xi − x̄)2
hii = + Pn 2
(9.1)
n i=1 (xi − x̄)

En el modelo de regresión múltiple


1 1
hii = [1 + (xi − x̄)0 S−1
xx (xi − x̄)] = (1 + Di2 ) (9.2)
n n
donde Di2 es la llamada distancia de Mahalanobis.
Ası́, la varianza de un error ei depende de la posición del punto xi . Puntos cercanos al
punto central x̄ tienen mayor varianza (pobre ajuste MC) que los puntos alejados.
Como las violaciones de las hipótesis del modelo son más probables en los puntos remotos,
pero más difı́ciles de detectar con los residuos ei (o di ), porque los residuos son menores,
es mejor trabajar con los residuos ri ya que var(ri ) = 1 constante, desde el punto de vista
de la localización de los xi .
Para n grande se puede trabajar con los di o con los ri . Pero como valores altos de ei
y de hii pueden indicar un punto de alta influencia en el ajuste MC, se recomienda la
utilización de los residuos estudentizados ri . Estos residuos se utilizarán en el diagnóstico
de valores atı́picos.
1
En muchos libros escritos en inglés la matriz proyección se llama hat y se escribe H.

164
Ejemplo 9.1.1
Si recuperamos el ejemplo de regresión simple propuesto en la sección 1.2 con los datos
de tráfico, podemos calcular los residuos studentizados de ese modelo.
Primero calculamos los elementos de la diagonal de la matriz P, por ejemplo
1 (12,7 − 54,44167)2
h11 = + = 0,155865
24 15257,4383
y con este valor se obtiene el residuo
0,528699
r1 = = 2,13968
0,2689388(1 − 0,155865)1/2
Los otros residuos se calculan de forma similar, mejor con la ayuda de una hoja de cálculo
o con un programa estadı́stico (ver sección 9.4).

9.1.2. Estandarización externa


Para calcular los residuos estudentizados ri en el apartado anterior hemos utilizado ECM
como estimador de la varianza σ 2 . Nos referiremos a esto como una estimación interna
puesto que para calcularla se utilizan los n puntos. Otra aproximación consiste en estimar
σ 2 con el conjunto de datos sin la i-ésima observación.
Si s2(i) es la estimación de σ 2 ası́ obtenida, se demuestra que
 
2 (n − k − 1)ECM − e2i /(1 − hii ) n − k − 1 − ri2
s(i) = = ECM
n−k−2 n−k−2
Si utilizamos estos estimadores de σ 2 en lugar de ECM, producimos los llamados residuos
studentizados externamente o R-Student
ei
ti = 2 i = 1, . . . , n (9.3)
[s(i) (1 − hii )]1/2

En la mayorı́a de situaciones los residuos ti no diferirán de los residuos studentizados ri .


Sin embargo, si la i-ésima observación es influyente, entonces s2(i) puede diferir significa-
tivamente de ECM y el estadı́stico ti será más sensible para este punto. Además, bajo las
hipótesis estándar ti ∼ tn−k−2 , de modo que podemos considerar un procedimiento formal
para la detección de valores atı́picos mediante el contraste de hipótesis y utilizando algún
método múltiple. En la práctica, un diagnóstico “a ojo” es más útil y rápido. En general,
se considera que un residuo es atı́pico o outlier si |ti | > 2. Además, la detección de los
valores atı́picos está ligada a la detección de puntos influyentes.

Ejemplo 9.1.2
Vamos a calcular el residuo studentizado externamente t1 para la primera observación
de la regresión simple continuación del ejemplo 9.1.1. Para ello necesitamos el valor del
error ECM = (0,2689388)2 = 0,072328 con el que calculamos
24 − 1 − 1 − 2,139682
s2(i) = 0,072328 = 0,060004
24 − 1 − 2
y con esta estimación externa
0,528699
t1 = p = 2,349159
0,060004(1 − 0,155865)

165
a) Residuos studentizados b) Residuos studentizados
internamente externamente
2

2
1

1
r_i

t_i
0

0
-1

-1
-2

-2
5 10 15 20 5 10 15 20

dato dato

Figura 9.1: Gráficos de los residuos studentizados del ejemplo 9.1.1.

Siguiendo con la misma idea, también podemos calcular los residuos en función de las
predicciones ŷi(i) calculadas con el modelo de regresión sin la i-ésima observación. Sean
e(i) = yi − ŷi(i) los residuos ası́ obtenidos y
n
X
PRESS = e2(i)
i=1

su suma de cuadrados2 .
Se demuestra que
ei σ2
e(i) = var(e(i) ) = (9.4)
1 − hii 1 − hii
de modo que la estandarización de estos residuos
e(i) ei
1/2
= 2
[var(e(i) )] [σ (1 − hii )]1/2

también depende del estimador que utilicemos para estimar σ 2 . Si utilizamos el estimador
interno ECM, recuperamos los residuos studentizados ri y si utilizamos el estimador
externo s2(i) obtenemos los residuos studentizados externamente ti .
Los residuos asociados con puntos para los que hii sea grande, tendrán residuos e(i) gran-
des. Estos puntos serán puntos de alta influencia. Una gran diferencia entre el residuo
ordinario ei y el residuo e(i) indicará un punto en el que el modelo, con ese punto, se
ajusta bien a los datos, pero un modelo construido sin ese punto “predice” pobremente.

9.1.3. Gráficos
Algunos gráficos de los residuos nos van a ayudar en el diagnóstico del modelo aplicado.
2
prediction error sum of squares

166
En primer lugar, el análisis de datos univariante de los residuos y, en particular, los gráficos
como histogramas, diagramas de caja, diagramas de tallo y hojas, etc. nos mostrarán
algunos detalles. Por ejemplo, en el diagrama de caja podemos estudiar la centralidad, la
simetrı́a y la presencia de valores atı́picos.

,6

,4

RESIDUO Stem-and-Leaf Plot


,2
Frequency Stem & Leaf

-,0
14,00 -0 . 00011122222333
8,00 0 . 01112224
-,2 2,00 0 . 55

Stem width: 1,000000


-,4
Each leaf: 1 case(s)

-,6
N= 24

RESIDUO

Figura 9.2: Boxplot y diagrama de tallo y hojas de los residuos en la regresión simple del
ejemplo 9.1.3.

Ejemplo 9.1.3
También con los datos de tráfico del ejemplo de regresión simple propuesto en la sección
1.2 podemos representar algunos gráficos de los residuos sin estandarizar. En la figura
9.2 se muestran dos de los gráficos obtenidos con el programa SPSS. En ellos se observa
una cierta asimetrı́a de los residuos, aunque no hay ningún valor atı́pico.

Otros gráficos adecuados para el análisis de la regresión son:

Gráfico de dispersión de los residuos respecto al ı́ndice i = 1, . . . , n.


Este diagrama puede indicar algún tipo de correlación no deseada entre los residuos
o alguna agrupación contraria a la supuesta aleatoriedad (figura 9.3 a).

Gráfico de los residuos versus los datos de la variable respuesta.


Permite observar los residuos desde los valores observados de la variable respuesta.

Gráfico de los residuos versus los valores ajustados.


Este gráfico es muy importante porque debe mostrar una total aleatoriedad. La
dispersión horizontal no debe presentar ninguna tendencia. Una curvatura indica la
violación del supuesto de linealidad del modelo en el caso de regresión lineal simple
(figura 9.3 b). Una forma triangular indica una posible heterogeneidad o violación
de la hipótesis de varianza constante de los errores.

Gráficos de los residuos versus las observaciones de la variable o variables regresoras.


Sirven para detectar si las variables regresoras o explicativas han de incluirse en el
modelo con alguna transformación no lineal.

167
Gráfico de los valores observados versus los valores ajustados.
La proximidad de los puntos a la bisectriz muestra el ajuste de la recta de regresión
(figura 9.3 c).
Gráfico de los cuantiles de la distribución normal o QQ-plot y gráfico de las proba-
bilidades acumuladas de la distribución normal o PP-plot.
Con estos gráficos se pretende visualizar el ajuste de la distribución muestral de
los residuos a la ley normal. En el QQ-plot se dibujan los puntos asociados a los
cuantiles de la distribución normal (estándar en S-PLUS o sin estandarizar como
en SPSS). En el PP-plot se dibujan las probabilidades acumuladas estimadas y
teóricas para la distribución normal. En ambos casos se dibuja también una recta
que representa el ajuste perfecto a la distribución normal. Los desvı́os exagerados
de dichas rectas indican una posible violación de la hipótesis de normalidad (figura
9.3 d).
El estudio de la normalidad de los residuos se debe completar con algún contraste
de ajuste como la prueba ji-cuadrado o el test de Kolmogorov (ver sección 9.4).

a) Residuos vs. indice b) Residuos vs. ajustados


0.4

0.4
0.2

0.2
residuos

residuos
0.0

0.0
-0.2

-0.2

5 10 15 20 3 4 5 6 7

indice ajustados

c) Ajustados vs. observados d) QQ-plot


8

0.4
7

0.2
observados

residuos
6

0.0
5

-0.2
4

3 4 5 6 7 -2 -1 0 1 2

ajustados Cuantiles de la normal

Figura 9.3: Gráficos en el análisis de la regresión simple del ejemplo 9.1.4.

Ejemplo 9.1.4
Como continuación del ejemplo de regresión simple 9.1.3 con los datos de tráfico, pode-
mos representar algunos gráficos como los de la figura 9.3. Entre esos gráficos podemos

168
destacar la no aleatoriedad manifiesta del gráfico (b) que indica un ajuste no lineal entre
las variables. Ello justifica la introducción del modelo parabólico (ejercicio 9.1).

9.2. Diagnóstico de la influencia


Ocasionalmente hallamos que algún dato o un pequeño subconjunto de datos ejerce una
desproporcionada influencia en el ajuste del modelo de regresión. Esto es, los estimadores
de los parámetros o las predicciones pueden depender más del subconjunto influyente
que de la mayorı́a de los datos. Queremos localizar estos puntos influyentes y medir su
impacto en el modelo. Si por alguna razón concreta son puntos “malos” los eliminaremos,
pero si no ocurre nada extraño, su estudio puede darnos algunas claves del modelo.

9.2.1. Nivel de un punto


Casi siempre los puntos definidos por las variables regresoras o explicativas forman una
nube y están razonablemente repartidos alrededor del punto medio. Sin embargo, alguno
de ellos o un pequeño grupo puede aparecer muy alejado del resto. Estos valores son
potencialmente peligrosos, puesto que pueden afectar excesivamente al ajuste del modelo.
Vamos a definir el concepto de nivel3 de un punto y señalaremos los que tengan un nivel
muy alto (leverage points).
El nivel de un punto es una medida de la distancia del punto al centroide del conjunto de
datos. Existen varias propuestas pero la más extendida se basa en los elementos hii de la
diagonal de la matriz proyección P. Estos elementos se calculan con las fórmulas 9.1 en
el caso de la regresión simple y 9.2 para la regresión múltiple.
Como n
X
hii = traza(P) = rango(P) = k + 1
i=1

el tamaño medio de cada hii es (k + 1)/n. Ası́, cuando un punto verifique hii > 2(k + 1)/n
diremos que dicha observación es un punto de alto nivel. Estos puntos se deben marcar
para su posterior estudio ya que son potencialmente influyentes.

Ejemplo 9.2.1
Siguiendo con el ejemplo 9.1.1 los datos con mayor nivel son

dato nivel
1 0,15586452
15 0,13601868
2 0,13354830

Dado que 2(k + 1)/n = (2 · 2)/24 = 0,1666, no hay ningún punto de alto nivel.
3
leverage

169
9.2.2. Influencia en los coeficientes de regresión
Entre las medidas de influencia sobre los coeficientes de regresión la más empleada es la
distancia de Cook (1977,1979)

b−β
(β b (i) )0 X0 X(β
b −β
b (i) )
Ci = i = 1, . . . , n (9.5)
(k + 1)ECM

donde β b son las estimaciones MC en el modelo con todos los puntos, mientras que βb son
(i)
las estimaciones sin el i-ésimo punto. Esta medida calcula la distancia cuadrática entre
byβ
β b (i) , relativa a la geometrı́a fija de X0 X.
Otra versión equivalente de esta distancia es
b −Y
(Y b (i) )0 (Y
b −Y
b (i) )
Ci =
(k + 1)ECM

b = Xβ
ya que Y byY b (i) = Xβb (i) .
Sin embargo para el cálculo de esta distancia es mejor utilizar la fórmula

ri2 hii
Ci = ·
k + 1 1 − hii
donde la primera parte depende del ajuste al modelo de la i-ésima predicción, mientras
que el segundo factor es una función de la distancia del punto xi al centroide del conjunto
de observaciones de las variables explicativas. Una demostración de esta fórmula puede
verse en el ejercicio 9.19 del libro de Ugarte y Militino[64].
La búsqueda de puntos influyentes se puede iniciar con la identificación de puntos con
distancia de Cook elevada. Sin embargo se desconoce la distribución exacta de este es-
tadı́stico y no hay reglas fijas para la determinación de los puntos con valor de Ci grande.
Los puntos con distancias de Cook grandes pueden ser influyentes y podemos extraerlos
del análisis para ver si los cambios son apreciables.

Ejemplo 9.2.2
Con el ejemplo de regresión simple que estamos estudiando desde el ejemplo 9.1.1 se
observa que los datos con mayor distancia de Cook son:

dato hii ri Ci
1 0,1559 2,1397 0,4227
12 0,1227 2,1178 0,3136

Estos datos son los de mayor influencia debida al gran residuo studentizado (los dos
mayores) y a su alto nivel, especialmente el dato 1.

Otra medida de influencia sobre cada coeficiente de regresión por separado fue propuesta
por ... y consiste en la diferencia estandarizada entre la estimación MC de dicho parámetro
con todas las observaciones y la estimación MC del mismo sin la i-ésima:

β̂j − β̂j(i)
Dfbetasj(i) = q
s2(i) cjj

170
a) Niveles de los datos b) Distancias de Cook
0.16

0.4
0.14

0.3
0.12
0.10
h_ii

C_i

0.2
0.08

0.1
0.06

0.0
0.04

5 10 15 20 5 10 15 20

dato dato

Figura 9.4: Gráficos de los niveles y distancias de Cook de los datos del ejemplo 9.2.2.

para j = 0, 1, . . . , k y i = 1, . . . , n, donde cjj es el j-ésimo elemento de la diagonal de


la matriz (X0 X)−1 y s2(i) la estimación xxx de la varianza σ 2 sin la i-ésima observación.
Observemos que s2(i) cjj es una estimación de la varianza var(β̂j ) = σ 2 cjj .
Un valor absoluto desmesurado de esta medida indica una gran influencia de la obser-
vación i-ésima sobre la estimación del coeficiente βj . En la práctica se considera una
observación influyente
√ cuando |Dfbetas| > 1 para un pequeño conjunto de datos y
|Dfbetas| > 2/ n en general.

9.2.3. Influencia en las predicciones


Como hemos visto, la distancia de Cook es también una medida de la influencia de un
punto sobre el conjunto de predicciones.
Otra medida de influencia de la i-ésima observación sobre la predicción de la propia
observación i es la distancia de ...
|ŷi − ŷi(i) |
Dffitsi = q
s2(i) hii

donde se estandariza la diferencia entre las predicciones de la i-ésima observación con y


sin ella misma.
A partir de las ecuaciones 9.3 y 9.4 se demuestra que (ejercicio 9.3)
r
hii
Dffitsi = |ti | (9.6)
1 − hii
donde ti son los residuos studentizados externamente.
p
En general se considera que la influencia es notable si el Dffits es superior a 2 (k + 1)/n,
mientras que para un conjunto de datos reducido basta que sea mayor que uno.

171
Ejemplo 9.2.3
Como continuación del ejemplo 9.2.2 podemos calcular el Dffits 1 para la primera obser-
vación: r
0,155865
Dffits1 = |2,349159| = 1,009439
1 − 0,155865
p
que supera el valor frontera 2 2/24 = 0,577 y muestra la alta influencia de esta obser-
vación.

9.3. Selección de variables


Con el objetivo de considerar el mejor modelo de regresión posible, el experimentador
debe seleccionar un conjunto de variables regresoras entre las observadas y, si es nece-
sario, entre potencias y productos de las mismas. Una primera decisión fijará el tipo de
relación funcional con la variable respuesta pero, en todo caso, la selección de un conjunto
reducido de variables explicativas es un problema complicado. Si consideramos un número
demasiado pequeño de variables es posible que la potencia del modelo se vea reducida
y que las estimaciones obtenidas sean sesgadas, tanto de los coeficientes de regresión,
como de las predicciones. Este sesgo se origina ya que los errores calculados con los datos
observados pueden contener efectos no aleatorios de las variables desechadas. Por otra
parte, un número muy grande de variables explicativas complica la utilidad práctica del
modelo y, aunque mejora el ajuste aparente, aumenta la varianza de los estimadores de
los parámetros.
Decidir el mejor conjunto de variables es prácticamente un arte, en el que algunas técnicas
sirven de apoyo: test t de Student de los coeficientes de regresión, test F de significación de
la regresión, estudio de la multicolinealidad, etc. Sin embargo, ya hemos alertado sobre la
utilización ciega de los test t parciales para medir la importancia de las variables. Ası́ pues,
es preciso añadir algunas técnicas especı́ficas para comparar modelos de regresión que
pasamos a detallar.

9.3.1. Coeficiente de determinación ajustado


Esta técnica consiste en calcular los coeficientes de determinación de todos los modelos
posibles con la combinación de cualquier número de variables explicativas. Para evitar los
problemas que justifican la definición 8.2.1 resulta obvio utilizar el coeficiente ajustado
cuando hay muchas variables en juego. El objetivo es reconocer el modelo con mayor
coeficiente. Sin embargo, si el número de variables es considerable esta técnica puede
tener dificultades de cálculo.

9.3.2. Criterio CP de Mallows


Con este criterio se debe fijar en primera instancia un número P de parámetros, incluido
el término independiente, aunque con posterioridad se podrá variar. Se trata de hallar el
mejor modelo con P variables explicativas, incluida la constante, utilizando el estadı́stico
de Mallows
SCRP
CP = − (n − 2P )
σ̂ 2

172
donde SCRP es la suma de cuadrados residual del modelo particular y σ̂ 2 un estimador
de la varianza del modelo que acostumbra a ser el ECM del modelo completo.
Para el modelo completo P = k + 1, el estadı́stico de Mallows es
SCR
Ck+1 = − (n − 2(k + 1)) = n − (k + 1) − (n − 2(k + 1)) = k + 1
ECM
También para todo modelo no completo se puede demostrar que aproximadamente E(CP ) =
P , si el modelo es adecuado. En consecuencia parece recomendable elegir los conjuntos
para los que CP sea aproximadamente P .

9.3.3. Selección paso a paso


El procedimiento se puede realizar hacia adelante (forward stepwise) o hacia atrás (back-
ward stepwise), seleccionando las variables una a una e incorporándolas desde el modelo
inicial o eliminándolas desde el modelo completo en función de su contribución al modelo.
Aunque es el método más utilizado por su facilidad de computación, este sistema tiene el
inconveniente de que puede conducir a modelos distintos y no necesariamente óptimos.
En la selección hacia adelante se incorpora como primera variable la de mayor F de signifi-
cación de la regresión simple. La segunda variable se selecciona por su mayor contribución
al modelo que ya contiene la primera variable del paso anterior y ası́ sucesivamente.

9.4. Ejemplos con S-PLUS


Con los datos de tráfico de la sección 1.2 se calcula la regresión como se explica en la
sección 6.9 mediante la instrucción

> recta<-lm(rvel~dens)

Para el análisis de los residuos, la función summary nos ofrece un resumen de cinco números

Call: lm(formula = rvel ~ dens)


Residuals:
Min 1Q Median 3Q Max
-0.3534 -0.2272 -0.03566 0.1894 0.5335

También podemos obtener algunos gráficos univariantes como los de la figura 9.5 con las
siguientes instrucciones:

> par(mfrow=c(1,2))
> par(pty="s")
> hist(residuals(recta),xlab="residuos")
> title("a) Histograma")
> boxplot(residuals(recta))
> title("b) Diagrama de caja")
> stem(residuals(recta))

N = 24 Median = -0.0356607
Quartiles = -0.228869, 0.1987335

173
a) Histograma b) Diagrama de caja
8

0.4
6

0.2
4

0.0
2

-0.2
0

-0.4 -0.2 0.0 0.2 0.4 0.6

residuos

Figura 9.5: Gráficos de los residuos de la regresión simple del ejemplo de la sección 1.2.

Decimal point is 1 place to the left of the colon

-3 : 510
-2 : 44332
-1 : 711
-0 : 611
0 : 3
1 : 028
2 : 245
3 :
4 : 0
5 : 33

Para obtener los gráficos de la figura 9.3 se requieren las siguientes instrucciones:

> par(mfrow=c(2,2))
> plot(residuals(recta),xlab="indice",ylab="residuos")
> title("a) Residuos vs. indice")
> plot(fitted(recta),residuals(recta),xlab="ajustados",ylab="residuos")
> title("b) Residuos vs. ajustados")
> plot(fitted(recta),rvel,xlab="ajustados",ylab="observados")
> abline(0,1)
> title("c) Ajustados vs. observados")
> qqnorm(residuals(recta),xlab="Cuantiles de la normal",ylab="residuos")
> qqline(residuals(recta))
> title("d) QQ-plot")

S-PLUS también permite obtener 6 gráficos para el análisis de un modelo de regresión


lineal de una forma directa, mediante las instrucciones

174
> par(mfrow=c(2,3))
> plot(recta)

En cuanto a los contrastes de ajuste a la distribución normal, podemos optar entre el test
de Kolmogorov-Smirnov ks.gof y la prueba ji-cuadrado chisq.gof. En nuestro caso:

> ks.gof(residuals(recta), distribution = "normal")

One sample Kolmogorov-Smirnov Test of Composite Normality

data: residuals(recta)
ks = 0.129, p-value = 0.5 alternative
hypothesis: True cdf is not the normal distn. with estimated parameters
sample estimates:
mean of x standard deviation of x
2.298509e-017 0.2630273

También se puede calcular la regresión con la instrucción

recta.ls<-lsfit(dens,rvel)

que nos proporciona muchos de los elementos para el diagnóstico en la forma:

> recta.diag<-ls.diag(recta.ls)
> recta.diag$hat # nivel
...
> recta.diag$std.res # residuos studentizados
...
> recta.diag$stud.res # residuos studentizados externamente
...
> recta.diag$cooks # distancias de Cook
...
> recta.diag$dfits # medidas Dffits
...

Los gráficos ...

> par(mfrow=c(1,2))
> par(pty="s")
> plot(recta.diag$hat,type="h",xlab="dato",ylab="h_ii")
> title("a) Niveles de los datos")
> plot(recta.diag$cooks,type="h",xlab="dato",ylab="C_i")
> title("b) Distancias de Cook")

> par(mfrow=c(1,2))
> par(pty="s")
> plot(recta.diag$std.res,xlab="dato",ylab="r_i",ylim=c(-2.5,2.5))
> title("a) Residuos studentizados \n internamente")
> plot(recta.diag$stud.res,xlab="dato",ylab="t_i",ylim=c(-2.5,2.5))
> title("b) Residuos studentizados \n externamente")

175
9.5. Ejercicios
Ejercicio 9.1
Realizar el análisis completo de los residuos del modelo de regresión parabólico propuesto
en la sección 1.2 con los datos de tráfico.

Ejercicio 9.2
Realizar el análisis completo de los residuos de los modelos de regresión simple y pa-
rabólico propuestos en la sección 1.2 con los datos de tráfico, pero tomando como variable
respuesta la velocidad (sin raı́z cuadrada). Este análisis debe justificar la utilización de
la raı́z cuadrada de la velocidad como variable dependiente.

Ejercicio 9.3
Probar la relación 9.6 a partir de las ecuaciones 9.3 y 9.4.

176
Capı́tulo 10

Análisis de la Varianza

10.1. Introducción
El Análisis de la Varianza es un conjunto de técnicas estadı́stico-matemáticas que per-
miten analizar cómo operan sobre una variable respuesta diversos factores considerados
simultáneamente según un determinado diseño factorial. Normalmente interesa estudiar
cómo se diferencian los niveles de un cierto factor, llamado factor tratamiento, teniendo en
cuenta la incidencia de otros factores cualitativos o cuantitativos (factores ambientales),
cuya influencia es eliminada mediante una adecuada descomposición de la variabilidad de
la variable observada. También se pretende detectar la relevancia en el resultado de las
variables o factores influyentes, es decir, estudiar la causalidad.
Un experimento de este tipo consiste en fijar los valores de los factores a distintos niveles y
observar el valor de la variable respuesta en cada caso. Ahora bien, para llegar a conclusio-
nes estadı́sticas correctas es preciso, en la mayorı́a de los problemas, observar el resultado
tras la repetición del experimento varias veces para cada una de las diversas condiciones
que indica el diseño pero lo más homogéneas posibles dentro de cada una. Esto redun-
dará en la reducción de la variabilidad y, por tanto, aumentará la capacidad estadı́stica
de detectar cambios o identificar variables influyentes. Con una variabilidad muy grande
respecto al error experimental no se pueden detectar diferencias entre tratamientos.
Como ocurre con la varianza de la media muestral, para reducir la variabilidad es po-
sible considerar un pequeño número de observaciones llamadas réplicas en condiciones
totalmente homogéneas o aumentar el número de observaciones. Esto último es preci-
so cuando tomamos observaciones fuera del laboratorio o con variables influyentes que
escapan a nuestro control.
Es muy importante que las réplicas sean exactamente eso, es decir, repeticiones del ex-
perimento en las mismas condiciones y no repeticiones de la observación que pueden dar
lugar a observaciones dependientes. Ası́ pues, debemos repetir todo el experimento desde
el principio para cada una de las observaciones.
Como ya hemos dicho, para investigar el efecto del factor principal o tratamiento es po-
sible que debamos considerar y eliminar los efectos de muchas variables que influyen en
el resultado. Para eliminar el efecto de una variable sobre el resultado del experimento
tenemos tres opciones: a) fijar el valor de la variable para toda la investigación y restrin-
gir la validez de nuestras conclusiones a ese dato; b) diseñar el experimento de manera
que dicha variable aparezca como factor con unos determinados valores o niveles y c)
aleatorizar su aparición en cada condición experimental. Las dos primeras opciones son
propias del laboratorio y dependen del experimentador. La tercera resulta útil cuando

177
queremos eliminar el efecto de una variable no directamente controlable y de poca in-
fluencia esperada, ası́ la parte de la variabilidad que le corresponde se incluirá en el error
experimental.
Para diseñar correctamente un experimento es preciso trabajar bajo el principio de alea-
torización. Este principio consiste en tomar las observaciones de las réplicas asignando al
azar todos los factores no directamente controlados por el experimentador y que pueden
influir en el resultado. En el ejemplo 10.2.1 la comparación entre tres tratamientos se
hace con pacientes con ciertas condiciones de homogeneidad pero asignando los pacientes
al azar a cada tratamiento. Con la aleatorización se consigue prevenir sesgos, evitar la
dependencia entre observaciones y validar estadı́sticamente los resultados. En particular,
debemos aleatorizar el orden de realización de los experimentos.
En resumen, es necesario que el experimento esté bien diseñado mediante el control fı́sico,
fijando niveles, o estadı́stico, mediante la aleatorización, de todas las variables o factores
relevantes. Ası́ se garantizará que las diferencias se deben a las condiciones experimentales
fijadas el diseño y se podrá concluir estadı́sticamente una relación causal.
Además, en Peña[50, pág. 82] se muestra cómo la aleatorización permite la compara-
ción de medias mediante los llamados tests de permutaciones que no requieren ningún
tipo de hipótesis sobre la distribución del error. Por otra parte, puede demostrarse (ver
Scheffé[59]) que los contrastes F son una buena aproximación a los contrastes de permu-
taciones, de manera que la aleatorización justifica la utilización de la teorı́a de los modelos
lineales bajo hipótesis de normalidad, aunque dicha hipótesis no esté plenamente validada.
En general, en todo Análisis de la Varianza es necesario considerar tres etapas:

a) Diseño del experimento a fin de obtener observaciones de una variable Y , combi-


nando adecuadamente los factores incidentes.

b) Planteo de hipótesis, cálculo de sumas de cuadrados (residuales, de desviación de


la hipótesis, etc.) y obtención de los cocientes F . Esta parte del análisis se formula
mediante la teorı́a de los modelos lineales.

c) Toma de decisiones e interpretación de los resultados. Planteamiento “a posteriori”


de nuevas hipótesis.

10.2. Diseño de un factor


Supongamos que una variable Y ha sido observada bajo k condiciones experimentales
distintas. Puede ser que las observaciones provengan de k poblaciones, o bien tratarse de
réplicas para cada uno de los k niveles de un factor.
Indiquemos por yih la réplica h (h = 1, . . . , ni ) en la población o nivel i (i = 1, . . . , k),
donde ni es el número de réplicas en la población i. El conjunto de datos es:

Nivel 1 y11 , y12 , . . . , y1n1


Nivel 2 y21 , y22 , . . . , y2n2
..
.
Nivel k yk1 , yk2 , . . . , yknk

178
Con estos datos podemos calcular algunas medias que indicaremos de la siguiente forma:
ni
1 X
Media en la población i o nivel i: yi· = yih
n i h=1
k n
1 XX i

Media general: ȳ = y·· = yih


n i=1 h=1
P
donde n = ki=1 ni es el número total de observaciones.
El modelo lineal que se adapta a este diseño es

yih = µi + ih i = 1, . . . , k ; h = 1, . . . , ni (10.1)

siendo (µ1 , µ2 , . . . , µk )0 el vector de parámetros y


 
1 0 ... 0
 0 1 ... 0 
 
X =  .. .. . . ..  rango X = k
 . . . . 
0 0 ... 1

la matriz de diseño (reducida).


Recordemos en este momento que asumir un modelo lineal significa aceptar las condiciones
de Gauss-Markov (ver sección 1.5) y además, en este caso y en todo el capı́tulo, aceptar
la distribución normal de los errores N (0, σ). Entonces, se comprueba fácilmente que la
estimación MC de los parámetros es

µ̂i = yi· i = 1, . . . , k

Luego los residuos de este modelo son

eih = observación − predicción = yih − µ̂i

de modo que la suma de cuadrados residual resulta


ni
k X
X
SCR = (yih − yi· )2
i=1 h=1

Esta suma se indica por SCD y se denomina suma de cuadrados dentro de grupos o
también intragrupos.
Consideremos la identidad

yih − ȳ = (yi· − ȳ) + (yih − yi· )

Elevando al cuadrado y sumando tenemos


X X X
(yih − ȳ)2 = (yi· − ȳ)2 + (yih − yi· )2
i,h i,h i,h
X
+2 (yi· − ȳ)(yih − yi· )
i,h

179
pero X X X
(yi· − ȳ)(yih − yi· ) = (yih − yi· )yi· − (yih − yi· )ȳ = 0
i,h i,h i,h

En efecto, el vector {yih − yi· } pertenece al espacio error y por tanto es ortogonal al vector
{yi· } que pertenece al espacio estimación como hemos visto en 2.4.2; por otra parte
X
(yih − yi· ) = 0
i,h

Ası́ pues, con la siguiente notación


X
SCT = (yih − ȳ)2 suma de cuadrados total
i,h
X
SCE = ni (yi· − ȳ)2 suma de cuadrados entre grupos
i

hemos probado que se verifica la identidad

SCT = SCE + SCD (10.2)

Esta igualdad muestra la descomposición de la variabilidad total que también se puede


expresar en términos de variabilidad explicada y no explicada como en la ecuación 6.7.
La hipótesis nula de mayor interés es

H0 : µ 1 = µ 2 = · · · = µ k

Si H0 es cierta, las medias de las k poblaciones son iguales o, en términos de diseño


factorial, los niveles del factor no son significativos para la variable observable. Entonces,
el modelo 10.1 se reduce a la forma

yih = µ + ih i = 1, . . . , k ; h = 1, . . . , ni

La estimación MC de µ es µ̂ = ȳ y la suma de cuadrados residual es


X
SCRH = (yih − ȳ)2 = SCT
i,h

Considerando la relación 10.2 deducimos que la suma de cuadrados debida a la desviación


de la hipótesis es X
SCRH − SCR = ni (yi· − ȳ)2 = SCE
i

Obsérvese que SCE mide la variabilidad entre las medias y1· , y2· , . . . , yk· .
Por otra parte y según el teorema 2.5.1, una estimación insesgada del error experimental
σ 2 es
σ̂ 2 = SCD /(n − k)
Además, gracias a la hipótesis de normalidad ih ∼ N (0, σ) se verifica (ver teorema 5.3.1):

a) SCD /σ 2 ∼ χ2n−k

180
b) Si H0 es cierta, entonces SCE /(k − 1) es otra estimación insesgada de σ 2 y además

SCE /σ 2 ∼ χ2k−1

c) Si H0 es cierta, el estadı́stico
SCE /(k − 1)
F = (10.3)
SCD /(n − k)
sigue la distribución F con k − 1 y n − k grados de libertad.

La hipótesis H0 de igualdad de medias se rechaza si 10.3 es significativo. En todo caso es


recomendable disponer los cálculos de la forma indicada en la tabla 10.1.

Fuente de suma de cuadrados


variación cuadrados g.l. medios F

P SCE /(k − 1)
Entre grupos SCE = i ni (yi· − ȳ)2 k−1 SCE /(k − 1)
SCD /(n − k)
P
Dentro grupos SCD = i,h (yih − yi· )2 n−k SCD /(n − k)
P
Total SCT = i,h (yih − ȳ)2 n−1

Tabla 10.1: Tabla del Análisis de la Varianza para diseños de un factor

También se puede calcular el coeficiente de determinación como medida de la proporción


de la variabilidad explicada por los grupos
SCE
R2 =
SCT
Otros aspectos
El modelo 10.1 se puede reparametrizar en la forma

yih = µ + αi + ih i = 1, . . . , k ; h = 1, . . . , ni (10.4)

con la restricción X
αi = 0
i

Si 10.4 representa el modelo para el diseño de un factor a k niveles, entonces


µ = media general
αi = efecto del nivel i

La hipótesis H0 se expresa ahora

H0 : α 1 = · · · = α k = 0

Las estimaciones de µ y αi son

µ̂ = ȳ α̂i = yi· − ȳ

181
Se verifica entonces X
SCRH − SCR = SCE = ni α̂i2
i
de modo que SCE refleja bien la variabilidad entre los diferentes niveles del factor estu-
diado.
La formulación matricial de H0 es
 
  µ
0 1 0 ... 0 0   α1 

 0 0 1 ... 0 0  α2 
  
 .. .. .. . . .. ..   .. =0
 . . . . . .  . 
 
0 0 0 ... 1 0  αk−1 
αk
Aplicando entonces 5.7, tenemos que
X
E(SCRH − SCR) = E(SCE ) = (k − 1)σ 2 + ni αi2 (10.5)
i

Finalmente, si se desean comparar dos niveles, es decir, plantear la hipótesis parcial


(ij)
H0 : αi = αj
utilizaremos el estadı́stico
r
yi· − yj· ni nj
t= p (10.6)
SCD /(n − k) ni + n j
(ij)
que bajo H0 sigue una t de Student con n − k grados de libertad. Con más generalidad,
si se desea estudiar si la función paramétrica estimable, tal que c1 + · · · + ck = 0,
ψ = c 1 α1 + · · · + c k αk
se aparta significativamente de 0, utilizaremos
P
i ci yi·
t = pP 2 p (10.7)
i ci /ni SCD /(n − k)
también con n − k grados de libertad (ver 3.3).

Ejemplo 10.2.1
Se desean comparar dos medicamentos D (diurético), B (betabloqueante) con un producto
inocuo P (placebo). Se tomó una muestra de 15 individuos hipertensos cuyas condiciones
iniciales eran suficientemente homogéneas y se asignaron los tres tratamientos al azar.
El objetivo del estudio es ver cómo actúan los tres tratamientos frente a la hipertensión,
concretamente si disminuyen la misma. A tal fin se ha elegido la variable observable
“porcentaje de descenso de la presión arterial media´´. Los datos obtenidos son
D B P
22 20 10
18 28 5
30 35 0
15 19 14
17 33 18

182
Vamos a estudiar si hay diferencias significativas entre los tres fármacos y la significación
de la función paramétrica
1
ψ = (D + B) − P
2
que se puede interpretar como una medida de la diferencia entre los productos activos
respecto al placebo.
Las medias son:
y1· = 20,40 y2· = 27,00 y3· = 9,40 ȳ = 18,93

Fuente de suma de cuadrados


variación cuadrados g.l. medios F
Entre fármacos 790,53 2 395,29 8,49
Dentro fármacos 558,40 12 46,53
Total 1349,93 14

Tabla 10.2: Ejemplo de Análisis de la Varianza para un diseño de un factor

Las sumas de cuadrados son:


SCT = 1349,93 SCE = 790,53 SCD = 558,40
de manera que podemos disponer las estimaciones en forma de tabla del Análisis de la
Varianza como se muestra en la tabla anterior.
Con 2, 12 grados de libertad y un nivel de significación del 0,01 leemos en la tabla de la
distribución F el valor 6,93. Luego la diferencia entre los tres fármacos es claramente
significativa.
La estimación de Gauss-Markov de la función paramétrica es
1
ψ̂ = (20,40 + 27,00) − 9,40 = 14,30
2
Además
X 1 1 1
c2i /ni = ( + + 1) = 0,3
i
5 4 4
SCD /(n − k) = 46,53
Aplicando 10.7 obtenemos
14,30
t= √ √ = 3,827
0,3 46,53
Contrastando con la tabla de la t de Student, para 12 grados de libertad, vemos que ψ es
significativa al nivel 0,01. Finalmente, para analizar si hay diferencias significativas entre
D y B, utilizaremos 10.6
r
20,40 − 27,00 5 × 5
t= √ = −1,530
46,53 5+5
que no es significativa.
Conclusión: Hay variabilidad significativa entre los tres fármacos. La variabilidad reside
principalmente en la diferencia entre los dos fármacos activos frente al placebo.

183
10.3. Diseño de dos factores sin interacción
Supongamos que la variable observable está afectada por dos causas de variabilidad, es
decir, por dos factores cualitativos A y B, con a y b niveles respectivamente. Suponga-
mos también que tenemos únicamente una observación por casilla. Entonces, podemos
disponer las observaciones del siguiente modo
B1 B2 . . . Bb
A1 y11 y12 . . . y1b y1·
A2 y21 y22 . . . y2b y2·
.. .. .. .. ..
. . . . .
Aa ya1 ya2 . . . yab ya·
y·1 y·2 . . . y·b y··
siendo
1X 1X 1 X
yi· = yij y·j = yij y·· = ȳ = yij
b j a i ab i,j

En relación a la tabla de datos anterior, diremos que A es el factor fila y B el factor


columna con A1 , A2 , . . . , Aa y B1 , B2 , . . . , Bb niveles respectivamente.
Modelo aditivo
Si suponemos que tanto el efecto fila como el efecto columna son aditivos, admitiremos
el modelo lineal
yij = µ + αi + βj + ij i = 1, . . . , a ; j = 1, . . . , b (10.8)
siendo
µ = media general
αi = efecto del nivel Ai del factor A
βj = efecto del nivel Bj del factor B
Como 10.8 no es un diseño de rango máximo, impondremos las siguientes restricciones
naturales X X
αi = βj = 0 (10.9)
i j

Entonces, el modelo depende de los parámetros


µ, α1 , . . . , αa−1 , β1 , . . . , βb−1
siendo
αa = −α1 − · · · − αa−1 βb = −β1 − · · · − βb−1
La matriz de diseño X para el caso a = 3, b = 2 es
µ α 1 α2 β1
1 1 0 1
1 0 1 1
1 −1 −1 1
1 1 0 −1
1 0 1 −1
1 −1 −1 −1

184
Como las columnas de X correspondientes a parámetros distintos son ortogonales, mien-
tras que las correspondientes a los mismos parámetros son linealmente independientes,
deducimos que el rango de X es igual al número de parámetros resultantes después de
imponer las restricciones 10.9, es decir,

rango X = 1 + (a − 1) + (b − 1) = a + b − 1 (10.10)

Estimación de parámetros
Consideremos la identidad

yij − µ − αi − βj = (ȳ − µ) + (yi· − ȳ − αi ) + (y·j − ȳ − βj )


+(yij − yi· − y·j + ȳ)

Elevando al cuadrado, sumando para todo i, j y teniendo en cuenta 10.9, como los pro-
ductos cruzados se anulan (puede probarse con algo de esfuerzo), obtenemos
X X X
(yij − µ − αi − βj )2 = (ȳ − µ)2 + (yi· − ȳ − αi )2 (10.11)
X
+ (y·j − ȳ − βj )2
X
+ (yij − yi· − y·j + ȳ)2

Entonces 10.11, con las restricciones 10.9, alcanza su mı́nimo para

µ̂ = ȳ α̂i = yi· − ȳ β̂j = y·j − ȳ (10.12)

de modo que la suma de cuadrados residual es


X
SCR = (yij − yi· − y·j + ȳ)2 (10.13)
i,j

Obsérvese que
yij = µ̂ + α̂i + β̂j + eij
siendo eij la estimación del término de error

eij = yij − yi· − y·j + ȳ

Finalmente, SCR tiene ab − (a + b − 1) = (a − 1)(b − 1) grados de libertad, luego

σ̂ 2 = SCR/[(a − 1)(b − 1)]

es un estimador centrado de la varianza del diseño.


Hipótesis lineales
La hipótesis de que el factor A no es significativo (no hay efecto fila) es

H0A : α1 = · · · = αa = 0 (10.14)

Análogamente, la hipótesis para B (no hay efecto columna), es

H0B : β1 = · · · = βb = 0 (10.15)

El rango de H0A es a − 1, mientras que el de H0B es b − 1.

185
Vamos a obtener el test F adecuado para contrastar la hipótesis 10.15. Consideremos la
siguiente descomposición fundamental de la suma de cuadrados (que demostraremos más
adelante)
X X X
(yij − ȳ)2 = b (yi· − ȳ)2 + a (y·j − ȳ)2
i,j i j
X
+ (yij − yi· − y·j + ȳ)2
i,j

SCT = SCF + SCC + SCR (10.16)


donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre filas, etc. (ver
cuadro 10.3). La suma de cuadrados residual bajo el modelo 10.8 es 10.13. Si la hipótesis
10.15 es cierta, obtendremos el siguiente modelo

yij = µ + αi + ij

que corresponde al modelo de un solo factor. La suma de cuadrados residual (ver sección
10.2) será entonces X
SCRH = (yij − yi· )2
i,j

puesto que para cada i, las observaciones yi1 , . . . , yib hacen el papel de réplicas. Pero de
la identidad
yij − yi· = (y·j − ȳ) + (yij − yi· − y·j + ȳ)
elevando al cuadrado y teniendo en cuenta que los productos cruzados también se anulan,
deducimos
SCRH = SCC + SCR
Luego podemos decidir si puede aceptarse o no la hipótesis 10.15 utilizando el estadı́stico
SCC /(b − 1)
F = (10.17)
SCR/[(a − 1)(b − 1)]
cuya distribución bajo H0 es F con b − 1 y (a − 1)(b − 1) grados de libertad.
Análogamente se procede para estudiar el efecto fila. Los cálculos deben disponerse en
forma de tabla (ver tabla 10.3).
Finalmente, si se desea comparar dos niveles de un mismo factor, plantearemos la hipótesis
parcial
A(ij) B(ij)
H0 : αi = αj o bien H0 : βi = βj
según se trate de factor fila o columna. El estadı́stico utilizado en el primer caso será
yi· − yj· p
t= p b/2
SCR/[(a − 1)(b − 1)]

cuya distribución bajo la hipótesis es una t de Student con (a − 1)(b − 1) grados de


libertad. Análogamente, para comparar dos niveles del factor columna, utilizaremos
y·i − y·j p
t= p a/2
SCR/[(a − 1)(b − 1)]
con la misma distribución que el estadı́stico anterior si la hipótesis es cierta.

186
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
P SCF /(a−1)
Entre filas SCF = b i (yi· − ȳ)2 a−1 SCF /(a − 1) SCR/[(a−1)(b−1)]

P SCC /(b−1)
Entre col. SCC = a j (y·j − ȳ)2 b−1 SCC /(b − 1) SCR/[(a−1)(b−1)]

SCR
Residuo SCR = (a − 1)(b − 1)
P 2
(a−1)(b−1)
i,j (yij − yi· − y·j + ȳ)

P
Total SCT = i,j (yij − ȳ)2 ab − 1

Tabla 10.3: Tabla del Análisis de la Varianza para diseños de dos factores sin interacción

Descomposición aditiva de la suma de cuadrados


Expresemos el modelo 10.8 en notación vectorial
X X
Y = µ1 + αi u i + βj v j +  (10.18)
i j

siendo

1 = (1, 1, . . . , 1; 1, 1, . . . , 1; . . . ; 1, 1, . . . , 1)0
u1 = (1, 0, . . . , 0; 1, 0, . . . , 0; . . . ; 1, 0, . . . , 0)0
..
.
ua = (0, . . . , 0, 1; 0, . . . , 0, 1; . . . ; 0, . . . , 0, 1)0
v1 = (1, 1, . . . , 1; 0, 0, . . . , 0; . . . ; 0, 0, . . . , 0)0
..
.
vb = (0, 0, . . . , 0; 0, 0, . . . , 0; . . . ; 1, 1, . . . , 1)0

La matriz de diseño es
X = (1, u1 , . . . , ua , v1 , . . . , vb )
y es evidente que 10.18 es equivalente a

Y = Xβ + 

siendo β = (µ, α1 , . . . , αa , β1 , . . . , βb )0 .
Se verifica
u0i1 ui2 = 0 i1 6= i2 , u0i ui = b
u0i vj = 1
vj0 1 vj2 = 0 j1 6= j2 , vj0 vj = a
Sustituyendo en 10.18 los parámetros por sus estimaciones MC obtenemos
X X
Y − µ̂1 = α̂i ui + β̂j vj + e
i j

187
Como e es ortogonal al subespacio generado por las columnas de X (teorema 2.4.2),
tendremos
u0i e = vj0 e = 0
Entonces
X X X
kY − µ̂1k2 = α̂i2 kui k2 + β̂j2 kvj k2 + α̂i β̂j u0i vj + kek2
i j i,j

Pero
X X
α̂i β̂j = (yi· − ȳ)(y·j − ȳ)
i,j i,j
X X
= (yi· − ȳ)y·j − ȳ (yi· − ȳ)
i,j i,j
X X XX
= y·j (yi· − ȳ) − ȳ (yi· − ȳ) = 0
j i j i
P
pues i (yi· − ȳ) = 0.
Luego X X
kY − µ̂1k2 = α̂i2 kui k2 + β̂j2 kvj k2 + kek2
i j

que demuestra la descomposición fundamental de la suma de cuadrados expresada en


10.16.

Ejemplo 10.3.1
Para estudiar las diferencias entre los efectos de 4 fertilizantes sobre la producción de
patatas, se dispuso de 5 fincas, cada una de las cuales se dividió en 4 parcelas del mismo
tamaño y tipo. Los fertilizantes fueron asignados al azar en las parcelas de cada finca. El
rendimiento en toneladas fue

Finca
Fert. 1 2 3 4 5
1 2,1 2,2 1,8 2,0 1,9
2 2,2 2,6 2,7 2,5 2,8
3 1,8 1,9 1,6 2,0 1,9
4 2,1 2,0 2,2 2,4 2,1

Se trata de un diseño en bloques aleatorizados. Este diseño utiliza el modelo 10.8 y es es-
pecialmente utilizado en experimentación agrı́cola. El objetivo es comparar a tratamientos
(4 fertilizantes en este caso) utilizando b bloques (5 fincas) y repartiendo aleatoriamente
los a tratamientos en cada uno de los bloques (los fertilizantes son asignados al azar en
las parcelas de cada finca). Para una correcta aplicación de este diseño debe haber máxi-
ma homogeneidad dentro de cada bloque, de modo que el efecto bloque sea el mismo para
todos los tratamientos. Interesa pues saber si hay diferencias significativas entre los tra-
tamientos αi y entre los bloques βj estableciendo con este fin las hipótesis lineales 10.14
y 10.15 respectivamente. Los resultados obtenidos son

y1· = 2,05 y2· = 2,175 y3· = 2,075 y4· = 2,225 y5· = 2,175
y·1 = 2,00 y·2 = 2,56 y·3 = 1,84 y·4 = 2,16 ȳ = 2,04

188
Bloques
1 1 2 4 3
2 4 3 2 1
3 2 1 4 3
4 3 1 4 2
5 2 4 3 1

Tabla 10.4: Formación correcta de bloques y asignación al azar de los tratamientos

La tabla del Análisis de la varianza (ver tabla 10.3) es

Fuente variación suma cuadrados g.l. cuadrados medios


Entre fincas 0,088 4 0,022
Entre fertiliz. 1,432 3 0,477
Residuo 0,408 12 0,034
Total 1,928 19

El estadı́stico F para comparar las fincas es


0,022
F = = 0,65
0,034
con 4 y 12 grados de libertad. Como no es significativo, admitimos que no hay diferencias
entre las fincas. Asimismo, para comparar los fertilizantes, el estadı́stico F es
0,477
F = = 14,04
0,034
con 3 y 12 grados de libertad. Dado que es muy significativo podemos admitir que hay
diferencias entre los fertilizantes.

10.4. Diseño de dos factores con interacción


Supongamos que la variable observable está influida por dos causas de variabilidad A y
B, con a y b niveles respectivamente. Pero ahora, a diferencia del diseño de la sección
anterior, supongamos además que disponemos de r observaciones por casilla. Podemos
disponer los datos de la siguiente manera

B1 B2 . . . B b
y111 y121 y1b1
A1 y112 y122 . . . y1b2
.. .. ..
. . .
y11r y12r y1br
.. .. .. ..
. . . .
ya11 ya21 yab1
Aa ya12 ya22 . . . yab2
.. .. ..
. . .
ya1r ya2r yabr

189
Indicaremos
1 X 1 X
yi·· = yijk y·j· = yijk
br j,k ar i,k
1X 1 X
yij· = yijk y··· = ȳ = yijk
r k abr i,j,k

Modelo aditivo con interacción


En este modelo suponemos que el efecto fila (efecto debido al factor A) y el efecto columna
(efecto debido al factor B) son aditivos, pero aceptamos además que puede estar presente
un nuevo efecto denominado interacción. En otras palabras, el modelo lineal es

yijk = µ + αi + βj + γij + ijk (10.19)

para todo i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r y donde

µ = media general
αi = efecto del nivel i de A
βj = efecto del nivel j de B
γij = interacción entre los niveles Ai y Bj

Se imponen también las restricciones naturales


X X X X
αi = βj = γij = γij = 0 (10.20)
i j i j

con lo cual el modelo depende de

1 + (a − 1) + (b − 1) + (a − 1)(b − 1) = ab (10.21)

parámetros.
La interacción γij debe añadirse para prever el caso de que no se verifique la aditividad
supuesta en 10.8. Indicando ηij = E(yijk ), la interacción mide la desviación respecto a un
modelo totalmente aditivo
γij = ηij − µ − αi − βj (10.22)
Por otra parte, diremos que un diseño es de rango completo si el número de parámetros
es igual al número de condiciones experimentales, es decir, al número de filas distintas
de la matriz de diseño. En un diseño que no es de rango completo hay menos parámetros
que condiciones experimentales, por lo que en realidad “admitimos” que los datos se
ajustan al modelo propuesto. Por ejemplo, en el diseño sin interacción tenemos (ver 10.10)
a+b−1 < ab, luego admitimos de partida el modelo 10.8. Sin embargo, este modelo puede
no ser cierto y de hecho existe la llamada prueba de Tukey para comprobarlo. En cambio,
por 10.21, el modelo 10.19 posee tantos parámetros como condiciones experimentales de
variabilidad, de modo que es válido por construcción. En general, un modelo de rango
completo se ajusta intrı́nsecamente a los datos sin problemas. No obstante, para poder
estimar todos los parámetros es necesario disponer de más de una réplica por condición
experimental. Esta es la razón por la cual la interacción no puede ser incluida en 10.8.
El modelo 10.19 puede ser reparamentrizado en la forma

yijk = ηij + ijk (10.23)

190
Pasamos del modelo 10.23 al 10.19 mediante las transformaciones
!
1 X 1 X
µ= ηij αi = ηij − µ
ab i,j b
! j
(10.24)
1 X
βj = ηij − µ γij = ηij − µ − αi − βj
a i

Estimación de los parámetros


Consideremos la identidad

yijk − µ − αi − βj − γij = (ȳ − µ) + (yi·· − ȳ − αi )


+(y·j· − ȳ − βj )
+(yij· − yi·· − y·j· + ȳ − γij )
+(yijk − yij· )

Elevando al cuadrado y teniendo en cuenta las restricciones 10.20, los productos cruzados
se anulan y queda
X X X
(yijk − µ − αi − βj − γij )2 = (ȳ − µ)2 + (yi·· − ȳ − αi )2
i,j,k i,j,k i,j,k
X
+ (y·j· − ȳ − βj )2
i,j,k
X (10.25)
+ (yij· − yi·· − y·j· + ȳ − γij )2
i,j,k
X
+ (yijk − yij· )2
i,j,k

Como el último término de esta expresión no depende de los parámetros, es fácil ver que
las estimaciones MC son

µ̂ = ȳ α̂i = yi·· − ȳ β̂j = y·j· − ȳ γ̂ij = yij· − yi·· − y·j· + ȳ (10.26)

mientras que la suma de cuadrados residual es


X
SCR = (yijk − yij· )2
i,j,k

que tiene ab(r − 1) grados de libertad. Luego la estimación de la varianza es

σ̂ 2 = SCR/[ab(r − 1)]

Considerando 10.23 y 10.24 podemos obtener las estimaciones 10.26 por otro camino. Es
obvio que las estimaciones de ηij son

η̂ij = yij·

Interpretando µ, αi , βj , γij como funciones paramétricas sobre el modelo 10.23, por el


teorema de Gauss-Markov, sus estimaciones se obtendrán sustituyendo ηij por yij· en
10.24, lo que nos dará 10.26.

191
Hipótesis lineales
En el diseño de dos factores con interacción, las hipótesis de mayor interés son

H0A : α1 = · · · = αa = 0 (no hay efecto fila)


H0B : β1 = · · · = βb = 0 (no hay efecto columna)
H0AB : γij = 0 ∀i, j (no hay interacción)

Los rangos son a − 1, b − 1 y (a − 1)(b − 1) respectivamente.


A fin de deducir el test F correspondiente, consideremos la siguiente descomposición
fundamental de la suma de cuadrados
X X X
(yijk − ȳ)2 = br (yi·· − ȳ)2 + ar (y·j· − ȳ)2
i,j,k i j
X
+r (yij· − yi·· − y·j· + ȳ)2
i,j
X
+ (yijk − yij· )2
i,j,k

Esta relación, que se puede probar con algo de esfuerzo, la expresaremos brevemente como

SCT = SCF + SCC + SCI + SCR

donde SCT es la suma de cuadrados total, SCI es la suma de cuadrados correspondiente


a la interacción, etc.
Consideremos ahora la hipótesis H0A . La suma de cuadrados residual es SCR. Supongamos
la hipótesis cierta, entonces el modelo 10.19 se convierte en

yijk = µ + βj + γij + ijk

Además, como no hay αi , el mı́nimo de 10.25, es decir, la suma de cuadrados residual


bajo H0A es X X
SCRH = (yi·· − ȳ)2 + (yijk − yij· )2 = SCF + SCR
Luego si H0A es cierta (teorema 5.3.1) tendremos que

(SCRH − SCR)/(a − 1) SCF /(a − 1)


F = =
SCR/[ab(r − 1)] SCR/[ab(r − 1)]

sigue la distribución F (a − 1, ab(r − 1)).


La obtención del test F para decidir sobre H0B y H0AB es análoga. En la práctica, los
cálculos suelen disponerse en forma de tabla (ver tabla 10.5).

Ejemplo 10.4.1
Se desean comparar tres genotipos distintos de Drosophila melanogaster, observando si
existen diferencias de viabilidad sembrando 100 y 800 huevos. De este modo, para cada una
de las 6 casillas del experimento (3 genotipos × 2 siembras) se dispusieron 6 preparados
(6 réplicas) y al cabo del tiempo suficiente de ser sembrados los huevos, se obtuvo el
porcentaje de huevos que habı́an eclosionado. Los resultados fueron:

192
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
P SCF /(a−1)
Entre filas SCF = br i (yi·· − ȳ)2 a−1 SCF /(a − 1) SCR/[ab(r−1)]

P SCC /(b−1)
Entre col. SCC = ar j (y·j· − ȳ)2 b−1 SCC /(b − 1) SCR/[ab(r−1)]

P SCI SCI /[(a−1)(b−1)]


Interacción SCI = r i,j (yij·
− yi·· (a − 1)(b − 1) (a−1)(b−1) SCR/[ab(r−1)]
2
P−y·j· + ȳ) SCR
Residuo SCR = i,j,h (yijh − yij· )2 ab(r − 1) ab(r−1)

P
Total SCT = i,j,h (yijh − ȳ)2 abr − 1

Tabla 10.5: Tabla del Análisis de la Varianza para diseños de dos factores con interacción

Huevos Genotipo
sembrados ++ +− −−
100 93 94 93 95,5 83,5 92 92 91 90
90 93 86 92,5 82 82,5 95 84 78
800 83,3 87,6 81,9 84 84,4 77 85,3 89,4 85,4
80,1 79,6 49,4 67 69,1 88,4 87,4 52 77
El número X de huevos eclosionados por casilla sigue la distribución binomial con n = 100
ó n = 800. Para normalizar la muestra aplicaremos la transformación
r r
X porcentaje
Y = arcsen = arcsen
n 100
Los datos transformados son:
Huevos Genotipo
sembrados ++ +− −−
100 74,7 75,8 74,7 77,8 66 73,6 73,6 72,5 71,6
71,6 74,7 68 74,1 64,9 65,3 77,1 66,4 62
800 65,9 69,4 64,8 66,4 66,7 61,3 67,5 71 67,5
63,5 63,1 44,7 54,9 56,2 70,1 69,2 46,1 61,3
Se calcula:
y11· = 73,25 y12· = 70,28 y13· = 70,53 y21· = 61,9
y22· = 62,6 y23· = 63,77 y1·· = 71,36 y2·· = 62,76
y·1· = 67,58 y·2· = 66,44 y·3· = 67,15 ȳ = 67,06
Podemos obtener entonces la tabla del Análisis de la Varianza para un diseño de dos
factores con interacción:
Fuente variación suma cuadrados g.l. cuadrados medios F
Entre siembras 665,64 1 665,64 14,87
Entre genotipos 7,87 2 3,93 0,09
Interacción 35,29 2 17,65 0,39
Residuo 1342,61 30 44,75
Total 2051,41 35

193
A la vista de los valores F obtenidos, se concluye que no es significativa la diferencia
entre genotipos ni la interacción, pero sı́ existen diferencias significativas sembrando 100
o 800 huevos, siendo el porcentaje de eclosiones mayor en el primer caso, ya que según
parece al haber menos huevos, las larvas disponen de más alimento.
Observación: cuando un factor no es significativo, la interacción generalmente tampoco
lo es.

10.5. Descomposición ortogonal de la variabilidad


En las secciones anteriores han sido tratados los diseños de uno y dos factores y se ha
estudiado cómo descomponer adecuadamente la variabilidad. Los diseños en los que in-
tervienen tres o más factores pueden estudiarse también descomponiendo adecuadamente
la variabilidad total X
SCT = (yij...m − ȳ)2
en diferentes sumas de cuadrados, más una suma de cuadrados residual. Veamos cómo
debe procederse para un diseño de cuatro factores que indicaremos A, B, C y D, con a,
b, c y d niveles respectivamente. Distinguiremos dos casos:

a) D es el factor réplica, es decir, d es el número de réplicas para cada condición


experimental o combinación de los niveles de los factores A, B, C. El modelo lineal
es
yijkr = µ + αiA + αjB + αkC + αij
AB AC
+ αik BC
+ αjk ABC
+ αijk + ijkr
para i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , c; r = 1, . . . , d y siendo

yijkr = réplica r para los niveles i, j, k de A, B, C


µ = media general
αiA , αjB , αkC = efectos principales de A, B, C
AB AC BC
αij , αik , αjk = interacciones entre los factores A y B, A y C, B y C
ABC
αijk = interacción entre los tres factores
ijkr = desviación aleatoria N (0, σ)

Debe imponerse la restricción de que la suma (respecto a uno o dos subı́ndices) de


los parámetros α sea igual a cero.

b) D es un verdadero factor con d niveles, de modo que el diseño depende de cuatro


factores con una sola observación por casilla. El modelo es

yijkm = µ + αiA + αjB + αkC + αm


D AB
+ αij AC
+ αik AD
+ αim BC
+ αjk BD
+ αjm CD
+ αkm
ABC ABD ACD BCD
+αijk + αijm + αikm + αjkm + ijkm

La interpretación de los parámetros es análoga.

194
La tabla 10.6 contiene la descomposición de la variabilidad. Los sumatorios deben des-
arrollarse para todos los subı́ndices i, j, k, m, verificándose por lo tanto
X X
SCA = (yi··· − ȳ)2 = bcd (yi··· − ȳ)2
i,j,k,m i
X X
SCB = (y·j·· − ȳ)2 = acd (y·j·· − ȳ)2
i,j,k,m j
X
SCBC = ad (y·jk· − y·j·· − y··k· + ȳ)2
j,k
(etcétera.)

Tabla 10.6: Descomposición ortogonal de la suma de cuadrados correspondiente a un


diseño de cuatro factores

Fuente de
variación suma de cuadrados grados de libertad
P 2
A P(yi··· − ȳ) 2 a−1
B P(y·j·· − ȳ) 2 b−1
C P(y··k· − ȳ) 2 c−1
D P(y···m − ȳ) d−1
2
AB P(yij·· − yi··· − y·j·· + ȳ) 2 (a − 1)(b − 1)
AC P(yi·k· − yi··· − y··k· + ȳ) 2 (a − 1)(c − 1)
AD P(yi··m − yi··· − y···m + ȳ)2 (a − 1)(d − 1)
BC P(y·jk· − y·j·· − y··k· + ȳ) 2 (b − 1)(c − 1)
BD P(y·j·m − y·j·· − y···m + ȳ) 2 (b − 1)(d − 1)
CD P(y··km − y··k· − y···m + ȳ) (c − 1)(d − 1)
ABC (yijk· − yij·· − yi·k· − y·jk· (a − 1)(b − 1)(c − 1)
2
P +yi··· + y·j·· + y··k· − ȳ)
ABD (yij·m − yij·· − yi··m − y·j·m (a − 1)(b − 1)(d − 1)
2
P +yi··· + y·j·· + y···m − ȳ)
ACD (yi·km − yi·k· − yi··m − y··km (a − 1)(c − 1)(d − 1)
2
P +yi··· + y··k· + y···m − ȳ)
BCD (y·jkm − y·jk· − y·j·m − y··km (b − 1)(c − 1)(d − 1)
2
P +y·j·· + y··k· + y···m − ȳ)
ABCD (yijkm − yijk· − yij·m − yi·km − y·jkm (a − 1)(b − 1)(c − 1)(d − 1)
+yij·· + yi·k· + y·jk· + yi··m + y·j·m
2
P +y··km −2yi··· − y·j·· − y··k· − y···m + ȳ)
Total (yijkm − ȳ) abcd − 1

Estas sumas de cuadrados pueden reunirse convenientemente, sumando también los gra-
dos de libertad, según el tipo de diseño factorial para obtener la suma de cuadrados
residual. Veamos tres casos:
1) Supongamos que se trata de un diseño de tres factores y réplicas, como el descrito
en a). Entonces:
SCT = SCA + SCB + SCC + SCAB + SCAC + SCBC + SCABC + SCR

195
siendo la suma de cuadrados residual

SCR = SCD + SCAD + SCBD + SCCD + SCABD + SCACD + SCBCD + SCABCD


X
= (yijkm − yijk· )2

con (d − 1) + · · · + [(a − 1)(b − 1)(c − 1)(d − 1)] = abc(d − 1) grados de libertad.


Para estudiar, por ejemplo, si la interacción entre A y B es significativa, calculare-
mos
SCAB /[(a − 1)(b − 1)]
F =
SCR/[abc(d − 1)]
y consultaremos la tabla F con (a − 1)(b − 1) y abc(d − 1) grados de libertad.

2) Supongamos que se trata de un diseño de 4 factores con una sola observación por
casilla, como el descrito en b). Entonces:

SCT = SCA +SCB +SCC +SCD +SCAB +· · ·+SCCD ++SCABC +· · ·+SCBCD +SCR

siendo SCR = SCABCD la suma de cuadrados residual. La significación de los efectos


principales o las interacciones deberá efectuarse dividiendo por SCABCD .

3) Supongamos que C es un factor (por ejemplo, un factor bloque) que no interacciona


con A, B y que D es un “factor réplica”. Entonces

SCT = SCA + SCB + SCC + +SCAB + SCR

siendo

SCR = SCD + SCAC + SCAD + · · · + SCCD + SCABC + SCABD + SCBCD + SCABCD

la suma de cuadrados residual.

La formulación general de esta descomposición de la suma de cuadrados permite abordar


muchos tipos de diseños que resulten de la combinación de varios factores, con una sola
réplica por casilla, o con el mismo número de réplicas por casilla (diseños balanceados).
En este caso, las réplicas se consideran como un factor formal y el residuo estará formado
por todas las sumas de cuadrados en los que interviene el factor réplica. Las interacciones
no presentes en un determinado modelo (por condiciones experimentales o por cocientes
F claramente no significativos) se añaden al residuo. Esta formulación general no permite
tratar ciertos diseños como cuadrados latinos, bloques incompletos balanceados, etc.
Esta descomposición ortogonal, para un número cualquiera de factores, puede programar-
se por ordenador siguiendo el algoritmo propuesto por Hartley (1962).

10.5.1. Descomposición de la variabilidad en algunos diseños


Indicando simbólicamente por A, B, AB, . . . , T las sumas de cuadrados SCA ,SCB , SCAB ,
. . . , SCT , exponemos seguidamente diferentes diseños del Análisis de la Varianza, pre-
sentando la descomposición de la variabilidad. Algunos diseños han sido tratados en las
secciones anteriores de este capı́tulo.
1. Un factor y réplicas
yij = µ + αi + ij

196
T = A + R + AR

Entre grupos A a−1


Residuo R + AR ar − a
2. Dos factores con una observación por casilla
yij = µ + αi + βj + ij
T = A + B + AB

Entre filas A a−1


Entre columnas B b−1
Residuo AB (a − 1)(b − 1)
3. Dos factores con interacción
yijk = µ + αi + βj + γij + ijk
T = A + B + R + AB + AR + BR + ABR

Efecto fila A a−1


Efecto columna B b−1
Interacción AB (a − 1)(b − 1)
Residuo R + AR + BR + ABR ab(r − 1)
4. Dos factores con interacción en bloques aleatorizados
yijk = µ + αi + βj + bk + γij + ijk
T = A + B + R + AB + AR + BR + ABR

Efecto fila A a−1


Efecto columna B b−1
Efecto bloque R r−1
Interacción AB (a − 1)(b − 1)
Residuo AR + BR + ABR (ab − 1)(r − 1)
Este modelo se utiliza cuando se combinan dos factores A, B y se obtienen réplicas orga-
nizadas en bloques. El factor bloque tiene un efecto principal, pero no interacciona con
A, B.
5. Tres factores con una observación por casilla
yijk = µ + αi + βj + δk + (αβ)ij + (αδ)ik + (βδ)jk + ijk
T = A + B + C + AB + AC + BC + ABC

Efecto A A a−1
Efecto B B b−1
Efecto C C c−1
Interacción A × B AB (a − 1)(b − 1)
Interacción A × C AC (a − 1)(c − 1)
Interacción B × C BC (b − 1)(c − 1)
Residuo ABC (a − 1)(b − 1)(c − 1)

197
6. Tres factores con r observaciones por casilla

yijkm = µ + αi + βj + δk + (αβ)ij + (αδ)ik + (βδ)jk + (αβγ)ijk + ijkm

T = A + B + C + R + AB + AC + AR + BC + BR + CR
+ ABC + ABR + ACR + BCR + ABCR

Efecto A A a−1
Efecto B B b−1
Efecto C C c−1
Interacción A×B AB (a − 1)(b − 1)
Interacción A×C AC (a − 1)(c − 1)
Interacción B×C BC (b − 1)(c − 1)
Interacción A × B × C ABC (a − 1)(b − 1)(c − 1)
Residuo R + AR + BR + CR + ABR abc(r − 1)
+ACR + BCR + ABCR
7. Diseño de parcela dividida

yijk = µ + αi + γj + bk + (αγ)ij + (αb)ik + +ijk

T = A + C + B + AC + AB + CB + ACB

Tratamiento principal A a−1


Subtratamiento C c−1
Bloque B b−1
Interacción A × C AC (a − 1)(c − 1)
Interacción A × B AB (a − 1)(b − 1)
Residuo CB + ACB a(b − 1)(c − 1)

B1 A2 A1 A3 A4
C1 C2 C2 C1 C2 C1 C1 C2
B2 A1 A3 A4 A2
C2 C1 C2 C1 C1 C2 C1 C2
B3 A3 A4 A2 A1
C1 C2 C1 C2 C2 C1 C2 C1

Este diseño se utiliza en investigación agrı́cola, también en otras ciencias experimentales,


para comparar a tratamientos (factor A) que se asignan aleatoriamente en b bloques
o fincas (factor B), a razón de a tratamientos por bloque. Se divide cada una de las
ab parcelas y se asignan al azar c subtratamientos (f actorC), tal como se ilustra en el
esquema para el caso a = 4, b = 3, c = 2. Se supone que actúan los efectos principales A,
B y C, la interacción A×C y la interacción A×B. La interacción entre A y los bloques es
debida a que estos no pueden considerarse completamente homogéneos. Sin embargo, se
supone que cada una de las ab parcelas dentro de los bloques son homogéneas, de modo
que los subtratamientos C no interaccionan con los bloques.
Para la significación de C y la interacción A × C debe calcularse

C/(c − 1) AC/[(a − 1)(c − 1)]


FC = FAC =
(CB + ABC)/[a(b − 1)(c − 1)] (CB + ABC)/[a(b − 1)(c − 1)]

198
Para estudiar la significación del factor A y del factor bloque debe calcularse

A/(a − 1) B/(b − 1)
FA = FB =
AB/[(a − 1)(b − 1)] AB/[(a − 1)(b − 1)]

10.5.2. Estimación de parámetros y cálculo del residuo


La estimación de los efectos principales y las interacciones se obtienen utilizando los
términos que intervienen en las correspondientes sumas de cuadrados (ver tabla 10.6).
Por ejemplo, en un estudio de dos factores con interacción en bloques aleatorizados, las
estimaciones son:
µ̂ = ȳ α̂i = yi·· − ȳ β̂j = y·j· − ȳ
b̂k = y··k − ȳ γ̂ij = yij· − yi·· − y·j· + ȳ
Se puede aplicar una regla sencilla para encontrar la expresión algebraica del residuo. En
el diseño citado, cuyo modelo es

yijk = µ + αi + βj + bk + γij + ijk

sustituiremos los parámetros por sus estimaciones

yijk = ȳ + (yi·· − ȳ) + (y·j· − ȳ) + (y··k − ȳ)


+(yij· − yi·· − y·j· + ȳ) + eijk

Para que exista identidad entre yijk y el término de la derecha, la estimación de la des-
viación aleatoria eijk debe ser

eijk = yijk − yij· − y··k + ȳ

El residuo correspondiente al diseño de dos factores con interacción en bloques aleatori-


zados es entonces X X
e2ijk = (yijk − yij· − y··k + ȳ)2
i,j,k i,j,k

fórmula que coincide con AR + BR + ABR.


Esta regla sirve para todos los diseños que admiten descomposición ortogonal de la suma
de cuadrados. Por poner otro ejemplo, para el diseño de parcela dividida se comprueba
de este modo que la estimación de la desviación aleatoria es

eijk = yijk − yi·k − yij· + yi··

Ejemplo 10.5.1
Con el fin de valorar la acción de los hongos xilófagos sobre la madera, se han tomado
240 muestras de madera procedente de tocones de Pinus silvestris, clasificados atendiendo
simultáneamente a 4 factores (edad, orientación, altura y profundidad). La descripción
de los factores es:

Edad (E): Años transcurridos desde la fecha de tala (1,4,7,10 o 13 años).

Orientación (O): N ,S,E,O según la ubicación de la muestra en el tocón.

199
Altura (A): 0, 2, 5, 15 expresada en cm contados a partir de la superficie de corte.

Profundidad (P ): 0, 2, 5 expresada en cm contados radialmente a partir de la superficie


lateral.

Cada una de las 5 × 4 × 4 × 3 = 240 muestras era en realidad la homogeneización de 3


muestras procedentes de 3 tocones distintos pero de las mismas caracterı́sticas en cuanto
a la edad, orientación, altura y profundidad.
Se estudiaron 8 variables quı́micas. Para la variable que medı́a la cantidad de hemicelulosa,
se obtuvo la siguiente descomposición ortogonal de la suma de cuadrados:

Fuente de Suma de Grados de Cuadrados


variación cuadrados libertad medios F

E 1227,53 4 306,88 59,21


O 51,94 3 17,31 3,34
A 58,59 3 19,53 3,76
P 18,04 2 9,02 1,74
EO 152,70 12 12,72 2,45
EA 137,13 12 11,42 2,20
EP 72,22 8 9,03 1,74
OA 54,60 9 6,06 1,17
OP 37,26 6 6,21 1,20
AP 21,04 6 3,50 0,68
EOA 189,89 36 5,27 1,01
EOP 145,12 24 6,04 1,16
EAP 132,22 24 5,50 1,06
OAP 60,70 18 3,37 0,65
EOAP 373,19 72 5,18

Total 2732,64 239

Los datos se adaptan a un diseño de 4 factores con una observación por casilla. El residuo
es la suma de cuadrados indicada simbólicamente por EOAP y su valor es 373,19 con 72
grados de libertad. Un examen inicial de los cocientes F de la tabla, obtenidos dividiendo
los cuadrados medios por 373,19/72 = 5,18, para un nivel de significación de 0,05 nos
lleva a las siguientes conclusiones:

a) Son significativos los efectos principales E,O,A. No es significativo el efecto principal


P.

b) Son significativas las interacciones EA y EO. No son significativas el resto de las


interacciones.

Prescindiendo de los efectos no significativos, resulta un diseño de tres factores (E,O,A),


de los cuales interaccionan E con A y E con O (edad con altura y edad con orientación).
Añadiendo las correspondientes sumas de cuadrados al residuo, obtenemos la siguiente
tabla:

200
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios F

E 1227,53 4 306,88 56,97


O 51,94 3 17,31 3,21
A 58,59 3 19,53 3,63
EO 152,70 12 12,72 2,36
EA 137,13 12 11,42 2,12
Residuo 1104,26 205 5,39

Total 2732,64 239

Se observa que sigue existiendo variabilidad significativa respecto E,O y A. También son
significativas las interacciones EO y EA. Por lo tanto, se confirman las conclusiones
iniciales. Una estimación insesgada de la varianza σ 2 es σ̂ 2 = 5,39.

10.6. Diseños no balanceados y con observaciones fal-


tantes
Un diseño experimental (observaciones y modelo del experimento) puede describirse me-
diante el modelo lineal Y = Xβ + , donde X es la matriz de diseño ampliada. Sean
n1 , . . . , nk los números de réplicas para cada una de las condiciones experimentales (ver
sección 2.7). Excepto el diseño de un factor, los demás diseños deben tener el mismo núme-
ro de réplicas por condición experimental. Sin embargo, en las aplicaciones no siempre es
posible mantener tal restricción. Además, las réplicas de alguna condición experimental
pueden perderse (un tubo de ensayo que se rompe, unos datos que se extravı́an, etc.).
Veamos como pueden ser tratados ambos problemas.
Dado el modelo lineal Y = Xβ + , diremos que corresponde a:

1) Un diseño balanceado si n1 = n2 = · · · = nk 6= 0.

2) Un diseño no balanceado si ni 6= nj para algún i, j.

3) Un diseño con observaciones faltantes si ni = 0 para algún i.

Supongamos que XR es la matriz de diseño reducida “estándar” para un diseño experi-


mental determinado. Los diseños no balanceados y con observaciones faltantes se pueden
manejar, sin modificar XR , utilizando

D = diag(n1 , n2 , . . . , nk )

Adoptemos el convenio de que si ni = 0 para algún i, la correspondiente observación


contenida en Y se sustituye por 0 y en el vector de medias Ȳ = (ȳ1 , ȳ2 , . . . , ȳk )0 se toma
ȳi = 0. Entonces se verifica
b = (X0 DXR )− X0 DȲ
β R R

b 0 X0 DȲ
SCR = Y 0 Y − β R

b 0 (A(X0 DXR )− A0 )−1 (Aβ)


SCRH − SCR = (Aβ) b
R

201
siendo H0 : Aβ = 0 una hipótesis contrastable. La matriz M que relaciona X con XR
mediante X = MXR se define como en la sección 2.7, pero añadiendo una fila de ceros en
el lugar correspondiente a una casilla con observaciones faltantes. Véase Cuadras (1983).
Para otros tratamientos del caso no balanceado y de las observaciones faltantes véase
Seber (1977, pág. 259,290).

Ejemplo 10.6.1
Consideremos un diseño de dos factores A, B sin interacción, con a = 2, b = 3, n 11 = 1,
n12 = 2, n13 = 0, n21 = 3, n22 = 0, n23 = 1; es decir, no balanceado y con observaciones
faltantes en los niveles A1 B3 y A2 B2 . Entonces, para los parámetros µ, α1 , α2 , β1 , β2 , β3 ,
tenemos:
 
1 0 0 0 0 0
   0 1 0 0 0 0 
1 1 0 1 0 1  
 0 1 0 0 0 0 
 1 1 0 0 1 0   
   0 0 0 0 0 0 
 1 1 0 0 0 1   
XR =  1 0 1 1 0 0 
 M =  0 0 0 1 0 0 
 
   0 0 0 1 0 0 
 1 0 1 0 1 0   
 0 0 0 1 0 0 
1 0 1 0 0 1  
 0 0 0 0 0 0 
0 0 0 0 0 1

D = (1, 2, 0, 3, 1, 0)

 
1 1 0 1 0 0
 1 1 0 0 1 0 
 
 1 1 0 0 1 0 
 
 0 0 0 0 0 0 
 
X = MXR = 
 1 0 1 1 0 0 

 1 0 1 1 0 0 
 
 1 0 1 1 0 0 
 
 0 0 0 0 0 0 
1 0 0 0 0 1

202
10.7. Ejercicios
Ejercicio 10.1
Los siguientes datos corresponden a los ı́ndices de mortalidad, en un perı́odo de 10 años,
clasificados por estaciones. Determinar si hay diferencias significativas entre las diferentes
estaciones al nivel 0,01.
Invierno Primavera Verano Otoño
9,8 9,0 8,8 9,4
9,9 9,3 9,4
9,8 9,3 8,7 10,3
10,6 9,2 8,8 9,8
9,9 9,4 8,6 9,4
10,7 9,1 8,3 9,6
9,7 9,2 8,8 9,5
10,2 8,9 8,7 9,6
10,9 9,3 8,9 9,5
10,0 9,3 9,4
Por otra parte, difiere significativamente de 10,0 el ı́ndice medio registrado en invierno?

Ejercicio 10.2
Para el diseño de un factor con k niveles

yih = µ + αi + ih i = 1, . . . , k; h = 1, . . . , ni
P
con αi = 0, demostrar:

a) La relación entre el contraste de la razón de verosimilitud Λ y el contraste F para


la hipótesis H0 : α1 = · · · = αk = 0 es
 −n/2
k−1
Λ= 1+ F
n−k

b) El valor esperado de los cuadrados medios entre grupos es


1 X
E(CME ) = σ 2 + ni αi2
k−1

P
c) Cuando H0 es cierta y mı́n{n1 , . . . , nk } → ∞, entonces F −→1.
d) Si k = 2, el contraste F para la hipótesis

H0 : α 1 = α 2 = 0

es equivalente al contraste t de Student para comparar las medias µ + α1 , µ + α2


de dos poblaciones normales suponiendo que las varianzas son iguales.

Ejercicio 10.3
La siguiente tabla registra las producciones de 4 variedades de maı́z, plantadas según un
diseño en bloques aleatorizados

203
Variedad
1 2 3 4
a 7 6 6 7
b 10 8 7 9
Bloque c 6 3 5 7
d 4 3 3 3
e 8 5 5 6

Al nivel 0,05 estudiar si hay diferencias entre variedades y entre bloques. Comparar la
variedad 1 con la variedad 3.

Ejercicio 10.4
En una experiencia agrı́cola en la que se combina año con genotipo, se admite el siguiente
modelo
yikr = µ + αi + βk + γik + ωir + ikr (10.27)
donde yikr es la longitud de la planta, αi i = 1, . . . , 5 es el efecto principal del año, βk
k = 1, 2, 3 es el efecto principal del genotipo, γik es la interacción genotipo × año, ωir es
una interacción de las réplicas con los años y ikr es el término de error con distribución
N (0, σ 2 ). La tabla 10.7 presenta la descomposición ortogonal de la suma de cuadrados.

g.l. SC Y Y ×T T
A (año) 4 742 412 630
B (genotipo) 2 118 105 110
C (bloque) 3 74 87 97
AB 8 647 630 521
AC 12 454 478 372
BC 6 87 63 79
ABC 24 345 247 270

Tabla 10.7: Tabla con las sumas de cuadrados para el diseño 10.27

Se pide:

a) Hallar la expresión algebraica del residuo y encontrar tres estimaciones indepen-


dientes de σ 2 .

b) Estudiar si los efectos principales y las interacciones son significativas (nivel 0,05).

Observación: La variable T es una variable concomitante y su utilidad será estudiada en


el siguiente capı́tulo. Por este motivo, las columnas correspondientes a Y × T y T no
tienen interés ahora.

Ejercicio 10.5
En un estudio sobre viabilidad de Drosophila melanogaster se tienen en cuenta los si-
guientes factores:
Genotipo (G): se estudian 3 genotipos distintos
Generación (N ): el experimento se repite durante 4 generaciones sucesivas
Temperatura (T ): incubación a 17 y 25 grados centı́grados

204
Se obtuvieron 5 réplicas para cada una de las combinaciones de los 3 factores. El expe-
rimento se realizó sembrando 100 huevos y anotando el número de huevos eclosionados
(esto constituye una réplica). Después de transformar adecuadamente los datos origina-
les (ver ejemplo 10.5.1), se obtuvo la siguiente descomposición ortogonal de la suma de
cuadrados (R es el factor réplica)

SC g.l.
G 621 2
N 450 3
T 925 1
R 347 4
GN 35 6
GT 210 2
GR 48 8
NT 23 3
NR 34 12
TR 110 4
GN T 75 6
GN R 17 24
GT R 22 8
NT R 11 12
GN T R 107 24

Se pide:

a) Sabiendo que las interacciones entre 2 o 3 factores en las que intervenga el factor
N no forman parte del modelo lineal asociado al diseño, estudiar la significación de
los efectos principales y de las interacciones (nivel de significación: 0,01).

b) Hallar tres estimaciones insesgadas de la varianza σ 2 del diseño estocásticamente


independientes.

205
Capı́tulo 11

Análisis de Componentes de la
Varianza

11.1. Introducción
En los diseños hasta ahora estudiados hemos supuesto que los efectos de los factores son
fijos y por este motivo se denominan modelos de efectos fijos. Sin embargo, en ciertas
situaciones es necesario interpretar los efectos de los factores como aleatorios. En estos
casos no tiene interés el estudio de las funciones lineales de los efectos sino sus varianzas.
A los modelos relacionados con los efectos aleatorios se les denomina modelos de efectos
aleatorios o de componentes de la varianza. Pueden darse también efectos de ambos
tipos en un mismo modelo: son los modelos mixtos. Veamos como distinguirlos mediante
ejemplos.

11.1.1. Un modelo de efectos fijos


Una experiencia agrı́cola consistió en comparar la producción de cuatro variedades de
maı́z. Para ello, se plantaron las cuatro variedades en 40 parcelas idénticas, 10 por va-
riedad. Transcurrido el tiempo necesario se recolectó, estudiándose la variable “peso de
maı́z por parcela”.
Un modelo adecuado para analizar esta experiencia es el de un factor

yij = µ + αi + ij i = 1, 2, 3, 4; j = 1, 2, . . . , 10

yij es la observación j del nivel i, es decir, la producción de la


parcela j de la variedad i
µ es la media general
αi es un parámetro fijo y representa el efecto de la variedad i
ij es el error aleatorio con distribución N (0, σ)

La hipótesis de interés en este estudio es

H0 : α 1 = α 2 = α 3 = α 4 = 0

es decir, no hay efecto variedad y las cuatro pueden considerarse homogéneas en cuanto
a la productividad.

206
11.1.2. Un modelo de efectos aleatorios
Para determinar el contenido en DNA de los hepatocitos de rata hemos tomado al azar
cinco ratas. De cada hı́gado realizamos tres preparaciones y evaluamos con las técnicas
adecuadas la cantidad de DNA por célula.
Un modelo apropiado para estos datos serı́a también el de un factor

yij = µ + Ai + ij i = 1, 2, . . . , 5; j = 1, 2, 3

pero la diferencia respecto al anterior estriba en que Ai no es un parámetro fijo sino el


efecto aleatorio de la rata i que procede de una población de ratas en la cual se supone
que la variable (cantidad DNA / célula hepática) sigue una distribución N (µ, σ y ). La
distribución de los Ai es N (0, σA ) que se supone independiente de los errores ij con
distribución N (0, σ).
La hipótesis de interés en este caso es

H0 : σA2 = 0

lo que equivale a afirmar que no hay variabilidad entre las distintas ratas de la población
respecto la variable estudiada.

11.1.3. Un modelo mixto


Para un estudio sobre la ecologı́a de un lago se han elegido al azar cuatro tardes de verano
y se ha medido la variable temperatura a diferentes profundidades (0,1,2,3,4 y 5 metros).
Nuestro objetivo es examinar mediante los datos obtenidos si hay diferencias significativas
entre profundidades y dı́as.
El modelo adecuado en este caso es el de dos factores sin interacción

yij = µ + αi + Bj + ij i = 1, 2, . . . , 6; j = 1, 2, 3, 4

yij es la temperatura a la profundidad i en el dı́a j


µ es la media general
αi es un parámetro fijo y representa el efecto de la profundidad i
Bj es el efecto aleatorio del dı́a j y sigue una distribución N (0, σB )
ij es el error aleatorio con distribución N (0, σ)

La hipótesis de que la temperatura no varı́a con la profundidad es

H0 : α 1 = · · · = α 6 = 0

mientras que la hipótesis de que existe homogeneidad entre los diferentes dı́as del verano
es
H0 : σB2 = 0

11.2. Contraste de hipótesis


El tratamiento mediante Análisis de la Varianza de diseños con efectos aleatorios es, en
general, muy similar al caso de efectos fijos en diseños balanceados, existiendo diferencias

207
solamente cuando existen interacciones. En diseños no balanceados el análisis es mucho
más complejo.
El cuadro 11.1 muestra los cuadrados medios esperados y el cociente a efectuar para
obtener la F en diseños de uno y dos factores con efectos fijos, aleatorios o mixtos. Por
ejemplo, en el diseño de dos factores sin interacción se verifica
a X 2
E[SCRB /(b − 1)] = E(CMB ) = σ 2 + β
b−1 j j

si los efectos son fijos y


E(CMB ) = σ 2 + aσB2
si los efectos son aleatorios. Observemos que para este diseño y el de un factor, los cocientes
F son iguales tanto si se trata de efectos aleatorios como de efectos fijos.
Sin embargo, en el diseño de dos factores con interacción, los cocientes F difieren según
el modelo sea de efectos fijos, aleatorios o mixto:

a) El modelo de efectos fijos ya ha sido ampliamente tratado en la sección 10.4.

b) Si los dos factores son aleatorios, los cocientes F que deben calcularse para las
distintas hipótesis son

SCRA /(a − 1)
H0 : σA2 = 0 F =
SCRI /[(a − 1)(b − 1)]

SCRB /(b − 1)
H00 : σB2 = 0 F =
SCRI /[(a − 1)(b − 1)]

SCRI /[(a − 1)(b − 1)]


H000 : σAB
2
=0 F =
SCR/[ab(r − 1)]

En los dos primeros casos es necesario dividir por la interacción para hallar la F .
En efecto, si H0 es cierta σA2 = 0 y entonces SCRA /(σ 2 + rσAB
2
) y SCRI /(σ 2 + rσAB
2
)
siguen distribuciones ji-cuadrado independientes con a − 1 y (a − 1)(b − 1) grados
de libertad respectivamente. Luego
CMA
F =
CMI
sigue la distribución F con a − 1 y (a − 1)(b − 1) grados de libertad. Observemos
que el término desconocido σ 2 + rσAB
2
desaparece. Podemos realizar consideraciones
0 00
análogas para H0 y H0 .

208
la F en diseños de uno y dos factores con efectos fijos, aleatorios o mixtos
Tabla 11.1: Tabla de los cuadrados medios esperados y el cociente a efectuar para obtener

EFECTOS FIJOS EFECTOS ALEATORIOS MIXTOS


(A fijo,B aleatorio)
suma de cuadrados medios cuadrados medios cuadrados medios
cuadrados esperados F esperados F esperados F

1
P
SCRA σ2 + k−1 ni αi2 CMA /CMR σ 2 + n 0 σA
2
CMA /CMR
un factor (n0 = n1 = . . . = nk )
2
SCR σ σ2
209

b
P b
P
SCRA σ2 + a−1 αi2 CMA /CMR σ 2 + bσA
2
CMA /CMR σ2 + a−1 αi2 CMA /CMR
a
P
dos factores SCRB σ2 + b−1 βj2 CMB /CMR σ 2 + bσB
2
CMB /CMR σ 2 + aσB
2
CMB /CMR
SCR σ2 σ2 σ2

br
P br
P 2
αi
SCRA σ2 + a−1 αi2 CMA /CMR σ 2 + rσAB
2 2
+ brσA CMA /CMI σ 2 + rσAB
2
+ a−1 CMA /CMI
ar
P
dos factores SCRB σ2 + b−1 βj2 CMB /CMR σ 2 + rσAB
2 2
+ arσB CMB /CMI σ 2 + arσB
2
CMB /CMR
P 2
r γij
con interacción SCRI σ2 + (a−1)(b−1) CMI /CMR σ 2 + rσAB
2
CMI /CMR σ 2 + rσAB
2
CMI /CMR
SCR σ2 σ2 σ2
c) Si A es fijo y B es aleatorio, los cocientes F a efectuar son

SCRA /(a − 1)
H0 : α 1 = · · · = α a = 0 F =
SCRI /[(a − 1)(b − 1)]

SCRB /(b − 1)
H00 : σB2 = 0 F =
SCR/[ab(r − 1)]

SCRI /[(a − 1)(b − 1)]


H000 : σAB
2
=0 F =
SCR/[ab(r − 1)]

En este caso solamente el efecto principal de A debe ser dividido por la interacción.
En efecto, si H0 es cierta αi = 0 i = 1, . . . , a y entonces SCRA /(σ 2 + rσAB2
) y
2 2
SCRI /(σ + rσAB ) siguen distribuciones ji-cuadrado independientes. Al realizar el
cociente para obtener la F desaparece el término σ 2 + rσAB
2
.
En cambio, para σB2 = 0 (H00 cierta), tenemos que

SCRB /σ 2 SCRI /(σ 2 + σAB


2
) SCR/σ 2

siguen distribuciones ji-cuadrado independientes entre sı́ con b − 1, (a − 1)(b − 1)


y ab(r − 1) g.l. respectivamente. Luego es necesario para obtener la F realizar el
cociente entre CMB /σ 2 y CMR /σ 2 de modo que el término desconocido σ 2 desapa-
rezca. Observemos que dividiendo por la interacción los términos σ 2 y σ 2 + σAB
2
no
se anulan, imposibilitando el cálculo de la F .

La justificación de lo tratado en esta sección se verá en la sección 11.4.

Ejemplo 11.2.1
Se desea estudiar y comparar la acción de tres fármacos tranquilizantes A, B C en la con-
ducción de automóviles. La variable que sirvió de referencia fue el tiempo que un individuo
tarda en iniciar la frenada ante la puesta repentina en rojo de un semáforo. Se eligieron
8 hombres al azar y se sometió a cada hombre a los 3 tratamientos, en perı́odos sucesivos
y secuencias al azar, mediante el procedimiento del doble ciego (ni el médico ni el pacien-
te saben cual es el fármaco suministrado en un determinado momento). Los resultados
fueron, en milésimas de segundo (cada dato es el promedio de varias observaciones):

1 2 3 4 5 6 7 8
A 548 619 641 846 517 876 602 628
Tratamiento B 519 776 678 858 493 741 719 595
C 637 818 701 855 618 849 731 687

Como hay tres tratamientos fijos y ocho individuos elegidos al azar de la población, nos
encontramos ante un diseño mixto, donde el efecto individuo (efecto bloque) es aleatorio.
Las hipótesis a contemplar son

H0 : α 1 = α 2 = α 3 (no hay efecto tratamiento)


0 2
H0 : σ B = 0 (no hay homogeneidad entre individuos)

donde σB2 es la varianza del efecto individuo. La tabla del Análisis de la Varianza es

210
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
Entre tratam. 27535 2 13767,5 5,15
Entre individuos 258040 7 36862,8 13,78
Residuo 37451 14 2675,0
Total 323026 23
Para 2 y 14 g.l. F = 5,15 es significativa al nivel 0,025, aceptamos pues que hay diferencias
entre fármacos. Para 7 y 14 g.l. F = 13,78 es significativa al nivel 0,005, aceptamos que
hay variabilidad entre individuos.

11.3. Estimación puntual de los componentes de la


varianza
Una estimación aproximada de las varianzas σ 2 , σA2 , σB2 , σAB
2
se puede obtener igualan-
do los cuadrados medios con los cuadrados medios esperados y resolviendo el sistema
resultante. Por ejemplo, en el diseño de un factor tenemos
b 2 + n0 σ
σ bA2 = CMA
b2
σ = CMR
y para el diseño de dos factores con interacción
b2 + rb
σ 2
σAB σA2
+ brb = CMA
b2 + rb
σ 2
σAB σB2
+ arb = CMB
2 2
b + rb
σ σAB = CMI
2
b
σ = CMR
Puede ocurrir que la estimación puntual de un componente de la varianza resulte negativa.
En este caso aceptaremos que su valor es cero dado que la varianza es un parámetro
estrictamente positivo.

Ejemplo 11.3.1
Para estimar la variabilidad entre individuos del ejemplo anterior, igualaremos los cua-
drados medios a sus valores esperados
b2 + 3b
36862,8 = σ σB2
b2
2675 = σ
de donde
bB2 = (36862,8 − 2675)/3 = 11395,9
σ
bB =
El tiempo de frenado entre los individuos varı́a con una desviación tı́pica estimada σ
106 milésimas de segundo.

11.4. Comparación entre los modelos de efectos fijos


y los modelos de efectos aleatorios
A los modelos de efectos fijos los denominaremos también modelos de tipo I y a los de
efectos aleatorios modelos de tipo II.

211
11.4.1. Diseño de un factor con efectos fijos
Tal como se ha visto en la sección 10.2, el modelo lineal que se adapta a este diseño es
yij = µi + ij
o, reparametrizado,
yij = µ + αi + ij i = 1, . . . , k; j = 1, . . . , ni
P
con la restricción ki=1 αi = 0. Las yij son independientes y normales N (µi , σ). Las ij
son independientes y normales N (0, σ).
La descomposición de la variabilidad viene dada por
X X X
(yij − ȳ)2 = (yi· − ȳ)2 + (yij − yi· )2
i,j i i,j

es decir
SCT = SCe + SCd
o también
SCRH = (SCRH − SCR) + SCR
con n − 1, k − 1 y n − k grados de libertad respectivamente, siendo n1 + · · · + nk = n.

Teorema 11.4.1
El valor esperado de la suma de cuadrados entre grupos es
k
X
2
E(SCe ) = (k − 1)σ + ni αi2
i=1

luego
  k
SCe 1 X
2
E(CMe ) = E =σ + ni αi2
k−1 k − 1 i=1

Demostración:
P
Por definición SCe = ki=1 ni (yi· − ȳ)2 .
Del modelo yij = µ + αi + ij se obtiene
yi· = µ + αi + i·
ȳ = µ + ··
Pk P
ya que i=1 αi = 0 y en consecuencia α· = (1/k) ki=1 αi = 0.
Entonces
k
X
SCe = ni (αi + i· − ·· )2
i=1
Xk k
X k
X
= ni αi2 + ni 2i· + n2·· +2 ni αi i·
i=1 i=1 i=1
k
X k
X
−2·· ni αi − 2·· ni i·
i=1 i=1

212
pero !
k
X k
X ni
1 X X
·· ni i· = ·· ni ij = ·· ij = n2··
i=1 i=1
ni j=1 i,j

luego
k
X k
X
E(SCe ) = ni αi2 + ni E(2i· ) + n E(2·· )
i=1 i=1
k k
!
X X
+2 ni αi E(i· ) − 2 ni α i E(·· )
i=1 i=1
−2n E(2·· )

Recordando que las v.a. ij son independientes y normales N (0, σ) se verifica
√ √
i· ∼ N (0, σ/ ni ) ·· ∼ N (0, σ/ n)

Por ser centradas, la esperanza de su cuadrado coincide con la varianza, es decir


σ2
E(2i· ) = var(i· ) =
ni
σ2
E(2·· ) = var(·· ) =
n
Por lo tanto
k
X k
X σ2 σ2 σ2
E(SCe ) = ni αi2 + ni + n − 2n
i=1 i=1
ni n n
Xk
= ni αi2 + kσ 2 + σ 2 − 2σ 2
i=1
k
X
2
= (k − 1)σ + ni αi2
i=1

Teorema 11.4.2
El valor esperado de la suma de cuadrados dentro de los grupos es

E(SCd ) = (n − k)σ 2

y por lo tanto  
SCd
E(CMd ) = E = σ2
n−k
Demostración:
Teniendo en cuenta que SCd = SCR, la demostración de este teorema ya se realizó en la
sección ?? con el modelo lineal general. También se puede demostrar siguiendo un proceso
parecido al del teorema anterior. 
Caso particular

213
Si el diseño es balanceado, es decir, igual número de réplicas por condición experimental
(n1 = · · · = nk = n0 ), entonces los teoremas 11.4.1 y 11.4.2 adoptan respectivamente las
formas
k
n0 X 2
E(CMe ) = σ 2 + α
k − 1 i=1 i
 
SCd
E(CMd ) = E = σ2
k(n0 − 1)

Inferencia en el modelo de un factor con efectos fijos


La hipótesis nula de mayor interés es

H0 : µ 1 = µ 2 = · · · = µ k = µ

o, utilizando el modelo alternativo,

H0 : α 1 = α 2 = · · · = α k = 0

Por el teorema 11.4.1 CMe es un estimador insesgado de σ 2 si H0 es cierta. Por el teorema


11.4.2 es siempre un estimador insesgado de σ 2 , sea cierta o no H0 . Además, suponiendo
que ij ∼ N (0, σ), se verifica el teorema ?? de la teorı́a general del modelo lineal normal
(Teorema fundamental del Análisis de la Varianza):

a) SCd /σ 2 ∼ χ2n−k

b) Si H0 es cierta, entonces CMe = SCe /(k − 1) es otra estimación insesgada de σ 2 y


además
SCe /σ 2 ∼ χ2k−1

c) Si H0 es cierta, el estadı́stico

SCe /[σ 2 (k − 1)] CMe


F = 2
=
SCd /[σ (n − k)] CMd

sigue la distribución F con k − 1 y n − k grados de libertad. La hipótesis H0 se


rechaza si el estadı́stico es significativo.

11.4.2. Diseño de un factor con efectos aleatorios


El modelo lineal que se adapta a este diseño es

yij = µ + Ai + ij i = 1, . . . , k; j = 1, . . . , ni

con las siguientes particularidades

1) E(Ai ) = 0, var(Ai ) = σA2 i = 1, . . . , k

2) E(Ai · Ai0 ) = 0 ∀i 6= i0

3) E(Ai · ij ) = 0 ∀i, j

214
es decir, {Ai } son variables aleatorias de media cero y varianza σA2 , independientes entre
sı́ y de los errores {ij }. Luego

var(yij ) = var(Ai ) + var(ij )


σy2 = σA2 + σ2

y por este motivo es apropiado denominar a σA2 y σ 2 componentes de la varianza.


Para su tratamiento clásico mediante Análisis de la Varianza de un factor es necesario
además que

4) Ai ∼ N (0, σA ), ij ∼ N (0, σ) y por lo tanto yij ∼ N (µ, σy )

5) el diseño sea balanceado n1 = n2 = · · · = nk = n0

Este modelo de efectos aleatorios que hemos formulado y en general cualquier modelo
de efectos aleatorios, difiere de un modelo de efectos fijos en que bajo las asunciones
realizadas

a) Para un i dado, todas las observaciones tienen igual esperanza

E(yij ) = µ + Ai ∀j

b) Para un i dado, las observaciones no son estocásticamente independientes entre sı́.


P
c) La variable ki=1 Ai es aleatoria y puede tomar un valor distinto de cero.

Teorema 11.4.3
Para el diseño de un factor con efectos aleatorios el valor esperado de la suma de cuadrados
entre grupos es
E(SCe ) = (k − 1)σ 2 + n0 (k − 1)σA2
luego  
SCe
E(CMe ) = E = σ 2 + n0 σA2
k−1
Demostración:
P
Por definición SCe = n0 ki=1 (yi· − ȳ)2 .
Del modelo se obtiene

yi· = µ + Ai + i·
ȳ = µ + A· + ··

de donde
k
X
SCe = n0 [(Ai − A· ) + (i· − ·· )]2
i=1
" k k k k
X X X X
= n0 A2i + A2· − 2A· Ai + 2i·
i=1 i=1 i=1 i=1
k k
#
X X
+k2·· − 2·· i· + 2 (Ai − A· )(i· − ·· )
i=1 i=1

215
pero
k
X Xk n0 k n0
1 X 1 XX 1
i· = ij = ij = kn0 ·· = k··
i=1 i=1
n0 j=1 n0 i=1 j=1 n0
ya que
k n0
1 XX
·· = ij
kn0 i=1 j=1
Entonces
" k k k
#
X X X
SCe = n0 A2i + kA2· + 2 2
i· − k·· + 2 (Ai − A· )(i· − ·· )
i=1 i=1 i=1

k
X k
X
E(SCe ) = n0 E(A2i ) − n0 kE(A2· ) + n0 E(2i· )
i=1 i=1
k
X
−n0 kE(2·· ) + 2n0 E[(Ai − A· )(i· − ·· )]
i=1

Por las hipótesis del modelo se verifica


√ √ p
A· ∼ N (0, σA / k) i· ∼ N (0, σ/ n0 ) ·· ∼ N (0, σ/ kn0 )
Debido a que las variables aleatorias Ai , A· , i· , ·· son centradas, la esperanza de su
cuadrado coincide con su varianza, es decir,
E(A2i ) = var(Ai ) = σA2
E(A2· ) = var(A· ) = σA2 /k
E(2i· ) = var(i· ) = σ 2 /n0
E(2·· ) = var(·· ) = σ 2 /(kn0 )
Además, al ser independientes las variables Ai con las ij
E[(Ai − A· )(i· − ·· )] = E(Ai − A· ) · E(i· − ·· ) = 0 · 0 = 0
Por lo tanto
σA2 σ2 σ2
E(SCe ) = n0 kσA2 − n0 k + n0 k − n0 k
k n0 kn0
2 2 2 2
= n0 kσA − n0 σA + kσ − σ
= (k − 1)σ 2 + n0 (k − 1)σA2

Teorema 11.4.4
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SCd ) = k(n0 − 1)σ
es decir  
SCd
E(CMd ) = E = σ2
k(n0 − 1)

216
Demostración:
P P 0
Por definición SCe = ki=1 nj=1 (yij − yi· )2 .
Del modelo se obtiene
yi· = µ + Ai + i·
Entonces
n0
k X
X
SCd = (ij − i· )2
i=1 j=1

X n0
k X n0
k X
X n0
k X
X
= 2ij + 2i· −2 i· ij
i=1 j=1 i=1 j=1 i=1 j=1

X n0
k X k
X k
X n0
X
= 2ij + n0 2i· −2 i· ij
i=1 j=1 i=1 i=1 j=1

X n0
k X k
X k
X
= 2ij + n0 2i· − 2 i· n0 i·
i=1 j=1 i=1 i=1

X n0
k X k
X
= 2ij − n0 2i·
i=1 j=1 i=1

de manera que

X n0
k X k
X
E(SCd ) = E(2ij ) − n0 E(2i· )
i=1 j=1 i=1
2
σ
= kn0 σ 2 − n0 k
n0
= kn0 σ 2 − kσ 2
= k(n0 − 1)σ 2 

Inferencia en el modelo de un factor con efectos aleatorios


La hipótesis de interés en este modelo es

H0 : σA2 = 0

Recordemos que
k
X k
X
2
SCA = n0 (yi· − ȳ) = n0 (Ai + i· − A· − ·· )2
i=1 i=1
X X
2
SCR = (yij − yi· ) = (ij − i· )2
i,j i,j

siendo SCA la suma de cuadrados entre grupos o suma de cuadrados del factor y SCR
la suma de cuadrados dentro de los grupos o suma de cuadrados residual, representadas
hasta ahora por SCe y SCd respectivamente. Recuérdese también que A· es una variable
aleatoria y en consecuencia susceptible de tomar un valor distinto de cero.

217
Realizando el cambio gi = Ai + i· obtenemos k v.a. independientes con distribución
normal de media cero y varianza
σ2
var(gi ) = var(Ai ) + var(i· ) = σA2 +
n0
Por el teorema de Fisher, la variable aleatoria
ks2g /σg2
se distribuye según una ji-cuadrado con k − 1 g.l., es decir,
Pk P
i=1 (gi − ḡ)
2
n0 ki=1 (gi − ḡ)2 SCA
σ2
= 2 2
= 2 2
∼ χ2k
2
σA + n 0 n0 σ A + σ n0 σ A + σ
Entonces
SCA = (n0 σA2 + σ 2 ) · χ2k−1
 
SCA
E(CMA ) = E = n0 σA2 + σ 2
k−1
A este resultado habı́amos llegado también anteriormente por el teorema 11.4.3.
Por otra parte, SCR está distribuida de idéntica forma que en los modelos de efectos fijos.
Los ij desempeñan el papel de las observaciones, con media cero y varianza σ 2 . Luego
SCR = σ 2 · χ2k(n0 −1)
 
SCR
E(CMR ) = E = σ2
k(n0 − 1)
Para efectuar comparaciones falta demostrar que SCA y SCR son independientes. Para
ello, basta probar la independencia entre Ai + i· − A· − ·· y ij − i· . Tenemos que Ai − A·
y ij − i· son obviamente independientes. Si expresamos ij = ·· + (i· − ·· ) + (ij − i· ),
utilizando otra vez la analogı́a con los modelos de efectos fijos, i· −·· pertenece al espacio
de las estimaciones y ij −i· pertenece al espacio error, espacios que son ortogonales entre
sı́. Debido a la normalidad del modelo, sus vectores son independientes, luego SCA y SCR
son independientes. Entonces, si H0 es cierta, el estadı́stico
SCA /[σ 2 (k − 1)] SCA /(k − 1) CMA
F = 2
= =
SCR/[σ k(n0 − 1)] SCR/[k(n0 − 1)] CMR
sigue la distribución F con k −1 y k(n0 −1) g.l.. La hipótesis H0 se rechaza si el estadı́stico
es significativo.
Como resumen de lo expuesto en los apartados anteriores véase el cuadro 11.2. Obsérvese
que, si bien la hipótesis a contrastar del modelo I es formalmente distinta de la hipótesis
del modelo II, se utiliza el mismo estadı́stico de contraste
CMA k−1
F = ∼ Fk(n 0 −1)
CMR
Una estimación de los componentes de la varianza es
CMA − CMR
b2 = CMR
σ bA2 =
σ
n0
solución obtenida resolviendo el sistema resultante de igualar los cuadrados medios con
b2
los cuadrados medios esperados (ver sección anterior). Obsérvese que los estimadores σ
2 2 2
yσbA son siempre estimadores insesgados de los parámetros σ y σA respectivamente.

218
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II
P
2 n0 αi2
Tratamientos k−1 CMA = SCA /(k − 1) σ + σ 2 + n0 σA2
k−1

Error k(n0 − 1) CMR = SCR/[k(n0 − 1)] σ2 σ2

Total n0 k − 1

Tabla 11.2: Tabla comparativa para diseños de un factor con efectos fijos y efectos alea-
torios

11.4.3. Diseño de dos factores sin interacción con efectos fijos o


diseño en bloques al azar completos
Este diseño recibe también el nombre de bloques aleatorizados. Un desarrollo tı́pico para
este diseño, utilizando tres tratamientos en cuatro bloques, es el siguiente

Bloque 1 Bloque 2 Bloque 3 Bloque 4

t3 t2 t1 t1
t1 t1 t2 t3
t2 t3 t3 t2

Las letras t indican la asignación aleatoria de los tratamientos en los bloques. Como
ejemplo véase el ejemplo 10.3.1.
Generalizando, consideremos el caso de a tratamientos en b bloques. La observación yij
indica la respuesta del i-ésimo tratamiento aplicado al j-ésimo bloque. Se supondrá que
yij (i = 1, . . . , a; j = 1, . . . , b) son valores de v.a. independientes con distribución normal
de media µij y varianza común σ 2 . Serán de utilidad también

yi· = media del i-ésimo tratamiento


y·j = media del j-ésimo bloque
y·· = media general

El promedio de las medias poblacionales para el i-ésimo tratamiento está definido por
b
1X
µi· = µij
b j=1

Asimismo, el promedio de las medias poblacionales para el j-ésimo bloque está definido
por
a
1X
µ·j = µij
a i=1

219
y el promedio de las ab medias poblacionales es
a b
1 XX
µ·· = µij
ab i=1 j=1

Si representamos por A al factor tratamiento y por B al factor bloque, las hipótesis


lineales de interés son

H0A : µ1· = µ2· = · · · = µa· = µ


H0B : µ·1 = µ·2 = · · · = µ·b = µ

Si se cumple la primera hipótesis, el factor A no es significativo o, equivalentemente, no


existen diferencias significativas entre los tratamientos. También se dice que no hay efecto
fila. En el caso de que se cumpla la segunda hipótesis, el factor B no es significativo, es
decir, no existen diferencias significativas entre los bloques; no hay efecto columna.
Cada observación puede descomponerse en

yij = µij + ij

donde ij mide la desviación del valor observado yij frente la media poblacional µij . La
forma más común de expresar esta ecuación se obtiene al sustituir

µij = µ + αi + βj

donde αi es el efecto del i-ésimo tratamiento y βj el efecto del j-ésimo bloque. Se supone
que los efectos del tratamiento y del bloque son aditivos. Ası́, el modelo es

yij = µ + αi + βj + ij

Obsérvese que se asemeja al modelo de un criterio de clasificación, pero con la adición


del efecto bloque. Ahora la variación se controla sistemáticamente en dos direcciones.
Si se imponen las restricciones naturales
a
X b
X
αi = 0 βj = 0
i=1 j=1

entonces
b
1X
µi· = (µ + αi + βj ) = µ + αi
b j=1
a
1X
µ·j = (µ + αi + βj ) = µ + βj
a i=1

Las hipótesis pueden ahora plantearse del siguiente modo

H0A : α1 = α2 = · · · = αa = 0
H0B : β1 = β2 = · · · = βb = 0

220
En la sección 10.3 se vio que la descomposición fundamental de la suma de cuadrados
(descomposición de la variabilidad) viene dada por
X X X
(yij − ȳ)2 = b (yi· − ȳ)2 + a (y·j − ȳ)2
i,j i j
X
+ (yij − yi· − y·j + ȳ)2
i,j

es decir
SCT = SCF + SCC + SCR
donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre filas, SCC la
suma de cuadrados entre columnas y SCR la suma de cuadrados residual.

Teorema 11.4.5
El valor esperado de la suma de cuadrados entre filas es
a
X
2
E(SCF ) = (a − 1)σ + b αi2
i=1

luego
a
b X 2
E(CMF ) = E(SCF /(a − 1)) = σ 2 + α
a − 1 i=1 i

Demostración:
Es análoga a la del teorema 11.4.1.

Teorema 11.4.6
El valor esperado de la suma de cuadrados entre columnas es
b
X
2
E(SCC ) = (b − 1)σ + a βj2
j=1

luego
b
a X 2 2
E(CMC ) = E(SCC /(b − 1)) = σ + β
b − 1 j=1 j

Demostración:
Es análoga a la del teorema 11.4.1.

Teorema 11.4.7
El valor esperado de la suma de cuadrados residual es

E(SCR) = (a − 1)(b − 1)σ 2

luego
E(CMR ) = E(SCR/[(a − 1)(b − 1)]) = σ 2

221
Demostración:
Es análoga a la del teorema 11.4.2.
Inferencia en el diseño de dos factores sin interacción con efectos fijos
Una de las hipótesis a contrastar es
H0A : α1 = α2 = · · · = αa = 0
Por el teorema 11.4.5, CMF es un estimador insesgado de σ 2 si H0A es cierta. Por el
teorema 11.4.7 SCR es siempre un estimador insesgado de σ 2 , tanto si H0A es cierta como
si no lo es. Además, suponiendo que ij ∼ N (0, σ), se verifica el teorema ?? de la teorı́a
general del modelo lineal formal:
a) SCR/σ 2 ∼ χ2(a−1)(b−1)

b) Si H0A es cierta, entonces CMF = SCF /(a − 1) es otra estimación insesgada de σ 2 y


además
SCF /σ 2 ∼ χ2a−1
c) Si H0A es cierta, el estadı́stico
SCF /[σ 2 (a − 1)] CMF
F = 2
=
SCR/[σ (a − 1)(b − 1)] CMR
sigue la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0A se rechaza
si el estadı́stico es significativo.
Otra hipótesis a contrastar es
H0B : β1 = β2 = · · · = βb = 0
Análogamente al caso anterior, el estadı́stico
SCC /[σ 2 (b − 1)] CMC
F = 2
=
SCR/[σ (a − 1)(b − 1)] CMR
sigue la distribución F con b − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0B se rechaza si el
estadı́stico es significativo.

11.4.4. Diseño de dos factores sin interacción con efectos alea-


torios
El modelo lineal que se adapta a este diseño es
yij = µ + Ai + Bj + ij i = 1, . . . , a; j = 1, . . . , b
siendo Ai , Bj , ij variables aleatorias normales independientes con media cero y varian-
zas σA2 , σB2 , σ respectivamente. La descomposición fundamental de la suma de cuadrados
(descomposición de la variabilidad) viene dada por
X X X
(yij − ȳ)2 = b (yi· − ȳ)2 + a (y·j − ȳ)2
i,j i j
X
+ (yij − yi· − y·j + ȳ)2
i,j

es decir
SCT = SCF + SCC + SCR

222
Teorema 11.4.8
El valor esperado de la suma de cuadrados entre filas es

E(SCF ) = (a − 1)σ 2 + b(a − 1)σA2

luego
E(CMF ) = E(SCF /(a − 1)) = σ 2 + bσA2

Demostración:
Es análoga a la del teorema 11.4.3.

Teorema 11.4.9
El valor esperado de la suma de cuadrados entre columnas es

E(SCC ) = (b − 1)σ 2 + a(b − 1)σB2

luego
E(CMC ) = E(SCC /(b − 1)) = σ 2 + aσB2

Demostración:
Es análoga a la del teorema 11.4.3.

Teorema 11.4.10
El valor esperado de la suma de cuadrados residual es

E(SCR) = (a − 1)(b − 1)σ 2

luego
E(CMR ) = E(SCR/[(a − 1)(b − 1)]) = σ 2

Demostración:
Es análoga a la del teorema 11.4.4.
Inferencia en el diseño de dos factores sin interacción con efectos aleatorios
Las hipótesis de interés en este modelo son

H0 : σA2 = 0 H00 : σB2 = 0

Para contrastar la primera se utiliza el estadı́stico


SCF /[σ 2 (a − 1)] CMF
F = 2
=
SCR/[σ (a − 1)(b − 1)] CMR
que sigue bajo H0 la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0 se
rechaza si el estadı́stico es significativo.
De manera análoga, para contrastar la segunda hipótesis se utiliza el estadı́stico
SCC /[σ 2 (b − 1)] CMC
F = 2
=
SCR/[σ (a − 1)(b − 1)] CMR
que sigue bajo H00 la distribución F con b − 1 y (a − 1)(b − 1) g.l.. La hipótesis H00 se
rechaza si el estadı́stico es significativo.

223
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II

b X 2
Entre filas a−1 CMF = SCF /(a − 1) σ2 + αi σ 2 + bσA2
a−1
a X 2
Entre col. b−1 CMC = SCC /(b − 1) σ2 + βj σ 2 + aσB2
b−1
SCR
Error (a − 1)(b − 1) CMR = σ2 σ2
(a − 1)(b − 1)

Total ab − 1

Tabla 11.3: Tabla comparativa para diseños de dos factores con efectos aleatorios y sin
interacción

A modo de resumen de lo expuesto en los apartados anteriores, véase el cuadro 11.3.


Las estimaciones insesgadas de las componentes de la varianza se obtienen igualando los
cuadrados medios a los cuadrados medios esperados y resolviendo el sistema de ecuaciones
resultante (ver sección 11.3). Las soluciones en este caso son

b2 = CMR
σ bA2 = (CMF − CMR )/b
σ bB2 = (CMC − CMR )/a
σ

verificándose
σ2) = σ2
E(b σA2 ) = σA2
E(b σB2 ) = σB2
E(b

11.4.5. Diseño de dos factores aleatorios con interacción


El modelo lineal que se adapta a este diseño es

yijk = µ + Ai + Bj + (AB)ij + ijk i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r

siendo Ai , Bj , (AB)ij y ijk variables aleatorias normales independientes con media cero
y varianza σA2 , σB2 , σAB
2
y σ 2 respectivamente.
En el cuadro 11.4 figuran las esperanzas de los cuadrados medios tanto para el modelo I
como para el modelo II, indicando por modelo I cuando los dos factores son fijos y por
modelo II cuando los dos factores son aleatorios. La demostración de las fórmulas de estas
esperanzas se hace de forma análoga a la de los teoremas 11.4.5, 11.4.6 y 11.4.7 para el
modelo I, y 11.4.8, 11.4.9 y 11.4.10 para el modelo II.
Las hipótesis a contrastar en el modelo II son

H0A : σA2 = 0 H0B : σB2 = 0 H0AB : σAB


2
=0

Para contrastar la primera se utiliza el estadı́stico

SCA /[(a − 1)(σ 2 + rσAB


2
)] SCA /(a − 1) CMA
F = 2 2
= =
SCAB /[(a − 1)(b − 1)(σ + rσAB )] SCAB /(a − 1)(b − 1) CMAB

224
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II

SCA rb
P
Entre filas a−1 CMA = a−1
σ2 + a−1
αi2 σ 2 + rσAB
2
+ brσA2

SCB ra
P
Entre col. b−1 CMB = b−1
σ2 + b−1
βj2 σ 2 + rσAB
2
+ arσB2

SCAB r
P
Interac. g∗ CMAB = g
σ2 + g
τij σ 2 + rσAB
2

SCR
Residuo ab(r − 1) CMR = ab(r−1)
σ2 σ2

Total abr − 1 ∗ g = (a − 1)(b − 1)

Tabla 11.4: Tabla comparativa para diseños de dos factores con efectos aleatorios y con
interacción

que sigue bajo H0A la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0A se
rechaza si el estadı́stico es significativo.
De manera análoga para contrastar la segunda hipótesis se utiliza el estadı́stico
SCB /[(b − 1)(σ 2 + rσAB
2
)] SCB /(b − 1) CMB
F = 2 2
= =
SCAB /[(a − 1)(b − 1)(σ + rσAB )] SCAB /(a − 1)(b − 1) CMAB
que sigue bajo H0B la distribución F con b − 1 y (a − 1)(b − 1) g.l..
En el contraste de las dos hipótesis anteriores se divide por el cuadrado medio de la
interacción; en cambio, para contrastar la tercera hipótesis se divide por el cuadrado
medio del error, es decir, se utiliza el estadı́stico
SCAB /[(a − 1)(b − 1)σ 2 ] SCAB /[(a − 1)(b − 1)] CMAB
F = 2
= =
SCR/[ab(r − 1)σ ] SCR/[ab(r − 1)] CMR
que sigue bajo H0AB la distribución F con (a − 1)(b − 1) y ab(r − 1) g.l.. La hipótesis H0AB
se rechaza si el estadı́stico es significativo.
Las estimaciones insesgadas de las componentes de la varianza (ver sección 11.3) son
b2 = CMR
σ σ2) = σ2
E(b

bA2 = (CMA − CMAB )/(br)


σ σA2 ) = σA2
E(b

bB2 = (CMB − CMAB )/(ar)


σ σB2 ) = σB2
E(b

2 2 2
bAB
σ = (CMAB − CMR )/r E(b
σAB ) = σAB

11.4.6. Diseño de tres factores aleatorios y réplicas


La esperanza de los cuadrados medios se muestra en el cuadro 11.5. De tales esperanzas se
deduce que se pueden formar las razones F apropiadas para contrastar las hipótesis rela-
tivas a los componentes de la varianza de las interacciones. Sin embargo, para contrastar

225
Fuente de cuadrados Esperanza del cuadrado medio
variación g.l. medios Modelo II

A a−1 CMA σ 2 + rσABC


2 2
+ crσAB 2
+ brσAC + bcrσA2

B b−1 CMB σ 2 + rσABC


2 2
+ crσAB 2
+ arσBC + acrσB2

C c−1 CMC σ 2 + rσABC


2 2
+ brσAC 2
+ arσBC + abrσC2

AB (a − 1)(b − 1) CMAB σ 2 + rσABC


2 2
+ crσAB

AC (a − 1)(c − 1) CMAC σ 2 + rσABC


2 2
+ brσAC

BC (b − 1)(c − 1) CMBC σ 2 + rσABC


2 2
+ arσBC

ABC (a − 1)(b − 1)(c − 1) CMABC σ 2 + rσABC


2

Residuo abc(r − 1) CMR σ2

Total abcr − 1

Tabla 11.5: Tabla para diseños de tres factores con efectos aleatorios

las hipótesis relativas a los efectos principales, es decir,


H0A : σA2 = 0 H0B : σB2 = 0 H0C : σC2 = 0
no hay una razón F apropiada a menos que uno o más de los componentes de la varianza
de la interacción de dos factores no sean significativos. Por ejemplo, supongamos que se
2
ha comprobado previamente la hipótesis H0 : σAC = 0 y ha resultado no significativa.
2
Se puede afirmar entonces que el término σAC puede excluirse de todas las esperanzas
de los cuadrados medios en las que intervenga. Si deseamos ahora contrastar la hipótesis
H0A : σA2 = 0 es posible utilizar el estadı́stico F = CMA /CMAB .
En definitiva, si se desea contrastar las hipótesis relativas a los efectos principales, ha-
brá que estudiar primero la significación de los componentes de la varianza relativos a las
interacciones.

11.5. Correlación intraclásica


Sea el modelo de un factor con efectos aleatorios
yij = µ + Ai + ij i = 1, . . . , k; j = 1, . . . , n0
donde var(Ai ) = σA2 , var(ij ) = σ 2 . Se llama correlación intraclásica al coeficiente de
correlación entre dos observaciones yij , yij 0 de un mismo grupo i.
El coeficiente de correlación intraclásica viene dado por
σA2
ρI = 0 ≤ ρI ≤ 1
σA2 + σ

226
En efecto
cov(yij , yij 0 )
ρI (yij , yij 0 ) = p p
var(yij ) var(yij 0 )
E[(yij − µ)(yij 0 − µ)]
=
σA2 + σ
E(A2i + Ai ij + Ai ij 0 + ij ij 0 )
=
σA2 + σ
E(A2i ) σA2
= =
σA2 + σ σA2 + σ

La correlación intraclásica nos expresa el porcentaje de la variabilidad entre grupos res-


pecto la variabilidad total y se utiliza para estudiar la dependencia entre los individuos
de un mismo grupo respecto a una variable observable Y . Por ejemplo, es utilizado en
Genética descomponiendo la variabilidad total σy2 (varianza de la componente genética)
y σ 2 (varianza de la componente ambiental).
Estimación y contraste de significación
Una estimación adecuada de ρI es

ρbI = max{0, rI }

siendo
bA2
σ F −1
rI = 2 2
=
bA + σ
σ b F + n0 − 1
donde F = CMA /CMR .
Para ver si rI es significativo hemos de plantear el contraste de la hipótesis H0 : ρI = 0
equivalente a H0 : σA2 = 0 que se resuelve mediante Análisis de la Varianza.

Ejemplo 11.5.1
En un estudio sobre los guisantes se tomaron 5 vainas, cada una de las cuales contenı́a 8
guisantes. Los pesos en centigramos fueron
1 44 41 42 40 48 46 46 42
2 43 46 48 42 50 45 45 49
vaina 3 33 34 37 39 32 35 37 41
4 56 52 50 51 54 52 49 52
5 36 37 38 40 40 41 44 44
Los datos se asimilan a un diseño de un factor de efectos aleatorios. Las sumas de cua-
drados son (n0 = 8)

SCA = 1176,1 con 4 g.l.


SCR = 273,9 con 35 g.l.
y entonces
CMA
F = = 37,57
CMR
El coeficiente de correlación intraclásica es

ρbI = max{0, 0,8205} = 0,8205

227
ya que
F −1 36,57
rI = = = 0,8205
F + n0 − 1 44,57
Realicemos el contraste de hipótesis para comprobar que es significativo. La hipótesis
H0 : ρI = 0 equivale a plantear el contraste H0 : σA2 = 0, que se resuelve mediante
Análisis de la Varianza. Como F = 37,57 con 4 y 35 g.l. es muy significativa, aceptamos
que es distinto de cero. La interpretación en este caso es la siguiente: aproximadamente el
80 % de la variabilidad se explica por la componente genética, el resto es debido a factores
ambientales.

228
11.6. Ejercicios
Ejercicio 11.1
En una población, de entre las mujeres que habı́an concebido tres hijos varones, se selec-
cionaron 5 al azar y se anotó el peso que registró cada hijo al nacer:

1 3,250 3,125 3,400


2 2,800 3,100 2,900
3 3,400 3,500 3,350
4 4,100 4,200 4,150
5 2,900 2,750 2,800

Calcular la correlación intraclásica y estudiar si es significativa.

Ejercicio 11.2
Eligiendo 4 tardes al azar del verano, se midió la temperatura de un lago a diferentes
profundidades con los siguientes resultados

Fecha
Profundidad (m) 1 2 3 4
0 23,8 24,0 34,6 24,8
1 22,6 22,4 22,9 23,2
2 22,2 22,1 22,1 22,2
3 21,2 21,8 21,0 21,2
4 18,4 19,3 19,0 18,8
5 13,5 14,4 14,2 13,8

Determinar si son factores de efectos fijos o de efectos aleatorios y si hay diferencias entre
profundidades y entre fechas.

Ejercicio 11.3
Para valorar la variabilidad del contenido de zumo de una cierta variedad de limón, se
tomaron 4 árboles al azar y se midió el contenido de zumo de 3 limones de cada árbol.
Esta observación se hizo durante 5 dı́as, eligiendo fechas al azar. Los resultados fueron
(en cm3 ):

Árbol
Dı́a 1 2 3 4
1 24 26 26 28 20 27 28 18 21 27 24 20
2 18 25 19 21 24 23 27 19 17 25 23 22
3 16 21 15 24 20 21 22 25 24 29 27 27
4 21 24 22 23 20 26 24 24 23 20 21 27
5 23 24 28 27 21 28 26 25 27 25 27 28

Estudiar si existe variabilidad entre árboles, entre dı́as y entre las interacciones árboles
× dı́as.

Ejercicio 11.4

229
Se han obtenido réplicas de una variable observable y combinado dos factores A, B. El
número de réplicas (“factor” R) por casilla es de tres. La descomposición de la suma de
cuadrados es la siguiente:
Fuente variación g.l. Suma cuadrados
A 3 420
B 1 143
AB 3 32
R 2 109
AR 6 197
BR 2 39
ABR 6 155
Utilizando el nivel de significación 0,01, se pide:
a) Suponiendo A, B factores de efectos fijos, estudiar si son significativos. Hallar tres
estimaciones independientes de la varianza del diseño.
b) Suponiendo A, B factores de efectos aleatorios, estudiar si A y la interacción A × B
son significativos.

Ejercicio 11.5
Consideremos de nuevo el enunciado del problema 6.4. Supongamos ahora que en el
modelo (∗) ωir = 0, A (año) es de efectos aleatorios y B (genotipo) es de efectos fijos.
Estudiar si los efectos principales y las interacciones son significativas.

Ejercicio 11.6
Los resultados yijh de un cierto experimento, donde i = 1, . . . , p; j = 1, . . . , q; h = 1, . . . , b
combinan dos factores X, Y , junto con un factor bloque B que no interacciona con X, Y .
En este experimento las réplicas son bloques y el modelo es
yijk = µ + Xi + Yj + Iij + Bh + ijh
La tabla de suma de cuadrados es:
Fuente variación g.l. Suma cuadrados
X 2 625
Y 3 1340
B 4 402
XY 6 227
XB 8 289
YB 12 310
XY B 24 528
Se pide:
a) Suponiendo los efectos fijos, estudiar la significación de los efectos principales y la
interacción (nivel 0,05). Hallar dos estimadores insesgados de la varianza del modelo.
b) Suponiendo todos los efectos aleatorios, y sabiendo que los valores esperados de los
cuadrados medios son:
2
E(CMX ) = rqσX + rσI2 + σ 2 E(CMY ) = rpσY2 + rσI2 + σ 2
E(CMI ) = rσI2 + σ 2 E(CMB ) = pqσB2 + σ 2 E(CMR ) = σ 2

230
Apéndice A

Matrices

A.1. Inversa generalizada


Para una matriz A (n × p), A− se llama una g-inversa o inversa generalizada de A si

AA− A = A

Una inversa generalizada siempre existe aunque en general no es única.

Métodos de construcción

(1) Utilizando la descomposición en valores singulares de la matriz A (n × p), tenemos


A = ULV0 . Luego es sencillo comprobar que

A− = VL−1 U0

define una g-inversa.

(2) Si rg(A) = r, una permutación de las filas y columnas de A (n × p) nos permite


hallar una submatriz no singular Ar (r × r). Entonces resulta que
 −1 
− Ar 0
A =
0 0

es una g-inversa.

(3) Si A (p × p) es no singular, entonces A− = A−1 y es única.

(4) Si A (p×p) es simétrica de rg(A) = r, podemos escribir A = ΓΛΓ0 , donde Γ (p×r)


es la matriz cuyas columnas son los vectores propios ortonormales correspondientes
a los vectores propios no nulos Λ = diag(λ1 , . . . , λr ) de A. Entonces se comprueba
que
A− = ΓΛ−1 Γ0

Un caso especial de g-inversa es la llamada inversa de Moore-Penrose A+ de A (n × p)


que verifica

AA+ A = A A+ AA+ = A+ A+ A = (A+ A)0 AA+ = (AA+ )0

La inversa de Moore-Penrose es única.

231
A.2. Derivación matricial
Definimos la derivada de f (X) con respecto a X n × p como la matriz
 
∂f (X) ∂f (X)
= .
∂X ∂xij

El cálculo matricial de derivadas tiene, entre otras, las siguientes propiedades:

∂a0 x ∂Ax
1. = a, = A0
∂x ∂x
∂x0 x ∂x0 Ax ∂x0 Ay
2. = 2x, = (A0 + A)x, = Ay
∂x ∂x ∂x

A.3. Matrices idempotentes


Una matriz P es idempotente si P2 = P. Una matriz simétrica e idempotente se llama
matriz proyección.

1. Si P es simétrica, entonces P es idempotente y rg(P) = r si y sólo si P tiene r


valores propios iguales a 1 y el resto son cero.
Demostración:
Como P2 = P, entonces Px = λx con x 6= 0 implica que

λx = Px = P2 x = P(Px) = P(λx) = λ(Px) = λ(λx) = λ2 x

de manera que λ2 − λ = 0 ó λ(λ − 1) = 0.


Luego los valores propios de P son la unidad tantas veces como indica el rango y el
resto son cero, ya que la suma de los valores propios es el rango.
Recı́procamente, si los valores propios son 0 y 1, entonces podemos pensar sin
pérdida de generalidad que los primeros r son unos.
Ası́, debe existir una matriz ortogonal T tal que P = TΛT0 donde
 
Ir 0
Λ=
0 0

Luego
P2 = TΛT0 TΛT0 = TΛ2 T0 = TΛT0 = P
y rg(P) = r.

2. Si P es una matriz proyección, entonces tr(P) = rg(P).


Demostración:
Si rg(P) = r, entonces por el apartado anterior, P tiene r valores propios 1 y el
resto son cero. De aquı́ que tr(P) = r.

232
3. Si P es idempotente, también I − P lo es.
Demostración:

(I − P)2 = I − 2P + P2 = I − 2P + P = I − P.

4. Las matrices proyección son semidefinidas positivas.


Demostración:
x0 Px = x0 P2 x = (Px)0 (Px) ≥ 0.

A.4. Matrices mal condicionadas


Un sistema determinado de ecuaciones lineales Bx = c se dice que está mal condicionado
(ill-conditioned ) si pequeños errores o variaciones en los elementos de B y c tienen un
gran efecto en la solución exacta de x. Por ejemplo, la solución exacta del sistema es
x = B−1 c, pero si B está cerca de la singularidad, es decir, pequeños cambios en sus
elementos pueden causar la singularidad, entonces el cálculo de la inversa de B puede
provocar una gran diferencia con la solución exacta.
En el caso de las ecuaciones normales la matriz B = X0 X y el vector c = X0 Y contienen
errores de redondeo, fruto del cálculo a partir de las matrices X y Y. Además, su almace-
namiento en el ordenador también puede tener inconvenientes de precisión. Esto significa
que si la matriz X está mal condicionada, es decir, pequeños cambios en los elementos de
X pueden causar grandes cambios en (X0 X)−1 y en β b = (X0 X)−1 X0 Y, entonces cualquier
0
error en la formación de X X puede tener un efecto muy serio en la precisión y la estabi-
lidad de la solución, que en este caso es la estimación de los parámetros. El problema de
la mala condición es especialmente preocupante en la regresión polinómica (ver sección
8.6).
Una medida de la mala condición de una matriz de datos X es el número de condición
κ[X] que se define como la razón entre el mayor y el menor valor singular no nulo de X.
Los valores singulares de X son las raı́ces cuadradas positivas de los valores propios de la
matriz X0 X. Entre las propiedades más notorias de κ[X] tenemos que

κ[X0 X] = (κ[X])2

Por la definición κ > 1, por tanto X0 X siempre está peor condicionada que X. Luego,
a no ser que κ[X] sea un valor moderado, es mejor no calcular X0 X en los métodos de
computación de las soluciones (ver capı́tulo 11 de Seber[61]).
En la práctica, es muy común que una variable regresora esté altamente correlacionada
con una combinación lineal de las otras variables regresoras, de forma que las columnas
de X estarán muy próximas a ser linealmente dependientes. Ası́ X0 X estará cerca de la
singularidad (o será singular), el menor valor propio será pequeño y κ[X] será grande (ver
sección 8.5).

233
Apéndice B

Proyecciones ortogonales

B.1. Descomposición ortogonal de vectores


1. Dado Ω, un subespacio vectorial de En (un espacio euclı́deo n-dimensional), todo
vector y puede expresarse de forma única como y = u + v, donde u ∈ Ω y v ∈ Ω⊥ .
Demostración:
Supongamos que hubiera dos descomposiciones y = u1 + v1 = u2 + v2 , entonces
(u1 − u2 ) + (v1 − v2 ) = 0. Como u1 − u2 ∈ Ω, v1 − v2 ∈ Ω⊥ y Ω ∩ Ω⊥ = {0}, resulta
que u1 − u2 = 0 y v1 − v2 = 0, es decir, u1 = u2 y v1 = v2 .
2. Si la descomposición adopta la forma y = PΩ y + (I − PΩ )y, la matriz PΩ es única.
Demostración:
Si fueran dos las matrices Pi i = 1, 2, entonces, como u es único para cada y,
resulta que (P1 − P2 )y = 0 para todo y. Luego P1 − P2 = O.
3. La matriz PΩ puede expresarse en la forma PΩ = TT0 , donde las columnas de T
forman una base ortonormal de Ω.
Demostración:
Sea T = (α1 , . . . , αr ), donde α1 , . . . , αr es una base ortonormal de Ω y r es su
dimensión. Podemos extender esta base hasta obtener una base ortonormal de todo
En , digamos α1 , . . . , αr , αr+1 , . . . , αn . Entonces
n
X r
X n
X
y= c i αi = ci α i + ci α i = u + v
i=1 i=1 i=r+1

donde u ∈ Ω y v ∈ Ω⊥ . Pero α0i αi = δij de forma que α0i y = ci y podemos escribir


r
X r
X
u= ci α i = (α0i y)αi = (α1 , . . . , αr )(α01 y, . . . , α0r y)0 = TT0 y
i=1 i=1

y por el apartado anterior PΩ = TT0 .


4. PΩ es simétrica e idempotente.
Demostración:
Dado que PΩ = TT0 es obviamente simétrica y
P2Ω = TT0 TT0 = TIr T0 = TT0 = PΩ

234
5. El subespacio generado por las columnas de PΩ es hPΩ i = Ω.
Demostración:
Es evidente que hPΩ i ⊂ Ω, ya que PΩ es la proyección sobre Ω. Recı́procamente si
x ∈ Ω, entonces x = PΩ x ∈ hPΩ i. Luego los dos subespacios son el mismo.

6. In − PΩ representa la proyección ortogonal sobre Ω⊥ .


Demostración:
A partir de la igualdad y = PΩ y + (In − PΩ )y tenemos que v = (In − PΩ )y. Los
resultados anteriores se obtienen intercambiando los papeles de Ω y Ω⊥ .

7. Si P es una matriz cuadrada e idempotente, entonces P representa la proyección


ortogonal sobre hPi.
Demostración:
Sea y = Py + (In − P)y. Entonces (Py)0 (In − P)y = y0 (P − P2 )y = 0, de manera
que la descomposición da las componentes ortogonales de y. El resultado se obtiene
al aplicar la propiedad B.1.5.

8. Si Ω = hXi, entonces

PΩ = X(X0 X)− X0

donde (X0 X)− es una inversa generalizada de X0 X, es decir, si B = X0 X, entonces


BB− B = B.
Demostración:
Las ecuaciones normales X0 Xβ = X0 Y se pueden escribir como Bβ = c, si c = X0 Y.
Entonces βb = B− c es una solución de dichas ecuaciones normales ya que

b = B(B− c) = BB− Bβ = Bβ = c.

b = Xβ,
Por otra parte, si escribimos θ b tenemos Y = θ
b + (Y − θ)
b donde

b0 (Y − θ)
θ b = βb 0 X0 (Y − Xβ)
b
b 0 (X0 Y − X0 Xβ)
= β b =0

Luego Y = θb + (Y − θ)
b es una descomposición ortogonal de Y tal que θ
b ∈ hXi
b ⊥ hXi. Como θ
y (Y − θ) b = Xβb = XB− c = X(X0 X)− X0 Y tenemos que PΩ =
0 − 0
X(X X) X por la unicidad demostrada en (2).

9. Cuando las columnas de la matriz X son linealmente independientes y el rg(X) es


máximo, resulta que PΩ = X(X0 X)−1 X0 .
Demostración:
Cuando el rg(X) es máximo, la matriz cuadrada X0 X es inversible.

235
B.2. Proyecciones en subespacios
1. Dado ω ⊂ Ω, entonces PΩ Pω = Pω PΩ = Pω .
Demostración:
Como ω ⊂ Ω y ω = hPω i (por el punto B.1.5), tenemos que la proyección sobre Ω
de las columnas de Pω son las propias columnas, es decir, PΩ Pω = Pω . El resultado
completo se deduce porque PΩ y Pω son matrices simétricas.

2. PΩ − Pω = Pω⊥ ∩Ω .
Demostración:
Consideremos la descomposición PΩ y = Pω y + (PΩ − Pω )y. Como PΩ y y Pω y
pertenecen a Ω resulta que (PΩ − Pω )y ∈ Ω. Ası́ la ecuación anterior presenta la
descomposición ortogonal de Ω en ω y ω ⊥ ∩Ω ya que Pω (PΩ −Pω ) = O (por B.2.1).

3. Si A∗ es una matriz tal que ω = ker(A∗ ) ∩ Ω, entonces ω ⊥ ∩ Ω = hPΩ A0∗ i.


Demostración:
En primer lugar, observamos que

ω ⊥ ∩ Ω = {Ω ∩ ker(A∗ )}⊥ ∩ Ω
= {Ω⊥ + hA0∗ i} ∩ Ω

ya que (Ω1 ∩ Ω2 )⊥ = Ω⊥ ⊥ ⊥ 0
1 + Ω2 y [ker(A∗ )] = hA∗ i.

Si x ∈ {Ω⊥ + hA0∗ i} ∩ Ω, entonces

x = PΩ x = PΩ {(In − PΩ )α + A0∗ β} = PΩ A0∗ β ∈ hPΩ A0∗ i.

Recı́procamente, si x ∈ hPΩ A0∗ i, entonces x ∈ hPΩ i = Ω. También para cualquier


z ∈ ω, resulta x0 z = β 0 A∗ PΩ z = β 0 A∗ z = 0, es decir, x ∈ ω ⊥ . Luego x ∈ ω ⊥ ∩ Ω.

4. Si A∗ (q × n) tiene rg(A∗ ) = q, entonces rg(PΩ A0∗ ) = q si y sólo si hA0∗ i ∩ Ω⊥ = {0}.

236
Apéndice C

Estadı́stica multivariante

C.1. Esperanza, varianza y covarianza


1. Sean X e Y vectores aleatorios no necesariamente de la misma longitud.
Definimos la matriz
cov(X, Y) = (cov(Xi , Yj ))
y si X = Y escribimos var(X) = cov(X, X). Entonces se verifican las siguientes
propiedades:

(a) Si a es un vector constante de la misma dimensión que X, var(a+X) = var(X).


(b) Si λ ∈ R, entonces var(λX) = λ2 var(X).
(c) Si A y B son matrices de constantes,

cov(AX, BY) = Acov(X, Y)B0

(d) Para cualquier vector aleatorio X, Y, U, V y todo escalar a, b, c, d ∈ R,

cov(aX + bY, cU + dV) =


ac cov(X, U) + ad cov(X, V) + bc cov(Y, U) + bd cov(Y, V)

2. Sea Y un vector aleatorio con esperanza E(Y) = µ y matriz de varianzas y cova-


rianzas var(Y) = V, entonces

E(Y0 AY) = tr(AV) + µ0 Aµ

donde A es una matriz constante.


Demostración:
Es evidente que

(Y − µ)0 A(Y − µ) = Y 0 AY − µ0 AY − Y0 Aµ + µ0 Aµ

de modo que

E((Y − µ)0 A(Y − µ)) = E(Y 0 AY) − µ0 AE(Y) − E(Y 0 )Aµ + µ0 Aµ


= E(Y 0 AY) − µ0 Aµ

237
Por otra parte, sabemos que, para dos matrices C y D, la traza del producto verifica
X
tr(CD) = tr(DC) = cij dji
i,j

y por eso
X X
tr(AV) = aij cov(Yj , Yi ) = aij E((Yj − µj )(Yi − µi ))
i,j i,j
!
X
= E (Yi − µi )aij (Yj − µj ) = E((Y − µ)0 A(Y − µ))
i,j

con lo que obtenemos el resultado enunciado.

C.2. Normal multivariante


1. Cuando Y ∼ Nn (µ, Σ), se verifica:

(a) (Y − µ)0 Σ−1 (Y − µ) ∼ χ2n


(b) Para cualquier matriz C constante, CY ∼ Nn (Cµ, CΣC0 ).
(c) Si consideramos una partición del vector Y en dos vectores Y1 y Y2 , éstos son
independientes ssi cov(Y1 , Y2 ) = O.

2. Sea Y ∼ Nn (µ, σ 2 I). Sean U = AY, V = BY dos vectores aleatorios combinación


de Y y sea A∗ la matriz formada por las filas de A linealmente independientes. Si
cov(U, V) = O, entonces

(a) A∗ Y es independiente de V0 V.
(b) U0 U y V0 V son independientes.

3. Supongamos que Q1 ∼ χ2r y Q2 ∼ χ2s , con r > s. Si Q = Q1 − Q2 y Q2 son


independientes, entonces Q ∼ χ2r−s .

238
Bibliografı́a

[1] J. Alegre y J. Arcarons, Aplicaciones de Econometrı́a. Textos Docents, Universitat


de Barcelona, 1991.

[2] D.A. Allen and F.B. Cady, Analyzing Experimental Data by Regression. Wadsworth,
1982.

[3] V.L. Anderson and R.A. McLean, Design of Experiments. Marcel Dekker, 1974.

[4] S.F. Arnold, The Theory of Linear Models and Multivariate Observations. Wiley,
1981.

[5] D.A. Belsley et al., Regression Diagnostics. Wiley, 1980.

[6] J. Bibby and H. Toutenberg, Prediction and Improved Estimation in Linear Models.
Wiley, 1977.

[7] D. Birkes and Y. Dodge, Alternative Methods of Regression. Wiley, 1993.

[8] G.E.P. Box and N. Draper, Empirical Model Building and Response Surfaces. Wiley,
1987.

[9] G.E.P. Box, W. Hunter and J.S. Hunter, Estadı́stica para Investigadores. Reverté,
1988.

[10] R.J. Brook and G.C. Arnold, Applied Regression Analysis and Experimental Design.
Marcel Dekker, 1985.

[11] R. Christensen, Plane Answers to Complex Questions. Springer-Verlag, 1987.

[12] W.G. Cochran and G.M. Cox, Experimental Designs. Wiley, 2nd Edition, 1992.

[13] R.D. Cook and S. Weisberg, Residuals and Influence in Regression. Chapman and
Hall, 1982.

[14] R.D. Cook and S. Weisberg, Applied Regression Including Computing and Graphics.
Wiley, 1999.

[15] J.A. Cornell, Experiments with Mixtures: Designs, Models, and the Analysis of Mix-
ture Data. Wiley, 3rd Edition, 2002.

[16] D.R. Cox, Planning of Experiments. Wiley, 1958.

[17] C.M. Cuadras, Problemas de Probabilidades y Estadı́stica. VOL. 2 Inferencia es-


tadı́stica EUB, Barcelona 2000.

239
[18] S. Chatterjee and B. Price, Regression Analysis by Example. Wiley, 3rd Edition,
1999.

[19] C. Daniel, Applications of Statistics to industrial experimentation. Wiley, 1976.

[20] C. Daniel and F.S. Wood, Fitting Equations to Data. Wiley, 1980.

[21] P.J. Dhrymes, Econometrı́a. Editorial AC, Madrid, 1984.

[22] Y. Dodge, Analysis of Experiments with missing data. Wiley, 1985.

[23] H.E. Doran, Applied Regression Analysis in Econometrics. Marcel Dekker, 1989.

[24] N.R. Draper and H. Smith, Applied Regression Analysis. Wiley, 3rd Edition, 1998.

[25] R.A. Fisher, The Design of Experiments. Oliver Boyd, Edimburgo, 1953.

[26] J. Fox, Linear Statistical Models & Related Methods. Wiley, 1984.

[27] A.R. Gallant, Nonlinear Statistical Models. Wiley, 1987.

[28] A.S. Goldberger, A Course in Econometrics. Harvard University Press, 1991.

[29] F.A. Graybill, Theory and Application of the Linear Model. Wadsworth, 1976.

[30] R.F. Gunst and R.L. Mason, Regression Analysis and its Aplication. Marcel Dekker,
1980.

[31] I. Guttman, Linear Models. Wiley, 1982.

[32] W. Härdle, Applied Nonparametric Regression. Cambridge University Press, 1990.

[33] C.R. Hicks, Fundamental Conceps in the Design of Experiments. Holt, Renehart and
Winston, 1982.

[34] K. Hinkelmann and O. Kempthorne, Design and Analysis of Experiments , Volume


1, Introduction to Experimental Design. Wiley, 1994.

[35] D.C. Hoaglin, F. Mosteller, and J.W. Tukey, Understanding Robust and Exploratory
Data Analysis. Wiley, 1983.

[36] R.R. Hocking, Methods and Applications of Linear Models: Regression and the Analy-
sis of Variance. Wiley, 2nd Edition, 2003.

[37] P.W.M. John, Statistical Design and Analysis of Experiments. Mc Millan, 1971.

[38] J.A. John and M.H. Quenouille, Experiments: Design and Analysis. Charles Griffin,
1977.

[39] O. Kempthorne, The Design and Analysis of Experiments. Wiley, 1952.

[40] M. Kendall, A. Stuart and J.K. Ord, The Avanced Teory of Statistics (vol. 3, Design
and Analysis, and Time Series). Charles Griffin, 1983.

[41] A. Kshirsagar, A Course on Linear Models. Marcel Dekker, 1983.

240
[42] T.J. Lorenzen and V. L. Anderson, Design of Experiments. Marcel Dekker, 1993.

[43] R.L. Mason, R.F. Gunst and J.L. Hess, Statistical Design and Analysis of Experi-
ments: With Applications to Engineering and Science. Wiley, 2nd Edition, 2003.

[44] P. McCullagh and J.A. Nelder, Generalized Linear Models. Chapman and Hall, 1989.

[45] D.C. Montgomery, Design and Analysis of Experiments. Wiley, 1984.

[46] D.C. Montgomery, E.A. Peck and G.G. Vining Introduction to Linear Regression
Analysis. Wiley, 3rd Edition, 2001.

[47] F. Mosteller and J.W. Tukey, Data Analysis and Regression. Addison-Wesley, 1977.

[48] R.H. Myers, Clasical and Modern Regression with Application. Duxbury Press, 1986.

[49] J. Neter, W. Wasserman and M.H. Kutner, Applied Linear Statistical Models. Ri-
chard D. Irwin, 1990.

[50] D. Peña, Estadı́stica: Modelos y métodos. 2. Modelos Lineales y Series Temporales.


Alianza, 1993.

[51] B.L. Raktoe et al., Factorial Designs. Wiley, 1981.

[52] C.R. Rao, Linear Statistical Inference and its Applications. Wiley, 1973

[53] C.R. Rao and H. Toutenburg, Linear Models. Springer Series in Statistics, 1995.

[54] D.A. Ratkowsky, Non Linear Regression Modeling. Marcel Dekker, 1983.

[55] P.J. Rousseeuw and A.M. Leroy, Robust Regression and Outlier Detection. Wiley,
2003.

[56] L. Ruiz-Maya, Métodos Estadı́sticos de Investigación. INE, Madrid, 1972.

[57] T.P. Ryan, Modern Regression Methods. Wiley, 1996.

[58] S.R. Searle, Linear Models. Wiley, 1971.

[59] H. Scheffé, The Analysis of Variance. Wiley, 1959.

[60] G.A.F. Seber and C.J. Wild, Nonlinear Regression, Wiley, 2003.

[61] G.A.F. Seber and A.J. Lee, Linear Regression Analysis. Wiley, 2nd. Edition, 2003.

[62] A. Sen and M. Srivastava, Regression Analysis. Springer-Verlag, 1990.

[63] S.D. Silvey, Optimal Design: An Introduction to the Teory for Parameter Estimation.
Chapman and Hall, 1980.

[64] M.D. Ugarte y A.F. Militino. Estadı́stica Aplicada con S-Plus. Universidad Pública
de Navarra, 2001.

[65] H.D. Vinod and A. Ullah, Recent Advances in Regression Methods. Marcel Dekker,
1981.

241
[66] S. Weisber, Applied Linear Regression. Wiley, 2nd Edition, 1985.

[67] B.J. Winer, Statistical Principes in Experimental Design. McGraw-Hill, 1970.

[68] T.H. Wonnacott and R.J. Wonnacott, Regression: a second course in statistics. Wiley,
1981

242
Índice alfabético
ampliar un modelo método, 14
con una variable, 56 matriz
con varias variables, 60 de diseño, 24
de rango no máximo, 37
BLUE, 44 reducida, 35
breakdown bound, 131 de rango máximo, 48
coeficiente de determinación, 15, 94, 137 de regresión, 24
ajustado, 138 del modelo, 24
condiciones del modelo lineal, 15, 26 proyección, 46
modelo
Dfbetas, 173 centrado, 14
distancia de Cook, 173 lineal, 24
lineal normal, 26
ecuaciones normales, 27 multicolinealidad, 48
espacio
error, 45 nivel de un punto, 172
estimación, 45
estadı́stico punto de colapso, 131
F , 50 rango
t, 51 del diseño, 26
estimación máximo, 26
de la máxima verosimilitud, 34 recta resistente, 122
de varianza mı́nima, 34, 44 regresión
insesgada, 33 parabólica, 12
mı́nimo cuadrática, 27 simple, 14
ridge, 65 residuos
sesgada, 64 atı́picos, 168
función paramétrica, 42 estandarizados, 167
estimable, 42 studentizados, 167
intervalo de confianza, 51 studentizados externamente, 168
ridge regression, 65
Gauss-Markov
condiciones de, 15, 26 selección de variables, 156
teorema de, 44 stepwise, 157
gráfico de dispersión, 11 suma de cuadrados
forma canónica, 33
heterocedasticidad, 16 residual, 28
homocedasticidad, 16, 26
varianza del modelo, 16
leverage, 172 estimación, 32
intervalo de confianza, 51
mı́nimos cuadrados

243

También podría gustarte