0% encontró este documento útil (0 votos)

363 vistas243 páginas

Modelos Lineales

Este documento presenta los modelos lineales. Introduce el modelo lineal general y el método de mínimos cuadrados para estimar los parámetros del modelo. Explica las condiciones de Gauss-Markov que deben cumplirse para que los estimadores sean óptimos. Incluye ejemplos prácticos utilizando el paquete estadístico S-PLUS.

Cargado por

Jesus Fernando Sanchez Velasquez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

363 vistas243 páginas

Modelos Lineales

Cargado por

Jesus Fernando Sanchez Velasquez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 243

MODELOS LINEALES

Francesc Carmona

Departament d’Estadı́stica

Barcelona, 1 de octubre de 2003

Prólogo

Las páginas que siguen constituyen una parte de las exposiciones teóricas y prácticas de
asignaturas que se han impartido a lo largo de algunos años en varias licenciaturas y
cursos de doctorado. En particular en la licenciatura de Matemáticas, la licenciatura de
Biologı́a y la diplomatura de Estadı́stica de la Universidad de Barcelona. Se ha inten-
tado un cierto equilibrio entre las explicaciones teóricas y los problemas prácticos. Sin
embargo, nuestra intención siempre ha sido fundamentar sólidamente la utilización de los
modelos lineales como base de las aplicaciones de la regresión, el análisis de la varianza y
el diseño de experimentos. Por ello, en este libro la base matemática y estadı́stica es con-
siderable y creemos importante la correcta definición de los conceptos y la rigurosidad de
las demostraciones. Una sólida base impedirá cometer ciertos errores, habituales cuando
se aplican los procedimientos ciegamente.
Por otra parte, la aplicación práctica de los métodos de regresión y análisis de la varianza
requiere la manipulación de muchos datos, a veces en gran cantidad, y el cálculo de algunas
fórmulas matriciales o simples. Para ello es absolutamente imprescindible la utilización
de algún programa de ordenador que nos facilite el trabajo. En una primera instancia es
posible utilizar cualquier programa de hojas de cálculo que resulta sumamente didáctico.
También se puede utilizar un paquete estadı́stico que seguramente estará preparado para
ofrecer los resultados de cualquier modelo lineal estándar como ocurre con el paquete
SPSS. En cambio, en este libro se ha optado por incluir algunos ejemplos con el paquete
S-PLUS. Las razones son varias. En primer lugar, se trata de un programa que utiliza el
lenguaje S, está orientado a objetos, tiene algunos módulos especı́ficos para los modelos
lineales y es programable. El S-PLUS utiliza un lenguaje de instrucciones y al principio
puede resultar un poco duro en su aprendizaje, sin embargo superada la primera etapa de
adaptación, su utilización abre todo un mundo de posibilidades, no sólo en los modelos
lineales, sino en todo cálculo estadı́stico. Además, la razón más poderosa es que existe una
alternativa a S-PLUS que es el proyecto R, completamente gratuito y con la misma base
de instrucciones. De modo que los estudiantes pueden instalar en su casa el programa R
y practicar cuanto quieran sin coste económico alguno. Manuales para aprender S-PLUS
o R:
El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro
Sánchez Algarra (1996) que amablemente han cedido para su actualización en este libro
y a los que agradezco profundamente su colaboración. También es evidente que algunas
demostraciones tienen su origen en el clásico libro de Seber.
Por último, este libro ha sido escrito mediante el procesador de textos cientı́fico LATEX y
presentado en formato electrónico. Gracias a ello este libro puede actualizarse con relativa
facilidad. Se agradecerá cualquier la comunicación de cualquier errata, error o sugerencia.
Barcelona, 1 de octubre de 2003.
Dr. Francesc Carmona
Índice general

1. Las condiciones 9
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. El método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . 13
1.5. Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . 14
1.6. Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . 16
1.7. Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2. Estimación 22
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Suposiciones básicas del modelo lineal . . . . . . . . . . . . . . . . . . . . 25
2.4. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6. Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . . 32
2.7. Matriz de diseño reducida . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8. Matrices de diseño de rango no máximo . . . . . . . . . . . . . . . . . . . 36
2.8.1. Reducción a un modelo de rango máximo . . . . . . . . . . . . . . 37
2.8.2. Imposición de restricciones . . . . . . . . . . . . . . . . . . . . . . 37
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3. Funciones paramétricas estimables 41

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Varianza de la estimación y multicolinealidad . . . . . . . . . . . . . . . 46
3.4. Sistemas de funciones paramétricas estimables . . . . . . . . . . . . . . . 48
3.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4
4. Complementos de estimación 55
4.1. Ampliar un modelo con más variables regresoras . . . . . . . . . . . . . . 55
4.1.1. Una variable extra . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.2. Una interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.3. Más variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Mı́nimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . 60
4.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.1. Estimación sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.2. Estimación robusta . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.3. Más posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5. Contraste de hipótesis lineales 65

5.1. Hipótesis lineales contrastables . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2. El modelo lineal de la hipótesis . . . . . . . . . . . . . . . . . . . . . . . 66
5.3. Teorema fundamental del Análisis de la Varianza . . . . . . . . . . . . . 69
5.3.1. Un contraste más general . . . . . . . . . . . . . . . . . . . . . . . 76
5.3.2. Test de la razón de verosimilitud . . . . . . . . . . . . . . . . . . 78
5.4. Cuando el test es significativo . . . . . . . . . . . . . . . . . . . . . . . . 79
5.5. Contraste de hipótesis sobre funciones paramétricas estimables . . . . . . 79
5.6. Elección entre dos modelos lineales . . . . . . . . . . . . . . . . . . . . . 80
5.6.1. Sobre los modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.6.2. Contraste de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.7. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6. Regresión lineal simple 89

6.1. Estimación de los coeficientes de regresión . . . . . . . . . . . . . . . . . 89
6.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3. Inferencia sobre los parámetros de regresión . . . . . . . . . . . . . . . . 94
6.3.1. Hipótesis sobre la pendiente . . . . . . . . . . . . . . . . . . . . . 94
6.3.2. Hipótesis sobre el punto de intercepción . . . . . . . . . . . . . . 95
6.3.3. Intervalos de confianza para los parámetros . . . . . . . . . . . . . 96
6.3.4. Intervalo para la respuesta media . . . . . . . . . . . . . . . . . . 96
6.3.5. Predicción de nuevas observaciones . . . . . . . . . . . . . . . . . 97
6.3.6. Región de confianza y intervalos de confianza simultáneos . . . . . 98
6.4. Regresión pasando por el origen . . . . . . . . . . . . . . . . . . . . . . . 98
6.5. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.6. Carácter lineal de la regresión simple . . . . . . . . . . . . . . . . . . . . 100
6.7. Comparación de rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.7.1. Dos rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.7.2. Varias rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.7.3. Contraste para la igualdad de varianzas . . . . . . . . . . . . . . . 111

5
6.8. Un ejemplo para la reflexión . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.9. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

7. Una recta resistente 121

7.1. Recta resistente de los tres grupos . . . . . . . . . . . . . . . . . . . . . . 121
7.1.1. Formación de los tres grupos . . . . . . . . . . . . . . . . . . . . . 121
7.1.2. Pendiente e intercepción . . . . . . . . . . . . . . . . . . . . . . . 122
7.1.3. Ajuste de los residuos e iteraciones . . . . . . . . . . . . . . . . . 123
7.1.4. Mejora del método de ajuste . . . . . . . . . . . . . . . . . . . . . 127
7.2. Métodos que dividen los datos en grupos . . . . . . . . . . . . . . . . . . 129
7.3. Métodos que ofrecen resistencia . . . . . . . . . . . . . . . . . . . . . . . 130
7.3.1. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

8. Regresión lineal múltiple 133

8.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.3. Inferencia sobre los coeficientes de regresión . . . . . . . . . . . . . . . . 137
8.4. Coeficientes de regresión estandarizados . . . . . . . . . . . . . . . . . . . 142
8.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.6. Regresión polinómica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.6.1. Polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . 148
8.6.2. Elección del grado . . . . . . . . . . . . . . . . . . . . . . . . . . 150
8.7. Comparación de curvas experimentales . . . . . . . . . . . . . . . . . . . 153
8.7.1. Comparación global . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8.7.2. Test de paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . . 154
8.8. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

9. Diagnosis del modelo 163

9.1. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.1.1. Estandarización interna . . . . . . . . . . . . . . . . . . . . . . . 163
9.1.2. Estandarización externa . . . . . . . . . . . . . . . . . . . . . . . 165
9.1.3. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
9.2. Diagnóstico de la influencia . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.2.1. Nivel de un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.2.2. Influencia en los coeficientes de regresión . . . . . . . . . . . . . . 170
9.2.3. Influencia en las predicciones . . . . . . . . . . . . . . . . . . . . . 171
9.3. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.3.1. Coeficiente de determinación ajustado . . . . . . . . . . . . . . . 172
9.3.2. Criterio CP de Mallows . . . . . . . . . . . . . . . . . . . . . . . . 172
9.3.3. Selección paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . 173

6
9.4. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
9.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

10.Análisis de la Varianza 177

10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
10.2. Diseño de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10.3. Diseño de dos factores sin interacción . . . . . . . . . . . . . . . . . . . . 184
10.4. Diseño de dos factores con interacción . . . . . . . . . . . . . . . . . . . . 189
10.5. Descomposición ortogonal de la variabilidad . . . . . . . . . . . . . . . . 194
10.5.1. Descomposición de la variabilidad en algunos diseños . . . . . . . 196
10.5.2. Estimación de parámetros y cálculo del residuo . . . . . . . . . . 199
10.6. Diseños no balanceados y con observaciones faltantes . . . . . . . . . . . 201
10.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

11.Análisis de Componentes de la Varianza 206

11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
11.1.1. Un modelo de efectos fijos . . . . . . . . . . . . . . . . . . . . . . 206
11.1.2. Un modelo de efectos aleatorios . . . . . . . . . . . . . . . . . . . 207
11.1.3. Un modelo mixto . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
11.2. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
11.3. Estimación puntual de los componentes de la varianza . . . . . . . . . . . 211
11.4. Comparación entre los modelos de efectos fijos y los modelos de efectos
aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
11.4.1. Diseño de un factor con efectos fijos . . . . . . . . . . . . . . . . . 212
11.4.2. Diseño de un factor con efectos aleatorios . . . . . . . . . . . . . . 214
11.4.3. Diseño de dos factores sin interacción con efectos fijos o diseño en
bloques al azar completos . . . . . . . . . . . . . . . . . . . . . . 219
11.4.4. Diseño de dos factores sin interacción con efectos aleatorios . . . . 222
11.4.5. Diseño de dos factores aleatorios con interacción . . . . . . . . . . 224
11.4.6. Diseño de tres factores aleatorios y réplicas . . . . . . . . . . . . . 225
11.5. Correlación intraclásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
11.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

A. Matrices 231
A.1. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
A.2. Derivación matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
A.3. Matrices idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
A.4. Matrices mal condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 233

B. Proyecciones ortogonales 234

B.1. Descomposición ortogonal de vectores . . . . . . . . . . . . . . . . . . . . 234
B.2. Proyecciones en subespacios . . . . . . . . . . . . . . . . . . . . . . . . . 236

7
C. Estadı́stica multivariante 237
C.1. Esperanza, varianza y covarianza . . . . . . . . . . . . . . . . . . . . . . 237
C.2. Normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

8
Capı́tulo 1

Las condiciones

1.1. Introducción
Los métodos de la Matemática que estudian los fenómenos deterministas relacionan, por
lo general, una variable dependiente con diversas variables independientes. El problema se
reduce entonces a resolver un sistema lineal, una ecuación diferencial, un sistema no lineal,
etc.. Sin embargo, la aplicación de los métodos cuantitativos a las Ciencias Experimentales
ha revelado la poca fiabilidad de las relaciones deterministas. En tales Ciencias, el azar,
la aleatoriedad, la variabilidad individual, las variables no controladas, etc. justifican el
planteo, en términos muy generales, de la ecuación fundamental

“observación” = “modelo” + “error aleatorio”

El experimentador puede, fijando las condiciones de su experimento, especificar la estruc-

tura del modelo, pero siempre debe tener en cuenta el error aleatorio o desviación entre
lo que observa y lo que espera observar según el modelo.
Los modelos de regresión utilizan la ecuación anterior fijando el modelo como una función
lineal de unos parámetros. El objetivo consiste, casi siempre, en la predicción de valores
mediante el modelo ajustado.
El Análisis de la Varianza es un método estadı́stico introducido por R.A. Fisher de gran
utilidad en las Ciencias Experimentales, que permite controlar diferentes variables cua-
litativas y cuantitativas (llamadas factores), a través de un modelo lineal, suponiendo
normalidad para el error aleatorio. Fisher(1938) definió este método como “la separación
de la varianza atribuible a un grupo de la varianza atribuible a otros grupos”. Como
veremos, los tests en Análisis de la Varianza se construyen mediante estimaciones inde-
pendientes de la varianza del error.
Ambos conjuntos de modelos se pueden abordar con una teorı́a común: los modelos li-
neales.
Iniciaremos este capı́tulo con un ejemplo de modelización de un problema y su aplicación
práctica. A continuación explicaremos en qué consiste esencialmente el método de los
mı́nimos cuadrados y estableceremos las condiciones para que este método sea válido
para su utilización en Estadı́stica.

9
1.2. Un ejemplo
En el libro de Sen and Srivastava en [62, pág. 2] se explica este ejemplo que nosotros
hemos adaptado a las medidas europeas.
Sabemos que cuantos más coches circulan por una carretera, menor es la velocidad del
tráfico. El estudio de este problema tiene como objetivo la mejora del transporte y la
reducción del tiempo de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehı́culos por km) y su corres-
pondiente velocidad (en km por hora).

Dato Densidad Velocidad Dato Densidad Velocidad

1 12,7 62,4 13 18,3 51,2
2 17,0 50,7 14 19,1 50,8
3 66,0 17,1 15 16,5 54,7
4 50,0 25,9 16 22,2 46,5
5 87,8 12,4 17 18,6 46,3
6 81,4 13,4 18 66,0 16,9
7 75,6 13,7 19 60,3 19,8
8 66,2 17,9 20 56,0 21,2
9 81,1 13,8 21 66,3 18,3
10 62,8 17,9 22 61,7 18,0
11 77,0 15,8 23 66,6 16,6
12 89,6 12,6 24 67,8 18,3

Tabla 1.1: Datos del problema de tráfico

Como la congestión afecta a la velocidad, estamos interesados en determinar el efecto

de la densidad en la velocidad. Por razones que explicaremos más adelante (ver ejercicio
9.2), tomaremos como variable dependiente la raı́z cuadrada de la velocidad.
El gráfico 1.1 presenta la nube de puntos o diagrama de dispersión (scatter plot) con
la variable independiente (densidad) en el eje horizontal y la variable dependiente (raı́z
cuadrada de la velocidad) en el eje vertical.

Gráfico de dispersión
10

8
RAIZ(vel)

0
0 20 40 60 80 100
densidad

Figura 1.1: Nube de puntos del problema de tráfico

10
Como primera aproximación podrı́amos tomar, como modelo √ de ajuste, la√ recta que une
dos puntos representativos, por ejemplo, los puntos (12, 7, 62, 4) y (87, 8, 12, 4). Dicha
recta es y = 8, 6397 − 0, 0583x.
Inmediatamente nos proponemos hallar la mejor de las rectas, según algún criterio. Como
veremos, el método de los mı́nimos cuadrados proporciona una recta, llamada recta de
regresión, que goza de muy buenas propiedades. Este método consiste en hallar a y b tales
que se minimice la suma de los errores al cuadrado.
n
X
(yi − (a + bxi ))2
i=1

En este caso la recta de regresión es y = 8, 0898 − 0, 0566x.

Para estudiar la bondad del ajuste se utilizan los residuos

ei = yi − ŷi

donde ŷi = 8, 0898 − 0, 0566xi . Los gráficos de la figura 1.2 nos muestran estos residuos.
Para mejorar el modelo podemos añadir el término cuadrático y considerar el modelo
parabólico
yi = a + bxi + cx2i
También aquı́, el método de los mı́nimos cuadrados proporciona un ajuste que es óptimo
en varios aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de los
errores al cuadrado n
X
(yi − (a + bxi + cx2i ))2
i=1

El cálculo de estos valores con los datos del tráfico se deja como ejercicio (ver ejercicio
1.3).
La figura 1.3 muestra los gráficos de los residuos para el modelo parabólico.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la
velocidad en la ecuación
flujo = velocidad × densidad
de modo que el flujo queda en función de la densidad. Por último, el máximo valor de
esta función es la capacidad de la carretera.
0,6 0,6

0,4 0,4

0,2 0,2
residuo
residuo

0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2

-0,4 -0,4

-0,6 -0,6
densidad predicción

Figura 1.2: Gráficos de los residuos del modelo recta de regresión.

11
0,6 0,6

0,4 0,4

0,2 0,2

residuo
residuo

0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2

-0,4 -0,4

-0,6 -0,6
densidad predicción

Figura 1.3: Gráficos de los residuos del modelo parabólico.

1.3. El modelo
Cuando en el ejemplo anterior ajustamos los datos a una recta, implı́citamente estamos
asumiendo la hipótesis de que los datos siguen un patrón lineal subyacente del tipo

y = β0 + β1 x

Pero el ajuste no es perfecto y contiene errores. La ecuación que define el modelo es

yi = β 0 + β 1 xi + i i = 1, . . . , n

donde i son los errores aleatorios. Éste es el modelo de regresión simple o con una sola
variable independiente.
En el mismo ejemplo anterior, ajustamos mejor con el modelo

yi = β0 + β1 xi + β2 x2i + i i = 1, . . . , n

que continúa siendo un modelo lineal.

Un modelo es lineal si lo es para los parámetros. Por ejemplo, el modelo ln yi = β0 +
β1 ln(xi ) + i es lineal, mientras que yi = β0 exp(−β1 xi )i no.
En general, suponemos que una cierta variable aleatoria Y es igual a un valor fijo η más
una desviación aleatoria
Y =η+
η representa la verdadera medida de la variable, es decir, la parte determinista de un
experimento, que depende de ciertos factores cualitativos y variables cuantitativas que
son controlables por el experimentador.
El término representa el error. Es la parte del modelo no controlable por el experi-
mentador debido a múltiples causas aleatorias, inevitables en los datos que proceden de
la Biologı́a, Psicologı́a, Economı́a, Medicina,. . . El error convierte la relación matemáti-
ca Y = η en la relación estadı́stica Y = η + , obligando a tratar el modelo desde la
perspectiva del análisis estadı́stico.
En particular, los modelos de la forma

yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + i i = 1, . . . , n

con k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regre-

sión múltiple. La variable cuyos datos observados son yi es la llamada variable dependiente
o respuesta.

12
Los parámetros βj son desconocidos y nuestro objetivo principal es su estimación. En
cuanto a los errores i , su cálculo explı́cito nos permitirá, como veremos extensamente, la
evaluación del modelo.
Observación:
En el modelo de regresión simple puede suceder que los datos xi i = 1, . . . , n correspondan
a los valores observados de una v.a. X o de una variable controlada no aleatoria. En
cualquier caso, vamos a considerar los valores xi como constantes y no como observaciones
de una variable aleatoria.
En la regresión simple
Y = φ(x) +
donde Y es aleatoria y es aleatoria con E() = 0. De manera que, para cada valor
X = x, Y es una v.a. con esperanza φ(x). Si asumimos

φ(x) = E[Y |X = x] = β0 + β1 x

podemos proceder considerando las inferencias como condicionadas a los valores observa-
dos de X.
En cualquier caso, también en regresión múltiple, vamos a considerar los valores de las
variables regresoras X1 , . . . , Xk como simplemente números.

1.4. El método de los mı́nimos cuadrados

La paternidad de este método se reparte entre Legendre que lo publicó en 1805 y Gauss
que lo utilizó en 1795 y lo publicó en 1809.
Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posibles
valores de los βj , el método de los mı́nimos cuadrados selecciona aquellos que minimizan
n
X n
X
S= 2i = (yi − (β0 + β1 xi1 + · · · + βk xik ))2
i=1 i=1

En el caso de la regresión lineal simple

n
X n
X
S= 2i = (yi − β0 − β1 xi )2
i=1 i=1

de modo que derivando e igualando a cero, se obtienen los estimadores MC (mı́nimo-

cuadráticos) ó LS (least squares)

βˆ0 = ȳ − βˆ1 x̄
Pn
s (y − ȳ)(xi − x̄)
βˆ1 =
xy
2
= i=1 Pn i 2
sx i=1 (xi − x̄)

También se puede considerar el modelo centrado, que consiste en centrar los datos de la
variable regresora
yi = γ0 + β1 (xi − x̄) + i i = 1, . . . , n
La estimación MC de γ0 , β1 es equivalente a la estimación de β0 , β1 , ya que γ0 = β0 + β1 x̄.
De modo que γˆ0 = ȳ y la estimación de β1 es la misma que en el modelo anterior.

13
Con las estimaciones de los parámetros, podemos proceder al cálculo de predicciones ŷi
y residuos ei

ŷi = βˆ0 + βˆ1 xi = ȳ + βˆ1 (xi − x̄)

ei = yi − ŷi = yi − ȳ − βˆ1 (xi − x̄)

Como consecuencia resulta que

n
X
ei = 0
i=1

lo que no ocurre en un modelo sin β0 .

Finalmente, si queremos
Pn una medida del ajuste de la regresión podemos pensar en la
2
suma de cuadrados i=1 ei , pero es una medida que depende de las unidades de yi al
cuadrado. Si β0 6= 0, la medida que se utiliza es el coeficiente de determinación
Pn 2
e
R = 1 − Pn i=1 i 2
2

i=1 (yi − ȳ)

Sabemos que 0 ≤ R2 ≤ 1 y cuando R2 ≈ 1 el ajuste es bueno.

En el caso β0 = 0, el coeficiente de determinación es
Pn 2
e
R = 1 − Pni=1 i2
2

i=1 yi

de modo que los modelos que carecen de término independiente no se pueden comparar
con los que sı́ lo tienen.

1.5. Las condiciones de Gauss-Markov

Hasta aquı́, el método de los mı́nimos cuadrados es analı́tico ¿dónde está la estadı́stica?
A lo largo de los siguientes capı́tulos vamos a ver que un modelo estadı́stico y la imposición
de algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de los
métodos estadı́sticos y calibrar la bondad del ajuste desde esa óptica.
Una primera pregunta es ¿qué tan bueno es el método de los mı́nimos cuadrados para
estimar los parámetros? La respuesta es que este método proporciona un buen ajuste y
buenas predicciones si se verifican las condiciones de Gauss-Markov.
En el modelo lineal que hemos definido anteriormente, se supone que los errores i son
desviaciones que se comportan como variables aleatorias. Vamos a exigir que estos errores
aleatorios verifiquen las siguientes condiciones:

1. E(i ) = 0 i = 1, . . . , n

2. var(i ) = σ 2 i = 1, . . . , n

3. E(i · j ) = 0 ∀i 6= j

Veamos con detalle estas condiciones:

Primera condición E(i ) = 0 i = 1, . . . , n

14
Se trata de una condición natural sobre un error.
De este modo nos aseguramos que E(yi ) = β0 +β1 xi , el
modelo lineal es correcto y la situación que representa
el gráfico no se puede dar.

Segunda condición var(i ) = E(2i ) = σ 2 constante i = 1, . . . , n

Es la propiedad de homocedasticidad.
En el gráfico se representa una situación anómala lla-
mada de heterocedasticidad, en la que la var(i ) crece
con xi .
El parámetro desconocido σ 2 es la llamada varianza
del modelo.

Otras situaciones extrañas, que también se pretende prevenir, son:

I El punto I del gráfico representa un punto influyente y

atı́pico (outlier ). En general es un punto a estudiar, un
error o incluso una violación de la primera condición.

I
El punto I del gráfico es claramente influyente, aunque
no es atı́pico (outlier), ya que proporciona un residuo
pequeño.

Tercera condición E(i j ) = 0 ∀i 6= j

Las observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta de
regresión. Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, poco
fiable.

Tales condiciones pueden expresarse en forma matricial como

E() = 0 var() = σ 2 In

15
donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas
de = (1 , . . . , n )0 .
Como demostraremos en los siguientes capı́tulos, la adopción de estas condiciones evi-
tará teóricamente las situaciones anómalas que aquı́ hemos esquematizado.

1.6. Otros tipos de modelos lineales

Por suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aun-
que tienen diferentes objetivos, gozan de las mismas bases teóricas.
Por ejemplo, el Análisis de la Varianza con un factor (one-way Analysis of Variance),
representado por el modelo lineal

yij = µ + αi + ij con ij ∼ N (0, σ 2 ) indep.,

se resuelve de forma similar al modelo de regresión.

El Análisis de la Covarianza, que utiliza como variables independientes tanto variables
cuantitativas como factores, y el Análisis Multivariante de la Varianza, con varias variables
dependientes, son dos de los análisis que generalizan el estudio y aplicaciones de los
modelos lineales que vamos a investigar.

1.7. Algunas preguntas

Un tı́pico problema de estadı́stica consiste en estudiar la relación que existe, si existe,
entre dos variables aleatorias X e Y . Por ejemplo, altura y peso, edad del hombre y la
mujer en una pareja, longitud y anchura de unas hojas, temperatura y presión de un
determinado volumen de gas.
Si tenemos n pares de observaciones (xi , yi ) i = 1, 2, . . . , n, podemos dibujar estos puntos
en un gráfico o scatter diagram y tratar de ajustar una curva a los puntos de forma que
los puntos se hallen lo más cerca posible de la curva. No podemos esperar un ajuste
perfecto porque ambas variables están expuestas a fluctuaciones al azar debido a factores
incontrolables. Incluso aunque en algunos casos pudiera existir una relación exacta entre
variables fı́sicas como temperatura y presión, también aparecerı́an fluctuaciones debidas
a errores de medida.
Algunas cuestiones que podemos plantearnos en nuestras investigaciones son:

Si existe un modelo fı́sico teórico y lineal, podemos utilizar la regresión para estimar
los parámetros.

Si el modelo teórico no es lineal, se puede, en muchos casos, transformar en lineal.

Por ejemplo:
P V γ = c −→ log P = log c − γ log V

Si no es una recta, se puede estudiar un modelo de regresión polinómico. ¿De

qué grado?

En el modelo múltiple intervienen varias variables “predictoras” ¿son todas necesa-

rias? ¿son linealmente independientes las llamadas “variables independientes”?

16
¿Se verifican realmente las condiciones de Gauss-Markov?

¿Qué ocurre si las variables predictoras son discretas?

¿Qué ocurre si la variable dependiente es discreta o una proporción?

¿Y si faltan algunos datos?

¿Qué hacemos con los puntos atı́picos y los puntos influyentes?

Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes capı́tulos,
otras pueden quedar para una posterior profundización.

1.8. Ejemplos con S-PLUS

En esta sección vamos a ver como se calculan las regresiones que se han sugerido a partir
del ejemplo inicial con los datos de la tabla 1.1.
En primer lugar procedemos a introducir los datos en los vectores correspondientes.

> dens<-c(12.7,17.0,66.0,50.0,87.8,81.4,75.6,66.2,81.1,62.8,77.0,89.6,
+ 18.3,19.1,16.5,22.2,18.6,66.0,60.3,56.0,66.3,61.7,66.6,67.8)
> vel<-c(62.4,50.7,17.1,25.9,12.4,13.4,13.7,17.9,13.8,17.9,15.8,12.6,
+ 51.2,50.8,54.7,46.5,46.3,16.9,19.8,21.2,18.3,18.0,16.6,18.3)
> rvel<-sqrt(vel)

Las siguientes instrucciones generan el gráfico de puntos para estos datos.

> par(pty="m")
> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")

El cálculo de la regresión simple se realiza con la función lsfit(x,y) que asignamos al

objeto recta.ls

> recta.ls<-lsfit(dens,rvel)

Aunque esta última instrucción no muestra ninguna información en pantalla, ahora ya

podemos utilizar su resultado. Por ejemplo, podemos añadir la recta de regresión al gráfico
anterior.

> abline(recta.ls)

Los coeficientes de la recta son:

> recta.ls$coef
Intercept X
8.08981299 -0.05662558

También se puede obtener una información más completa con la instrucción ls.print,
aunque su resultado no se explicará hasta el capı́tulo correspondiente.

17
> ls.print(recta.ls, digits=4, print.it=T)
Residual Standard Error=0.2689
R-Square=0.9685
F-statistic (df=1, 22)=676.3944
p-value=0

Estimate Std.Err t-value Pr(>|t|)

Intercept 8.0898 0.1306 61.9295 0
X -0.0566 0.0022 -26.0076 0

La estimación de la desviación estándar de los errores y otros elementos de diagnosis del

modelo se obtienen con la función ls.diag como

> ls.diag(recta.ls)$std.dev
[1] 0.2689388

Con el vector de residuos y las predicciones se pueden dibujar unos gráficos similares a
los de la figura 1.2. La instrucción par(mfrow=c(1,2)) permite dos gráficos en la misma
figura.

> e<-recta.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)

Finalmente, podemos repetir los cálculos para el modelo parabólico. Simplemente debe-
mos introducir los valores de la variable densidad y sus cuadrados en una matriz de datos.
El resto es idéntico al modelo de regresión simple.

> matriz.frame<-data.frame(dens,dens^2)
> parabola.ls<-lsfit(matriz.frame,rvel)
> parabola.ls$coef
Intercept dens dens.2
8.8814208199 -0.1035152795 0.0004892585
> round(parabola.ls$coef,5)
Intercept dens dens.2
8.88142 -0.10352 0.00049
> e<-parabola.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)

18
Los gráficos serán muy similares a los de la figura 1.3.
En los siguientes capı́tulos veremos otras instrucciones de S-PLUS, en especial la función
lm, que permiten ajustar un modelo de regresión a unos datos.

19
1.9. Ejercicios
Ejercicio 1.1
Hallar las estimaciones de los parámetros en un modelo de regresión lineal simple, mini-
mizando la suma de los cuadrados de los errores:
Xn
S= (yi − β0 − β1 xi )2
i=1

Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.2
Hallar las estimaciones de los parámetros en un modelo de regresión parabólico, minimi-
zando la suma de los cuadrados de los errores:
X n
S= (yi − β0 − β1 xi − β2 x2i )2
i=1

Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.3
Consideremos el problema de tráfico planteado en el apartado 1.2 de este capı́tulo, con la
variable independiente densidad y la variable dependiente raı́z cuadrada de la velocidad.
Con los datos proporcionados en la tabla 1.1 realizar el siguiente proceso:
√
(a) Dibujar
√ la nube de puntos y la recta que pasa por los puntos (12,7, 62,4) y
(87,8, 12,4). Dibujar el gráfico de los residuos con la densidad y el gráfico con
las predicciones. Calcular la suma de cuadrados de los residuos.
(b) Hallar la recta de regresión simple. Dibujar el gráfico de los residuos con la densidad
y el gráfico con las predicciones. Calcular la suma de cuadrados de los residuos.
(c) Mejorar el modelo anterior considerando una regresión parabólica. Dibujar el gráfico
de los residuos con la densidad y el gráfico con las predicciones. Calcular la suma
de cuadrados de los residuos.
(d) Calcular la capacidad de la carretera o punto de máximo flujo. Recordar que flujo =
vel × densidad.
Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velo-
cidad en atletismo en los Juegos Olı́mpicos de Atlanta:
hombres mujeres
distancia tiempo
100 9,84 10,94
200 19,32 22,12
400 43,19 48,25
800 102,58 117,73
1500 215,78 240,83
5000 787,96 899,88
10000 1627,34 1861,63
42192 7956,00 8765,00

20
Si tomamos como variable regresora o independiente la distancia (metros) y como variable
respuesta o dependiente el tiempo (segundos):

(a) Calcular la recta de regresión simple con los datos de los hombres y dibujarla.
Dibujar el gráfico de los residuos con la distancia y el gráfico con las predicciones.
Calcular la suma de cuadrados de los residuos y el R2 .

(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo y
distancia.

21
Capı́tulo 2

Estimación

2.1. Introducción
En primer lugar concretaremos la definición general de un modelo lineal y hallaremos la
estimación por mı́nimos cuadrados de los parámetros del modelo.
Veremos que la estimación será única si la matriz de diseño es de rango máximo. En
caso contrario, resulta importante definir el concepto de función paramétrica estimable
y probar, para estas funciones, la unicidad del estimador mı́nimo-cuadrático, como estu-
diaremos en el siguiente capı́tulo.
Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teorema
de Gauss-Markov que demuestra que los estimadores mı́nimo-cuadráticos son los mejores,
en el sentido de que son insesgados y de mı́nima varianza.
Además, con la introducción de la hipótesis de normalidad de los errores, podremos
estudiar las distribuciones de los estimadores y de otros estadı́sticos, ası́ como la relación
con los estimadores de máxima verosimilitud.
Más adelante, trabajaremos la generalización del método de los mı́nimos cuadrados cuan-
do la matriz de varianzas-covarianzas de los errores no es σ 2 I. Por otra parte, también
profundizaremos el caso de matrices de diseño de rango no máximo.

2.2. El modelo lineal

Sea Y una variable aleatoria que fluctúa alrededor de un valor desconocido η, esto es

Y =η+

donde es el error, de forma que η puede representar el valor verdadero e Y el valor

observado.
Supongamos que η toma valores distintos de acuerdo con diferentes situaciones experi-
mentales según el modelo lineal

η = β 1 x1 + · · · + β m xm

donde βi son parámetros desconocidos y xi son valores conocidos, cada uno de los cuales
ilustra situaciones experimentales diferentes.

22
En general se tienen n observaciones de la variable Y . Diremos que y1 , y2 , . . . , yn obser-
vaciones independientes de Y siguen un modelo lineal si

yi = xi1 β1 + · · · + xim βm + i i = 1, . . . , n

Estas observaciones de Y se pueden considerar variables aleatorias independientes y dis-

tribuidas como Y (son copias) o también realizaciones concretas (valores numéricos) para
los cálculos.
La expresión del modelo lineal en forma matricial es
      
y1 x11 x12 . . . x1m β1 1
 y2   x21 x22 . . . x2m   β2   2 
      
 ..  =  .. .. ..   ..  +  .. 
 .   . . .   .   . 
yn xn1 xn2 . . . xnm βm n

o en forma resumida
Y = Xβ + (2.1)
Los elementos que constituyen el modelo lineal son:

1. El vector de observaciones Y = (y1 , y2 , . . . , yn )0 .

2. El vector de parámetros β = (β1 , β2 , · · · , βm )0 .

3. La matriz del modelo  

x11 x12 . . . x1m
 x21 x22 . . . x2m 
 
X= .. .. .. 
 . . . 
xn1 xn2 . . . xnm
cuyos elementos son conocidos.
En problemas de regresión, X es la matriz de regresión. En los llamados diseños
factoriales del Análisis de la Varianza, X recibe el nombre de matriz de diseño.

4. El vector de errores o desviaciones aleatorias = (1 , 2 , . . . , n )0 , donde i es la

desviación aleatoria de yi .

Ejemplo 2.2.1
El modelo lineal más simple consiste en relacionar una variable aleatoria Y con una
variable controlable x (no aleatoria), de modo que las observaciones de Y verifiquen

yi = β 0 + β 1 xi + i i = 1, . . . , n

Se dice que Y es la variable de predicción o dependiente y x es la variable predictora,

por ejemplo Y es la respuesta de un fármaco a una dosis x. Hallar β 0 y β1 es el clásico
problema de regresión lineal simple.

Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relación sea po-
linómica.

23
Consideremos el modelo

yi = β0 + β1 xi + β2 x2i + · · · + βp xpi + i = 1, . . . , n

Observemos que es lineal en los parámetros βi . La matriz de diseño es

 
1 x1 . . . xp1
 1 x2 . . . xp2 
 
 .. .. .. 
 . . . 
1 xn . . . xpn

Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o más variables control. Ası́,
son modelos lineales:

a) yi = β0 + β1 xi1 + β2 xi2 + i

b) yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + β4 x2i1 + β5 x2i2 + i

c) yi = β0 + β1 xi1 + β2 cos(xi2 ) + β3 sen(xi2 ) + i

Sin embargo, no es modelo lineal

yi = β0 + β1 log(β2 xi1 ) + β3 xβi24 + i

Ejemplo 2.2.4
Supongamos que la producción Y de una planta depende de un factor F (fertilizante) y
un factor B (bloque o conjunto de parcelas homogéneas). El llamado modelo del diseño
del factor en bloques aleatorizados es

yij = µ + αi + βj + ij

donde

µ es una constante (media general)

αi el efecto del fertilizante
βj el efecto del bloque

Si tenemos 2 fertilizantes y 3 bloques, tendremos en total k = 2 × 3 = 6 situaciones

experimentales y la siguiente matriz de diseño:

µ α 1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1

La utilización del fertilizante 1 en el bloque 3 queda descrita a través de la fila 5 de X.

24
Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologı́a se utiliza la fórmula
C = αLβ1 Aβ2 H β3
donde L = longitud del cráneo, A = anchura parietal máxima y H = altura basio bregma.
La fórmula anterior se convierte en un modelo lineal tomando logaritmos
log C = log α + β1 log L + β2 log A + β3 log H
El parámetro α expresa el tamaño, mientras que los parámetros β expresan la forma del
cráneo.

2.3. Suposiciones básicas del modelo lineal

En el modelo lineal definido en el apartado anterior, se supone que los errores i son
desviaciones que se comportan como variables aleatorias que verifican las condiciones de
Gauss-Markov:
1. E(i ) = 0 i = 1, . . . , n
2. var(i ) = σ 2 i = 1, . . . , n
3. E(i · j ) = 0 ∀i 6= j
Como sabemos, la condición (2) es la llamada condición de homocedasticidad del modelo y
el parámetro desconocido σ 2 es la llamada varianza del modelo. La condición (3) significa
que las n desviaciones son mutuamente incorrelacionadas.
Estas condiciones pueden expresarse en forma matricial como
E() = 0 var() = σ 2 In
donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas
de = (1 , . . . , n )0 .
Si además suponemos que cada i es N (0, σ) y que 1 , . . . , n son estocásticamente inde-
pendientes, entonces diremos que el modelo definido es un modelo lineal normal. Ası́ ten-
dremos que
Y ∼ Nn (Xβ, σ 2 In )
es decir, Y sigue la distribución normal multivariante de vector de medias Xβ y matriz
de covarianzas σ 2 In .
Se llama rango del diseño al rango de la matriz X
r = rango X
y es un elemento muy importante en la discusión de los modelos. Evidentemente r ≤ m.
El valor de r es el número efectivo de parámetros del diseño, en el sentido de que si r < m
es posible reparametrizar el modelo para que r sea igual al número de parámetros. En
muchos casos el diseño verifica directamente que r = m y entonces se dice que es de rango
máximo.
El modelo lineal que verifique las condiciones aquı́ expuestas, salvo la normalidad, diremos
que está bajo las condiciones de Gauss-Markov ordinarias.

25
2.4. Estimación de los parámetros
La estimación de los parámetros β = (β1 , . . . , βm )0 se hace con el criterio de los mı́nimos
cuadrados. Se trata de hallar el conjunto de valores de los parámetros β b = (βb1 , . . . , βbm )0
que minimicen la siguiente suma de cuadrados

0 = (Y − Xβ)0 (Y − Xβ) (2.2)

Xn
= (yi − xi1 β1 − · · · − xim βm )2
i=1

La estimación βb de β la llamaremos estimación MC, abreviación de mı́nimo-cuadrática,

o LS del inglés least squares.

Teorema 2.4.1
Toda estimación MC de β es solución de la ecuación

X0 Xβ = X0 Y (2.3)

Demostración:
Si desarrollamos la suma de cuadrados 0 tenemos

0 = (Y − Xβ)0 (Y − Xβ)
= Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ

y si derivamos matricialmente respecto a β resulta

∂0
= −2X0 Y + 2X0 Xβ
∂β
De modo que, si igualamos a cero, obtenemos la ecuación enunciada en el teorema.
Las ecuaciones 2.3 reciben el nombre de ecuaciones normales.
Si el rango es máximo y r = m, entonces X0 X tiene inversa y la única solución de las
ecuaciones normales es
b = (X0 X)−1 X0 Y
β
Si r < m el sistema de ecuaciones 2.3 es indeterminado y su solución no es única. En
estos casos, una posibilidad (ver Apéndice A) es considerar

b = (X0 X)− X0 Y
β

donde A− = (X0 X)− es una g-inversa de A = X0 X, es decir, A− verifica

AA− A = A

Entonces se puede demostrar que la solución general es

b = (X0 X)− X0 Y + (I − A− A)z
β

siendo z un vector paramétrico.

26
Ahora podemos definir la suma de cuadrados residual como
b 0 (Y − Xβ)
SCR = e0 e = (Y − Xβ) b

Como veremos, SCR entendido como un estadı́stico función de la muestra Y, desempeña

un papel fundamental en el Análisis de la Varianza.
El modelo lineal Y = Xβ + , bajo las hipótesis de Gauss-Markov, verifica
E(Y) = Xβ
Teorema 2.4.2
Sea Ω = hXi ⊂ Rn el subespacio vectorial generado por las columnas de X de dimensión
dimhXi = r = rango X.
Entonces se verifica:
(i) E(Y) ∈ hXi
b es una estimación MC, el vector de residuos e = Y − Xβ
(ii) Si β b es ortogonal a hXi.

Demostración:
En efecto,
i) Si x(1) , . . . , x(m) son las columnas de X, entonces
E(Y) = x(1) β1 + · · · + x(m) βm ∈ hXi

b = X 0 Y − X 0 Xβ
ii) X0 e = X0 (Y − Xβ) b=0

Teorema 2.4.3
b solución MC de 2.3 se verifica que
Para cualquier β
Y b
b = Xβ b
e=Y−Y b 0 (Y − Xβ)
SCR = (Y − Xβ) b

son únicos.
Además
b 0 X0 Y
SCR = Y 0 Y − β (2.4)
Demostración:
Si desarrollamos la suma de cuadrados residual SCR resulta
b 0 X0 Y − Y 0 Xβ
SCR = Y 0 Y − β b +β
b 0 X0 Xβ
b
b = X0 Y, obtenemos
y como X0 Xβ
b 0 X0 Y + β
SCR = Y 0 Y − 2β b 0 X0 Y = Y 0 Y − β
b 0 X0 Y

Consideremos ahora los vectores Y b 1 = Xβb1 y Yb 2 = Xβ b 2 , donde β

b1 y β
b 2 son dos solu-
ciones MC. Entonces Y b1 y Yb 2 pertenecen al subespacio hXi generado por las columnas
b1 − Y
de X y su diferencia Y b 2 también. Por otra parte, observamos que
b1 − Y
X0 ( Y b 1 − X 0 Xβ
b 2 ) = X 0 Xβ b 2 = X0 Y − X0 Y = 0

de modo que Y b 1 −Y
b 2 pertenece al ortogonal de hXi. Ası́ pues, necesariamente Y
b 1 −Y
b2 = 0
y el vector de errores e = Y − Y b1 = Y − Y b 2 es único.
En consecuencia, la suma de cuadrados de los errores SCR también es única.

27
Interpretación geométrica

El modelo teórico es
Y = Xβ + = θ + si θ = Xβ
Entonces E(Y) = Xβ = θ significa que el valor esperado de Y pertenece al subespacio
Ω = hXi y para estimar los parámetros β debemos minimizar

0 = kY − θk2 con θ ∈ Ω = hXi

Como el vector concreto de observaciones Y se puede considerar un vector de Rn , el

problema anterior se puede resolver en términos geométricos. Ası́ se sabe que cuando
θ ∈ Ω, kY − θk2 es mı́nimo para θ = Y b = PY, donde P es la matriz de la proyección
ortogonal en Ω = hXi (ver Apéndice B). La estimación MC es equivalente a hallar la
b de Y sobre hXi, es decir, la norma euclı́dea de e = Y − Y
proyección ortogonal Y b es
mı́nima:
SCR = e0 e = kek2 = kY − Yk b 2
Se comprende que cualquier otra proyección no ortogonal darı́a una solución menos ade-
cuada.

b es ortogonal a Ω, se verifica que

Como e = Y − Y
b =0
X0 (Y − Y) ó b = X0 Y
X0 Y

donde Yb está determinada por ser la única proyección ortogonal de Y en Ω. Cuando las
columnas de X son linealmente independientes, forman una base y existe un único vector
b tal que Y
β b = Xβ b de manera que

b = X0 Y
X0 Y ⇒ b = X0 Y
X 0 Xβ

son las ecuaciones normales. En caso contrario, es decir, cuando las columnas de X son de-
pendientes no podemos concretar una solución única para los parámetros β. Sin embargo
todas las soluciones deben verificar la siguiente propiedad.

Teorema 2.4.4
b es una estimación MC de β si y sólo si Xβ
β b = PY, donde P es la proyección ortogonal
en Ω = hXi

28
Demostración:
b de β es MC si y sólo si
Una estimación β
b 0 (Y − Xβ)
(Y − Xβ) b = mı́n (Y − Xβ)0 (Y − Xβ)
β

e una estimación cualquiera de β, entonces

Sea β
e 0 (Y − Xβ)
(Y − Xβ) e = (Y − PY + PY − Xβ) e 0 (Y − PY + PY − Xβ)
e
e
= (Y − PY)0 (Y − PY) + (Y − PY)0 (PY − Xβ)
e 0 (Y − PY) + (PY − Xβ)
+ (PY − Xβ) e 0 (PY − Xβ)
e

Sin embargo
e = Y 0 (I − P)PY − Y 0 (I − P)Xβ
(Y − PY)0 (PY − Xβ) e=0

ya que P es idempotente y además PX = X. De forma que

e 0 (Y − Xβ)
(Y − Xβ) e = (Y − PY)0 (Y − PY) + (PY − Xβ)
e 0 (PY − Xβ)
e

e y el segundo se minimiza
donde ambos términos son positivos, el primero no depende de β
b
si es cero, luego PY = Xβ.
En resumen y como ya hemos visto, la solución del problema se basa en la proyección
ortogonal sobre el subespacio Ω que garantiza la unicidad del vector de predicciones
b = PY y por ende del vector de residuos e = Y − Y
Y b y de la suma de cuadrados de los
residuos
SCR = e0 e = (Y − PY)0 (Y − PY) = Y 0 (I − P)Y
ya que I − P es idempotente (ver Apéndice B).
La solución para los parámetros β debe salir de las ecuaciones normales o de la ecuación
Xβ = PY y sólo es única cuando el rango de la matriz X es máximo.

Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1

y1 = θ + 1
y2 = 2θ + 2
y3 = −θ + 3

que en expresión matricial escribimos

     
y1 1 1
 y2  =  2  θ +  2 
y3 −1 3

de modo que X0 = (1, 2, −1).

Las ecuaciones normales son

 
1 y 1
1 2 −1  2  θ = 1 2 −1  y2 
−1 y3

29
es decir
6θ = y1 + 2y2 − y3
y la estimación MC de θ es θb = (y1 + 2y2 − y3 )/6.
La suma de cuadrados residual es

SCR = Y 0 Y − θb0 X0 Y = y12 + y22 + y32 − (y1 + 2y2 − y3 )2 /6

Ejemplo 2.4.2
Supongamos que se desea pesar tres objetos cuyos pesos exactos son β 1 , β2 y β3 . Se
dispone de una balanza de platillos con un error de pesada que podemos considerar con
distribución N (0, σ). Un artificio para mejorar la precisión y ahorrar pesadas consiste en
repartir los objetos en uno o en los dos platillos y anotar las sumas o diferencias de pesos:

x1 β 1 + x 2 β 2 + x 3 β 3 = y

donde y es el peso observado y xi = 0, 1, −1.

Consideremos las siguientes pesadas:

β1 + β 2 + β 3 = 5,53
β1 − β 2 + β 3 = 1,72
β1 + β 2 − β 3 = 0,64
β1 + β 2 + β 3 = 5,48
β1 − β 2 + β 3 = 1,70

A partir de estos datos, las ecuaciones normales son


 5β1 + β2 + 3β3 = 15,07
β1 + 5β2 − β3 = 8,23

3β1 − β2 + 5β3 = 13,79

La estimación de los parámetros proporciona

βb1 = 1,175 βb2 = 1,898 βb3 = 2,433

y la suma de cuadrados residual es

SCR = (5,53 − (βb1 + βb2 + βb3 ))2 + · · · = 0,00145

2.5. Estimación de la varianza

La varianza de los errores del modelo lineal

σ 2 = var(i ) = var(yi ) i = 1, . . . , n

es otro parámetro que debe ser estimado a partir de las observaciones de y1 , . . . , yn .

30
Teorema 2.5.1
Sea Y = Xβ + el modelo lineal con las hipótesis impuestas en la sección 2.3. Entonces
el estadı́stico1
b2 = ECM = SCR/(n − r)
σ
es un estimador insesgado de la varianza σ 2 . En este estadı́stico SCR es la suma de
cuadrados residual, n el número total de observaciones y r el rango del diseño.

Demostración 1:
Las columnas x(1) , . . . , x(m) de la matriz de diseño X generan el subespacio de dimensión
r que escribimos
hXi = hx(1) , . . . , x(m) i
Sea ahora V una matriz ortogonal, es decir, tal que VV 0 = V0 V = In , cuyas columnas
v(1) , . . . , v(r) , v(r+1) , . . . , v(n) forman una base ortogonal de Rn . Es posible construir V de
modo que las r primeras columnas generen el subespacio hXi

hXi = hv(1) , . . . , v(r) i

Por otra parte, Y = (y1 , . . . , yn )0 es un vector aleatorio de Rn que, mediante V, transfor-

mamos en Z = (z1 , . . . , zn )0 = V0 Y

zi = v1i y1 + · · · + vni yn i = 1, . . . , n

Para las variables transformadas se verifica que

n
X
0 ηi si i ≤ r
E(zi ) = vhi E(yh ) = v(i) Xβ =
0 si i > r
h=1

pues Xβ ∈ hXi que es ortogonal a v(i) para i > r.

b una estimación MC. Entonces
Sea β
b + (Y − Xβ)
Y = Xβ b = Xβ
b +e

donde obviamente Xβ b ∈ hXi y como sabemos e ∈ hXi⊥ , de manera que la transformación

ortogonal V0 aplicada sobre e proporciona

V0 e = (0, . . . , 0, zr+1 , . . . , zn )0

Luego, en función de las variables zi tenemos

n
X
0 0 0 0
SCR = e e = (V e) V e = zi2
i=r+1

Además, por ser una transformación ortogonal, las variables z1 , . . . , zn siguen siendo in-
correlacionadas y de varianza σ 2 . Ası́ pues

E(zi ) = 0 E(zi2 ) = var(zi ) = var(yi ) = σ 2

1
En muchos de los libros clásicos escritos en inglés este estadı́stico se llama MSE, siglas de mean
square error.

31
y por lo tanto
n
X
E(SCR) = E(zi2 ) = (n − r)σ 2
i=r+1

La expresión
2
SCR = zr+1 + · · · + zn2 (2.5)
se llama forma canónica de la suma de cuadrados residual del modelo lineal bajo las
hipótesis de Gauss-Markov.
Demostración 2:
Se puede hacer una demostración mucho más directa a partir de la propiedad 2 explicada
en el Apéndice C1 de Estadı́stica Multivariante:
Para un vector aleatorio Y con esperanza E(Y) = µ y matriz de varianzas y covarianzas
var(Y) = V, se tiene que

E(Y0 AY) = tr(AV) + µ0 Aµ

donde A es una matriz constante.

En nuestro caso E(Y) = µ = Xβ y var(Y) = V = σ 2 I, de forma que

E(SCR) = E(Y 0 (I − P)Y) = tr(σ 2 (I − P)) + β 0 X0 (I − P)Xβ

= σ 2 tr(I − P)
= σ 2 rg(I − P) = σ 2 (n − r)

gracias a las propiedades de la matriz I − P.

2.6. Distribuciones de los estimadores

Vamos ahora a establecer algunas propiedades de los estimadores MC para un modelo de
rango máximo.
Si asumimos que los errores son insesgados E() = 0, que es la primera condición de
Gauss-Markov, entonces βb es un estimador insesgado de β

b = (X0 X)−1 X0 E(Y) = (X0 X)−1 X0 Xβ = β

E(β)

Si asumimos además que los errores i son incorrelacionados y con la misma varianza, es
decir var() = σ 2 I, resulta que

var(Y) = var(Y − Xβ) = var() = σ 2 I

ya que Xβ no es aleatorio y en consecuencia

b = var((X0 X)−1 X0 Y) = (X0 X)−1 X0 var(Y)X(X0 X)−1
var(β)
= σ 2 (X0 X)−1 (X0 X)(X0 X)−1 = σ 2 (X0 X)−1

b y SCR bajo las

Veamos a continuación algunos resultados acerca de la distribución de β
hipótesis del modelo lineal normal en el caso de rango máximo.

32
Teorema 2.6.1
Sea Y ∼ N (Xβ, σ 2 In ) con rango X = m. Entonces se verifican las siguientes propiedades:
i) La estimación MC de β coincide con la estimación de la máxima verosimilitud.
Además es insesgada y de mı́nima varianza.
b ∼ N (β, σ 2 (X0 X)−1 )
ii) β
b − β)0 X0 X(β
iii) (β b − β)/σ 2 ∼ χ2
m

b es independiente de SCR
iv) β
v) SCR/σ 2 ∼ χ2n−m
Demostración:

i) La función de verosimilitud es
√
2 −n 1 0
L(Y; β, σ ) = ( 2πσ 2 ) exp − 2 (Y − Xβ) (Y − Xβ)
2σ
de modo que el mı́nimo de (Y − Xβ)0 (Y − Xβ) es el máximo de L.
Ya hemos visto que β b es insesgado y además, cada βbi es un estimador lineal de va-
rianza mı́nima de βi , ya que es centrado y de máxima verosimilitud, luego suficiente.
Se llegará a la misma conclusión como consecuencia del Teorema 3.2.1.
Por otra parte, si sustituimos β por β b en la función de verosimilitud y derivamos
2
respecto a σ resulta que el el estimador de máxima verosimilitud de la varianza es
2
bM
σ V = SCR/n

Este estimador es sesgado y en la práctica no se utiliza, ya que disponemos del

estimador insesgado propuesto en el apartado anterior. Además, bajo ciertas condi-
b2 = SCR/(n−m) es un estimador de varianza
ciones generales se puede probar que σ
2
mı́nima de σ (véase Seber [61, pág. 52]).

ii) Como β b = [(X0 X)−1 X0 ]Y, βb es combinación lineal de una normal y, por tanto,
tiene distribución normal multivariante con matriz de varianzas-covarianzas
(X0 X)−1 σ 2

iii) Es consecuencia de las propiedades de la normal multivariante del apartado anterior

ya que
b − β)0 X0 X(β
(β b − β)/σ 2 = (βb − β)0 var(β)
b −1 (β
b − β) ∼ χ2
m

b i Y − Xβ
iv) Si calculamos la matriz de covarianzas entre β b tenemos
b Y − Xβ)
cov(β, b = cov((X0 X)−1 X0 Y, (I − P)Y)
= (X0 X)−1 X0 var(Y)(I − P)0
= σ 2 (X0 X)−1 X0 (I − P) = 0

de modo que efectivamente β b es independiente de (Y − Xβ) b 0 (Y − Xβ),

b ya que la
incorrelación entre normales multivariantes implica su independencia.
Este resultado se ampliará en el Teorema 3.4.1.

33
v) Aplicando la ecuación 2.5

SCR/σ 2 = (zm+1 /σ)2 + · · · + (zn /σ)2

obtenemos una suma de cuadrados de n − m variables normales independientes, es

decir, una distribución χ2n−m .

Ejemplo 2.6.1
√
La distribución de θb del ejemplo 2.4.1 es N (θ, σ/ 6)

b = E((y1 + 2y2 − y3 )/6) = (1/6)(θ + 4θ + θ) = θ

E(θ)
b = (σ 2 + 4σ 2 + σ 2 )/62 = σ 2 /6
var(θ)

La distribución de SCR/σ 2 es χ22 , siendo

b 2 + (y2 − 2θ)
SCR = (y1 − θ) b 2 + (y3 + θ)
b2

Ejemplo 2.6.2
La estimación de la varianza del error σ 2 en el ejemplo 2.4.2 es

b2 = 0,00145/(5 − 3) = 0,725 × 10−3

Observemos que el número de pesadas necesarias para obtener la misma precisión serı́a
mayor si pesáramos cada objeto individualmente.

2.7. Matriz de diseño reducida

Supongamos que varias observaciones yi han sido obtenidas bajo las mismas condiciones
experimentales. Para estas observaciones, el modelo que liga yi con las β es el mismo, lo
que se traduce en que las filas de la matriz de diseño correspondientes están repetidas.
Para evitar la redundancia que esto supone nos será muy útil, a efectos teóricos y de
cálculo, introducir el concepto de matriz de diseño reducida.

Definición 2.7.1
Dado el modelo lineal Y = Xβ +, llamaremos matriz de diseño reducida X R a la matriz
k × m obtenida tomando las k filas distintas de la matriz de diseño original X. Diremos
entonces que k es el número de condiciones experimentales.

Las matrices de diseño original o ampliada y reducida las indicaremos por X y XR

respectivamente, cuando convenga distinguir una de otra.
Si la fila i-ésima de XR está repetida ni veces en X, significa que se han obtenido ni
réplicas de la variable observable bajo la i-ésima condición experimental. Si estos números
de réplicas son n1 , n2 , . . . , nk , entonces

n = n1 + n2 + · · · + n k

34
Además de la matriz reducida XR , utilizaremos también la matriz diagonal

D = diag(n1 , n2 , . . . , nk )

y el vector de medias
Ȳ = (ȳ1 , ȳ2 , . . . , ȳk )0
donde cada y i es la media de las réplicas bajo la condición experimental i.
En una experiencia bajo la cual todas las observaciones han sido tomadas en condiciones
experimentales distintas (caso de una sola observación por casilla), entonces

XR = X Ȳ = Y D=I ni = 1

Como veremos más adelante (ver sección 10.6), la utilización de XR , D e Ȳ nos permi-
tirá abordar diseños no balanceados y el caso de observaciones faltantes.

Teorema 2.7.1
La solución de las ecuaciones normales y la suma de cuadrados residual en términos de
la matriz de diseño reducida XR , de D e Ȳ es

b = (X0 DXR )−1 X0 DȲ

β R R
b 0 X0 DȲ
SCR = Y 0 Y − β R

Demostración:
Sea M una matriz n × k de forma que cada columna i es

(0, . . . , 0, 1, . . . , 1, 0, . . . , 0)0
| {z } | {z } | {z }
n0 ni n00

donde k es el número de condiciones experimentales (número de filas distintas de X), ni

el número de réplicas bajo la condición i, y además

n0 = n1 + · · · + ni−1 n00 = ni+1 + · · · + nk

Se verifica

M0 Y = DȲ MXR = X M0 M = D X0 Y = X0R M0 Y = X0R DȲ

de donde se siguen inmediatamente las fórmulas del teorema.

Ejemplo 2.7.1
Con los datos del ejemplo 2.4.2
   
1 1 1 5,53
 1 −1 1   1,72 
   
X= 1  1 −1  Y= 0,64 
  
 1 1 1   5,48 
1 −1 1 1,70

35
Agrupando las filas 1, 4 y 2, 5 obtenemos
   
1 1 1 2 0 0
XR =  1 −1 1  D= 0 2 0 
1 1 −1 0 0 1
donde n1 = n2 = 2, n3 = 1, k = 3.
   
(5,53 + 5,48)/2 5,505
Ȳ =  (1,72 + 1,70)/2  =  1,710 
0,64 0,640
La matriz M es  
1 0 0
 1 0 0 
 
M=
 0 1 0 

 0 1 0 
0 0 1

Ejemplo 2.7.2
Consideremos el modelo
yij = µ + αi + βj + ij
correspondiente al diseño de dos factores sin interacción.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los
números de réplicas son

n11 = 2 n21 = 1 n12 = 3 n22 = 3 n13 = 5 n23 = 4

La matriz de diseño reducida es

µ α 1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
P
Sin embargo, la matriz de diseño ampliada tiene 6 columnas y nij = 18 filas.

2.8. Matrices de diseño de rango no máximo

Cuando el modelo lineal corresponde al análisis de los datos de un diseño experimental,
la matriz X tiene todos sus elementos con valores 0 ó 1 y sus columnas acostumbran a ser
linealmente dependientes. Ya sabemos que en este caso es posible hallar el estimador MC
de θ = Xβ pero, por desgracia, hay múltiples estimaciones de los parámetros β que más
bien podemos considerar como soluciones β b de las ecuaciones normales. En todo caso y
como veremos en el próximo capı́tulo estamos interesados en concretar una estimación
de los parámetros β aunque no sea única. A continuación se comentan algunos métodos
b o para hallar la SCR directamente.
para hallar una solución β

36
2.8.1. Reducción a un modelo de rango máximo
Sea X1 la matriz n×r con las r = rg X columnas linealmente independientes de la matriz
de diseño X, entonces P = X1 (X01 X1 )−1 X01 de forma que

b 0 X01 Y
SCR = Y 0 (I − P)Y = Y 0 Y − α

donde αb = (X01 X1 )−1 X01 Y es la solución del modelo Y = X1 α + de rango máximo.

Podemos asumir, sin pérdida de generalidad, que X1 está formada por las r primeras filas
de X de manera que X = (X1 , X2 ). Entonces X2 = X1 F ya que las columnas de X2 son
linealmente dependientes de las de X1 y, por tanto, X = X1 (Ir , F). Ası́, éste es un caso
especial de una factorización más general del tipo

X = KL

donde K es n × r de rango r, y L es r × m de rango r. Entonces podemos escribir

Xβ = KLβ = Kα

y estimar α.

2.8.2. Imposición de restricciones

Este método consiste en imponer un conjunto de restricciones del tipo Hβ = 0 para
evitar la indeterminación de β. Las restricciones apropiadas, llamadas identificables, son
aquellas que, para cada θ ∈ Ω = hXi, existe un único β que satisface θ = Xβ y 0 = Hβ,
es decir, que satisface
θ X
= β = Gβ
0 H
La solución es simple. Debemos elegir como filas de H un conjunto de m − r vectores
m × 1 linealmente independientes que sean también linealmente independientes de las
filas de X. Entonces la matriz G de orden (n + m − r) × m tendrá rango m de modo que
G0 G = X0 X + H0 H es m × m de rango m y en consecuencia tiene inversa. Luego hemos
salvado la deficiencia en el rango de X0 X introduciendo la matriz H0 H.
Ası́ pues, si añadimos H0 Hβ = 0 a las ecuaciones normales tenemos

G0 Gβ = X0 Y
b = (G0 G)−1 X0 Y. Se puede ver, a partir de θ
cuya solución es β b = Xβ b = PY, que
P = X(G0 G)−1 X0 ya que P es única.
La demostración de todos los detalles aquı́ expuestos puede verse en Seber [61, pág. 74].
Es interesante comprobar que, si Hβ = 0, entonces
b = (G0 G)−1 X0 Xβ
E(β)
= (G0 G)−1 (X0 X + H0 H)β = β

de modo que β b es un estimador insesgado de β.

Este método es particularmente útil en los modelos de análisis de la varianza para los que
H se halla con mucha facilidad.

37
Ejemplo 2.8.1
Consideremos el modelo correspondiente al diseño de un factor con, por ejemplo, 3 niveles

yij = µ + αi + ij i = 1, 2, 3 j = 1, . . . , ni

entonces, tenemos m = 4 y una matriz de diseño de rango 3. La estimación de los

parámetros resulta indeterminada.
P
Sin embargo, si añadimos la restricción αi = 0, es decir, si hacemos H = (0, 1, 1, 1),
el sistema conjunto es de rango 4 y podemos determinar una solución o calcular la suma
de cuadrados residual.

38
2.9. Ejercicios
Ejercicio 2.1
Una variable Y toma los valores y1 , y2 y y3 en función de otra variable X con los valores
x1 , x2 y x3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en su
caso, la matriz de diseño para x1 = 1, x2 = 2 y x3 = 3.

a) yi = β0 + β1 xi + β2 (x2i − 1) + i

b) yi = β0 + β1 xi + β2 exi + i

c) yi = β1 xi (β2 tang(xi )) + i

Ejercicio 2.2
Dado el modelo lineal
y1 2 1
= θ+
y2 1 2
hallar la estimación MC de θ y la suma de cuadrados residual.

Ejercicio 2.3
b es una estimación MC, probar que
Si β
b 0 (Y − Xβ)
(Y − Xβ)0 (Y − Xβ) = (Y − Xβ) b + (β
b − β)0 X0 X(β
b − β)

Ejercicio 2.4
Cuatro objetos cuyos pesos exactos son β1 , β2 , β3 y β4 han sido pesados en una balanza
de platillos de acuerdo con el siguiente esquema:

β1 β2 β3 β4 peso
1 1 1 1 9,2
1 −1 1 1 8,3
1 0 0 1 5,4
1 0 0 −1 −1,6
1 0 1 1 8,7
1 1 −1 1 3,5

Hallar las estimaciones de cada βi y de la varianza del error.

Ejercicio 2.5
b la estimación MC de β. Si Y
Sea β b = PY, probar que la matriz P verifica
b = Xβ

P2 = P (I − P)2 = I − P

Ejercicio 2.6
La matriz de diseño reducida de un modelo lineal normal es
 
1 1 1
X= 1 0 1 
0 1 0

39
Se sabe además que

y 1 = 10 y 2 = 12 y 3 = 17 n1 = n2 = n3 = 10
1 X
s21 = (yi1 − y 1 )2 = 2,8 s22 = 4,2 s23 = 4,0
n1
Se pide:

a) Hallar la expresión general de las estimaciones MC de los parámetros β.

b) Calcular SCR. Estimar la varianza del diseño σ 2 .

c) Estudiar si la hipótesis nula H0 : σ 2 = 3 puede ser aceptada.

Ejercicio 2.7
Consideremos el modelo lineal

yi = β0 + β1 xi1 + · · · + βm xim + i i = 1, . . . , n

Sean βb0 , βb1 , . . . , βbm las estimaciones MC de los parámetros y sea

ybi = βb0 + βb1 xi1 + · · · + βbm xim i = 1, . . . , n

Probar que
n
X n
X
(yi − ybi ) = ei = 0
i=1 i=1

40
Capı́tulo 3

Funciones paramétricas estimables

3.1. Introducción
En los modelos lineales, además de la estimación de los parámetros βi y de σ 2 , interesa
también la estimación de ciertas funciones lineales de los parámetros. Como vamos a ver,
esto es especialmente necesario cuando los parámetros carecen de una estimación única.

Definición 3.1.1
Llamaremos función paramétrica a toda función lineal ψ de los parámetros

ψ = a 1 β1 + · · · + a m βm = a 0 β
b combi-
y diremos que una función paramétrica ψ es estimable si existe un estadı́stico ψ,
nación lineal de las observaciones y1 , . . . , yn

ψb = b1 y1 + · · · + bn yn = b0 Y

tal que
b =ψ
E(ψ)
es decir, ψb es estimador lineal insesgado de ψ.

Estas funciones paramétricas tienen la siguiente caracterización

Teorema 3.1.1
Sea ψ = a0 β una función paramétrica estimable asociada al modelo lineal Y = Xβ + .
Se verifica:

i) ψ es estimable si y sólo si el vector fila a0 es combinación lineal de las filas de X.

ii) Si ψ1 , . . . , ψq son funciones paramétricas estimables, entonces la combinación lineal

ψ = c1 ψ1 + · · · + cq ψq es también función paramétrica estimable.

iii) El número máximo de funciones paramétricas estimables linealmente independientes

es r = rango(X).

Demostración:

41
i) Sea ψb = b0 Y tal que E(ψ)
b = ψ. Entonces

a0 β = E(b0 Y) = b0 E(Y) = b0 Xβ

cualquiera que sea β, luego

a0 = b 0 X
lo que nos dice que a0 es combinación lineal de las filas de la matriz de diseño X.
Recı́procamente, si suponemos que b0 X = a0 , entonces basta tomar ψb = b0 Y como
estimador lineal insesgado de ψ.
ii) y iii) para el lector (ver ejercicio 3.4)

Observaciones:

1) Si rango X = m, entonces todos los parámetros βi y todas las funciones paramétri-

cas ψ son estimables, pues el subespacio generado por las filas de X coincide con
Rm .
2) Si rango X < m, pueden construirse funciones paramétricas que no son estimables.
3) Una caracterización algebraica de que ψ = a0 β es estimable viene dada por la
identidad
a0 (X0 X)− X0 X = a0
donde (X0 X)− representa una g-inversa de X0 X.
En efecto, consideremos las matrices

S = X0 X S− = (X0 X)− H = S− S

entonces se comprueba fácilmente que

H2 = H SH = S

Puesto que H es idempotente

rango H = traza H = rango S = rango X = r

Por otra parte tenemos

0 = S − SH = (Im − H)0 (S − SH) = (Im − H)0 (X0 X − X0 XH)

= (Im − H)0 (X0 (X − XH)) = (X − XH)0 (X − XH)

luego
X = XH
Entonces, si ψ = a0 β es estimable, a0 = b0 X y

a0 H = b0 XH = b0 X = a0

Recı́procamente, si a0 H = a0 , resulta que

a0 = a0 S− S = (a0 S− X0 )X = b0 X

siendo b0 = a0 S− X0 .

42
3.2. Teorema de Gauss-Markov
Vamos a ver en primer lugar que, cuando el rango de la matriz de diseño no es máximo
y, por tanto, la estimación MC de los parámetros no es única, la estimación de cualquier
función paramétrica estimable utilizando cualquiera de los estimadores MC sı́ es única.

Teorema 3.2.1
b es un estimador MC de β, entonces
Si ψ = a0 β una función paramétrica estimable y β
b 0b
el estimador ψ = a β de ψ es único.

Demostración:
Si ψ es una función paramétrica estimable, existe un estimador lineal insesgado
ψb = b0 Y
donde b es un vector n × 1. Consideremos el subespacio Ω = hXi de Rn generado por las
columnas de X. Podemos descomponer de forma única
e+c
b=b e∈Ω
b c⊥Ω
de modo que c es ortogonal a todo vector de Ω.
e 0 Y y veamos que es insesgado y que su valor es
Consideremos ahora el estimador lineal b
único.
ψ = E(ψ)b = E(b0 Y) = E(b e 0 Y) + E(c0 Y) = E(b
e 0 Y)
pues
E(c0 Y) = c0 E(Y) = c0 Xβ = 0β = 0
Supongamos que b∗ 0 Y es otro estimador insesgado para ψ y b∗ ∈ Ω. Entonces
e 0 Y) − E(b∗ 0 Y) = (b
0 = E(b e 0 − b∗ 0 )Xβ

luego
e 0 − b∗ 0 )X = 0
(b
lo que quiere decir que (be 0 − b∗ 0 ) es ortogonal a Ω. Como también pertenece a Ω, debe
e − b∗ = 0, es decir, b
ser b e = b∗ .
Por último, sabemos que e = Y − Xβ b es ortogonal a Ω, de manera que
e0e = b
0=b e0Y − b
e 0 Xβ
b
e 0 Y = b0 Xβ.
de modo que b b Además, sabemos que b
e 0 X = a0 , luego
e
ψb = a0 β

A continuación se demuestra la principal ventaja de la utilización de los estimadores MC.

Teorema 3.2.2 (Gauss-Markov)

b es un estimador MC de β, entonces
Si ψ = a0 β una función paramétrica estimable y β
ψb = a β
0 b es el estimador de varianza mı́nima en la clase de los estimadores lineales
1

insesgados de ψ.
1
BLUE: best linear unbiased estimate

43
Demostración:
Con la notación
kbk2 = b21 + · · · + b2n
tenemos que
var(b0 Y) = b21 σ 2 + · · · + b2n σ 2 = kbk2 σ 2
Si consideramos la descomposición de cualquier estimador insesgado de ψ que hemos
utilizado en el teorema anterior y dado que
e 2 + kck2
kbk2 = kbk

resulta
b = var(b
var(a0 β) e 0 Y) = kbk
e 2 σ 2 ≤ (kbk
e 2 + kck2 )σ 2 = var(b0 Y)

Observaciones:

1) Estos resultados son válidos incluso para un modelo lineal sin la hipótesis de nor-
malidad.

2) La estimación con varianza mı́nima es

ψb = a0 (X0 X)− X0 Y

3) Como la varianza de b0 Y es b0 bσ 2 , resulta que la varianza mı́nima es

b = var(a0 β)
var(ψ) b = σ 2 a0 (X0 X)− a

4) Utilizando la matriz de diseño reducida tenemos

ψb = a0 (X0 DX)− X0 DȲ

b = σ 2 a0 (X0 DX)− a
var(ψ)

De aquı́ deducimos que ψb es combinación lineal de las medias de las k condiciones

experimentales
ψb = c1 Ȳ1 + · · · + ck Ȳk = c0 Ȳ
donde c = (c1 , . . . , ck )0 es
c = DX(X0 DX)− a
Entonces !
k
X
b =
var(ψ) c2i /ni σ2 = δ2σ2
i=1

Por otra parte, todo estimador lineal insesgado ψb = b0 Y de ψ = a0 β se descompone como

hemos visto en
e 0 Y + c0 Y
b0 Y = b
Diremos que b e 0 Y (donde b
e es único) pertenece al espacio estimación y que c0 Y pertenece
al espacio error.

44
Más explı́citamente, la descomposición de b0 es
b0 = b0 P + b0 (I − P)
siendo P = X(X0 X)− X0 la matriz del operador que proyecta b en Ω = hXi (ver Apéndice
B). El vector proyectado es be 0 = b0 P. Asimismo, I − P es otro operador que proyecta b
e 0 c = 0, se verifica
en el espacio ortogonal a Ω. La proyección es c0 = b0 (I − P). Como b
e 0 Y, c0 Y) = 0
cov(b

Ası́ pues, todo estimador lineal insesgado b0 Y se descompone en

b0 Y = b0 PY + b0 (I − P)Y
donde b0 PY es el estimador de Gauss-Markov, mientras que b0 (I − P)Y tiene esperanza
cero y provoca un aumento de la varianza mı́nima del mejor estimador ψb = b0 PY.
Finalmente, observemos que
ψb = b0 PY = b0 X(X0 X)− X0 Y = b0 X(X0 X)− X0 Xβ
b=
(3.1)
= b0 XHβb = a0 β
b

Siendo H = (X0 X)− X0 X, que verifica XH = X, y siendo a0 = b0 X.

El aspecto geométrico de las estimaciones se puede resumir en el hecho que el espacio
muestral Rn al que pertenece el vector de observaciones Y, se descompone en
Rn = Ω + Ω ⊥
donde Ω representa el espacio estimación. Toda estimación de los parámetros de regresión
está ligada a Ω. Toda estimación de la varianza del modelo está ligada al espacio error
Ω⊥ . Ambos espacios son ortogonales y bajo el modelo lineal normal, como veremos más
adelante, ambas clases de estimaciones son estocásticamente independientes.

Ejemplo 3.2.1
Sea y1 , . . . , yn una muestra aleatoria simple procedente de una población N (µ, σ). El mo-
delo lineal asociado es    
y1 1
 ..   .. 
 .  =  . µ +
yn 1
P
El estimador MC de µ es µ b = (1/n) yi que también es de Gauss-Markov (centrado y
de varianza mı́nima).
En este caso Rn = Ω + Ω⊥ , siendo
Ω = h(1, . . . , 1)0 i
X
Ω⊥ = {(x1 , . . . , xn )0 | xi = 0}
P P
Sea a0 Y = ai yi otro estimador centrado de µ. Entonces E(a0 Y) = µ implica ai = 1.
Luego se verifica a = e a + b, es decir,
     
a1 1/n a1 − 1/n
 ..   ..   .. 
 . = . + . 
an 1/n an − 1/n

45
a ∈ Ω, b ∈ Ω⊥ . Es fácil ver que e
con e a0 b = 0. Además
X X X
ai yi = (1/n) yi + (ai − 1/n)yi

El primer término es estimador centrado y de varianza mı́nima σ 2 /n. El segundo término

verifica
X
E( (ai − 1/n)yi ) = 0
X X
cov(1/n yi , (ai − 1/n)yi ) = 0

La matriz del operador que proyecta a en Ω es

   
1 1/n . . . 1/n
   .. 
P = 1/n  ...  (1, . . . , 1) =  ... ...
. 
1 1/n . . . 1/n

siendo fácil ver que

a0 P = (1/n, . . . , 1/n)
a0 (I − P) = (a1 − 1/n, . . . , an − 1/n)

Ejemplo 3.2.2
Ver especialmente el final del ejemplo 5.3.2.

3.3. Varianza de la estimación y multicolinealidad

Sabemos que a0 β se dice estimable si tiene un estimador lineal insesgado b0 Y o, equiva-
lentemente, cuando a = X0 b. Es decir, cuando a es combinación lineal de las filas de la
matriz X.

Teorema 3.3.1
La función paramétrica a0 β es estimable si y sólo si

a ∈ hX0 i = hX0 Xi

Demostración:
Como sabemos, la función paramétrica a0 β es estimable si y sólo si a es combinación
lineal de las filas de X, es decir, cuando a ∈ hX0 i. De modo que sólo queda probar que

hX0 i = hX0 Xi

Pero X0 Xc = X0 d para d = Xc, de forma que hX0 Xi ⊂ hX0 i. Además, las dimensiones de
ambos subespacios son iguales ya que rg X0 = rg X0 X, de donde se deduce la igualdad.
Los detalles pueden verse en Seber [61, pág. 385].
En el apartado anterior hemos demostrado que para una función paramétrica estimable
b es el de mı́nima varianza. Pero, ¿cuanto vale esta varianza?
a0 β, su estimador MC a0 β

46
Supongamos que X0 X tiene como valores propios λ1 , . . . , λr todos positivos no nulos
asociados a los correspondientes vectores propios ortonormales v1 , . . . , vr , es decir
X0 Xvi = λi vi i = 1, . . . , r
y tales que vi0 vj = δij .
Si a0 β es estimable, entonces a ∈ hX0 Xi y este subespacio está generado por los vectores
propios. Ası́ pues, a se puede expresar en la forma
r
X
a= ci v i
i=1

Entonces
!
X
b = var
var(a0 β) b
ci vi0 β
i
X
= b
c2i var(vi0 β)
i
X
= σ2 c2i λ−1
i
i
ya que
cov(vi0 β, b = λ−1 λ−1 cov(v0 X0 Xβ,
b v0 β) b v0 X0 Xβ)
b
j i j i j
= (λi λj )−1 cov(vi0 X0 Y, vj0 X0 Y)
= (λi λj )−1 σ 2 vi0 X0 Xvj
= (λi λj )−1 σ 2 λj vi0 vj
= σ 2 λ−1
i δij

Silvey (1969) concluyó que es posible una estimación relativamente precisa en las direc-
ciones de los vectores propios de X0 X correspondientes a los mayores valores propios,
mientras que se obtienen unas estimaciones relativamente imprecisas (poco eficientes) en
las direcciones correspondientes a los valores propios más pequeños.
Supongamos que X tiene rango máximo pero que sus columnas están cerca de ser li-
nealmente dependientes. Entonces X0 X está cerca de ser singular (no inversible), en el
sentido que uno o varios de sus valores propios no nulos son excesivamente pequeños, casi
despreciables, y por lo que hemos visto las estimaciones en algunas direcciones serán muy
imprecisas.
La presencia de relaciones quasi lineales entre las variables regresoras se conoce en Eco-
nometrı́a con el nombre de multicolinealidad, cuya forma más extrema se presenta cuando
la matriz de datos X no tiene rango máximo. Este grave problema debe ser detectado
previamente a la estimación y se puede corregir de varias formas.
Una solución teórica consiste en minimizar o incluso erradicar la multicolinealidad, me-
diante la incorporación de nuevas observaciones en las direcciones de los vectores propios
con valores propios demasiado pequeños (o cero).
Supongamos que una nueva observación se añade al modelo Y = Xβ + y resulta

Y X
= β+
Yn+1 x0n+1 n+1
= X∗ β + ∗

47
donde xn+1 = cv, donde v es un vector propio normalizado de X0 X correspondiente a un
valor propio λ. Entonces se puede probar que v es también un vector propio de X0∗ X∗
correspondiente al valor propio λ + c2 . Y de esta forma Sylvey propuso un análisis para
la elección de las direcciones en las que es conveniente elegir nuevas observaciones para
mejorar la precisión de las estimaciones de un a0 β particular.

3.4. Sistemas de funciones paramétricas estimables

Consideremos un sistema de funciones paramétricas estimables

ψ1 = a01 β, . . . , ψq = a0q β

sobre el mismo modelo lineal normal y donde los vectores a1 , . . . , aq (q ≤ r = rango X)

son linealmente independientes. Para cada una, tenemos las correspondientes estimaciones
de Gauss-Markov
ψbi = a0i β
b i = 1, . . . , q
que podemos condensar matricialmente en la forma
b = (ψb1 , . . . , ψbq )0 = Aβ
ψ b

donde  
a01
 
A =  ... 
a0q
b es el conjunto de estimadores MC del sistema de funciones paramétri-
Con esta matriz, ψ
cas ψ = Aβ.

Teorema 3.4.1
b = Aβ
Bajo el modelo lineal normal, el conjunto de estimadores ψ b del sistema de funciones
paramétricas ψ = Aβ verifica:
b sigue la distribución normal multivariante
i) ψ

b ∼ Nq (ψ, Σψ )
ψ

donde ψ = Aβ es el vector de medias y

Σψ = σ 2 A(X0 X)− A0

es la matriz de varianzas-covarianzas.

ii) Toda función paramétrica estimable es estocásticamente independiente de la suma

de cuadrados residual
SCR = (Y − Xβ) b 0 (Y − Xβ)
b
b = Aβ
En particular, ψ b es estocásticamente independiente de SCR.

Demostración:

48
b es una combinación lineal de variables normales indepen-
i) Es consecuencia de que ψ
dientes:
ψbi = a0i (X0 X)− X0 Y
luego si
A(X0 X)− X0 = C
b = ψ y la matriz de covarianzas de CY es Σ = σ 2 CC0 , de
sabemos que E(ψ)
manera que
Σψ = σ 2 CC0 = σ 2 A(X0 X)− X0 X(X0 X)− A0 = σ 2 A(X0 X)− A0

ii) Como en el teorema 2.5.1, consideremos la transformación ortogonal

Z = V0 Y
donde las primeras r columnas de la matriz ortogonal V generan el subespacio
Ω = hXi. Entonces las variables z1 , . . . , zn son normales e independientes, y toda
estimación de Gauss-Markov es una combinación lineal de
z1 , . . . , z r
puesto que pertenece al espacio estimación. Sin embargo, la suma de cuadrados
residual es
2
SCR = zr+1 + · · · + zn2
b
y, por tanto, será estocásticamente independiente de cualquier estimación ψbi = a0i β.
Esto mismo se puede deducir de la expresión 3.1 ya que ψ b = BPY, mientras que

SCR = Y 0 (I − P)Y = ((I − P)Y)0 (I − P)Y

donde (I − P)Y pertenece al espacio ortogonal de Ω.

Teorema 3.4.2
La distribución de U = (Aβb − Aβ)0 (σ 2 A(X0 X)− A0 )−1 (Aβ
b − Aβ) es una χ2 .
q
Además, U es estocásticamente independiente de SCR/σ 2 cuya distribución es χ2n−r .

Demostración:
Es consecuencia de las propiedades de la distribución normal multivariante y de los teo-
remas 2.5.1 y 3.4.1.
Dos resultados importantes que se deducen de los teoremas anteriores son:

a) Para el modelo lineal normal y el sistema de q funciones paramétricas estimables

ψ = Aβ se verifica que la distribución de
b − Aβ)0 (A(X0 X)− A0 )−1 (Aβ
(Aβ b − Aβ)/q
F = (3.2)
SCR/(n − r)
es una F con q y n − r grados de libertad, ya que se trata de un cociente de dos
χ2 independientes divididas por sus grados de libertad respectivos. Observemos la
desaparición del parámetro σ 2 desconocido.

49
b) En el caso q = 1, si ψb es la estimación de Gauss-Markov de ψ, entonces ψb ∼
N (ψ, σψb), siendo
σψ2b = a0 (X0 X)− a σ 2 = δ 2 σ 2
luego la distribución de
ψb − ψ √
t= √ n−r (3.3)
δ 2 SCR
es la de una t de Student con n − r grados de libertad. Este resultado se puede
establecer directamente o a partir de 3.2 ya que F1,n−r = t2n−r .

3.5. Intervalos de confianza

by
Consideremos una función paramétrica estimable ψ = a0 β, su estimación MC ψb = a0 β
sea tα tal que
P (−tα < t < tα ) = 1 − α
para una distribución t de Student con n − r grados de libertad. Entonces, de la distri-
bución 3.3 deducimos que
!
ψb − ψ √
P −tα < √ n − r < tα = 1 − α
δ 2 SCR

y despejando obtenemos
r r !
δ 2 SCR δ 2 SCR
P ψb − tα < ψ < ψb + tα =1−α
n−r n−r

Por lo tanto r r
δ 2 SCR δ 2 SCR
ψb − tα < ψ < ψb + tα
n−r n−r
es decir
b ± tα [a0 (X0 X)− a σ
a0 β b2 ]1/2 (3.4)
es un intervalo de confianza para la función paramétrica estimable ψ = a0 β, con coeficiente
de confianza 1 − α.
Por otra parte, como SCR/σ 2 sigue una χ2n−r tenemos

P (a < SCR/σ 2 < b) = 1 − α

donde a y b son tales que

P (χ2n−r ≤ a) = α/2 P (χ2n−r > b) = α/2

Deducimos entonces que

SCR SCR
P < σ2 < =1−α (3.5)
b a

define un intervalo de confianza para la varianza σ 2 del modelo lineal normal, con coefi-
ciente de confianza 1 − α.

50
3.6. Ejercicios
Ejercicio 3.1
Sea ψ una función paramétrica estimable y ψb1 , ψb2 dos estimadores insesgados, estocásti-
camente independientes, de varianzas σ12 y σ22 . Hallar la combinación lineal de ψb1 , ψb2 cuya
varianza es mı́nima y además es insesgado.

Ejercicio 3.2
En un modelo lineal, la matriz de diseño es
 
1 1 1 1 1
 1 0 1 0 0 
 
 1 1 1 0 0 
1 0 1 1 1
Hallar la expresión general de las funciones paramétricas estimables.

Ejercicio 3.3
Probar que
ψb = b0 Y b = ψ = a0 β
E(ψ)
siendo b combinación lineal de las columnas de X, implica que a es combinación lineal
de las filas de X.

Ejercicio 3.4
Probar que toda combinación lineal de funciones paramétricas estimables es también fun-
ción paramétrica estimable y que r = rg X es el número máximo de funciones linealmente
independientes.

Ejercicio 3.5
Si ψb es la estimación de Gauss-Markov, probar que la expresión
ψb = c1 ȳ1 + · · · + ck ȳk
función de las medias de las condiciones experimentales, es única.

Ejercicio 3.6
La matriz de diseño reducida correspondiente a un modelo lineal normal es
 
1 0 1
X= 1 1 0 
0 −1 1
Se sabe además que
ȳ1 = 11 ȳ2 = 10 ȳ3 = 15
n1 = n2 = n3 = 10
Xn1
s21 = (1/n1 ) (yi − ȳ1 )2 = 4,5
i=1
s22 = 6,0 s23 = 4,3
Se pide

51
1) Hallar la expresión general de las estimaciones MC de β.

2) Calcular SCR. ¿Se ajustan los datos al modelo definido por X? (nivel de significación
0,05)

3) Dada la función paramétrica estimable

ψ = β 1 + β3

contrastar la hipótesis H0 : ψ = 3 en los casos:

a) σ 2 varianza del diseño desconocida

b) σ 2 = 5 varianza del diseño conocida

(nivel de significación 0,05)

4) Hallar la función paramétrica estimable ψ tal que

ψb = c1 ȳ1 + c2 ȳ2 + c3 ȳ3

verifica c21 + c22 + c23 = 1 y además ψb es máximo.

Ejercicio 3.7
Consideremos el modelo lineal

y1 = β 1 + β 2 + 1
y2 = β 1 + β 3 + 2
y3 = β 1 + β 2 + 3

Se pide:

1) ¿Es la función paramétrica

ψ = β 1 + β2 + β3
estimable?

2) Probar que toda función paramétrica

ψ = a 1 β1 + a 2 β2 + a 3 β3

es estimable si y sólo si a1 = a2 + a3 .

Ejercicio 3.8
Consideremos el modelo lineal
y1 = µ + α 1 + β 1 + 1
y2 = µ + α 1 + β 2 + 2
y3 = µ + α 2 + β 1 + 3
y4 = µ + α 2 + β 2 + 4
y5 = µ + α 3 + β 1 + 5
y6 = µ + α 3 + β 2 + 6

52
(a) ¿Cuando es λ0 µ + λ1 α1 + λ2 α2 + λ3 α3 + λ4 β1 + λ5 β2 estimable?
(b) ¿Es α1 + α2 estimable?
(c) ¿Es β1 − β2 estimable?
(d) ¿Es µ + α1 estimable?
(e) ¿Es 6µ + 2α1 + 2α2 + 2α3 + 3β1 + 3β2 estimable?
(f) ¿Es α1 − 2α2 + α3 estimable?
(g) Hallar la covarianza entre los estimadores lineales MC de las funciones paramétricas
β1 − β2 y α1 − α2 , si éstas son estimables.
(h) Hallar la dimensión del espacio paramétrico.
(i) Obtener una expresión del espacio de los errores.

Ejercicio 3.9
Cuatro objetos A, B, C, D están involucrados en un experimento de pesado. Todos reu-
nidos pesan y1 gramos. Cuando A y C se ponen en el plato izquierdo de la balanza y B
y D se ponen en el plato derecho, un peso de y2 gramos es necesario en el plato derecho
para equilibrar la balanza. Con A y B en el plato izquierdo y C, D en el plato derecho,
y3 gramos son necesarios en el plato derecho y, finalmente, con A, D en el plato izquierdo
y B, C en el plato derecho, y4 gramos son necesarios en la derecha para equilibrar. Si las
observaciones y1 , y2 , y3 , y4 son todas con errores incorrelacionados y con varianza común
σ 2 , obtener la estimación BLUE del peso total de los cuatro objetos y su varianza.

Ejercicio 3.10
Con el modelo lineal
y1 = θ1 + θ5 + 1
y2 = θ2 + θ5 + 2
y3 = θ3 + θ6 + 3
y4 = θ4 + θ6 + 4
y5 = θ1 + θ7 + 5
y6 = θ3 + θ7 + 6
y7 = θ2 + θ8 + 7
y8 = θ4 + θ8 + 8
contestar las siguientes preguntas:

(a) ¿Cuantas funciones paramétricas son estimables? Obtener el conjunto completo de

todas ellas.
(b) Probar que θ1 − θ2 es estimable. Calcular su estimador lineal MC y su varianza.
(c) Probar que θ1 + θ2 no es estimable.
(d) Hallar cuatro estimadores insesgados diferentes de θ1 − θ2 y calcular sus varianzas.
Compararlas con la varianza del estimador MC.

53
(e) Hallar un estimador insesgado de la varianza de los errores σ 2 .

Ejercicio 3.11
Diremos que el estimador lineal b0 Y pertenece al espacio error si E(b0 Y) = 0. Probar
que la covarianza entre b0 Y y todo estimador de Gauss-Markov ψb = a0 β es siempre cero.

Ejercicio 3.12
Consideremos el modelo lineal normal Y = Xβ + , siendo rg X = r. Sea X = U∆V 0
una descomposición en valores singulares de X. Se pide:

1) Expresar la estimación MC de β en términos de U, ∆, V y Y.

2) Sea ψ = a0 β una función paramétrica. Probar que ψ es estimable si y sólo si se

verifica
a0 = b 0 V 0
para algún vector b.

54
Capı́tulo 4

Complementos de estimación

En este capı́tulo se presentan algunas extensiones del método de los mı́nimos cuadrados.
Estos complementos no son estrictamente necesarios para continuar con el desarrollo de
la teorı́a de los modelos lineales y, en particular, para el contraste de hipótesis que se
explica en el capı́tulo 5. En una primera lectura de este libro se puede pasar directamente
a ese capı́tulo.

4.1. Ampliar un modelo con más variables regresoras

4.1.1. Una variable extra
Supongamos que después de ajustar el modelo lineal

E(Y) = Xβ var(Y) = σ 2 I

decidimos introducir una nueva variable regresora con las mismas observaciones que ya
tenı́amos.
Sean x(i) , i = 1, . . . , m las columnas de la matriz X n × m de rango m de modo que

E(Y) = Xβ = (x(1) , . . . , x(m) )β = x(1) β1 + · · · + x(m) βm

La inclusión de la nueva variable regresora x(m+1) proporciona un modelo ampliado

G : E(Y) = x(1) β1 + · · · + x(m) βm + x(m+1) βm+1 = Xβ + x(m+1) βm+1 = Gγ

donde la matriz G = (x(1) , . . . , x(m) , x(m+1) ) es n × (m + 1) de rango m + 1.

Para hallar la estimación de los m+1 parámetros γ = (β1 , . . . , βm , βm+1 )0 podemos hacerlo
directamente como

b G = (G0 G)−1 G0 Y
γ γ G ) = σ 2 (G0 G)−1
var(b

o a partir del modelo original que ya hemos resuelto. Vamos a ver el desarrollo de esta
segunda opción que proporciona unos cálculos más simples.
Partimos de las ecuaciones normales del modelo ampliado G0 Gbγ G = G0 Y que podemos
descomponer ası́
b G + X0 x(m+1) βbm+1 = X0 Y
X0 Xβ
b G + x0
x0(m+1) Xβ b 0
(m+1) x(m+1) βm+1 = x(m+1) Y

55
De la primera ecuación tenemos
b G = (X0 X)−1 X0 (Y − x(m+1) βbm+1 ) = β
β b − f βbm+1 (4.1)

donde f = (X0 X)−1 X0 x(m+1) , y sustituyendo en la segunda

x0(m+1) x(m+1) βbm+1 = x0(m+1) Y − x0(m+1) X(X0 X)−1 X0 (Y − x(m+1) βbm+1 )

es decir

x0(m+1) (I − X(X0 X)−1 X0 )x(m+1) βbm+1 = x0(m+1) (I − X(X0 X)−1 X0 )Y

de manera que

βbm+1 = [x0(m+1) (I − P)x(m+1) ]−1 x0(m+1) (I − P)Y = gx0(m+1) (I − P)Y (4.2)

donde g = [x0(m+1) (I − P)x(m+1) ]−1 es un escalar.

Observemos que ahora este resultado se puede sustituir en la ecuación 4.1 de modo que
b G queda determinado.
β
Por otra parte
b G − x(m+1) βbm+1 = Y − X(X0 X)−1 X0 (Y − x(m+1) βbm+1 ) − x(m+1) βbm+1
Y − Xβ
= (I − X(X0 X)−1 X0 )(Y − x(m+1) βbm+1 )
= (I − P)(Y − x(m+1) βbm+1 )
de manera que la suma de cuadrados de los residuos para el modelo ampliado es
γ G )0 (Y − Gb
SCRG = (Y − Gb γ G)
b G − x(m+1) βbm+1 )0 (Y − Xβ
= (Y − Xβ b G − x(m+1) βbm+1 )
= (Y − x(m+1) βbm+1 )0 (I − P)(Y − x(m+1) βbm+1 )
ya que I − P es simétrica e idempotente.
Si desarrollamos esta expresión se obtiene

SCRG = Y0 (I − P)Y − Y 0 (I − P)x(m+1) βbm+1

− x0 (I − P)Y βbm+1 + x0
(m+1) (I − P)x(m+1) βb2
(m+1) m+1

= Y0 (I − P)Y − x0(m+1) (I − P)Y βbm+1

− [x0(m+1) (I − P)Y − x0(m+1) (I − P)x(m+1) βbm+1 ]βbm+1

y por 4.2 resulta

SCRG = SCR − x0(m+1) (I − P)Y βbm+1 (4.3)
En cuanto a las varianzas y covarianzas de los estimadores se tiene lo siguiente: A partir
de la ecuación 4.2 tenemos

var(βbm+1 ) = σ 2 (x0(m+1) (I − P)x(m+1) )−1 = σ 2 g

Además
b βbm+1 ) = cov[(X0 X)−1 X0 Y, gx0
cov(β, (m+1) (I − P)Y]

= σ 2 g(X0 X)−1 X0 (I − P)x(m+1) = 0

56
b y βbm+1
ya que X0 (I − P) = 0. Esto permite calcular la covarianza entre β G

b G , βbm+1 ) = cov[β
cov(β b − f βbm+1 , βbm+1 ]
b βbm+1 ) − f var(βbm+1 )
= cov(β,
= 0 − f σ2g

Finalmente
b G ) = var(β
var(β b − f βbm+1 )
b − 2cov(β,
= var(β) b f βbm+1 ) + var(f βbm+1 )
= var(β)b − 2cov(β,b βbm+1 )f 0 + f var(βbm+1 )f 0
= σ 2 [(X0 X)−1 + gff 0 ]

En resumen
2 (X0 X)−1 + gff 0 −gf
var(b
γ G) = σ (4.4)
−gf 0 g
donde g = [x0(m+1) (I − P)x(m+1) ]−1 y f = (X0 X)−1 X0 x(m+1) .
En consecuencia, las fórmulas 4.1, 4.2, 4.3 y 4.4 demuestran que es posible calcular todos
los elementos del modelo ampliado a partir del modelo original, mediante productos de
matrices en los que interviene únicamente la matriz (X0 X)−1 original.

4.1.2. Una interpretación

Partimos del modelo

Y = Xβ + E() = 0, var() = σ 2 I (4.5)

donde X = (x(1) , . . . , x(m) ) y β = (β1 , . . . , βm )0 , y queremos ampliar el modelo con una

nueva variable regresora para llegar al modelo

G : Y = Xβ + x(m+1) βm+1 + G = Gγ + G (4.6)

donde G = (x(1) , . . . , x(m) , x(m+1) ) y γ = (β1 , . . . , βm , βm+1 )0 .

b la estimación MC en el modelo original, de forma que
Consideremos β
b +e
Y = Xβ (4.7)

donde e es el vector de residuos o parte de Y no explicada linealmente por X.

Sea b
c la estimación MC en el modelo lineal x(m+1) = Xc + m+1 , de forma que

x(m+1) = Xb
c + em+1 (4.8)

donde el vector de residuos em+1 representa la parte de x(m+1) no explicada linealmente

por las variables anteriores.
Consideremos ahora la regresión lineal simple de (parte de Y no explicada por X) con
m+1 (parte de x(m+1) independiente de X)

e = em+1 db + e∗ (4.9)

57
Teorema 4.1.1 Si consideramos las estimaciones MC que se han calculado en las ecua-
ciones 4.7, 4.8 y 4.9, resulta que la estimación MC de βm+1 en el modelo ampliado 4.6 es
βbm+1 = d.
b

Demostración:
Si sustituimos 4.9 en la ecuación 4.7, se obtiene
b + em+1 db + e∗ = Xβ
Y = Xβ b + (x(m+1) − Xb
c)db + e∗

La solución MC del modelo ampliado es

b G + x(m+1) βbm+1 + eG
Y = Xβ

bG = β
donde β b − (X0 X)−1 X0 x(m+1) βbm+1 como hemos visto en 4.1. De forma que

b + (x(m+1) − X(X0 X)−1 X0 x(m+1) )βbm+1 + eG

Y = Xβ

c = (X0 X)−1 X0 x(m+1) , de manera que

Pero por 4.8 sabemos que b

b + (x(m+1) − Xb
Y = Xβ c)βbm+1 + eG

y entonces βbm+1 = db y eG = e∗ .
En el gráfico se dibuja la consecuencia de añadir a un modelo con una variable regresora
x1 una nueva variable x2 .

En este gráfico tenemos los siguientes datos:

ED = em+1 c AB = em+1 db OB = x1 βb
OD = x1b

de forma que

ED||AB BC ⊥ OB ED ⊥ OD AB ⊥ OB AC ⊥ OA

y en especial
b =−
Y
−→ −→
OB + AB
Como conclusión podemos decir que cualquier coeficiente estimado βbi puede interpretarse
como la pendiente de la recta que relaciona los residuos de la regresión de Y respecto a

58
todas las otras variables, es decir, la parte de Y no explicada por el resto de las variables
regresoras, con la aportación diferencial de xi o parte de xi no común con las demás
variables regresoras que se obtiene tomando el residuo de la regresión de xi sobre las
restantes x.
Observemos que cuando x(m+1) es independiente de X el paso 4.8 no es posible. En esta
situación
Y = Xβ b +e
e = x(m+1) βbm+1 + eG
de modo que la solución del modelo ampliado es
b + x(m+1) βbm+1 + eG
Y = Xβ

Esto significa que si excluimos del modelo variables regresoras independientes, esto no
afecta a la estimación de los parámetros βi , pero si excluimos variables relevantes esto
afecta considerablemente a las estimaciones.

4.1.3. Más variables

Supongamos que después de ajustar el modelo lineal
E(Y) = Xβ var(Y) = σ 2 I
decidimos introducir un grupo de variables regresoras. El modelo es ahora

β
G : E(Y) = Xβ + Zδ = X Z = Wγ
δ
y vamos a suponer que las matrices son de rango máximo, de forma que X es n × m de
rango m, Z es n × t de rango t, y las columnas de Z son linealmente independientes de
las columnas de X, de forma que W es n × (m + t) de rango m + t.
b G de γ, podemos hacerlo a partir
Si queremos hallar el estimador mı́nimo cuadrático γ
del modelo completo G
b G = (W0 W)−1 W0 Y
γ γ G ) = σ 2 (W0 W)−1
var(b
o reducir los cálculos utilizando los resultados del modelo inicial. El siguiente teorema
resume las principales propiedades de esta segunda propuesta.

59
Teorema 4.1.2
Consideremos las matrices P = X(X0 X)−1 X0 , PG = W(W0 W)−1 W0 , L = (X0 X)−1 X0 Z,
M = (Z0 (I − P)Z)−1 y el vector !
bG
β
bG =
γ bG
δ
Entonces,
b G = (X0 X)−1 X0 (Y − Zδ
(i) β bG ) = β
b − Lδ
bG

bG = (Z0 (I − P)Z)−1 Z0 (I − P)Y

(ii) δ
bG )0 (I − P)(Y − Zδ
(iii) SCRG = Y0 (I − PG )Y = (Y − Zδ bG )

b0 Z0 (I − P)Y
(iv) SCRG = SCR − δ G

(v)
2 (X0 X)−1 + LML0 −LM
var(b
γ G) = σ
−ML0 M

Demostración:
Se puede reseguir sin mayor dificultad todos los cálculos que hemos realizado en el aparta-
do anterior. El único detalle importante es que debe demostrarse que la matriz Z0 (I−P)Z
es inversible. Este resultado y los detalles de la demostración pueden verse en Seber [61,
pág. 65].
0
A partir de estas fórmulas se deduce que, una vez invertida la matriz X X, podemos hallar
b G y su matriz de varianzas-covarianzas var(b
γ γ G ) simplemente invirtiendo Z0 (I − P)Z t × t
y no se necesita calcular la inversa de la matriz W 0 W (m + t) × (m + t).
Estos resultados se pueden utilizar de diversas formas en modelos de Análisis de la Va-
rianza y de Análisis de la Covarianza. Para introducir un grupo de variables en un modelo
de regresión es mejor hacerlo de una en una, lo que se llama regresión paso a paso.

4.2. Mı́nimos cuadrados generalizados

Hasta este momento se ha presentado la teorı́a de los modelos lineales Y = Xβ + con
la asunción de las hipótesis E() = 0 y var() = σ 2 I. Vamos ahora a estudiar lo que
ocurre cuando permitimos a los i ser correlacionados. En particular, vamos a considerar
el modelo lineal más general

Y = Xβ + E() = 0, var() = σ 2 V (4.10)

donde V es una matriz n × n definida positiva con valores plenamente conocidos.

Dado que V es definida positiva, existe una matriz n × n K no singular tal que V = KK0
y con la que podemos transformar el modelo anterior

K−1 Y = K−1 Xβ + K−1

(4.11)
Z = Bβ + η

60
donde B es n × r, rgB = rgX y además
E(η) = K−1 E() = 0
var(η) = σ 2 K−1 V(K−1 )0 = σ 2 I
de forma que el modelo 4.11 verifica las condiciones del modelo lineal ordinario. Ası́ es
posible calcular el estimador MC de β que minimiza η 0 η.

Definición 4.2.1
Un estimador β ∗ es un estimador MCG de β para el modelo 4.10 si y sólo si β ∗ es un
estimador MC ordinario para el modelo 4.11. En el caso particular de que la matriz V
sea diagonal se llama MC ponderado.
En consecuencia, un estimador MCG β ∗ de β satisface la ecuación
B(B0 B)− B0 Z = Bβ ∗
K−1 X((K−1 X)0 K−1 X)− (K−1 X)0 K−1 Y = K−1 Xβ ∗
X(X0 V−1 X)− X0 V−1 Y = Xβ ∗
Como un estimador MCG es simplemente un estimador MC ordinario del modelo trans-
formado, es de esperar que tenga las mismas propiedades óptimas.
Propiedades

(a) Si X es de rango máximo, la estimación MC se puede obtener de las ecuaciones

normales
β ∗ = (B0 B)−1 B0 Z = (X0 V−1 X)−1 X0 V−1 Y
con las siguientes propiedades
E(β ∗ ) = (X0 V−1 X)−1 X0 V−1 (Xβ) = β
var(β ∗ ) = σ 2 (B0 B)−1 = σ 2 (X0 V−1 X)−1
SCR = (Z − Bβ ∗ )0 (Z − Bβ ∗ ) = (Y − Xβ ∗ )0 V−1 (Y − Xβ ∗ )

(b) Una función paramétrica a0 β es estimable en el modelo 4.10 si y sólo si es estimable

en el modelo 4.11.
En efecto, si a0 β es estimable en el modelo 4.10 podemos escribir
a0 = b0 X = (b0 K)K−1 X = c0 B
luego también es estimable en el modelo 4.11.
Si a0 β es estimable en el modelo 4.11, entonces
a0 = c0 B = c0 K−1 X = (c0 K−1 )X = b0 X
luego es estimable en el modelo 4.10.
(c) Para una f.p.e. a0 β, el estimador MCG es el mejor estimador lineal, en el sentido
de insesgado y de varianza mı́nima, y además es único.
Aplicando el teorema 3.2.1 de Gauss-Markov al modelo 4.11, sabemos que a0 β ∗ es
el estimador lineal insesgado y de mı́nima varianza entre todas las combinaciones
lineales del vector K−1 Y. Sin embargo, cualquier combinación lineal de Y se puede
obtener de K−1 Y porque K−1 es inversible. Luego el estimador MCG es el mejor.
También por una propiedad anterior sabemos que es único.

61
Para un modelo de rango no máximo y en el caso ordinario hemos visto que un estimador
b donde P es el operador proyección ortogonal sobre
debe verificar la ecuación PY = Xβ,
el subespacio hXi. Veamos una propiedad similar en el caso generalizado.

Teorema 4.2.1
Un estimador MCG β ∗ en el modelo 4.10 verifica la ecuación AY = Xβ ∗ donde A =
X(X0 V−1 X)− X0 V−1 es una matriz idempotente pero no, en general, simétrica.

Demostración:
Se trata de probar que A es una especie de operador proyección sobre hXi aunque no
necesariamente ortogonal.
Por la definición de estimador MCG ya hemos visto que

X(X0 V−1 X)− X0 V−1 Y = AY = Xβ ∗

Es fácil ver que AA = A de manera que A es idempotente y no necesariamente simétrica,

veamos ahora que A es un operador proyección sobre hXi, en el sentido de que hAi = hXi
de modo que AY ∈ hXi.
La proyección ortogonal sobre hK−1 Xi es

K−1 X[(K−1 X)0 (K−1 X)]− (K−1 X)0

Por la definición de proyección se verifica

K−1 X[(K−1 X)0 (K−1 X)]− (K−1 X)0 K−1 X = K−1 X

K−1 AX = K−1 X
AX = X

y en consecuencia hXi ⊂ hAi. Pero también tenemos que

A = X[(X0 V−1 X)− X0 V−1 ]

y por tanto hAi ⊂ hXi.

∗
Para una función paramétrica estimable a0 β con a0 = b0 X, el estimador MCG es a0 β =
b0 AY. Vamos a calcular su varianza.
En primer lugar

var(Xβ ∗ ) = var(AY) = σ 2 AVA0

= σ 2 AV
= σ 2 X(X0 V−1 X)− X0

de forma que si a0 β es estimable

var(a0 β ∗ ) = σ 2 a0 (X0 V−1 X)− a

También es necesario obtener un estimador para σ 2 .

A partir del modelo 4.11

SCR = (K−1 Y)0 [I − K−1 X((K−1 X)0 (K−1 X))− ]K−1 Y

= Y0 (I − A)0 V−1 (I − A)Y

62
y como rg(K−1 X) = rg(X), tenemos

σb2 = Y0 (I − A)0 V−1 (I − A)Y/(n − r)

Además, cuando asumimos la hipótesis de normalidad ∼ N (0, σ 2 V) se verifican otras

propiedades también heredadas del caso ordinario. En especial, cualquier estimador MCG
de β es de máxima verosimilitud. También, para cualquier función estimable a0 β el esti-
mador MCG es insesgado de varianza mı́nima.
En cuanto a las distribuciones asociadas, si tiene distribución normal, la SCR es inde-
pendiente de K−1 Xβ ∗ , ya que cov(Bβ ∗ , Z − Bβ ∗ ) = 0, y en consecuencia independiente
de Xβ ∗ .
Es evidente que Xβ ∗ se distribuye normalmente y se demuestra que SCR/σ 2 ∼ χ2 .
Ası́ pues, para una función paramétrica estimable a0 β

a0 β ∗ − a 0 β
∼ tn−r
[σb2 a0 (X0 V−1 X)a]1/2

lo que se puede utilizar para el cálculo de intervalos de confianza de a0 β o en contrastes

de hipótesis.
Por último nos podemos preguntar si la estimación generalizada β ∗ puede coincidir con
la ordinaria βb y en qué circunstancias. La respuesta es que ambas estimaciones coinciden
si y sólo si hV−1 Xi = hXi que es equivalente a hVXi = hXi. La demostración puede
verse en [61, pág. 63].

4.3. Otros métodos de estimación

4.3.1. Estimación sesgada
Dado el modelo lineal ordinario Y = Xβ + , donde E() = 0 y var() = σ 2 I, sabemos
que el estimador MC a0 βb es el estimador insesgado de varianza mı́nima para una f.p.e. a0 β
cuando tiene distribución normal, y el estimador lineal insesgado de varianza mı́nima
sin la hipótesis de normalidad. Pero el hecho de ser un estimador de varianza mı́nima
no garantiza que ésta sea realmente pequeña. Ya hemos visto en el apartado 3.3 cómo se
calcula dicha varianza en función de los valores propios de la matriz X0 X y una posible
solución propuesta por Silvey. Veamos ahora otra propuesta cuando en un modelo de
rango máximo, X0 X está cerca de la singularidad, es decir, cuando uno o más de sus
valores propios son casi cero.
Consideremos la llamada varianza total de los estimadores de los parámetros en un modelo
m
X m
X
var(βbi ) = σ 2 tr[(X0 X)−1 ] = σ 2 λ−1 2 −1
i > σ λm
i=1 i=1

donde λm > 0 es el más pequeño de los valores propios de X0 X. En la práctica, aunque la

matriz X sea de rango máximo, puede ocurrir que λm sea muy pequeño y en consecuencia
provocar que la varianza total sea muy grande.

63
Para solucionar este problema Hoerl y Kennard (1970) introducen los ridge estimators

e (k) = (X0 X + kI)−1 X0 Y

β
= (X0 X + kI)−1 X0 Xβb
b
= (I + k(X0 X)−1 )−1 β
b
= Kβ

e es un estimador sesgado
donde k ≥ 0 es un escalar a elegir de forma que, si no es cero, β (k)
de β.
Las principales razones para la utilización de estos estimadores son:
e (k) y de sus correspondientes SCR al variar k
Los gráficos de los componentes de β
permiten estudiar la enfermedad de X.

Es posible elegir un valor de k tal que los coeficientes de regresión tengan valores
razonables y la SCR no sea muy grande.

Se ha demostrado que es posible hallar un k que, por un pequeño incremento del

sesgo, reduce la varianza total y, en consecuencia, el error cuadrático medio total.

El estudio de generalizaciones de estos estimadores y sus propiedades ha tenido bastante

éxito.

4.3.2. Estimación robusta

En el capı́tulo anterior se ha demostrado que, mientras se verifique la hipótesis de nor-
malidad para las observaciones, los estimadores obtenidos por el método de los mı́nimos
cuadrados gozan de muy buenas propiedades. Sin embargo también se han estudiado los
resultados cuando las observaciones siguen distribuciones distintas de la normal y se ha
constatado que el método de los mı́nimos cuadrados falla en muchos aspectos. En estos
casos, una posibilidad es la utilización de estimadores robustos de localización.
P
Otra alternativa es minimizar i |i | con respecto a β. Este es un problema de minimi-
zación de una norma L1 que se puede reducir a un problema de programación lineal y a
un procedimiento similar al método del simplex, aunque la solución no siempre es úni-
ca y algunos de los algoritmos proporcionan estimadores sesgados. Otros procedimientos
iterativos propuestos no tienen resuelta la cuestión de la convergencia y el sesgo.

4.3.3. Más posibilidades

También se ha estudiado el problema de la estimación mı́nimo cuadrática sujeta a las
restricciones βi ≥ 0, i = 1, . . . , m.
Por otra parte, en algunos problemas de regresión, los datos de la variable respuesta
pueden ser censurados, es decir, los valores de algunas observaciones sólo se conocen si
son superiores (o inferiores) a algún valor dado. Esto se suele producir en problemas
donde la variable observada es el tiempo de vida. En estos casos el método clásico de los
mı́nimos cuadrados no sirve y se han estudiado otros procedimientos.

64
Capı́tulo 5

Contraste de hipótesis lineales

5.1. Hipótesis lineales contrastables

Consideremos el modelo lineal Y = Xβ + , donde E(Y) = Xβ y var(Y) = σ 2 I.
Una hipótesis lineal consiste en una o varias restricciones lineales planteadas sobre los
parámetros β. En un diseño de rango máximo rg X = m vamos a ver que cualquier
hipótesis lineal es contrastable (testable o demostrable), es decir, es posible encontrar un
estadı́stico (el test F del teorema 5.3.1) mediante el cual podemos decidir si se rechaza o
acepta la hipótesis. Si rg X = r < m, entonces pueden existir hipótesis estadı́sticamente
no contrastables.

Definición 5.1.1
Una hipótesis lineal de rango q sobre los parámetros β es un conjunto de restricciones
lineales
ai1 β1 + · · · + aim βm = 0 i = 1, . . . , q
Si escribimos la matriz de la hipótesis como
 
a11 · · · a1m
 .. 
A =  ... . . . .  rg A = q
aq1 · · · aqm

entonces las restricciones se resumen en

H0 : Aβ = 0

Una hipótesis se dice que es contrastable o demostrable si el conjunto Aβ es un sistema

de funciones paramétricas estimables. Entonces, las filas de A son combinación lineal de
las filas de la matriz de diseño X, es decir, que existe una matriz B de tamaño q × n tal
que
A = BX
También B puede ser q × k si consideramos la matriz de diseño reducida X R k × m.

Cuando X no es de rango máximo, un conjunto de restricciones Aβ = 0 donde las

filas de A son linealmente independientes de las filas de X no forman una alternativa al
modelo general, en el sentido de un modelo más sencillo. En realidad son restricciones que
permiten identificar mejor las estimaciones indeterminadas que resultan de las ecuaciones

65
normales. Por ello exigimos que las filas de A sean linealmente dependientes de las filas de
X y que el rango de la matriz A q × m sea q. De hecho, cualquier ecuación a0i β = 0 para
la que a0i sea linealmente independiente de las filas de X puede ignorarse y la hipótesis
contrastable estará formada por el resto de las ecuaciones.
Una caracterización para saber si una hipótesis lineal es contrastable es

A(X0 X)− X0 X = A

Este resultado es una generalización del que se ha demostrado en la página 42 para una
función paramétrica estimable (ver ejercicio 5.3).

5.2. El modelo lineal de la hipótesis

El modelo lineal inicial Y = Xβ + , que se supone válido, constituye la hipótesis alter-
nativa
H1 : Y = Xβ + rg X = r
Por otra parte, el modelo lineal junto con la restricción lineal contrastable forman la
hipótesis nula
H0 : Y = Xβ + Aβ = 0 rg A = q
Pero esta restricción lineal transforma los parámetros β y la matriz de diseño X en un
nuevo modelo llamado el modelo lineal de la hipótesis
e +
H0 : Y = Xθ e =r−q >0
rg X

que es otra forma de plantear la hipótesis nula.

Existen varios procedimientos para estimar β o θ bajo la hipótesis nula y calcular la suma
de cuadrados residual.

Método 1

Si la hipótesis es contrastable, las filas de A son combinación lineal de las filas de X. El

subespacio hA0 i generado por las filas de A está incluido en el subespacio hX0 i generado
por las filas de X. Existe entonces una base ortogonal

v1 , . . . , vq , vq+1 , . . . , vr , vr+1 . . . , vm

tal que
hA0 i = hv1 , . . . , vq i ⊂ hv1 , . . . , vq , vq+1 , . . . , vr i = hX0 i ⊂ Rm
Sea entonces C una matriz m × r 0 , con r0 = r − q, construida tomando los vectores
columna vq+1 , . . . , vr
C = (vq+1 , . . . , vr )
y definamos el vector paramétrico θ = (θ1 , . . . , θr0 )0 tal que

β = Cθ

Los parámetros θ constituyen la reparametrización inducida por la hipótesis H 0 , pues

Aβ = ACθ = 0θ = 0

66
El modelo Y = Xβ + bajo la restricción Aβ = 0, se convierte en
e
E(Y) = XCθ = Xθ

y la matriz de diseño se transforma en

e = XC
X

relación también válida para la matriz de diseño reducida

e R = XR C
X

La estimación MC de los parámetros θ es

b = (X
θ e 0 X)
e −1 X
e 0Y

La suma de cuadrados residual bajo la restricción Aβ = 0 es

b 0 (Y − X
e θ)
SCRH = mı́n (Y − Xβ)0 (Y − Xβ) = (Y − X b
e θ)
Aβ=0

b0 X
= Y0 Y − θ e 0Y

Método 2

Introduzcamos q multiplicadores de Lagrange

λ = (λ1 , . . . , λq )0

uno para cada restricción lineal. El mı́nimo restringido de (Y − Xβ)0 (Y − Xβ) se halla
igualando a cero las derivadas respecto a cada βi de
n q
X X
2
(yi − xi1 β1 − · · · − xim βm ) + λi (ai1 β1 + · · · + aim βm )
i=1 i=1

En notación matricial, donde ahora X es la matriz ampliada, escribiremos

f (β, λ) = (Y − Xβ)0 (Y − Xβ) + (β 0 A0 )λ

∂f /∂β = −2X0 Y + 2X0 Xβ + A0 λ = 0

1
X0 Xβ = X0 Y − A0 λ (5.1)
2
La solución es

b H = (X0 X)− X0 Y − 1 (X0 X)− A0 λ

β bH
2
=βb − 1 (X0 X)− A0 λ
bH
2
b H = 0, resulta
y como Aβ
b − 1 A(X0 X)− A0 λ
0 = Aβ bH
2

67
La matriz A(X0 X)− A0 posee inversa, puesto que es de rango q, ası́
1b b
λH = (A(X0 X)− A0 )−1 (Aβ)
2
y finalmente tenemos que la estimación MC restringida es
bH = β
β b − (X0 X)− A0 (A(X0 X)− A0 )−1 Aβ
b (5.2)

La suma de cuadrados residual es

b H )0 (Y − Xβ
SCRH = (Y − Xβ bH )

Hemos visto (teorema 2.5.1) que la forma canónica de la suma de cuadrados residual bajo
el modelo sin restricciones es
2
SCR = zr+1 + · · · + zn2

La hipótesis H0 : Aβ = 0, que implica Xe = XC, significa que las columnas de X e son

combinación lineal de las de X. Luego los subespacios generados por dichas columnas
verifican
e ⊂ hXi ⊂ Rn
hXi (5.3)
Podemos entonces construir una base ortogonal

u1 , . . . , ur0 , ur0 +1 , . . . , ur , ur+1 , . . . , un

tal que
e = hu1 , . . . , ur0 i ⊂ hXi = hu1 , . . . , ur i
hXi
Entonces, si se cumple la hipótesis, por idéntico razonamiento al seguido en el teorema
2.5.1 tendremos que la forma canónica de la suma de cuadrados residual bajo el modelo
H0 es
SCRH = zr20 +1 + · · · + zn2
Además, siempre se verificará que SCRH > SCR pues
r
X
SCRH − SCR = zi2
r 0 +1

Ejemplo 5.2.1
Consideremos el siguiente modelo lineal normal
y1 = β 1 + β 2 + 1
y2 = 2β2 + 2
y3 = −β1 + β2 + 3
y la hipótesis lineal
H0 : β1 = 2β2
Las matrices de diseño y de la hipótesis son
 
1 1
X= 0 2  A = (1 − 2) rg X = 2 rg A = 1
−1 1

68
Como A es combinación lineal de las filas de X, H0 es una hipótesis contrastable. Además,
en este caso particular el rango de la matriz de diseño es máximo, de modo que toda
hipótesis lineal es contrastable.
Con unos sencillos cálculos, tenemos:
Ecuaciones normales

2β1 + 0β2 = y1 − y3 0β1 + 6β2 = y1 + 2y2 + y3

Estimaciones MC
βb1 = (y1 − y3 )/2 βb2 = (y1 + 2y2 + y3 )/6
Suma de cuadrados residual

SCR = y12 + y22 + y32 − 2βb12 − 6βb22

Si consideramos los vectores columna

v1 = (1, −2)0 v2 = (2, 1)0

que constituyen una base ortogonal de R2 , se verifica

hA0 i = hv1 i ⊂ hX0 i = hv1 , v2 i

Podemos entonces tomar la matriz

C = (2, 1)0

que verifica AC = 0. La reparametrización β = Cθ es

β1 = 2θ β2 = θ

El modelo bajo la hipótesis es ahora

y1 = 3θ + 1
y2 = 2θ + 2
y3 = −θ + 3

Finalmente
θb = (3y1 + 2y2 − y3 )/14
SCRH = y12 + y22 + y32 − 14 θb2

5.3. Teorema fundamental del Análisis de la Varian-

za
En esta sección vamos a deducir el test F que nos permite decidir sobre la aceptación de
una hipótesis lineal contrastable.

69
Teorema 5.3.1
Sea Y = Xβ+ un modelo lineal normal, de manera que Y ∼ N (Xβ, σ 2 I). Consideremos
una hipótesis lineal contrastable

H0 : Aβ = 0 rango A = q

entonces, los estadı́sticos

b 0 (Y − Xβ)
SCR = (Y − Xβ) b
b 0 (Y − X
e θ)
SCRH = (Y − X b
e θ)

verifican:

(i) SCR/σ 2 ∼ χ2n−r

(ii) Si H0 es cierta

SCRH /σ 2 ∼ χ2n−r0 (r0 = r − q)

(SCRH − SCR)/σ 2 ∼ χ2q

(iii) Si H0 es cierta, los estadı́sticos SCRH − SCR y SCR son estocásticamente indepen-
dientes.

(iv) Si H0 es cierta, el estadı́stico

(SCRH − SCR)/q
F = (5.4)
SCR/(n − r)
sigue la distribución F de Fisher-Snedecor con q y n − r grados de libertad.

Demostración:

(i) Aunque este resultado ya se ha establecido en el teorema 3.4.2, nos interesa ahora
su demostración explı́cita. En el teorema 2.5.1 se ha visto que
2
SCR = zr+1 + · · · + zn2

donde las zi son normales, independientes y además E(zi ) = 0, var(zi ) = σ 2 . Luego

SCR/σ 2 es suma de los cuadrados de n − r variables N (0, 1) independientes.

(ii) La forma canónica de la suma de cuadrados residual bajo la restricción Aβ = 0 es

SCRH = zr20 +1 + · · · + zn2

luego análogamente tenemos que SCRH /σ 2 ∼ χ2n−r0 , donde r0 = r − q. Además

SCRH − SCR = zr20 +1 + · · · + zr2

es también una suma de cuadrados en las mismas condiciones.

(iii) Las variables zr0 +1 , . . . , zn son normales e independientes. SCRH − SCR depende de
las q primeras, mientras que SCR depende de las n − r últimas y no hay términos
comunes. Luego son estocásticamente independientes.

70
(iv) Es una consecuencia evidente de los apartados anteriores de este teorema. Si H0 es
cierta, el estadı́stico

[(SCRH − SCR)/σ 2 ]/q (SCRH − SCR)/q

F = 2
=
(SCR/σ )/(n − r) SCR/(n − r)

sigue la distribución F de Fisher-Snedecor con q y n − r grados de libertad.

2
Obsérvese que F no depende del parámetro desconocido σ y se puede calcular exclusi-
vamente en función de las observaciones Y.
La expresión de SCR es
0
b X0 Y
SCR = Y 0 (I − P)Y = Y 0 Y − β

Veamos que, del mismo modo, la expresión de SCRH es

b 0 X0 Y
SCRH = Y0 Y − β H

donde βb H es la estimación MC de β restringida a Aβ = 0.

En efecto,

b H )0 (Y − Xβ
SCRH = (Y − Xβ b H ) = Y0 Y − 2Y0 Xβ b 0 X0 Xβ
bH + β bH
H

Además (ver página 67), se verifica

b H = X 0 Y − 1 A0 λ
X0 Xβ bH
2
luego

b +β
SCRH = Y0 Y − 2Y0 Xβ b 0 (X0 Y − 1 A0 λ
bH )
H H
2
bH − 1 β
b H + Y 0 Xβ
= Y0 Y − 2Y0 Xβ b 0 A0 λ
bH
2 H
b H = 0, nos queda
Pero como Aβ

bH
SCRH = Y0 Y − Y0 Xβ

Calculemos ahora SCRH − SCR. Considerando 5.2 tenemos

b0 − β
β b 0 = (Aβ)
b 0 (A(X0 X)− A0 )−1 A(X0 X)−
H

luego

b0 − β
SCRH − SCR = (β b 0 )X0 Y
H
b (A(X0 X)− A0 )−1 A(X0 X)− X0 Y
= (Aβ) 0 (5.5)
b 0 (A(X0 X)− A0 )−1 (Aβ)
= (Aβ) b

71
El estadı́stico F puede escribirse entonces
b 0 (A(X0 X)− A0 )−1 (Aβ)
(Aβ) b
F = (5.6)
qσ b2

donde σ b2 = SCR/(n − r).

Cuando q > 2 es mejor obtener SCR y SCRH directamente por minimización de 0 sin
restricciones y con restricciones, respectivamente. Sin embargo, si q ≤ 2 se puede utilizar
la fórmula 5.6, ya que la matriz a invertir A(X0 X)− A0 es sólo de orden uno o dos.
Obsérvese que si Aβ = 0 es cierta, entonces Aβ b ≈ 0. Luego es probable que F no sea
significativa.
Cuando sea posible, también se puede utilizar la matriz de diseño reducida XR , junto con
las matrices D y Ȳ. Las expresiones son entonces

SCR = Y 0 Y − Ȳ0 DXR (X0R DXR )− X0R DȲ

SCRH − SCR = (Aβ) b
b 0 (A(X0 DXR )− A0 )− (Aβ)
R

El cálculo de ambas cantidades se suele expresar en forma de tabla general del análisis
de la varianza (ver tabla 5.1).

grados de suma de cuadrados

libertad cuadrados medios cociente
Desviación
hipótesis q SCRH − SCR (SCRH − SCR)/q F

Residuo n−r SCR SCR/(n − r)

Tabla 5.1: Tabla general del análisis de la varianza

Criterio de decisión

Si F > Fα se rechaza H0 ; si F ≤ Fα se acepta H0 .

Donde, para un nivel de significación α, Fα se elige

de forma que P (Fq,n−r > Fα ) = α.

Del teorema 5.3.1 deducimos que, si H0 es cierta, entonces

E[(SCRH − SCR)/q] = σ 2

Luego (SCRH −SCR)/q y SCR/(n−r) son dos estimaciones independientes de la varianza

σ 2 . El test F nos indica hasta que punto coinciden. Un valor grande de F indica que la
primera estimación difiere demasiado de la varianza σ 2 y entonces H0 debe ser rechazada.
Se puede demostrar además (ver ejercicio 5.7) que en general

E(SCRH − SCR) = qσ 2 + (Aβ)0 (A(X0 X)− A0 )− (Aβ) (5.7)

72
Ejemplo 5.3.1
Para decidir sobre la hipótesis H0 : β1 = 2β2 en el ejemplo 5.2.1 calcularemos

(SCRH − SCR)/1 −14θb2 + 2βb12 + 6βb22

F = =
SCR/(3 − 2) y12 + y22 + y32 − 2βb12 − 6βb22

Si utilizamos 5.6, se obtiene una expresión más sencilla

(βb1 − 2βb2 )2
F =
(SCR/1)(7/6)

En cualquier caso, se decide por la significación en una distribución F 1,1 con 1 y 1 grados
de libertad.

Ejemplo 5.3.2 Diseño “cross-over” simplificado

Supongamos una experiencia clı́nica en la que se desean comparar dos fármacos a y b,
para combatir una determinada enfermedad. El estado de los pacientes se valora mediante
una cierta variable cuantitativa Y .
En el diseño “cross-over” la experiencia se organiza asignando a N a pacientes el trata-
miento a y a Nb pacientes el tratamiento b, en un primer periodo. En un segundo periodo,
los que tomaban a pasan a tomar b y recı́procamente. En este diseño los datos son de la
forma:

Grupo 1 media varianza

1
PNa
a (primera vez) y11 y12 ... y1Na ȳ1· s21 = (y1i − ȳ1· )2
Na
1
Pi=1
Na
b (después de a) y21 y22 ... y2Na ȳ2· s22 = Na i=1 (y2i − ȳ2· )
2

Grupo 2

1
P Nb
b (primera vez) y31 y32 ... y3Nb ȳ3· s23 = (y3i − ȳ3· )2
Nb
1
Pi=1
Nb
a (después de b) y41 y42 ... y4Nb ȳ4· s24 = Nb i=1 (y4i − ȳ4· )
2

Indicando

µ = media general
α = efecto fármaco a
β = efecto fármaco b
γ = efecto recı́proco entre a y b

se propone el siguiente modelo:

a (primera vez) y1i = µ + α + 1i i = 1, . . . , Na

b (después de a) y2i = µ + β + γ + 2i i = 1, . . . , Na
b (primera vez) y3i = µ + β + 3i i = 1, . . . , Nb
a (después de b) y4i = µ + α + γ + 4i i = 1, . . . , Nb

73
Es decir, cuando sólo se ha tomado un fármaco actúa un solo efecto, pero cuando se ha
tomado uno después del otro actúa entonces un efecto aditivo γ que recoge la mejorı́a del
enfermo que ya ha tomado el primer medicamento.
Tenemos k = 4 condiciones experimentales, que en el “cross-over” simplificado se consi-
deran independientes, y N1 = N2 = Na , N3 = N4 = Nb . El vector de observaciones Y y
la matriz de diseño reducida XR son

Y = (y11 , . . . , y1Na , y21 , . . . , y2Na , y31 , . . . , y3Nb , y41 , . . . , y4Nb )0

 
1 1 0 0
 1 0 1 1 
XR =   1 0 1 0 
 rg XR = 3
1 1 0 1
La hipótesis nula de mayor interés es

H0 : α = β a y b tienen la misma efectividad

que expresada en forma de hipótesis lineal es

 
µ
 α 
H0 : 0 1 −1 0  
 β =0
γ

Como el vector 0 1 −1 0 es combinación lineal de las filas de XR , se trata de una
hipótesis contrastable. Para reparametrizar el diseño bajo H 0 tomaremos como matriz
ortogonal a A  
2/3 0
 1/3 0 
C=  1/3 0 


0 1
Obsérvese que las columnas de C son también combinación lineal de las filas de X R .
Al establecer la relación β = Cθ tendremos

θ1
θ=
θ2

siendo θ1 = µ + α = µ + β y θ2 = γ.
Es decir, bajo H0 el diseño reparametrizado depende de dos parámetros:

θ1 : efecto debido a la medicación (común a a y b bajo H0 )

θ2 : efecto recı́proco entre a y b

y la nueva matriz de diseño es

 
1 0
 1 1 
e R = XR C = 
X 
 1 0 
1 1

74
siendo rg X e R = r − t = 3 − 1 = 2.
Si el diseño es balanceado (Na = Nb ), entonces N = 4Na = 4Nb y se puede calcular que
4
!
Na X
SCR = (y1· + y2· − y3· − y4· )2 + Na s2i
4 i=1

con N − 3 grados de libertad

4
!
Na X
SCRH = [(y1· + y2· − y3· − y4· )2 + (y1· − y2· − y3· + y4· )2 ] + Na s2i
4 i=1

con N − 2 grados de libertad.

Luego, si H0 es cierta, bajo el modelo lineal normal, el estadı́stico
(y1· − y2· − y3· + y4· )2
F = Na (4Na − 3)
4 SCR
sigue la distribución F con 1 y N − 3 g.l..
La tabla 5.2 contiene los datos de dos grupos de 10 y 10 enfermos reumáticos a los que se
valoró la variación del dolor respecto del estado inicial, mediante una escala convencional,
con el deseo de comparar dos fármacos antirreumáticos a y b, administrados a lo largo
de dos meses. Se incluye además la tabla del análisis de la varianza para contrastar H 0 .
Grupo 1 Grupo 2

a (mes 1) b (mes 2) b (mes 1) a (mes 2)

17 17 21 10
34 41 20 24
26 26 11 32
10 3 26 26
19 -6 42 52
17 -4 28 28
8 11 3 27
16 16 3 28
13 16 16 21
11 4 -10 42

Tabla 5.2: Datos de los enfermos reumáticos

g.l. suma de cuadrados F

cuadrados medios
Entre fármacos 1 783.2 783.2 4.71 (p < 0,05)
Residuo 37 6147.9 166.2

Tabla 5.3: Tabla del análisis de la varianza para H0 : α = β

Con estos datos se han detectado diferencias significativas entre los dos fármacos a y
b. Para estimar la eficacia de cada fármaco, pasaremos a considerar las funciones pa-
ramétricas
ψa = µ + α ψb = µ + β

75
que son ambas estimables.
Para estimar ψa , ψb hallaremos primeramente “una” estimación MC de los parámetros:

b=0
µ b = 20,975
α βb = 12,125

Aplicando el teorema de Gauss-Markov, las estimaciones óptimas de ψ a , ψb se obtienen

sustituyendo parámetros por estimaciones MC, es decir
ca = µ
ψ b+α
b = 20,975 cb = µ
ψ b + βb = 12,125

Por otra parte, las expresiones en función de las medias y las varianzas mı́nimas corres-
pondientes son:
ca = 3/4ȳ1 − 1/4ȳ2 + 1/4ȳ3 + 1/4ȳ4
ψ ca ) = 0,075σ 2
var(ψ
cb = 1/4ȳ1 + 1/4ȳ2 + 3/4ȳ3 − 1/4ȳ4
ψ cb ) = 0,075σ 2
var(ψ

5.3.1. Un contraste más general

Consideremos la hipótesis nula

H0 : Aβ = c A es q × m, rg A = q

donde c es un vector columna que lógicamente debe ser combinación lineal de las columnas
de A. También suponemos que las filas de A son combinación lineal de las filas de X, de
manera que Aβ es un conjunto de funciones paramétricas estimables.
Sea β 0 tal que Aβ 0 = c y consideremos γ = β − β 0 . Entonces, si en el modelo lineal

Y − Xβ 0 = X(β − β 0 ) +
e = Y − Xβ 0 , obtenemos el modelo transformado
ponemos Y
e = Xγ +
Y (5.8)

y en este modelo la hipótesis planteada adopta la expresión

H0 : Aγ = 0

La estimación MC del conjunto de funciones paramétricas estimables Aγ en este modelo

transformado es
e
γ =BX(X0 X)− X0 Y
Ab
= BP(Y − Xβ 0 ) = BXβb − BXβ 0
b − Aβ = Aβ
= Aβ b −c
0

En consecuencia, de la ecuación 5.5 se deduce

γ )0 (A(X0 X)− A0 )−1 (Ab
SCRH − SCR = (Ab γ)
b − c)0 (A(X0 X)− A0 )−1 (Aβ
= (Aβ b − c)

b es tal que X0 Xβ
donde β b = X0 Y. Se verifica también

E(SCRH − SCR) = q σ 2 + (Aβ − c)0 (A(X0 X)− A0 )−1 (Aβ − c)

76
Finalmente, a partir de la fórmula 5.6 el test para contrastar la hipótesis es
b − c)0 (A(X0 X)− A0 )−1 (Aβ
(Aβ b − c)/q
F = (5.9)
SCR/(n − r)

donde, si es cierta la hipótesis nula, el estadı́stico F sigue una distribución F q,n−r .

En el caso particular q = 1, donde la hipótesis es H0 : a0 β = c, el test F se puede
simplificar en un test t con
b −c
a0 β
t = 2 0 0 − 1/2 (5.10)
(b
σ (a (X X) a))
que sigue una distribución tn−r , si H0 es cierta.

Ejemplo 5.3.3
Contraste de medias en poblaciones normales con igual varianza
Sean u1 , u2 , . . . , un1 y v1 , v2 , . . . , vn2 dos muestras aleatorias simples de dos poblaciones
normales N (µ1 , σ 2 ) y N (µ2 , σ 2 ), respectivamente.
Vamos a contrastar la hipótesis lineal H0 : µ1 = µ2 con la ayuda de la teorı́a de los
modelos lineales.
Podemos pensar que las observaciones son de la forma

ui = µ 1 + i i = 1, . . . , n1
vj = µ2 + n1 +j j = 1, . . . , n2

o en notación matricial
     
u1 1 0 1
 ..   .. ..   .. 
 .   . .   . 
     
 un 1   1 0  µ1  
 =  +  n1 
 v1   0 1  µ2  n1 +1 
 .   .. ..   . 
 ..   . .   .. 
vn2 0 1 n

donde n = n1 + n2 . Observemos que, gracias a la igualdad de varianzas en las dos pobla-

ciones, se trata de un modelo lineal y se verifican las condiciones de Gauss-Markov.
En este modelo, la matriz de diseño reducida es 2 × 2 de rango máximo

1 0 n1 0
XR = y D=
0 1 0 n2

Ası́ pues, la hipótesis nula es lineal y contrastable

µ1
H0 : µ 1 − µ 2 = 0 ⇔ H0 : 1 −1 =0 q=1
µ2

Con unos sencillos cálculos se obtiene

b = (µ̂1 , µ̂2 )0 = (X0 DXR )−1 X0 DȲ = Ȳ = (ū, v̄)0
β R R

b = µ̂1 − µ̂2 = ū − v̄
Aβ

77
SCR = Y 0 Y − Ȳ0 DXR (X0R DXR )− X0R DȲ
X X
= u2i + vj2 − n1 ū2 − n2 v̄ 2
i j
X X
= (ui − ū)2 + (vj − v̄)2
i j

1 1
A(X0R DXR )−1 A0 = +
n1 n2
de modo que

b 0 (A(X0 DXR )−1 A0 )−1 (Aβ)

(Aβ) b (ū − v̄)2
R
F = =
b2
qσ b2 (1/n1 + 1/n2 )
σ

donde σb2 = SCR/(n1 + n2 − 2) y cuya distribución, bajo H0 , es una F1,n1 +n2 −2 .

Pero cuando q = 1, tenemos que F1,n1 +n2 −2 ≡ t2n1 +n2 −2 y se deduce que el contraste es
equivalente al test t usual.

5.3.2. Test de la razón de verosimilitud

Para simplificar, consideremos un modelo de rango máximo. Bajo la hipótesis de nor-
malidad de las observaciones, ya sabemos (ver pág. 33) que las estimaciones de máxima
verosimilitud de los parámetros son
b = (X0 X)−1 X0 Y bM
σ 2
β V = SCR/n

y el valor máximo de la función de verosimilitud es

b σ
L(β, 2
bM 2 −n/2 −n/2
V ) = (2πb
σM V) e

Del mismo modo, los estimadores de máxima verosimilitud de los parámetros con las
restricciones Aβ = c son
bH
β bH
σ 2
= SCRH /n
y el valor máximo de la función de verosimilitud, bajo la hipótesis nula, es
bH , σ
L(β bH2
) = (2πb
σH2 −n/2 −n/2
) e

De modo que el estadı́stico de la razón de verosimilitud es

bH , σ 2
2 n/2
L(β bH ) b
σ
Λ= = M2V
b σ
L(β, 2
bM bH
σ
V)

Es fácil ver que

n − m −2/n
F = (Λ − 1)
q
luego son contrastes equivalentes.

78
5.4. Cuando el test es significativo
Si el estadı́stico F para H0 : Aβ = c es significativo, podemos investigar la causa del
rechazo de dicha hipótesis. Una posibilidad consiste en contrastar cada una de las res-
tricciones a0i β = ci , i = 1, . . . , q por separado, utilizando un test t para ver cual es la
responsable.
Hemos visto de varias formas que, bajo la hipótesis lineal Hi : a0i β = ci , el estadı́stico ti
verifica
b − ci
a0 β
ti = 2 0 i 0 − 1/2 ∼ tn−r
[b
σ ai (X X) ai ]
de modo que podemos rechazar Hi : a0i β = ci con un nivel de significación α si

|ti | ≥ tn−r (α)

donde tn−r (α) es el valor de la tabla tal que P (|tn−r | ≥ tn−r (α)) = α.
También podemos construir intervalos de confianza para cada a0i β

b ± tn−r (α) · σ
a0i β b(a0i (X0 X)− ai )1/2

Este procedimiento en dos etapas para el contraste de H0 : Aβ = c, es decir, un contraste

global F seguido de una serie de test t cuando F es significativo, se conoce con el nombre
de MDS1 o mı́nima diferencia significativa. El valor significativo mı́nimo es tn−r (α) y la
palabra “diferencia” se refiere a que este método se utiliza con frecuencia para comparar
parámetros tales como medias dos a dos.
Este método es simple y versátil, sin embargo tiene sus debilidades: es posible rechazar
H0 y no rechazar ninguna de las Hi . Este problema, otras dificultades y, en general, otros
métodos de inferencia simultánea se estudian de forma más completa en lo que se llama
Métodos de comparación múltiple.

5.5. Contraste de hipótesis sobre funciones paramé-

tricas estimables
Sea ψ = (ψ1 , . . . , ψq )0 = Aβ un sistema de funciones paramétricas estimables, de modo
que las filas de la matriz A sean linealmente independientes. La distribución F que sigue
la expresión 3.2 permite construir diferentes contrastes de hipótesis bajo el modelo lineal
normal.
Sea c = (c1 , . . . , cq )0 un vector de constantes, con la condición de que c sea combinación
lineal de las columnas de A. Planteamos la hipótesis nula

H0 : Aβ = c (5.11)

Para decidir la aceptación de H0 , como una consecuencia de 3.2, podemos utilizar el

estadı́stico
b − c)0 (A(X0 X)− A0 )−1 (Aβ
(Aβ b − c)/q
F = (5.12)
SCR/(n − r)
1
en inglés: LSD o least significant difference

79
con distribución Fq,n−r . Pero es evidente que 5.11 es una hipótesis lineal contrastable, de
modo que podemos utilizar el test F que resulta ser idéntico al anterior. Es otra forma
de demostrar 5.9 y también que
b − c)0 (A(X0 X)− A0 )−1 (Aβ
SCRH − SCR = (Aβ b − c)

Además, podemos plantear otras hipótesis sobre las funciones paramétricas estimables ψ,
siempre que sean lineales. Por ejemplo, consideremos ahora la hipótesis lineal planteada
sobre las q funciones linealmente independientes

H0 : ψ 1 = ψ 2 = · · · = ψ q (5.13)

es decir, bajo H0 las q funciones son iguales. Si consideramos las nuevas funciones

ψei = ψ1 − ψi+1 i = 1, . . . , q − 1

entonces 5.13 se reduce a 5.11 tomando ψe = (ψe1 , . . . , ψeq−1 )0 , c = 0 y sustituyendo q por

q − 1. Dicho de otra manera, sea la matriz
 
a11 a12 . . . a1m
 a21 a22 . . . a2m 
 
A =  .. .. .. 
 . . . 
aq1 aq2 . . . aqm

Entonces 5.13 es equivalente a la hipótesis lineal

H0 : A ∗ β = 0

tomando como matriz de hipótesis

 
a11 − a21 a12 − a22 . . . a1m − a2m
 .. .. .. 
A∗ =  . . . 
a11 − aq1 a12 − aq2 . . . a1m − aqm

Luego podemos utilizar el estadı́stico F de 5.6, con A∗ y q − 1, que bajo H0 tiene distri-
bución Fq−1,n−r , para decidir si 5.13 debe ser aceptada.

5.6. Elección entre dos modelos lineales

5.6.1. Sobre los modelos
Para la estimación en el modelo lineal

Y = Xβ + E() = 0, var() = σ 2 I

hemos establecido (ver pág. 28) que el punto crucial es la utilización de la matriz P,
proyección ortogonal sobre el espacio de las estimaciones Ω = hXi. Ası́, dos modelos son
iguales si tienen el mismo espacio de las estimaciones. Dos de estos modelos darán las
mismas predicciones y el mismo estimador de σ 2 .

80
Sean Y = X1 β 1 + 1 y Y = X2 β 2 + 2 dos modelos lineales tales que hX1 i = hX2 i. La
matriz proyección no depende de X1 o X2 sino sólo de Ω(= hX1 i = hX2 i). La estimación
de σ 2 es la misma σ
b2 = SCR/(n − r) y las predicciones también
b 1 = X2 β
b = PY = X1 β
Y b2

En cuanto a las funciones paramétricas estimables, hemos visto que la estimabilidad se

restringe a las combinaciones lineales de las filas X1 , es decir, a01 β 1 es estimable si se
escribe como b0 X1 β 1 . Pero X1 β 1 pertenece a Ω de forma que X1 β 1 = X2 β 2 para algún
β 2 y ası́
a01 β 1 = b0 X1 β 1 = b0 X2 β 2 = a02 β 2
Las funciones paramétricas estimables son las mismas pero están escritas con diferentes
parámetros. Su estimador b0 PY también es único.

Ejemplo 5.6.1
El ANOVA de un factor se puede escribir de dos formas:
yij = µ + αi + ij i = 1, . . . , I, j = 1, . . . , ni
yij = µi + ij i = 1, . . . , I, j = 1, . . . , ni
pero son equivalentes puesto que hX1 i = hX2 i.
En este modelo las relaciones entre los dos conjuntos de parámetros son sencillas

µi = µ + α i µ1 − µ 2 = α 1 − α 2 etc.

Ejemplo 5.6.2
La regresión lineal simple admite dos modelos:
yi = β 0 + β 1 xi + i i = 1, . . . , n
yi = γ0 + γ1 (xi − x̄) + i i = 1, . . . , n
pero son equivalentes ya que
γ0 = β0 + β1 x̄
γ1 = β 1

En resumen, en un modelo lineal Y = Xβ + la esencia es el subespacio Ω = hXi. Si

conservamos Ω, podemos cambiar X a nuestra conveniencia.

5.6.2. Contraste de modelos

El contraste de hipótesis en modelos lineales se reduce esencialmente a restringir el espacio
de las estimaciones.
Si partimos de un modelo que sabemos o suponemos válido

Modelo inicial: Y = Xβ + rg X = r

debemos intentar reducir este modelo, es decir, ver si algún modelo más simple se ajusta
aceptablemente a los datos, como

Modelo restringido: e +
Y = Xθ e = re
rg X

81
Dado que la esencia de un modelo está en el subespacio generado por las columnas de la
matriz de diseño o espacio de las estimaciones, es absolutamente necesario que el modelo
restringido verifique
e ⊂ hXi = Ω
Ω0 = hXi
Sólo en este caso se puede plantear la elección entre dos modelos alternativos como un
contraste de hipótesis

e +
H0 : Y = Xθ e
H0 : E(Y) ∈ Ω0 = hXi
⇔ (5.14)
H1 : Y = Xβ + H1 : E(Y) ∈ Ω = hXi

e y E(Y) = Xβ, respectivamente.

donde E(Y) = Xθ
Sean PΩ y PΩ0 las proyecciones ortogonales sobre Ω = hXi y Ω0 = hXi e respectivamen-
te. Bajo el modelo inicial el estimador de E(Y) es PΩ Y, mientras que bajo el modelo
restringido el estimador es PΩ0 Y. Si la hipótesis H0 es cierta, ambas estimaciones deben
estar próximas.

Teorema 5.6.1
La condición necesaria y suficiente para que 5.14 sea contrastable es que se verifique
e ⊂ hXi = Ω
Ω0 = hXi (5.15)

El test F se basa entonces en el estadı́stico

(SCRH − SCR)/(r − re)
F =
SCR/(n − r)

cuya distribución, bajo H0 , es Fr−er,n−r y donde

SCRH = Y0 (I − PΩ0 )Y SCR = Y 0 (I − PΩ )Y

Demostración:
La expresión 5.15 implica la relación X e = XC para una cierta matriz C. Entonces H0
significa formular una hipótesis lineal contrastable al modelo E(Y) = Xβ, que lo reduce
a E(Y) = Xθ. e El resto es consecuencia del Método 1 explicado en la sección 5.2 y el
teorema 5.3.1.
Observemos que si Ω0 * Ω, entonces estamos ante modelos de naturaleza diferente. No
podemos decidir entre ambos modelos mediante ningún criterio estadı́stico conocido. Si
se verifica Ω0 = Ω, entonces tenemos dos versiones paramétricas del mismo modelo,
pudiendo pasar del uno al otro por una reparametrización. Un modelo Y = Xβ +
determina el espacio Ω = hXi, y recı́procamente el espacio Ω determina el modelo (salvo
reparametrizaciones que no disminuyan el rango).
Como ya hemos visto, la interpretación geométrica de la solución al modelo lineal Y =
Xβ + es considerar la proyección del vector Y sobre el subespacio Ω = hXi de Rn . La
relación 5.15 indica que las columnas de X e generan un subespacio de hXi. Entonces SCR
e respectivamente.
y SCRH son distancias de la observación Y a los subespacios hXi y hXi,
El test F nos dice hasta que punto la diferencia SCRH − SCR es pequeña (comparada
con SCR) para poder afirmar que el modelo se ajusta al subespacio hXi e en lugar de hXi
(ver figura).

82
La longitud al cuadrado de la diferencia PΩ Y − PΩ0 Y es
((PΩ − PΩ0 )Y)0 ((PΩ − PΩ0 )Y) = Y 0 (PΩ − PΩ0 )Y
ya que PΩ − PΩ0 = PΩ⊥0 ∩Ω es una matriz proyección (ver Apéndice). Pero además
Y0 (PΩ − PΩ0 )Y = Y0 (I − PΩ0 )Y − Y0 (I − PΩ )Y = SCRH − SCR
Cuando la hipótesis nula se plantea en términos de un grupo de funciones paramétricas
estimables del tipo H0 : Aβ = 0, sabemos que existe una matriz B = A(X0 X)− X0 tal
que A = BX. De modo que
0 = Aβ = BXβ = BE(Y) ⇔ E(Y) ∈ ker(B)
y el subespacio que define la hipótesis nula es Ω0 = ker(B) ∩ Ω. En este caso se puede
demostrar (ver Apéndice) que Ω⊥ 0
0 ∩ Ω = hPΩ B i y reencontrar ası́ el test 5.6.

Ejemplo 5.6.3
Consideremos de nuevo el diseño cross-over explicado en el ejemplo 5.3.2. Supongamos
ahora que la influencia γ de un fármaco sobre el otro no es recı́proca. El efecto aditivo
no es necesariamente el mismo cuando se administra a después de b, que cuando se
administra b después de a. Entonces debemos introducir los parámetros
γ1 : influencia de a sobre b
γ2 : influencia de b sobre a
y admitir que la matriz de diseño reducida, para los parámetros µ, α, β, γ 1 , γ2 es
 
1 1 0 0 0
 1 0 1 1 0 
XR =   1 0
 rg XR = 4
1 0 0 
1 1 0 0 1
que representa una alternativa a la propuesta inicialmente para los parámetros µ, α, β, γ
 
1 1 0 0
 1 0 1 1 
eR = 
X  rg XeR = 3
 1 0 1 0 
1 1 0 1
e R y XR ,
Es fácil ver que se verifica 5.15. El análisis de la varianza para decidir entre X
sobre los datos de la tabla 5.2, se encuentra en la tabla 5.4. Como F no es significativo
se admite como válido el modelo más simple representado por X e R.

83
grados de suma de cuadrados
libertad cuadrados medios F
Desviación
hipótesis 1 600,6 600,6 3,898

Residuo 36 5547,3 154,1

Tabla 5.4: Tabla del análisis de la varianza para contrastar dos modelos de cross-over

5.7. Ejemplos con S-PLUS

En esta sección vamos a ver como se contrastan las hipótesis que hemos planteado en el
ejemplo 5.3.2 sobre el diseño cross-over simplificado.
En primer lugar procedemos a introducir los datos en el vector de observaciones.

> y<-c(17,34,26,10,19,17,8,16,13,11,
+ 17,41,26,3,-6,-4,11,16,16,4,
+ 21,20,11,26,42,28,3,3,16,-10,
+ 10,24,32,26,52,28,27,28,21,42)

A continuación construimos las columnas de la matriz de diseño que corresponden a los

parámetros α, β, γ con las funciones de repetición.

> alpha<-c(rep(1,10),rep(0,10),rep(0,10),rep(1,10))
> beta<-c(rep(0,10),rep(1,10),rep(1,10),rep(0,10))
> gamma<-c(rep(0,10),rep(1,10),rep(0,10),rep(1,10))

Los modelos lineales se definen en S-PLUS con la función lm. Ası́, el modelo general y el
modelo bajo la hipótesis nula se definen como

> crossover.lm<-lm(y~alpha+beta+gamma)
> crossover.lm0<-lm(y~gamma)

La columna de unos que corresponde al parámetro µ no es necesario escribirla, ya que

por defecto está incluida en cualquier modelo lineal de S-PLUS ası́ definido. Observemos
además que bajo la hipótesis nula H0 : α = β, el modelo a considerar sólo tiene dos
parámetros µ, γ. En este caso, el efecto del fármaco (común) se puede incluir en la media
general.
La tabla del análisis de la varianza para el contraste de la hipótesis nula considerada se
realiza mediante la función anova(modelo H0 ,modelo general ).

> anova(crossover.lm0,crossover.lm)
Analysis of Variance Table

Model 1: y ~ gamma
Model 2: y ~ alpha + beta + gamma
Res.Df RSS Df Sum of Sq F Pr(>F)
1 38 6931.1

84
2 37 6147.9 1 783.2 4.7137 0.03641 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Del mismo modo también se puede realizar el contraste de modelos propuesto en el ejemplo
5.6.3. En este caso, el modelo más general necesita las columnas correspondientes a los
parámetros γ1 , γ2 .

> gamma1<-c(rep(0,10),rep(1,10),rep(0,10),rep(0,10))
> gamma2<-c(rep(0,10),rep(0,10),rep(0,10),rep(1,10))
> crossover.lm1<-lm(y~alpha+beta+gamma1+gamma2)
> anova(crossover.lm,crossover.lm1)
Analysis of Variance Table

Model 1: y ~ alpha + beta + gamma

Model 2: y ~ alpha + beta + gamma1 + gamma2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 37 6147.9
2 36 5547.3 1 600.6 3.8978 0.05606 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

85
5.8. Ejercicios
Ejercicio 5.1
Sean X ∼ N (µ1 , σ), Y ∼ N (µ2 , σ) variables independientes. En muestras de extensión n1
de X, n2 de Y , plantear la hipótesis nula

H0 : µ 1 = µ 2

mediante el concepto de hipótesis lineal contrastable y deducir el test t de Student de

comparación de medias como una consecuencia del test F .

Ejercicio 5.2
Una variable Y depende de otra x (variable control no aleatoria) que toma los valores
x1 = 1, x2 = 2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal

yi = β0 + β1 xi + β2 x2i + i

Encontrar la expresión del estadı́stico F para la hipótesis

H0 : β 2 = 0

Ejercicio 5.3
Probar que una hipótesis lineal de matriz A es contrastable si y sólo si

A(X0 X)− X0 X = A

Ejercicio 5.4
Con el modelo del ejercicio 3.10:

(a) ¿Podemos contrastar la hipótesis H0 : θ1 + θ8 = 0?

(b) Contrastar la hipótesis H0 : θ1 = θ2 .

Ejercicio 5.5
Dado el siguiente modelo lineal normal

β1 + β 2 = 6,6
2β1 + β2 = 7,8
−β1 + β2 = 2,1
2β1 − β2 = 0,4

estudiar si se puede aceptar la hipótesis H0 : β2 = 2β1 .

Ejercicio 5.6
Consideremos el modelo lineal normal Y = Xβ + . Probar que para la hipótesis lineal

H0 : Xβ = 0

b 0 X0 Y. Hallar el estadı́stico F correspondiente.

se verifica SCRH − SCR = β

86
Ejercicio 5.7
Demostrar que para una hipótesis lineal contrastable se verifica

E(SCRH − SCR) = qσ 2 + (Aβ)0 (A(X0 X)− A0 )− (Aβ)

Indicación: Utilizar la propiedad 2 del Apéndice de Estadı́stica Multivariante con la ex-

presión 5.5.

Ejercicio 5.8
Demostrar que para una hipótesis lineal contrastable se verifica la siguiente descomposi-
ción en suma de cuadrados
b H k2 = kY − Yk
kY − Y b 2 + kY
b −Y
b H k2

Ejercicio 5.9
Supongamos que cada uno de los valores x1 , x2 , . . . , x12 son las observaciones de los ángu-
los a, a0 , A, A0 , b, b0 , B, B 0 , c, c0 , C, C 0 del triángulo del gráfico adjunto. Los errores de las
observaciones 1 , . . . , 12 se asume que son independientes y con distribución N (0, σ 2 ).
Antes de escribir el modelo asociado a estos datos observemos que, aunque aparentemente
hay 12 parámetros a, a0 , . . . , éstos están ligados por las conocidas propiedades de un
triángulo, es decir

a = a0 A = A0 a + A = 180 a + b + c = 180

y de forma similar para b, b0 , B, B 0 y c, c0 , C, C 0 . El conjunto de estas relaciones nos conduce

a que, realmente, sólo hay dos parámetros independientes, les llamaremos α y β. Si
trasladamos a la izquierda las cantidades 180 y con estos parámetros, el modelo es

y1 = α + 1 y2 = α + 2 y3 = −α + 3 y4 = −α + 4
y5 = β + 5 y6 = β + 6 y7 = −β + 7 y8 = −β + 8
y9 = −α − β + 9 y10 = −α − β + 10 y11 = α + β + 11 y12 = α + β + 12

donde
y1 = x 1 y2 = x 2 y3 = x3 − 180 y4 = x4 − 180
y5 = x 5 y6 = x 6 y7 = x7 − 180 y8 = x8 − 180
y9 = x9 − 180 y10 = x10 − 180 y11 = x11 y12 = x12
Deseamos contrastar la hipótesis de que el triángulo es equilátero, es decir, que a = b =
c = 60. Pero si a = 60, b = 60, c es automáticamente 60, luego la hipótesis es

H0 : α = β = 60

con 2 grados de libertad, no 3. Resolver el contraste.

Ejercicio 5.10
Con el modelo cross-over expuesto en el ejemplo 5.3.2 calcular los siguientes elementos:

(a) Una estimación de los parámetros mediante la fórmula (X0R DXR )− X0R DȲ.

87
(b) La suma de cuadrados residual
X
SCR = Y 0 Y − Y0 PY = yij2 − Y0 PY
4 4
!
X X
= Na ȳi·2 + s2i − Y0 PY
i=1 i=1
4 4
!
X X
= Na ȳi·2 + s2i − Ȳ0 DXR (X0R DXR )− X0R DȲ
i=1 i=1

(c) La estimación de la función paramétrica α − β y su varianza.

(d) El estadı́stico con distribución t de Student para contrastar la hipótesis H 0 : α = β

α̂ − β̂
t=
ee(α̂ − β̂)

cuyo cuadrado coincide con el estadı́stico F del ejemplo.

88
Capı́tulo 6

Regresión lineal simple

Sea Y una variable aleatoria y x una variable controlable, es decir, los valores que toma x
son fijados por el experimentador. Supongamos que calculamos Y para diferentes valores
de x de acuerdo con el siguiente modelo

yi = β 0 + β 1 xi + i i = 1, . . . , n (6.1)

donde E(i ) = 0, var(i ) = σ 2 i = 1, . . . , n.

Este modelo es la formulación lineal del problema de hallar la recta de regresión de Y sobre
x. Los parámetros β0 , β1 reciben el nombre de coeficientes de regresión. El parámetro β0
es la ordenada en el origen, intercept en inglés, y β1 es la pendiente de la recta, slope en
inglés. La expresión matricial de 6.1 es
     
y1 1 x1 1
 ..   .. ..  β0  
 . = . .  +  ...  rg X = 2
β1
yn 1 xn n

Ahora podemos aplicar toda la teorı́a general desarrollada en los capı́tulos anteriores para
un modelo lineal cualquiera, al caso particular de la regresión lineal simple.

6.1. Estimación de los coeficientes de regresión

Con los datos observados se pueden calcular los siguientes estadı́sticos
P P
x̄ = (1/n) P xi s2x = (1/n) P(xi − x̄)2
ȳ = (1/n) yi s2y = (1/n) (yi − ȳ)2
X
sxy = (1/n) (xi − x̄)(yi − ȳ)
donde x̄, ȳ, s2x , s2y , sxy son las medias, varianzas y covarianzas muestrales, aunque el signi-
ficado de s2x y sxy es convencional pues x no es variable aleatoria. Con esta notación las
ecuaciones normales son:

0 0 n P nx̄ β0 P nȳ
X Xβ = X Y ⇔ =
nx̄ x2i β1 xi yi
y como P
0 −1 1 (1/n) x2i −x̄
(X X) = 2
nsx −x̄ 1

89
la solución es

β̂0 = ȳ − β̂1 x̄
Sxy sxy
βˆ1 = = 2
Sx sx

donde
X X X X
Sxy = xi yi − (1/n) xi yi = (xi − x̄)(yi − ȳ) = n sxy
X X X
Sx = x2i − (1/n)( xi ) 2 = (xi − x̄)2 = n s2x

En el ejercicio 6.2 se ven otras formas de expresar β̂1 .

La recta de regresión es
y = β̂0 + β̂1 x
que se expresa también en la forma

y − ȳ = β̂1 (x − x̄)

lo que deja claro que la recta pasa por el punto (x̄, ȳ) y que el modelo es válido en el
rango de las xi , centrado en x̄. Ésta es también la recta que se obtiene a partir del modelo
equivalente con los datos xi centrados (ver ejemplo 5.6.2 y ejercicio 6.3).
Recordemos que por lo que hemos estudiado, estas estimaciones son insesgadas y de
varianza mı́nima entre todos los estimadores lineales (teorema de Gauss-Markov). Las
varianzas y covarianza de los estimadores son

b = var( β̂ 0 ) cov( β̂ 0 , β̂ 1 )
var(β) = σ 2 (X0 X)−1 (6.2)
cov(β̂0 , β̂1 ) var(β̂1 )

Es decir

2 1 x̄2
E(β̂0 ) = β0 var(β̂0 ) = σ + (6.3)
n Sx
σ2
E(β̂1 ) = β1 var(β̂1 ) = (6.4)
Sx
x̄
cov(β̂0 , β̂1 ) = −σ 2 (6.5)
Sx
Ejemplo 6.1.1
Vamos a ilustrar el cálculo “manual” de las estimaciones de los parámetros con un ejemplo
muy sencillo de muy pocos datos.
Supongamos que una empresa de compra-venta de automóviles organiza exposiciones los
fines de semana i contrata un número variable de vendedores que oscila entre 3 y 8.
El gerente de esta empresa quiere estudiar la relación entre el número de vendedores
y el número de coches vendidos ya que, si es posible, podrı́a prever las ventas a partir
del número de vendedores que contrata. Para aclararlo, el gerente examina el registro
de ventas de los últimos cuatro meses y localiza un perı́odo de 10 semanas durante las
cuales no hubo ningún incentivo especial ni a la venta ni a la compra. El número de

90
Gráfico de dispersión
Semana Vendedores Coches 30
1 5 10
2 6 20 20

Coches
3 5 18
4 4 10
10
5 3 7
6 4 14
7 7 21 0
8 6 15 0 2 4 6 8 10
9 5 13 Vendedores
10 8 22

Tabla 6.1: Datos de las ventas en 10 semanas y gráfico de dispersión

coches vendidos durante este perı́odo y el número de vendedores empleados en cada caso
se muestra en la tabla adjunta.
Para examinar esta relación es muy útil empezar por dibujar un diagrama de dispersión.
Este gráfico muestra una relación bastante evidente entre el número de vendedores y las
ventas, relación que se podı́a esperar. Vamos a cuantificarla con la ayuda de la recta de
regresión MC.
En la siguiente tabla tenemos los cálculos necesarios para obtener los coeficientes de
regresión, las predicciones, los residuos y la suma de cuadrados de los errores para los
datos de las 10 semanas. Esta tabla se ha calculado con una hoja de cálculo, lo que permite
una mayor precisión en los cálculos sucesivos.

i xi yi x2i xi yi ŷi ei e2i

1 5 10 25 50 14,10 −4,10 16,85
2 6 20 36 120 17,09 2,91 8,47
3 5 18 25 90 14,10 3,90 15,18
4 4 10 16 40 11,12 −1,12 1,25
5 3 7 9 21 8,13 −1,13 1,29
6 4 14 16 56 11,12 2,88 8,30
7 7 21 49 147 20,07 0,93 0,86
8 6 15 36 90 17,09 −2,09 4,37
9 5 13 25 65 14,10 −1,10 1,22
10 8 22 64 176 23,06 −1,06 1,12
Suma 53 150 301 855 0 58,90
Media 5,3 15

Tabla 6.2: Cálculos de regresión simple para los datos de ventas

Con estos cálculos, las estimaciones de los coeficientes de regresión son

1
855 − 10 53 · 150
β̂1 = 1 = 2,9850746
301 − 10 (53)2
β̂0 = 15 − β̂1 · 5,3 = −0,820896

91
La ecuación de la recta de regresión es
y = −0,821 + 2,985x
o también
y − 15 = 2,985 (x − 5,3)
Para calcular la precisión de estas estimaciones, primero debemos estimar la varianza del
modelo.
Nota: Una aplicación de hojas de cálculo como Microsoft Excel tiene la función ESTI-
MACION.LINEAL que calcula de forma directa los coeficientes de regresión y algunos
estadı́sticos más. Otra función matricial es TENDENCIA que permite calcular directa-
mente las predicciones. Además, Excel lleva un conjunto de macros opcionales llamadas
“Herramientas para análisis” que, entre otras cosas, calculan una regresión lineal comple-
ta.
En el ejemplo anterior, se comprueba que las suma de los residuos es cero, salvo problemas
de redondeo. Esto no es una casualidad. Vamos a ver algunas propiedades adicionales para
las predicciones ŷi = β̂0 + β̂1 xi y para los residuos ei = yi − ŷi , cuya demostración se deja
para el lector (ver ejercicio 6.4).
P
(i) La suma de los residuos es cero: ei = 0.
P P
(ii) yi = ŷi
(iii) La
P suma de los residuos ponderada por los valores de la variable regresora es cero:
xi ei = 0.
(iv) La sumaPde los residuos ponderada por las predicciones de los valores observados
es cero: ŷi ei = 0.

6.2. Medidas de ajuste

La evaluación global del ajuste de la regresión
P 2 se puede hacer con la SCR o, mejor, con
la varianza muestral de los residuos (1/n) ei . Pero los residuos no son todos indepen-
dientes, si no que están ligados por dos ecuaciones, de forma que utilizaremos la llamada
varianza residual o estimación MC de σ 2 :
σ̂ 2 = SCR/(n − 2)
Su raı́z cuadrada σ̂, que tiene las mismas unidades que Y , es el llamado error estándar
de la regresión. La varianza residual o el error estándar son ı́ndices de la precisión del
modelo, pero dependen de las unidades de la variable respuesta y no son útiles para
comparar rectas de regresión de variables diferentes. Otra medida de ajuste requiere una
adecuada descomposición de la variabilidad de la variable respuesta.

Teorema 6.2.1
Consideremos el coeficiente de correlación muestral, cuyo significado es convencional,
sxy Sxy
r= =
sx sy (Sx Sy )1/2
Entonces se verifican las siguientes relaciones

92
P P P
(i) (yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
P P
(ii) SCR = (yi − ŷi )2 = (1 − r 2 ) (yi − ȳ)2 = (1 − r 2 )Sy
P
(iii) σ̂ 2 = ( e2i )/(n − 2) = (1 − r 2 )Sy /(n − 2)

Demostración:
X X
(yi − ȳ)2 = (yi − ŷi + ŷi − ȳ)2
X X X
= (yi − ŷi )2 + (ŷi − ȳ)2 + 2 (yi − ŷi )(ŷi − ȳ)
P P P
pero (yi − ŷi )(ŷi − ȳ) = (yi − ŷi )ŷi − ȳ (yi − ŷi ) = 0 por las propiedades del apartado
anterior. También podemos recordar la ortogonalidad de los subespacios de los errores y
de las estimaciones. Queda ası́ demostrada la relación (i).
Por otra parte, es fácil ver que
X X X
(ŷi − ȳ)2 = β̂12 (xi − x̄)2 = r2 (yi − ȳ)2

de forma que finalmente

X X X
(yi − ȳ)2 = (yi − ŷi )2 + r2 (yi − ȳ)2

Luego X X
(yi − ŷi )2 = (1 − r 2 ) (yi − ȳ)2
Como consecuencia tenemos que el estimador centrado de la varianza σ 2 del modelo 6.1
es
σ̂ 2 = SCR/(n − 2) = (1 − r 2 )Sy /(n − 2) (6.6)

La descomposición de la suma de cuadrados de las observaciones en dos términos inde-
pendientes se interpreta ası́: la variabilidad de la variable Y se descompone en un primer
término que refleja la variabilidad no explicada por la regresión, que es debida al azar, y
el segundo término que contiene la variabilidad explicada o eliminada por la regresión y
puede interpretarse como la parte determinista de la variabilidad de la respuesta.
Podemos definir:
X
Variación total = VT = (yi − ȳ)2 = Sy
X
Variación no explicada = VNE = (yi − ŷi )2 = SCR
X
Variación explicada = VE = (ŷi − ȳ)2 = β̂12 Sx

de forma que
VT = VNE + VE (6.7)

Definición 6.2.1
Una medida del ajuste de la recta de regresión a los datos es la proporción de variabilidad
explicada que definimos con el nombre de coeficiente de determinación ası́:
VE SCR
R2 = =1−
VT Sy

93
Esta medida se puede utilizar en cualquier tipo de regresión, pero en el caso particular
de la regresión lineal simple con una recta tenemos

(1 − r2 )Sy
R2 = 1 − = r2
Sy

que es el cuadrado del coeficiente de correlación lineal entre las dos variables.
El coeficiente de determinación R2 es una medida de la bondad del ajuste, 0 ≤ R2 ≤ 1,
mientras que el coeficiente de correlación es una medida de la dependencia lineal entre
las dos variables, cuando son aleatorias y sólo hay una variable regresora.

Ejemplo 6.2.1
Continuando con el ejemplo de los datos de ventas tenemos:

SCR = 58,896
σ̂ 2 = 58,896/8 = 7,362 σ̂ = 2,713
VT = Sy = 238
58,896
R2 = 1 − = 0,7525
238

6.3. Inferencia sobre los parámetros de regresión

Supongamos que el modelo 6.1 es un modelo lineal normal. Entonces (ver teorema 2.6.1)
se verifica que
b = (β̂0 , β̂1 )0 ∼ N2 (β, var(β))
β b

donde
b = σ 2 (X0 X)−1 = σ 2 1/n + x̄/Sx −x̄/Sx
var(β)
−x̄/Sx 1/Sx
como hemos visto en 6.2–6.5. Además sabemos que β b es independiente de SCR.
Como consecuencia de estas distribuciones hemos demostrado (ver 3.3 o 5.10) que para
contrastar una hipótesis del tipo H0 : a0 β = c se utiliza el estadı́stico

b −c
a0 β
t = 2 0 0 −1 1/2 (6.8)
(σ̂ (a (X X) a))

que seguirá una distribución tn−2 , si H0 es cierta.

6.3.1. Hipótesis sobre la pendiente

El contraste de la hipótesis H0 : β1 = b1 frente a H1 : β1 6= b1 se resuelve rechazando H0
si
β̂ − b
1 1
2 > tn−2 (α)
(σ̂ /Sx )1/2
donde P [|tn−2 | > tn−2 (α)] = α.
En particular, estamos interesados en contrastar si la pendiente es cero, es decir, la hipóte-
sis H0 : β1 = 0. Vamos a deducir este contraste directamente.

94
Si H0 : β1 = 0 es cierta, el modelo 6.1 se simplifica y se convierte en

yi = β 0 + i

de donde X X
SCRH = (yi − β̂0|H )2 = (yi − ȳ)2 = Sy (6.9)

dado que β̂0|H = ȳ.

Por el teorema 6.2.1 sabemos que SCR = (1 − r 2 )Sy , de manera que

SCRH − SCR Sy − (1 − r2 )Sy r2

F = = = (n − 2) ∼ F1,n−2
SCR/(n − 2) (1 − r2 )Sy /(n − 2) 1 − r2
Finalmente, √
√ n−2
t = F = r√ (6.10)
1 − r2
sigue la distribución t de Student con n − 2 grados de libertad.
Este contraste H0 : β1 = 0 se llama contraste para la significación de la regresión y se
formaliza en una tabla de análisis de la varianza donde se explicita la descomposición de
la suma de cuadrados 6.7.
Fuente de grados de suma de cuadrados
variación libertad cuadrados medios F
Regresión 1 β̂1 Sxy CMR CMR /ECM
Error n−2 SCR ECM
Total n−1 Sy

Tabla 6.3: Tabla del análisis de la varianza para contrastar la significación de la regresión

El hecho de aceptar H0 : β1 = 0 puede implicar que la mejor predicción para todas las
observaciones es ȳ, ya que la variable x no influye, y la regresión es inútil. Pero también
podrı́a pasar que la relación no fuera de tipo recta.
Rechazar la hipótesis H0 : β1 = 0 puede implicar que el modelo lineal 6.1 es adecuado.
Pero también podrı́a ocurrir que no lo sea. En todo caso, es muy importante no confundir
la significación de la regresión con una prueba de causalidad. Los modelos de regresión
únicamente cuantifican la relación lineal entre la variable respuesta y las variables expli-
cativas, una en el caso simple, pero no justifican que éstas sean la causa de aquella.
Tanto la adecuación del modelo 6.1, como la hipótesis de normalidad han de estudiarse
a través del análisis de los residuos.

6.3.2. Hipótesis sobre el punto de intercepción

Para el contraste de hipótesis H0 : β0 = b0 , se utiliza el estadı́stico

β̂0 − b0
t=
(σ̂ 2 (1/n+ x̄2 /Sx ))1/2
que, si la hipótesis es cierta, sigue una distribución t de Student con n − 2 grados de
libertad.

95
6.3.3. Intervalos de confianza para los parámetros
Además de los estimadores puntuales de β0 , β1 y σ 2 , con las distribuciones estudiadas
podemos proporcionar intervalos de confianza para estos parámetros. El ancho de estos
intervalos estará en función de la calidad de la recta de regresión.
Con la hipótesis de normalidad y teniendo en cuenta las distribuciones de β̂0 y β̂1 estu-
diadas, un intervalo de confianza para la pendiente β1 con nivel de confianza 100(1 − α) %
es
β̂1 ± tn−2 (α) · (σ̂ 2 /Sx )1/2
donde tn−2 (α) es tal que P [|tn−2 | < tn−2 (α)] = 1 − α.
Análogamente, para β0 es

β̂0 ± tn−2 (α) · (σ̂ 2 (1/n + x̄2 /Sx ))1/2

Las cantidades

ee(β̂1 ) = (σ̂ 2 /Sx )1/2 ee(β̂0 ) = (σ̂ 2 (1/n + x̄2 /Sx ))1/2

son los errores estándar de la pendiente β̂1 y la intercepción β̂0 , respectivamente. Se trata
de estimaciones de la desviación tı́pica de los estimadores. Son medidas de la precisión
de la estimación de los parámetros.
Como sabemos
SCR 1
σ̂ 2 = = Sy (1 − r2 )
n−2 n−2
es el estimador insesgado de σ 2 y la distribución de SCR/σ 2 es ∼ χ2n−2 . Ası́, el intervalo
de confianza al 100(1 − α) % de σ 2 es

SCR SCR
≤ σ2 ≤
χ2n−2 (α/2) χ2n−2 (1
− α/2)

donde χ2n−2 (α/2) y χ2n−2 (1 − α/2) son los valores de una χ2n−2 para que la suma de las
probabilidades de las colas sea α.

6.3.4. Intervalo para la respuesta media

Uno de los usos principales de los modelos de regresión es la estimación de la respuesta
media E[Y |x0 ] para un valor particular x0 de la variable regresora. Asumiremos que x0 es
un valor dentro del recorrido de los datos originales de x. Un estimador puntual insesgado
de E[Y |x0 ] se obtiene con la predicción

ŷ0 = β̂0 + β̂1 x0 = ȳ + β̂1 (x0 − x̄)

Podemos interpretar β0 + β1 x0 como una función paramétrica estimable

β0 + β1 x0 = (1, x0 )β = x00 β

b de manera que
cuyo estimador es ŷ0 = x00 β,

b = σ 2 x0 (X0 X)−1 x0
var(x00 β) 0

96
b es
y el error estándar de x00 β
b = [σ̂ 2 (1/n + (x0 − x̄)2 /Sx )]1/2
ee(x00 β)
Entonces, el intervalo de confianza para la respuesta media E[Y |x0 ] es
s
1 (x0 − x̄)2
ŷ0 ± tn−2 (α) · σ̂ +
n Sx
Destacaremos el hecho de que evidentemente el ancho del intervalo depende de x0 , es
mı́nimo para x0 = x̄ y crece cuando |x0 − x̄| crece. Esto es intuitivamente razonable.

6.3.5. Predicción de nuevas observaciones

Otra de las importantes aplicaciones de los modelos de regresión es la predicción de
nuevas observaciones para un valor x0 de la variable regresora. El intervalo definido en el
apartado anterior es adecuado para el valor esperado de la respuesta, ahora queremos un
intervalo de predicción para una respuesta individual concreta. Estos intervalos reciben el
nombre de intervalos de predicción en lugar de intervalos de confianza, ya que se reserva
el nombre de intervalo de confianza para los que se construyen como estimación de un
parámetro. Los intervalos de predicción tienen en cuenta la variabilidad en la predicción
del valor medio y la variabilidad al exigir una respuesta individual.
Si x0 es el valor de nuestro interés, entonces
ŷ0 = β̂0 + β̂1 x0
es el estimador puntual de un nuevo valor de la respuesta Y0 = Y |x0 .
Si consideramos la obtención de un intervalo de confianza para esta futura observación
Y0 , el intervalo de confianza para la respuesta media en x = x0 es inapropiado ya que es
un intervalo sobre la media de Y0 (un parámetro), no sobre futuras observaciones de la
distribución.
Se puede hallar un intervalo de predicción para una respuesta concreta de Y0 del siguiente
modo:
Consideremos la variable aleatoria Y0 − ŷ0 ∼ N (0, var(Y0 − ŷ0 )) donde

2 2 1 (x0 − x̄)2
var(Y0 − ŷ0 ) = σ + σ +
n Sx
ya que Y0 , una futura observación, es independiente de ŷ0 .
Si utilizamos el valor muestral de ŷ0 para predecir Y0 , obtenemos un intervalo de predicción
al 100(1 − α) % para Y0
s
1 (x0 − x̄)2
ŷ0 ± tn−2 (α) · σ̂ 1 + +
n Sx

Este resultado se puede generalizar al caso de un intervalo de predicción al 100(1 − α) %

para la media de k futuras observaciones de la variable respuesta cuando x = x0 . Si ȳ0 es
la media de k futuras observaciones para x = x0 , un estimador de ȳ0 es ŷ0 de forma que
el intervalo es s
1 1 (x0 − x̄)2
ŷ0 ± tn−2 (α) · σ̂ + +
k n Sx

97
6.3.6. Región de confianza y intervalos de confianza simultáneos
Habitualmente, los intervalos de confianza se dan de forma conjunta para los dos paráme-
tros β0 , β1 de la regresión simple. Sin embargo, la confianza conjunta de ambos intervalos
no es 100(1−α) %, aunque los dos se hayan construido para verificar ese nivel de confianza.
Si deseamos que el nivel de confianza conjunta sea el 100(1 − α) % debemos construir una
región de confianza o, alternativamente, los llamados intervalos de confianza simultáneos.
A partir de la distribución de la ecuación 5.9 sabemos que, en general,

b − Aβ)0 (A(X0 X)− A0 )−1 (Aβ

(Aβ b − Aβ)/q
F = ∼ Fq,n−r
SCR/(n − r)

b = Iβ
donde, en este caso, Aβ b = (β̂0 , β̂1 )0 y q = 2. Ası́ pues

b − β)0 X0 X(β
(β b − β)
∼ F2,n−2
2ECM
y
0 n P nx̄
XX=
nx̄ x2i
Con esta distribución se puede construir una región de confianza al 100(1 − α) % para
β0 , β1 conjuntamente que viene dada por la elipse

b − β)0 X0 X(β
(β b − β)
≤ F2,n−2 (α)
2ECM
Con el mismo objetivo, se pueden utilizar diversos métodos de obtención de intervalos
simultáneos del tipo
β̂j ± ∆ · ee(β̂j ) j = 0, 1
Por ejemplo, el método de Scheffé proporciona los intervalos simultáneos

β̂j ± (2F2,n−2 (α))1/2 · ee(β̂j ) j = 0, 1

6.4. Regresión pasando por el origen

Supongamos que, por alguna razón justificada, el experimentador decide proponer el
modelo de regresión simple

yi = β 1 xi + i i = 1, . . . , n

que carece del término β0 .

El estimador MC del parámetro β1 es
P
xi yi
β̂1 = P 2
xi

y su varianza es
1 X 1
var(β̂1 ) = P 2 2 x2i var(yi ) = σ 2 P 2
( xi ) xi

98
El estimador de σ 2 es
2 1 X 2 X
σ̂ = SCR/(n − 1) = yi − β̂1 xi yi (6.11)
n−1

Con la hipótesis de normalidad se pueden construir intervalos de confianza al 100(1−α) %

para β1 s
1
β̂1 ± tn−1 (α) · σ̂ P 2
xi
para E[Y |x0 ] s
x2
ŷ0 ± tn−1 (α) · σ̂ P0 2
xi
y para predecir una futura observación
s
x2
ŷ0 ± tn−1 (α) · σ̂ 1 + P0 2
xi

Es preciso estar muy seguros para utilizar este modelo. Frecuentemente la relación entre
la variable respuesta Y y la variable regresora x varı́a cerca del origen. Hay ejemplos
en quı́mica y en otras ciencias. El diagrama de dispersión nos puede ayudar a decidir el
mejor modelo. Si no estamos seguros, es mejor utilizar el modelo completo y contrastar
la hipótesis H0 : β0 = 0.
Una medida del ajuste del modelo a los datos es el error cuadrático medio 6.11 que se
puede comparar con el del modelo completo 6.6. El coeficiente de determinación R 2 no
es un buen ı́ndice para comparar los dos tipos de modelos.
Para el modelo sin β0 , la descomposición
X X X
yi2 = (yi − ŷi )2 + ŷi2

justifica que la definición del coeficiente de determinación sea

P 2
ŷ
R0 = P i2
2
yi

que no es comparable con el R2 de la definición 6.2.1. De hecho puede ocurrir que R02 > R2 ,
aunque ECM0 < ECM.

6.5. Correlación
Consideremos la situación en la que las dos variables son aleatorias, tanto la la variable
respuesta como la variable explicativa o regresora. De modo que tomamos una muestra
aleatoria simple de tamaño n formada por las parejas (x1 , y1 ), . . . , (xn , yn ) de dos variables
aleatorias (X, Y ) con distribución conjunta normal bivariante
2
0 0 σ1 σ1 σ2 ρ
(X, Y ) ∼ N2 (µ, Σ) µ = (µ1 , µ2 ) Σ=
σ1 σ2 ρ σ22

donde cov(X, Y ) = σ1 σ2 ρ y ρ es el coeficiente de correlación entre Y y X.

99
La distribución condicionada de Y dado un valor de X = x es
2
Y |X = x ∼ N (β0 + β1 x, σ2·1 )

donde
σ2
β0 = µ 1 − µ 2 ρ
σ1
σ2
β1 = ρ
σ1
2
σ2·1 = σ22 (1 − ρ2 )

De modo que la esperanza de Y |X = x es el modelo de regresión lineal simple

E[Y |X = x] = β0 + β1 x

Además, hay una clara relación entre β1 y ρ, ρ = 0 ⇔ β1 = 0, en cuyo caso no hay

regresión lineal, es decir, el conocimiento de X = x no nos ayuda a predecir Y .
El método de la máxima verosimilitud proporciona estimadores de β0 y β1 que coinciden
con los estimadores MC.
Ahora también es posible plantearse inferencias sobre el parámetro ρ. En primer lugar,
el estimador natural de ρ es
Sxy
r=
(Sx Sy )1/2
y
1/2
Sy
β̂1 = r
Sx
Ası́, β̂1 y r están relacionados, pero mientras r representa una medida de la asociación
entre X e Y , β̂1 mide el grado de predicción en Y por unidad de X.
Nota: Ya hemos advertido de que cuando X es una variable controlada, r tiene un sig-
nificado convencional, porque su magnitud depende de la elección del espaciado de los
valores xi . En este caso, ρ no existe y r no es un estimador.
También sabemos que r 2 = R2 , de modo que el coeficiente de determinación es el cuadrado
de la correlación.
Finalmente, el principal contraste sobre ρ es el de incorrelación H0 : ρ = 0 que es equiva-
lente a H0 : β1 = 0 y se resuelve con el estadı́stico
√
r n−2
t= √
1 − r2
que, si H0 es cierta, sigue una distribución tn−2 .

6.6. Carácter lineal de la regresión simple

Supongamos ahora que estamos interesados en decidir si la regresión de Y sobre x es
realmente lineal. Consideremos las hipótesis

H 0 : Y i = β 0 + β 1 xi + i
H1 : Yi = g(xi ) + i

100
donde g(x) es una función no lineal desconocida de x. Sin embargo, vamos a ver que
podemos reconducir el contraste a la situación prevista en la sección 5.6.2 para la elección
entre dos modelos lineales.
Necesitamos ni valores de Y para cada xi . Con un cambio de notación, para cada i =
1, . . . , k, sean
P P
xi : yi1 , . . . , yini ȳi = (1/ni ) j yij s2yi = (1/ni ) j (yij − ȳi )2
P P
ȳ = (1/n) i,j yij s2y = (1/n) i,j (yij − ȳ)2 n = n1 + · · · + n k
Introducimos a continuación el coeficiente
k
2 1 X s2yi
η̂ = 1 − ni (6.12)
n i=1 s2y

que verifica 0 ≤ η̂ 2 ≤ 1, y mide el grado de concentración de los puntos (xi , yij ) a lo largo
de la curva y = g(x) (ver figura 6.1).

Figura 6.1: Curva que mejor se ajusta a los datos

Si indicamos δi = g(xi ) i = 1, . . . , k convertimos la hipótesis H1 en una hipótesis lineal

con k parámetros. Cuando H1 es cierta, la estimación de δi es δ̂i = ȳi . La identidad
SCRH = SCR + (SCRH − SCR)
es entonces
X X X
(yij − β̂0 − β̂1 xi )2 = (yij − ȳi )2 + ni (ȳi − β̂0 − β̂1 xi )2
i,j i,j i

Dividiendo por n tenemos

s2y (1 − r2 ) = s2y (1 − η̂ 2 ) + s2y (η̂ 2 − r2 )
y el contraste para decidir si la regresión es lineal se resuelve a través del estadı́stico
(η̂ 2 − r2 )/(k − 2)
F = (6.13)
(1 − η̂ 2 )/(n − k)
que tiene (k − 2) y (n − k) grados de libertad. Si F resulta significativa, rechazaremos el
carácter lineal de la regresión.
Observaciones:

101
1) Solamente se puede aplicar este test si se tienen ni > 1 observaciones de Y para
cada xi (i = 1, . . . , k).

2) η̂ 2 es una versión muestral de la llamada razón de correlación entre dos variables

aleatorias X, Y
E[(g(X) − E(Y ))2 ]
η2 =
var(Y )
siendo
y = g(x) = E(Y |X = x)
la curva de regresión de la media de Y sobre X. Este coeficiente η 2 verifica:

a) 0 ≤ η 2 ≤ 1
b) η 2 = 0 =⇒ y = E(Y ) (la curva es la recta y = constante).
c) η 2 = 1 =⇒ y = g(X) (Y es función de X)

3) Análogamente, podemos también plantear la hipótesis de que Y es alguna función

(no lineal) de x frente a la hipótesis nula de que no hay ningún tipo de relación.
Las hipótesis son:

H0 : y i = µ + i
H1 : yi = g(xi ) + i

siendo µ constante. Entonces, con las mismas notaciones de antes,

X
SCRH = (yij − ȳ)2 con n − 1 g.l.
i,j
X
SCR = (yij − ȳi )2 con n − k g.l.
i,j

Operando, se llega al estadı́stico

η̂ 2 /(k − 1)
F = (6.14)
(1 − η̂ 2 )/(n − k)

Comparando 6.14 con 6.10, podemos interpretar 6.14 como una prueba de signifi-
cación de la razón de correlación.

Ejemplo 6.6.1
Se mide la luminosidad (en lúmenes) de un cierto tipo de lámparas después de un tiempo
determinado de funcionamiento (en horas). Los resultados para una serie de 3, 2, 3, 2 y 2
lámparas fueron:

Tiempo (x) Luminosidad (Y)

250 5460 5475 5400 (n1 = 3)

500 4800 4700 (n2 = 2)
750 4580 4600 4520 (n3 = 3)
1000 4320 4300 (n4 = 2)
1250 4000 4010 (n5 = 2)

102
Con estos datos podemos ilustrar algunos aspectos de la regresión lineal de la luminosidad
sobre el tiempo de funcionamiento.

Recta de regresión y coeficiente de correlación:

x̄ = 708,33 ȳ = 4680,42 n=12

sx = 351,09 sy = 500,08 sxy = −170190,97
r = −0,969 β̂1 = −1,381
y − 4680,42 = −1,381(x − 708,33)

La hipótesis H0 : β1 = 0 debe ser rechazada pues (ver 6.10) obtenemos t = 12,403

(10 g.l.) que es muy significativo.

Razón de correlación y carácter lineal de la regresión:

ȳ1 = 5445 ȳ2 = 4750 ȳ3 = 4566,7 ȳ4 = 4310 ȳ5 = 4005
s2y1 = 1050 s2y2 = 2500 s2y3 = 1155,5 s2y4 = 100 s2y5 = 25
ȳ = 4680,42 s2y = 250077 n = 12 k=5

k
1 X s2yi
η̂ 2 = 1 − ni = 0,996
n i=1 s2y
Aplicando 6.13
(0,996 − 0,939)/3
F = = 33,3
(1 − 0,996)/7
con 3 y 7 g.l. Se puede rechazar que la regresión es lineal.
Aplicando ahora 6.14
0,996/4
F = = 435,7
(1 − 0,996)/7
vemos que la razón de correlación es muy significativa.

6.7. Comparación de rectas

En primer lugar, vamos a estudiar detalladamente la comparación de dos rectas, ya que
en este caso las fórmulas son un poco más sencillas. A continuación presentaremos el caso
general cuyos detalles pueden verse en Seber[61] pág. 197-205.

6.7.1. Dos rectas

Consideremos dos muestras independientes de tamaños n1 y n2
(x11 , y11 ), (x12 , y12 ), . . . , (x1n1 , y1n1 )
(x21 , y21 ), (x22 , y22 ), . . . , (x2n1 , y2n1 )

sobre la misma variable regresora x y la misma variable respuesta Y con distribución

normal, pero para dos poblaciones distintas.

103
Los dos modelos de regresión simple para las dos poblaciones por separado son

y1i = α1 + β1 x1i + 1i i = 1, . . . , n1

y2i = α2 + β2 x2i + 2i i = 1, . . . , n2

y sus estimadores MC son

1/2
Syh
α̂h = ȳh − β̂h x̄h β̂h = rh h = 1, 2
Sxh
donde x̄h , Sxh , ȳh , Syh , rh son las medias, sumas de cuadrados de las desviaciones y coefi-
ciente de correlación para cada una de las muestras h = 1, 2 respectivamente.
También deberemos considerar x̄, Sx , ȳ, Sy , r las medias, sumas de cuadrados de las des-
viaciones y coeficiente de correlación de las dos muestras conjuntamente.
Vamos a considerar las dos regresiones simples como un único modelo lineal. Para ello
hacemos
Y = (y11 , . . . , y1n1 , y21 , . . . , y2n2 )0
y  
1 0 x11 0
 .. .. .. ..   
. . . .  α1
 
1 0 x1n1 0  α2 
Xγ =   
0 1 0 x21   β1 
. .. .. .. 
 .. . . .  β2
0 1 0 x2n2
donde X es (n1 + n2 ) × 4 de rg(X) = 4.
Ası́ pues, el modelo que presenta a las dos regresiones simples conjuntamente Y = Xγ +
es un modelo lineal siempre que los errores verifiquen las condiciones de Gauss-Markov.
Entonces es necesario suponer que las varianzas de los errores para las dos poblaciones
son iguales σ12 = σ22 .
Para este modelo lineal, las estimaciones MC de los parámetros α1 , α2 , β1 , β2 coinciden
con las estimaciones MC de las rectas por separado α̂1 , α̂2 , β̂1 , β̂2 y la suma de cuadrados
residual es
n1
X n2
X
2
SCR = (y1i − α̂1 − β̂1 x1i ) + (y2i − α̂2 − β̂2 x2i )2
i=1 i=1
(6.15)
= SCR1 + SCR2 = Sy1 (1 − r12 ) + Sy2 (1 − r22 )
= Sy1 − β̂12 Sx1 + Sy2 − β̂22 Sx2

Para contrastar la hipótesis de homogeneidad de varianzas H0 : σ22 = σ22 podemos utilizar

el estadı́stico
SCR1 /(n1 − 2)
F = ∼ Fn1 −2,n2 −2
SCR2 /(n2 − 2)
y la estimación de la varianza común es

ECM = SCR/(n1 + n2 − 4)

También se pueden utilizar los contrastes que se explican en la sección 6.7.3.

104
Test de coincidencia

Se trata de investigar si las dos rectas se pueden considerar iguales, es decir, vamos a
contrastar la hipótesis
H0 : α 1 = α 2 , β 1 = β 2
Ésta es una hipótesis lineal contrastable (el modelo es de rango máximo) del tipo H0 :
Aγ = 0 con  
α1
1 −1 0 0  
 α2 
Aγ =
0 0 1 −1  β1 
β2
donde A es 2 × 4 y q = rg A = 2. Luego podrı́amos utilizar las fórmulas obtenidas para
el contraste. Sin embargo, en este caso es mucho más fácil calcular directamente la suma
de cuadrados bajo la hipótesis.
Bajo H0 la estimación MC de los parámetros comunes α = α1 = α2 y β = β1 = β2 es
sencillamente la que se obtiene del modelo lineal conjunto, es decir, una única recta de
regresión con todos los datos juntos:

α∗ = ȳ − β ∗ x̄
1/2
∗ Sy
β =r
Sx

Luego
n1
X n2
X
∗ ∗ 2
SCRH = (y1i − α − β x1i ) + (y2i − α∗ − β ∗ x2i )2
i=1 i=1
= Sy (1 − r2 )

De modo que el estadı́stico F es

(SCRH − SCR)/2 (Sy (1 − r2 ) − SCR)/2

F = = (6.16)
SCR/(n1 + n2 − 4) ECM

con distribución F2,n1 +n2 −4 , si H0 es cierta.

Test de paralelismo

Ahora queremos comprobar la hipótesis

H00 : β1 = β2

para la que A es 1 × 4 y q = rg A = 1.
Bajo H00 , la estimación MC de los parámetros α1 , α2 y β = β1 = β2 se obtiene de la
minimización de
n1
X n2
X
2
ξ= (y1i − α1 − βx1i ) + (y2i − α2 − βx2i )2
i=1 i=1

105
Las derivadas parciales son
X 1n
∂ξ
= 2(y1i − α1 − βx1i )(−1)
∂α1 i=1
X 2n
∂ξ
= 2(y2i − α2 − βx2i )(−1)
∂α2 i=1
X 1n X 2 n
∂ξ
= 2(y1i − α1 − βx1i )(−x1i ) + 2(y2i − α2 − βx2i )(−x2i )
∂β i=1 i=1

Al igualar a cero, de las dos primeras ecuaciones tenemos

α̃1 = ȳ1 − β̃ x̄1 α̃2 = ȳ2 − β̃ x̄2

y si sustituimos en la tercera ecuación

Pn1 P 2
x1i (y1i − ȳ1 ) + ni=1 x (y − ȳ2 )
β̃ = Pn1 i=1 Pn2 2i 2i
x1i (x1i − x̄1 ) + i=1 x2i (x2i − x̄2 )
P2i=1 Pnh
(xhi − x̄h )(yhi − ȳh )
= h=1 P2 i=1Pnh 2
h=1 i=1 (xhi − x̄h )
r1 (Sx1 Sy1 )1/2 + r2 (Sx2 Sy2 )1/2
=
Sx1 + Sx2
De modo que la suma de cuadrados es
n1
X n2
X
SCRH 0 = (y1i − α̃1 − β̃x1i )2 + (y2i − α̃2 − β̃x2i )2
i=1 i=1
X2 Xnh
= (yhi − ȳh − β̃(xhi − x̄h ))2
h=1 i=1
X2 X nh nh
2 X
X
2 2
= (yhi − ȳh ) − β̃ (xhi − x̄h )2
h=1 i=1 h=1 i=1

y el numerador del test F es

2
X nh
X nh
2 X
X
SCRH 0 − SCR = β̂h2 2
(xhi − x̄h ) − β̃ 2
(xhi − x̄h )2
h=1 i=1 h=1 i=1

Finalmente el estadı́stico F se puede escribir

β̂12 Sx1 + β̂22 Sx2 − β̃ 2 (Sx1 + Sx2 )

F =
ECM
que bajo la hipótesis sigue una distribución F1,n1 +n2 −4 .
En la práctica, primero se realiza un test de paralelismo y, si se acepta, se realiza el test
cuyo estadı́stico es
SCRH 0 − SCRH
F =
SCRH /(n1 + n2 − 3)
Finalmente, y si este último ha sido no significativo, procederemos con el contraste de
coincidencia.

106
Test de concurrencia

Se trata de comprobar la igualdad de los términos independientes de las dos rectas, es

decir
H000 : α1 = α2
Como en el apartado anterior, se puede ver que el mı́nimo de la función
n1
X n2
X
∗ 2
ξ = (y1i − α − β1 x1i ) + (y2i − α − β2 x2i )2
i=1 i=1

se alcanza cuando
−1 Pn1 P 2
x2 x22· x1· x1i y1i x2· ni=1 x2i y2i
ᾰ = n1 + n2 − Pn11· − Pn2 2 y·· − i=1
Pn1 2 − Pn2 2
x21i
i=1 i=1 x2i i=1 x1i i=1 x2i
Pn1 Pn2
i=1 (y1i − ᾰ)x1i (y2i − ᾰ)x2i
β̆1 = Pn1 2 β̆2 = i=1Pn2 2
i=1 x1i i=1 x2i
P P h P 1 P 2
donde y·· = 2h=1 ni=1 yhi , x1· = ni=1 x1i y x2· = ni=1 x2i .
Con estos resultados se puede calcular la suma de cuadrados
nh
2 X
X
SCRH 00 = (yhi − ᾰ − β̆h xhi )2
h=1 i=1

y el estadı́stico
SCRH 00 − SCR
F =
ECM
00
que, bajo H0 , sigue una distribución F1,n1 +n2 −4 .
El test que acabamos de ver contrasta la concurrencia de las dos rectas en x = 0. Si
deseamos comprobar la concurrencia en un punto x = c, bastará aplicar este mismo test
sustituyendo los datos xhi por xhi − c. Si lo que queremos es saber simplemente si las
rectas se cortan (en algún punto), es suficiente con rechazar la hipótesis de paralelismo.

6.7.2. Varias rectas

Supongamos que tenemos la intención de comparar H rectas de regresión

Y = α h + β h xh + h = 1, . . . , H

donde E() = 0 y var() = σ 2 es la misma para cada recta. Esta última condición
es absolutamente imprescindible para poder aplicar los contrastes estudiados al modelo
lineal conjunto que ahora describiremos.
Para cada h, consideremos los nh pares (xhi , yhi ) i = 1, . . . , nh de modo que

yhi = αh + βh xhi + hi i = 1, . . . , nh

con hi independientes e idénticamente distribuidos como N (0, σ 2 ).

107
Sea Y = (y11 , . . . , y1n1 , . . . , yH1 , . . . , yHn2 )0 y
 
α1
 α2 
  .. 
1 0 ··· 0 x1 0 ··· 0  
 . 
 0 1 ··· 0 0 x2 ··· 0  
  αH 
Xγ =  .... . . .. .. .. ... ..  
 . . . . . . .  β1 
 
0 0 ··· 1 0 0 · · · xH  β2 
 .. 
 . 
βH

donde xh = (xh1 , . . . , xhnh )0 , para cada h = 1, . . . , H.

Con todo ello disponemos del modelo lineal

Y = Xγ +
P
donde X es N × 2H, con rg(X) = 2H y N = H h=1 nh .
De esta forma podemos contrastar cualquier hipótesis lineal de la forma H0 : Aγ = c.
La estimación MC de los parámetros αh , βh de este modelo se obtiene de cada recta
particular
P 1/2
i (yP
hi − ȳh· )(xhi − x̄h· ) Syh
β̂h = 2
= rh
i (xhi − x̄h· ) Sxh
α̂h = ȳh· − β̂h x̄h·
donde x̄h· , Sxh , ȳh· , Syh , rh son las medias, sumas de cuadrados de las desviaciones y coe-
ficiente de correlación para cada una de las muestras h = 1, . . . , H respectivamente.
También la suma de cuadrados general SCR es simplemente la suma de las sumas de
cuadrados de los residuos de cada recta de regresión por separado
H nh nh
!
X X X
2 2 2
SCR = (yhi − ȳh· ) − β̂h (xhi − x̄h· )
h=1 i=1 i=1
XH H
X
= SCRh = Syh (1 − rh2 )
h=1 h=1
XH
= Syh − β̂h2 Sxh
h=1

Test de coincidencia

Se trata de investigar si las rectas son iguales, es decir, si

H0 : α1 = α2 = · · · = αH (= α) ; β1 = β2 = · · · = βH (= β)

que podemos escribir matricialmente con una matriz A de tamaño (2H − 2) × 2H de

rango 2H − 2.

108
A partir de las estimaciones MC de los parámetros α, β que se obtienen de la recta
ajustada con todos los puntos reunidos en una única muestra, la suma de cuadrados
residual es
nh
H X
X
SCRH = (yhi − ȳ·· − β ∗ (xhi − x̄·· ))2
h=1 i=1
XH X nh nh
H X
X
2
= (yhi − ȳ·· ) − (β )∗ 2
(xhi − x̄·· )2
h=1 i=1 h=1 i=1
2
= Sy (1 − r )

donde P P 1/2
∗ (y hi − ȳ ·· )(x hi − x̄ ·· ) Sy
β = h Pi P 2
=r
h i (xhi − x̄·· ) Sx
y los estadı́sticos x̄·· , Sx , ȳ·· , Sy , r son las medias, sumas de cuadrados de las desviaciones
y coeficiente de correlación de la muestra conjunta.
Entonces el estadı́stico F para el contraste de esta hipótesis es

(SCRH − SCR)/(2H − 2)
F = (6.17)
SCR/(N − 2H)

Contraste de paralelismo

Ahora se trata de investigar si las pendientes de las rectas son iguales, es decir, si

H00 : β1 = β2 = · · · = βH

que matricialmente es equivalente a

 
0 0 ··· 0 1 0 ··· 0 −1
 0 0 ··· 0
 0 1 ··· 0 −1  α
H00 :  .. .. . . .. .... . . .. ..  β = 0
 . . . . . . . . . 
0 0 ··· 0 0 0 ··· 1 −1

En este caso, la matriz A que representa las restricciones de los parámetros es (H −1)×2H
y su rango es H − 1. De modo que tomando, en el contraste F , los valores q = H − 1,
n = N y k = 2H, el estadı́stico especificado para este contraste es

(SCRH 0 − SCR)/(H − 1)
F =
SCR/(N − 2H)

Para calcular el numerador de este estadı́stico podemos proceder con las fórmulas ge-
nerales estudiadas u observar las peculiaridades de este modelo que permiten obtener
SCRH 0 .
P P
Primero hay que minimizar h i (yhi −αh −βxhi )2 , de donde se obtienen los estimadores

α̃h = ȳh· − β̃ x̄h· h = 1, . . . , H

109
P P
xhi (yhi − ȳh· )
β̃ = P h P i
x (x − x̄h· )
Ph Pi hi hi
(yhi − ȳh· )(xhi − x̄h· )
= h Pi P 2
h i (xhi − x̄h· )
P
rh (Sxh Syh )1/2
= h P
h Sxh

Este último estimador es un estimador conjunto (pooled ) de la pendiente común.

Con estas estimaciones se procede a calcular la suma de cuadrados
H
X H
X
SCRH 0 = Syh − β̃ 2 Sxh
h=1 h=1

y el estadı́stico F es P P
( h β̂h2 Sxh − β̃ 2 h Sxh )/(H − 1)
F =
SCR/(N − 2H)
que bajo H00 sigue una distribución FH−1,N −2H .
En la práctica, es aconsejable comenzar por un contraste de paralelismo y, si se acepta,
continuar con el contraste cuyo estadı́stico es

(SCRH 0 − SCRH )/(H − 1)

F =
SCRH /(N − H − 1)

Finalmente, y si este último ha sido no significativo, procederemos con el contraste 6.17.

Test de concurrencia

Deseamos contrastar la hipótesis de que todas las rectas se cortan en un punto del eje de
las Y , es decir, para x = 0:

H000 : α1 = α2 = · · · = αH (= α)

En este caso, las estimaciones de los parámetros bajo la hipótesis son

−1 P P
x21· x2H· x1· i x1i y1i xH· i xHi yHi
ᾰ = N − P 2 − · · · − P 2 y·· − P 2 − ··· − P 2 −
i x1i i xHi i x1i i xHi
P
(yhi − ᾰ)xhi
β̆h = i P 2 h = 1, 2, . . . , H
i xhi
P P P
donde xh· = i xhi y y·· = h i yhi .
La suma de cuadrados residual es
XX
SCRH 00 = (yhi − ᾰ − β̆h xhi )2
h i

y con ella se puede calcular el estadı́stico F para el contraste

(SCRH 00 − SCR)/(H − 1)
F =
SCR/(N − 2H)

110
Cuando los valores de las x son los mismos para todas las rectas, tenemos que nh = n y
xhi = xi para toda h = 1, . . . , H y ası́ las fórmulas son más simples
−1 P
Hx2· x· i xi y·i
ᾰ = Hn − P 2 y·· − P 2
i xi i xi
P P P
x̄ h i yhi (xi − x̄) β̂h
= ȳ·· − P 2
= ȳ·· − x̄ h
H i (xi − x̄) H

donde cada β̂h es la estimación de la pendiente de la h-ésima recta, mientras que ᾰ es el

corte de la recta de regresión media.
En este caso
XX P P P
2 ( h i xi yhi )2 2 (xi − x̄)2
SCRH 00 = yhi − P 2 − ᾰ Hn i P 2
h i i xi i xi

Además, como ȳ·· y β̂h están incorrelacionados

var(β̂h )
var(ᾰ) = var(ȳ·· ) + H x̄2
H2 P
σ 2
1 x̄ 2
σ 2 i x2i
= +P 2
= P
H n i (xi − x̄) nH i (xi − x̄)2

de modo que tenemos la posibilidad de construir un intervalo de confianza para α ya que

P 1/2
nH i (xi − x̄)2
(ᾰ − α) P ∼ tH(n−2)
ECM i x2i

donde ECM = SCR/(nH − 2H).

Por otra parte, también podemos estudiar si las rectas se cortan en un punto x = c distinto
del cero. Simplemente reemplazaremos xhi por xhi − c en todas las fórmulas anteriores.
La coordenada y del punto de corte sigue siendo estimada por ᾰ.
Sin embargo, si el punto de corte es desconocido x = φ, la hipótesis a contrastar es mucho
más complicada

H0000 : αh + βh φ = cte. = ᾱ + β̄φ h = 1, 2, . . . , h

o también
α1 − ᾱ αH − ᾱ
H0000 : = ··· =
β1 − β̄ βH − β̄
y desgraciadamente no es lineal.

6.7.3. Contraste para la igualdad de varianzas

En los contrastes de comparación de rectas se hace la suposición de la igualdad de las
varianzas σh2 de los modelos lineales simples h = 1, . . . , H.
Los estimadores de dichas varianzas son los errores cuadráticos medios particulares
P
2 (yhi − ȳh· − β̂h (xhi − x̄h· ))2
Sh = i
nh − 2

111
y sabemos que

(nh − 2)Sh2 /σh2 ∼ χ2nh −2 h = 1, . . . , H indep.

Para contrastar la hipótesis

H0 : σ12 = · · · = σH
2

hay varios métodos, desde los más clásicos de Bartlett(1937) o Hartley(1950), muy sensi-
bles a la no normalidad de los datos, hasta los más robustos entre los que destaca el de
Levene con sus variantes.
Si hacemos fh = nh − 2, el test de Bartlett es
P P
( fh )logS 2 − (fh logSh2 )
T =
C
donde P P P
fh S 2 fh−1 − ( fh )−1
S = P h
2
C =1+
fh 3(H − 1)
Si H0 es cierta, aproximadamente T ∼ χ2H−1 .
Cuando los fh son todos iguales, Hartley propone el estadı́stico

máx{S12 , . . . , SH
2
}
F = 2 2
mı́n{S1 , . . . , SH }

Sin embargo, como se trata de comparar las varianzas a partir de las observaciones o
réplicas de H poblaciones, es mejor considerar el problema como un análisis de la varianza
de un factor. La prueba robusta de Levene sobre la homogeneidad de varianzas se basa
en el análisis de la varianza de un factor con los datos zhi = |yhi − ȳh· |. Para reforzar la
resistencia del método se puede utilizar como medida de localización la mediana.
Finalmente podemos añadir que, cuando la heterogeneidad de las varianzas es evidente,
siempre es posible estudiar alguna transformación potencia de los datos originales y hi que
mejore la situación.

6.8. Un ejemplo para la reflexión

La siguiente tabla presenta cinco conjuntos de datos para cinco modelos de regresión
simple diferentes: los datos bajo el encabezamiento x1 (a-d) son los valores de una variable
regresora que es común en las cuatro regresiones con las variables respuesta y(a), y(b),
y(c) y y(d). Las series de datos x(e) y y(e) definen otra regresión.
Se puede comprobar que, en los cinco casos, la regresión de y sobre x conduce exactamente
a la misma recta
y = 0,520 + 0,809x
La varianza explicada, la no explicada i la varianza residual son idénticas en todas las
regresiones, ası́ como también el coeficiente de determinación.
Por lo tanto, las cinco regresiones parecen ser formalmente idénticas. A pesar de ello, si
dibujamos en cada caso los diagramas de dispersión y la recta de regresión, observaremos
que nuestra impresión se modifica radicalmente: en la página 114 tenemos los gráficos
para los cinco conjuntos de datos.

112
obs. x1 (a-d) y(a) y(b) y(c) y(d) x(e) y(e)
1 7 5,535 0,103 7,399 3,864 13,715 5,654
2 8 9,942 3,770 8,546 4,942 13,715 7,072
3 9 4,249 7,426 8,468 7,504 13,715 8,496
4 10 8,656 8,792 9,616 8,581 13,715 9,909
5 12 10,737 12,688 10,685 12,221 13,715 9,909
6 13 15,144 12,889 10,607 8,842 13,715 9,909
7 14 13,939 14,253 10,529 9,919 13,715 11,327
8 14 9,450 16,545 11,754 15,860 13,715 11,327
9 15 7,124 15,620 11,676 13,967 13,715 12,746
10 17 13,693 17,206 12,745 19,092 13,715 12,746
11 18 18,100 16,281 13,893 17,198 13,715 12,746
12 19 11,285 17,647 12,590 12,334 13,715 14,164
13 19 21,385 14,211 15,040 19,761 13,715 15,582
14 20 15,692 15,577 13,737 16,382 13,715 15,582
15 21 18,977 14,652 14,884 18,945 13,715 17,001
16 23 17,690 13,947 29,431 12,187 33,281 27,435

Tabla 6.4: Datos de cinco regresiones simples

número de obs. n = 16 β̂1 = 0,809 ee(β̂1 )=0,170

media de las x1 x̄1 = 14,938 β̂0 = 0,520 ee(β̂0 )=2,668
media de las y ȳ = 12,600 R2 = 0,617
P P
(yi − ȳ)2 = 380,403 con 15 g.l. (yi − ŷi )2 = 145,66 con 14 g.l.
σ̂ = 3,226

Tabla 6.5: Principales resultados de la regresión simple

La figura a es la que representan todos los manuales que explican la regresión simple.
El modelo de la regresión lineal simple parece correcto y adaptado a los datos que
permite describir correctamente. El modelo parece válido.

La figura b sugiere que el modelo lineal simple no está absolutamente adaptado

a los datos que pretende describir. Más bien, la forma adecuada es la cuadrática
con una débil variabilidad. El modelo lineal simple es incorrecto; en particular,
las predicciones que él proporciona son sesgadas: subestimaciones para los valores
próximos a la media de x y sobreestimaciones para el resto.

La figura c sugiere todavı́a que el modelo lineal simple no se adapta a los datos,
pero una única observación parece ser la causa. Por contra, las otras observaciones
están bien alineadas pero respecto a otra recta de ecuación y = 4,242+0,503x1 . Hay
pues, un dato verdaderamente sospechoso. La reacción natural del experimentador
será la de investigar con detalle la razón de esta desviación. ¿No será un error de
transcripción? ¿Hay alguna causa que justifique la desviación y que no tiene en
cuenta el modelo lineal simple?

113
30 a 30 b

20 20

10 10

0 0
0 10 20 30 0 10 20 30

30 c 30 d

20 20

10 10

0 0
0 10 20 30 0 10 20 30

30 e

0
0 10 20 30

Figura 6.2: Gráficos de los cinco conjuntos de datos con la recta de regresión

La figura d tiene un análisis más sutil: los puntos rodean la recta, pero aumentan
las desviaciones a medida que crecen los valores de la variable regresora. Se hace
evidente que la suposición de una varianza común de los residuos no se verifica.

Finalmente, la figura e es más contundente: el modelo parece correcto. Si la calidad

de los datos no puede ponerse en duda, este conjunto es tan válido como el primero
y los resultados numéricos de la regresión son correctos. Pero nosotros intuimos que
este resultado no es lo suficientemente satisfactorio: todo depende de la presencia

114
de un único punto, si lo suprimimos, incluso no será posible calcular la pendiente
de la recta, ya que la suma de los cuadrados de las desviaciones de las x es cero.
Éste no es el caso del primer conjunto de datos, donde la supresión de un punto no
conduce más que a una ligera modificación de los resultados. Ası́ pues, deberı́amos
ser extremadamente cautos con las posibles utilizaciones de este modelo. Además,
debemos indicar que el experimento definido por los valores de x es muy malo.

Naturalmente, los conjuntos de datos b, c, d y e muestran casos extremos que, en la

práctica, no hallaremos de forma tan clara. Ésta es una razón suplementaria para dotar al
experimentador de medios para detectarlos. Cuando las desviaciones de las suposiciones
del modelo son débiles, los resultados no serán erróneos, pero si las suposiciones son
groseramente falsas, las conclusiones pueden incluso no tener sentido. La herramienta
fundamental para la validación de las hipótesis del modelo es el análisis de los residuos
del modelo estimado.
El análisis de los residuos tiene como objetivo contrastar a posteriori las hipótesis del
modelo lineal. Es especialmente importante cuando, si tenemos un único valor de y para
cada x, los contrastes de homocedasticidad, normalidad e independencia no se pueden
hacer a priori. Analizaremos los residuos para comprobar:

a) si la distribución es aproximadamente normal;

b) si su variabilidad es constante y no depende de x o de otra causa;

c) si presentan evidencia de una relación no lineal entre las variables;

d) si existen observaciones atı́picas o heterogéneas respecto a la variable x, la y o

ambas.

6.9. Ejemplos con S-PLUS

Vamos a recuperar el ejemplo de la sección 1.8 donde se calculan algunas regresiones a
partir del ejemplo inicial con los datos de la tabla 1.1. En esa sección, el cálculo de la
regresión simple se realiza con la función lsfit(x,y) que asignamos al objeto recta.ls

> recta.ls<-lsfit(dens,rvel)

Ahora utilizaremos la función lm que define el modelo de regresión simple.

> recta<-lm(rvel~dens)
> recta
Call:
lm(formula = rvel ~ dens)

Coefficients:
(Intercept) dens
8.089813 -0.05662558

Degrees of freedom: 24 total; 22 residual

Residual standard error: 0.2689388

115
También se pueden obtener otros datos importantes con la función summary:

> recta.resumen<-summary(recta)
> recta.resumen

Call: lm(formula = rvel ~ dens)

Residuals:
Min 1Q Median 3Q Max
-0.3534 -0.2272 -0.03566 0.1894 0.5335

Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) 8.0898 0.1306 61.9295 0.0000
dens -0.0566 0.0022 -26.0076 0.0000

Residual standard error: 0.2689 on 22 degrees of freedom

Multiple R-Squared: 0.9685
F-statistic: 676.4 on 1 and 22 degrees of freedom, the p-value is 0

Correlation of Coefficients:
(Intercept)
dens -0.9074

Además se puede acceder a muchos valores de los objetos recta y recta.resumen de

forma directa.

> recta$coef
(Intercept) dens
8.089813 -0.05662558
> recta.resumen$sigma
[1] 0.2689388

En general, podemos saber los diferentes resultados que se obtienen con el comando lm
si escribimos names(recta) o names(summary(recta)).

> names(recta)
[1] "coefficients" "residuals" "fitted.values" "effects" "R" "rank"
[7] "assign" "df.residual" "contrasts" "terms" "call"
> names(summary(recta))
[1] "call" "terms" "residuals" "coefficients" "sigma" "df"
[7] "r.squared" "fstatistic" "cov.unscaled" "correlation"

De modo que podemos utilizar estos datos para nuevos cálculos. Por ejemplo podemos cal-
cular la matriz estimada de covarianzas entre los estimadores de los parámetros σ̂ 2 (X0 X)−1
ası́:

> cov.beta<-round(recta.resumen$sigma^2*recta.resumen$cov.unscaled,6)
> cov.beta
(Intercept) dens
(Intercept) 0.017064 -0.000258
dens -0.000258 0.000005

116
Por otra parte, y aunque el resumen proporcionado por la función summary(recta) inclu-
ye el test F de significación de la regresión, la tabla del Análisis de la Varianza se puede
calcular con la función aov.

> summary(aov(recta))
Df Sum of Sq Mean Sq F Value Pr(F)
dens 1 48.92231 48.92231 676.3944 0
Residuals 22 1.59122 0.07233

También se pueden calcular intervalos de confianza al 95 % para los parámetros β0 , β1 .

> coef(recta)
(Intercept) dens
8.089813 -0.05662558
> coef.recta<-coef(recta)
> names(coef.recta)
[1] "(Intercept)" "dens"
> names(coef.recta)<-NULL # Truco para utilizar mejor los coeficientes
> coef.recta
1 2
8.089813 -0.05662558
> ee0<-sqrt(cov.beta[1,1])
> ee1<-sqrt(cov.beta[2,2])
> c(coef.recta[1]+qt(0.025,22)*ee0,coef.recta[1]+qt(0.975,22)*ee0)
[1] 7.818905 8.360721
> c(coef.recta[2]+qt(0.025,22)*ee1,coef.recta[2]+qt(0.975,22)*ee1)
[1] -0.06126290 -0.05198826

Cabe señalar que si el modelo de regresión simple debe pasar por el origen, es decir, no
tiene término de intercepción, podemos utilizar la función lsfit(x,y,int=F) o la función
lm(y ~ x - 1).
La predicción puntual o por intervalo de nuevos valores de la variable respuesta se puede
hacer con la función predict del modelo lineal. Atención, porque los argumentos en
S-PLUS y R difieren.
Por último, podemos añadir que en R existe un conjunto de datos similares a los explicados
en la sección 6.8:

> data(anscombe)
> summary(anscombe)

117
6.10. Ejercicios
Ejercicio 6.1
Probar que bajo el modelo lineal normal yi = β0P + β1 xi + i las estimaciones MC β̂0 , β̂1
son estocásticamente independientes si y sólo si xi = 0.

Ejercicio 6.2
Comprobar que la pendiente de la recta de regresión es
1/2
Sy sy
β̂1 = r 1/2
=r
Sx sx

donde r es el coeficiente de correlación

Sxy sxy
r= =
(Sx Sy )1/2 sx sy

Ejercicio 6.3
Consideremos el modelo de regresión simple alternativo

yi = γ0 + γ1 (xi − x̄) + i i = 1, . . . , n

La matriz de diseño asociada es X∗ = (1, x− x̄1) donde 1 = (1, . . . , 1)0 y x = (x1 , . . . , xn )0 .

Este modelo es equivalente al modelo 6.1 ya que hX∗ i = hXi.
Calcular las estimaciones γb = (X0∗ X∗ )−1 X0∗ Y para comprobar que

γ̂0 = ȳ
X xi − x̄
γ̂1 = β̂1 = yi
Sx

Calcular la matriz de varianzas-covarianzas var(b γ ) = σ 2 (X0∗ X∗ )−1 y comprobar que

γ̂0 = ȳ está incorrelacionado con γ̂1 = β̂1 . A partir de este resultado, calcular var(β̂1 ) =
var(γ̂1 ) y var(β̂0 ) = var(ȳ − β̂1 x̄).
Calcular también la matriz proyección P = X∗ (X0∗ X∗ )−1 X0∗ = X(X0 X)−1 X0 .

Ejercicio 6.4
En un modelo de regresión simple, con β0 , demostrar que se verifican las siguientes pro-
piedades para las predicciones ŷi = β̂0 + β̂1 xi y los residuos ei = yi − ŷi :
P
(i) La suma de los residuos es cero: ei = 0.
P P
(ii) yi = ŷi

(iii) La
P suma de los residuos ponderada por los valores de la variable regresora es cero:
xi ei = 0.

(iv) La sumaPde los residuos ponderada por las predicciones de los valores observados
es cero: ŷi ei = 0.

118
Ejercicio 6.5 Modelo de regresión simple estandarizado
A partir de los datos observados de una variable respuesta yi y de una variable regresora
xi se definen unas nuevas variables estandarizadas como
xi − x̄ yi − ȳ
ui = 1/2
vi = 1/2
i = 1, . . . , n
Sx Sy

La estandarización significa que los datos transformados están centrados y los vectores
u = (u1 , . . . , un )0 , v = (v1 , . . . , vn )0 son de longitud uno, es decir, ||u|| = 1 y ||v|| = 1.
Se define el modelo de regresión simple estandarizado como

v i = b 1 ui + i i = 1, . . . , n

En este modelo desaparece de manera natural la ordenada en el origen al realizar el

cambio de variables.
Comprobar que
r
Sy
β̂1 = b̂1
Sx
β̂0 = ȳ − β̂1 x̄

Además, la “matriz” u0 u = ||u||2 = 1 y la estimación de b1 es muy sencilla b̂1 = r.

Ejercicio 6.6
En el caso de una regresión lineal simple pasando por el origen y con la hipótesis de
normalidad, escribir el contraste de la hipótesis H0 : β1 = b1 , donde b1 es una constante
conocida.

Ejercicio 6.7
Para el modelo lineal simple consideremos la hipótesis

H 0 : y 0 = β 0 + β 1 x0

donde (x0 , y0 ) es un punto dado. Esta hipótesis significa que la recta de regresión pasa
por el punto (x0 , y0 ). Construir un test para esta hipótesis.

Ejercicio 6.8
Hallar la recta de regresión simple de la variable respuesta raı́z cuadrada de la velocidad
sobre la variable regresora densidad con los datos de la tabla 1.1 del capı́tulo 1.
Comprobar las propiedades del ejercicio 6.4 para estos datos.
Calcular la estimación de σ 2 y, a partir de ella, las estimaciones de las desviaciones
estándar de los estimadores de los parámetros β̂0 y β̂1 .
Escribir los intervalos de confianza para los parámetros con un nivel de confianza del
95 %.
Construir la tabla para la significación de la regresión y realizar dicho contraste.
Hallar el intervalo de la predicción de la respuesta media cuando la densidad es de 50
vehı́culos por km. Nivel de confianza: 90 %.

119
Ejercicio 6.9
Comparar las rectas de regresión de hombres y mujeres con los logaritmos de los datos
del ejercicio 1.4.

Ejercicio 6.10
Se admite que una persona es proporcionada si su altura en cm es igual a su peso en kg
más 100. En términos estadı́sticos si la recta de regresión de Y (altura) sobre X (peso)
es
Y = 100 + X
Contrastar, con un nivel de significación α = 0,05, si se puede considerar válida esta
hipótesis a partir de los siguientes datos que corresponden a una muestra de mujeres
jóvenes:

X : 55 52 65 54 46 60 54 52 56 65 52 53 60
Y : 164 164 173 163 157 168 171 158 169 172 168 160 172

Razonar la bondad de la regresión y todos los detalles del contraste.

Ejercicio 6.11
q
El perı́odo de oscilación de un péndulo es 2π gl , donde l es la longitud y g es la constante
de gravitación. En un experimento observamos tij (j = 1, . . . , ni ) perı́odos correspondien-
tes a li (i = 1, . . . , k) longitudes.

(a) Proponer un modelo, con las hipótesis que se necesiten, para estimar la constante
2π
√
g
por el método de los mı́nimos cuadrados.

(b) En un experimento se observan los siguientes datos:

longitud perı́odo
18,3 8,58 7,9 8,2 7,8
20 8,4 9,2
21,5 9,7 8,95 9,2
15 7,5 8

2π
Contrastar la hipótesis H0 : √
g
= 2.

120
Capı́tulo 7

Una recta resistente

Para ajustar una linea recta de la forma

y = a + bx

a un conjunto de datos (xi , yi ), i = 1, . . . , n se han desarrollado varios métodos a lo largo

de la historia. La regresión por mı́nimos cuadrados que hemos explicado es el método
más conocido y más ampliamente utilizado. Es un método que involucra cálculos alge-
braicamente simples, utiliza la inferencia deducida para la distribución normal y requiere
únicamente una derivación matemática sencilla. Desgraciadamente, la recta de regresión
mı́nimo-cuadrática no es resistente. Un dato “salvaje” puede tomar fácilmente el control
de la recta ajustada y conducirnos a conclusiones engañosas sobre la relación entre y y
x. La llamada recta resistente de los tres grupos evita esta dificultad. Ası́, esta recta es
muy útil en la exploración de los datos y-versus-x.
A continuación exponemos las principales ideas en este tema del clásico libro Understan-
ding Robust and Exploratory Data Analysis de Hoaglin, Mosteller y Tukey [35].

7.1. Recta resistente de los tres grupos

7.1.1. Formación de los tres grupos
Empezaremos por ordenar los valores x de manera que x1 ≤ x2 ≤ · · · ≤ xn . Entonces,
sobre la base de estos valores ordenados, dividiremos los n puntos (xi , yi ) en tres grupos:
un grupo izquierdo, un grupo central y un grupo derecho, de tamaño tan igual como sea
posible. Cuando no hay repeticiones en les xi , el número de puntos en cada uno de los
tres grupos depende del residuo de la división de n por 3:

Grupo n = 3k n = 3k + 1 n = 3k + 2
Izquierdo k k k+1
Central k k+1 k
Derecho k k k+1

Repeticiones de los xi nos harán estar alerta para formar tres conjuntos que no separen
los puntos con igual x en conjuntos diferentes. Un examen detallado del tratamiento de
las repeticiones nos puede llevar incluso a formar únicamente dos grupos. Cuando cada
uno de los tercios ha sido definitivamente formado, determinaremos las dos coordenadas
de unos puntos centrales, uno para cada grupo, con la mediana de los valores de las x y

121
la mediana de los valores de las y, por separado. Etiquetaremos las coordenadas de estos
tres puntos centrales con las letras I de izquierda, C de centro i D de derecha:

(xI , yI ), (xC , yC ), (xD , yD )

La figura 7.1 muestra los puntos observados y los puntos centrales de un ejemplo hipotético
con 9 puntos. Como se ve en este gráfico, ninguno de los puntos centrales coincide con un
punto de los datos, ya que las medianas de les x y de las y se han calculado separadamente.
A pesar de ello, los tres podrı́an ser puntos observados, como ocurre a menudo, cuando
las x y las y siguen el mismo orden.

Figura 7.1: Puntos observados y puntos centrales en un ejemplo hipotético.

Este sistema de determinación de los puntos centrales de cada grupo es el que da a la

recta que calcularemos su resistencia. Cuanto mayor es el número de puntos observados
en cada grupo, la mediana proporciona la resistencia a los valores influyentes de x, y o
ambos.

7.1.2. Pendiente e intercepción

Ahora utilizaremos los puntos centrales para calcular la pendiente b y la ordenada en el
origen o intercepción a de la recta y = a + bx que ajusta los valores observados y permite
la predicción de los valores xi observados y cualquier otro valor apropiado de x. En este
sentido, la pendiente b nos dice cuantas unidades de y cambian por una unidad de x. Es
razonable obtener esta información de los datos, en concreto de los puntos centrales de
los grupos izquierdo y derecho:
yD − y I
b0 =
xD − x I
La utilización de los dos puntos centrales de los grupos extremos nos da la ventaja de
medir el cambio de y sobre un intervalo bastante ancho de x, siempre que hayan suficientes
puntos observados en estos grupos para asegurar la resistencia.
Cuando tomamos la pendiente b0 para ajustar el valor y de cada punto central, la dife-
rencia es el valor de la intercepción de una linea con pendiente b0 que pasa exactamente
por este punto. La intercepción ajustada es la media de estos tres valores:
1
a0 = [(yI − b0 xI ) + (yC − b0 xC ) + (yD − b0 xD )]
3
De nuevo, como los puntos centrales están basados en la mediana, a0 es resistente.

122
El ajuste de una recta en términos de pendiente e intercepción es convencional, pero
usualmente artificial. La intercepción, que da el valor de y cuando x = 0, puede ser
determinada de forma imprecisa, especialmente cuando los valores de x están todos muy
alejados del cero y el cero es un valor sin sentido en el rango de las x. Ajustar la recta
en términos de pendiente y un valor central de las x, como la media, la mediana o xC , es
mucho más útil. Nosotros escogeremos xC por conveniencia y entonces la recta inicial es

y = a∗0 + b0 (x − xC )

donde b0 es la de antes y el valor central (también llamado nivel) es

1
a∗0 = [(yI − b0 (xI − xC )) + yC + (yD − b0 (xD − xC ))]
3
Como ahora explicaremos, esta recta se toma como punto de partida para ajustar una
mejor con iteraciones sucesivas.

7.1.3. Ajuste de los residuos e iteraciones

Una vez que hemos obtenido la pendiente y el nivel de la recta ajustada, el siguiente paso
es calcular los residuos para cada punto

ri = yi − [a∗ + b(xi − xC )]

Los gráficos de los residuos son muy útiles en la evaluación del ajuste y para descubrir
patrones de comportamiento inesperados. Pero ahora, de momento, resaltaremos una pro-
piedad general de todo conjunto de residuos, en nuestro problema actual o en situaciones
más complejas:

Si substituimos los valores originales de y por los residuos, es decir, si utiliza-

mos (xi , ri ) en lugar de (xi , yi ), i = 1, . . . , n y repetimos el proceso de ajuste,
llegaremos a un ajuste cero.

Para una linea recta esto significa que, con los puntos (xi , ri ), i = 1, . . . , n como datos, ob-
tendremos una pendiente cero y un nivel cero. En otras palabras, los residuos no contienen
más aportación a la recta ajustada.
Una importante caracterı́stica de los procedimientos resistentes es que habitualmente
requieren iteraciones. Es el caso de la recta resistente de los tres grupos. Los residuos de
la recta con la pendiente b0 y el nivel a∗0 no tienen pendiente y nivel cero cuando hacemos
el ajuste de la recta con las mismas xi , aunque los nuevos valores de pendiente y nivel
son substancialmente menores (en magnitud) que b0 y a∗0 . Por esta razón, pensaremos en
b0 y a∗0 como los valores iniciales de una iteración.
El ajuste a una recta de los residuos obtenidos con la recta inicial da unos valores δ1 y γ1
a la pendiente y el nivel, respectivamente. En concreto, utilizaremos los residuos iniciales
(0)
ri = yi − [a∗0 + b0 (xi − xC )], i = 1, . . . , n

en lugar de los yi y repetiremos los pasos del proceso de ajuste. Como el conjunto de los
xi no ha cambiado, los tres grupos y las medianas de los x en los puntos centrales serán
los mismos.

123
Tabla 7.1: Edad y altura de unos niños en una escuela privada.
Niño Edad Altura
(meses) (cm)
1 109 137,6
2 113 147,8
3 115 136,8
4 116 140,7
5 119 132,7
6 120 145,4
7 121 135,0
8 124 133,0
9 126 148,5
10 129 148,3
11 130 147,5
12 133 148,8
13 134 133,2
14 135 148,7
15 137 152,0
16 139 150,6
17 141 165,3
18 142 149,9

Fuente: B.G. Greenberg (1953). “The use of analysis of covariance and balan-
cing in analytical studies”, American Journal of Public Health, 43, 692-699
(datos de la tabla 1, pág. 694).

La pendiente y el nivel ajustados son b0 + δ1 y a∗0 + γ1 y los nuevos residuos

(1) (0)
ri = ri − [γ1 + δ1 (xi − xC )], i = 1, . . . , n

Ahora podemos avanzar con otra iteración. En general no sabremos si hemos conseguido
un conjunto apropiado de residuos, hasta que verifiquemos el ajuste cero. En la práctica
continuaremos las iteraciones hasta que el ajuste de la pendiente sea suficientemente
pequeño en magnitud, del orden del 1 % o del 0,01 % del tamaño de b0 . Cada iteración
añade su pendiente y su nivel a los valores previos

b1 = b 0 + δ 1 , b 2 = b 1 + δ 2 , . . .

y
a∗1 = a∗0 + γ1 , a∗2 = a∗1 + γ2 , . . .
Las iteraciones son normalmente pocas y los cálculos no muy largos.

Ejemplo 7.1.1
En una discusión en 1953, Greenberg consideró los datos de edad y altura de dos muestras
de niños, una de una escuela privada urbana y la otra de una escuela pública rural. En
la tabla 7.1 se reproducen los datos de los 18 niños de la escuela privada.
Aunque los datos no siguen claramente una linea recta, su patrón no es notablemente
curvado y el ajuste a una linea puede resumir cómo la altura y crece con la edad x en

124
este grupo de niños. Sólo los niños 13 y 17 tienen puntos muy separados y veremos cómo
influyen en el conjunto. Dado que 18 es divisible por 3 y los datos x no tienen repeticiones,
cada grupo contiene seis puntos. Los puntos centrales de cada grupo son

(xI , yI ) = (115,50, 139,15)

(xC , yC ) = (127,50, 147,90)
(xD , yD ) = (138,00, 150,25)

de forma que el valor inicial de la pendiente es

150,25 − 139,15
b0 = = 0,4933
138,00 − 115,50
y el valor inicial del nivel
1
a∗0 = [(139,15−0,4933(115,5−127,5))+147,9+(150,25−0,4933(138−127,5))] = 146,0133
3

180

160
Altura

140

120
100 110 120 130 140 150
Edad

Figura 7.2: Altura versus edad para los niños de una escuela privada.

Los datos de la tabla 7.2 están ya ordenados en función de los valores de x = Edad y se
han calculado los residuos de la recta inicial.
Para ver cómo van las iteraciones, calcularemos los primeros ajustes de la pendiente y
del nivel
−1,0500 − 0,5367
δ1 = = −0,0705
138,00 − 115,50
γ1 = −0,1519

Notemos que δ1 es sustancialmente menor en magnitud que b0 , pero todavı́a no es negli-

gible. Dos iteraciones más nos proporcionan unos valores para los que el proceso puede
parar: δ3 = −0,0006 es menor que un 1 % de la pendiente acumulada.
La recta ajustada es
y = 145,8643 + 0,4285(x − 127,5)
La figura 7.3 representa los residuos de este ajuste. En general, el aspecto global es bas-
tante satisfactorio. Sólo los dos puntos destacados, el del niño 13 y el del niño 17, se
separan mucho y son atı́picos. También hay tres residuos demasiado negativos para niños

125
Tabla 7.2: Edad y altura de los niños en los tres grupos y residuos de la recta inicial

Niño Edad Altura Residuo

(meses) (cm)
1 109 137,6 0,7133
2 113 147,8 8,9400
3 115 136,8 −3,0467
4 116 140,7 0,3600
5 119 132,7 −9,1200
6 120 145,4 3,0867

7 121 135,0 −7,8067

8 124 133,0 −11,2867
9 126 148,5 3,2267
10 129 148,3 1,5467
11 130 147,5 0,2533
12 133 148,8 0,0733

13 134 133,2 −16,0200

14 135 148,7 −1,0133
15 137 152,0 1,3000
16 139 150,6 −1,0867
17 141 165,3 12,6267
18 142 149,9 −3,2667

126
20

Residuos
0

-10

-20
100 110 120 130 140 150
Edad

Figura 7.3: Residuos de la altura versus edad, después del ajuste por la recta resistente.

que tienen alrededor de 120 meses. Si tuviéramos más información, podrı́amos estudiar
porqué estos niños son demasiado altos o demasiado bajos para su edad. Por ejemplo,
podrı́amos separar los niños de las niñas.
En este ejemplo hemos visto cómo dos puntos, hasta cierto punto inusuales, han tenido
muy poco efecto, si han tenido alguno, en el ajuste general de los datos. Una recta ajustada
por el método de los mı́nimos cuadrados corre mucho más riesgo de dejarse influenciar
por estos puntos. Para estos datos la recta de regresión mı́nimo-cuadrática es

y = 79,6962 + 0,5113x

o
y = 144,8853 + 0,5113(x − 127,5)
donde observamos cómo los puntos 5, 7, 8 y 17 han torcido la recta. Además, si el valor de
y del punto 13 no fuera tan bajo, la recta mı́nimo-cuadrática podrı́a ser más empinada. En
todo caso, como la evaluación del ajuste se hace con los residuos, la figura 7.4 nos muestra
los residuos mı́nimo-cuadráticos con la edad. Aunque es bastante similar al anterior,
este gráfico nos da la sensación de una ligera tendencia a la baja. Es decir, los residuos
mı́nimo-cuadráticos resultarı́an más horizontales si elimináramos de ellos una recta con
una pendiente ligeramente negativa.
En este ejemplo la variabilidad de los residuos merece más atención que la diferencia
entre las pendientes de la recta de regresión mı́nimo-cuadrática y la recta resistente. Por
ejemplo, la desviación estándar de los residuos mı́nimo-cuadráticos es 6,8188 y el error
estándar de la pendiente es 0,1621, sobre dos veces la diferencia entre las pendientes.
Ası́ hemos visto, cualitativamente, cómo algunos datos pueden afectar a la recta mı́nimo-
cuadrática mucho más que la recta resistente. En todo caso, cuando los datos están razo-
nablemente bien dispuestos las dos lı́neas son parecidas.

7.1.4. Mejora del método de ajuste

Para algunos conjuntos de datos, el procedimiento iterativo explicado para ajustar la
recta resistente encuentra dificultades. Los ajustes de la pendiente pueden decrecer muy
lentamente o, después de unos pocos pasos, dejar de decrecer y oscilar entre dos valores.

127
20

Residuos MC
0

-10

-20
100 110 120 130 140 150
Edad

Figura 7.4: Residuos mı́nimo-cuadráticos versus edad.

Afortunadamente, una modificación elimina completamente estos problemas y permite

que el número de iteraciones sea mucho más limitado.
La solución propuesta por Johnstone y Velleman (1982) es un procedimiento iterativo
para el cálculo de la pendiente que asegura la convergencia hacia un valor único.
En el cálculo de la pendiente en la j + 1 iteración tenemos
(j) (j)
rD − r I
δj+1 =
xD − x I
(j) (j)
y esto será 0 justamente cuando el numerador rD − rI = 0. Es decir, lo que debemos
hacer es hallar el valor de b que proporciona la misma mediana a los residuos del grupo
derecho y del grupo izquierdo. Más formalmente
∆r(b) = rD (b) − rI (b)
muestra la dependencia funcional de b y prescinde del número de la iteración. Buscamos
el valor de b que hace ∆r(b) = 0. Notemos que centraremos el proceso iterativo en b y
dejaremos a para el final.
Empezaremos por calcular b0 como antes y calcularemos ∆r(b0 ) y δ1 como ya sabemos.
A continuación calcularemos ∆r(b0 + δ1 ). Generalmente, ∆r(b0 ) y ∆r(b0 + δ1 ) tendrán
signos opuestos, indicando que el valor deseado de b cae entre b0 y b1 = b0 + δ1 . Si pasa lo
contrario, cuando ∆r(b0 ) y ∆r(b0 + δ1 ) tienen el mismo signo, hace falta seguir los pasos
desde b0 y b1 = b0 + δ1 hasta que hallamos un b1 tal que ∆r(b1 ) tiene el signo contrario a
∆r(b0 ).
En este punto tenemos un b0 con ∆r(b0 ) y un b1 con ∆r(b1 ) y sabemos que ∆r ha de
ser 0 para algún valor b entre b0 y b1 . (Este hecho y que la solución es única requieren
una demostración formal que aquı́ no reproducimos.) Ası́ que podemos continuar por
interpolación lineal
b1 − b 0
b2 = b1 − ∆r(b1 )
∆r(b1 ) − ∆r(b0 )
Cuando ∆r(b2 ) no es todavı́a 0 (o suficientemente cerca de cero), hace falta repetir la
interpolación con otro paso. Para hacer esto, consideraremos el intervalo que contiene b
utilizando b2 en lugar de b1 o de b0 , el que tenga ∆r con el mismo signo que ∆r(b2 ). Y
ası́ los pasos necesarios.

128
7.2. Métodos que dividen los datos en grupos
Otras técnicas anteriores al método resistente de los tres grupos fueron propuestas e
involucran la división de los datos en grupos. Algunos de estos métodos no pretenden ser
una alternativa al método de los mı́nimos cuadrados y fueron desarrollados para ajustar
una recta “cuando ambas variables están sujetas a error”.

Método de Wald

Wald (1940) propuso dividir los datos en dos grupos de igual tamaño. Idealmente, los
valores teóricos Xi del primer grupo son menores que los del segundo. En la práctica,
porque los valores de Xi son desconocidos, agruparemos los puntos en base a los xi
observados.
Supongamos que n es par y sea m = n/2. Entonces, si asumimos que los valores de x
están ordenados en orden creciente, la pendiente propuesta es
(ym+1 + · · · + yn ) − (y1 + · · · + ym )
bW =
(xm+1 + · · · + xn ) − (x1 + · · · + xm )
Si xm+1 = xm , el método descarta los puntos con repetición en el centro.
El punto de intercepción es
aW = ȳ − bW x̄
donde ȳ y x̄ son las medias totales, de la misma forma que en la recta mı́nimo-cuadrática.

Método de Nair y Shrivastava

Como una alternativa computacionalmente atractiva respecto al método de los mı́nimos

cuadrados, Nair y Shrivastava (1942) introdujeron el método de las medias por grupo. Si
ordenamos las x, podemos considerar un primer grupo con nI puntos, un segundo grupo
con nD puntos y descartamos los n − nI − nD restantes. Los puntos resumen de cada
grupo son las medias
x1 + · · · + x n I y1 + · · · + y n I
x̄I = ȳI =
nI nI
xn−nD +1 + · · · + xn yn−nD +1 + · · · + yn
x̄D = ȳD =
nD nD
y la pendiente y el punto de intercepción resultan de la recta que pasa por (x̄I , ȳI ) y
(x̄D , ȳD )
ȳD − ȳI
bN S =
x̄D − x̄I
aN S = ȳI − bN S x̄I = ȳD − bN S x̄D
Para formar los grupos se puede tomar nI = nD como el entero más próximo a n/3.

Método de Bartlett

Bartlett (1949) modificó los dos métodos anteriores con la propuesta

ȳD − ȳI
bB =
x̄D − x̄I
aB = ȳ − bB x̄

129
de forma que la recta pasa por el punto (x̄, ȳ).

Recta de Brown-Mood

La propuesta de Brown y Mood (1951) es un método diferente que utiliza la mediana de

dos grupos. La pendiente bBM y el punto de intercepción aBM se calculan de forma que
la mediana de los residuos en cada uno de los dos grupos sea cero:
mediana{yi − aBM − bBM xi } = 0
xi ≤Mx

mediana{yi − aBM − bBM xi } = 0

xi >Mx

La inclusión de la mediana Mx en el primer grupo es arbitraria: el objetivo es que los dos

grupos sean muy parecidos en su tamaño.
Para hallar los valores efectivos se propone un método iterativo similar al de las secciones
anteriores.

7.3. Métodos que ofrecen resistencia

En la sección anterior hemos visto que la recta resistente de los tres grupos no fue la
primera alternativa a la de los mı́nimos cuadrados. Incluso la última de las rectas pro-
puestas, la recta de Brown-Mood, ofrece también resistencia. Ahora acabaremos esta
breve descripción de técnicas con algunas que proporcionan como mı́nimo un cierto grado
de resistencia. Pero primero debemos definir una medida de resistencia.
Una de las atractivas caracterı́sticas de la recta resistente de los tres grupos es su habilidad
para tolerar puntos “salvajes”, es decir, puntos que son inusuales en su valor x o en su valor
y o en ambos. Para medir esta resistencia aplicaremos el concepto de colapso (breakdown)
introducido por Hampel (1971).

Definición 7.3.1
El punto de colapso (breakdown bound) de un procedimiento para ajustar una recta a n
parejas de datos y-versus-x es la proporción k/n, donde k es el mayor número de puntos
que pueden ser reemplazados arbitrariamente mientras dejen la pendiente y el punto de
intercepción delimitados.

En la práctica, podemos pensar en enviar puntos al infinito al azar o en direcciones

problemáticas hasta que la pendiente y el punto de intercepción no lo puedan tolerar más
y se colapsen yendo también ellos hacia el infinito. Nos preguntamos cuan grande debe
ser una parte de los datos para que un cambio drástico no afecte de forma considerable
la recta ajustada.
Está claro que la recta mı́nimo-cuadrática tiene punto de colapso cero.
Dado que la recta resistente de los tres grupos usa la mediana dentro de cada grupo,
hallaremos su punto de colapso en 1/3 veces el punto de colapso de la mediana de una
muestra ordinaria. La mediana es el valor central, entonces su punto de colapso es 1/2,
de manera que el punto de colapso de la recta resistente es 1/6. A pesar de las diversas
posibilidades de construcción de los tres grupos y el hecho que los puntos salvajes pueden
estar repartidos en los tres grupos, la idea es que 1/6 es lo mejor que podemos garantizar
en la más desfavorable de las circunstancias.

130
Residuos mı́nimo-absolutos

Minimizar la suma de los residuos en valor absoluto tiene una historia casi tan larga como
la del método de los mı́nimos cuadrados. Para ajustar una recta hace falta hallar bM A y
aM A que minimicen
Xn
|yi − aM A − bM A xi |
i=1

Al contrario que para los mı́nimos cuadrados, no hay una fórmula para calcular bM A y
aM A . De hecho, la pendiente y el punto de intercepción pueden no ser únicos.
Como la mediana es la medida que minimiza
n
X
|yi − t|
i=1

hace falta esperar que este procedimiento tenga un alto punto de colapso. Desgraciada-
mente, este colapso es 0. La suma que se minimiza involucra tanto los valores xi como los
yi y ası́ es posible pensar en un punto (xi , yi ) que tome el control de la recta.

Mediana de las pendientes por parejas

Otra forma de aplicar la mediana al ajuste de una recta consiste en determinar, para cada
pareja de puntos, la pendiente y entonces calcular la mediana de estas pendientes. Con
más cuidado, supongamos que los xi son todos diferentes, definimos
yj − y i
bij = 1≤i<j≤n
xj − x i

que son n(n − 1)/2 valores. La pendiente ajustada es

bT = Med{bij }

Este método es una propuesta de Theil (1950), mejorada por Sen (1968), para manejar
las repeticiones de los xi .
Para deducir el punto de colapso, supongamos que exactamente k de los n puntos son
salvajes. Entonces el número de pendientes salvajes es

k(k − 1
+ k(n − k)
2
Si este número es suficientemente grande, bT quedará descontrolada. Para valores de
n grandes, podemos multiplicar el número de pendientes n(n − 1)/2 por 1/2, el punto
de colapso de la mediana, y igualar con la expresión anterior. Si resolvemos la ecuación
planteada para k, obtenemos un valor de k/n aproximadamente de 0,29. Esto quiere decir
que el punto de colapso de bT es 0,29.

Recta con medianas repetidas

Para conseguir un alto punto de colapso, Siegel (1982) ideó el método de las medianas
repetidas.

131
Empezamos con las pendientes por parejas del método anterior, pero ahora tomaremos
las medianas en dos pasos, primero en cada punto y después para todos

bM R = Med{Med{bij }}
i j6=i

En el primer paso se toma la mediana de las pendientes de n − 1 rectas que pasan por el
punto (xi , yi ) y en el segundo paso se toma la mediana de estas n pendientes.
Para el punto de intercepción calcularemos ai = yi − bM R xi y entonces

aM R = Med{ai }
i

Siegel probó que el punto de colapso de la recta con medianas repetidas es esencialmente
1/2.

7.3.1. Discusión
Ahora que tenemos diversos métodos con diferentes puntos de colapso, ¿cómo podemos
elegir uno?
Una consideración es el grado de resistencia que una particular aplicación pide. Otro
asunto es la precisión relativa de las pendientes estimadas, especialmente en muestras
pequeñas. También es evidente que el tiempo de computación es otro de los factores a
tener en cuenta.
Finalmente, podemos decir que la recta resistente de los tres grupos tiene un comporta-
miento suficientemente bueno en los tres aspectos considerados y, por ello, es el método
resistente que hemos destacado.

132
Capı́tulo 8

Regresión lineal múltiple

8.1. El modelo
De forma análoga al caso de la regresión lineal simple, podemos considerar el modelo
lineal entre una variable aleatoria respuesta Y y un grupo de k variables no aleatorias
x1 , . . . , xk explicativas o regresoras.
Si y1 , . . . , yn son n observaciones independientes de Y , el modelo lineal de la regresión
múltiple se define como
yi = β0 + β1 xi1 + · · · + βk xik + i i = 1, . . . , n (8.1)
donde (xi1 , . . . , xik ) son los valores observados correspondientes a yi y se asumen las
consabidas hipótesis de Gauss-Markov sobre los errores.
En notación matricial, el modelo se escribe
Y = Xβ +
donde Y = (y1 , . . . , yn )0 , β = (β0 , β1 , . . . , βk )0 , = (1 , . . . , n )0 y la matriz de diseño es
 
1 x11 . . . x1k
 1 x21 . . . x2k 
 
X =  .. .. .. 
 . . . 
1 xn1 . . . xnk

Se supone además que rg(X) = k + 1 = m coincide con el número de parámetros.

Se trata de calcular el ajuste MC a un hiperplano k dimensional, donde β0 es el punto de
intersección del hiperplano con el eje y cuando x1 = x2 = · · · = xk = 0.
Las ecuaciones normales son X0 Xβ = X0 Y donde
 P P P 
n P xi1 P xi2 . . . P xik  P 
  y i
P xi1 yi 
2
 xi1 Pxi1 xi2 . . . P xi1 xik 
0  2
xi2 . . . 
xi2 xik  0  
XX= X Y =  .. 
 ... ..   . 
  P
P. 2 xik yi
xik

y cuya solución son las estimaciones β̂0 , β̂1 , . . . , β̂k , sin ningún problema de estimabilidad
ya que el modelo es de rango máximo. Además, estas estimaciones son insesgadas y de
varianza mı́nima.

133
Las predicciones de los valores de Y dadas las observaciones de las variables regresoras
x1 , . . . , xk son
b = Xβ
Y b = PY
es decir
ŷi = β̂0 + β̂1 xi1 + · · · + β̂k xik i = 1, . . . , n (8.2)
También podemos considerar el modelo con las variables regresoras centradas
 
γ
 β1 
 
Y = (1, Z)  ..  +
.
βk

donde las columnas de Z tienen media cero, es decir, z(j) = x(j) − x̄j 1 o

zij = xij − x̄j i = 1, . . . , n j = 1, . . . , k

P
Este modelo es equivalente al anterior con γ = β0 + j x̄j βj , pero su estimación es más
sencilla porque
0 −1 1/n 0
[(1, Z) (1, Z)] =
0 (Z0 Z)−1
ya que Z0 1 = 0.
Entonces
γ̂ = ȳ (β̂1 , . . . , β̂k )0 = (Z0 Z)−1 Z0 (Y − 1ȳ)
Si definimos la matriz simétrica de varianzas-covarianzas, aunque de forma convencional,
entre las variables Y, x1 , . . . , xk
2
sy Sxy
S= = n−1 (Y − 1ȳ, Z)0 (Y − 1ȳ, Z)
Syx Sxx
resulta
(β̂1 , . . . , β̂k )0 = S−1
xx Syx

Por todo ello, si consideramos las medias de los datos

X X
ȳ = (1/n) yi x̄j = (1/n) xij j = 1, . . . , k
i i

8.2 se expresa también en la forma

ŷi − ȳ = β̂1 (xi1 − x̄1 ) + · · · + β̂k (xik − x̄k )

Finalmente, observemos que el parámetro βj , j = 1, . . . , k, indica el incremento en Y

cuando xj aumenta en una unidad manteniéndose constantes el resto de variables regre-
soras. A veces se les llama coeficientes de regresión parcial porque reflejan el efecto de
una variable regresora dada la presencia del resto que permanece constante.
Los residuos de la regresión son
b = (I − P)Y
e=Y−Y

que verifican las propiedades que se han explicado para la regresión simple en la página 92
(ver ejercicio 6.4).

134
8.2. Medidas de ajuste
Como en la regresión simple, la evaluación del ajuste del hiperplano de regresión a los
datos se puede hacer con la varianza residual o estimación MC de σ 2 .
La suma de cuadrados residual es
X
SCR = e0 e = (yi − β̂0 − β̂1 xi1 − · · · − β̂k xik )2 = Y0 Y − Y0 Xβ̂

que tiene n − m grados de libertad. Ası́, la estimación centrada de la varianza del diseño
es el llamado error cuadrático medio

σ̂ 2 = SCR/(n − m) = ECM

Su raı́z cuadrada σ̂, que tiene las mismas unidades que Y , es el error estándar de la
regresión múltiple. También aquı́, la varianza residual y el error estándar dependen de las
unidades de la variable respuesta y no son útiles para comparar diversas regresiones.
En primer lugar, vamos a introducir el coeficiente de correlación múltiple de Y sobre
x1 , . . . , xk . El uso del término correlación es convencional puesto que las variables regre-
soras no son aleatorias. El coeficiente se define como la correlación muestral entre Y e
Ŷ P
(yi − ȳ)(ŷi − ȳ)
ryx = corr(Y, Ŷ ) = P P
[ (yi − ȳ)2 (ŷi − ȳ)2 ]1/2
P
ya que (1/n) ŷi = ȳ.
El coeficiente de correlación múltiple ryx verifica 0 ≤ ryx ≤ 1 y es una buena medida del
ajuste de Y al modelo Xβ, pues
b =0
ryx = 1 =⇒ kY − Yk

El siguiente teorema, idéntico al teorema 6.2.1, justifica la definición del coeficiente de

determinación como medida de ajuste.

Teorema 8.2.1
Las sumas de cuadrados asociadas a la regresión múltiple verifican:
P P P
(i) (yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
P
2 (ŷi − ȳ)2
(ii) ryx = P
(yi − ȳ)2
P
(iii) SCR = (yi − ŷi )2 = (1 − ryx 2
)Sy

Demostración:
La descomposición en suma de cuadrados (i) se justifica de la misma forma que se ha
visto en el teorema 6.2.1. También se puede ver el ejercicio 5.8.
El hecho fundamental es la ortogonalidad
b 0Y
(Y − Y) b =0

pues el vector e = Y − Yb = Y − Xβ b es ortogonal a Ω = hXi, mientras que Y b∈Ω

b = Xβ
(ver teorema 2.4.2 y su interpretación geométrica).

135
Luego
X X
(yi − ȳ)(ŷi − ȳ) = (yi − ŷi + ŷi − ȳ)(ŷi − ȳ)
X X
= (yi − ŷi )(ŷi − ȳ) + (ŷi − ȳ)2
X
= (ŷi − ȳ)2

puesto que el primer sumando es nulo. Teniendo en cuenta la definición de ryx , es fácil
deducir (ii).
Finalmente, combinando (i) y (ii) obtenemos (iii).
Como en 6.7, la descomposición (i) del teorema anterior justifica la definición del coefi-
ciente de determinación
VE SCR
R2 = =1−
VT Sy
También aquı́, esta medida del ajuste verifica 0 ≤ R2 ≤ 1 y coincide con el cuadrado del
coeficiente de correlación múltiple
2
(1 − ryx )Sy
R2 = 1 − 2
= ryx
Sy
Sin embargo, el coeficiente de correlación múltiple ryx es una medida de la asociación
lineal entre la variable respuesta Y y las regresoras x = (x1 , . . . , xk ) que, en este caso, es
convencional.
Como R2 es la proporción de variabilidad explicada por las variables regresoras, resulta
que si R2 ≈ 1, entonces la mayor parte de la variabilidad es explicada por dichas variables.
Pero R2 es la proporción de la variabilidad total explicada por el modelo con todas las
variables frente al modelo y = β0 , de manera que un R2 alto muestra que el modelo mejora
el modelo nulo y por tanto sólo tiene sentido comparar coeficientes de determinación entre
modelos anidados (casos particulares).
Además un valor grande de R2 no necesariamente implica que el modelo lineal es bueno.
El coeficiente R2 no mide si el modelo lineal es apropiado. Es posible que un modelo con
un valor alto de R2 proporcione estimaciones y predicciones pobres, poco precisas. El
análisis de los residuos es imprescindible.
Tampoco está claro lo que significa un valor “grande”, ya que problemas en diversas
ciencias (fı́sica, ingenierı́a, sociologı́a,. . . ) tienen razonablemente criterios diferentes.
Por otra parte, cuando se añaden variables regresoras R2 crece, pero eso no significa que
el nuevo modelo sea superior:

2 SCRnuevo SCR
Rnuevo =1− ≥ R2 = 1 − ⇒ SCRnuevo ≤ SCR
Sy Sy
pero es posible que
SCRnuevo SCR
ECMnuevo = ≥ ECM =
n − (m + p) n−m

luego, en esta situación, el nuevo modelo será peor. Ası́, como R 2 crece al añadir nuevas
variables regresoras, se corre el peligro de sobreajustar el modelo añadiendo términos
innecesarios. El coeficiente de determinación ajustado penaliza esto.

136
Definición 8.2.1
Una medida del ajuste de la regresión múltiple a los datos es el coeficiente de determina-
ción o proporción de variabilidad explicada
VE SCR
R2 = =1−
VT Sy
Sin embargo, para corregir el peligro de sobreajuste se define el coeficiente de determina-
ción ajustado como
SCR/(n − m) n−1
R̄2 = 1 − =1− (1 − R2 )
Sy /(n − 1) n−m

Cuando R̄2 y R2 son muy distintos, el modelo ha sido sobreajustado y debemos eliminar
variables o términos.

8.3. Inferencia sobre los coeficientes de regresión

Cuando asumimos la hipótesis de normalidad sobre la distribución de los errores ∼
Nn (0, σ 2 I), se deduce la normalidad de la variable respuesta
Y ∼ Nn (Xβ, σ 2 I)
lo que nos permite utilizar las distribuciones asociadas a los estimadores de los parámetros
que hemos estudiado.
En el capı́tulo de contraste de hipótesis se ha visto de varias formas (ver 5.10) que para
una función paramétrica estimable a0 β
b − a0 β
a0 β
∼ tn−r
(σ̂ 2 · a0 (X0 X)− a)1/2
En nuestro caso, todas las funciones paramétricas son estimables ya que r = k + 1 = m.
De modo que el estimador β̂j verifica
β̂ − βj
pj ∼ tn−m (8.3)
ECM cjj
donde cjj es el j-ésimo elemento de la diagonal de (X0 X)−1 y σ̂ 2 = SCR/(n − m) = ECM.
En consecuencia, los intervalos de confianza de los coeficientes de regresión βj con un
nivel de confianza 100(1 − α) % son
β̂j ± tn−m (α) · ee(β̂j )
p
donde ee(β̂j ) = ECM cjj .
En cuanto a los intervalos de confianza para la respuesta media o los intervalos de predic-
ción para una respuesta concreta, su deducción es similar al caso de la regresión simple.
Si x0 = (1, x01 , . . . , x0k )0 recoge una observación particular del conjunto de variables
regresoras, el intervalo de confianza con nivel 100(1−α) % para la respuesta media E[Y |x 0 ]
está centrado en su estimación ŷ0 = x00 βb

ŷ0 ± tn−m (α) · (ECM x00 (X0 X)−1 x0 )1/2

ya que E(ŷ0 ) = x00 β = E[Y |x0 ] y var(ŷ0 ) = σ 2 x00 (X0 X)−1 x0 .

137
Extrapolación oculta

En la estimación de la respuesta media o la predicción de nuevas respuestas en un punto

(x01 , . . . , x0k ) debemos ser muy cuidadosos con la extrapolación. Si únicamente tenemos
en cuenta el producto cartesiano de los recorridos de las variables regresoras, es fácil
considerar la predicción para un punto que puede estar fuera de la nube de puntos con la
que hemos calculado la regresión. Para evitar este problema deberemos ceñirnos al menor
conjunto convexo que contiene los n puntos originales y que recibe el nombre de casco
(hull) de las variables regresoras (ver figura 8.1).

2
1
x2

0
-1
-2

-2 -1 0 1 2

Figura 8.1: Conjunto convexo para los puntos de dos variables regresoras

Si consideramos los elementos hii de la diagonal de la matriz proyección P = X(X0 X)−1 X0 ,

podemos definir hmáx = máx{h11 , . . . , hnn } y se puede comprobar que

x0 (X0 X)−1 x ≤ hmáx

es un elipsoide que contiene al casco. No es el menor elipsoide, pero es el más fácil de

calcular.
Ası́ pues, para evitar en lo posible la extrapolación, podemos comprobar en el punto
x0 = (1, x01 , . . . , x0k )0 si
x00 (X0 X)−1 x0 < hmáx

Contraste de significación de la regresión

La hipótesis de mayor interés es la afirmación de que Y es independiente de las variables

x1 , . . . , xk , es decir
H0 : β 1 = β 2 = · · · = β k = 0 (8.4)
El Análisis de la Varianza del teorema 5.3.1 se puede aplicar al contraste de la significación
conjunta de los coeficientes de regresión puesto que se trata de una hipótesis contrastable
del tipo H0 : Aβ = 0, donde
 
0 1 0 ... 0
 0 0 1 ... 0 
 
A =  .. .. .. ..  rango A = k
 . . . . 
0 0 0 ... 1

138
Si H0 es cierta, al igual que en 6.9, la estimación del único parámetro que queda en el
modelo es β̂0|H = ȳ y la suma de cuadrados residual es
X
SCRH = (yi − ȳ)2 = Sy

que tiene n − 1 grados de libertad.

La descomposición en suma de cuadrados es

Sy = SCR + (SCRH − SCR)

es decir X X X
(yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2

La tabla siguiente recoge esta descomposición y realiza el contraste de la hipótesis. La

hipótesis se rechaza si F > Fk,n−k−1 (α).

Fuente de grados de suma de cuadrados

variación libertad cuadrados medios F
Regresión k SCR = SCRH − SCR CMR CMR /ECM
Error n−k−1 SCR ECM
Total n−1 Sy

Tabla 8.1: Tabla del análisis de la varianza para contrastar la significación de la regresión
múltiple

Teniendo en cuenta las fórmulas del teorema 8.2.1

2
SCRH − SCR = ryx Sy

y deducimos una expresión equivalente al estadı́stico F

2
ryx n−k−1
F = 2
·
1 − ryx k

que también se presenta en forma de tabla.

Fuente de Grados de Suma de F

variación libertad cuadrados
2
2
ryx n−k−1
Regresión k ryx Sy 2
·
1 − ryx k
2
Residuo n−k−1 (1 − ryx )Sy
Total n−1 Sy

Tabla 8.2: Tabla del análisis de la varianza en regresión múltiple

Del mismo modo que en la sección 6.5 la hipótesis 8.4 equivale a afirmar que el coeficiente
de correlación múltiple poblacional es cero y se resuelve con el contraste asociado a la
tabla anterior.

139
Significación parcial

El contraste de significación de un coeficiente de regresión particular H0 : βj = 0, para

un j fijo, se resuelve con el estadı́stico 8.3 y la región crı́tica

β̂
j
> tn−k−1 (α) (8.5)
(ECM cjj )1/2

donde cjj es el j-ésimo elemento de la diagonal de (X0 X)−1 .

Aceptar esta hipótesis significa que la variable regresora xj se puede eliminar del modelo.
Sin embargo, es preciso actuar con cuidado ya que se trata de un contraste parcial porque
el coeficiente β̂j depende de todas las otras variables regresoras xi (i 6= j). Es un contraste
de la contribución de xj dada la presencia de las otras variables regresoras en el modelo.
De forma general podemos estudiar la contribución al modelo de un subconjunto de
las variables regresoras. Esto se puede hacer mediante la descomposición de la suma de
cuadrados asociada a un contraste de modelos.
Consideremos el modelo lineal completo, dividido en dos grupos de variables regresoras,

β1
Y = Xβ + = X1 X2 +
β2

donde X1 es n × (m − p) y X2 es n × p.
b = (X0 X)−1 X0 Y y la suma de
Para este modelo, la estimación de los parámetros es β
cuadrados de la regresión es
0 0
b X0 Y) = β
SCR (β) = SCRH − SCR = Y 0 Y − (Y0 Y − β b X0 Y

con m grados de libertad. Esto es ası́ porque la hipótesis considerada es H0 : β = 0 y,

bajo esta hipótesis, SCRH = Y0 Y.
Para hallar la contribución de los términos de β 2 en la regresión, podemos considerar la
hipótesis H0 : β 2 = 0 que es equivalente al modelo reducido Y = X1 β 1 + . Bajo esta
hipótesis, la estimación de los parámetros es βb 1 = (X0 X1 )−1 X0 Y y la suma de cuadrados
1 1
de la regresión
SCR (β 1 ) = βb 0 X0 Y
1 1

con m − p grados de libertad.

Luego la suma de cuadrados de la regresión debida a β 2 , dado que β 1 está ya en el modelo,
es
SCR (β 2 |β 1 ) = SCR (β) − SCR (β 1 )
con m − (m − p) = p grados de libertad.
Como SCR (β 2 |β 1 ) es independiente de SCR, la hipótesis H0 : β 2 = 0 se puede contrastar
con el estadı́stico
SCR (β 2 |β 1 )/p
∼ Fp,n−m
ECM
que se puede llamar una F parcial, pues mide la contribución de X2 considerando que
X1 está en el modelo.
Por ejemplo, la suma de cuadrados de la regresión SCR (βj |β0 , β1 , . . . , βj−1 , βj+1 , . . . , βk )
para 1 ≤ j ≤ k es el crecimiento en la suma de cuadrados debido a añadir xj al modelo

140
que ya contiene todas las otras variables, como si fuera la última variable añadida al
modelo. El contraste es equivalente al contraste 8.5.
Estos contrastes F parciales juegan un papel muy importante en la búsqueda del mejor
conjunto de variables regresoras a utilizar en un modelo. Por ejemplo, en el modelo
parabólico Y = β0 + β1 x + β2 x2 + estaremos interesados en SCR (β1 |β0 ) y luego en
SCR (β2 |β0 , β1 ) que es la contribución cuadrática al modelo lineal simple.
En el modelo Y = β0 + β1 x1 + β2 x2 + β3 x3 + , la descomposición en suma de cuadrados
es
Sy = SCR (β1 , β2 , β3 |β0 ) + SCR
pero

Sin embargo, hay que ir con cuidado porque este método no siempre produce una partición
de la suma de cuadrados de la regresión y, por ejemplo,

SCR (β1 , β2 , β3 |β0 ) 6= SCR (β1 |β2 , β3 , β0 ) + SCR (β2 |β1 , β3 , β0 ) + SCR (β3 |β1 , β2 , β0 )

Un resultado interesante se tiene cuando las columnas de X1 y X2 son ortogonales, ya

que entonces
SCR (β 2 |β 1 ) = SCR (β 2 ) SCR (β 1 |β 2 ) = SCR (β 1 )

Región de confianza y intervalos simultáneos

Del mismo modo que hemos explicado en 6.3.6, en regresión múltiple la región con una
confianza conjunta del 100(1 − α) % es

b − β)0 X0 X(β
(β b − β)
≤ Fm,n−m (α)
mECM
Los intervalos simultáneos para los coeficientes de la regresión son del tipo

β̂j ± ∆ · ee(β̂j )

para un conjunto de s coeficientes entre los k + 1. Por ejemplo, el método de Scheffé pro-
porciona los intervalos simultáneos

β̂j ± (sFs,n−k−1 (α))1/2 · ee(β̂j )

Los intervalos simultáneos para un conjunto de s respuestas medias a los puntos x01 , . . . , x0s
son
ŷx0j ± ∆(ECM x00j (X0 X)−1 x0j )1/2
donde ∆ = (sFs,n−k−1 (α))1/2 por el método de Scheffé.

141
8.4. Coeficientes de regresión estandarizados
Es difı́cil comparar coeficientes de regresión porque la magnitud de β̂j refleja las unidades
de medida de la variable regresora. Por ejemplo, en el modelo

Y = 5 + x1 + 1000x2

donde x1 se mide en litros y x2 en mililitros, aunque β̂2 = 1000 es mucho mayor que
β̂1 = 1, el efecto sobre Y es el mismo.
Generalmente, las unidades de los coeficientes de regresión son
unidades Y
unidades β̂j =
unidades xj

Por todo ello, frecuentemente es de gran ayuda trabajar con variables estandarizadas que
producen coeficientes de regresión sin dimensión. Básicamente hay dos técnicas:
Escala normal unidad

xij − x̄j
zij = i = 1, . . . , n; j = 1, . . . , k
ŝj
∗ yi − ȳ
yi = i = 1, . . . , n
ŝy
donde
n n n
1X 1 X 1 X
x̄j = xij ŝ2j = (xij − x̄j )2 ŝ2y = (yi − ȳ)2
n i=1 n − 1 i=1 n − 1 i=1

El modelo es

yi∗ = b0 + b1 zi1 + b2 zi2 + · · · + bk zik + ηi i = 1, . . . , n

donde las variables regresoras y la variable respuesta tienen media cero y varianza muestral
uno. La estimación del modelo es b b = (b̂1 , . . . , b̂k )0 = (Z0 Z)−1 Z0 Y∗ y b̂0 = ȳ ∗ = 0.
Escala longitud unidad

xij − x̄j
wij = 1/2
i = 1, . . . , n; j = 1, . . . , k
Sj
yi − ȳ
yi0 = 1/2
i = 1, . . . , n
Sy
donde n n
X X
2
Sj = (xij − x̄j ) Sy = (yi − ȳ)2
i=1 i=1

El modelo es
yi0 = b1 wi1 + b2 wi2 + · · · + bk wik + ηi i = 1, . . . , n
donde las variables regresoras y la variable respuesta tienen media cero y longitud
v
u n
uX
t (wij − w̄j )2 = 1
i=1

142
b = (W0 W)−1 W0 Y0 .
y la estimación de los parámetros es b
Pero en este modelo tenemos
 
1 r12 . . . r1k
r21 1 . . . r2k 
0  
W W = Rxx =  .. .. . . .. 
 . . . . 
rk1 rk2 . . . 1

donde Rxx es la matriz de correlaciones de las variables regresoras ya que

Pn
(xsi − x̄i )(xsj − x̄j )
rij = s=1
(Si Sj )1/2

También podemos considerar que W0 Y0 = Rxy es el vector de correlaciones de las varia-

bles regresoras con la variable respuesta. También aquı́ el término correlación es conven-
cional.
En todo caso, como

Z0 Z = (n − 1)W0 W
Z0 Y∗ = (n − 1)W0 Y0

las estimaciones de b = (b1 , . . . , bk )0 por ambos métodos son idénticas.

Definición 8.4.1
Se llaman coeficientes de regresión estandarizados los que se obtienen como solución del
sistema de ecuaciones
b1 + r12 b2 + · · · + r1k bk = r1y
r21 b1 + b2 + · · · + r2k bk = r2y
.. .. .. ..
. . . .
rk1 b1 + rk2 b2 + · · · + bk = rky
es decir
Rxx b = Rxy
donde Rxx es la matriz de coeficientes de correlación entre las variables regresoras y
Rxy = (r1y , . . . , rky )0 el vector columna con los coeficientes de correlación entre las varia-
bles regresoras y la respuesta.

Los coeficientes de regresión ordinarios se deducen de las ecuaciones

1/2
Sy sy
β̂j = b̂j = b̂j j = 1, . . . , k
Sj sj
Xk
β̂0 = ȳ − β̂j x̄j
j=1

Además, el coeficiente de determinación es

R2 = ryx
2
= b̂1 r1y + b̂2 r2y + · · · + b̂k rky

143
Algunos paquetes estadı́sticos calculan ambos conjuntos de coeficientes de regresión. En
algún caso, a los coeficientes de regresión estandarizados les llaman “beta coeficientes” lo
que para nosotros es confuso.
Finalmente señalaremos que debemos cuidar las interpretaciones puesto que los coeficien-
tes estandarizados todavı́a son parciales, es decir, miden el efecto de xj dada la presencia
de las otras variables regresoras. También b̂j está afectado por el recorrido de los valores
de las variables regresoras, de modo que es peligroso utilizar b̂j para medir la importancia
relativa de la variable regresora xj .

Ejemplo 8.4.1
En un estudio sobre la incidencia que puede tener sobre el rendimiento en lenguaje Y ,
la comprensión lectora x1 y la capacidad intelectual x2 , se obtuvieron datos sobre 10
estudiantes tomados al azar de un curso de básica (ver tabla 8.3).

Y x1 x2
3 1 3
2 1 4
4 3 7
9 7 9
6 8 7
7 7 6
2 4 5
6 6 8
5 6 5
8 9 7

Tabla 8.3: Tabla de datos del rendimiento en lenguaje

La matriz de correlaciones, las medias y las desviaciones tı́picas son:

x1 x2 Y
x1 1 0,6973 0,8491 x̄1 = 5,2 s1 = 2,82
x2 1 0,7814 x̄2 = 6,1 s2 = 1,86
Y 1 ȳ = 5,2 sy = 2,44

Empezaremos planteando el sistema

b1 + 0,6973 · b2 = 0,8491
0,6973 · b1 + b2 = 0,7814
cuya solución es
b̂1 = 0,592 b̂2 = 0,368
Entonces
sy sy
β̂1 = b̂1 = 0,512 β̂2 = b̂2 = 0,485
s1 s2
β̂0 = ȳ − β̂1 x̄1 − β̂2 x̄2 = −0,424
La ecuación de regresión es
y = −0,424 + 0,512x1 + 0,485x2

144
El coeficiente de determinación es

R2 = ryx
2
= b̂1 · 0,849 + b̂2 · 0,781 = 0,791

y puede afirmarse que hay una buena relación entre el rendimiento en lenguaje y la
comprensión lectora y la capacidad intelectual.
Finalmente, para decidir sobre la hipótesis H0 : β1 = β2 = 0 calcularemos
2
ryx 10 − 3
F = 2
· = 13,22
1 − ryx 3 − 1

con 2 y 7 grados de libertad. Ası́ H0 puede ser rechazada, es decir, la relación anterior es
significativa.

8.5. Multicolinealidad
Cuando la matriz X no es de rango máximo, sabemos que X0 X es singular y no podemos
calcular su inversa. Ya sabemos que la solución puede ser la utilización de alguna g-inversa,
aunque ello implica que la solución de las ecuaciones normales no es única. En el caso de
la regresión múltiple es difı́cil, aunque no imposible, que alguna columna sea linealmente
dependiente de las demás. Si ocurriera esto dirı́amos que existe colinealidad entre las
columnas de X. Sin embargo, el término colinealidad o multicolinealidad se refiere al
caso, mucho más frecuente, de que la dependencia entre las columnas no es exacta sino
aproximada, es decir, a la quasi-dependencia lineal entre las variables regresoras. Esto
puede provocar problemas de computación de los parámetros y en el cálculo de la precisión
de los mismos (ver Apéndice A.4).
Entre las múltiples formas de detección de la multicolinealidad vamos a destacar el cálculo
de los factores de inflación de la varianza. Nosotros hemos visto que la matriz de varianzas-
covarianzas de los estimadores de los parámetros de un modelo lineal es
b = σ 2 (X0 X)−1
var(β)

Si consideramos el modelo de regresión estandarizado por la escala de longitud unidad,

la matriz de varianzas-covarianzas de los coeficientes de regresión estandarizados es
b = σ̃ 2 R−1
var(b) xx

donde σ̃ 2 es la varianza del error del modelo transformado. En particular, la varianza de

uno de los coeficientes es
var(b̂j ) = σ̃ 2 [R−1
xx ]jj

donde [R−1xx ]jj es el j-ésimo elemento de la diagonal de la matriz. Estas varianzas pue-
den estar “infladas” a causa de la multicolinealidad que puede ser evidente a partir de
la observación de los elementos no nulos fuera de la diagonal de Rxx , es decir, de las
correlaciones simples entre las variables regresoras.

Definición 8.5.1
Los elementos de la diagonal de la matriz R−1 xx se llaman FIV o factores de inflación de
la varianza ya que
var(b̂j ) = σ̃ 2 FIVj

145
Se demuestra que
FIVj = (1 − Ri2 )−1
donde Rj2 es el coeficiente de determinación múltiple de la variable regresora xj con todas
las demás variables regresoras.
El factor de inflación de la varianza FIVj = 1 cuando Rj2 = 0, es decir, cuando xj no
depende linealmente del resto de las variables. Cuando Rj2 6= 0, entonces FIVj > 1 y si
Rj2 ≈ 1, entonces FIVj es grande. Ası́ pues, el factor de inflación de la varianza mide
el incremento que se produce en la varianza de los estimadores de los coeficientes de
regresión al comparar dicha varianza con la que deberı́an tener si las variables regresoras
fuesen incorrelacionadas.
Cuando FIVj > 10 tenemos un grave problema de multicolinealidad. Algunos autores
prefieren calcular la media de los FIVj y alertar sobre la multicolinealidad cuando dicha
media supera el número 10.
Una de las posibles soluciones tras la detección de multicolinealidad es la estimación por
la regresión ridge (ver 4.3.1).

Ejemplo 8.5.1
Con los datos del ejemplo 8.4.1, la matriz de correlaciones Rxx y su inversa son

1,0000 0,6973 −1 1,9465 −1,3574
Rxx = Rxx =
0,6973 1,0000 −1,3574 1,9465

y los factores de inflación de la varianza son FIV 1 = 1,9465, FIV2 = 1,9465, que coinciden
naturalmente cuando k = 2.

8.6. Regresión polinómica

Supongamos que una variable aleatoria Y se ajusta a una variable de control x según un
modelo polinómico de grado m

yi = β0 + β1 xi + β2 x2i + · · · + βm xm
i + i (8.6)

Observemos que se trata de un modelo de regresión lineal múltiple de Y sobre las variables
x1 = x, x2 = x2 , . . . , xm = xm . Para una regresión polinómica de grado m, la matriz de
diseño es  
1 x1 x21 . . . xm 1
 1 x 2 x2 . . . x m 
 2 2 
X =  .. .. .. .. 
 . . . . 
1 x n xn . . . x m
2
n

Estos modelos se pueden aplicar cuando el analista sabe que efectos curvilı́neos están
presentes en la función respuesta. También se pueden utilizar como aproximaciones a
desconocidas, y posiblemente muy complejas, relaciones no lineales. Ası́, los polinomios
se pueden considerar los desarrollos de Taylor de la función desconocida.
La regresión polinómica se justifica por el teorema de Weierstrass, el cual dice que toda
función continua f (x) se puede aproximar por un polinomio Pm (x) de grado m adecuado.
Se puede probar esta propiedad desde el punto de vista probabilı́stico:

146
Sea f (x) una función continua en el intervalo (0, 1) y consideremos
n
X
Pn (x) = f (k/n)xk (1 − x)n−k
k=0

llamados polinomios de Bernstein. Entonces Pn (x) converge a f (x) cuando n → ∞,

uniformemente en x.
Como en cualquier modelo lineal, la estimación de los parámetros de regresión se hace con
las ecuaciones normales. Sin embargo, hay varios problemas especiales que se presentan
en este caso.

1) Es muy importante que el orden del polinomio sea tan bajo como sea posible.
Para utilizar polinomio de grado m > 2 se debe justificar con razones externas a
los datos. Existen transformaciones de las variables, en particular de la respuesta,
que hacen que el modelo sea de primer orden. Un modelo de orden bajo con una
variable transformada es casi siempre preferible a un modelo de orden superior con
la métrica original. Se trata de mantener el principio de parsimonia o simplicidad
de los modelos.

2) Hay varias estrategias para elegir el grado del polinomio.

Selección hacia adelante (forward selection): Se trata de ir ajustando modelos en
orden creciente hasta que el test t para el término de mayor orden es no significativo
(α = 0,1).
Selección hacia atrás (backward selection): Se trata de ajustar un modelo de alto
orden e ir eliminando términos si no son significativos para el test t (α = 0,1).
Ambos métodos no necesariamente conducen al mismo modelo. En todo caso, hay
que recordar el consejo anterior y tratar con modelos de orden dos o muy bajo.

3) Debemos ser muy cuidadosos con la extrapolación (ver página 138), ya que las
consecuencias pueden ser ruinosas.

4) Cuando el orden del polinomio es alto, la matriz X0 X está mal condicionada (ver
apéndice A.4 y sección 8.5). Esto provoca problemas graves para el cálculo de los
coeficientes de regresión y deficiencias en la precisión de los mismos. En Seber [61]
pág. 214 se ve un ejemplo en el que variaciones del orden de 10−10 en X0 Y producen
variaciones del orden de 3 en los elementos de β. b
De hecho, los modelos de regresión polinómicos están notablemente mal condicio-
nados cuando el grado es mayor que 5 o 6, particularmente si los valores de x están
igualmente espaciados.

5) Si los valores de x tienen un recorrido muy estrecho, esto puede conducir a la

multicolinealidad entre las columnas de X. Por ejemplo, si x varı́a entre 1 y 2, x2
varı́a entre 1 y 4, lo que puede provocar una fuerte dependencia entre los datos de
x y x2 .

Para reducir el efecto no esencial de la mala condición de los modelos de regresión po-
linómicos se deben centrar las variables regresoras. Además se pueden utilizar polinomios
de Tchebychev o, mejor, polinomios ortogonales.

147
La utilización de polinomios de Tchebychev consiste en considerar el modelo

yi = γ0 T0 (xi ) + γ1 T1 (xi ) + · · · + γm Tm (xi ) + i

donde Tj (x) es un polinomio de Tchebychev de grado j. Estos polinomios se generan

mediante la relación de recurrencia

Tj+1 (x) = 2xTj (x) − Tj−1 (x)

Tomando inicialmente
T0 (x) = 1 T1 (x) = x
se obtienen
T2 (x) = 2x2 − 1
T3 (x) = 4x3 − 3x
T4 (x) = 8x4 − 8x2 + 1
..
.

El campo de variación de x debe “normalizarse” adecuadamente entre −1 y 1 mediante

un cambio de variable. Esto se hace en favor de la estabilidad numérica.
Los polinomios de Tchebychev tienen propiedades muy interesantes que sugieren que, pa-
ra valores de x razonablemente espaciados, la matriz del modelo X e tiene columnas que son
aproximadamente ortogonales, de forma que la matriz X e 0X
e tiene los elementos de fuera
de la diagonal bastante pequeños y generalmente está bien condicionada. Ası́ pues, un
procedimiento de cálculo de regresión polinómica consiste en usar polinomios de Tcheby-
chev junto con un método de descomposición ortogonal de la matriz de diseño, como el
algoritmo QR.

8.6.1. Polinomios ortogonales

El replanteamiento del modelo 8.6 mediante polinomios ortogonales permite una solución
sencilla de los problemas numéricos mencionados.
Consideremos ahora el modelo

yi = γ0 φ0 (xi ) + γ1 φ1 (xi ) + · · · + γm φm (xi ) + i (8.7)

donde φj (xi ) es un polinomio de grado j en xi (j = 0, 1, . . . , m). Supongamos que los m

polinomios son ortogonales, es decir,
n
X
φj (xi )φj 0 (xi ) = 0 ∀j 6= j 0 (8.8)
i=1

El modelo lineal es entonces

e +
Y = Xγ
donde  
φ0 (x1 ) φ1 (x1 ) . . . φm (x1 )
 φ0 (x2 ) φ1 (x2 ) . . . φm (x2 ) 
e =
X  .. .. ..


 . . . 
φ0 (xn ) φ1 (xn ) . . . φm (xn )

148
Entonces, debido a la ortogonalidad, tenemos que
 P 
φ20 (xi ) P 0 ... 0
 0 2
φ1 (xi ) . . . 0 
e =
e 0X
X  .. .. . ..


 . . . . 
P 2.
0 0 ... φm (xi )

y la solución de las ecuaciones normales es

P
φj (xi )yi
γ̂j = Pi 2 j = 0, 1, . . . , m
i φj (xi )

e implica que el estimador MC

lo que es cierto para toda m. La estructura ortogonal de X
de γj (j ≤ m) es independiente del grado m del polinomio, lo que es una propiedad muy
deseable.
Como φ0 (x) es un polinomio de grado cero, si tomamos φ0 (x) = 1 tendremos γ̂0 = ȳ.
La suma de cuadrados residual es entonces
X m X
X
SCR(m) = (yi − ȳ)2 − ( φ2j (xi ))γ̂j2 (8.9)
j=1 i

cantidad que indicaremos por Q(m).

En efecto: m
X
ŷi = φj (xi )γ̂j siendo ȳ = φ0 (xi )γ̂0
j=0

Aplicando (i) de 8.2.1 tenemos

X X X
SCR(m) = (yi − ŷi )2 = (yi − ȳ)2 − (ŷi − ȳ)2
i i i

siendo ahora m
X XX
(ŷi − ȳ)2 = ( φj (xi )γ̂j )2
i i j=1

Por otra parte

m
X XX
( φj (xi )γ̂j )2 = φj (xi )γ̂j · φj 0 (xi )γ̂j 0
j=1 j j0

y sumando respecto de i tenemos, considerando 8.8,

X XX X
(ŷi − ȳ)2 = γ̂j γ̂j 0 ( φj (xi )φj 0 (xi ))
i j j0 i
Xm Xn
= γ̂j2 ( φ2j (xi ))
j=1 i=1

lo que demuestra 8.9.

Existen diversos procedimientos para generar polinomios ortogonales (Fisher, Forsythe,

Hayes, etc.).

149
En el caso particular que los valores de x sean igualmente espaciados podemos transfor-
marlos de manera que

xi = i − 12 (n + 1) i = 1, 2, . . . , n

Entonces se puede considerar el siguiente sistema de polinomios ortogonales

φ0 (x) = 1
φ1 (x) = λ1 x
1
φ2 (x) = λ2 (x2 − 12
(n2 − 1))
1
φ3 (x) = λ3 (x3 − 20
(3n2 − 7)x)
..
.

donde las λj se eligen de forma que los valores de φj (xi ) sean enteros. Estos polinomios
se encuentran tabulados para varios valores de n.

8.6.2. Elección del grado

Un aspecto importante de la regresión polinómica es la elección del grado m adecuado.
El contraste de hipótesis

H0 : m = m 0
(8.10)
H1 : m = m 1 > m 0

equivale a plantear una regresión polinómica de grado m y entonces establecer la hipótesis

lineal
H0 : βm0 +1 = · · · = βm1 = 0
sobre el modelo 8.6, o bien, utilizando el modelo equivalente 8.7 en términos de polinomios
ortogonales
H0 : γm0 +1 = · · · = γm1 = 0
Las sumas de cuadrados residuales son

SCR = Q(m1 ) SCRH = Q(m0 )

Teniendo en cuenta 8.9 resulta

m1
X n
X
SCRH − SCR = Q(m0 ) − Q(m1 ) = ( φ2j (xi ))γ̂j2
j=m0 +1 i=1

Entonces, para contrastar H0 : m = m0 frente H1 : m = m1 , calcularemos el estadı́stico

(Q(m0 ) − Q(m1 ))/(m1 − m0 )

F = (8.11)
Q(m1 )/(n − m1 − 1)

cuya distribución, bajo H0 , es una F con m1 − m0 y n − m1 − 1 grados de libertad.

La estrategia para elegir el grado puede ser mediante elección descendente o elección as-
cendente. En el primer caso empezamos por el grado que se supone máximo. Supongamos,
por ejemplo, que m = 5. Entonces se contrasta m = 4 frente a m = 5. Si el test F no es

150
significativo, se contrasta m = 3 con m = 4, y ası́ sucesivamente. El proceso es el inverso
en el caso de elección ascendente.
También es útil tener en cuenta que un descenso importante de la suma de cuadrados
residual Q(m) al pasar de grado k a grado m, es un indicio de que el grado es m.
Finalmente, si disponemos de ni observaciones yi1 , . . . , yini para cada valor de la variable
de control xi i = 1, . . . , p, una vez elegido el grado m, podemos analizar la validez del
modelo planteando el contraste

H0 : yih = Pm (xi ) + ih

H1 : yih = g(xi ) + ih

donde g(x) es una función desconocida de x. La hipótesis nula significa afirmar que
g(x) = Pm (x) es un polinomio de grado m en x. Tenemos entonces (véase 6.12):
X
SCR = (yih − ȳi )2 = ns2y (1 − η̂ 2 ) n−p g.l.
i,h
SCRH = Q(m) = ns2y (1 − ryx
2
) n − m − 1 g.l.

donde ryx es la correlación múltiple de Y sobre x, x2 , . . . , xm (ver teorema 8.2.1). Calcu-

laremos entonces el estadı́stico
(η̂ 2 − ryx
2
)/(p − m − 1)
F =
(1 − η̂ 2 )/(n − p)

y aceptaremos el ajuste polinómico de grado m si esta F no es significativa.

Ejemplo 8.6.1
Se dispone de la respuesta a un test de conducta de dos grupos de ratas, uno control y
otro experimental, para diez observaciones realizadas cada tres dı́as desde el dı́a 47 al dı́a
74 de vida (ver tabla 8.4).

dia grupo control grupo experimental

47 25,7 34,1
50 20,1 24,9
53 16,2 21,2
56 14,0 23,3
59 21,3 22,0
62 20,3 30,9
65 28,4 31,4
68 23,5 26,5
71 16,8 23,0
74 9,9 17,2
Tabla 8.4: Datos del test de conducta a dos grupos de ratas

El modelo considerado hace depender la variable conducta (medida mediante el test) del
tiempo t según una función polinómica

var. obs. = polinomio de grado m en t + error ⇔ y = Pm (t) +

151
Para determinar el grado del polinomio al cual se ajustan los valores experimentales se
plantea la hipótesis 8.10 que se resuelve mediante el test F 8.11.
Los resultados, obtenidos según el método de los polinomios ortogonales, son los siguientes
grupo control g.l. grupo experimental g.l.

Q(0) = 273,87 9 Q(0) = 249,99 9

Q(1) = 249,22 8 Q(1) = 216,12 8
Q(2) = 233,52 7 Q(2) = 213,15 7
Q(3) = 41,61 6 Q(3) = 37,80 6
Q(4) = 41,52 5 Q(4) = 27,10 5

Observemos que hay un fuerte descenso de la suma de cuadrados residual Q(m) al pasar
de grado 2 a grado 3, indicio de que los datos experimentales se ajustan a un polinomio
de grado 3.
Las F obtenidas son:
contraste grupo control grupo experimental

0 v.s. 1 F = 0,79 (n.s.) F = 1,25 (n.s.)

0 v.s. 2 F = 0,60 (n.s.) F = 0,60 (n.s.)
0 v.s. 3 F = 11,16 (p < 0,01) F = 11,23 (p < 0,01)
1 v.s. 3 F = 14,97 (p < 0,01) F = 14,25 (p < 0,01)
2 v.s. 3 F = 27,67 (p < 0,01) F = 27,83 (p < 0,01)
3 v.s. 4 F = 0,01 (n.s.) F = 1,98 (n.s.)
Efectivamente, tanto los datos del grupo control como los del grupo experimental se ajustan
a un polinomio de grado 3 (ver Figura 8.2).

40
35

30
25 grupo control

20 grupo
15 experimental

10
5
0
40 50 60 70 80

Figura 8.2: Gráfico de los dos grupos de ratas

El modelo es:
grupo control (◦)

yi = 1929,24 − 97,86ti + 1,654t2i − 0,0092t3i + i

grupo experimental (•)

yi = 1892,28 − 94,94ti + 1,593t2i − 0,0088t3i + i

152
8.7. Comparación de curvas experimentales
8.7.1. Comparación global
Si dos curvas experimentales se ajustan bien a modelos de formulación matemática di-
ferente (por ejemplo, dos polinomios de distinto grado) hay que aceptar que las curvas
experimentales son distintas.
Si las dos curvas son polinomios del mismo grado

y1 = Pm (x) +
y2 = P̄m (x) +

la comparación se expresa planteando el siguiente contraste de hipótesis

H0 : Pm (x) = P̄m (x)

(8.12)
H1 : Pm (x) 6= P̄m (x)

que implica la hipótesis lineal

H0 : βi = β̄i i = 0, 1, . . . , m

análoga a
H0 : γi = γ̄i i = 0, 1, . . . , m (8.13)
si utilizamos el modelo planteado mediante polinomios ortogonales (ver 8.7).
Sean SCR1 = Q1 (m), SCR2 = Q2 (m) las sumas de cuadrados residuales para cada curva
y SCR = SCR1 + SCR2 la suma de cuadrados residual del modelo conjunto construido
mediante la unión de los dos modelos.
La construcción del modelo conjunto es sólo posible si los dos modelos poseen varianzas
iguales. Por este motivo, es necesario plantear previamente el test de homogeneidad de
varianzas

H0 : σ12 = σ22
H1 : σ12 6= σ22

que se resuelve mediante el estadı́stico

SCR1 /(n1 − m − 1)
F = (8.14)
SCR2 /(n2 − m − 1)

cuya distribución si H0 es cierta es una F con n1 − m − 1 y n2 − m − 1 g.l..

Si aceptamos la igualdad de varianzas, podemos resolver 8.13 mediante el estadı́stico

(SCRH − SCR1 − SCR2 )/(m + 1)

F = (8.15)
(SCR1 + SCR2 )/(n1 + n2 − 2m − 2)

que bajo H0 sigue una F con m + 1 y n1 + n2 − 2m − 2 g.l.. La suma de cuadrados

SCRH = Q12 (m) es la suma de cuadrados residual bajo H0 , es decir, considerando que
las dos curvas son iguales y que en consecuencia todos los datos se ajustan a un mismo
polinomio de grado m.

153
8.7.2. Test de paralelismo
La hipótesis lineal de que las curvas son paralelas se plantea de la siguiente forma

H0 : βi = β̄i i = 1, . . . , m

o bien, si nos referimos a 8.7

H0 : γi = γ̄i i = 1, . . . , m (8.16)

Es decir, las curvas difieren únicamente respecto a la ordenada en el origen.

Esta hipótesis tiene generalmente interés cuando se rechaza H0 de 8.12. Se resuelve me-
diante el estadı́stico
(SCR∗H − SCR1 − SCR2 )/m
F = (8.17)
(SCR1 + SCR2 )/(n1 + n2 − 2m − 2)
cuya distribución sigue una F con m y n1 + n2 − 2m − 2 g.l. cuando H0 es cierta. La
suma de cuadrados SCR∗H es la suma de cuadrados residual bajo H0 que supone aceptar
la existencia de dos curvas distintas pero paralelas.

Ejemplo 8.7.1
En el ejemplo 8.6.1 hemos ajustado los datos del grupo control y del grupo experimental
a dos polinomios de grado 3.
¿Podemos aceptar que en realidad los dos polinomios son iguales? Esta pregunta equivale
a plantear la hipótesis lineal 8.13. Para resolverla es necesario realizar previamente el test
de homogeneidad de varianzas utilizando 8.14
41,61/(10 − 3 − 1)
F = = 1,10
37,80/(10 − 3 − 1)

con 6 y 6 g.l. (no significativa).

Pasamos pues a contrastar 8.13 mediante el estadı́stico 8.15. La suma de cuadrados re-
sidual bajo H0 es SCRH = Q12 (3) = 249,06

(249,06 − 41,61 − 37,80)/(3 + 1)

F = = 6,41
(41,61 + 37,80)/(10 + 10 − 6 − 2)

con 4 y 12 g.l. que es significativa (p < 0,01). Debemos aceptar en consecuencia que las
dos curvas son diferentes (la conducta de los individuos del grupo control es diferente de
la conducta de los individuos del grupo experimental).
No obstante, podemos preguntarnos si las dos curvas son paralelas y plantear la hipótesis
lineal 8.16 que resolveremos utilizando el estadı́stico 8.17. La suma de cuadrados residual
bajo H0 es ahora SCR∗H = Q∗12 = 82,59

(82,59 − 41,61 − 37,80)/3

F = = 0,16
(41,61 + 37,80)/(10 + 10 − 6 − 2)

con 3 y 12 g.l. (no significativa). Podemos entonces aceptar que las dos curvas experi-
mentales son paralelas. La interpretación en términos de la conducta podrı́a realizarse
conociendo con más precisión el planteamiento del problema.

154
8.8. Ejemplos con S-PLUS
Vamos a utilizar los datos del ejemplo 8.4.1 sobre el lenguaje. Las siguientes instrucciones
permiten introducir los datos y dibujar los diagramas de dispersión dos a dos de las
variables del ejemplo (ver figura 8.3).

2 4 6 8

8
6
y

4
2
8
6

x1
4
2

9
8
7
x2

6
5
4
3
2 4 6 8 3 4 5 6 7 8 9

Figura 8.3: Diagramas de dispersión dos a dos entre la variable respuesta y las variables
explicativas del ejemplo 8.4.1

> y<-c(3,2,4,9,6,7,2,6,5,8)
> x1<-c(1,1,3,7,8,7,4,6,6,9)
> x2<-c(3,4,7,9,7,6,5,8,5,7)
> exp<-cbind(x1,x2)
> lenguaje.datos<-data.frame(y,exp)
> par(pty="s")
> pairs(lenguaje.datos)

El siguiente paso es calcular el modelo de regresión lineal múltiple que permita predecir
los valores de Y en función de las variables explicativas x1 y x2 .

> regrem<-lm(y~x1+x2)
> summary(regrem)

Call: lm(formula = y ~ x1 + x2)

Residuals:
Min 1Q Median 3Q Max
-2.051 -0.5264 -0.05257 0.7989 1.47

Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) -0.4244 1.4701 -0.2887 0.7812
x1 0.5123 0.2087 2.4543 0.0438

155
x2 0.4853 0.3178 1.5273 0.1705

Residual standard error: 1.266 on 7 degrees of freedom

Multiple R-Squared: 0.7907
F-statistic: 13.22 on 2 and 7 degrees of freedom, the p-value is 0.004196

Correlation of Coefficients:
(Intercept) x1
x1 0.1811
x2 -0.8036 -0.6973

El plano estimado es ŷ = −0,4244 + 0,5123x1 + 0,4853x2 con un coeficiente de determi-

nación R2 = 0,7907 y el estadı́stico F nos dice que el modelo es útil, si un estudio más
profundo decide finalmente que es realmente válido.
Resulta curioso que en S-PLUS se puede obtener el coeficiente de determinación R 2 a
partir de la función summary.lm en la forma

> summary(regrem)$r.squared
[1] 0.790684

pero no hay nombre para el coeficiente ajustado. Mientras que en R sı́ es posible.
También se pueden obtener los coeficientes a partir de la matriz X0 X:

> XtX<-t(regrem$R)%*%regrem$R
> XtX
(Intercept) x1 x2
(Intercept) 10 52 61
x1 52 342 350
x2 61 350 403
> XtX.inv<-solve(XtX)
> XtX.inv
(Intercept) x1 x2
(Intercept) 1.34840753 0.03466479 -0.2342073
x1 0.03466479 0.02718635 -0.0288580
x2 -0.23420728 -0.02885800 0.0629949
> XtX.inv%*%t(cbind(1,exp))%*%y
[,1]
(Intercept) -0.4244237
x1 0.5123174
x2 0.4853071

La matriz XtX.inv se puede obtener de forma directa ası́:

> summary(regrem)$cov.unscaled
(Intercept) x1 x2
(Intercept) 1.34840753 0.03466479 -0.2342073
x1 0.03466479 0.02718635 -0.0288580
x2 -0.23420728 -0.02885800 0.0629949

También se obtiene más fácilmente con los elementos que proporciona la función lsfit:

156
> regrem.ls<-lsfit(exp,y)
> regrem.diag<-ls.diag(regre.ls)
> regrem.diag$cov.unscaled

La matriz σ̂ 2 (X0 X)−1 de varianzas y covarianzas entre los estimadores MC de los coefi-
cientes se obtiene de forma sencilla:

> summary(regrem)$sigma^2*summary(regrem)$cov.unscaled
(Intercept) x1 x2
(Intercept) 2.16117719 0.05555943 -0.37537868
x1 0.05555943 0.04357326 -0.04625252
x2 -0.37537868 -0.04625252 0.10096587

o también

> regrem.diag$std.dev^2*regrem.diag$cov.unscaled

Para calcular intervalos de confianza sobre los coeficientes de regresión hacemos

> beta.est<-cbind(regrem.ls$coef);beta.est
[,1]
Intercept -0.4244237
x1 0.5123174
x2 0.4853071
> cbind(beta.est+qt(0.025,7)*regrem.diag$std.err,
+ beta.est+qt(0.975,7)*regrem.diag$std.err)
[,1] [,2]
(Intercept) -3.90064431 3.051797
x1 0.01872084 1.005914
x2 -0.26605529 1.236669

Observamos que los intervalos correspondientes a β0 y β2 contienen al cero, en coherencia

con los test t parciales. Pero también nos puede interesar reproducir la tabla ANOVA
sobre la significación de la regresión, aunque el test F ya se ha obtenido con la función
summary(regrem). Las funciones anova.lm o summary.aov nos pueden ayudar.

> summary.aov(regrem)
Df Sum of Sq Mean Sq F Value Pr(F)
x1 1 38.64190 38.64190 24.10956 0.0017330
x2 1 3.73876 3.73876 2.33270 0.1705213
Residuals 7 11.21934 1.60276

Sin embargo, los resultados se refieren a contrastes F secuenciales y parciales. Exacta-

mente SCR (β0 , β1 ) = 38,64190 y SCR (β2 |β0 , β1 ) = 3,73876, de manera que

SCR = SCR (β1 , β0 ) + SCR (β2 |β0 , β1 ) = 42,38066

Por otra parte, se observa directamente que SCR = 11,21934. Con estos datos, completar
la tabla 8.1 es relativamente sencillo. Sin embargo se puede conseguir dicha tabla, aunque
con otra organización, mediante un contraste de modelos:

157
> regrem0<-lm(y~1)
> anova(regrem0,regrem)
Analysis of Variance Table

Response: y

Terms Resid. Df RSS Test Df Sum of Sq F Value Pr(F)

1 1 9 53.60000
2 x1 + x2 7 11.21934 2 42.38066 13.22113 0.00419574

Otro aspecto que también hemos visto ha sido el cálculo de los coeficientes de regresión
estandarizados, que con S-PLUS se obtienen ası́:

> cor(exp)
x1 x2
x1 1.0000000 0.6973296
x2 0.6973296 1.0000000
> cor(exp,y)
[,1]
x1 0.8490765
x2 0.7813857
> solve(cor(exp),cor(exp,y))
[,1]
x1 0.5921248
x2 0.3684796

Si queremos más detalles sobre los coeficientes de regresión estandarizados, podemos

utilizar el siguiente modelo sin coeficiente de intercepción:

> x1.est<-(x1-mean(x1))/stdev(x1)
> x2.est<-(x2-mean(x2))/stdev(x2)
> y.est<-(y-mean(y))/stdev(y)
> regrem.est<-lm(y.est~-1+x1.est+x2.est)
> summary(regrem.est)

Por último, podemos estudiar la multicolinealidad calculando los FIV

> diag(solve(cor(exp)))
[1] 1.946542 1.946542

que en este caso no existe.

El cálculo de predicciones puntuales o por intervalo se obtiene mediante la función
predict.lm del modelo lineal.

158
8.9. Ejercicios
Ejercicio 8.1
Consideremos el modelo de la regresión lineal múltiple

yi = β0 + β1 xi1 + · · · + βm xim i = 1, . . . , n

Sean β̂0 , β̂1 , . . . , β̂m las estimaciones MC de los parámetros. Explicar en qué condiciones
podemos afirmar que E(β̂j ) = βj , j = 0, 1, . . . , m.
Por otra parte, ¿es siempre válido afirmar que

ŷi = β̂0 + β̂1 xi1 + · · · + β̂m xim

es una estimación centrada de

β0 + β1 xi1 + · · · + βm xim ?

Ejercicio 8.2
En la regresión múltiple de una variable Y sobre tres variables control x1 , x2 , x3

yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + i i = 1, . . . , n

donde i ∼ N (0, σ 2 ), se desea contrastar la hipótesis nula

H0 : β 2 = β 3 = 0

Sea ryx el coeficiente de correlación múltiple de Y sobre x1 , x2 , x3 y sea ry1 el coeficiente

de correlación simple entre Y y x1 . Deducir un test F para contrastar H0 que sea función
de ryx y ry1 .

Ejercicio 8.3
En una gran ciudad, queremos relacionar el número de muertos diarios por enfermedades
cardio-respiratorias con la media de humos (mg/m3 ) i la media de dióxido de azufre
(partes/millón) medidas por los equipos del Ayuntamiento en diversas zonas de la ciudad.
Consideremos un modelo de regresión lineal no centrado con los siguientes datos:
   
15 6,87 21,09 0,2243 −1,2611 0,2987
X0 X =  5,6569 18,7243  (X0 X)−1 =  16,1158 −4,3527 
63,2157 1,2054
 
3922
X0 Y =  2439,54  Y0 Y = 1264224
7654,35
Se pide:

1) Calcular la estimación MC de todos los coeficientes de regresión del modelo.

2) Obtener una estimación insesgada de la varianza del modelo.

3) Contrastar la significación del modelo propuesto con α = 0,1.

159
4) Calcular el intervalo de confianza al 95 % para la media del valor respuesta para
una media de humos de 1 mg/m3 y una media de SO2 de 1.

Ejercicio 8.4
Se dispone de los siguientes datos sobre diez empresas fabricantes de productos de limpieza
doméstica:
Empresa V IP P U
1 60 100 1,8
2 48 110 2,4
3 42 130 3,6
4 36 100 0,6
5 78 80 1,8
6 36 80 0,6
7 72 90 3,6
8 42 120 1,2
9 54 120 2,4
10 90 90 4,2

En el cuadro anterior, V son las ventas anuales, expresadas en millones de euros, IP es un

ı́ndice de precios relativos (Precios de la empresa/Precios de la competencia) y P U son los
gastos anuales realizados en publicidad y campañas de promoción y difusión, expresados
también en millones de euros.
Tomando como base la anterior información:

1) Estimar el vector de coeficientes β = (β0 , β1 , β2 )0 del modelo

Vi = β0 + β1 IPi + β2 P Ui + i

b
2) Estimar la matriz de varianzas-covarianzas del vector β.

3) Calcular el coeficiente de determinación.

Ejercicio 8.5
Dado el modelo
Yt = β0 + β1 X1t + β2 X2t + ut
y los siguientes datos

Yt X1t X2t
10 1 0
25 3 −1
32 4 0
43 5 1
58 7 −1
62 8 0
67 10 −1
71 10 2

obtener:

160
(a) La estimación MC de β0 , β1 , β2 utilizando los valores originales.

(b) La estimación MC de β0 , β1 , β2 utilizando los datos expresados en desviaciones res-

pecto a la media.

(c) La estimación insesgada de σ 2 .

(d) El coeficiente de determinación.

(e) El coeficiente de determinación corregido.

(f) El contraste de la hipótesis nula H0 : β0 = β1 = β2 = 0.

(g) El contraste de la hipótesis nula H0 : β1 = β2 = 0 utilizando datos originales.

(h) El contraste de la hipótesis nula H0 : β1 = β2 = 0 utilizando datos en desviaciones

respecto a la media.

(i) La representación gráfica de una región de confianza del 95 % para β1 y β2 .

(j) El contraste individual de los parámetros β0 , β1 y β2 .

(k) El contraste de la hipótesis nula H0 : β1 = 10β2 .

(l) El contraste de la hipótesis nula H0 : 2β0 + 2β1 + 7β2 = 50.

(m) El contraste de la hipótesis nula conjunta H0 : β1 = 10β2 , 2β0 + 2β1 + 7β2 = 50.

Ejercicio 8.6
Supongamos que hemos estimado la siguiente ecuación utilizando MC (con las variables
medidas en logaritmos)

Yt = β0 + β1 X1t + β2 X2t t = 1, . . . , 17

y las estimaciones de los parámetros son:

β̂0 = 1,37 β̂1 = 1,14 β̂2 = −0,83

También hemos obtenido la siguiente expresión escalar:

Y0 [I − X(X0 X)−1 X0 ]Y = 0,0028

y los elementos triangulares de la matriz (X0 X)−1 son:

 
510,89 −254,35 0,42
 132,70 −6,82
7,11

Se pide:

1. Calcular las varianzas de los estimadores MC de β0 , β1 , β2 .

2. Si X1t aumenta en un 1 por 100 y X2t en un 2 por 100, ¿cuál serı́a el efecto estimado
en Yt ?

161
3. Efectuar un test estadı́stico para verificar la hipótesis de que β1 = 1 y β2 = −1
y dar el valor de dicho estadı́stico. ¿Cuáles son las tablas que necesitaremos para
realizar el test y cuántos son los grados de libertad?

Ejercicio 8.7
Una variable Y depende de otra variable control x que toma los valores x1 = 1, x2 =
2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal

yi = β0 + β1 xi + β2 x2i + i i = 1, 2, 3, 4

Estudiar la expresión del estadı́stico F para contrastar la hipótesis H0 : β1 = β2 .

Ejercicio 8.8
La puntuación del test open-field para un grupo de 10 ratas control (C) y otro grupo de
10 ratas experimentales (E) a lo largo de los dı́as 47, 50, . . . , 74 contados desde el instante
del nacimiento fue
Dı́a 47 50 53 56 59 62 65 68 71 74
grupo C 34 24 21 23 23 30 31 26 23 17
grupo E 25 20 16 15 21 20 28 23 18 9

Se ajustaron al grupo control polinomios de grado 0, 1, 2 y 3 respecto la variable “edad

en dı́as” y se obtuvieron las siguientes sumas de cuadrados residuales:
Q(0) = 235,6
Q(1) = 202,8
Q(2) = 199,4
Q(3) = 29,7
Se pide:

1) Comprobar que se puede aceptar como válido el polinomio de grado 3 como poli-
nomio de regresión de Y (puntuación) sobre x (edad en dı́as).
2) El polinomio de grado 3 que ajusta Y a x es

y = 318,8 − 93,3x + 1,56x2 − 0,0086x3

El coeficiente de correlación múltiple de Y sobre x, x2 , x3 es ryx = 0,8734. Estudiar

si es significativo.
3) Para el grupo experimental es también adecuado un ajuste polinómico de grado 3
con suma de cuadrados residual Q(3) = 29,2. Además, juntando todos los datos re-
ferentes a Y , es decir, juntando los dos grupos y en consecuencia las 20 observaciones
y realizando un ajuste polinómico de grado 3, se obtiene

SCRH = 225,8

Contrastar las hipótesis

H0 : los dos polinomios (C y E) son idénticos
H1 : hay diferencias significativas entre ambos polinomios

162
Capı́tulo 9

Diagnosis del modelo

En este capı́tulo se investiga la detección de posibles deficiencias en el modelo por incum-

plimiento de las hipótesis fijadas en 2.3. Para ello la principal herramienta es el análisis
de los residuos que nos permite detectar los siguientes problemas:

1. Algunas de las variables explicativas del modelo tienen una relación no lineal con
la variable respuesta.

2. No hay homocedasticidad, es decir, los errores no tienen varianza constante.

3. Los errores no son independientes.

4. Muchas observaciones atı́picas.

5. Hay observaciones demasiado influyentes.

6. Los errores no tienen distribución normal

También estudiaremos la consecución del mejor grupo reducido de variables regresoras.

9.1. Residuos
9.1.1. Estandarización interna
Los residuos de un modelo lineal se obtienen como diferencia entre los valores observados
de la variable respuesta y las predicciones obtenidas para los mismos datos:
b
e = (e1 , . . . , en )0 = Y − Y

La media de los residuos es cero

n
1X
ē = ei = 0
n i=1

y una estimación aproximada de la varianza es

X n X n
1 1
(ei − ē)2 = e2 = SCR/(n − k − 1) = ECM
n − k − 1 i=1 n − k − 1 i=1 i

163
que tiene sólo n − k − 1 grados de libertad, donde k es el número de variables regresoras,
ya que los n residuos no son independientes,
Se llaman residuos estandarizados a
ei
di = √ i = 1, . . . , n
ECM
que tienen media cero y varianza aproximada uno.
b = (I − P)Y = (I − P),
Ahora bien, como el vector de residuos aleatorios es e = Y − Y
donde P es la matriz proyección, la matriz de varianzas-covarianzas de los residuos es
var(e) = σ 2 (I − P) de manera que

var(ei ) = σ 2 (1 − hii )

donde hii es el i-ésimo elemento1 de la diagonal de P.

La utilización de los residuos e como estimaciones de los errores requiere que mejoremos
la estandarización. Como 0 ≤ hii ≤ 1, utilizar ECM para estimar la varianza var(ei ) es
una sobreestimación:
0≤ var(ei ) ≤ σ2
0 ≤ ECM(1 − hii ) ≤ ECM

De modo que muchos autores recomiendan trabajar con los residuos studentizados
ei
ri = i = 1, . . . , n
[ECM(1 − hii )]1/2

Además, hii es una medida de la localización del i-ésimo punto xi respecto al punto medio.
En la regresión lineal simple

1 (xi − x̄)2
hii = + Pn 2
(9.1)
n i=1 (xi − x̄)

En el modelo de regresión múltiple

1 1
hii = [1 + (xi − x̄)0 S−1
xx (xi − x̄)] = (1 + Di2 ) (9.2)
n n
donde Di2 es la llamada distancia de Mahalanobis.
Ası́, la varianza de un error ei depende de la posición del punto xi . Puntos cercanos al
punto central x̄ tienen mayor varianza (pobre ajuste MC) que los puntos alejados.
Como las violaciones de las hipótesis del modelo son más probables en los puntos remotos,
pero más difı́ciles de detectar con los residuos ei (o di ), porque los residuos son menores,
es mejor trabajar con los residuos ri ya que var(ri ) = 1 constante, desde el punto de vista
de la localización de los xi .
Para n grande se puede trabajar con los di o con los ri . Pero como valores altos de ei
y de hii pueden indicar un punto de alta influencia en el ajuste MC, se recomienda la
utilización de los residuos estudentizados ri . Estos residuos se utilizarán en el diagnóstico
de valores atı́picos.
1
En muchos libros escritos en inglés la matriz proyección se llama hat y se escribe H.

164
Ejemplo 9.1.1
Si recuperamos el ejemplo de regresión simple propuesto en la sección 1.2 con los datos
de tráfico, podemos calcular los residuos studentizados de ese modelo.
Primero calculamos los elementos de la diagonal de la matriz P, por ejemplo
1 (12,7 − 54,44167)2
h11 = + = 0,155865
24 15257,4383
y con este valor se obtiene el residuo
0,528699
r1 = = 2,13968
0,2689388(1 − 0,155865)1/2
Los otros residuos se calculan de forma similar, mejor con la ayuda de una hoja de cálculo
o con un programa estadı́stico (ver sección 9.4).

9.1.2. Estandarización externa

Para calcular los residuos estudentizados ri en el apartado anterior hemos utilizado ECM
como estimador de la varianza σ 2 . Nos referiremos a esto como una estimación interna
puesto que para calcularla se utilizan los n puntos. Otra aproximación consiste en estimar
σ 2 con el conjunto de datos sin la i-ésima observación.
Si s2(i) es la estimación de σ 2 ası́ obtenida, se demuestra que

2 (n − k − 1)ECM − e2i /(1 − hii ) n − k − 1 − ri2
s(i) = = ECM
n−k−2 n−k−2
Si utilizamos estos estimadores de σ 2 en lugar de ECM, producimos los llamados residuos
studentizados externamente o R-Student
ei
ti = 2 i = 1, . . . , n (9.3)
[s(i) (1 − hii )]1/2

En la mayorı́a de situaciones los residuos ti no diferirán de los residuos studentizados ri .

Sin embargo, si la i-ésima observación es influyente, entonces s2(i) puede diferir significa-
tivamente de ECM y el estadı́stico ti será más sensible para este punto. Además, bajo las
hipótesis estándar ti ∼ tn−k−2 , de modo que podemos considerar un procedimiento formal
para la detección de valores atı́picos mediante el contraste de hipótesis y utilizando algún
método múltiple. En la práctica, un diagnóstico “a ojo” es más útil y rápido. En general,
se considera que un residuo es atı́pico o outlier si |ti | > 2. Además, la detección de los
valores atı́picos está ligada a la detección de puntos influyentes.

Ejemplo 9.1.2
Vamos a calcular el residuo studentizado externamente t1 para la primera observación
de la regresión simple continuación del ejemplo 9.1.1. Para ello necesitamos el valor del
error ECM = (0,2689388)2 = 0,072328 con el que calculamos
24 − 1 − 1 − 2,139682
s2(i) = 0,072328 = 0,060004
24 − 1 − 2
y con esta estimación externa
0,528699
t1 = p = 2,349159
0,060004(1 − 0,155865)

165
a) Residuos studentizados b) Residuos studentizados
internamente externamente
2

2
1

1
r_i

t_i
0

0
-1

-1
-2

-2
5 10 15 20 5 10 15 20

dato dato

Figura 9.1: Gráficos de los residuos studentizados del ejemplo 9.1.1.

Siguiendo con la misma idea, también podemos calcular los residuos en función de las
predicciones ŷi(i) calculadas con el modelo de regresión sin la i-ésima observación. Sean
e(i) = yi − ŷi(i) los residuos ası́ obtenidos y
n
X
PRESS = e2(i)
i=1

su suma de cuadrados2 .
Se demuestra que
ei σ2
e(i) = var(e(i) ) = (9.4)
1 − hii 1 − hii
de modo que la estandarización de estos residuos
e(i) ei
1/2
= 2
[var(e(i) )] [σ (1 − hii )]1/2

también depende del estimador que utilicemos para estimar σ 2 . Si utilizamos el estimador
interno ECM, recuperamos los residuos studentizados ri y si utilizamos el estimador
externo s2(i) obtenemos los residuos studentizados externamente ti .
Los residuos asociados con puntos para los que hii sea grande, tendrán residuos e(i) gran-
des. Estos puntos serán puntos de alta influencia. Una gran diferencia entre el residuo
ordinario ei y el residuo e(i) indicará un punto en el que el modelo, con ese punto, se
ajusta bien a los datos, pero un modelo construido sin ese punto “predice” pobremente.

9.1.3. Gráficos
Algunos gráficos de los residuos nos van a ayudar en el diagnóstico del modelo aplicado.
2
prediction error sum of squares

166
En primer lugar, el análisis de datos univariante de los residuos y, en particular, los gráficos
como histogramas, diagramas de caja, diagramas de tallo y hojas, etc. nos mostrarán
algunos detalles. Por ejemplo, en el diagrama de caja podemos estudiar la centralidad, la
simetrı́a y la presencia de valores atı́picos.

RESIDUO Stem-and-Leaf Plot

,2
Frequency Stem & Leaf

-,0
14,00 -0 . 00011122222333
8,00 0 . 01112224
-,2 2,00 0 . 55

Stem width: 1,000000

-,4
Each leaf: 1 case(s)

-,6
N= 24

RESIDUO

Figura 9.2: Boxplot y diagrama de tallo y hojas de los residuos en la regresión simple del
ejemplo 9.1.3.

Ejemplo 9.1.3
También con los datos de tráfico del ejemplo de regresión simple propuesto en la sección
1.2 podemos representar algunos gráficos de los residuos sin estandarizar. En la figura
9.2 se muestran dos de los gráficos obtenidos con el programa SPSS. En ellos se observa
una cierta asimetrı́a de los residuos, aunque no hay ningún valor atı́pico.

Otros gráficos adecuados para el análisis de la regresión son:

Gráfico de dispersión de los residuos respecto al ı́ndice i = 1, . . . , n.

Este diagrama puede indicar algún tipo de correlación no deseada entre los residuos
o alguna agrupación contraria a la supuesta aleatoriedad (figura 9.3 a).

Gráfico de los residuos versus los datos de la variable respuesta.

Permite observar los residuos desde los valores observados de la variable respuesta.

Gráfico de los residuos versus los valores ajustados.

Este gráfico es muy importante porque debe mostrar una total aleatoriedad. La
dispersión horizontal no debe presentar ninguna tendencia. Una curvatura indica la
violación del supuesto de linealidad del modelo en el caso de regresión lineal simple
(figura 9.3 b). Una forma triangular indica una posible heterogeneidad o violación
de la hipótesis de varianza constante de los errores.

Gráficos de los residuos versus las observaciones de la variable o variables regresoras.

Sirven para detectar si las variables regresoras o explicativas han de incluirse en el
modelo con alguna transformación no lineal.

167
Gráfico de los valores observados versus los valores ajustados.
La proximidad de los puntos a la bisectriz muestra el ajuste de la recta de regresión
(figura 9.3 c).
Gráfico de los cuantiles de la distribución normal o QQ-plot y gráfico de las proba-
bilidades acumuladas de la distribución normal o PP-plot.
Con estos gráficos se pretende visualizar el ajuste de la distribución muestral de
los residuos a la ley normal. En el QQ-plot se dibujan los puntos asociados a los
cuantiles de la distribución normal (estándar en S-PLUS o sin estandarizar como
en SPSS). En el PP-plot se dibujan las probabilidades acumuladas estimadas y
teóricas para la distribución normal. En ambos casos se dibuja también una recta
que representa el ajuste perfecto a la distribución normal. Los desvı́os exagerados
de dichas rectas indican una posible violación de la hipótesis de normalidad (figura
9.3 d).
El estudio de la normalidad de los residuos se debe completar con algún contraste
de ajuste como la prueba ji-cuadrado o el test de Kolmogorov (ver sección 9.4).

a) Residuos vs. indice b) Residuos vs. ajustados

0.4

0.4
0.2

0.2
residuos

residuos
0.0

0.0
-0.2

-0.2

5 10 15 20 3 4 5 6 7

indice ajustados

c) Ajustados vs. observados d) QQ-plot

0.4
7

0.2
observados

residuos
6

0.0
5

-0.2
4

3 4 5 6 7 -2 -1 0 1 2

ajustados Cuantiles de la normal

Figura 9.3: Gráficos en el análisis de la regresión simple del ejemplo 9.1.4.

Ejemplo 9.1.4
Como continuación del ejemplo de regresión simple 9.1.3 con los datos de tráfico, pode-
mos representar algunos gráficos como los de la figura 9.3. Entre esos gráficos podemos

168
destacar la no aleatoriedad manifiesta del gráfico (b) que indica un ajuste no lineal entre
las variables. Ello justifica la introducción del modelo parabólico (ejercicio 9.1).

9.2. Diagnóstico de la influencia

Ocasionalmente hallamos que algún dato o un pequeño subconjunto de datos ejerce una
desproporcionada influencia en el ajuste del modelo de regresión. Esto es, los estimadores
de los parámetros o las predicciones pueden depender más del subconjunto influyente
que de la mayorı́a de los datos. Queremos localizar estos puntos influyentes y medir su
impacto en el modelo. Si por alguna razón concreta son puntos “malos” los eliminaremos,
pero si no ocurre nada extraño, su estudio puede darnos algunas claves del modelo.

9.2.1. Nivel de un punto

Casi siempre los puntos definidos por las variables regresoras o explicativas forman una
nube y están razonablemente repartidos alrededor del punto medio. Sin embargo, alguno
de ellos o un pequeño grupo puede aparecer muy alejado del resto. Estos valores son
potencialmente peligrosos, puesto que pueden afectar excesivamente al ajuste del modelo.
Vamos a definir el concepto de nivel3 de un punto y señalaremos los que tengan un nivel
muy alto (leverage points).
El nivel de un punto es una medida de la distancia del punto al centroide del conjunto de
datos. Existen varias propuestas pero la más extendida se basa en los elementos hii de la
diagonal de la matriz proyección P. Estos elementos se calculan con las fórmulas 9.1 en
el caso de la regresión simple y 9.2 para la regresión múltiple.
Como n
X
hii = traza(P) = rango(P) = k + 1
i=1

el tamaño medio de cada hii es (k + 1)/n. Ası́, cuando un punto verifique hii > 2(k + 1)/n
diremos que dicha observación es un punto de alto nivel. Estos puntos se deben marcar
para su posterior estudio ya que son potencialmente influyentes.

Ejemplo 9.2.1
Siguiendo con el ejemplo 9.1.1 los datos con mayor nivel son

dato nivel
1 0,15586452
15 0,13601868
2 0,13354830

Dado que 2(k + 1)/n = (2 · 2)/24 = 0,1666, no hay ningún punto de alto nivel.
3
leverage

169
9.2.2. Influencia en los coeficientes de regresión
Entre las medidas de influencia sobre los coeficientes de regresión la más empleada es la
distancia de Cook (1977,1979)

b−β
(β b (i) )0 X0 X(β
b −β
b (i) )
Ci = i = 1, . . . , n (9.5)
(k + 1)ECM

donde β b son las estimaciones MC en el modelo con todos los puntos, mientras que βb son
(i)
las estimaciones sin el i-ésimo punto. Esta medida calcula la distancia cuadrática entre
byβ
β b (i) , relativa a la geometrı́a fija de X0 X.
Otra versión equivalente de esta distancia es
b −Y
(Y b (i) )0 (Y
b −Y
b (i) )
Ci =
(k + 1)ECM

b = Xβ
ya que Y byY b (i) = Xβb (i) .
Sin embargo para el cálculo de esta distancia es mejor utilizar la fórmula

ri2 hii
Ci = ·
k + 1 1 − hii
donde la primera parte depende del ajuste al modelo de la i-ésima predicción, mientras
que el segundo factor es una función de la distancia del punto xi al centroide del conjunto
de observaciones de las variables explicativas. Una demostración de esta fórmula puede
verse en el ejercicio 9.19 del libro de Ugarte y Militino[64].
La búsqueda de puntos influyentes se puede iniciar con la identificación de puntos con
distancia de Cook elevada. Sin embargo se desconoce la distribución exacta de este es-
tadı́stico y no hay reglas fijas para la determinación de los puntos con valor de Ci grande.
Los puntos con distancias de Cook grandes pueden ser influyentes y podemos extraerlos
del análisis para ver si los cambios son apreciables.

Ejemplo 9.2.2
Con el ejemplo de regresión simple que estamos estudiando desde el ejemplo 9.1.1 se
observa que los datos con mayor distancia de Cook son:

dato hii ri Ci
1 0,1559 2,1397 0,4227
12 0,1227 2,1178 0,3136

Estos datos son los de mayor influencia debida al gran residuo studentizado (los dos
mayores) y a su alto nivel, especialmente el dato 1.

Otra medida de influencia sobre cada coeficiente de regresión por separado fue propuesta
por ... y consiste en la diferencia estandarizada entre la estimación MC de dicho parámetro
con todas las observaciones y la estimación MC del mismo sin la i-ésima:

β̂j − β̂j(i)
Dfbetasj(i) = q
s2(i) cjj

170
a) Niveles de los datos b) Distancias de Cook
0.16

0.4
0.14

0.3
0.12
0.10
h_ii

C_i

0.2
0.08

0.1
0.06

0.0
0.04

5 10 15 20 5 10 15 20

dato dato

Figura 9.4: Gráficos de los niveles y distancias de Cook de los datos del ejemplo 9.2.2.

para j = 0, 1, . . . , k y i = 1, . . . , n, donde cjj es el j-ésimo elemento de la diagonal de

la matriz (X0 X)−1 y s2(i) la estimación xxx de la varianza σ 2 sin la i-ésima observación.
Observemos que s2(i) cjj es una estimación de la varianza var(β̂j ) = σ 2 cjj .
Un valor absoluto desmesurado de esta medida indica una gran influencia de la obser-
vación i-ésima sobre la estimación del coeficiente βj . En la práctica se considera una
observación influyente
√ cuando |Dfbetas| > 1 para un pequeño conjunto de datos y
|Dfbetas| > 2/ n en general.

9.2.3. Influencia en las predicciones

Como hemos visto, la distancia de Cook es también una medida de la influencia de un
punto sobre el conjunto de predicciones.
Otra medida de influencia de la i-ésima observación sobre la predicción de la propia
observación i es la distancia de ...
|ŷi − ŷi(i) |
Dffitsi = q
s2(i) hii

donde se estandariza la diferencia entre las predicciones de la i-ésima observación con y

sin ella misma.
A partir de las ecuaciones 9.3 y 9.4 se demuestra que (ejercicio 9.3)
r
hii
Dffitsi = |ti | (9.6)
1 − hii
donde ti son los residuos studentizados externamente.
p
En general se considera que la influencia es notable si el Dffits es superior a 2 (k + 1)/n,
mientras que para un conjunto de datos reducido basta que sea mayor que uno.

171
Ejemplo 9.2.3
Como continuación del ejemplo 9.2.2 podemos calcular el Dffits 1 para la primera obser-
vación: r
0,155865
Dffits1 = |2,349159| = 1,009439
1 − 0,155865
p
que supera el valor frontera 2 2/24 = 0,577 y muestra la alta influencia de esta obser-
vación.

9.3. Selección de variables

Con el objetivo de considerar el mejor modelo de regresión posible, el experimentador
debe seleccionar un conjunto de variables regresoras entre las observadas y, si es nece-
sario, entre potencias y productos de las mismas. Una primera decisión fijará el tipo de
relación funcional con la variable respuesta pero, en todo caso, la selección de un conjunto
reducido de variables explicativas es un problema complicado. Si consideramos un número
demasiado pequeño de variables es posible que la potencia del modelo se vea reducida
y que las estimaciones obtenidas sean sesgadas, tanto de los coeficientes de regresión,
como de las predicciones. Este sesgo se origina ya que los errores calculados con los datos
observados pueden contener efectos no aleatorios de las variables desechadas. Por otra
parte, un número muy grande de variables explicativas complica la utilidad práctica del
modelo y, aunque mejora el ajuste aparente, aumenta la varianza de los estimadores de
los parámetros.
Decidir el mejor conjunto de variables es prácticamente un arte, en el que algunas técnicas
sirven de apoyo: test t de Student de los coeficientes de regresión, test F de significación de
la regresión, estudio de la multicolinealidad, etc. Sin embargo, ya hemos alertado sobre la
utilización ciega de los test t parciales para medir la importancia de las variables. Ası́ pues,
es preciso añadir algunas técnicas especı́ficas para comparar modelos de regresión que
pasamos a detallar.

9.3.1. Coeficiente de determinación ajustado

Esta técnica consiste en calcular los coeficientes de determinación de todos los modelos
posibles con la combinación de cualquier número de variables explicativas. Para evitar los
problemas que justifican la definición 8.2.1 resulta obvio utilizar el coeficiente ajustado
cuando hay muchas variables en juego. El objetivo es reconocer el modelo con mayor
coeficiente. Sin embargo, si el número de variables es considerable esta técnica puede
tener dificultades de cálculo.

9.3.2. Criterio CP de Mallows

Con este criterio se debe fijar en primera instancia un número P de parámetros, incluido
el término independiente, aunque con posterioridad se podrá variar. Se trata de hallar el
mejor modelo con P variables explicativas, incluida la constante, utilizando el estadı́stico
de Mallows
SCRP
CP = − (n − 2P )
σ̂ 2

172
donde SCRP es la suma de cuadrados residual del modelo particular y σ̂ 2 un estimador
de la varianza del modelo que acostumbra a ser el ECM del modelo completo.
Para el modelo completo P = k + 1, el estadı́stico de Mallows es
SCR
Ck+1 = − (n − 2(k + 1)) = n − (k + 1) − (n − 2(k + 1)) = k + 1
ECM
También para todo modelo no completo se puede demostrar que aproximadamente E(CP ) =
P , si el modelo es adecuado. En consecuencia parece recomendable elegir los conjuntos
para los que CP sea aproximadamente P .

9.3.3. Selección paso a paso

El procedimiento se puede realizar hacia adelante (forward stepwise) o hacia atrás (back-
ward stepwise), seleccionando las variables una a una e incorporándolas desde el modelo
inicial o eliminándolas desde el modelo completo en función de su contribución al modelo.
Aunque es el método más utilizado por su facilidad de computación, este sistema tiene el
inconveniente de que puede conducir a modelos distintos y no necesariamente óptimos.
En la selección hacia adelante se incorpora como primera variable la de mayor F de signifi-
cación de la regresión simple. La segunda variable se selecciona por su mayor contribución
al modelo que ya contiene la primera variable del paso anterior y ası́ sucesivamente.

9.4. Ejemplos con S-PLUS

Con los datos de tráfico de la sección 1.2 se calcula la regresión como se explica en la
sección 6.9 mediante la instrucción

> recta<-lm(rvel~dens)

Para el análisis de los residuos, la función summary nos ofrece un resumen de cinco números

Call: lm(formula = rvel ~ dens)

Residuals:
Min 1Q Median 3Q Max
-0.3534 -0.2272 -0.03566 0.1894 0.5335

También podemos obtener algunos gráficos univariantes como los de la figura 9.5 con las
siguientes instrucciones:

> par(mfrow=c(1,2))
> par(pty="s")
> hist(residuals(recta),xlab="residuos")
> title("a) Histograma")
> boxplot(residuals(recta))
> title("b) Diagrama de caja")
> stem(residuals(recta))

N = 24 Median = -0.0356607
Quartiles = -0.228869, 0.1987335

173
a) Histograma b) Diagrama de caja
8

0.4
6

0.2
4

0.0
2

-0.2
0

-0.4 -0.2 0.0 0.2 0.4 0.6

residuos

Figura 9.5: Gráficos de los residuos de la regresión simple del ejemplo de la sección 1.2.

Decimal point is 1 place to the left of the colon

-3 : 510
-2 : 44332
-1 : 711
-0 : 611
0 : 3
1 : 028
2 : 245
3 :
4 : 0
5 : 33

Para obtener los gráficos de la figura 9.3 se requieren las siguientes instrucciones:

> par(mfrow=c(2,2))
> plot(residuals(recta),xlab="indice",ylab="residuos")
> title("a) Residuos vs. indice")
> plot(fitted(recta),residuals(recta),xlab="ajustados",ylab="residuos")
> title("b) Residuos vs. ajustados")
> plot(fitted(recta),rvel,xlab="ajustados",ylab="observados")
> abline(0,1)
> title("c) Ajustados vs. observados")
> qqnorm(residuals(recta),xlab="Cuantiles de la normal",ylab="residuos")
> qqline(residuals(recta))
> title("d) QQ-plot")

S-PLUS también permite obtener 6 gráficos para el análisis de un modelo de regresión

lineal de una forma directa, mediante las instrucciones

174
> par(mfrow=c(2,3))
> plot(recta)

En cuanto a los contrastes de ajuste a la distribución normal, podemos optar entre el test
de Kolmogorov-Smirnov ks.gof y la prueba ji-cuadrado chisq.gof. En nuestro caso:

> ks.gof(residuals(recta), distribution = "normal")

One sample Kolmogorov-Smirnov Test of Composite Normality

data: residuals(recta)
ks = 0.129, p-value = 0.5 alternative
hypothesis: True cdf is not the normal distn. with estimated parameters
sample estimates:
mean of x standard deviation of x
2.298509e-017 0.2630273

También se puede calcular la regresión con la instrucción

recta.ls<-lsfit(dens,rvel)

que nos proporciona muchos de los elementos para el diagnóstico en la forma:

> recta.diag<-ls.diag(recta.ls)
> recta.diag$hat # nivel
...
> recta.diag$std.res # residuos studentizados
...
> recta.diag$stud.res # residuos studentizados externamente
...
> recta.diag$cooks # distancias de Cook
...
> recta.diag$dfits # medidas Dffits
...

Los gráficos ...

> par(mfrow=c(1,2))
> par(pty="s")
> plot(recta.diag$hat,type="h",xlab="dato",ylab="h_ii")
> title("a) Niveles de los datos")
> plot(recta.diag$cooks,type="h",xlab="dato",ylab="C_i")
> title("b) Distancias de Cook")

> par(mfrow=c(1,2))
> par(pty="s")
> plot(recta.diag$std.res,xlab="dato",ylab="r_i",ylim=c(-2.5,2.5))
> title("a) Residuos studentizados \n internamente")
> plot(recta.diag$stud.res,xlab="dato",ylab="t_i",ylim=c(-2.5,2.5))
> title("b) Residuos studentizados \n externamente")

175
9.5. Ejercicios
Ejercicio 9.1
Realizar el análisis completo de los residuos del modelo de regresión parabólico propuesto
en la sección 1.2 con los datos de tráfico.

Ejercicio 9.2
Realizar el análisis completo de los residuos de los modelos de regresión simple y pa-
rabólico propuestos en la sección 1.2 con los datos de tráfico, pero tomando como variable
respuesta la velocidad (sin raı́z cuadrada). Este análisis debe justificar la utilización de
la raı́z cuadrada de la velocidad como variable dependiente.

Ejercicio 9.3
Probar la relación 9.6 a partir de las ecuaciones 9.3 y 9.4.

176
Capı́tulo 10

Análisis de la Varianza

10.1. Introducción
El Análisis de la Varianza es un conjunto de técnicas estadı́stico-matemáticas que per-
miten analizar cómo operan sobre una variable respuesta diversos factores considerados
simultáneamente según un determinado diseño factorial. Normalmente interesa estudiar
cómo se diferencian los niveles de un cierto factor, llamado factor tratamiento, teniendo en
cuenta la incidencia de otros factores cualitativos o cuantitativos (factores ambientales),
cuya influencia es eliminada mediante una adecuada descomposición de la variabilidad de
la variable observada. También se pretende detectar la relevancia en el resultado de las
variables o factores influyentes, es decir, estudiar la causalidad.
Un experimento de este tipo consiste en fijar los valores de los factores a distintos niveles y
observar el valor de la variable respuesta en cada caso. Ahora bien, para llegar a conclusio-
nes estadı́sticas correctas es preciso, en la mayorı́a de los problemas, observar el resultado
tras la repetición del experimento varias veces para cada una de las diversas condiciones
que indica el diseño pero lo más homogéneas posibles dentro de cada una. Esto redun-
dará en la reducción de la variabilidad y, por tanto, aumentará la capacidad estadı́stica
de detectar cambios o identificar variables influyentes. Con una variabilidad muy grande
respecto al error experimental no se pueden detectar diferencias entre tratamientos.
Como ocurre con la varianza de la media muestral, para reducir la variabilidad es po-
sible considerar un pequeño número de observaciones llamadas réplicas en condiciones
totalmente homogéneas o aumentar el número de observaciones. Esto último es preci-
so cuando tomamos observaciones fuera del laboratorio o con variables influyentes que
escapan a nuestro control.
Es muy importante que las réplicas sean exactamente eso, es decir, repeticiones del ex-
perimento en las mismas condiciones y no repeticiones de la observación que pueden dar
lugar a observaciones dependientes. Ası́ pues, debemos repetir todo el experimento desde
el principio para cada una de las observaciones.
Como ya hemos dicho, para investigar el efecto del factor principal o tratamiento es po-
sible que debamos considerar y eliminar los efectos de muchas variables que influyen en
el resultado. Para eliminar el efecto de una variable sobre el resultado del experimento
tenemos tres opciones: a) fijar el valor de la variable para toda la investigación y restrin-
gir la validez de nuestras conclusiones a ese dato; b) diseñar el experimento de manera
que dicha variable aparezca como factor con unos determinados valores o niveles y c)
aleatorizar su aparición en cada condición experimental. Las dos primeras opciones son
propias del laboratorio y dependen del experimentador. La tercera resulta útil cuando

177
queremos eliminar el efecto de una variable no directamente controlable y de poca in-
fluencia esperada, ası́ la parte de la variabilidad que le corresponde se incluirá en el error
experimental.
Para diseñar correctamente un experimento es preciso trabajar bajo el principio de alea-
torización. Este principio consiste en tomar las observaciones de las réplicas asignando al
azar todos los factores no directamente controlados por el experimentador y que pueden
influir en el resultado. En el ejemplo 10.2.1 la comparación entre tres tratamientos se
hace con pacientes con ciertas condiciones de homogeneidad pero asignando los pacientes
al azar a cada tratamiento. Con la aleatorización se consigue prevenir sesgos, evitar la
dependencia entre observaciones y validar estadı́sticamente los resultados. En particular,
debemos aleatorizar el orden de realización de los experimentos.
En resumen, es necesario que el experimento esté bien diseñado mediante el control fı́sico,
fijando niveles, o estadı́stico, mediante la aleatorización, de todas las variables o factores
relevantes. Ası́ se garantizará que las diferencias se deben a las condiciones experimentales
fijadas el diseño y se podrá concluir estadı́sticamente una relación causal.
Además, en Peña[50, pág. 82] se muestra cómo la aleatorización permite la compara-
ción de medias mediante los llamados tests de permutaciones que no requieren ningún
tipo de hipótesis sobre la distribución del error. Por otra parte, puede demostrarse (ver
Scheffé[59]) que los contrastes F son una buena aproximación a los contrastes de permu-
taciones, de manera que la aleatorización justifica la utilización de la teorı́a de los modelos
lineales bajo hipótesis de normalidad, aunque dicha hipótesis no esté plenamente validada.
En general, en todo Análisis de la Varianza es necesario considerar tres etapas:

a) Diseño del experimento a fin de obtener observaciones de una variable Y , combi-

nando adecuadamente los factores incidentes.

b) Planteo de hipótesis, cálculo de sumas de cuadrados (residuales, de desviación de

la hipótesis, etc.) y obtención de los cocientes F . Esta parte del análisis se formula
mediante la teorı́a de los modelos lineales.

c) Toma de decisiones e interpretación de los resultados. Planteamiento “a posteriori”

de nuevas hipótesis.

10.2. Diseño de un factor

Supongamos que una variable Y ha sido observada bajo k condiciones experimentales
distintas. Puede ser que las observaciones provengan de k poblaciones, o bien tratarse de
réplicas para cada uno de los k niveles de un factor.
Indiquemos por yih la réplica h (h = 1, . . . , ni ) en la población o nivel i (i = 1, . . . , k),
donde ni es el número de réplicas en la población i. El conjunto de datos es:

Nivel 1 y11 , y12 , . . . , y1n1

Nivel 2 y21 , y22 , . . . , y2n2
..
.
Nivel k yk1 , yk2 , . . . , yknk

178
Con estos datos podemos calcular algunas medias que indicaremos de la siguiente forma:
ni
1 X
Media en la población i o nivel i: yi· = yih
n i h=1
k n
1 XX i

Media general: ȳ = y·· = yih

n i=1 h=1
P
donde n = ki=1 ni es el número total de observaciones.
El modelo lineal que se adapta a este diseño es

yih = µi + ih i = 1, . . . , k ; h = 1, . . . , ni (10.1)

siendo (µ1 , µ2 , . . . , µk )0 el vector de parámetros y

 
1 0 ... 0
 0 1 ... 0 
 
X =  .. .. . . ..  rango X = k
 . . . . 
0 0 ... 1

la matriz de diseño (reducida).

Recordemos en este momento que asumir un modelo lineal significa aceptar las condiciones
de Gauss-Markov (ver sección 1.5) y además, en este caso y en todo el capı́tulo, aceptar
la distribución normal de los errores N (0, σ). Entonces, se comprueba fácilmente que la
estimación MC de los parámetros es

µ̂i = yi· i = 1, . . . , k

Luego los residuos de este modelo son

eih = observación − predicción = yih − µ̂i

de modo que la suma de cuadrados residual resulta

ni
k X
X
SCR = (yih − yi· )2
i=1 h=1

Esta suma se indica por SCD y se denomina suma de cuadrados dentro de grupos o
también intragrupos.
Consideremos la identidad

yih − ȳ = (yi· − ȳ) + (yih − yi· )

Elevando al cuadrado y sumando tenemos

X X X
(yih − ȳ)2 = (yi· − ȳ)2 + (yih − yi· )2
i,h i,h i,h
X
+2 (yi· − ȳ)(yih − yi· )
i,h

179
pero X X X
(yi· − ȳ)(yih − yi· ) = (yih − yi· )yi· − (yih − yi· )ȳ = 0
i,h i,h i,h

En efecto, el vector {yih − yi· } pertenece al espacio error y por tanto es ortogonal al vector
{yi· } que pertenece al espacio estimación como hemos visto en 2.4.2; por otra parte
X
(yih − yi· ) = 0
i,h

Ası́ pues, con la siguiente notación

X
SCT = (yih − ȳ)2 suma de cuadrados total
i,h
X
SCE = ni (yi· − ȳ)2 suma de cuadrados entre grupos
i

hemos probado que se verifica la identidad

SCT = SCE + SCD (10.2)

Esta igualdad muestra la descomposición de la variabilidad total que también se puede

expresar en términos de variabilidad explicada y no explicada como en la ecuación 6.7.
La hipótesis nula de mayor interés es

H0 : µ 1 = µ 2 = · · · = µ k

Si H0 es cierta, las medias de las k poblaciones son iguales o, en términos de diseño

factorial, los niveles del factor no son significativos para la variable observable. Entonces,
el modelo 10.1 se reduce a la forma

yih = µ + ih i = 1, . . . , k ; h = 1, . . . , ni

La estimación MC de µ es µ̂ = ȳ y la suma de cuadrados residual es

X
SCRH = (yih − ȳ)2 = SCT
i,h

Considerando la relación 10.2 deducimos que la suma de cuadrados debida a la desviación

de la hipótesis es X
SCRH − SCR = ni (yi· − ȳ)2 = SCE
i

Obsérvese que SCE mide la variabilidad entre las medias y1· , y2· , . . . , yk· .
Por otra parte y según el teorema 2.5.1, una estimación insesgada del error experimental
σ 2 es
σ̂ 2 = SCD /(n − k)
Además, gracias a la hipótesis de normalidad ih ∼ N (0, σ) se verifica (ver teorema 5.3.1):

a) SCD /σ 2 ∼ χ2n−k

180
b) Si H0 es cierta, entonces SCE /(k − 1) es otra estimación insesgada de σ 2 y además

SCE /σ 2 ∼ χ2k−1

c) Si H0 es cierta, el estadı́stico
SCE /(k − 1)
F = (10.3)
SCD /(n − k)
sigue la distribución F con k − 1 y n − k grados de libertad.

La hipótesis H0 de igualdad de medias se rechaza si 10.3 es significativo. En todo caso es

recomendable disponer los cálculos de la forma indicada en la tabla 10.1.

Fuente de suma de cuadrados

variación cuadrados g.l. medios F

P SCE /(k − 1)
Entre grupos SCE = i ni (yi· − ȳ)2 k−1 SCE /(k − 1)
SCD /(n − k)
P
Dentro grupos SCD = i,h (yih − yi· )2 n−k SCD /(n − k)
P
Total SCT = i,h (yih − ȳ)2 n−1

Tabla 10.1: Tabla del Análisis de la Varianza para diseños de un factor

También se puede calcular el coeficiente de determinación como medida de la proporción

de la variabilidad explicada por los grupos
SCE
R2 =
SCT
Otros aspectos
El modelo 10.1 se puede reparametrizar en la forma

yih = µ + αi + ih i = 1, . . . , k ; h = 1, . . . , ni (10.4)

con la restricción X
αi = 0
i

Si 10.4 representa el modelo para el diseño de un factor a k niveles, entonces

µ = media general
αi = efecto del nivel i

La hipótesis H0 se expresa ahora

H0 : α 1 = · · · = α k = 0

Las estimaciones de µ y αi son

µ̂ = ȳ α̂i = yi· − ȳ

181
Se verifica entonces X
SCRH − SCR = SCE = ni α̂i2
i
de modo que SCE refleja bien la variabilidad entre los diferentes niveles del factor estu-
diado.
La formulación matricial de H0 es
 
  µ
0 1 0 ... 0 0   α1 

 0 0 1 ... 0 0  α2 
  
 .. .. .. . . .. ..   .. =0
 . . . . . .  . 
 
0 0 0 ... 1 0  αk−1 
αk
Aplicando entonces 5.7, tenemos que
X
E(SCRH − SCR) = E(SCE ) = (k − 1)σ 2 + ni αi2 (10.5)
i

Finalmente, si se desean comparar dos niveles, es decir, plantear la hipótesis parcial

(ij)
H0 : αi = αj
utilizaremos el estadı́stico
r
yi· − yj· ni nj
t= p (10.6)
SCD /(n − k) ni + n j
(ij)
que bajo H0 sigue una t de Student con n − k grados de libertad. Con más generalidad,
si se desea estudiar si la función paramétrica estimable, tal que c1 + · · · + ck = 0,
ψ = c 1 α1 + · · · + c k αk
se aparta significativamente de 0, utilizaremos
P
i ci yi·
t = pP 2 p (10.7)
i ci /ni SCD /(n − k)
también con n − k grados de libertad (ver 3.3).

Ejemplo 10.2.1
Se desean comparar dos medicamentos D (diurético), B (betabloqueante) con un producto
inocuo P (placebo). Se tomó una muestra de 15 individuos hipertensos cuyas condiciones
iniciales eran suficientemente homogéneas y se asignaron los tres tratamientos al azar.
El objetivo del estudio es ver cómo actúan los tres tratamientos frente a la hipertensión,
concretamente si disminuyen la misma. A tal fin se ha elegido la variable observable
“porcentaje de descenso de la presión arterial media´´. Los datos obtenidos son
D B P
22 20 10
18 28 5
30 35 0
15 19 14
17 33 18

182
Vamos a estudiar si hay diferencias significativas entre los tres fármacos y la significación
de la función paramétrica
1
ψ = (D + B) − P
2
que se puede interpretar como una medida de la diferencia entre los productos activos
respecto al placebo.
Las medias son:
y1· = 20,40 y2· = 27,00 y3· = 9,40 ȳ = 18,93

Fuente de suma de cuadrados

variación cuadrados g.l. medios F
Entre fármacos 790,53 2 395,29 8,49
Dentro fármacos 558,40 12 46,53
Total 1349,93 14

Tabla 10.2: Ejemplo de Análisis de la Varianza para un diseño de un factor

Las sumas de cuadrados son:

SCT = 1349,93 SCE = 790,53 SCD = 558,40
de manera que podemos disponer las estimaciones en forma de tabla del Análisis de la
Varianza como se muestra en la tabla anterior.
Con 2, 12 grados de libertad y un nivel de significación del 0,01 leemos en la tabla de la
distribución F el valor 6,93. Luego la diferencia entre los tres fármacos es claramente
significativa.
La estimación de Gauss-Markov de la función paramétrica es
1
ψ̂ = (20,40 + 27,00) − 9,40 = 14,30
2
Además
X 1 1 1
c2i /ni = ( + + 1) = 0,3
i
5 4 4
SCD /(n − k) = 46,53
Aplicando 10.7 obtenemos
14,30
t= √ √ = 3,827
0,3 46,53
Contrastando con la tabla de la t de Student, para 12 grados de libertad, vemos que ψ es
significativa al nivel 0,01. Finalmente, para analizar si hay diferencias significativas entre
D y B, utilizaremos 10.6
r
20,40 − 27,00 5 × 5
t= √ = −1,530
46,53 5+5
que no es significativa.
Conclusión: Hay variabilidad significativa entre los tres fármacos. La variabilidad reside
principalmente en la diferencia entre los dos fármacos activos frente al placebo.

183
10.3. Diseño de dos factores sin interacción
Supongamos que la variable observable está afectada por dos causas de variabilidad, es
decir, por dos factores cualitativos A y B, con a y b niveles respectivamente. Suponga-
mos también que tenemos únicamente una observación por casilla. Entonces, podemos
disponer las observaciones del siguiente modo
B1 B2 . . . Bb
A1 y11 y12 . . . y1b y1·
A2 y21 y22 . . . y2b y2·
.. .. .. .. ..
. . . . .
Aa ya1 ya2 . . . yab ya·
y·1 y·2 . . . y·b y··
siendo
1X 1X 1 X
yi· = yij y·j = yij y·· = ȳ = yij
b j a i ab i,j

En relación a la tabla de datos anterior, diremos que A es el factor fila y B el factor

columna con A1 , A2 , . . . , Aa y B1 , B2 , . . . , Bb niveles respectivamente.
Modelo aditivo
Si suponemos que tanto el efecto fila como el efecto columna son aditivos, admitiremos
el modelo lineal
yij = µ + αi + βj + ij i = 1, . . . , a ; j = 1, . . . , b (10.8)
siendo
µ = media general
αi = efecto del nivel Ai del factor A
βj = efecto del nivel Bj del factor B
Como 10.8 no es un diseño de rango máximo, impondremos las siguientes restricciones
naturales X X
αi = βj = 0 (10.9)
i j

Entonces, el modelo depende de los parámetros

µ, α1 , . . . , αa−1 , β1 , . . . , βb−1
siendo
αa = −α1 − · · · − αa−1 βb = −β1 − · · · − βb−1
La matriz de diseño X para el caso a = 3, b = 2 es
µ α 1 α2 β1
1 1 0 1
1 0 1 1
1 −1 −1 1
1 1 0 −1
1 0 1 −1
1 −1 −1 −1

184
Como las columnas de X correspondientes a parámetros distintos son ortogonales, mien-
tras que las correspondientes a los mismos parámetros son linealmente independientes,
deducimos que el rango de X es igual al número de parámetros resultantes después de
imponer las restricciones 10.9, es decir,

rango X = 1 + (a − 1) + (b − 1) = a + b − 1 (10.10)

Estimación de parámetros
Consideremos la identidad

yij − µ − αi − βj = (ȳ − µ) + (yi· − ȳ − αi ) + (y·j − ȳ − βj )

+(yij − yi· − y·j + ȳ)

Elevando al cuadrado, sumando para todo i, j y teniendo en cuenta 10.9, como los pro-
ductos cruzados se anulan (puede probarse con algo de esfuerzo), obtenemos
X X X
(yij − µ − αi − βj )2 = (ȳ − µ)2 + (yi· − ȳ − αi )2 (10.11)
X
+ (y·j − ȳ − βj )2
X
+ (yij − yi· − y·j + ȳ)2

Entonces 10.11, con las restricciones 10.9, alcanza su mı́nimo para

µ̂ = ȳ α̂i = yi· − ȳ β̂j = y·j − ȳ (10.12)

de modo que la suma de cuadrados residual es

X
SCR = (yij − yi· − y·j + ȳ)2 (10.13)
i,j

Obsérvese que
yij = µ̂ + α̂i + β̂j + eij
siendo eij la estimación del término de error

eij = yij − yi· − y·j + ȳ

Finalmente, SCR tiene ab − (a + b − 1) = (a − 1)(b − 1) grados de libertad, luego

σ̂ 2 = SCR/[(a − 1)(b − 1)]

es un estimador centrado de la varianza del diseño.

Hipótesis lineales
La hipótesis de que el factor A no es significativo (no hay efecto fila) es

H0A : α1 = · · · = αa = 0 (10.14)

Análogamente, la hipótesis para B (no hay efecto columna), es

H0B : β1 = · · · = βb = 0 (10.15)

El rango de H0A es a − 1, mientras que el de H0B es b − 1.

185
Vamos a obtener el test F adecuado para contrastar la hipótesis 10.15. Consideremos la
siguiente descomposición fundamental de la suma de cuadrados (que demostraremos más
adelante)
X X X
(yij − ȳ)2 = b (yi· − ȳ)2 + a (y·j − ȳ)2
i,j i j
X
+ (yij − yi· − y·j + ȳ)2
i,j

SCT = SCF + SCC + SCR (10.16)

donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre filas, etc. (ver
cuadro 10.3). La suma de cuadrados residual bajo el modelo 10.8 es 10.13. Si la hipótesis
10.15 es cierta, obtendremos el siguiente modelo

yij = µ + αi + ij

que corresponde al modelo de un solo factor. La suma de cuadrados residual (ver sección
10.2) será entonces X
SCRH = (yij − yi· )2
i,j

puesto que para cada i, las observaciones yi1 , . . . , yib hacen el papel de réplicas. Pero de
la identidad
yij − yi· = (y·j − ȳ) + (yij − yi· − y·j + ȳ)
elevando al cuadrado y teniendo en cuenta que los productos cruzados también se anulan,
deducimos
SCRH = SCC + SCR
Luego podemos decidir si puede aceptarse o no la hipótesis 10.15 utilizando el estadı́stico
SCC /(b − 1)
F = (10.17)
SCR/[(a − 1)(b − 1)]
cuya distribución bajo H0 es F con b − 1 y (a − 1)(b − 1) grados de libertad.
Análogamente se procede para estudiar el efecto fila. Los cálculos deben disponerse en
forma de tabla (ver tabla 10.3).
Finalmente, si se desea comparar dos niveles de un mismo factor, plantearemos la hipótesis
parcial
A(ij) B(ij)
H0 : αi = αj o bien H0 : βi = βj
según se trate de factor fila o columna. El estadı́stico utilizado en el primer caso será
yi· − yj· p
t= p b/2
SCR/[(a − 1)(b − 1)]

cuya distribución bajo la hipótesis es una t de Student con (a − 1)(b − 1) grados de

libertad. Análogamente, para comparar dos niveles del factor columna, utilizaremos
y·i − y·j p
t= p a/2
SCR/[(a − 1)(b − 1)]
con la misma distribución que el estadı́stico anterior si la hipótesis es cierta.

186
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
P SCF /(a−1)
Entre filas SCF = b i (yi· − ȳ)2 a−1 SCF /(a − 1) SCR/[(a−1)(b−1)]

P SCC /(b−1)
Entre col. SCC = a j (y·j − ȳ)2 b−1 SCC /(b − 1) SCR/[(a−1)(b−1)]

SCR
Residuo SCR = (a − 1)(b − 1)
P 2
(a−1)(b−1)
i,j (yij − yi· − y·j + ȳ)

P
Total SCT = i,j (yij − ȳ)2 ab − 1

Tabla 10.3: Tabla del Análisis de la Varianza para diseños de dos factores sin interacción

Descomposición aditiva de la suma de cuadrados

Expresemos el modelo 10.8 en notación vectorial
X X
Y = µ1 + αi u i + βj v j + (10.18)
i j

siendo

1 = (1, 1, . . . , 1; 1, 1, . . . , 1; . . . ; 1, 1, . . . , 1)0
u1 = (1, 0, . . . , 0; 1, 0, . . . , 0; . . . ; 1, 0, . . . , 0)0
..
.
ua = (0, . . . , 0, 1; 0, . . . , 0, 1; . . . ; 0, . . . , 0, 1)0
v1 = (1, 1, . . . , 1; 0, 0, . . . , 0; . . . ; 0, 0, . . . , 0)0
..
.
vb = (0, 0, . . . , 0; 0, 0, . . . , 0; . . . ; 1, 1, . . . , 1)0

La matriz de diseño es
X = (1, u1 , . . . , ua , v1 , . . . , vb )
y es evidente que 10.18 es equivalente a

Y = Xβ +

siendo β = (µ, α1 , . . . , αa , β1 , . . . , βb )0 .
Se verifica
u0i1 ui2 = 0 i1 6= i2 , u0i ui = b
u0i vj = 1
vj0 1 vj2 = 0 j1 6= j2 , vj0 vj = a
Sustituyendo en 10.18 los parámetros por sus estimaciones MC obtenemos
X X
Y − µ̂1 = α̂i ui + β̂j vj + e
i j

187
Como e es ortogonal al subespacio generado por las columnas de X (teorema 2.4.2),
tendremos
u0i e = vj0 e = 0
Entonces
X X X
kY − µ̂1k2 = α̂i2 kui k2 + β̂j2 kvj k2 + α̂i β̂j u0i vj + kek2
i j i,j

Pero
X X
α̂i β̂j = (yi· − ȳ)(y·j − ȳ)
i,j i,j
X X
= (yi· − ȳ)y·j − ȳ (yi· − ȳ)
i,j i,j
X X XX
= y·j (yi· − ȳ) − ȳ (yi· − ȳ) = 0
j i j i
P
pues i (yi· − ȳ) = 0.
Luego X X
kY − µ̂1k2 = α̂i2 kui k2 + β̂j2 kvj k2 + kek2
i j

que demuestra la descomposición fundamental de la suma de cuadrados expresada en

10.16.

Ejemplo 10.3.1
Para estudiar las diferencias entre los efectos de 4 fertilizantes sobre la producción de
patatas, se dispuso de 5 fincas, cada una de las cuales se dividió en 4 parcelas del mismo
tamaño y tipo. Los fertilizantes fueron asignados al azar en las parcelas de cada finca. El
rendimiento en toneladas fue

Finca
Fert. 1 2 3 4 5
1 2,1 2,2 1,8 2,0 1,9
2 2,2 2,6 2,7 2,5 2,8
3 1,8 1,9 1,6 2,0 1,9
4 2,1 2,0 2,2 2,4 2,1

Se trata de un diseño en bloques aleatorizados. Este diseño utiliza el modelo 10.8 y es es-
pecialmente utilizado en experimentación agrı́cola. El objetivo es comparar a tratamientos
(4 fertilizantes en este caso) utilizando b bloques (5 fincas) y repartiendo aleatoriamente
los a tratamientos en cada uno de los bloques (los fertilizantes son asignados al azar en
las parcelas de cada finca). Para una correcta aplicación de este diseño debe haber máxi-
ma homogeneidad dentro de cada bloque, de modo que el efecto bloque sea el mismo para
todos los tratamientos. Interesa pues saber si hay diferencias significativas entre los tra-
tamientos αi y entre los bloques βj estableciendo con este fin las hipótesis lineales 10.14
y 10.15 respectivamente. Los resultados obtenidos son

y1· = 2,05 y2· = 2,175 y3· = 2,075 y4· = 2,225 y5· = 2,175
y·1 = 2,00 y·2 = 2,56 y·3 = 1,84 y·4 = 2,16 ȳ = 2,04

188
Bloques
1 1 2 4 3
2 4 3 2 1
3 2 1 4 3
4 3 1 4 2
5 2 4 3 1

Tabla 10.4: Formación correcta de bloques y asignación al azar de los tratamientos

La tabla del Análisis de la varianza (ver tabla 10.3) es

Fuente variación suma cuadrados g.l. cuadrados medios

Entre fincas 0,088 4 0,022
Entre fertiliz. 1,432 3 0,477
Residuo 0,408 12 0,034
Total 1,928 19

El estadı́stico F para comparar las fincas es

0,022
F = = 0,65
0,034
con 4 y 12 grados de libertad. Como no es significativo, admitimos que no hay diferencias
entre las fincas. Asimismo, para comparar los fertilizantes, el estadı́stico F es
0,477
F = = 14,04
0,034
con 3 y 12 grados de libertad. Dado que es muy significativo podemos admitir que hay
diferencias entre los fertilizantes.

10.4. Diseño de dos factores con interacción

Supongamos que la variable observable está influida por dos causas de variabilidad A y
B, con a y b niveles respectivamente. Pero ahora, a diferencia del diseño de la sección
anterior, supongamos además que disponemos de r observaciones por casilla. Podemos
disponer los datos de la siguiente manera

B1 B2 . . . B b
y111 y121 y1b1
A1 y112 y122 . . . y1b2
.. .. ..
. . .
y11r y12r y1br
.. .. .. ..
. . . .
ya11 ya21 yab1
Aa ya12 ya22 . . . yab2
.. .. ..
. . .
ya1r ya2r yabr

189
Indicaremos
1 X 1 X
yi·· = yijk y·j· = yijk
br j,k ar i,k
1X 1 X
yij· = yijk y··· = ȳ = yijk
r k abr i,j,k

Modelo aditivo con interacción

En este modelo suponemos que el efecto fila (efecto debido al factor A) y el efecto columna
(efecto debido al factor B) son aditivos, pero aceptamos además que puede estar presente
un nuevo efecto denominado interacción. En otras palabras, el modelo lineal es

yijk = µ + αi + βj + γij + ijk (10.19)

para todo i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r y donde

µ = media general
αi = efecto del nivel i de A
βj = efecto del nivel j de B
γij = interacción entre los niveles Ai y Bj

Se imponen también las restricciones naturales

X X X X
αi = βj = γij = γij = 0 (10.20)
i j i j

con lo cual el modelo depende de

1 + (a − 1) + (b − 1) + (a − 1)(b − 1) = ab (10.21)

parámetros.
La interacción γij debe añadirse para prever el caso de que no se verifique la aditividad
supuesta en 10.8. Indicando ηij = E(yijk ), la interacción mide la desviación respecto a un
modelo totalmente aditivo
γij = ηij − µ − αi − βj (10.22)
Por otra parte, diremos que un diseño es de rango completo si el número de parámetros
es igual al número de condiciones experimentales, es decir, al número de filas distintas
de la matriz de diseño. En un diseño que no es de rango completo hay menos parámetros
que condiciones experimentales, por lo que en realidad “admitimos” que los datos se
ajustan al modelo propuesto. Por ejemplo, en el diseño sin interacción tenemos (ver 10.10)
a+b−1 < ab, luego admitimos de partida el modelo 10.8. Sin embargo, este modelo puede
no ser cierto y de hecho existe la llamada prueba de Tukey para comprobarlo. En cambio,
por 10.21, el modelo 10.19 posee tantos parámetros como condiciones experimentales de
variabilidad, de modo que es válido por construcción. En general, un modelo de rango
completo se ajusta intrı́nsecamente a los datos sin problemas. No obstante, para poder
estimar todos los parámetros es necesario disponer de más de una réplica por condición
experimental. Esta es la razón por la cual la interacción no puede ser incluida en 10.8.
El modelo 10.19 puede ser reparamentrizado en la forma

yijk = ηij + ijk (10.23)

190
Pasamos del modelo 10.23 al 10.19 mediante las transformaciones
!
1 X 1 X
µ= ηij αi = ηij − µ
ab i,j b
! j
(10.24)
1 X
βj = ηij − µ γij = ηij − µ − αi − βj
a i

Estimación de los parámetros

Consideremos la identidad

yijk − µ − αi − βj − γij = (ȳ − µ) + (yi·· − ȳ − αi )

+(y·j· − ȳ − βj )
+(yij· − yi·· − y·j· + ȳ − γij )
+(yijk − yij· )

Elevando al cuadrado y teniendo en cuenta las restricciones 10.20, los productos cruzados
se anulan y queda
X X X
(yijk − µ − αi − βj − γij )2 = (ȳ − µ)2 + (yi·· − ȳ − αi )2
i,j,k i,j,k i,j,k
X
+ (y·j· − ȳ − βj )2
i,j,k
X (10.25)
+ (yij· − yi·· − y·j· + ȳ − γij )2
i,j,k
X
+ (yijk − yij· )2
i,j,k

Como el último término de esta expresión no depende de los parámetros, es fácil ver que
las estimaciones MC son

µ̂ = ȳ α̂i = yi·· − ȳ β̂j = y·j· − ȳ γ̂ij = yij· − yi·· − y·j· + ȳ (10.26)

mientras que la suma de cuadrados residual es

X
SCR = (yijk − yij· )2
i,j,k

que tiene ab(r − 1) grados de libertad. Luego la estimación de la varianza es

σ̂ 2 = SCR/[ab(r − 1)]

Considerando 10.23 y 10.24 podemos obtener las estimaciones 10.26 por otro camino. Es
obvio que las estimaciones de ηij son

η̂ij = yij·

Interpretando µ, αi , βj , γij como funciones paramétricas sobre el modelo 10.23, por el

teorema de Gauss-Markov, sus estimaciones se obtendrán sustituyendo ηij por yij· en
10.24, lo que nos dará 10.26.

191
Hipótesis lineales
En el diseño de dos factores con interacción, las hipótesis de mayor interés son

H0A : α1 = · · · = αa = 0 (no hay efecto fila)

H0B : β1 = · · · = βb = 0 (no hay efecto columna)
H0AB : γij = 0 ∀i, j (no hay interacción)

Los rangos son a − 1, b − 1 y (a − 1)(b − 1) respectivamente.

A fin de deducir el test F correspondiente, consideremos la siguiente descomposición
fundamental de la suma de cuadrados
X X X
(yijk − ȳ)2 = br (yi·· − ȳ)2 + ar (y·j· − ȳ)2
i,j,k i j
X
+r (yij· − yi·· − y·j· + ȳ)2
i,j
X
+ (yijk − yij· )2
i,j,k

Esta relación, que se puede probar con algo de esfuerzo, la expresaremos brevemente como

SCT = SCF + SCC + SCI + SCR

donde SCT es la suma de cuadrados total, SCI es la suma de cuadrados correspondiente

a la interacción, etc.
Consideremos ahora la hipótesis H0A . La suma de cuadrados residual es SCR. Supongamos
la hipótesis cierta, entonces el modelo 10.19 se convierte en

yijk = µ + βj + γij + ijk

Además, como no hay αi , el mı́nimo de 10.25, es decir, la suma de cuadrados residual

bajo H0A es X X
SCRH = (yi·· − ȳ)2 + (yijk − yij· )2 = SCF + SCR
Luego si H0A es cierta (teorema 5.3.1) tendremos que

(SCRH − SCR)/(a − 1) SCF /(a − 1)

F = =
SCR/[ab(r − 1)] SCR/[ab(r − 1)]

sigue la distribución F (a − 1, ab(r − 1)).

La obtención del test F para decidir sobre H0B y H0AB es análoga. En la práctica, los
cálculos suelen disponerse en forma de tabla (ver tabla 10.5).

Ejemplo 10.4.1
Se desean comparar tres genotipos distintos de Drosophila melanogaster, observando si
existen diferencias de viabilidad sembrando 100 y 800 huevos. De este modo, para cada una
de las 6 casillas del experimento (3 genotipos × 2 siembras) se dispusieron 6 preparados
(6 réplicas) y al cabo del tiempo suficiente de ser sembrados los huevos, se obtuvo el
porcentaje de huevos que habı́an eclosionado. Los resultados fueron:

192
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
P SCF /(a−1)
Entre filas SCF = br i (yi·· − ȳ)2 a−1 SCF /(a − 1) SCR/[ab(r−1)]

P SCC /(b−1)
Entre col. SCC = ar j (y·j· − ȳ)2 b−1 SCC /(b − 1) SCR/[ab(r−1)]

P SCI SCI /[(a−1)(b−1)]

Interacción SCI = r i,j (yij·
− yi·· (a − 1)(b − 1) (a−1)(b−1) SCR/[ab(r−1)]
2
P−y·j· + ȳ) SCR
Residuo SCR = i,j,h (yijh − yij· )2 ab(r − 1) ab(r−1)

P
Total SCT = i,j,h (yijh − ȳ)2 abr − 1

Tabla 10.5: Tabla del Análisis de la Varianza para diseños de dos factores con interacción

Huevos Genotipo
sembrados ++ +− −−
100 93 94 93 95,5 83,5 92 92 91 90
90 93 86 92,5 82 82,5 95 84 78
800 83,3 87,6 81,9 84 84,4 77 85,3 89,4 85,4
80,1 79,6 49,4 67 69,1 88,4 87,4 52 77
El número X de huevos eclosionados por casilla sigue la distribución binomial con n = 100
ó n = 800. Para normalizar la muestra aplicaremos la transformación
r r
X porcentaje
Y = arcsen = arcsen
n 100
Los datos transformados son:
Huevos Genotipo
sembrados ++ +− −−
100 74,7 75,8 74,7 77,8 66 73,6 73,6 72,5 71,6
71,6 74,7 68 74,1 64,9 65,3 77,1 66,4 62
800 65,9 69,4 64,8 66,4 66,7 61,3 67,5 71 67,5
63,5 63,1 44,7 54,9 56,2 70,1 69,2 46,1 61,3
Se calcula:
y11· = 73,25 y12· = 70,28 y13· = 70,53 y21· = 61,9
y22· = 62,6 y23· = 63,77 y1·· = 71,36 y2·· = 62,76
y·1· = 67,58 y·2· = 66,44 y·3· = 67,15 ȳ = 67,06
Podemos obtener entonces la tabla del Análisis de la Varianza para un diseño de dos
factores con interacción:
Fuente variación suma cuadrados g.l. cuadrados medios F
Entre siembras 665,64 1 665,64 14,87
Entre genotipos 7,87 2 3,93 0,09
Interacción 35,29 2 17,65 0,39
Residuo 1342,61 30 44,75
Total 2051,41 35

193
A la vista de los valores F obtenidos, se concluye que no es significativa la diferencia
entre genotipos ni la interacción, pero sı́ existen diferencias significativas sembrando 100
o 800 huevos, siendo el porcentaje de eclosiones mayor en el primer caso, ya que según
parece al haber menos huevos, las larvas disponen de más alimento.
Observación: cuando un factor no es significativo, la interacción generalmente tampoco
lo es.

10.5. Descomposición ortogonal de la variabilidad

En las secciones anteriores han sido tratados los diseños de uno y dos factores y se ha
estudiado cómo descomponer adecuadamente la variabilidad. Los diseños en los que in-
tervienen tres o más factores pueden estudiarse también descomponiendo adecuadamente
la variabilidad total X
SCT = (yij...m − ȳ)2
en diferentes sumas de cuadrados, más una suma de cuadrados residual. Veamos cómo
debe procederse para un diseño de cuatro factores que indicaremos A, B, C y D, con a,
b, c y d niveles respectivamente. Distinguiremos dos casos:

a) D es el factor réplica, es decir, d es el número de réplicas para cada condición

experimental o combinación de los niveles de los factores A, B, C. El modelo lineal
es
yijkr = µ + αiA + αjB + αkC + αij
AB AC
+ αik BC
+ αjk ABC
+ αijk + ijkr
para i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , c; r = 1, . . . , d y siendo

yijkr = réplica r para los niveles i, j, k de A, B, C

µ = media general
αiA , αjB , αkC = efectos principales de A, B, C
AB AC BC
αij , αik , αjk = interacciones entre los factores A y B, A y C, B y C
ABC
αijk = interacción entre los tres factores
ijkr = desviación aleatoria N (0, σ)

Debe imponerse la restricción de que la suma (respecto a uno o dos subı́ndices) de

los parámetros α sea igual a cero.

b) D es un verdadero factor con d niveles, de modo que el diseño depende de cuatro

factores con una sola observación por casilla. El modelo es

yijkm = µ + αiA + αjB + αkC + αm

D AB
+ αij AC
+ αik AD
+ αim BC
+ αjk BD
+ αjm CD
+ αkm
ABC ABD ACD BCD
+αijk + αijm + αikm + αjkm + ijkm

La interpretación de los parámetros es análoga.

194
La tabla 10.6 contiene la descomposición de la variabilidad. Los sumatorios deben des-
arrollarse para todos los subı́ndices i, j, k, m, verificándose por lo tanto
X X
SCA = (yi··· − ȳ)2 = bcd (yi··· − ȳ)2
i,j,k,m i
X X
SCB = (y·j·· − ȳ)2 = acd (y·j·· − ȳ)2
i,j,k,m j
X
SCBC = ad (y·jk· − y·j·· − y··k· + ȳ)2
j,k
(etcétera.)

Tabla 10.6: Descomposición ortogonal de la suma de cuadrados correspondiente a un

diseño de cuatro factores

Fuente de
variación suma de cuadrados grados de libertad
P 2
A P(yi··· − ȳ) 2 a−1
B P(y·j·· − ȳ) 2 b−1
C P(y··k· − ȳ) 2 c−1
D P(y···m − ȳ) d−1
2
AB P(yij·· − yi··· − y·j·· + ȳ) 2 (a − 1)(b − 1)
AC P(yi·k· − yi··· − y··k· + ȳ) 2 (a − 1)(c − 1)
AD P(yi··m − yi··· − y···m + ȳ)2 (a − 1)(d − 1)
BC P(y·jk· − y·j·· − y··k· + ȳ) 2 (b − 1)(c − 1)
BD P(y·j·m − y·j·· − y···m + ȳ) 2 (b − 1)(d − 1)
CD P(y··km − y··k· − y···m + ȳ) (c − 1)(d − 1)
ABC (yijk· − yij·· − yi·k· − y·jk· (a − 1)(b − 1)(c − 1)
2
P +yi··· + y·j·· + y··k· − ȳ)
ABD (yij·m − yij·· − yi··m − y·j·m (a − 1)(b − 1)(d − 1)
2
P +yi··· + y·j·· + y···m − ȳ)
ACD (yi·km − yi·k· − yi··m − y··km (a − 1)(c − 1)(d − 1)
2
P +yi··· + y··k· + y···m − ȳ)
BCD (y·jkm − y·jk· − y·j·m − y··km (b − 1)(c − 1)(d − 1)
2
P +y·j·· + y··k· + y···m − ȳ)
ABCD (yijkm − yijk· − yij·m − yi·km − y·jkm (a − 1)(b − 1)(c − 1)(d − 1)
+yij·· + yi·k· + y·jk· + yi··m + y·j·m
2
P +y··km −2yi··· − y·j·· − y··k· − y···m + ȳ)
Total (yijkm − ȳ) abcd − 1

Estas sumas de cuadrados pueden reunirse convenientemente, sumando también los gra-
dos de libertad, según el tipo de diseño factorial para obtener la suma de cuadrados
residual. Veamos tres casos:
1) Supongamos que se trata de un diseño de tres factores y réplicas, como el descrito
en a). Entonces:
SCT = SCA + SCB + SCC + SCAB + SCAC + SCBC + SCABC + SCR

195
siendo la suma de cuadrados residual

SCR = SCD + SCAD + SCBD + SCCD + SCABD + SCACD + SCBCD + SCABCD

X
= (yijkm − yijk· )2

con (d − 1) + · · · + [(a − 1)(b − 1)(c − 1)(d − 1)] = abc(d − 1) grados de libertad.

Para estudiar, por ejemplo, si la interacción entre A y B es significativa, calculare-
mos
SCAB /[(a − 1)(b − 1)]
F =
SCR/[abc(d − 1)]
y consultaremos la tabla F con (a − 1)(b − 1) y abc(d − 1) grados de libertad.

2) Supongamos que se trata de un diseño de 4 factores con una sola observación por
casilla, como el descrito en b). Entonces:

SCT = SCA +SCB +SCC +SCD +SCAB +· · ·+SCCD ++SCABC +· · ·+SCBCD +SCR

siendo SCR = SCABCD la suma de cuadrados residual. La significación de los efectos

principales o las interacciones deberá efectuarse dividiendo por SCABCD .

3) Supongamos que C es un factor (por ejemplo, un factor bloque) que no interacciona

con A, B y que D es un “factor réplica”. Entonces

SCT = SCA + SCB + SCC + +SCAB + SCR

siendo

SCR = SCD + SCAC + SCAD + · · · + SCCD + SCABC + SCABD + SCBCD + SCABCD

la suma de cuadrados residual.

La formulación general de esta descomposición de la suma de cuadrados permite abordar

muchos tipos de diseños que resulten de la combinación de varios factores, con una sola
réplica por casilla, o con el mismo número de réplicas por casilla (diseños balanceados).
En este caso, las réplicas se consideran como un factor formal y el residuo estará formado
por todas las sumas de cuadrados en los que interviene el factor réplica. Las interacciones
no presentes en un determinado modelo (por condiciones experimentales o por cocientes
F claramente no significativos) se añaden al residuo. Esta formulación general no permite
tratar ciertos diseños como cuadrados latinos, bloques incompletos balanceados, etc.
Esta descomposición ortogonal, para un número cualquiera de factores, puede programar-
se por ordenador siguiendo el algoritmo propuesto por Hartley (1962).

10.5.1. Descomposición de la variabilidad en algunos diseños

Indicando simbólicamente por A, B, AB, . . . , T las sumas de cuadrados SCA ,SCB , SCAB ,
. . . , SCT , exponemos seguidamente diferentes diseños del Análisis de la Varianza, pre-
sentando la descomposición de la variabilidad. Algunos diseños han sido tratados en las
secciones anteriores de este capı́tulo.
1. Un factor y réplicas
yij = µ + αi + ij

196
T = A + R + AR

Entre grupos A a−1

Residuo R + AR ar − a
2. Dos factores con una observación por casilla
yij = µ + αi + βj + ij
T = A + B + AB

Entre filas A a−1

Entre columnas B b−1
Residuo AB (a − 1)(b − 1)
3. Dos factores con interacción
yijk = µ + αi + βj + γij + ijk
T = A + B + R + AB + AR + BR + ABR

Efecto fila A a−1

Efecto columna B b−1
Interacción AB (a − 1)(b − 1)
Residuo R + AR + BR + ABR ab(r − 1)
4. Dos factores con interacción en bloques aleatorizados
yijk = µ + αi + βj + bk + γij + ijk
T = A + B + R + AB + AR + BR + ABR

Efecto fila A a−1

Efecto columna B b−1
Efecto bloque R r−1
Interacción AB (a − 1)(b − 1)
Residuo AR + BR + ABR (ab − 1)(r − 1)
Este modelo se utiliza cuando se combinan dos factores A, B y se obtienen réplicas orga-
nizadas en bloques. El factor bloque tiene un efecto principal, pero no interacciona con
A, B.
5. Tres factores con una observación por casilla
yijk = µ + αi + βj + δk + (αβ)ij + (αδ)ik + (βδ)jk + ijk
T = A + B + C + AB + AC + BC + ABC

Efecto A A a−1
Efecto B B b−1
Efecto C C c−1
Interacción A × B AB (a − 1)(b − 1)
Interacción A × C AC (a − 1)(c − 1)
Interacción B × C BC (b − 1)(c − 1)
Residuo ABC (a − 1)(b − 1)(c − 1)

197
6. Tres factores con r observaciones por casilla

yijkm = µ + αi + βj + δk + (αβ)ij + (αδ)ik + (βδ)jk + (αβγ)ijk + ijkm

T = A + B + C + R + AB + AC + AR + BC + BR + CR
+ ABC + ABR + ACR + BCR + ABCR

Efecto A A a−1
Efecto B B b−1
Efecto C C c−1
Interacción A×B AB (a − 1)(b − 1)
Interacción A×C AC (a − 1)(c − 1)
Interacción B×C BC (b − 1)(c − 1)
Interacción A × B × C ABC (a − 1)(b − 1)(c − 1)
Residuo R + AR + BR + CR + ABR abc(r − 1)
+ACR + BCR + ABCR
7. Diseño de parcela dividida

yijk = µ + αi + γj + bk + (αγ)ij + (αb)ik + +ijk

T = A + C + B + AC + AB + CB + ACB

Tratamiento principal A a−1

Subtratamiento C c−1
Bloque B b−1
Interacción A × C AC (a − 1)(c − 1)
Interacción A × B AB (a − 1)(b − 1)
Residuo CB + ACB a(b − 1)(c − 1)

B1 A2 A1 A3 A4
C1 C2 C2 C1 C2 C1 C1 C2
B2 A1 A3 A4 A2
C2 C1 C2 C1 C1 C2 C1 C2
B3 A3 A4 A2 A1
C1 C2 C1 C2 C2 C1 C2 C1

Este diseño se utiliza en investigación agrı́cola, también en otras ciencias experimentales,

para comparar a tratamientos (factor A) que se asignan aleatoriamente en b bloques
o fincas (factor B), a razón de a tratamientos por bloque. Se divide cada una de las
ab parcelas y se asignan al azar c subtratamientos (f actorC), tal como se ilustra en el
esquema para el caso a = 4, b = 3, c = 2. Se supone que actúan los efectos principales A,
B y C, la interacción A×C y la interacción A×B. La interacción entre A y los bloques es
debida a que estos no pueden considerarse completamente homogéneos. Sin embargo, se
supone que cada una de las ab parcelas dentro de los bloques son homogéneas, de modo
que los subtratamientos C no interaccionan con los bloques.
Para la significación de C y la interacción A × C debe calcularse

C/(c − 1) AC/[(a − 1)(c − 1)]

FC = FAC =
(CB + ABC)/[a(b − 1)(c − 1)] (CB + ABC)/[a(b − 1)(c − 1)]

198
Para estudiar la significación del factor A y del factor bloque debe calcularse

A/(a − 1) B/(b − 1)
FA = FB =
AB/[(a − 1)(b − 1)] AB/[(a − 1)(b − 1)]

10.5.2. Estimación de parámetros y cálculo del residuo

La estimación de los efectos principales y las interacciones se obtienen utilizando los
términos que intervienen en las correspondientes sumas de cuadrados (ver tabla 10.6).
Por ejemplo, en un estudio de dos factores con interacción en bloques aleatorizados, las
estimaciones son:
µ̂ = ȳ α̂i = yi·· − ȳ β̂j = y·j· − ȳ
b̂k = y··k − ȳ γ̂ij = yij· − yi·· − y·j· + ȳ
Se puede aplicar una regla sencilla para encontrar la expresión algebraica del residuo. En
el diseño citado, cuyo modelo es

yijk = µ + αi + βj + bk + γij + ijk

sustituiremos los parámetros por sus estimaciones

yijk = ȳ + (yi·· − ȳ) + (y·j· − ȳ) + (y··k − ȳ)

+(yij· − yi·· − y·j· + ȳ) + eijk

Para que exista identidad entre yijk y el término de la derecha, la estimación de la des-
viación aleatoria eijk debe ser

eijk = yijk − yij· − y··k + ȳ

El residuo correspondiente al diseño de dos factores con interacción en bloques aleatori-

zados es entonces X X
e2ijk = (yijk − yij· − y··k + ȳ)2
i,j,k i,j,k

fórmula que coincide con AR + BR + ABR.

Esta regla sirve para todos los diseños que admiten descomposición ortogonal de la suma
de cuadrados. Por poner otro ejemplo, para el diseño de parcela dividida se comprueba
de este modo que la estimación de la desviación aleatoria es

eijk = yijk − yi·k − yij· + yi··

Ejemplo 10.5.1
Con el fin de valorar la acción de los hongos xilófagos sobre la madera, se han tomado
240 muestras de madera procedente de tocones de Pinus silvestris, clasificados atendiendo
simultáneamente a 4 factores (edad, orientación, altura y profundidad). La descripción
de los factores es:

Edad (E): Años transcurridos desde la fecha de tala (1,4,7,10 o 13 años).

Orientación (O): N ,S,E,O según la ubicación de la muestra en el tocón.

199
Altura (A): 0, 2, 5, 15 expresada en cm contados a partir de la superficie de corte.

Profundidad (P ): 0, 2, 5 expresada en cm contados radialmente a partir de la superficie

lateral.

Cada una de las 5 × 4 × 4 × 3 = 240 muestras era en realidad la homogeneización de 3

muestras procedentes de 3 tocones distintos pero de las mismas caracterı́sticas en cuanto
a la edad, orientación, altura y profundidad.
Se estudiaron 8 variables quı́micas. Para la variable que medı́a la cantidad de hemicelulosa,
se obtuvo la siguiente descomposición ortogonal de la suma de cuadrados:

Fuente de Suma de Grados de Cuadrados

variación cuadrados libertad medios F

E 1227,53 4 306,88 59,21

O 51,94 3 17,31 3,34
A 58,59 3 19,53 3,76
P 18,04 2 9,02 1,74
EO 152,70 12 12,72 2,45
EA 137,13 12 11,42 2,20
EP 72,22 8 9,03 1,74
OA 54,60 9 6,06 1,17
OP 37,26 6 6,21 1,20
AP 21,04 6 3,50 0,68
EOA 189,89 36 5,27 1,01
EOP 145,12 24 6,04 1,16
EAP 132,22 24 5,50 1,06
OAP 60,70 18 3,37 0,65
EOAP 373,19 72 5,18

Total 2732,64 239

Los datos se adaptan a un diseño de 4 factores con una observación por casilla. El residuo
es la suma de cuadrados indicada simbólicamente por EOAP y su valor es 373,19 con 72
grados de libertad. Un examen inicial de los cocientes F de la tabla, obtenidos dividiendo
los cuadrados medios por 373,19/72 = 5,18, para un nivel de significación de 0,05 nos
lleva a las siguientes conclusiones:

a) Son significativos los efectos principales E,O,A. No es significativo el efecto principal

b) Son significativas las interacciones EA y EO. No son significativas el resto de las

interacciones.

Prescindiendo de los efectos no significativos, resulta un diseño de tres factores (E,O,A),

de los cuales interaccionan E con A y E con O (edad con altura y edad con orientación).
Añadiendo las correspondientes sumas de cuadrados al residuo, obtenemos la siguiente
tabla:

200
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios F

E 1227,53 4 306,88 56,97

O 51,94 3 17,31 3,21
A 58,59 3 19,53 3,63
EO 152,70 12 12,72 2,36
EA 137,13 12 11,42 2,12
Residuo 1104,26 205 5,39

Total 2732,64 239

Se observa que sigue existiendo variabilidad significativa respecto E,O y A. También son
significativas las interacciones EO y EA. Por lo tanto, se confirman las conclusiones
iniciales. Una estimación insesgada de la varianza σ 2 es σ̂ 2 = 5,39.

10.6. Diseños no balanceados y con observaciones fal-

tantes
Un diseño experimental (observaciones y modelo del experimento) puede describirse me-
diante el modelo lineal Y = Xβ + , donde X es la matriz de diseño ampliada. Sean
n1 , . . . , nk los números de réplicas para cada una de las condiciones experimentales (ver
sección 2.7). Excepto el diseño de un factor, los demás diseños deben tener el mismo núme-
ro de réplicas por condición experimental. Sin embargo, en las aplicaciones no siempre es
posible mantener tal restricción. Además, las réplicas de alguna condición experimental
pueden perderse (un tubo de ensayo que se rompe, unos datos que se extravı́an, etc.).
Veamos como pueden ser tratados ambos problemas.
Dado el modelo lineal Y = Xβ + , diremos que corresponde a:

1) Un diseño balanceado si n1 = n2 = · · · = nk 6= 0.

2) Un diseño no balanceado si ni 6= nj para algún i, j.

3) Un diseño con observaciones faltantes si ni = 0 para algún i.

Supongamos que XR es la matriz de diseño reducida “estándar” para un diseño experi-

mental determinado. Los diseños no balanceados y con observaciones faltantes se pueden
manejar, sin modificar XR , utilizando

D = diag(n1 , n2 , . . . , nk )

Adoptemos el convenio de que si ni = 0 para algún i, la correspondiente observación

contenida en Y se sustituye por 0 y en el vector de medias Ȳ = (ȳ1 , ȳ2 , . . . , ȳk )0 se toma
ȳi = 0. Entonces se verifica
b = (X0 DXR )− X0 DȲ
β R R

b 0 X0 DȲ
SCR = Y 0 Y − β R

b 0 (A(X0 DXR )− A0 )−1 (Aβ)

SCRH − SCR = (Aβ) b
R

201
siendo H0 : Aβ = 0 una hipótesis contrastable. La matriz M que relaciona X con XR
mediante X = MXR se define como en la sección 2.7, pero añadiendo una fila de ceros en
el lugar correspondiente a una casilla con observaciones faltantes. Véase Cuadras (1983).
Para otros tratamientos del caso no balanceado y de las observaciones faltantes véase
Seber (1977, pág. 259,290).

Ejemplo 10.6.1
Consideremos un diseño de dos factores A, B sin interacción, con a = 2, b = 3, n 11 = 1,
n12 = 2, n13 = 0, n21 = 3, n22 = 0, n23 = 1; es decir, no balanceado y con observaciones
faltantes en los niveles A1 B3 y A2 B2 . Entonces, para los parámetros µ, α1 , α2 , β1 , β2 , β3 ,
tenemos:
 
1 0 0 0 0 0
   0 1 0 0 0 0 
1 1 0 1 0 1  
 0 1 0 0 0 0 
 1 1 0 0 1 0   
   0 0 0 0 0 0 
 1 1 0 0 0 1   
XR =  1 0 1 1 0 0 
 M =  0 0 0 1 0 0 
 
   0 0 0 1 0 0 
 1 0 1 0 1 0   
 0 0 0 1 0 0 
1 0 1 0 0 1  
 0 0 0 0 0 0 
0 0 0 0 0 1

D = (1, 2, 0, 3, 1, 0)

 
1 1 0 1 0 0
 1 1 0 0 1 0 
 
 1 1 0 0 1 0 
 
 0 0 0 0 0 0 
 
X = MXR = 
 1 0 1 1 0 0 

 1 0 1 1 0 0 
 
 1 0 1 1 0 0 
 
 0 0 0 0 0 0 
1 0 0 0 0 1

202
10.7. Ejercicios
Ejercicio 10.1
Los siguientes datos corresponden a los ı́ndices de mortalidad, en un perı́odo de 10 años,
clasificados por estaciones. Determinar si hay diferencias significativas entre las diferentes
estaciones al nivel 0,01.
Invierno Primavera Verano Otoño
9,8 9,0 8,8 9,4
9,9 9,3 9,4
9,8 9,3 8,7 10,3
10,6 9,2 8,8 9,8
9,9 9,4 8,6 9,4
10,7 9,1 8,3 9,6
9,7 9,2 8,8 9,5
10,2 8,9 8,7 9,6
10,9 9,3 8,9 9,5
10,0 9,3 9,4
Por otra parte, difiere significativamente de 10,0 el ı́ndice medio registrado en invierno?

Ejercicio 10.2
Para el diseño de un factor con k niveles

yih = µ + αi + ih i = 1, . . . , k; h = 1, . . . , ni
P
con αi = 0, demostrar:

a) La relación entre el contraste de la razón de verosimilitud Λ y el contraste F para

la hipótesis H0 : α1 = · · · = αk = 0 es
−n/2
k−1
Λ= 1+ F
n−k

b) El valor esperado de los cuadrados medios entre grupos es

1 X
E(CME ) = σ 2 + ni αi2
k−1

P
c) Cuando H0 es cierta y mı́n{n1 , . . . , nk } → ∞, entonces F −→1.
d) Si k = 2, el contraste F para la hipótesis

H0 : α 1 = α 2 = 0

es equivalente al contraste t de Student para comparar las medias µ + α1 , µ + α2

de dos poblaciones normales suponiendo que las varianzas son iguales.

Ejercicio 10.3
La siguiente tabla registra las producciones de 4 variedades de maı́z, plantadas según un
diseño en bloques aleatorizados

203
Variedad
1 2 3 4
a 7 6 6 7
b 10 8 7 9
Bloque c 6 3 5 7
d 4 3 3 3
e 8 5 5 6

Al nivel 0,05 estudiar si hay diferencias entre variedades y entre bloques. Comparar la
variedad 1 con la variedad 3.

Ejercicio 10.4
En una experiencia agrı́cola en la que se combina año con genotipo, se admite el siguiente
modelo
yikr = µ + αi + βk + γik + ωir + ikr (10.27)
donde yikr es la longitud de la planta, αi i = 1, . . . , 5 es el efecto principal del año, βk
k = 1, 2, 3 es el efecto principal del genotipo, γik es la interacción genotipo × año, ωir es
una interacción de las réplicas con los años y ikr es el término de error con distribución
N (0, σ 2 ). La tabla 10.7 presenta la descomposición ortogonal de la suma de cuadrados.

g.l. SC Y Y ×T T
A (año) 4 742 412 630
B (genotipo) 2 118 105 110
C (bloque) 3 74 87 97
AB 8 647 630 521
AC 12 454 478 372
BC 6 87 63 79
ABC 24 345 247 270

Tabla 10.7: Tabla con las sumas de cuadrados para el diseño 10.27

Se pide:

a) Hallar la expresión algebraica del residuo y encontrar tres estimaciones indepen-

dientes de σ 2 .

b) Estudiar si los efectos principales y las interacciones son significativas (nivel 0,05).

Observación: La variable T es una variable concomitante y su utilidad será estudiada en

el siguiente capı́tulo. Por este motivo, las columnas correspondientes a Y × T y T no
tienen interés ahora.

Ejercicio 10.5
En un estudio sobre viabilidad de Drosophila melanogaster se tienen en cuenta los si-
guientes factores:
Genotipo (G): se estudian 3 genotipos distintos
Generación (N ): el experimento se repite durante 4 generaciones sucesivas
Temperatura (T ): incubación a 17 y 25 grados centı́grados

204
Se obtuvieron 5 réplicas para cada una de las combinaciones de los 3 factores. El expe-
rimento se realizó sembrando 100 huevos y anotando el número de huevos eclosionados
(esto constituye una réplica). Después de transformar adecuadamente los datos origina-
les (ver ejemplo 10.5.1), se obtuvo la siguiente descomposición ortogonal de la suma de
cuadrados (R es el factor réplica)

SC g.l.
G 621 2
N 450 3
T 925 1
R 347 4
GN 35 6
GT 210 2
GR 48 8
NT 23 3
NR 34 12
TR 110 4
GN T 75 6
GN R 17 24
GT R 22 8
NT R 11 12
GN T R 107 24

Se pide:

a) Sabiendo que las interacciones entre 2 o 3 factores en las que intervenga el factor
N no forman parte del modelo lineal asociado al diseño, estudiar la significación de
los efectos principales y de las interacciones (nivel de significación: 0,01).

b) Hallar tres estimaciones insesgadas de la varianza σ 2 del diseño estocásticamente

independientes.

205
Capı́tulo 11

Análisis de Componentes de la
Varianza

11.1. Introducción
En los diseños hasta ahora estudiados hemos supuesto que los efectos de los factores son
fijos y por este motivo se denominan modelos de efectos fijos. Sin embargo, en ciertas
situaciones es necesario interpretar los efectos de los factores como aleatorios. En estos
casos no tiene interés el estudio de las funciones lineales de los efectos sino sus varianzas.
A los modelos relacionados con los efectos aleatorios se les denomina modelos de efectos
aleatorios o de componentes de la varianza. Pueden darse también efectos de ambos
tipos en un mismo modelo: son los modelos mixtos. Veamos como distinguirlos mediante
ejemplos.

11.1.1. Un modelo de efectos fijos

Una experiencia agrı́cola consistió en comparar la producción de cuatro variedades de
maı́z. Para ello, se plantaron las cuatro variedades en 40 parcelas idénticas, 10 por va-
riedad. Transcurrido el tiempo necesario se recolectó, estudiándose la variable “peso de
maı́z por parcela”.
Un modelo adecuado para analizar esta experiencia es el de un factor

yij = µ + αi + ij i = 1, 2, 3, 4; j = 1, 2, . . . , 10

yij es la observación j del nivel i, es decir, la producción de la

parcela j de la variedad i
µ es la media general
αi es un parámetro fijo y representa el efecto de la variedad i
ij es el error aleatorio con distribución N (0, σ)

La hipótesis de interés en este estudio es

H0 : α 1 = α 2 = α 3 = α 4 = 0

es decir, no hay efecto variedad y las cuatro pueden considerarse homogéneas en cuanto
a la productividad.

206
11.1.2. Un modelo de efectos aleatorios
Para determinar el contenido en DNA de los hepatocitos de rata hemos tomado al azar
cinco ratas. De cada hı́gado realizamos tres preparaciones y evaluamos con las técnicas
adecuadas la cantidad de DNA por célula.
Un modelo apropiado para estos datos serı́a también el de un factor

yij = µ + Ai + ij i = 1, 2, . . . , 5; j = 1, 2, 3

pero la diferencia respecto al anterior estriba en que Ai no es un parámetro fijo sino el

efecto aleatorio de la rata i que procede de una población de ratas en la cual se supone
que la variable (cantidad DNA / célula hepática) sigue una distribución N (µ, σ y ). La
distribución de los Ai es N (0, σA ) que se supone independiente de los errores ij con
distribución N (0, σ).
La hipótesis de interés en este caso es

H0 : σA2 = 0

lo que equivale a afirmar que no hay variabilidad entre las distintas ratas de la población
respecto la variable estudiada.

11.1.3. Un modelo mixto

Para un estudio sobre la ecologı́a de un lago se han elegido al azar cuatro tardes de verano
y se ha medido la variable temperatura a diferentes profundidades (0,1,2,3,4 y 5 metros).
Nuestro objetivo es examinar mediante los datos obtenidos si hay diferencias significativas
entre profundidades y dı́as.
El modelo adecuado en este caso es el de dos factores sin interacción

yij = µ + αi + Bj + ij i = 1, 2, . . . , 6; j = 1, 2, 3, 4

yij es la temperatura a la profundidad i en el dı́a j

µ es la media general
αi es un parámetro fijo y representa el efecto de la profundidad i
Bj es el efecto aleatorio del dı́a j y sigue una distribución N (0, σB )
ij es el error aleatorio con distribución N (0, σ)

La hipótesis de que la temperatura no varı́a con la profundidad es

H0 : α 1 = · · · = α 6 = 0

mientras que la hipótesis de que existe homogeneidad entre los diferentes dı́as del verano
es
H0 : σB2 = 0

11.2. Contraste de hipótesis

El tratamiento mediante Análisis de la Varianza de diseños con efectos aleatorios es, en
general, muy similar al caso de efectos fijos en diseños balanceados, existiendo diferencias

207
solamente cuando existen interacciones. En diseños no balanceados el análisis es mucho
más complejo.
El cuadro 11.1 muestra los cuadrados medios esperados y el cociente a efectuar para
obtener la F en diseños de uno y dos factores con efectos fijos, aleatorios o mixtos. Por
ejemplo, en el diseño de dos factores sin interacción se verifica
a X 2
E[SCRB /(b − 1)] = E(CMB ) = σ 2 + β
b−1 j j

si los efectos son fijos y

E(CMB ) = σ 2 + aσB2
si los efectos son aleatorios. Observemos que para este diseño y el de un factor, los cocientes
F son iguales tanto si se trata de efectos aleatorios como de efectos fijos.
Sin embargo, en el diseño de dos factores con interacción, los cocientes F difieren según
el modelo sea de efectos fijos, aleatorios o mixto:

a) El modelo de efectos fijos ya ha sido ampliamente tratado en la sección 10.4.

b) Si los dos factores son aleatorios, los cocientes F que deben calcularse para las
distintas hipótesis son

SCRA /(a − 1)
H0 : σA2 = 0 F =
SCRI /[(a − 1)(b − 1)]

SCRB /(b − 1)
H00 : σB2 = 0 F =
SCRI /[(a − 1)(b − 1)]

SCRI /[(a − 1)(b − 1)]

H000 : σAB
2
=0 F =
SCR/[ab(r − 1)]

En los dos primeros casos es necesario dividir por la interacción para hallar la F .
En efecto, si H0 es cierta σA2 = 0 y entonces SCRA /(σ 2 + rσAB
2
) y SCRI /(σ 2 + rσAB
2
)
siguen distribuciones ji-cuadrado independientes con a − 1 y (a − 1)(b − 1) grados
de libertad respectivamente. Luego
CMA
F =
CMI
sigue la distribución F con a − 1 y (a − 1)(b − 1) grados de libertad. Observemos
que el término desconocido σ 2 + rσAB
2
desaparece. Podemos realizar consideraciones
0 00
análogas para H0 y H0 .

208
la F en diseños de uno y dos factores con efectos fijos, aleatorios o mixtos
Tabla 11.1: Tabla de los cuadrados medios esperados y el cociente a efectuar para obtener

EFECTOS FIJOS EFECTOS ALEATORIOS MIXTOS

(A fijo,B aleatorio)
suma de cuadrados medios cuadrados medios cuadrados medios
cuadrados esperados F esperados F esperados F

1
P
SCRA σ2 + k−1 ni αi2 CMA /CMR σ 2 + n 0 σA
2
CMA /CMR
un factor (n0 = n1 = . . . = nk )
2
SCR σ σ2
209

b
P b
P
SCRA σ2 + a−1 αi2 CMA /CMR σ 2 + bσA
2
CMA /CMR σ2 + a−1 αi2 CMA /CMR
a
P
dos factores SCRB σ2 + b−1 βj2 CMB /CMR σ 2 + bσB
2
CMB /CMR σ 2 + aσB
2
CMB /CMR
SCR σ2 σ2 σ2

br
P br
P 2
αi
SCRA σ2 + a−1 αi2 CMA /CMR σ 2 + rσAB
2 2
+ brσA CMA /CMI σ 2 + rσAB
2
+ a−1 CMA /CMI
ar
P
dos factores SCRB σ2 + b−1 βj2 CMB /CMR σ 2 + rσAB
2 2
+ arσB CMB /CMI σ 2 + arσB
2
CMB /CMR
P 2
r γij
con interacción SCRI σ2 + (a−1)(b−1) CMI /CMR σ 2 + rσAB
2
CMI /CMR σ 2 + rσAB
2
CMI /CMR
SCR σ2 σ2 σ2
c) Si A es fijo y B es aleatorio, los cocientes F a efectuar son

SCRA /(a − 1)
H0 : α 1 = · · · = α a = 0 F =
SCRI /[(a − 1)(b − 1)]

SCRB /(b − 1)
H00 : σB2 = 0 F =
SCR/[ab(r − 1)]

SCRI /[(a − 1)(b − 1)]

H000 : σAB
2
=0 F =
SCR/[ab(r − 1)]

En este caso solamente el efecto principal de A debe ser dividido por la interacción.
En efecto, si H0 es cierta αi = 0 i = 1, . . . , a y entonces SCRA /(σ 2 + rσAB2
) y
2 2
SCRI /(σ + rσAB ) siguen distribuciones ji-cuadrado independientes. Al realizar el
cociente para obtener la F desaparece el término σ 2 + rσAB
2
.
En cambio, para σB2 = 0 (H00 cierta), tenemos que

SCRB /σ 2 SCRI /(σ 2 + σAB

2
) SCR/σ 2

siguen distribuciones ji-cuadrado independientes entre sı́ con b − 1, (a − 1)(b − 1)

y ab(r − 1) g.l. respectivamente. Luego es necesario para obtener la F realizar el
cociente entre CMB /σ 2 y CMR /σ 2 de modo que el término desconocido σ 2 desapa-
rezca. Observemos que dividiendo por la interacción los términos σ 2 y σ 2 + σAB
2
no
se anulan, imposibilitando el cálculo de la F .

La justificación de lo tratado en esta sección se verá en la sección 11.4.

Ejemplo 11.2.1
Se desea estudiar y comparar la acción de tres fármacos tranquilizantes A, B C en la con-
ducción de automóviles. La variable que sirvió de referencia fue el tiempo que un individuo
tarda en iniciar la frenada ante la puesta repentina en rojo de un semáforo. Se eligieron
8 hombres al azar y se sometió a cada hombre a los 3 tratamientos, en perı́odos sucesivos
y secuencias al azar, mediante el procedimiento del doble ciego (ni el médico ni el pacien-
te saben cual es el fármaco suministrado en un determinado momento). Los resultados
fueron, en milésimas de segundo (cada dato es el promedio de varias observaciones):

1 2 3 4 5 6 7 8
A 548 619 641 846 517 876 602 628
Tratamiento B 519 776 678 858 493 741 719 595
C 637 818 701 855 618 849 731 687

Como hay tres tratamientos fijos y ocho individuos elegidos al azar de la población, nos
encontramos ante un diseño mixto, donde el efecto individuo (efecto bloque) es aleatorio.
Las hipótesis a contemplar son

H0 : α 1 = α 2 = α 3 (no hay efecto tratamiento)

0 2
H0 : σ B = 0 (no hay homogeneidad entre individuos)

donde σB2 es la varianza del efecto individuo. La tabla del Análisis de la Varianza es

210
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
Entre tratam. 27535 2 13767,5 5,15
Entre individuos 258040 7 36862,8 13,78
Residuo 37451 14 2675,0
Total 323026 23
Para 2 y 14 g.l. F = 5,15 es significativa al nivel 0,025, aceptamos pues que hay diferencias
entre fármacos. Para 7 y 14 g.l. F = 13,78 es significativa al nivel 0,005, aceptamos que
hay variabilidad entre individuos.

11.3. Estimación puntual de los componentes de la

varianza
Una estimación aproximada de las varianzas σ 2 , σA2 , σB2 , σAB
2
se puede obtener igualan-
do los cuadrados medios con los cuadrados medios esperados y resolviendo el sistema
resultante. Por ejemplo, en el diseño de un factor tenemos
b 2 + n0 σ
σ bA2 = CMA
b2
σ = CMR
y para el diseño de dos factores con interacción
b2 + rb
σ 2
σAB σA2
+ brb = CMA
b2 + rb
σ 2
σAB σB2
+ arb = CMB
2 2
b + rb
σ σAB = CMI
2
b
σ = CMR
Puede ocurrir que la estimación puntual de un componente de la varianza resulte negativa.
En este caso aceptaremos que su valor es cero dado que la varianza es un parámetro
estrictamente positivo.

Ejemplo 11.3.1
Para estimar la variabilidad entre individuos del ejemplo anterior, igualaremos los cua-
drados medios a sus valores esperados
b2 + 3b
36862,8 = σ σB2
b2
2675 = σ
de donde
bB2 = (36862,8 − 2675)/3 = 11395,9
σ
bB =
El tiempo de frenado entre los individuos varı́a con una desviación tı́pica estimada σ
106 milésimas de segundo.

11.4. Comparación entre los modelos de efectos fijos

y los modelos de efectos aleatorios
A los modelos de efectos fijos los denominaremos también modelos de tipo I y a los de
efectos aleatorios modelos de tipo II.

211
11.4.1. Diseño de un factor con efectos fijos
Tal como se ha visto en la sección 10.2, el modelo lineal que se adapta a este diseño es
yij = µi + ij
o, reparametrizado,
yij = µ + αi + ij i = 1, . . . , k; j = 1, . . . , ni
P
con la restricción ki=1 αi = 0. Las yij son independientes y normales N (µi , σ). Las ij
son independientes y normales N (0, σ).
La descomposición de la variabilidad viene dada por
X X X
(yij − ȳ)2 = (yi· − ȳ)2 + (yij − yi· )2
i,j i i,j

es decir
SCT = SCe + SCd
o también
SCRH = (SCRH − SCR) + SCR
con n − 1, k − 1 y n − k grados de libertad respectivamente, siendo n1 + · · · + nk = n.

Teorema 11.4.1
El valor esperado de la suma de cuadrados entre grupos es
k
X
2
E(SCe ) = (k − 1)σ + ni αi2
i=1

luego
k
SCe 1 X
2
E(CMe ) = E =σ + ni αi2
k−1 k − 1 i=1

Demostración:
P
Por definición SCe = ki=1 ni (yi· − ȳ)2 .
Del modelo yij = µ + αi + ij se obtiene
yi· = µ + αi + i·
ȳ = µ + ··
Pk P
ya que i=1 αi = 0 y en consecuencia α· = (1/k) ki=1 αi = 0.
Entonces
k
X
SCe = ni (αi + i· − ·· )2
i=1
Xk k
X k
X
= ni αi2 + ni 2i· + n2·· +2 ni αi i·
i=1 i=1 i=1
k
X k
X
−2·· ni αi − 2·· ni i·
i=1 i=1

212
pero !
k
X k
X ni
1 X X
·· ni i· = ·· ni ij = ·· ij = n2··
i=1 i=1
ni j=1 i,j

luego
k
X k
X
E(SCe ) = ni αi2 + ni E(2i· ) + n E(2·· )
i=1 i=1
k k
!
X X
+2 ni αi E(i· ) − 2 ni α i E(·· )
i=1 i=1
−2n E(2·· )

Recordando que las v.a. ij son independientes y normales N (0, σ) se verifica
√ √
i· ∼ N (0, σ/ ni ) ·· ∼ N (0, σ/ n)

Por ser centradas, la esperanza de su cuadrado coincide con la varianza, es decir

σ2
E(2i· ) = var(i· ) =
ni
σ2
E(2·· ) = var(·· ) =
n
Por lo tanto
k
X k
X σ2 σ2 σ2
E(SCe ) = ni αi2 + ni + n − 2n
i=1 i=1
ni n n
Xk
= ni αi2 + kσ 2 + σ 2 − 2σ 2
i=1
k
X
2
= (k − 1)σ + ni αi2
i=1

Teorema 11.4.2
El valor esperado de la suma de cuadrados dentro de los grupos es

E(SCd ) = (n − k)σ 2

y por lo tanto
SCd
E(CMd ) = E = σ2
n−k
Demostración:
Teniendo en cuenta que SCd = SCR, la demostración de este teorema ya se realizó en la
sección ?? con el modelo lineal general. También se puede demostrar siguiendo un proceso
parecido al del teorema anterior.
Caso particular

213
Si el diseño es balanceado, es decir, igual número de réplicas por condición experimental
(n1 = · · · = nk = n0 ), entonces los teoremas 11.4.1 y 11.4.2 adoptan respectivamente las
formas
k
n0 X 2
E(CMe ) = σ 2 + α
k − 1 i=1 i

SCd
E(CMd ) = E = σ2
k(n0 − 1)

Inferencia en el modelo de un factor con efectos fijos

La hipótesis nula de mayor interés es

H0 : µ 1 = µ 2 = · · · = µ k = µ

o, utilizando el modelo alternativo,

H0 : α 1 = α 2 = · · · = α k = 0

Por el teorema 11.4.1 CMe es un estimador insesgado de σ 2 si H0 es cierta. Por el teorema

11.4.2 es siempre un estimador insesgado de σ 2 , sea cierta o no H0 . Además, suponiendo
que ij ∼ N (0, σ), se verifica el teorema ?? de la teorı́a general del modelo lineal normal
(Teorema fundamental del Análisis de la Varianza):

a) SCd /σ 2 ∼ χ2n−k

b) Si H0 es cierta, entonces CMe = SCe /(k − 1) es otra estimación insesgada de σ 2 y

además
SCe /σ 2 ∼ χ2k−1

c) Si H0 es cierta, el estadı́stico

SCe /[σ 2 (k − 1)] CMe

F = 2
=
SCd /[σ (n − k)] CMd

sigue la distribución F con k − 1 y n − k grados de libertad. La hipótesis H0 se

rechaza si el estadı́stico es significativo.

11.4.2. Diseño de un factor con efectos aleatorios

El modelo lineal que se adapta a este diseño es

yij = µ + Ai + ij i = 1, . . . , k; j = 1, . . . , ni

con las siguientes particularidades

1) E(Ai ) = 0, var(Ai ) = σA2 i = 1, . . . , k

2) E(Ai · Ai0 ) = 0 ∀i 6= i0

3) E(Ai · ij ) = 0 ∀i, j

214
es decir, {Ai } son variables aleatorias de media cero y varianza σA2 , independientes entre
sı́ y de los errores {ij }. Luego

var(yij ) = var(Ai ) + var(ij )

σy2 = σA2 + σ2

y por este motivo es apropiado denominar a σA2 y σ 2 componentes de la varianza.

Para su tratamiento clásico mediante Análisis de la Varianza de un factor es necesario
además que

4) Ai ∼ N (0, σA ), ij ∼ N (0, σ) y por lo tanto yij ∼ N (µ, σy )

5) el diseño sea balanceado n1 = n2 = · · · = nk = n0

Este modelo de efectos aleatorios que hemos formulado y en general cualquier modelo
de efectos aleatorios, difiere de un modelo de efectos fijos en que bajo las asunciones
realizadas

a) Para un i dado, todas las observaciones tienen igual esperanza

E(yij ) = µ + Ai ∀j

b) Para un i dado, las observaciones no son estocásticamente independientes entre sı́.

P
c) La variable ki=1 Ai es aleatoria y puede tomar un valor distinto de cero.

Teorema 11.4.3
Para el diseño de un factor con efectos aleatorios el valor esperado de la suma de cuadrados
entre grupos es
E(SCe ) = (k − 1)σ 2 + n0 (k − 1)σA2
luego
SCe
E(CMe ) = E = σ 2 + n0 σA2
k−1
Demostración:
P
Por definición SCe = n0 ki=1 (yi· − ȳ)2 .
Del modelo se obtiene

yi· = µ + Ai + i·
ȳ = µ + A· + ··

de donde
k
X
SCe = n0 [(Ai − A· ) + (i· − ·· )]2
i=1
" k k k k
X X X X
= n0 A2i + A2· − 2A· Ai + 2i·
i=1 i=1 i=1 i=1
k k
#
X X
+k2·· − 2·· i· + 2 (Ai − A· )(i· − ·· )
i=1 i=1

215
pero
k
X Xk n0 k n0
1 X 1 XX 1
i· = ij = ij = kn0 ·· = k··
i=1 i=1
n0 j=1 n0 i=1 j=1 n0
ya que
k n0
1 XX
·· = ij
kn0 i=1 j=1
Entonces
" k k k
#
X X X
SCe = n0 A2i + kA2· + 2 2
i· − k·· + 2 (Ai − A· )(i· − ·· )
i=1 i=1 i=1

k
X k
X
E(SCe ) = n0 E(A2i ) − n0 kE(A2· ) + n0 E(2i· )
i=1 i=1
k
X
−n0 kE(2·· ) + 2n0 E[(Ai − A· )(i· − ·· )]
i=1

Por las hipótesis del modelo se verifica

√ √ p
A· ∼ N (0, σA / k) i· ∼ N (0, σ/ n0 ) ·· ∼ N (0, σ/ kn0 )
Debido a que las variables aleatorias Ai , A· , i· , ·· son centradas, la esperanza de su
cuadrado coincide con su varianza, es decir,
E(A2i ) = var(Ai ) = σA2
E(A2· ) = var(A· ) = σA2 /k
E(2i· ) = var(i· ) = σ 2 /n0
E(2·· ) = var(·· ) = σ 2 /(kn0 )
Además, al ser independientes las variables Ai con las ij
E[(Ai − A· )(i· − ·· )] = E(Ai − A· ) · E(i· − ·· ) = 0 · 0 = 0
Por lo tanto
σA2 σ2 σ2
E(SCe ) = n0 kσA2 − n0 k + n0 k − n0 k
k n0 kn0
2 2 2 2
= n0 kσA − n0 σA + kσ − σ
= (k − 1)σ 2 + n0 (k − 1)σA2

Teorema 11.4.4
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SCd ) = k(n0 − 1)σ
es decir
SCd
E(CMd ) = E = σ2
k(n0 − 1)

216
Demostración:
P P 0
Por definición SCe = ki=1 nj=1 (yij − yi· )2 .
Del modelo se obtiene
yi· = µ + Ai + i·
Entonces
n0
k X
X
SCd = (ij − i· )2
i=1 j=1

X n0
k X n0
k X
X n0
k X
X
= 2ij + 2i· −2 i· ij
i=1 j=1 i=1 j=1 i=1 j=1

X n0
k X k
X k
X n0
X
= 2ij + n0 2i· −2 i· ij
i=1 j=1 i=1 i=1 j=1

X n0
k X k
X k
X
= 2ij + n0 2i· − 2 i· n0 i·
i=1 j=1 i=1 i=1

X n0
k X k
X
= 2ij − n0 2i·
i=1 j=1 i=1

de manera que

X n0
k X k
X
E(SCd ) = E(2ij ) − n0 E(2i· )
i=1 j=1 i=1
2
σ
= kn0 σ 2 − n0 k
n0
= kn0 σ 2 − kσ 2
= k(n0 − 1)σ 2

Inferencia en el modelo de un factor con efectos aleatorios

La hipótesis de interés en este modelo es

H0 : σA2 = 0

Recordemos que
k
X k
X
2
SCA = n0 (yi· − ȳ) = n0 (Ai + i· − A· − ·· )2
i=1 i=1
X X
2
SCR = (yij − yi· ) = (ij − i· )2
i,j i,j

siendo SCA la suma de cuadrados entre grupos o suma de cuadrados del factor y SCR
la suma de cuadrados dentro de los grupos o suma de cuadrados residual, representadas
hasta ahora por SCe y SCd respectivamente. Recuérdese también que A· es una variable
aleatoria y en consecuencia susceptible de tomar un valor distinto de cero.

217
Realizando el cambio gi = Ai + i· obtenemos k v.a. independientes con distribución
normal de media cero y varianza
σ2
var(gi ) = var(Ai ) + var(i· ) = σA2 +
n0
Por el teorema de Fisher, la variable aleatoria
ks2g /σg2
se distribuye según una ji-cuadrado con k − 1 g.l., es decir,
Pk P
i=1 (gi − ḡ)
2
n0 ki=1 (gi − ḡ)2 SCA
σ2
= 2 2
= 2 2
∼ χ2k
2
σA + n 0 n0 σ A + σ n0 σ A + σ
Entonces
SCA = (n0 σA2 + σ 2 ) · χ2k−1

SCA
E(CMA ) = E = n0 σA2 + σ 2
k−1
A este resultado habı́amos llegado también anteriormente por el teorema 11.4.3.
Por otra parte, SCR está distribuida de idéntica forma que en los modelos de efectos fijos.
Los ij desempeñan el papel de las observaciones, con media cero y varianza σ 2 . Luego
SCR = σ 2 · χ2k(n0 −1)

SCR
E(CMR ) = E = σ2
k(n0 − 1)
Para efectuar comparaciones falta demostrar que SCA y SCR son independientes. Para
ello, basta probar la independencia entre Ai + i· − A· − ·· y ij − i· . Tenemos que Ai − A·
y ij − i· son obviamente independientes. Si expresamos ij = ·· + (i· − ·· ) + (ij − i· ),
utilizando otra vez la analogı́a con los modelos de efectos fijos, i· −·· pertenece al espacio
de las estimaciones y ij −i· pertenece al espacio error, espacios que son ortogonales entre
sı́. Debido a la normalidad del modelo, sus vectores son independientes, luego SCA y SCR
son independientes. Entonces, si H0 es cierta, el estadı́stico
SCA /[σ 2 (k − 1)] SCA /(k − 1) CMA
F = 2
= =
SCR/[σ k(n0 − 1)] SCR/[k(n0 − 1)] CMR
sigue la distribución F con k −1 y k(n0 −1) g.l.. La hipótesis H0 se rechaza si el estadı́stico
es significativo.
Como resumen de lo expuesto en los apartados anteriores véase el cuadro 11.2. Obsérvese
que, si bien la hipótesis a contrastar del modelo I es formalmente distinta de la hipótesis
del modelo II, se utiliza el mismo estadı́stico de contraste
CMA k−1
F = ∼ Fk(n 0 −1)
CMR
Una estimación de los componentes de la varianza es
CMA − CMR
b2 = CMR
σ bA2 =
σ
n0
solución obtenida resolviendo el sistema resultante de igualar los cuadrados medios con
b2
los cuadrados medios esperados (ver sección anterior). Obsérvese que los estimadores σ
2 2 2
yσbA son siempre estimadores insesgados de los parámetros σ y σA respectivamente.

218
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II
P
2 n0 αi2
Tratamientos k−1 CMA = SCA /(k − 1) σ + σ 2 + n0 σA2
k−1

Error k(n0 − 1) CMR = SCR/[k(n0 − 1)] σ2 σ2

Total n0 k − 1

Tabla 11.2: Tabla comparativa para diseños de un factor con efectos fijos y efectos alea-
torios

11.4.3. Diseño de dos factores sin interacción con efectos fijos o

diseño en bloques al azar completos
Este diseño recibe también el nombre de bloques aleatorizados. Un desarrollo tı́pico para
este diseño, utilizando tres tratamientos en cuatro bloques, es el siguiente

Bloque 1 Bloque 2 Bloque 3 Bloque 4

t3 t2 t1 t1
t1 t1 t2 t3
t2 t3 t3 t2

Las letras t indican la asignación aleatoria de los tratamientos en los bloques. Como
ejemplo véase el ejemplo 10.3.1.
Generalizando, consideremos el caso de a tratamientos en b bloques. La observación yij
indica la respuesta del i-ésimo tratamiento aplicado al j-ésimo bloque. Se supondrá que
yij (i = 1, . . . , a; j = 1, . . . , b) son valores de v.a. independientes con distribución normal
de media µij y varianza común σ 2 . Serán de utilidad también

yi· = media del i-ésimo tratamiento

y·j = media del j-ésimo bloque
y·· = media general

El promedio de las medias poblacionales para el i-ésimo tratamiento está definido por
b
1X
µi· = µij
b j=1

Asimismo, el promedio de las medias poblacionales para el j-ésimo bloque está definido
por
a
1X
µ·j = µij
a i=1

219
y el promedio de las ab medias poblacionales es
a b
1 XX
µ·· = µij
ab i=1 j=1

Si representamos por A al factor tratamiento y por B al factor bloque, las hipótesis

lineales de interés son

H0A : µ1· = µ2· = · · · = µa· = µ

H0B : µ·1 = µ·2 = · · · = µ·b = µ

Si se cumple la primera hipótesis, el factor A no es significativo o, equivalentemente, no

existen diferencias significativas entre los tratamientos. También se dice que no hay efecto
fila. En el caso de que se cumpla la segunda hipótesis, el factor B no es significativo, es
decir, no existen diferencias significativas entre los bloques; no hay efecto columna.
Cada observación puede descomponerse en

yij = µij + ij

donde ij mide la desviación del valor observado yij frente la media poblacional µij . La
forma más común de expresar esta ecuación se obtiene al sustituir

µij = µ + αi + βj

donde αi es el efecto del i-ésimo tratamiento y βj el efecto del j-ésimo bloque. Se supone
que los efectos del tratamiento y del bloque son aditivos. Ası́, el modelo es

yij = µ + αi + βj + ij

Obsérvese que se asemeja al modelo de un criterio de clasificación, pero con la adición

del efecto bloque. Ahora la variación se controla sistemáticamente en dos direcciones.
Si se imponen las restricciones naturales
a
X b
X
αi = 0 βj = 0
i=1 j=1

entonces
b
1X
µi· = (µ + αi + βj ) = µ + αi
b j=1
a
1X
µ·j = (µ + αi + βj ) = µ + βj
a i=1

Las hipótesis pueden ahora plantearse del siguiente modo

H0A : α1 = α2 = · · · = αa = 0
H0B : β1 = β2 = · · · = βb = 0

220
En la sección 10.3 se vio que la descomposición fundamental de la suma de cuadrados
(descomposición de la variabilidad) viene dada por
X X X
(yij − ȳ)2 = b (yi· − ȳ)2 + a (y·j − ȳ)2
i,j i j
X
+ (yij − yi· − y·j + ȳ)2
i,j

es decir
SCT = SCF + SCC + SCR
donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre filas, SCC la
suma de cuadrados entre columnas y SCR la suma de cuadrados residual.

Teorema 11.4.5
El valor esperado de la suma de cuadrados entre filas es
a
X
2
E(SCF ) = (a − 1)σ + b αi2
i=1

luego
a
b X 2
E(CMF ) = E(SCF /(a − 1)) = σ 2 + α
a − 1 i=1 i

Demostración:
Es análoga a la del teorema 11.4.1.

Teorema 11.4.6
El valor esperado de la suma de cuadrados entre columnas es
b
X
2
E(SCC ) = (b − 1)σ + a βj2
j=1

luego
b
a X 2 2
E(CMC ) = E(SCC /(b − 1)) = σ + β
b − 1 j=1 j

Demostración:
Es análoga a la del teorema 11.4.1.

Teorema 11.4.7
El valor esperado de la suma de cuadrados residual es

E(SCR) = (a − 1)(b − 1)σ 2

luego
E(CMR ) = E(SCR/[(a − 1)(b − 1)]) = σ 2

221
Demostración:
Es análoga a la del teorema 11.4.2.
Inferencia en el diseño de dos factores sin interacción con efectos fijos
Una de las hipótesis a contrastar es
H0A : α1 = α2 = · · · = αa = 0
Por el teorema 11.4.5, CMF es un estimador insesgado de σ 2 si H0A es cierta. Por el
teorema 11.4.7 SCR es siempre un estimador insesgado de σ 2 , tanto si H0A es cierta como
si no lo es. Además, suponiendo que ij ∼ N (0, σ), se verifica el teorema ?? de la teorı́a
general del modelo lineal formal:
a) SCR/σ 2 ∼ χ2(a−1)(b−1)

b) Si H0A es cierta, entonces CMF = SCF /(a − 1) es otra estimación insesgada de σ 2 y

además
SCF /σ 2 ∼ χ2a−1
c) Si H0A es cierta, el estadı́stico
SCF /[σ 2 (a − 1)] CMF
F = 2
=
SCR/[σ (a − 1)(b − 1)] CMR
sigue la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0A se rechaza
si el estadı́stico es significativo.
Otra hipótesis a contrastar es
H0B : β1 = β2 = · · · = βb = 0
Análogamente al caso anterior, el estadı́stico
SCC /[σ 2 (b − 1)] CMC
F = 2
=
SCR/[σ (a − 1)(b − 1)] CMR
sigue la distribución F con b − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0B se rechaza si el
estadı́stico es significativo.

11.4.4. Diseño de dos factores sin interacción con efectos alea-

torios
El modelo lineal que se adapta a este diseño es
yij = µ + Ai + Bj + ij i = 1, . . . , a; j = 1, . . . , b
siendo Ai , Bj , ij variables aleatorias normales independientes con media cero y varian-
zas σA2 , σB2 , σ respectivamente. La descomposición fundamental de la suma de cuadrados
(descomposición de la variabilidad) viene dada por
X X X
(yij − ȳ)2 = b (yi· − ȳ)2 + a (y·j − ȳ)2
i,j i j
X
+ (yij − yi· − y·j + ȳ)2
i,j

es decir
SCT = SCF + SCC + SCR

222
Teorema 11.4.8
El valor esperado de la suma de cuadrados entre filas es

E(SCF ) = (a − 1)σ 2 + b(a − 1)σA2

luego
E(CMF ) = E(SCF /(a − 1)) = σ 2 + bσA2

Demostración:
Es análoga a la del teorema 11.4.3.

Teorema 11.4.9
El valor esperado de la suma de cuadrados entre columnas es

E(SCC ) = (b − 1)σ 2 + a(b − 1)σB2

luego
E(CMC ) = E(SCC /(b − 1)) = σ 2 + aσB2

Demostración:
Es análoga a la del teorema 11.4.3.

Teorema 11.4.10
El valor esperado de la suma de cuadrados residual es

E(SCR) = (a − 1)(b − 1)σ 2

luego
E(CMR ) = E(SCR/[(a − 1)(b − 1)]) = σ 2

Demostración:
Es análoga a la del teorema 11.4.4.
Inferencia en el diseño de dos factores sin interacción con efectos aleatorios
Las hipótesis de interés en este modelo son

H0 : σA2 = 0 H00 : σB2 = 0

Para contrastar la primera se utiliza el estadı́stico

SCF /[σ 2 (a − 1)] CMF
F = 2
=
SCR/[σ (a − 1)(b − 1)] CMR
que sigue bajo H0 la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0 se
rechaza si el estadı́stico es significativo.
De manera análoga, para contrastar la segunda hipótesis se utiliza el estadı́stico
SCC /[σ 2 (b − 1)] CMC
F = 2
=
SCR/[σ (a − 1)(b − 1)] CMR
que sigue bajo H00 la distribución F con b − 1 y (a − 1)(b − 1) g.l.. La hipótesis H00 se
rechaza si el estadı́stico es significativo.

223
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II

b X 2
Entre filas a−1 CMF = SCF /(a − 1) σ2 + αi σ 2 + bσA2
a−1
a X 2
Entre col. b−1 CMC = SCC /(b − 1) σ2 + βj σ 2 + aσB2
b−1
SCR
Error (a − 1)(b − 1) CMR = σ2 σ2
(a − 1)(b − 1)

Total ab − 1

Tabla 11.3: Tabla comparativa para diseños de dos factores con efectos aleatorios y sin
interacción

A modo de resumen de lo expuesto en los apartados anteriores, véase el cuadro 11.3.

Las estimaciones insesgadas de las componentes de la varianza se obtienen igualando los
cuadrados medios a los cuadrados medios esperados y resolviendo el sistema de ecuaciones
resultante (ver sección 11.3). Las soluciones en este caso son

b2 = CMR
σ bA2 = (CMF − CMR )/b
σ bB2 = (CMC − CMR )/a
σ

verificándose
σ2) = σ2
E(b σA2 ) = σA2
E(b σB2 ) = σB2
E(b

11.4.5. Diseño de dos factores aleatorios con interacción

El modelo lineal que se adapta a este diseño es

yijk = µ + Ai + Bj + (AB)ij + ijk i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r

siendo Ai , Bj , (AB)ij y ijk variables aleatorias normales independientes con media cero
y varianza σA2 , σB2 , σAB
2
y σ 2 respectivamente.
En el cuadro 11.4 figuran las esperanzas de los cuadrados medios tanto para el modelo I
como para el modelo II, indicando por modelo I cuando los dos factores son fijos y por
modelo II cuando los dos factores son aleatorios. La demostración de las fórmulas de estas
esperanzas se hace de forma análoga a la de los teoremas 11.4.5, 11.4.6 y 11.4.7 para el
modelo I, y 11.4.8, 11.4.9 y 11.4.10 para el modelo II.
Las hipótesis a contrastar en el modelo II son

H0A : σA2 = 0 H0B : σB2 = 0 H0AB : σAB

2
=0

Para contrastar la primera se utiliza el estadı́stico

SCA /[(a − 1)(σ 2 + rσAB

2
)] SCA /(a − 1) CMA
F = 2 2
= =
SCAB /[(a − 1)(b − 1)(σ + rσAB )] SCAB /(a − 1)(b − 1) CMAB

224
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II

SCA rb
P
Entre filas a−1 CMA = a−1
σ2 + a−1
αi2 σ 2 + rσAB
2
+ brσA2

SCB ra
P
Entre col. b−1 CMB = b−1
σ2 + b−1
βj2 σ 2 + rσAB
2
+ arσB2

SCAB r
P
Interac. g∗ CMAB = g
σ2 + g
τij σ 2 + rσAB
2

SCR
Residuo ab(r − 1) CMR = ab(r−1)
σ2 σ2

Total abr − 1 ∗ g = (a − 1)(b − 1)

Tabla 11.4: Tabla comparativa para diseños de dos factores con efectos aleatorios y con
interacción

que sigue bajo H0A la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0A se
rechaza si el estadı́stico es significativo.
De manera análoga para contrastar la segunda hipótesis se utiliza el estadı́stico
SCB /[(b − 1)(σ 2 + rσAB
2
)] SCB /(b − 1) CMB
F = 2 2
= =
SCAB /[(a − 1)(b − 1)(σ + rσAB )] SCAB /(a − 1)(b − 1) CMAB
que sigue bajo H0B la distribución F con b − 1 y (a − 1)(b − 1) g.l..
En el contraste de las dos hipótesis anteriores se divide por el cuadrado medio de la
interacción; en cambio, para contrastar la tercera hipótesis se divide por el cuadrado
medio del error, es decir, se utiliza el estadı́stico
SCAB /[(a − 1)(b − 1)σ 2 ] SCAB /[(a − 1)(b − 1)] CMAB
F = 2
= =
SCR/[ab(r − 1)σ ] SCR/[ab(r − 1)] CMR
que sigue bajo H0AB la distribución F con (a − 1)(b − 1) y ab(r − 1) g.l.. La hipótesis H0AB
se rechaza si el estadı́stico es significativo.
Las estimaciones insesgadas de las componentes de la varianza (ver sección 11.3) son
b2 = CMR
σ σ2) = σ2
E(b

bA2 = (CMA − CMAB )/(br)

σ σA2 ) = σA2
E(b

bB2 = (CMB − CMAB )/(ar)

σ σB2 ) = σB2
E(b

2 2 2
bAB
σ = (CMAB − CMR )/r E(b
σAB ) = σAB

11.4.6. Diseño de tres factores aleatorios y réplicas

La esperanza de los cuadrados medios se muestra en el cuadro 11.5. De tales esperanzas se
deduce que se pueden formar las razones F apropiadas para contrastar las hipótesis rela-
tivas a los componentes de la varianza de las interacciones. Sin embargo, para contrastar

225
Fuente de cuadrados Esperanza del cuadrado medio
variación g.l. medios Modelo II

A a−1 CMA σ 2 + rσABC

2 2
+ crσAB 2
+ brσAC + bcrσA2

B b−1 CMB σ 2 + rσABC

2 2
+ crσAB 2
+ arσBC + acrσB2

C c−1 CMC σ 2 + rσABC

2 2
+ brσAC 2
+ arσBC + abrσC2

AB (a − 1)(b − 1) CMAB σ 2 + rσABC

2 2
+ crσAB

AC (a − 1)(c − 1) CMAC σ 2 + rσABC

2 2
+ brσAC

BC (b − 1)(c − 1) CMBC σ 2 + rσABC

2 2
+ arσBC

ABC (a − 1)(b − 1)(c − 1) CMABC σ 2 + rσABC

Residuo abc(r − 1) CMR σ2

Total abcr − 1

Tabla 11.5: Tabla para diseños de tres factores con efectos aleatorios

las hipótesis relativas a los efectos principales, es decir,

H0A : σA2 = 0 H0B : σB2 = 0 H0C : σC2 = 0
no hay una razón F apropiada a menos que uno o más de los componentes de la varianza
de la interacción de dos factores no sean significativos. Por ejemplo, supongamos que se
2
ha comprobado previamente la hipótesis H0 : σAC = 0 y ha resultado no significativa.
2
Se puede afirmar entonces que el término σAC puede excluirse de todas las esperanzas
de los cuadrados medios en las que intervenga. Si deseamos ahora contrastar la hipótesis
H0A : σA2 = 0 es posible utilizar el estadı́stico F = CMA /CMAB .
En definitiva, si se desea contrastar las hipótesis relativas a los efectos principales, ha-
brá que estudiar primero la significación de los componentes de la varianza relativos a las
interacciones.

11.5. Correlación intraclásica

Sea el modelo de un factor con efectos aleatorios
yij = µ + Ai + ij i = 1, . . . , k; j = 1, . . . , n0
donde var(Ai ) = σA2 , var(ij ) = σ 2 . Se llama correlación intraclásica al coeficiente de
correlación entre dos observaciones yij , yij 0 de un mismo grupo i.
El coeficiente de correlación intraclásica viene dado por
σA2
ρI = 0 ≤ ρI ≤ 1
σA2 + σ

226
En efecto
cov(yij , yij 0 )
ρI (yij , yij 0 ) = p p
var(yij ) var(yij 0 )
E[(yij − µ)(yij 0 − µ)]
=
σA2 + σ
E(A2i + Ai ij + Ai ij 0 + ij ij 0 )
=
σA2 + σ
E(A2i ) σA2
= =
σA2 + σ σA2 + σ

La correlación intraclásica nos expresa el porcentaje de la variabilidad entre grupos res-

pecto la variabilidad total y se utiliza para estudiar la dependencia entre los individuos
de un mismo grupo respecto a una variable observable Y . Por ejemplo, es utilizado en
Genética descomponiendo la variabilidad total σy2 (varianza de la componente genética)
y σ 2 (varianza de la componente ambiental).
Estimación y contraste de significación
Una estimación adecuada de ρI es

ρbI = max{0, rI }

siendo
bA2
σ F −1
rI = 2 2
=
bA + σ
σ b F + n0 − 1
donde F = CMA /CMR .
Para ver si rI es significativo hemos de plantear el contraste de la hipótesis H0 : ρI = 0
equivalente a H0 : σA2 = 0 que se resuelve mediante Análisis de la Varianza.

Ejemplo 11.5.1
En un estudio sobre los guisantes se tomaron 5 vainas, cada una de las cuales contenı́a 8
guisantes. Los pesos en centigramos fueron
1 44 41 42 40 48 46 46 42
2 43 46 48 42 50 45 45 49
vaina 3 33 34 37 39 32 35 37 41
4 56 52 50 51 54 52 49 52
5 36 37 38 40 40 41 44 44
Los datos se asimilan a un diseño de un factor de efectos aleatorios. Las sumas de cua-
drados son (n0 = 8)

SCA = 1176,1 con 4 g.l.

SCR = 273,9 con 35 g.l.
y entonces
CMA
F = = 37,57
CMR
El coeficiente de correlación intraclásica es

ρbI = max{0, 0,8205} = 0,8205

227
ya que
F −1 36,57
rI = = = 0,8205
F + n0 − 1 44,57
Realicemos el contraste de hipótesis para comprobar que es significativo. La hipótesis
H0 : ρI = 0 equivale a plantear el contraste H0 : σA2 = 0, que se resuelve mediante
Análisis de la Varianza. Como F = 37,57 con 4 y 35 g.l. es muy significativa, aceptamos
que es distinto de cero. La interpretación en este caso es la siguiente: aproximadamente el
80 % de la variabilidad se explica por la componente genética, el resto es debido a factores
ambientales.

228
11.6. Ejercicios
Ejercicio 11.1
En una población, de entre las mujeres que habı́an concebido tres hijos varones, se selec-
cionaron 5 al azar y se anotó el peso que registró cada hijo al nacer:

1 3,250 3,125 3,400

2 2,800 3,100 2,900
3 3,400 3,500 3,350
4 4,100 4,200 4,150
5 2,900 2,750 2,800

Calcular la correlación intraclásica y estudiar si es significativa.

Ejercicio 11.2
Eligiendo 4 tardes al azar del verano, se midió la temperatura de un lago a diferentes
profundidades con los siguientes resultados

Fecha
Profundidad (m) 1 2 3 4
0 23,8 24,0 34,6 24,8
1 22,6 22,4 22,9 23,2
2 22,2 22,1 22,1 22,2
3 21,2 21,8 21,0 21,2
4 18,4 19,3 19,0 18,8
5 13,5 14,4 14,2 13,8

Determinar si son factores de efectos fijos o de efectos aleatorios y si hay diferencias entre
profundidades y entre fechas.

Ejercicio 11.3
Para valorar la variabilidad del contenido de zumo de una cierta variedad de limón, se
tomaron 4 árboles al azar y se midió el contenido de zumo de 3 limones de cada árbol.
Esta observación se hizo durante 5 dı́as, eligiendo fechas al azar. Los resultados fueron
(en cm3 ):

Árbol
Dı́a 1 2 3 4
1 24 26 26 28 20 27 28 18 21 27 24 20
2 18 25 19 21 24 23 27 19 17 25 23 22
3 16 21 15 24 20 21 22 25 24 29 27 27
4 21 24 22 23 20 26 24 24 23 20 21 27
5 23 24 28 27 21 28 26 25 27 25 27 28

Estudiar si existe variabilidad entre árboles, entre dı́as y entre las interacciones árboles
× dı́as.

Ejercicio 11.4

229
Se han obtenido réplicas de una variable observable y combinado dos factores A, B. El
número de réplicas (“factor” R) por casilla es de tres. La descomposición de la suma de
cuadrados es la siguiente:
Fuente variación g.l. Suma cuadrados
A 3 420
B 1 143
AB 3 32
R 2 109
AR 6 197
BR 2 39
ABR 6 155
Utilizando el nivel de significación 0,01, se pide:
a) Suponiendo A, B factores de efectos fijos, estudiar si son significativos. Hallar tres
estimaciones independientes de la varianza del diseño.
b) Suponiendo A, B factores de efectos aleatorios, estudiar si A y la interacción A × B
son significativos.

Ejercicio 11.5
Consideremos de nuevo el enunciado del problema 6.4. Supongamos ahora que en el
modelo (∗) ωir = 0, A (año) es de efectos aleatorios y B (genotipo) es de efectos fijos.
Estudiar si los efectos principales y las interacciones son significativas.

Ejercicio 11.6
Los resultados yijh de un cierto experimento, donde i = 1, . . . , p; j = 1, . . . , q; h = 1, . . . , b
combinan dos factores X, Y , junto con un factor bloque B que no interacciona con X, Y .
En este experimento las réplicas son bloques y el modelo es
yijk = µ + Xi + Yj + Iij + Bh + ijh
La tabla de suma de cuadrados es:
Fuente variación g.l. Suma cuadrados
X 2 625
Y 3 1340
B 4 402
XY 6 227
XB 8 289
YB 12 310
XY B 24 528
Se pide:
a) Suponiendo los efectos fijos, estudiar la significación de los efectos principales y la
interacción (nivel 0,05). Hallar dos estimadores insesgados de la varianza del modelo.
b) Suponiendo todos los efectos aleatorios, y sabiendo que los valores esperados de los
cuadrados medios son:
2
E(CMX ) = rqσX + rσI2 + σ 2 E(CMY ) = rpσY2 + rσI2 + σ 2
E(CMI ) = rσI2 + σ 2 E(CMB ) = pqσB2 + σ 2 E(CMR ) = σ 2

230
Apéndice A

Matrices

A.1. Inversa generalizada

Para una matriz A (n × p), A− se llama una g-inversa o inversa generalizada de A si

AA− A = A

Una inversa generalizada siempre existe aunque en general no es única.

Métodos de construcción

(1) Utilizando la descomposición en valores singulares de la matriz A (n × p), tenemos

A = ULV0 . Luego es sencillo comprobar que

A− = VL−1 U0

define una g-inversa.

(2) Si rg(A) = r, una permutación de las filas y columnas de A (n × p) nos permite

hallar una submatriz no singular Ar (r × r). Entonces resulta que
−1
− Ar 0
A =
0 0

es una g-inversa.

(3) Si A (p × p) es no singular, entonces A− = A−1 y es única.

(4) Si A (p×p) es simétrica de rg(A) = r, podemos escribir A = ΓΛΓ0 , donde Γ (p×r)

es la matriz cuyas columnas son los vectores propios ortonormales correspondientes
a los vectores propios no nulos Λ = diag(λ1 , . . . , λr ) de A. Entonces se comprueba
que
A− = ΓΛ−1 Γ0

Un caso especial de g-inversa es la llamada inversa de Moore-Penrose A+ de A (n × p)

que verifica

AA+ A = A A+ AA+ = A+ A+ A = (A+ A)0 AA+ = (AA+ )0

La inversa de Moore-Penrose es única.

231
A.2. Derivación matricial
Definimos la derivada de f (X) con respecto a X n × p como la matriz

∂f (X) ∂f (X)
= .
∂X ∂xij

El cálculo matricial de derivadas tiene, entre otras, las siguientes propiedades:

∂a0 x ∂Ax
1. = a, = A0
∂x ∂x
∂x0 x ∂x0 Ax ∂x0 Ay
2. = 2x, = (A0 + A)x, = Ay
∂x ∂x ∂x

A.3. Matrices idempotentes

Una matriz P es idempotente si P2 = P. Una matriz simétrica e idempotente se llama
matriz proyección.

1. Si P es simétrica, entonces P es idempotente y rg(P) = r si y sólo si P tiene r

valores propios iguales a 1 y el resto son cero.
Demostración:
Como P2 = P, entonces Px = λx con x 6= 0 implica que

λx = Px = P2 x = P(Px) = P(λx) = λ(Px) = λ(λx) = λ2 x

de manera que λ2 − λ = 0 ó λ(λ − 1) = 0.

Luego los valores propios de P son la unidad tantas veces como indica el rango y el
resto son cero, ya que la suma de los valores propios es el rango.
Recı́procamente, si los valores propios son 0 y 1, entonces podemos pensar sin
pérdida de generalidad que los primeros r son unos.
Ası́, debe existir una matriz ortogonal T tal que P = TΛT0 donde

Ir 0
Λ=
0 0

Luego
P2 = TΛT0 TΛT0 = TΛ2 T0 = TΛT0 = P
y rg(P) = r.

2. Si P es una matriz proyección, entonces tr(P) = rg(P).

Demostración:
Si rg(P) = r, entonces por el apartado anterior, P tiene r valores propios 1 y el
resto son cero. De aquı́ que tr(P) = r.

232
3. Si P es idempotente, también I − P lo es.
Demostración:

(I − P)2 = I − 2P + P2 = I − 2P + P = I − P.

4. Las matrices proyección son semidefinidas positivas.

Demostración:
x0 Px = x0 P2 x = (Px)0 (Px) ≥ 0.

A.4. Matrices mal condicionadas

Un sistema determinado de ecuaciones lineales Bx = c se dice que está mal condicionado
(ill-conditioned ) si pequeños errores o variaciones en los elementos de B y c tienen un
gran efecto en la solución exacta de x. Por ejemplo, la solución exacta del sistema es
x = B−1 c, pero si B está cerca de la singularidad, es decir, pequeños cambios en sus
elementos pueden causar la singularidad, entonces el cálculo de la inversa de B puede
provocar una gran diferencia con la solución exacta.
En el caso de las ecuaciones normales la matriz B = X0 X y el vector c = X0 Y contienen
errores de redondeo, fruto del cálculo a partir de las matrices X y Y. Además, su almace-
namiento en el ordenador también puede tener inconvenientes de precisión. Esto significa
que si la matriz X está mal condicionada, es decir, pequeños cambios en los elementos de
X pueden causar grandes cambios en (X0 X)−1 y en β b = (X0 X)−1 X0 Y, entonces cualquier
0
error en la formación de X X puede tener un efecto muy serio en la precisión y la estabi-
lidad de la solución, que en este caso es la estimación de los parámetros. El problema de
la mala condición es especialmente preocupante en la regresión polinómica (ver sección
8.6).
Una medida de la mala condición de una matriz de datos X es el número de condición
κ[X] que se define como la razón entre el mayor y el menor valor singular no nulo de X.
Los valores singulares de X son las raı́ces cuadradas positivas de los valores propios de la
matriz X0 X. Entre las propiedades más notorias de κ[X] tenemos que

κ[X0 X] = (κ[X])2

Por la definición κ > 1, por tanto X0 X siempre está peor condicionada que X. Luego,
a no ser que κ[X] sea un valor moderado, es mejor no calcular X0 X en los métodos de
computación de las soluciones (ver capı́tulo 11 de Seber[61]).
En la práctica, es muy común que una variable regresora esté altamente correlacionada
con una combinación lineal de las otras variables regresoras, de forma que las columnas
de X estarán muy próximas a ser linealmente dependientes. Ası́ X0 X estará cerca de la
singularidad (o será singular), el menor valor propio será pequeño y κ[X] será grande (ver
sección 8.5).

233
Apéndice B

Proyecciones ortogonales

B.1. Descomposición ortogonal de vectores

1. Dado Ω, un subespacio vectorial de En (un espacio euclı́deo n-dimensional), todo
vector y puede expresarse de forma única como y = u + v, donde u ∈ Ω y v ∈ Ω⊥ .
Demostración:
Supongamos que hubiera dos descomposiciones y = u1 + v1 = u2 + v2 , entonces
(u1 − u2 ) + (v1 − v2 ) = 0. Como u1 − u2 ∈ Ω, v1 − v2 ∈ Ω⊥ y Ω ∩ Ω⊥ = {0}, resulta
que u1 − u2 = 0 y v1 − v2 = 0, es decir, u1 = u2 y v1 = v2 .
2. Si la descomposición adopta la forma y = PΩ y + (I − PΩ )y, la matriz PΩ es única.
Demostración:
Si fueran dos las matrices Pi i = 1, 2, entonces, como u es único para cada y,
resulta que (P1 − P2 )y = 0 para todo y. Luego P1 − P2 = O.
3. La matriz PΩ puede expresarse en la forma PΩ = TT0 , donde las columnas de T
forman una base ortonormal de Ω.
Demostración:
Sea T = (α1 , . . . , αr ), donde α1 , . . . , αr es una base ortonormal de Ω y r es su
dimensión. Podemos extender esta base hasta obtener una base ortonormal de todo
En , digamos α1 , . . . , αr , αr+1 , . . . , αn . Entonces
n
X r
X n
X
y= c i αi = ci α i + ci α i = u + v
i=1 i=1 i=r+1

donde u ∈ Ω y v ∈ Ω⊥ . Pero α0i αi = δij de forma que α0i y = ci y podemos escribir

r
X r
X
u= ci α i = (α0i y)αi = (α1 , . . . , αr )(α01 y, . . . , α0r y)0 = TT0 y
i=1 i=1

y por el apartado anterior PΩ = TT0 .

4. PΩ es simétrica e idempotente.
Demostración:
Dado que PΩ = TT0 es obviamente simétrica y
P2Ω = TT0 TT0 = TIr T0 = TT0 = PΩ

234
5. El subespacio generado por las columnas de PΩ es hPΩ i = Ω.
Demostración:
Es evidente que hPΩ i ⊂ Ω, ya que PΩ es la proyección sobre Ω. Recı́procamente si
x ∈ Ω, entonces x = PΩ x ∈ hPΩ i. Luego los dos subespacios son el mismo.

6. In − PΩ representa la proyección ortogonal sobre Ω⊥ .

Demostración:
A partir de la igualdad y = PΩ y + (In − PΩ )y tenemos que v = (In − PΩ )y. Los
resultados anteriores se obtienen intercambiando los papeles de Ω y Ω⊥ .

7. Si P es una matriz cuadrada e idempotente, entonces P representa la proyección

ortogonal sobre hPi.
Demostración:
Sea y = Py + (In − P)y. Entonces (Py)0 (In − P)y = y0 (P − P2 )y = 0, de manera
que la descomposición da las componentes ortogonales de y. El resultado se obtiene
al aplicar la propiedad B.1.5.

8. Si Ω = hXi, entonces

PΩ = X(X0 X)− X0

donde (X0 X)− es una inversa generalizada de X0 X, es decir, si B = X0 X, entonces

BB− B = B.
Demostración:
Las ecuaciones normales X0 Xβ = X0 Y se pueden escribir como Bβ = c, si c = X0 Y.
Entonces βb = B− c es una solución de dichas ecuaciones normales ya que

b = B(B− c) = BB− Bβ = Bβ = c.
Bβ

b = Xβ,
Por otra parte, si escribimos θ b tenemos Y = θ
b + (Y − θ)
b donde

b0 (Y − θ)
θ b = βb 0 X0 (Y − Xβ)
b
b 0 (X0 Y − X0 Xβ)
= β b =0

Luego Y = θb + (Y − θ)
b es una descomposición ortogonal de Y tal que θ
b ∈ hXi
b ⊥ hXi. Como θ
y (Y − θ) b = Xβb = XB− c = X(X0 X)− X0 Y tenemos que PΩ =
0 − 0
X(X X) X por la unicidad demostrada en (2).

9. Cuando las columnas de la matriz X son linealmente independientes y el rg(X) es

máximo, resulta que PΩ = X(X0 X)−1 X0 .
Demostración:
Cuando el rg(X) es máximo, la matriz cuadrada X0 X es inversible.

235
B.2. Proyecciones en subespacios
1. Dado ω ⊂ Ω, entonces PΩ Pω = Pω PΩ = Pω .
Demostración:
Como ω ⊂ Ω y ω = hPω i (por el punto B.1.5), tenemos que la proyección sobre Ω
de las columnas de Pω son las propias columnas, es decir, PΩ Pω = Pω . El resultado
completo se deduce porque PΩ y Pω son matrices simétricas.

2. PΩ − Pω = Pω⊥ ∩Ω .
Demostración:
Consideremos la descomposición PΩ y = Pω y + (PΩ − Pω )y. Como PΩ y y Pω y
pertenecen a Ω resulta que (PΩ − Pω )y ∈ Ω. Ası́ la ecuación anterior presenta la
descomposición ortogonal de Ω en ω y ω ⊥ ∩Ω ya que Pω (PΩ −Pω ) = O (por B.2.1).

3. Si A∗ es una matriz tal que ω = ker(A∗ ) ∩ Ω, entonces ω ⊥ ∩ Ω = hPΩ A0∗ i.

Demostración:
En primer lugar, observamos que

ω ⊥ ∩ Ω = {Ω ∩ ker(A∗ )}⊥ ∩ Ω
= {Ω⊥ + hA0∗ i} ∩ Ω

ya que (Ω1 ∩ Ω2 )⊥ = Ω⊥ ⊥ ⊥ 0
1 + Ω2 y [ker(A∗ )] = hA∗ i.

Si x ∈ {Ω⊥ + hA0∗ i} ∩ Ω, entonces

x = PΩ x = PΩ {(In − PΩ )α + A0∗ β} = PΩ A0∗ β ∈ hPΩ A0∗ i.

Recı́procamente, si x ∈ hPΩ A0∗ i, entonces x ∈ hPΩ i = Ω. También para cualquier

z ∈ ω, resulta x0 z = β 0 A∗ PΩ z = β 0 A∗ z = 0, es decir, x ∈ ω ⊥ . Luego x ∈ ω ⊥ ∩ Ω.

4. Si A∗ (q × n) tiene rg(A∗ ) = q, entonces rg(PΩ A0∗ ) = q si y sólo si hA0∗ i ∩ Ω⊥ = {0}.

236
Apéndice C

Estadı́stica multivariante

C.1. Esperanza, varianza y covarianza

1. Sean X e Y vectores aleatorios no necesariamente de la misma longitud.
Definimos la matriz
cov(X, Y) = (cov(Xi , Yj ))
y si X = Y escribimos var(X) = cov(X, X). Entonces se verifican las siguientes
propiedades:

(a) Si a es un vector constante de la misma dimensión que X, var(a+X) = var(X).

(b) Si λ ∈ R, entonces var(λX) = λ2 var(X).
(c) Si A y B son matrices de constantes,

cov(AX, BY) = Acov(X, Y)B0

(d) Para cualquier vector aleatorio X, Y, U, V y todo escalar a, b, c, d ∈ R,

cov(aX + bY, cU + dV) =

ac cov(X, U) + ad cov(X, V) + bc cov(Y, U) + bd cov(Y, V)

2. Sea Y un vector aleatorio con esperanza E(Y) = µ y matriz de varianzas y cova-

rianzas var(Y) = V, entonces

E(Y0 AY) = tr(AV) + µ0 Aµ

donde A es una matriz constante.

Demostración:
Es evidente que

(Y − µ)0 A(Y − µ) = Y 0 AY − µ0 AY − Y0 Aµ + µ0 Aµ

de modo que

E((Y − µ)0 A(Y − µ)) = E(Y 0 AY) − µ0 AE(Y) − E(Y 0 )Aµ + µ0 Aµ

= E(Y 0 AY) − µ0 Aµ

237
Por otra parte, sabemos que, para dos matrices C y D, la traza del producto verifica
X
tr(CD) = tr(DC) = cij dji
i,j

y por eso
X X
tr(AV) = aij cov(Yj , Yi ) = aij E((Yj − µj )(Yi − µi ))
i,j i,j
!
X
= E (Yi − µi )aij (Yj − µj ) = E((Y − µ)0 A(Y − µ))
i,j

con lo que obtenemos el resultado enunciado.

C.2. Normal multivariante

1. Cuando Y ∼ Nn (µ, Σ), se verifica:

(a) (Y − µ)0 Σ−1 (Y − µ) ∼ χ2n

(b) Para cualquier matriz C constante, CY ∼ Nn (Cµ, CΣC0 ).
(c) Si consideramos una partición del vector Y en dos vectores Y1 y Y2 , éstos son
independientes ssi cov(Y1 , Y2 ) = O.

2. Sea Y ∼ Nn (µ, σ 2 I). Sean U = AY, V = BY dos vectores aleatorios combinación

de Y y sea A∗ la matriz formada por las filas de A linealmente independientes. Si
cov(U, V) = O, entonces

(a) A∗ Y es independiente de V0 V.
(b) U0 U y V0 V son independientes.

3. Supongamos que Q1 ∼ χ2r y Q2 ∼ χ2s , con r > s. Si Q = Q1 − Q2 y Q2 son

independientes, entonces Q ∼ χ2r−s .

238
Bibliografı́a

[1] J. Alegre y J. Arcarons, Aplicaciones de Econometrı́a. Textos Docents, Universitat

de Barcelona, 1991.

[2] D.A. Allen and F.B. Cady, Analyzing Experimental Data by Regression. Wadsworth,
1982.

[3] V.L. Anderson and R.A. McLean, Design of Experiments. Marcel Dekker, 1974.

[4] S.F. Arnold, The Theory of Linear Models and Multivariate Observations. Wiley,
1981.

[5] D.A. Belsley et al., Regression Diagnostics. Wiley, 1980.

[6] J. Bibby and H. Toutenberg, Prediction and Improved Estimation in Linear Models.
Wiley, 1977.

[7] D. Birkes and Y. Dodge, Alternative Methods of Regression. Wiley, 1993.

[8] G.E.P. Box and N. Draper, Empirical Model Building and Response Surfaces. Wiley,
1987.

[9] G.E.P. Box, W. Hunter and J.S. Hunter, Estadı́stica para Investigadores. Reverté,
1988.

[10] R.J. Brook and G.C. Arnold, Applied Regression Analysis and Experimental Design.
Marcel Dekker, 1985.

[11] R. Christensen, Plane Answers to Complex Questions. Springer-Verlag, 1987.

[12] W.G. Cochran and G.M. Cox, Experimental Designs. Wiley, 2nd Edition, 1992.

[13] R.D. Cook and S. Weisberg, Residuals and Influence in Regression. Chapman and
Hall, 1982.

[14] R.D. Cook and S. Weisberg, Applied Regression Including Computing and Graphics.
Wiley, 1999.

[15] J.A. Cornell, Experiments with Mixtures: Designs, Models, and the Analysis of Mix-
ture Data. Wiley, 3rd Edition, 2002.

[16] D.R. Cox, Planning of Experiments. Wiley, 1958.

[17] C.M. Cuadras, Problemas de Probabilidades y Estadı́stica. VOL. 2 Inferencia es-

tadı́stica EUB, Barcelona 2000.

239
[18] S. Chatterjee and B. Price, Regression Analysis by Example. Wiley, 3rd Edition,
1999.

[19] C. Daniel, Applications of Statistics to industrial experimentation. Wiley, 1976.

[20] C. Daniel and F.S. Wood, Fitting Equations to Data. Wiley, 1980.

[21] P.J. Dhrymes, Econometrı́a. Editorial AC, Madrid, 1984.

[22] Y. Dodge, Analysis of Experiments with missing data. Wiley, 1985.

[23] H.E. Doran, Applied Regression Analysis in Econometrics. Marcel Dekker, 1989.

[24] N.R. Draper and H. Smith, Applied Regression Analysis. Wiley, 3rd Edition, 1998.

[25] R.A. Fisher, The Design of Experiments. Oliver Boyd, Edimburgo, 1953.

[26] J. Fox, Linear Statistical Models & Related Methods. Wiley, 1984.

[27] A.R. Gallant, Nonlinear Statistical Models. Wiley, 1987.

[28] A.S. Goldberger, A Course in Econometrics. Harvard University Press, 1991.

[29] F.A. Graybill, Theory and Application of the Linear Model. Wadsworth, 1976.

[30] R.F. Gunst and R.L. Mason, Regression Analysis and its Aplication. Marcel Dekker,
1980.

[31] I. Guttman, Linear Models. Wiley, 1982.

[32] W. Härdle, Applied Nonparametric Regression. Cambridge University Press, 1990.

[33] C.R. Hicks, Fundamental Conceps in the Design of Experiments. Holt, Renehart and
Winston, 1982.

[34] K. Hinkelmann and O. Kempthorne, Design and Analysis of Experiments , Volume

1, Introduction to Experimental Design. Wiley, 1994.

[35] D.C. Hoaglin, F. Mosteller, and J.W. Tukey, Understanding Robust and Exploratory
Data Analysis. Wiley, 1983.

[36] R.R. Hocking, Methods and Applications of Linear Models: Regression and the Analy-
sis of Variance. Wiley, 2nd Edition, 2003.

[37] P.W.M. John, Statistical Design and Analysis of Experiments. Mc Millan, 1971.

[38] J.A. John and M.H. Quenouille, Experiments: Design and Analysis. Charles Griffin,
1977.

[39] O. Kempthorne, The Design and Analysis of Experiments. Wiley, 1952.

[40] M. Kendall, A. Stuart and J.K. Ord, The Avanced Teory of Statistics (vol. 3, Design
and Analysis, and Time Series). Charles Griffin, 1983.

[41] A. Kshirsagar, A Course on Linear Models. Marcel Dekker, 1983.

240
[42] T.J. Lorenzen and V. L. Anderson, Design of Experiments. Marcel Dekker, 1993.

[43] R.L. Mason, R.F. Gunst and J.L. Hess, Statistical Design and Analysis of Experi-
ments: With Applications to Engineering and Science. Wiley, 2nd Edition, 2003.

[44] P. McCullagh and J.A. Nelder, Generalized Linear Models. Chapman and Hall, 1989.

[45] D.C. Montgomery, Design and Analysis of Experiments. Wiley, 1984.

[46] D.C. Montgomery, E.A. Peck and G.G. Vining Introduction to Linear Regression
Analysis. Wiley, 3rd Edition, 2001.

[47] F. Mosteller and J.W. Tukey, Data Analysis and Regression. Addison-Wesley, 1977.

[48] R.H. Myers, Clasical and Modern Regression with Application. Duxbury Press, 1986.

[49] J. Neter, W. Wasserman and M.H. Kutner, Applied Linear Statistical Models. Ri-
chard D. Irwin, 1990.

[50] D. Peña, Estadı́stica: Modelos y métodos. 2. Modelos Lineales y Series Temporales.

Alianza, 1993.

[51] B.L. Raktoe et al., Factorial Designs. Wiley, 1981.

[52] C.R. Rao, Linear Statistical Inference and its Applications. Wiley, 1973

[53] C.R. Rao and H. Toutenburg, Linear Models. Springer Series in Statistics, 1995.

[54] D.A. Ratkowsky, Non Linear Regression Modeling. Marcel Dekker, 1983.

[55] P.J. Rousseeuw and A.M. Leroy, Robust Regression and Outlier Detection. Wiley,
2003.

[56] L. Ruiz-Maya, Métodos Estadı́sticos de Investigación. INE, Madrid, 1972.

[57] T.P. Ryan, Modern Regression Methods. Wiley, 1996.

[58] S.R. Searle, Linear Models. Wiley, 1971.

[59] H. Scheffé, The Analysis of Variance. Wiley, 1959.

[60] G.A.F. Seber and C.J. Wild, Nonlinear Regression, Wiley, 2003.

[61] G.A.F. Seber and A.J. Lee, Linear Regression Analysis. Wiley, 2nd. Edition, 2003.

[62] A. Sen and M. Srivastava, Regression Analysis. Springer-Verlag, 1990.

[63] S.D. Silvey, Optimal Design: An Introduction to the Teory for Parameter Estimation.
Chapman and Hall, 1980.

[64] M.D. Ugarte y A.F. Militino. Estadı́stica Aplicada con S-Plus. Universidad Pública
de Navarra, 2001.

[65] H.D. Vinod and A. Ullah, Recent Advances in Regression Methods. Marcel Dekker,
1981.

241
[66] S. Weisber, Applied Linear Regression. Wiley, 2nd Edition, 1985.

[67] B.J. Winer, Statistical Principes in Experimental Design. McGraw-Hill, 1970.

[68] T.H. Wonnacott and R.J. Wonnacott, Regression: a second course in statistics. Wiley,
1981

242
Índice alfabético
ampliar un modelo método, 14
con una variable, 56 matriz
con varias variables, 60 de diseño, 24
de rango no máximo, 37
BLUE, 44 reducida, 35
breakdown bound, 131 de rango máximo, 48
coeficiente de determinación, 15, 94, 137 de regresión, 24
ajustado, 138 del modelo, 24
condiciones del modelo lineal, 15, 26 proyección, 46
modelo
Dfbetas, 173 centrado, 14
distancia de Cook, 173 lineal, 24
lineal normal, 26
ecuaciones normales, 27 multicolinealidad, 48
espacio
error, 45 nivel de un punto, 172
estimación, 45
estadı́stico punto de colapso, 131
F , 50 rango
t, 51 del diseño, 26
estimación máximo, 26
de la máxima verosimilitud, 34 recta resistente, 122
de varianza mı́nima, 34, 44 regresión
insesgada, 33 parabólica, 12
mı́nimo cuadrática, 27 simple, 14
ridge, 65 residuos
sesgada, 64 atı́picos, 168
función paramétrica, 42 estandarizados, 167
estimable, 42 studentizados, 167
intervalo de confianza, 51 studentizados externamente, 168
ridge regression, 65
Gauss-Markov
condiciones de, 15, 26 selección de variables, 156
teorema de, 44 stepwise, 157
gráfico de dispersión, 11 suma de cuadrados
forma canónica, 33
heterocedasticidad, 16 residual, 28
homocedasticidad, 16, 26
varianza del modelo, 16
leverage, 172 estimación, 32
intervalo de confianza, 51
mı́nimos cuadrados

243

También podría gustarte

Geopolitica Del Chuleo
Aún no hay calificaciones
Geopolitica Del Chuleo
4 páginas
Clase 4. Monte Carlo 3
100% (1)
Clase 4. Monte Carlo 3
57 páginas
Texto Series Temporales
100% (1)
Texto Series Temporales
306 páginas
Tema 1
Aún no hay calificaciones
Tema 1
111 páginas
Narrativas Educativas Red Pedagógica Ivasell Educación Física
Aún no hay calificaciones
Narrativas Educativas Red Pedagógica Ivasell Educación Física
17 páginas
Econometria Aplicada A La Macroeconomia
Aún no hay calificaciones
Econometria Aplicada A La Macroeconomia
175 páginas
ML (Pages 1 - 57)
Aún no hay calificaciones
ML (Pages 1 - 57)
57 páginas
Manual de Diseño de Experimentos
Aún no hay calificaciones
Manual de Diseño de Experimentos
378 páginas
La Mejor Guía para Trabajar Por Internet Sin Experiencia ??
Aún no hay calificaciones
La Mejor Guía para Trabajar Por Internet Sin Experiencia ??
5 páginas
04 Tecnicas de Muestreo y Tamanos de Muestra PDF
Aún no hay calificaciones
04 Tecnicas de Muestreo y Tamanos de Muestra PDF
49 páginas
Libro Optimizacion
100% (1)
Libro Optimizacion
85 páginas
Notas de Clase Series de Tiempo Con R
Aún no hay calificaciones
Notas de Clase Series de Tiempo Con R
176 páginas
Apuntes Econometria Av
Aún no hay calificaciones
Apuntes Econometria Av
63 páginas
GRAFCET Practica-4
Aún no hay calificaciones
GRAFCET Practica-4
4 páginas
Estadistica Empresarial 3
Aún no hay calificaciones
Estadistica Empresarial 3
16 páginas
Segunda Parte Est218
Aún no hay calificaciones
Segunda Parte Est218
17 páginas
Análisis Series Temporales-Rodríguez Morilla
Aún no hay calificaciones
Análisis Series Temporales-Rodríguez Morilla
21 páginas
Curso Estadistica Inferencial Udemy
100% (1)
Curso Estadistica Inferencial Udemy
311 páginas
Econometria Lindon
Aún no hay calificaciones
Econometria Lindon
463 páginas
Formulas de Regresion Lineal2019 - 0K
100% (2)
Formulas de Regresion Lineal2019 - 0K
16 páginas
INVESTIGACION OPERATIVA Problemas y Ejercicios Resueltos
Aún no hay calificaciones
INVESTIGACION OPERATIVA Problemas y Ejercicios Resueltos
212 páginas
Econometria I - Ventosa
0% (1)
Econometria I - Ventosa
524 páginas
S6 - U3 - p72-75 El Auge Del Cacao
Aún no hay calificaciones
S6 - U3 - p72-75 El Auge Del Cacao
16 páginas
Ensayo 3
Aún no hay calificaciones
Ensayo 3
9 páginas
2106 PDM OT Monjas
Aún no hay calificaciones
2106 PDM OT Monjas
60 páginas
Econometria Con Stata
Aún no hay calificaciones
Econometria Con Stata
16 páginas
Carrmona Modelos-Lineales UB-2011 PDF
Aún no hay calificaciones
Carrmona Modelos-Lineales UB-2011 PDF
132 páginas
Modelos Lineales F Carmona PDF
Aún no hay calificaciones
Modelos Lineales F Carmona PDF
262 páginas
LIBRO STATA 12 - Software Shop
Aún no hay calificaciones
LIBRO STATA 12 - Software Shop
237 páginas
Libro Econometría PDF
Aún no hay calificaciones
Libro Econometría PDF
118 páginas
BIOINDICADORES
100% (1)
BIOINDICADORES
10 páginas
Act - Exp - #2 - Factores Ambientales - Lab Ce - PL02 - Vesp
Aún no hay calificaciones
Act - Exp - #2 - Factores Ambientales - Lab Ce - PL02 - Vesp
4 páginas
La gestión política de la moneda y la edificación de la hacienda pública mexicana, 1825-1857
De Everand
La gestión política de la moneda y la edificación de la hacienda pública mexicana, 1825-1857
Omar Velasco Herrera
Aún no hay calificaciones
Libro Regresion
Aún no hay calificaciones
Libro Regresion
429 páginas
Analsis Estadistico de Series de Tiempo Economicas
Aún no hay calificaciones
Analsis Estadistico de Series de Tiempo Economicas
164 páginas
CARMONA
Aún no hay calificaciones
CARMONA
11 páginas
Notas de Clase Econometria II
0% (1)
Notas de Clase Econometria II
119 páginas
Enfoques Actuales de La Administración
100% (5)
Enfoques Actuales de La Administración
3 páginas
Econometría 2
Aún no hay calificaciones
Econometría 2
99 páginas
Econometria Parcial 1
Aún no hay calificaciones
Econometria Parcial 1
310 páginas
Modelos de Respuesta Discreta en R y Aplicación
Aún no hay calificaciones
Modelos de Respuesta Discreta en R y Aplicación
101 páginas
Teoria Econometrica I
Aún no hay calificaciones
Teoria Econometrica I
210 páginas
2023 - Técnicas de Simulación y Remuestreo
Aún no hay calificaciones
2023 - Técnicas de Simulación y Remuestreo
283 páginas
Proyecto Final
Aún no hay calificaciones
Proyecto Final
2 páginas
Formato General de Hojas de Trabajo
Aún no hay calificaciones
Formato General de Hojas de Trabajo
3 páginas
Matriz de Analisis Tema .XLSX - Hoja 1
Aún no hay calificaciones
Matriz de Analisis Tema .XLSX - Hoja 1
1 página
Metodos de Regresion PDF
100% (1)
Metodos de Regresion PDF
246 páginas
Investigación Correlacional
Aún no hay calificaciones
Investigación Correlacional
12 páginas
Prediccion de Series Econometricas Mediante Redes Neuronales
Aún no hay calificaciones
Prediccion de Series Econometricas Mediante Redes Neuronales
281 páginas
Simulación Estadística-Fernández Casal
Aún no hay calificaciones
Simulación Estadística-Fernández Casal
222 páginas
Microeconometria: Identificacion y Causalidad en Modelos Empiricos
Aún no hay calificaciones
Microeconometria: Identificacion y Causalidad en Modelos Empiricos
215 páginas
Semana 2 - 1er Grado PDF
Aún no hay calificaciones
Semana 2 - 1er Grado PDF
33 páginas
Econometria Ruelas
100% (2)
Econometria Ruelas
123 páginas
Libro de Modelos Lineales
Aún no hay calificaciones
Libro de Modelos Lineales
262 páginas
Macroeconometria PDF
Aún no hay calificaciones
Macroeconometria PDF
248 páginas
Historia Clinica Psicologica
Aún no hay calificaciones
Historia Clinica Psicologica
4 páginas
Monogafa Aviator Transparente AF (Antiempaño)
Aún no hay calificaciones
Monogafa Aviator Transparente AF (Antiempaño)
5 páginas
Modelos Panel Data PDF
100% (1)
Modelos Panel Data PDF
169 páginas
Mayorga 1
Aún no hay calificaciones
Mayorga 1
75 páginas
Guia Stata 11 PDF
Aún no hay calificaciones
Guia Stata 11 PDF
365 páginas
Monsalve & Harmath 2015
Aún no hay calificaciones
Monsalve & Harmath 2015
200 páginas
"Tarea Calificada N°1": Universidad Norbert Wiener
Aún no hay calificaciones
"Tarea Calificada N°1": Universidad Norbert Wiener
12 páginas
Series de Tiempo Paul Castillo
Aún no hay calificaciones
Series de Tiempo Paul Castillo
185 páginas
08 Tobit
Aún no hay calificaciones
08 Tobit
43 páginas
Multiv 1 ICEFeb 10
Aún no hay calificaciones
Multiv 1 ICEFeb 10
100 páginas
Arca Traduções de Louise Gluck
Aún no hay calificaciones
Arca Traduções de Louise Gluck
10 páginas
Diego Rolando Yumbato Lopez
Aún no hay calificaciones
Diego Rolando Yumbato Lopez
3 páginas
Manual de Uso Inverter Pro 21
Aún no hay calificaciones
Manual de Uso Inverter Pro 21
40 páginas
Eco Metrics R
Aún no hay calificaciones
Eco Metrics R
122 páginas
Notas Modelos Lineales
Aún no hay calificaciones
Notas Modelos Lineales
229 páginas
Solucion Del Examen de Series de Tiempo
Aún no hay calificaciones
Solucion Del Examen de Series de Tiempo
3 páginas
Catálagos Pampaco
Aún no hay calificaciones
Catálagos Pampaco
41 páginas
Información Cualitativa y Modelos No Lineales
Aún no hay calificaciones
Información Cualitativa y Modelos No Lineales
27 páginas
Series de Tiempo I
Aún no hay calificaciones
Series de Tiempo I
51 páginas
Cap1 Supervivencia PDF
Aún no hay calificaciones
Cap1 Supervivencia PDF
37 páginas
Presentacion Excel para Microeconomia1
Aún no hay calificaciones
Presentacion Excel para Microeconomia1
19 páginas
CAP2econometría-metodo Mco-Arlette
Aún no hay calificaciones
CAP2econometría-metodo Mco-Arlette
23 páginas
Manual Eviews Intermedio
Aún no hay calificaciones
Manual Eviews Intermedio
75 páginas
Modelos Multiecuacionales
Aún no hay calificaciones
Modelos Multiecuacionales
22 páginas
Supuesto Práctico Familias Resuelto
100% (1)
Supuesto Práctico Familias Resuelto
8 páginas
Guía - 3° Dpcyc
Aún no hay calificaciones
Guía - 3° Dpcyc
3 páginas
Pronosticos Stata
Aún no hay calificaciones
Pronosticos Stata
77 páginas
Reg Logistica Con R
Aún no hay calificaciones
Reg Logistica Con R
13 páginas
Cambio Climatico Scribd - Bendezu
Aún no hay calificaciones
Cambio Climatico Scribd - Bendezu
4 páginas
Bondad de Ajuste
Aún no hay calificaciones
Bondad de Ajuste
16 páginas
Comandos de Stata para Modelos de Regresion Lineal
Aún no hay calificaciones
Comandos de Stata para Modelos de Regresion Lineal
12 páginas
2° DPCC - Evaluacion Diagnostica Final 2024
100% (1)
2° DPCC - Evaluacion Diagnostica Final 2024
7 páginas
Criterios para La Selección de Modelos Estadísticos
Aún no hay calificaciones
Criterios para La Selección de Modelos Estadísticos
21 páginas
Guia-Stata7 - Datos de Panel PDF
Aún no hay calificaciones
Guia-Stata7 - Datos de Panel PDF
10 páginas
Examen Parcial - Econometria 2
Aún no hay calificaciones
Examen Parcial - Econometria 2
2 páginas

Modelos Lineales

Cargado por

Modelos Lineales

Cargado por

MODELOS LINEALES

Barcelona, 1 de octubre de 2003

3. Funciones paramétricas estimables 41

5. Contraste de hipótesis lineales 65

6. Regresión lineal simple 89

7. Una recta resistente 121

8. Regresión lineal múltiple 133

9. Diagnosis del modelo 163

10.Análisis de la Varianza 177

11.Análisis de Componentes de la Varianza 206

B. Proyecciones ortogonales 234

“observación” = “modelo” + “error aleatorio”

El experimentador puede, fijando las condiciones de su experimento, especificar la estruc-

Dato Densidad Velocidad Dato Densidad Velocidad

Tabla 1.1: Datos del problema de tráfico

Como la congestión afecta a la velocidad, estamos interesados en determinar el efecto

Figura 1.1: Nube de puntos del problema de tráfico

En este caso la recta de regresión es y = 8, 0898 − 0, 0566x.

Figura 1.2: Gráficos de los residuos del modelo recta de regresión.

Figura 1.3: Gráficos de los residuos del modelo parabólico.

Pero el ajuste no es perfecto y contiene errores. La ecuación que define el modelo es

que continúa siendo un modelo lineal.

yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + i i = 1, . . . , n

con k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regre-

1.4. El método de los mı́nimos cuadrados

En el caso de la regresión lineal simple

de modo que derivando e igualando a cero, se obtienen los estimadores MC (mı́nimo-

ŷi = βˆ0 + βˆ1 xi = ȳ + βˆ1 (xi − x̄)

Como consecuencia resulta que

lo que no ocurre en un modelo sin β0 .

i=1 (yi − ȳ)

Sabemos que 0 ≤ R2 ≤ 1 y cuando R2 ≈ 1 el ajuste es bueno.

1.5. Las condiciones de Gauss-Markov

Veamos con detalle estas condiciones:

Segunda condición var(i ) = E(2i ) = σ 2 constante i = 1, . . . , n

Otras situaciones extrañas, que también se pretende prevenir, son:

I El punto I del gráfico representa un punto influyente y

Tercera condición E(i j ) = 0 ∀i 6= j

Tales condiciones pueden expresarse en forma matricial como

1.6. Otros tipos de modelos lineales

yij = µ + αi + ij con ij ∼ N (0, σ 2 ) indep.,

se resuelve de forma similar al modelo de regresión.

1.7. Algunas preguntas

Si el modelo teórico no es lineal, se puede, en muchos casos, transformar en lineal.

Si no es una recta, se puede estudiar un modelo de regresión polinómico. ¿De

En el modelo múltiple intervienen varias variables “predictoras” ¿son todas necesa-

¿Qué ocurre si las variables predictoras son discretas?

¿Qué ocurre si la variable dependiente es discreta o una proporción?

¿Y si faltan algunos datos?

¿Qué hacemos con los puntos atı́picos y los puntos influyentes?

1.8. Ejemplos con S-PLUS

Las siguientes instrucciones generan el gráfico de puntos para estos datos.

El cálculo de la regresión simple se realiza con la función lsfit(x,y) que asignamos al

Aunque esta última instrucción no muestra ninguna información en pantalla, ahora ya

Los coeficientes de la recta son:

Estimate Std.Err t-value Pr(>|t|)

La estimación de la desviación estándar de los errores y otros elementos de diagnosis del

2.2. El modelo lineal

donde  es el error, de forma que η puede representar el valor verdadero e Y el valor

Estas observaciones de Y se pueden considerar variables aleatorias independientes y dis-

1. El vector de observaciones Y = (y1 , y2 , . . . , yn )0 .

2. El vector de parámetros β = (β1 , β2 , · · · , βm )0 .

3. La matriz del modelo  

4. El vector de errores o desviaciones aleatorias  = (1 , 2 , . . . , n )0 , donde i es la

Se dice que Y es la variable de predicción o dependiente y x es la variable predictora,

Observemos que es lineal en los parámetros βi . La matriz de diseño es

b) yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + β4 x2i1 + β5 x2i2 + i

c) yi = β0 + β1 xi1 + β2 cos(xi2 ) + β3 sen(xi2 ) + i

Sin embargo, no es modelo lineal

yi = β0 + β1 log(β2 xi1 ) + β3 xβi24 + i

µ es una constante (media general)

Si tenemos 2 fertilizantes y 3 bloques, tendremos en total k = 2 × 3 = 6 situaciones

La utilización del fertilizante 1 en el bloque 3 queda descrita a través de la fila 5 de X.

2.3. Suposiciones básicas del modelo lineal

0  = (Y − Xβ)0 (Y − Xβ) (2.2)

La estimación βb de β la llamaremos estimación MC, abreviación de mı́nimo-cuadrática,

yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + i i = 1, . . . , n

Segunda condición var(i ) = E(2i ) = σ 2 constante i = 1, . . . , n

Tercera condición E(i j ) = 0 ∀i 6= j

yij = µ + αi + ij con ij ∼ N (0, σ 2 ) indep.,

donde es el error, de forma que η puede representar el valor verdadero e Y el valor

4. El vector de errores o desviaciones aleatorias = (1 , 2 , . . . , n )0 , donde i es la

b) yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + β4 x2i1 + β5 x2i2 + i

c) yi = β0 + β1 xi1 + β2 cos(xi2 ) + β3 sen(xi2 ) + i

yi = β0 + β1 log(β2 xi1 ) + β3 xβi24 + i

0 = (Y − Xβ)0 (Y − Xβ) (2.2)

0 = kY − θk2 con θ ∈ Ω = hXi

var(Y) = var(Y − Xβ) = var() = σ 2 I

donde αb = (X01 X1 )−1 X01 Y es la solución del modelo Y = X1 α + de rango máximo.