Modelos Lineales
Modelos Lineales
Francesc Carmona
Departament d’Estadı́stica
Las páginas que siguen constituyen una parte de las exposiciones teóricas y prácticas de
asignaturas que se han impartido a lo largo de algunos años en varias licenciaturas y
cursos de doctorado. En particular en la licenciatura de Matemáticas, la licenciatura de
Biologı́a y la diplomatura de Estadı́stica de la Universidad de Barcelona. Se ha inten-
tado un cierto equilibrio entre las explicaciones teóricas y los problemas prácticos. Sin
embargo, nuestra intención siempre ha sido fundamentar sólidamente la utilización de los
modelos lineales como base de las aplicaciones de la regresión, el análisis de la varianza y
el diseño de experimentos. Por ello, en este libro la base matemática y estadı́stica es con-
siderable y creemos importante la correcta definición de los conceptos y la rigurosidad de
las demostraciones. Una sólida base impedirá cometer ciertos errores, habituales cuando
se aplican los procedimientos ciegamente.
Por otra parte, la aplicación práctica de los métodos de regresión y análisis de la varianza
requiere la manipulación de muchos datos, a veces en gran cantidad, y el cálculo de algunas
fórmulas matriciales o simples. Para ello es absolutamente imprescindible la utilización
de algún programa de ordenador que nos facilite el trabajo. En una primera instancia es
posible utilizar cualquier programa de hojas de cálculo que resulta sumamente didáctico.
También se puede utilizar un paquete estadı́stico que seguramente estará preparado para
ofrecer los resultados de cualquier modelo lineal estándar como ocurre con el paquete
SPSS. En cambio, en este libro se ha optado por incluir algunos ejemplos con el paquete
S-PLUS. Las razones son varias. En primer lugar, se trata de un programa que utiliza el
lenguaje S, está orientado a objetos, tiene algunos módulos especı́ficos para los modelos
lineales y es programable. El S-PLUS utiliza un lenguaje de instrucciones y al principio
puede resultar un poco duro en su aprendizaje, sin embargo superada la primera etapa de
adaptación, su utilización abre todo un mundo de posibilidades, no sólo en los modelos
lineales, sino en todo cálculo estadı́stico. Además, la razón más poderosa es que existe una
alternativa a S-PLUS que es el proyecto R, completamente gratuito y con la misma base
de instrucciones. De modo que los estudiantes pueden instalar en su casa el programa R
y practicar cuanto quieran sin coste económico alguno. Manuales para aprender S-PLUS
o R:
El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro
Sánchez Algarra (1996) que amablemente han cedido para su actualización en este libro
y a los que agradezco profundamente su colaboración. También es evidente que algunas
demostraciones tienen su origen en el clásico libro de Seber.
Por último, este libro ha sido escrito mediante el procesador de textos cientı́fico LATEX y
presentado en formato electrónico. Gracias a ello este libro puede actualizarse con relativa
facilidad. Se agradecerá cualquier la comunicación de cualquier errata, error o sugerencia.
Barcelona, 1 de octubre de 2003.
Dr. Francesc Carmona
Índice general
1. Las condiciones 9
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. El método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . 13
1.5. Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . 14
1.6. Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . 16
1.7. Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Estimación 22
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Suposiciones básicas del modelo lineal . . . . . . . . . . . . . . . . . . . . 25
2.4. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6. Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . . 32
2.7. Matriz de diseño reducida . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8. Matrices de diseño de rango no máximo . . . . . . . . . . . . . . . . . . . 36
2.8.1. Reducción a un modelo de rango máximo . . . . . . . . . . . . . . 37
2.8.2. Imposición de restricciones . . . . . . . . . . . . . . . . . . . . . . 37
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4
4. Complementos de estimación 55
4.1. Ampliar un modelo con más variables regresoras . . . . . . . . . . . . . . 55
4.1.1. Una variable extra . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.2. Una interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.3. Más variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Mı́nimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . 60
4.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.1. Estimación sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.2. Estimación robusta . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.3. Más posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5
6.8. Un ejemplo para la reflexión . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.9. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6
9.4. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
9.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
A. Matrices 231
A.1. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
A.2. Derivación matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
A.3. Matrices idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
A.4. Matrices mal condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 233
7
C. Estadı́stica multivariante 237
C.1. Esperanza, varianza y covarianza . . . . . . . . . . . . . . . . . . . . . . 237
C.2. Normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
8
Capı́tulo 1
Las condiciones
1.1. Introducción
Los métodos de la Matemática que estudian los fenómenos deterministas relacionan, por
lo general, una variable dependiente con diversas variables independientes. El problema se
reduce entonces a resolver un sistema lineal, una ecuación diferencial, un sistema no lineal,
etc.. Sin embargo, la aplicación de los métodos cuantitativos a las Ciencias Experimentales
ha revelado la poca fiabilidad de las relaciones deterministas. En tales Ciencias, el azar,
la aleatoriedad, la variabilidad individual, las variables no controladas, etc. justifican el
planteo, en términos muy generales, de la ecuación fundamental
9
1.2. Un ejemplo
En el libro de Sen and Srivastava en [62, pág. 2] se explica este ejemplo que nosotros
hemos adaptado a las medidas europeas.
Sabemos que cuantos más coches circulan por una carretera, menor es la velocidad del
tráfico. El estudio de este problema tiene como objetivo la mejora del transporte y la
reducción del tiempo de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehı́culos por km) y su corres-
pondiente velocidad (en km por hora).
Gráfico de dispersión
10
8
RAIZ(vel)
0
0 20 40 60 80 100
densidad
10
Como primera aproximación podrı́amos tomar, como modelo √ de ajuste, la√ recta que une
dos puntos representativos, por ejemplo, los puntos (12, 7, 62, 4) y (87, 8, 12, 4). Dicha
recta es y = 8, 6397 − 0, 0583x.
Inmediatamente nos proponemos hallar la mejor de las rectas, según algún criterio. Como
veremos, el método de los mı́nimos cuadrados proporciona una recta, llamada recta de
regresión, que goza de muy buenas propiedades. Este método consiste en hallar a y b tales
que se minimice la suma de los errores al cuadrado.
n
X
(yi − (a + bxi ))2
i=1
ei = yi − ŷi
donde ŷi = 8, 0898 − 0, 0566xi . Los gráficos de la figura 1.2 nos muestran estos residuos.
Para mejorar el modelo podemos añadir el término cuadrático y considerar el modelo
parabólico
yi = a + bxi + cx2i
También aquı́, el método de los mı́nimos cuadrados proporciona un ajuste que es óptimo
en varios aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de los
errores al cuadrado n
X
(yi − (a + bxi + cx2i ))2
i=1
El cálculo de estos valores con los datos del tráfico se deja como ejercicio (ver ejercicio
1.3).
La figura 1.3 muestra los gráficos de los residuos para el modelo parabólico.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la
velocidad en la ecuación
flujo = velocidad × densidad
de modo que el flujo queda en función de la densidad. Por último, el máximo valor de
esta función es la capacidad de la carretera.
0,6 0,6
0,4 0,4
0,2 0,2
residuo
residuo
0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2
-0,4 -0,4
-0,6 -0,6
densidad predicción
11
0,6 0,6
0,4 0,4
0,2 0,2
residuo
residuo
0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2
-0,4 -0,4
-0,6 -0,6
densidad predicción
1.3. El modelo
Cuando en el ejemplo anterior ajustamos los datos a una recta, implı́citamente estamos
asumiendo la hipótesis de que los datos siguen un patrón lineal subyacente del tipo
y = β0 + β1 x
yi = β 0 + β 1 xi + i i = 1, . . . , n
donde i son los errores aleatorios. Éste es el modelo de regresión simple o con una sola
variable independiente.
En el mismo ejemplo anterior, ajustamos mejor con el modelo
yi = β0 + β1 xi + β2 x2i + i i = 1, . . . , n
12
Los parámetros βj son desconocidos y nuestro objetivo principal es su estimación. En
cuanto a los errores i , su cálculo explı́cito nos permitirá, como veremos extensamente, la
evaluación del modelo.
Observación:
En el modelo de regresión simple puede suceder que los datos xi i = 1, . . . , n correspondan
a los valores observados de una v.a. X o de una variable controlada no aleatoria. En
cualquier caso, vamos a considerar los valores xi como constantes y no como observaciones
de una variable aleatoria.
En la regresión simple
Y = φ(x) +
donde Y es aleatoria y es aleatoria con E() = 0. De manera que, para cada valor
X = x, Y es una v.a. con esperanza φ(x). Si asumimos
φ(x) = E[Y |X = x] = β0 + β1 x
podemos proceder considerando las inferencias como condicionadas a los valores observa-
dos de X.
En cualquier caso, también en regresión múltiple, vamos a considerar los valores de las
variables regresoras X1 , . . . , Xk como simplemente números.
βˆ0 = ȳ − βˆ1 x̄
Pn
s (y − ȳ)(xi − x̄)
βˆ1 =
xy
2
= i=1 Pn i 2
sx i=1 (xi − x̄)
También se puede considerar el modelo centrado, que consiste en centrar los datos de la
variable regresora
yi = γ0 + β1 (xi − x̄) + i i = 1, . . . , n
La estimación MC de γ0 , β1 es equivalente a la estimación de β0 , β1 , ya que γ0 = β0 + β1 x̄.
De modo que γˆ0 = ȳ y la estimación de β1 es la misma que en el modelo anterior.
13
Con las estimaciones de los parámetros, podemos proceder al cálculo de predicciones ŷi
y residuos ei
i=1 yi
de modo que los modelos que carecen de término independiente no se pueden comparar
con los que sı́ lo tienen.
1. E(i ) = 0 i = 1, . . . , n
2. var(i ) = σ 2 i = 1, . . . , n
3. E(i · j ) = 0 ∀i 6= j
14
Se trata de una condición natural sobre un error.
De este modo nos aseguramos que E(yi ) = β0 +β1 xi , el
modelo lineal es correcto y la situación que representa
el gráfico no se puede dar.
Es la propiedad de homocedasticidad.
En el gráfico se representa una situación anómala lla-
mada de heterocedasticidad, en la que la var(i ) crece
con xi .
El parámetro desconocido σ 2 es la llamada varianza
del modelo.
I
El punto I del gráfico es claramente influyente, aunque
no es atı́pico (outlier), ya que proporciona un residuo
pequeño.
E() = 0 var() = σ 2 In
15
donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas
de = (1 , . . . , n )0 .
Como demostraremos en los siguientes capı́tulos, la adopción de estas condiciones evi-
tará teóricamente las situaciones anómalas que aquı́ hemos esquematizado.
Si existe un modelo fı́sico teórico y lineal, podemos utilizar la regresión para estimar
los parámetros.
16
¿Se verifican realmente las condiciones de Gauss-Markov?
Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes capı́tulos,
otras pueden quedar para una posterior profundización.
> dens<-c(12.7,17.0,66.0,50.0,87.8,81.4,75.6,66.2,81.1,62.8,77.0,89.6,
+ 18.3,19.1,16.5,22.2,18.6,66.0,60.3,56.0,66.3,61.7,66.6,67.8)
> vel<-c(62.4,50.7,17.1,25.9,12.4,13.4,13.7,17.9,13.8,17.9,15.8,12.6,
+ 51.2,50.8,54.7,46.5,46.3,16.9,19.8,21.2,18.3,18.0,16.6,18.3)
> rvel<-sqrt(vel)
> par(pty="m")
> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")
> recta.ls<-lsfit(dens,rvel)
> abline(recta.ls)
> recta.ls$coef
Intercept X
8.08981299 -0.05662558
También se puede obtener una información más completa con la instrucción ls.print,
aunque su resultado no se explicará hasta el capı́tulo correspondiente.
17
> ls.print(recta.ls, digits=4, print.it=T)
Residual Standard Error=0.2689
R-Square=0.9685
F-statistic (df=1, 22)=676.3944
p-value=0
> ls.diag(recta.ls)$std.dev
[1] 0.2689388
Con el vector de residuos y las predicciones se pueden dibujar unos gráficos similares a
los de la figura 1.2. La instrucción par(mfrow=c(1,2)) permite dos gráficos en la misma
figura.
> e<-recta.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
Finalmente, podemos repetir los cálculos para el modelo parabólico. Simplemente debe-
mos introducir los valores de la variable densidad y sus cuadrados en una matriz de datos.
El resto es idéntico al modelo de regresión simple.
> matriz.frame<-data.frame(dens,dens^2)
> parabola.ls<-lsfit(matriz.frame,rvel)
> parabola.ls$coef
Intercept dens dens.2
8.8814208199 -0.1035152795 0.0004892585
> round(parabola.ls$coef,5)
Intercept dens dens.2
8.88142 -0.10352 0.00049
> e<-parabola.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
18
Los gráficos serán muy similares a los de la figura 1.3.
En los siguientes capı́tulos veremos otras instrucciones de S-PLUS, en especial la función
lm, que permiten ajustar un modelo de regresión a unos datos.
19
1.9. Ejercicios
Ejercicio 1.1
Hallar las estimaciones de los parámetros en un modelo de regresión lineal simple, mini-
mizando la suma de los cuadrados de los errores:
Xn
S= (yi − β0 − β1 xi )2
i=1
Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.2
Hallar las estimaciones de los parámetros en un modelo de regresión parabólico, minimi-
zando la suma de los cuadrados de los errores:
X n
S= (yi − β0 − β1 xi − β2 x2i )2
i=1
Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.3
Consideremos el problema de tráfico planteado en el apartado 1.2 de este capı́tulo, con la
variable independiente densidad y la variable dependiente raı́z cuadrada de la velocidad.
Con los datos proporcionados en la tabla 1.1 realizar el siguiente proceso:
√
(a) Dibujar
√ la nube de puntos y la recta que pasa por los puntos (12,7, 62,4) y
(87,8, 12,4). Dibujar el gráfico de los residuos con la densidad y el gráfico con
las predicciones. Calcular la suma de cuadrados de los residuos.
(b) Hallar la recta de regresión simple. Dibujar el gráfico de los residuos con la densidad
y el gráfico con las predicciones. Calcular la suma de cuadrados de los residuos.
(c) Mejorar el modelo anterior considerando una regresión parabólica. Dibujar el gráfico
de los residuos con la densidad y el gráfico con las predicciones. Calcular la suma
de cuadrados de los residuos.
(d) Calcular la capacidad de la carretera o punto de máximo flujo. Recordar que flujo =
vel × densidad.
Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velo-
cidad en atletismo en los Juegos Olı́mpicos de Atlanta:
hombres mujeres
distancia tiempo
100 9,84 10,94
200 19,32 22,12
400 43,19 48,25
800 102,58 117,73
1500 215,78 240,83
5000 787,96 899,88
10000 1627,34 1861,63
42192 7956,00 8765,00
20
Si tomamos como variable regresora o independiente la distancia (metros) y como variable
respuesta o dependiente el tiempo (segundos):
(a) Calcular la recta de regresión simple con los datos de los hombres y dibujarla.
Dibujar el gráfico de los residuos con la distancia y el gráfico con las predicciones.
Calcular la suma de cuadrados de los residuos y el R2 .
(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo y
distancia.
(c) Repetir los dos apartados anteriores utilizando los datos de las mujeres.
21
Capı́tulo 2
Estimación
2.1. Introducción
En primer lugar concretaremos la definición general de un modelo lineal y hallaremos la
estimación por mı́nimos cuadrados de los parámetros del modelo.
Veremos que la estimación será única si la matriz de diseño es de rango máximo. En
caso contrario, resulta importante definir el concepto de función paramétrica estimable
y probar, para estas funciones, la unicidad del estimador mı́nimo-cuadrático, como estu-
diaremos en el siguiente capı́tulo.
Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teorema
de Gauss-Markov que demuestra que los estimadores mı́nimo-cuadráticos son los mejores,
en el sentido de que son insesgados y de mı́nima varianza.
Además, con la introducción de la hipótesis de normalidad de los errores, podremos
estudiar las distribuciones de los estimadores y de otros estadı́sticos, ası́ como la relación
con los estimadores de máxima verosimilitud.
Más adelante, trabajaremos la generalización del método de los mı́nimos cuadrados cuan-
do la matriz de varianzas-covarianzas de los errores no es σ 2 I. Por otra parte, también
profundizaremos el caso de matrices de diseño de rango no máximo.
Y =η+
η = β 1 x1 + · · · + β m xm
donde βi son parámetros desconocidos y xi son valores conocidos, cada uno de los cuales
ilustra situaciones experimentales diferentes.
22
En general se tienen n observaciones de la variable Y . Diremos que y1 , y2 , . . . , yn obser-
vaciones independientes de Y siguen un modelo lineal si
yi = xi1 β1 + · · · + xim βm + i i = 1, . . . , n
o en forma resumida
Y = Xβ + (2.1)
Los elementos que constituyen el modelo lineal son:
Ejemplo 2.2.1
El modelo lineal más simple consiste en relacionar una variable aleatoria Y con una
variable controlable x (no aleatoria), de modo que las observaciones de Y verifiquen
yi = β 0 + β 1 xi + i i = 1, . . . , n
Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relación sea po-
linómica.
23
Consideremos el modelo
yi = β0 + β1 xi + β2 x2i + · · · + βp xpi + i = 1, . . . , n
Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o más variables control. Ası́,
son modelos lineales:
a) yi = β0 + β1 xi1 + β2 xi2 + i
Ejemplo 2.2.4
Supongamos que la producción Y de una planta depende de un factor F (fertilizante) y
un factor B (bloque o conjunto de parcelas homogéneas). El llamado modelo del diseño
del factor en bloques aleatorizados es
yij = µ + αi + βj + ij
donde
µ α 1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
24
Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologı́a se utiliza la fórmula
C = αLβ1 Aβ2 H β3
donde L = longitud del cráneo, A = anchura parietal máxima y H = altura basio bregma.
La fórmula anterior se convierte en un modelo lineal tomando logaritmos
log C = log α + β1 log L + β2 log A + β3 log H
El parámetro α expresa el tamaño, mientras que los parámetros β expresan la forma del
cráneo.
25
2.4. Estimación de los parámetros
La estimación de los parámetros β = (β1 , . . . , βm )0 se hace con el criterio de los mı́nimos
cuadrados. Se trata de hallar el conjunto de valores de los parámetros β b = (βb1 , . . . , βbm )0
que minimicen la siguiente suma de cuadrados
Teorema 2.4.1
Toda estimación MC de β es solución de la ecuación
X0 Xβ = X0 Y (2.3)
Demostración:
Si desarrollamos la suma de cuadrados 0 tenemos
0 = (Y − Xβ)0 (Y − Xβ)
= Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ
∂0
= −2X0 Y + 2X0 Xβ
∂β
De modo que, si igualamos a cero, obtenemos la ecuación enunciada en el teorema.
Las ecuaciones 2.3 reciben el nombre de ecuaciones normales.
Si el rango es máximo y r = m, entonces X0 X tiene inversa y la única solución de las
ecuaciones normales es
b = (X0 X)−1 X0 Y
β
Si r < m el sistema de ecuaciones 2.3 es indeterminado y su solución no es única. En
estos casos, una posibilidad (ver Apéndice A) es considerar
b = (X0 X)− X0 Y
β
AA− A = A
26
Ahora podemos definir la suma de cuadrados residual como
b 0 (Y − Xβ)
SCR = e0 e = (Y − Xβ) b
Demostración:
En efecto,
i) Si x(1) , . . . , x(m) son las columnas de X, entonces
E(Y) = x(1) β1 + · · · + x(m) βm ∈ hXi
b = X 0 Y − X 0 Xβ
ii) X0 e = X0 (Y − Xβ) b=0
Teorema 2.4.3
b solución MC de 2.3 se verifica que
Para cualquier β
Y b
b = Xβ b
e=Y−Y b 0 (Y − Xβ)
SCR = (Y − Xβ) b
son únicos.
Además
b 0 X0 Y
SCR = Y 0 Y − β (2.4)
Demostración:
Si desarrollamos la suma de cuadrados residual SCR resulta
b 0 X0 Y − Y 0 Xβ
SCR = Y 0 Y − β b +β
b 0 X0 Xβ
b
b = X0 Y, obtenemos
y como X0 Xβ
b 0 X0 Y + β
SCR = Y 0 Y − 2β b 0 X0 Y = Y 0 Y − β
b 0 X0 Y
de modo que Y b 1 −Y
b 2 pertenece al ortogonal de hXi. Ası́ pues, necesariamente Y
b 1 −Y
b2 = 0
y el vector de errores e = Y − Y b1 = Y − Y b 2 es único.
En consecuencia, la suma de cuadrados de los errores SCR también es única.
27
Interpretación geométrica
El modelo teórico es
Y = Xβ + = θ + si θ = Xβ
Entonces E(Y) = Xβ = θ significa que el valor esperado de Y pertenece al subespacio
Ω = hXi y para estimar los parámetros β debemos minimizar
donde Yb está determinada por ser la única proyección ortogonal de Y en Ω. Cuando las
columnas de X son linealmente independientes, forman una base y existe un único vector
b tal que Y
β b = Xβ b de manera que
b = X0 Y
X0 Y ⇒ b = X0 Y
X 0 Xβ
son las ecuaciones normales. En caso contrario, es decir, cuando las columnas de X son de-
pendientes no podemos concretar una solución única para los parámetros β. Sin embargo
todas las soluciones deben verificar la siguiente propiedad.
Teorema 2.4.4
b es una estimación MC de β si y sólo si Xβ
β b = PY, donde P es la proyección ortogonal
en Ω = hXi
28
Demostración:
b de β es MC si y sólo si
Una estimación β
b 0 (Y − Xβ)
(Y − Xβ) b = mı́n (Y − Xβ)0 (Y − Xβ)
β
Sin embargo
e = Y 0 (I − P)PY − Y 0 (I − P)Xβ
(Y − PY)0 (PY − Xβ) e=0
e y el segundo se minimiza
donde ambos términos son positivos, el primero no depende de β
b
si es cero, luego PY = Xβ.
En resumen y como ya hemos visto, la solución del problema se basa en la proyección
ortogonal sobre el subespacio Ω que garantiza la unicidad del vector de predicciones
b = PY y por ende del vector de residuos e = Y − Y
Y b y de la suma de cuadrados de los
residuos
SCR = e0 e = (Y − PY)0 (Y − PY) = Y 0 (I − P)Y
ya que I − P es idempotente (ver Apéndice B).
La solución para los parámetros β debe salir de las ecuaciones normales o de la ecuación
Xβ = PY y sólo es única cuando el rango de la matriz X es máximo.
Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1
y1 = θ + 1
y2 = 2θ + 2
y3 = −θ + 3
29
es decir
6θ = y1 + 2y2 − y3
y la estimación MC de θ es θb = (y1 + 2y2 − y3 )/6.
La suma de cuadrados residual es
Ejemplo 2.4.2
Supongamos que se desea pesar tres objetos cuyos pesos exactos son β 1 , β2 y β3 . Se
dispone de una balanza de platillos con un error de pesada que podemos considerar con
distribución N (0, σ). Un artificio para mejorar la precisión y ahorrar pesadas consiste en
repartir los objetos en uno o en los dos platillos y anotar las sumas o diferencias de pesos:
x1 β 1 + x 2 β 2 + x 3 β 3 = y
β1 + β 2 + β 3 = 5,53
β1 − β 2 + β 3 = 1,72
β1 + β 2 − β 3 = 0,64
β1 + β 2 + β 3 = 5,48
β1 − β 2 + β 3 = 1,70
σ 2 = var(i ) = var(yi ) i = 1, . . . , n
30
Teorema 2.5.1
Sea Y = Xβ + el modelo lineal con las hipótesis impuestas en la sección 2.3. Entonces
el estadı́stico1
b2 = ECM = SCR/(n − r)
σ
es un estimador insesgado de la varianza σ 2 . En este estadı́stico SCR es la suma de
cuadrados residual, n el número total de observaciones y r el rango del diseño.
Demostración 1:
Las columnas x(1) , . . . , x(m) de la matriz de diseño X generan el subespacio de dimensión
r que escribimos
hXi = hx(1) , . . . , x(m) i
Sea ahora V una matriz ortogonal, es decir, tal que VV 0 = V0 V = In , cuyas columnas
v(1) , . . . , v(r) , v(r+1) , . . . , v(n) forman una base ortogonal de Rn . Es posible construir V de
modo que las r primeras columnas generen el subespacio hXi
zi = v1i y1 + · · · + vni yn i = 1, . . . , n
V0 e = (0, . . . , 0, zr+1 , . . . , zn )0
Además, por ser una transformación ortogonal, las variables z1 , . . . , zn siguen siendo in-
correlacionadas y de varianza σ 2 . Ası́ pues
31
y por lo tanto
n
X
E(SCR) = E(zi2 ) = (n − r)σ 2
i=r+1
La expresión
2
SCR = zr+1 + · · · + zn2 (2.5)
se llama forma canónica de la suma de cuadrados residual del modelo lineal bajo las
hipótesis de Gauss-Markov.
Demostración 2:
Se puede hacer una demostración mucho más directa a partir de la propiedad 2 explicada
en el Apéndice C1 de Estadı́stica Multivariante:
Para un vector aleatorio Y con esperanza E(Y) = µ y matriz de varianzas y covarianzas
var(Y) = V, se tiene que
Si asumimos además que los errores i son incorrelacionados y con la misma varianza, es
decir var() = σ 2 I, resulta que
32
Teorema 2.6.1
Sea Y ∼ N (Xβ, σ 2 In ) con rango X = m. Entonces se verifican las siguientes propiedades:
i) La estimación MC de β coincide con la estimación de la máxima verosimilitud.
Además es insesgada y de mı́nima varianza.
b ∼ N (β, σ 2 (X0 X)−1 )
ii) β
b − β)0 X0 X(β
iii) (β b − β)/σ 2 ∼ χ2
m
b es independiente de SCR
iv) β
v) SCR/σ 2 ∼ χ2n−m
Demostración:
i) La función de verosimilitud es
√
2 −n 1 0
L(Y; β, σ ) = ( 2πσ 2 ) exp − 2 (Y − Xβ) (Y − Xβ)
2σ
de modo que el mı́nimo de (Y − Xβ)0 (Y − Xβ) es el máximo de L.
Ya hemos visto que β b es insesgado y además, cada βbi es un estimador lineal de va-
rianza mı́nima de βi , ya que es centrado y de máxima verosimilitud, luego suficiente.
Se llegará a la misma conclusión como consecuencia del Teorema 3.2.1.
Por otra parte, si sustituimos β por β b en la función de verosimilitud y derivamos
2
respecto a σ resulta que el el estimador de máxima verosimilitud de la varianza es
2
bM
σ V = SCR/n
ii) Como β b = [(X0 X)−1 X0 ]Y, βb es combinación lineal de una normal y, por tanto,
tiene distribución normal multivariante con matriz de varianzas-covarianzas
(X0 X)−1 σ 2
b i Y − Xβ
iv) Si calculamos la matriz de covarianzas entre β b tenemos
b Y − Xβ)
cov(β, b = cov((X0 X)−1 X0 Y, (I − P)Y)
= (X0 X)−1 X0 var(Y)(I − P)0
= σ 2 (X0 X)−1 X0 (I − P) = 0
33
v) Aplicando la ecuación 2.5
Ejemplo 2.6.1
√
La distribución de θb del ejemplo 2.4.1 es N (θ, σ/ 6)
b 2 + (y2 − 2θ)
SCR = (y1 − θ) b 2 + (y3 + θ)
b2
Ejemplo 2.6.2
La estimación de la varianza del error σ 2 en el ejemplo 2.4.2 es
Observemos que el número de pesadas necesarias para obtener la misma precisión serı́a
mayor si pesáramos cada objeto individualmente.
Definición 2.7.1
Dado el modelo lineal Y = Xβ +, llamaremos matriz de diseño reducida X R a la matriz
k × m obtenida tomando las k filas distintas de la matriz de diseño original X. Diremos
entonces que k es el número de condiciones experimentales.
n = n1 + n2 + · · · + n k
34
Además de la matriz reducida XR , utilizaremos también la matriz diagonal
D = diag(n1 , n2 , . . . , nk )
y el vector de medias
Ȳ = (ȳ1 , ȳ2 , . . . , ȳk )0
donde cada y i es la media de las réplicas bajo la condición experimental i.
En una experiencia bajo la cual todas las observaciones han sido tomadas en condiciones
experimentales distintas (caso de una sola observación por casilla), entonces
XR = X Ȳ = Y D=I ni = 1
Como veremos más adelante (ver sección 10.6), la utilización de XR , D e Ȳ nos permi-
tirá abordar diseños no balanceados y el caso de observaciones faltantes.
Teorema 2.7.1
La solución de las ecuaciones normales y la suma de cuadrados residual en términos de
la matriz de diseño reducida XR , de D e Ȳ es
Demostración:
Sea M una matriz n × k de forma que cada columna i es
(0, . . . , 0, 1, . . . , 1, 0, . . . , 0)0
| {z } | {z } | {z }
n0 ni n00
Se verifica
Ejemplo 2.7.1
Con los datos del ejemplo 2.4.2
1 1 1 5,53
1 −1 1 1,72
X= 1 1 −1 Y= 0,64
1 1 1 5,48
1 −1 1 1,70
35
Agrupando las filas 1, 4 y 2, 5 obtenemos
1 1 1 2 0 0
XR = 1 −1 1 D= 0 2 0
1 1 −1 0 0 1
donde n1 = n2 = 2, n3 = 1, k = 3.
(5,53 + 5,48)/2 5,505
Ȳ = (1,72 + 1,70)/2 = 1,710
0,64 0,640
La matriz M es
1 0 0
1 0 0
M=
0 1 0
0 1 0
0 0 1
Ejemplo 2.7.2
Consideremos el modelo
yij = µ + αi + βj + ij
correspondiente al diseño de dos factores sin interacción.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los
números de réplicas son
36
2.8.1. Reducción a un modelo de rango máximo
Sea X1 la matriz n×r con las r = rg X columnas linealmente independientes de la matriz
de diseño X, entonces P = X1 (X01 X1 )−1 X01 de forma que
b 0 X01 Y
SCR = Y 0 (I − P)Y = Y 0 Y − α
X = KL
Xβ = KLβ = Kα
y estimar α.
G0 Gβ = X0 Y
b = (G0 G)−1 X0 Y. Se puede ver, a partir de θ
cuya solución es β b = Xβ b = PY, que
P = X(G0 G)−1 X0 ya que P es única.
La demostración de todos los detalles aquı́ expuestos puede verse en Seber [61, pág. 74].
Es interesante comprobar que, si Hβ = 0, entonces
b = (G0 G)−1 X0 Xβ
E(β)
= (G0 G)−1 (X0 X + H0 H)β = β
37
Ejemplo 2.8.1
Consideremos el modelo correspondiente al diseño de un factor con, por ejemplo, 3 niveles
yij = µ + αi + ij i = 1, 2, 3 j = 1, . . . , ni
38
2.9. Ejercicios
Ejercicio 2.1
Una variable Y toma los valores y1 , y2 y y3 en función de otra variable X con los valores
x1 , x2 y x3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en su
caso, la matriz de diseño para x1 = 1, x2 = 2 y x3 = 3.
a) yi = β0 + β1 xi + β2 (x2i − 1) + i
b) yi = β0 + β1 xi + β2 exi + i
c) yi = β1 xi (β2 tang(xi )) + i
Ejercicio 2.2
Dado el modelo lineal
y1 2 1
= θ+
y2 1 2
hallar la estimación MC de θ y la suma de cuadrados residual.
Ejercicio 2.3
b es una estimación MC, probar que
Si β
b 0 (Y − Xβ)
(Y − Xβ)0 (Y − Xβ) = (Y − Xβ) b + (β
b − β)0 X0 X(β
b − β)
Ejercicio 2.4
Cuatro objetos cuyos pesos exactos son β1 , β2 , β3 y β4 han sido pesados en una balanza
de platillos de acuerdo con el siguiente esquema:
β1 β2 β3 β4 peso
1 1 1 1 9,2
1 −1 1 1 8,3
1 0 0 1 5,4
1 0 0 −1 −1,6
1 0 1 1 8,7
1 1 −1 1 3,5
Ejercicio 2.5
b la estimación MC de β. Si Y
Sea β b = PY, probar que la matriz P verifica
b = Xβ
P2 = P (I − P)2 = I − P
Ejercicio 2.6
La matriz de diseño reducida de un modelo lineal normal es
1 1 1
X= 1 0 1
0 1 0
39
Se sabe además que
y 1 = 10 y 2 = 12 y 3 = 17 n1 = n2 = n3 = 10
1 X
s21 = (yi1 − y 1 )2 = 2,8 s22 = 4,2 s23 = 4,0
n1
Se pide:
Ejercicio 2.7
Consideremos el modelo lineal
yi = β0 + β1 xi1 + · · · + βm xim + i i = 1, . . . , n
Probar que
n
X n
X
(yi − ybi ) = ei = 0
i=1 i=1
40
Capı́tulo 3
3.1. Introducción
En los modelos lineales, además de la estimación de los parámetros βi y de σ 2 , interesa
también la estimación de ciertas funciones lineales de los parámetros. Como vamos a ver,
esto es especialmente necesario cuando los parámetros carecen de una estimación única.
Definición 3.1.1
Llamaremos función paramétrica a toda función lineal ψ de los parámetros
ψ = a 1 β1 + · · · + a m βm = a 0 β
b combi-
y diremos que una función paramétrica ψ es estimable si existe un estadı́stico ψ,
nación lineal de las observaciones y1 , . . . , yn
ψb = b1 y1 + · · · + bn yn = b0 Y
tal que
b =ψ
E(ψ)
es decir, ψb es estimador lineal insesgado de ψ.
Teorema 3.1.1
Sea ψ = a0 β una función paramétrica estimable asociada al modelo lineal Y = Xβ + .
Se verifica:
Demostración:
41
i) Sea ψb = b0 Y tal que E(ψ)
b = ψ. Entonces
a0 β = E(b0 Y) = b0 E(Y) = b0 Xβ
Observaciones:
S = X0 X S− = (X0 X)− H = S− S
H2 = H SH = S
luego
X = XH
Entonces, si ψ = a0 β es estimable, a0 = b0 X y
a0 H = b0 XH = b0 X = a0
a0 = a0 S− S = (a0 S− X0 )X = b0 X
siendo b0 = a0 S− X0 .
42
3.2. Teorema de Gauss-Markov
Vamos a ver en primer lugar que, cuando el rango de la matriz de diseño no es máximo
y, por tanto, la estimación MC de los parámetros no es única, la estimación de cualquier
función paramétrica estimable utilizando cualquiera de los estimadores MC sı́ es única.
Teorema 3.2.1
b es un estimador MC de β, entonces
Si ψ = a0 β una función paramétrica estimable y β
b 0b
el estimador ψ = a β de ψ es único.
Demostración:
Si ψ es una función paramétrica estimable, existe un estimador lineal insesgado
ψb = b0 Y
donde b es un vector n × 1. Consideremos el subespacio Ω = hXi de Rn generado por las
columnas de X. Podemos descomponer de forma única
e+c
b=b e∈Ω
b c⊥Ω
de modo que c es ortogonal a todo vector de Ω.
e 0 Y y veamos que es insesgado y que su valor es
Consideremos ahora el estimador lineal b
único.
ψ = E(ψ)b = E(b0 Y) = E(b e 0 Y) + E(c0 Y) = E(b
e 0 Y)
pues
E(c0 Y) = c0 E(Y) = c0 Xβ = 0β = 0
Supongamos que b∗ 0 Y es otro estimador insesgado para ψ y b∗ ∈ Ω. Entonces
e 0 Y) − E(b∗ 0 Y) = (b
0 = E(b e 0 − b∗ 0 )Xβ
luego
e 0 − b∗ 0 )X = 0
(b
lo que quiere decir que (be 0 − b∗ 0 ) es ortogonal a Ω. Como también pertenece a Ω, debe
e − b∗ = 0, es decir, b
ser b e = b∗ .
Por último, sabemos que e = Y − Xβ b es ortogonal a Ω, de manera que
e0e = b
0=b e0Y − b
e 0 Xβ
b
e 0 Y = b0 Xβ.
de modo que b b Además, sabemos que b
e 0 X = a0 , luego
e
ψb = a0 β
A continuación se demuestra la principal ventaja de la utilización de los estimadores MC.
insesgados de ψ.
1
BLUE: best linear unbiased estimate
43
Demostración:
Con la notación
kbk2 = b21 + · · · + b2n
tenemos que
var(b0 Y) = b21 σ 2 + · · · + b2n σ 2 = kbk2 σ 2
Si consideramos la descomposición de cualquier estimador insesgado de ψ que hemos
utilizado en el teorema anterior y dado que
e 2 + kck2
kbk2 = kbk
resulta
b = var(b
var(a0 β) e 0 Y) = kbk
e 2 σ 2 ≤ (kbk
e 2 + kck2 )σ 2 = var(b0 Y)
Observaciones:
1) Estos resultados son válidos incluso para un modelo lineal sin la hipótesis de nor-
malidad.
ψb = a0 (X0 X)− X0 Y
44
Más explı́citamente, la descomposición de b0 es
b0 = b0 P + b0 (I − P)
siendo P = X(X0 X)− X0 la matriz del operador que proyecta b en Ω = hXi (ver Apéndice
B). El vector proyectado es be 0 = b0 P. Asimismo, I − P es otro operador que proyecta b
e 0 c = 0, se verifica
en el espacio ortogonal a Ω. La proyección es c0 = b0 (I − P). Como b
e 0 Y, c0 Y) = 0
cov(b
Ejemplo 3.2.1
Sea y1 , . . . , yn una muestra aleatoria simple procedente de una población N (µ, σ). El mo-
delo lineal asociado es
y1 1
.. ..
. = . µ +
yn 1
P
El estimador MC de µ es µ b = (1/n) yi que también es de Gauss-Markov (centrado y
de varianza mı́nima).
En este caso Rn = Ω + Ω⊥ , siendo
Ω = h(1, . . . , 1)0 i
X
Ω⊥ = {(x1 , . . . , xn )0 | xi = 0}
P P
Sea a0 Y = ai yi otro estimador centrado de µ. Entonces E(a0 Y) = µ implica ai = 1.
Luego se verifica a = e a + b, es decir,
a1 1/n a1 − 1/n
.. .. ..
. = . + .
an 1/n an − 1/n
45
a ∈ Ω, b ∈ Ω⊥ . Es fácil ver que e
con e a0 b = 0. Además
X X X
ai yi = (1/n) yi + (ai − 1/n)yi
a0 P = (1/n, . . . , 1/n)
a0 (I − P) = (a1 − 1/n, . . . , an − 1/n)
Ejemplo 3.2.2
Ver especialmente el final del ejemplo 5.3.2.
Teorema 3.3.1
La función paramétrica a0 β es estimable si y sólo si
a ∈ hX0 i = hX0 Xi
Demostración:
Como sabemos, la función paramétrica a0 β es estimable si y sólo si a es combinación
lineal de las filas de X, es decir, cuando a ∈ hX0 i. De modo que sólo queda probar que
hX0 i = hX0 Xi
Pero X0 Xc = X0 d para d = Xc, de forma que hX0 Xi ⊂ hX0 i. Además, las dimensiones de
ambos subespacios son iguales ya que rg X0 = rg X0 X, de donde se deduce la igualdad.
Los detalles pueden verse en Seber [61, pág. 385].
En el apartado anterior hemos demostrado que para una función paramétrica estimable
b es el de mı́nima varianza. Pero, ¿cuanto vale esta varianza?
a0 β, su estimador MC a0 β
46
Supongamos que X0 X tiene como valores propios λ1 , . . . , λr todos positivos no nulos
asociados a los correspondientes vectores propios ortonormales v1 , . . . , vr , es decir
X0 Xvi = λi vi i = 1, . . . , r
y tales que vi0 vj = δij .
Si a0 β es estimable, entonces a ∈ hX0 Xi y este subespacio está generado por los vectores
propios. Ası́ pues, a se puede expresar en la forma
r
X
a= ci v i
i=1
Entonces
!
X
b = var
var(a0 β) b
ci vi0 β
i
X
= b
c2i var(vi0 β)
i
X
= σ2 c2i λ−1
i
i
ya que
cov(vi0 β, b = λ−1 λ−1 cov(v0 X0 Xβ,
b v0 β) b v0 X0 Xβ)
b
j i j i j
= (λi λj )−1 cov(vi0 X0 Y, vj0 X0 Y)
= (λi λj )−1 σ 2 vi0 X0 Xvj
= (λi λj )−1 σ 2 λj vi0 vj
= σ 2 λ−1
i δij
Silvey (1969) concluyó que es posible una estimación relativamente precisa en las direc-
ciones de los vectores propios de X0 X correspondientes a los mayores valores propios,
mientras que se obtienen unas estimaciones relativamente imprecisas (poco eficientes) en
las direcciones correspondientes a los valores propios más pequeños.
Supongamos que X tiene rango máximo pero que sus columnas están cerca de ser li-
nealmente dependientes. Entonces X0 X está cerca de ser singular (no inversible), en el
sentido que uno o varios de sus valores propios no nulos son excesivamente pequeños, casi
despreciables, y por lo que hemos visto las estimaciones en algunas direcciones serán muy
imprecisas.
La presencia de relaciones quasi lineales entre las variables regresoras se conoce en Eco-
nometrı́a con el nombre de multicolinealidad, cuya forma más extrema se presenta cuando
la matriz de datos X no tiene rango máximo. Este grave problema debe ser detectado
previamente a la estimación y se puede corregir de varias formas.
Una solución teórica consiste en minimizar o incluso erradicar la multicolinealidad, me-
diante la incorporación de nuevas observaciones en las direcciones de los vectores propios
con valores propios demasiado pequeños (o cero).
Supongamos que una nueva observación se añade al modelo Y = Xβ + y resulta
Y X
= β+
Yn+1 x0n+1 n+1
= X∗ β + ∗
47
donde xn+1 = cv, donde v es un vector propio normalizado de X0 X correspondiente a un
valor propio λ. Entonces se puede probar que v es también un vector propio de X0∗ X∗
correspondiente al valor propio λ + c2 . Y de esta forma Sylvey propuso un análisis para
la elección de las direcciones en las que es conveniente elegir nuevas observaciones para
mejorar la precisión de las estimaciones de un a0 β particular.
ψ1 = a01 β, . . . , ψq = a0q β
donde
a01
A = ...
a0q
b es el conjunto de estimadores MC del sistema de funciones paramétri-
Con esta matriz, ψ
cas ψ = Aβ.
Teorema 3.4.1
b = Aβ
Bajo el modelo lineal normal, el conjunto de estimadores ψ b del sistema de funciones
paramétricas ψ = Aβ verifica:
b sigue la distribución normal multivariante
i) ψ
b ∼ Nq (ψ, Σψ )
ψ
Σψ = σ 2 A(X0 X)− A0
es la matriz de varianzas-covarianzas.
Demostración:
48
b es una combinación lineal de variables normales indepen-
i) Es consecuencia de que ψ
dientes:
ψbi = a0i (X0 X)− X0 Y
luego si
A(X0 X)− X0 = C
b = ψ y la matriz de covarianzas de CY es Σ = σ 2 CC0 , de
sabemos que E(ψ)
manera que
Σψ = σ 2 CC0 = σ 2 A(X0 X)− X0 X(X0 X)− A0 = σ 2 A(X0 X)− A0
Teorema 3.4.2
La distribución de U = (Aβb − Aβ)0 (σ 2 A(X0 X)− A0 )−1 (Aβ
b − Aβ) es una χ2 .
q
Además, U es estocásticamente independiente de SCR/σ 2 cuya distribución es χ2n−r .
Demostración:
Es consecuencia de las propiedades de la distribución normal multivariante y de los teo-
remas 2.5.1 y 3.4.1.
Dos resultados importantes que se deducen de los teoremas anteriores son:
49
b) En el caso q = 1, si ψb es la estimación de Gauss-Markov de ψ, entonces ψb ∼
N (ψ, σψb), siendo
σψ2b = a0 (X0 X)− a σ 2 = δ 2 σ 2
luego la distribución de
ψb − ψ √
t= √ n−r (3.3)
δ 2 SCR
es la de una t de Student con n − r grados de libertad. Este resultado se puede
establecer directamente o a partir de 3.2 ya que F1,n−r = t2n−r .
y despejando obtenemos
r r !
δ 2 SCR δ 2 SCR
P ψb − tα < ψ < ψb + tα =1−α
n−r n−r
Por lo tanto r r
δ 2 SCR δ 2 SCR
ψb − tα < ψ < ψb + tα
n−r n−r
es decir
b ± tα [a0 (X0 X)− a σ
a0 β b2 ]1/2 (3.4)
es un intervalo de confianza para la función paramétrica estimable ψ = a0 β, con coeficiente
de confianza 1 − α.
Por otra parte, como SCR/σ 2 sigue una χ2n−r tenemos
define un intervalo de confianza para la varianza σ 2 del modelo lineal normal, con coefi-
ciente de confianza 1 − α.
50
3.6. Ejercicios
Ejercicio 3.1
Sea ψ una función paramétrica estimable y ψb1 , ψb2 dos estimadores insesgados, estocásti-
camente independientes, de varianzas σ12 y σ22 . Hallar la combinación lineal de ψb1 , ψb2 cuya
varianza es mı́nima y además es insesgado.
Ejercicio 3.2
En un modelo lineal, la matriz de diseño es
1 1 1 1 1
1 0 1 0 0
1 1 1 0 0
1 0 1 1 1
Hallar la expresión general de las funciones paramétricas estimables.
Ejercicio 3.3
Probar que
ψb = b0 Y b = ψ = a0 β
E(ψ)
siendo b combinación lineal de las columnas de X, implica que a es combinación lineal
de las filas de X.
Ejercicio 3.4
Probar que toda combinación lineal de funciones paramétricas estimables es también fun-
ción paramétrica estimable y que r = rg X es el número máximo de funciones linealmente
independientes.
Ejercicio 3.5
Si ψb es la estimación de Gauss-Markov, probar que la expresión
ψb = c1 ȳ1 + · · · + ck ȳk
función de las medias de las condiciones experimentales, es única.
Ejercicio 3.6
La matriz de diseño reducida correspondiente a un modelo lineal normal es
1 0 1
X= 1 1 0
0 −1 1
Se sabe además que
ȳ1 = 11 ȳ2 = 10 ȳ3 = 15
n1 = n2 = n3 = 10
Xn1
s21 = (1/n1 ) (yi − ȳ1 )2 = 4,5
i=1
s22 = 6,0 s23 = 4,3
Se pide
51
1) Hallar la expresión general de las estimaciones MC de β.
2) Calcular SCR. ¿Se ajustan los datos al modelo definido por X? (nivel de significación
0,05)
ψ = β 1 + β3
Ejercicio 3.7
Consideremos el modelo lineal
y1 = β 1 + β 2 + 1
y2 = β 1 + β 3 + 2
y3 = β 1 + β 2 + 3
Se pide:
ψ = a 1 β1 + a 2 β2 + a 3 β3
es estimable si y sólo si a1 = a2 + a3 .
Ejercicio 3.8
Consideremos el modelo lineal
y1 = µ + α 1 + β 1 + 1
y2 = µ + α 1 + β 2 + 2
y3 = µ + α 2 + β 1 + 3
y4 = µ + α 2 + β 2 + 4
y5 = µ + α 3 + β 1 + 5
y6 = µ + α 3 + β 2 + 6
52
(a) ¿Cuando es λ0 µ + λ1 α1 + λ2 α2 + λ3 α3 + λ4 β1 + λ5 β2 estimable?
(b) ¿Es α1 + α2 estimable?
(c) ¿Es β1 − β2 estimable?
(d) ¿Es µ + α1 estimable?
(e) ¿Es 6µ + 2α1 + 2α2 + 2α3 + 3β1 + 3β2 estimable?
(f) ¿Es α1 − 2α2 + α3 estimable?
(g) Hallar la covarianza entre los estimadores lineales MC de las funciones paramétricas
β1 − β2 y α1 − α2 , si éstas son estimables.
(h) Hallar la dimensión del espacio paramétrico.
(i) Obtener una expresión del espacio de los errores.
Ejercicio 3.9
Cuatro objetos A, B, C, D están involucrados en un experimento de pesado. Todos reu-
nidos pesan y1 gramos. Cuando A y C se ponen en el plato izquierdo de la balanza y B
y D se ponen en el plato derecho, un peso de y2 gramos es necesario en el plato derecho
para equilibrar la balanza. Con A y B en el plato izquierdo y C, D en el plato derecho,
y3 gramos son necesarios en el plato derecho y, finalmente, con A, D en el plato izquierdo
y B, C en el plato derecho, y4 gramos son necesarios en la derecha para equilibrar. Si las
observaciones y1 , y2 , y3 , y4 son todas con errores incorrelacionados y con varianza común
σ 2 , obtener la estimación BLUE del peso total de los cuatro objetos y su varianza.
Ejercicio 3.10
Con el modelo lineal
y1 = θ1 + θ5 + 1
y2 = θ2 + θ5 + 2
y3 = θ3 + θ6 + 3
y4 = θ4 + θ6 + 4
y5 = θ1 + θ7 + 5
y6 = θ3 + θ7 + 6
y7 = θ2 + θ8 + 7
y8 = θ4 + θ8 + 8
contestar las siguientes preguntas:
53
(e) Hallar un estimador insesgado de la varianza de los errores σ 2 .
Ejercicio 3.11
Diremos que el estimador lineal b0 Y pertenece al espacio error si E(b0 Y) = 0. Probar
que la covarianza entre b0 Y y todo estimador de Gauss-Markov ψb = a0 β es siempre cero.
Ejercicio 3.12
Consideremos el modelo lineal normal Y = Xβ + , siendo rg X = r. Sea X = U∆V 0
una descomposición en valores singulares de X. Se pide:
54
Capı́tulo 4
Complementos de estimación
En este capı́tulo se presentan algunas extensiones del método de los mı́nimos cuadrados.
Estos complementos no son estrictamente necesarios para continuar con el desarrollo de
la teorı́a de los modelos lineales y, en particular, para el contraste de hipótesis que se
explica en el capı́tulo 5. En una primera lectura de este libro se puede pasar directamente
a ese capı́tulo.
E(Y) = Xβ var(Y) = σ 2 I
decidimos introducir una nueva variable regresora con las mismas observaciones que ya
tenı́amos.
Sean x(i) , i = 1, . . . , m las columnas de la matriz X n × m de rango m de modo que
b G = (G0 G)−1 G0 Y
γ γ G ) = σ 2 (G0 G)−1
var(b
o a partir del modelo original que ya hemos resuelto. Vamos a ver el desarrollo de esta
segunda opción que proporciona unos cálculos más simples.
Partimos de las ecuaciones normales del modelo ampliado G0 Gbγ G = G0 Y que podemos
descomponer ası́
b G + X0 x(m+1) βbm+1 = X0 Y
X0 Xβ
b G + x0
x0(m+1) Xβ b 0
(m+1) x(m+1) βm+1 = x(m+1) Y
55
De la primera ecuación tenemos
b G = (X0 X)−1 X0 (Y − x(m+1) βbm+1 ) = β
β b − f βbm+1 (4.1)
es decir
de manera que
Además
b βbm+1 ) = cov[(X0 X)−1 X0 Y, gx0
cov(β, (m+1) (I − P)Y]
56
b y βbm+1
ya que X0 (I − P) = 0. Esto permite calcular la covarianza entre β G
b G , βbm+1 ) = cov[β
cov(β b − f βbm+1 , βbm+1 ]
b βbm+1 ) − f var(βbm+1 )
= cov(β,
= 0 − f σ2g
Finalmente
b G ) = var(β
var(β b − f βbm+1 )
b − 2cov(β,
= var(β) b f βbm+1 ) + var(f βbm+1 )
= var(β)b − 2cov(β,b βbm+1 )f 0 + f var(βbm+1 )f 0
= σ 2 [(X0 X)−1 + gff 0 ]
En resumen
2 (X0 X)−1 + gff 0 −gf
var(b
γ G) = σ (4.4)
−gf 0 g
donde g = [x0(m+1) (I − P)x(m+1) ]−1 y f = (X0 X)−1 X0 x(m+1) .
En consecuencia, las fórmulas 4.1, 4.2, 4.3 y 4.4 demuestran que es posible calcular todos
los elementos del modelo ampliado a partir del modelo original, mediante productos de
matrices en los que interviene únicamente la matriz (X0 X)−1 original.
x(m+1) = Xb
c + em+1 (4.8)
e = em+1 db + e∗ (4.9)
57
Teorema 4.1.1 Si consideramos las estimaciones MC que se han calculado en las ecua-
ciones 4.7, 4.8 y 4.9, resulta que la estimación MC de βm+1 en el modelo ampliado 4.6 es
βbm+1 = d.
b
Demostración:
Si sustituimos 4.9 en la ecuación 4.7, se obtiene
b + em+1 db + e∗ = Xβ
Y = Xβ b + (x(m+1) − Xb
c)db + e∗
bG = β
donde β b − (X0 X)−1 X0 x(m+1) βbm+1 como hemos visto en 4.1. De forma que
b + (x(m+1) − Xb
Y = Xβ c)βbm+1 + eG
y entonces βbm+1 = db y eG = e∗ .
En el gráfico se dibuja la consecuencia de añadir a un modelo con una variable regresora
x1 una nueva variable x2 .
ED = em+1 c AB = em+1 db OB = x1 βb
OD = x1b
de forma que
ED||AB BC ⊥ OB ED ⊥ OD AB ⊥ OB AC ⊥ OA
y en especial
b =−
Y
−→ −→
OB + AB
Como conclusión podemos decir que cualquier coeficiente estimado βbi puede interpretarse
como la pendiente de la recta que relaciona los residuos de la regresión de Y respecto a
58
todas las otras variables, es decir, la parte de Y no explicada por el resto de las variables
regresoras, con la aportación diferencial de xi o parte de xi no común con las demás
variables regresoras que se obtiene tomando el residuo de la regresión de xi sobre las
restantes x.
Observemos que cuando x(m+1) es independiente de X el paso 4.8 no es posible. En esta
situación
Y = Xβ b +e
e = x(m+1) βbm+1 + eG
de modo que la solución del modelo ampliado es
b + x(m+1) βbm+1 + eG
Y = Xβ
Esto significa que si excluimos del modelo variables regresoras independientes, esto no
afecta a la estimación de los parámetros βi , pero si excluimos variables relevantes esto
afecta considerablemente a las estimaciones.
59
Teorema 4.1.2
Consideremos las matrices P = X(X0 X)−1 X0 , PG = W(W0 W)−1 W0 , L = (X0 X)−1 X0 Z,
M = (Z0 (I − P)Z)−1 y el vector !
bG
β
bG =
γ bG
δ
Entonces,
b G = (X0 X)−1 X0 (Y − Zδ
(i) β bG ) = β
b − Lδ
bG
b0 Z0 (I − P)Y
(iv) SCRG = SCR − δ G
(v)
2 (X0 X)−1 + LML0 −LM
var(b
γ G) = σ
−ML0 M
Demostración:
Se puede reseguir sin mayor dificultad todos los cálculos que hemos realizado en el aparta-
do anterior. El único detalle importante es que debe demostrarse que la matriz Z0 (I−P)Z
es inversible. Este resultado y los detalles de la demostración pueden verse en Seber [61,
pág. 65].
0
A partir de estas fórmulas se deduce que, una vez invertida la matriz X X, podemos hallar
b G y su matriz de varianzas-covarianzas var(b
γ γ G ) simplemente invirtiendo Z0 (I − P)Z t × t
y no se necesita calcular la inversa de la matriz W 0 W (m + t) × (m + t).
Estos resultados se pueden utilizar de diversas formas en modelos de Análisis de la Va-
rianza y de Análisis de la Covarianza. Para introducir un grupo de variables en un modelo
de regresión es mejor hacerlo de una en una, lo que se llama regresión paso a paso.
60
donde B es n × r, rgB = rgX y además
E(η) = K−1 E() = 0
var(η) = σ 2 K−1 V(K−1 )0 = σ 2 I
de forma que el modelo 4.11 verifica las condiciones del modelo lineal ordinario. Ası́ es
posible calcular el estimador MC de β que minimiza η 0 η.
Definición 4.2.1
Un estimador β ∗ es un estimador MCG de β para el modelo 4.10 si y sólo si β ∗ es un
estimador MC ordinario para el modelo 4.11. En el caso particular de que la matriz V
sea diagonal se llama MC ponderado.
En consecuencia, un estimador MCG β ∗ de β satisface la ecuación
B(B0 B)− B0 Z = Bβ ∗
K−1 X((K−1 X)0 K−1 X)− (K−1 X)0 K−1 Y = K−1 Xβ ∗
X(X0 V−1 X)− X0 V−1 Y = Xβ ∗
Como un estimador MCG es simplemente un estimador MC ordinario del modelo trans-
formado, es de esperar que tenga las mismas propiedades óptimas.
Propiedades
61
Para un modelo de rango no máximo y en el caso ordinario hemos visto que un estimador
b donde P es el operador proyección ortogonal sobre
debe verificar la ecuación PY = Xβ,
el subespacio hXi. Veamos una propiedad similar en el caso generalizado.
Teorema 4.2.1
Un estimador MCG β ∗ en el modelo 4.10 verifica la ecuación AY = Xβ ∗ donde A =
X(X0 V−1 X)− X0 V−1 es una matriz idempotente pero no, en general, simétrica.
Demostración:
Se trata de probar que A es una especie de operador proyección sobre hXi aunque no
necesariamente ortogonal.
Por la definición de estimador MCG ya hemos visto que
62
y como rg(K−1 X) = rg(X), tenemos
a0 β ∗ − a 0 β
∼ tn−r
[σb2 a0 (X0 V−1 X)a]1/2
63
Para solucionar este problema Hoerl y Kennard (1970) introducen los ridge estimators
e es un estimador sesgado
donde k ≥ 0 es un escalar a elegir de forma que, si no es cero, β (k)
de β.
Las principales razones para la utilización de estos estimadores son:
e (k) y de sus correspondientes SCR al variar k
Los gráficos de los componentes de β
permiten estudiar la enfermedad de X.
Es posible elegir un valor de k tal que los coeficientes de regresión tengan valores
razonables y la SCR no sea muy grande.
64
Capı́tulo 5
Definición 5.1.1
Una hipótesis lineal de rango q sobre los parámetros β es un conjunto de restricciones
lineales
ai1 β1 + · · · + aim βm = 0 i = 1, . . . , q
Si escribimos la matriz de la hipótesis como
a11 · · · a1m
..
A = ... . . . . rg A = q
aq1 · · · aqm
H0 : Aβ = 0
65
normales. Por ello exigimos que las filas de A sean linealmente dependientes de las filas de
X y que el rango de la matriz A q × m sea q. De hecho, cualquier ecuación a0i β = 0 para
la que a0i sea linealmente independiente de las filas de X puede ignorarse y la hipótesis
contrastable estará formada por el resto de las ecuaciones.
Una caracterización para saber si una hipótesis lineal es contrastable es
A(X0 X)− X0 X = A
Este resultado es una generalización del que se ha demostrado en la página 42 para una
función paramétrica estimable (ver ejercicio 5.3).
Método 1
v1 , . . . , vq , vq+1 , . . . , vr , vr+1 . . . , vm
tal que
hA0 i = hv1 , . . . , vq i ⊂ hv1 , . . . , vq , vq+1 , . . . , vr i = hX0 i ⊂ Rm
Sea entonces C una matriz m × r 0 , con r0 = r − q, construida tomando los vectores
columna vq+1 , . . . , vr
C = (vq+1 , . . . , vr )
y definamos el vector paramétrico θ = (θ1 , . . . , θr0 )0 tal que
β = Cθ
Aβ = ACθ = 0θ = 0
66
El modelo Y = Xβ + bajo la restricción Aβ = 0, se convierte en
e
E(Y) = XCθ = Xθ
b 0 (Y − X
e θ)
SCRH = mı́n (Y − Xβ)0 (Y − Xβ) = (Y − X b
e θ)
Aβ=0
b0 X
= Y0 Y − θ e 0Y
Método 2
λ = (λ1 , . . . , λq )0
uno para cada restricción lineal. El mı́nimo restringido de (Y − Xβ)0 (Y − Xβ) se halla
igualando a cero las derivadas respecto a cada βi de
n q
X X
2
(yi − xi1 β1 − · · · − xim βm ) + λi (ai1 β1 + · · · + aim βm )
i=1 i=1
67
La matriz A(X0 X)− A0 posee inversa, puesto que es de rango q, ası́
1b b
λH = (A(X0 X)− A0 )−1 (Aβ)
2
y finalmente tenemos que la estimación MC restringida es
bH = β
β b − (X0 X)− A0 (A(X0 X)− A0 )−1 Aβ
b (5.2)
Hemos visto (teorema 2.5.1) que la forma canónica de la suma de cuadrados residual bajo
el modelo sin restricciones es
2
SCR = zr+1 + · · · + zn2
tal que
e = hu1 , . . . , ur0 i ⊂ hXi = hu1 , . . . , ur i
hXi
Entonces, si se cumple la hipótesis, por idéntico razonamiento al seguido en el teorema
2.5.1 tendremos que la forma canónica de la suma de cuadrados residual bajo el modelo
H0 es
SCRH = zr20 +1 + · · · + zn2
Además, siempre se verificará que SCRH > SCR pues
r
X
SCRH − SCR = zi2
r 0 +1
Ejemplo 5.2.1
Consideremos el siguiente modelo lineal normal
y1 = β 1 + β 2 + 1
y2 = 2β2 + 2
y3 = −β1 + β2 + 3
y la hipótesis lineal
H0 : β1 = 2β2
Las matrices de diseño y de la hipótesis son
1 1
X= 0 2 A = (1 − 2) rg X = 2 rg A = 1
−1 1
68
Como A es combinación lineal de las filas de X, H0 es una hipótesis contrastable. Además,
en este caso particular el rango de la matriz de diseño es máximo, de modo que toda
hipótesis lineal es contrastable.
Con unos sencillos cálculos, tenemos:
Ecuaciones normales
Estimaciones MC
βb1 = (y1 − y3 )/2 βb2 = (y1 + 2y2 + y3 )/6
Suma de cuadrados residual
C = (2, 1)0
β1 = 2θ β2 = θ
y1 = 3θ + 1
y2 = 2θ + 2
y3 = −θ + 3
Finalmente
θb = (3y1 + 2y2 − y3 )/14
SCRH = y12 + y22 + y32 − 14 θb2
69
Teorema 5.3.1
Sea Y = Xβ+ un modelo lineal normal, de manera que Y ∼ N (Xβ, σ 2 I). Consideremos
una hipótesis lineal contrastable
H0 : Aβ = 0 rango A = q
verifican:
(ii) Si H0 es cierta
(iii) Si H0 es cierta, los estadı́sticos SCRH − SCR y SCR son estocásticamente indepen-
dientes.
Demostración:
(i) Aunque este resultado ya se ha establecido en el teorema 3.4.2, nos interesa ahora
su demostración explı́cita. En el teorema 2.5.1 se ha visto que
2
SCR = zr+1 + · · · + zn2
(iii) Las variables zr0 +1 , . . . , zn son normales e independientes. SCRH − SCR depende de
las q primeras, mientras que SCR depende de las n − r últimas y no hay términos
comunes. Luego son estocásticamente independientes.
70
(iv) Es una consecuencia evidente de los apartados anteriores de este teorema. Si H0 es
cierta, el estadı́stico
2
Obsérvese que F no depende del parámetro desconocido σ y se puede calcular exclusi-
vamente en función de las observaciones Y.
La expresión de SCR es
0
b X0 Y
SCR = Y 0 (I − P)Y = Y 0 Y − β
b 0 X0 Y
SCRH = Y0 Y − β H
b H )0 (Y − Xβ
SCRH = (Y − Xβ b H ) = Y0 Y − 2Y0 Xβ b 0 X0 Xβ
bH + β bH
H
b H = X 0 Y − 1 A0 λ
X0 Xβ bH
2
luego
b +β
SCRH = Y0 Y − 2Y0 Xβ b 0 (X0 Y − 1 A0 λ
bH )
H H
2
bH − 1 β
b H + Y 0 Xβ
= Y0 Y − 2Y0 Xβ b 0 A0 λ
bH
2 H
b H = 0, nos queda
Pero como Aβ
bH
SCRH = Y0 Y − Y0 Xβ
b0 − β
β b 0 = (Aβ)
b 0 (A(X0 X)− A0 )−1 A(X0 X)−
H
luego
b0 − β
SCRH − SCR = (β b 0 )X0 Y
H
b (A(X0 X)− A0 )−1 A(X0 X)− X0 Y
= (Aβ) 0 (5.5)
b 0 (A(X0 X)− A0 )−1 (Aβ)
= (Aβ) b
71
El estadı́stico F puede escribirse entonces
b 0 (A(X0 X)− A0 )−1 (Aβ)
(Aβ) b
F = (5.6)
qσ b2
El cálculo de ambas cantidades se suele expresar en forma de tabla general del análisis
de la varianza (ver tabla 5.1).
Criterio de decisión
E[(SCRH − SCR)/q] = σ 2
72
Ejemplo 5.3.1
Para decidir sobre la hipótesis H0 : β1 = 2β2 en el ejemplo 5.2.1 calcularemos
(βb1 − 2βb2 )2
F =
(SCR/1)(7/6)
En cualquier caso, se decide por la significación en una distribución F 1,1 con 1 y 1 grados
de libertad.
1
PNa
a (primera vez) y11 y12 ... y1Na ȳ1· s21 = (y1i − ȳ1· )2
Na
1
Pi=1
Na
b (después de a) y21 y22 ... y2Na ȳ2· s22 = Na i=1 (y2i − ȳ2· )
2
Grupo 2
1
P Nb
b (primera vez) y31 y32 ... y3Nb ȳ3· s23 = (y3i − ȳ3· )2
Nb
1
Pi=1
Nb
a (después de b) y41 y42 ... y4Nb ȳ4· s24 = Nb i=1 (y4i − ȳ4· )
2
Indicando
µ = media general
α = efecto fármaco a
β = efecto fármaco b
γ = efecto recı́proco entre a y b
73
Es decir, cuando sólo se ha tomado un fármaco actúa un solo efecto, pero cuando se ha
tomado uno después del otro actúa entonces un efecto aditivo γ que recoge la mejorı́a del
enfermo que ya ha tomado el primer medicamento.
Tenemos k = 4 condiciones experimentales, que en el “cross-over” simplificado se consi-
deran independientes, y N1 = N2 = Na , N3 = N4 = Nb . El vector de observaciones Y y
la matriz de diseño reducida XR son
0 1
Obsérvese que las columnas de C son también combinación lineal de las filas de X R .
Al establecer la relación β = Cθ tendremos
θ1
θ=
θ2
siendo θ1 = µ + α = µ + β y θ2 = γ.
Es decir, bajo H0 el diseño reparametrizado depende de dos parámetros:
74
siendo rg X e R = r − t = 3 − 1 = 2.
Si el diseño es balanceado (Na = Nb ), entonces N = 4Na = 4Nb y se puede calcular que
4
!
Na X
SCR = (y1· + y2· − y3· − y4· )2 + Na s2i
4 i=1
Con estos datos se han detectado diferencias significativas entre los dos fármacos a y
b. Para estimar la eficacia de cada fármaco, pasaremos a considerar las funciones pa-
ramétricas
ψa = µ + α ψb = µ + β
75
que son ambas estimables.
Para estimar ψa , ψb hallaremos primeramente “una” estimación MC de los parámetros:
b=0
µ b = 20,975
α βb = 12,125
Por otra parte, las expresiones en función de las medias y las varianzas mı́nimas corres-
pondientes son:
ca = 3/4ȳ1 − 1/4ȳ2 + 1/4ȳ3 + 1/4ȳ4
ψ ca ) = 0,075σ 2
var(ψ
cb = 1/4ȳ1 + 1/4ȳ2 + 3/4ȳ3 − 1/4ȳ4
ψ cb ) = 0,075σ 2
var(ψ
H0 : Aβ = c A es q × m, rg A = q
donde c es un vector columna que lógicamente debe ser combinación lineal de las columnas
de A. También suponemos que las filas de A son combinación lineal de las filas de X, de
manera que Aβ es un conjunto de funciones paramétricas estimables.
Sea β 0 tal que Aβ 0 = c y consideremos γ = β − β 0 . Entonces, si en el modelo lineal
Y − Xβ 0 = X(β − β 0 ) +
e = Y − Xβ 0 , obtenemos el modelo transformado
ponemos Y
e = Xγ +
Y (5.8)
H0 : Aγ = 0
b es tal que X0 Xβ
donde β b = X0 Y. Se verifica también
76
Finalmente, a partir de la fórmula 5.6 el test para contrastar la hipótesis es
b − c)0 (A(X0 X)− A0 )−1 (Aβ
(Aβ b − c)/q
F = (5.9)
SCR/(n − r)
Ejemplo 5.3.3
Contraste de medias en poblaciones normales con igual varianza
Sean u1 , u2 , . . . , un1 y v1 , v2 , . . . , vn2 dos muestras aleatorias simples de dos poblaciones
normales N (µ1 , σ 2 ) y N (µ2 , σ 2 ), respectivamente.
Vamos a contrastar la hipótesis lineal H0 : µ1 = µ2 con la ayuda de la teorı́a de los
modelos lineales.
Podemos pensar que las observaciones son de la forma
ui = µ 1 + i i = 1, . . . , n1
vj = µ2 + n1 +j j = 1, . . . , n2
o en notación matricial
u1 1 0 1
.. .. .. ..
. . . .
un 1 1 0 µ1
= + n1
v1 0 1 µ2 n1 +1
. .. .. .
.. . . ..
vn2 0 1 n
b = µ̂1 − µ̂2 = ū − v̄
Aβ
77
SCR = Y 0 Y − Ȳ0 DXR (X0R DXR )− X0R DȲ
X X
= u2i + vj2 − n1 ū2 − n2 v̄ 2
i j
X X
= (ui − ū)2 + (vj − v̄)2
i j
1 1
A(X0R DXR )−1 A0 = +
n1 n2
de modo que
Del mismo modo, los estimadores de máxima verosimilitud de los parámetros con las
restricciones Aβ = c son
bH
β bH
σ 2
= SCRH /n
y el valor máximo de la función de verosimilitud, bajo la hipótesis nula, es
bH , σ
L(β bH2
) = (2πb
σH2 −n/2 −n/2
) e
bH , σ 2
2 n/2
L(β bH ) b
σ
Λ= = M2V
b σ
L(β, 2
bM bH
σ
V)
78
5.4. Cuando el test es significativo
Si el estadı́stico F para H0 : Aβ = c es significativo, podemos investigar la causa del
rechazo de dicha hipótesis. Una posibilidad consiste en contrastar cada una de las res-
tricciones a0i β = ci , i = 1, . . . , q por separado, utilizando un test t para ver cual es la
responsable.
Hemos visto de varias formas que, bajo la hipótesis lineal Hi : a0i β = ci , el estadı́stico ti
verifica
b − ci
a0 β
ti = 2 0 i 0 − 1/2 ∼ tn−r
[b
σ ai (X X) ai ]
de modo que podemos rechazar Hi : a0i β = ci con un nivel de significación α si
donde tn−r (α) es el valor de la tabla tal que P (|tn−r | ≥ tn−r (α)) = α.
También podemos construir intervalos de confianza para cada a0i β
b ± tn−r (α) · σ
a0i β b(a0i (X0 X)− ai )1/2
H0 : Aβ = c (5.11)
79
con distribución Fq,n−r . Pero es evidente que 5.11 es una hipótesis lineal contrastable, de
modo que podemos utilizar el test F que resulta ser idéntico al anterior. Es otra forma
de demostrar 5.9 y también que
b − c)0 (A(X0 X)− A0 )−1 (Aβ
SCRH − SCR = (Aβ b − c)
Además, podemos plantear otras hipótesis sobre las funciones paramétricas estimables ψ,
siempre que sean lineales. Por ejemplo, consideremos ahora la hipótesis lineal planteada
sobre las q funciones linealmente independientes
H0 : ψ 1 = ψ 2 = · · · = ψ q (5.13)
es decir, bajo H0 las q funciones son iguales. Si consideramos las nuevas funciones
ψei = ψ1 − ψi+1 i = 1, . . . , q − 1
H0 : A ∗ β = 0
Luego podemos utilizar el estadı́stico F de 5.6, con A∗ y q − 1, que bajo H0 tiene distri-
bución Fq−1,n−r , para decidir si 5.13 debe ser aceptada.
Y = Xβ + E() = 0, var() = σ 2 I
hemos establecido (ver pág. 28) que el punto crucial es la utilización de la matriz P,
proyección ortogonal sobre el espacio de las estimaciones Ω = hXi. Ası́, dos modelos son
iguales si tienen el mismo espacio de las estimaciones. Dos de estos modelos darán las
mismas predicciones y el mismo estimador de σ 2 .
80
Sean Y = X1 β 1 + 1 y Y = X2 β 2 + 2 dos modelos lineales tales que hX1 i = hX2 i. La
matriz proyección no depende de X1 o X2 sino sólo de Ω(= hX1 i = hX2 i). La estimación
de σ 2 es la misma σ
b2 = SCR/(n − r) y las predicciones también
b 1 = X2 β
b = PY = X1 β
Y b2
Ejemplo 5.6.1
El ANOVA de un factor se puede escribir de dos formas:
yij = µ + αi + ij i = 1, . . . , I, j = 1, . . . , ni
yij = µi + ij i = 1, . . . , I, j = 1, . . . , ni
pero son equivalentes puesto que hX1 i = hX2 i.
En este modelo las relaciones entre los dos conjuntos de parámetros son sencillas
µi = µ + α i µ1 − µ 2 = α 1 − α 2 etc.
Ejemplo 5.6.2
La regresión lineal simple admite dos modelos:
yi = β 0 + β 1 xi + i i = 1, . . . , n
yi = γ0 + γ1 (xi − x̄) + i i = 1, . . . , n
pero son equivalentes ya que
γ0 = β0 + β1 x̄
γ1 = β 1
Modelo inicial: Y = Xβ + rg X = r
debemos intentar reducir este modelo, es decir, ver si algún modelo más simple se ajusta
aceptablemente a los datos, como
Modelo restringido: e +
Y = Xθ e = re
rg X
81
Dado que la esencia de un modelo está en el subespacio generado por las columnas de la
matriz de diseño o espacio de las estimaciones, es absolutamente necesario que el modelo
restringido verifique
e ⊂ hXi = Ω
Ω0 = hXi
Sólo en este caso se puede plantear la elección entre dos modelos alternativos como un
contraste de hipótesis
e +
H0 : Y = Xθ e
H0 : E(Y) ∈ Ω0 = hXi
⇔ (5.14)
H1 : Y = Xβ + H1 : E(Y) ∈ Ω = hXi
Teorema 5.6.1
La condición necesaria y suficiente para que 5.14 sea contrastable es que se verifique
e ⊂ hXi = Ω
Ω0 = hXi (5.15)
Demostración:
La expresión 5.15 implica la relación X e = XC para una cierta matriz C. Entonces H0
significa formular una hipótesis lineal contrastable al modelo E(Y) = Xβ, que lo reduce
a E(Y) = Xθ. e El resto es consecuencia del Método 1 explicado en la sección 5.2 y el
teorema 5.3.1.
Observemos que si Ω0 * Ω, entonces estamos ante modelos de naturaleza diferente. No
podemos decidir entre ambos modelos mediante ningún criterio estadı́stico conocido. Si
se verifica Ω0 = Ω, entonces tenemos dos versiones paramétricas del mismo modelo,
pudiendo pasar del uno al otro por una reparametrización. Un modelo Y = Xβ +
determina el espacio Ω = hXi, y recı́procamente el espacio Ω determina el modelo (salvo
reparametrizaciones que no disminuyan el rango).
Como ya hemos visto, la interpretación geométrica de la solución al modelo lineal Y =
Xβ + es considerar la proyección del vector Y sobre el subespacio Ω = hXi de Rn . La
relación 5.15 indica que las columnas de X e generan un subespacio de hXi. Entonces SCR
e respectivamente.
y SCRH son distancias de la observación Y a los subespacios hXi y hXi,
El test F nos dice hasta que punto la diferencia SCRH − SCR es pequeña (comparada
con SCR) para poder afirmar que el modelo se ajusta al subespacio hXi e en lugar de hXi
(ver figura).
82
La longitud al cuadrado de la diferencia PΩ Y − PΩ0 Y es
((PΩ − PΩ0 )Y)0 ((PΩ − PΩ0 )Y) = Y 0 (PΩ − PΩ0 )Y
ya que PΩ − PΩ0 = PΩ⊥0 ∩Ω es una matriz proyección (ver Apéndice). Pero además
Y0 (PΩ − PΩ0 )Y = Y0 (I − PΩ0 )Y − Y0 (I − PΩ )Y = SCRH − SCR
Cuando la hipótesis nula se plantea en términos de un grupo de funciones paramétricas
estimables del tipo H0 : Aβ = 0, sabemos que existe una matriz B = A(X0 X)− X0 tal
que A = BX. De modo que
0 = Aβ = BXβ = BE(Y) ⇔ E(Y) ∈ ker(B)
y el subespacio que define la hipótesis nula es Ω0 = ker(B) ∩ Ω. En este caso se puede
demostrar (ver Apéndice) que Ω⊥ 0
0 ∩ Ω = hPΩ B i y reencontrar ası́ el test 5.6.
Ejemplo 5.6.3
Consideremos de nuevo el diseño cross-over explicado en el ejemplo 5.3.2. Supongamos
ahora que la influencia γ de un fármaco sobre el otro no es recı́proca. El efecto aditivo
no es necesariamente el mismo cuando se administra a después de b, que cuando se
administra b después de a. Entonces debemos introducir los parámetros
γ1 : influencia de a sobre b
γ2 : influencia de b sobre a
y admitir que la matriz de diseño reducida, para los parámetros µ, α, β, γ 1 , γ2 es
1 1 0 0 0
1 0 1 1 0
XR = 1 0
rg XR = 4
1 0 0
1 1 0 0 1
que representa una alternativa a la propuesta inicialmente para los parámetros µ, α, β, γ
1 1 0 0
1 0 1 1
eR =
X rg XeR = 3
1 0 1 0
1 1 0 1
e R y XR ,
Es fácil ver que se verifica 5.15. El análisis de la varianza para decidir entre X
sobre los datos de la tabla 5.2, se encuentra en la tabla 5.4. Como F no es significativo
se admite como válido el modelo más simple representado por X e R.
83
grados de suma de cuadrados
libertad cuadrados medios F
Desviación
hipótesis 1 600,6 600,6 3,898
Tabla 5.4: Tabla del análisis de la varianza para contrastar dos modelos de cross-over
> y<-c(17,34,26,10,19,17,8,16,13,11,
+ 17,41,26,3,-6,-4,11,16,16,4,
+ 21,20,11,26,42,28,3,3,16,-10,
+ 10,24,32,26,52,28,27,28,21,42)
> alpha<-c(rep(1,10),rep(0,10),rep(0,10),rep(1,10))
> beta<-c(rep(0,10),rep(1,10),rep(1,10),rep(0,10))
> gamma<-c(rep(0,10),rep(1,10),rep(0,10),rep(1,10))
Los modelos lineales se definen en S-PLUS con la función lm. Ası́, el modelo general y el
modelo bajo la hipótesis nula se definen como
> crossover.lm<-lm(y~alpha+beta+gamma)
> crossover.lm0<-lm(y~gamma)
> anova(crossover.lm0,crossover.lm)
Analysis of Variance Table
Model 1: y ~ gamma
Model 2: y ~ alpha + beta + gamma
Res.Df RSS Df Sum of Sq F Pr(>F)
1 38 6931.1
84
2 37 6147.9 1 783.2 4.7137 0.03641 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Del mismo modo también se puede realizar el contraste de modelos propuesto en el ejemplo
5.6.3. En este caso, el modelo más general necesita las columnas correspondientes a los
parámetros γ1 , γ2 .
> gamma1<-c(rep(0,10),rep(1,10),rep(0,10),rep(0,10))
> gamma2<-c(rep(0,10),rep(0,10),rep(0,10),rep(1,10))
> crossover.lm1<-lm(y~alpha+beta+gamma1+gamma2)
> anova(crossover.lm,crossover.lm1)
Analysis of Variance Table
85
5.8. Ejercicios
Ejercicio 5.1
Sean X ∼ N (µ1 , σ), Y ∼ N (µ2 , σ) variables independientes. En muestras de extensión n1
de X, n2 de Y , plantear la hipótesis nula
H0 : µ 1 = µ 2
Ejercicio 5.2
Una variable Y depende de otra x (variable control no aleatoria) que toma los valores
x1 = 1, x2 = 2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal
yi = β0 + β1 xi + β2 x2i + i
H0 : β 2 = 0
Ejercicio 5.3
Probar que una hipótesis lineal de matriz A es contrastable si y sólo si
A(X0 X)− X0 X = A
Ejercicio 5.4
Con el modelo del ejercicio 3.10:
Ejercicio 5.5
Dado el siguiente modelo lineal normal
β1 + β 2 = 6,6
2β1 + β2 = 7,8
−β1 + β2 = 2,1
2β1 − β2 = 0,4
Ejercicio 5.6
Consideremos el modelo lineal normal Y = Xβ + . Probar que para la hipótesis lineal
H0 : Xβ = 0
86
Ejercicio 5.7
Demostrar que para una hipótesis lineal contrastable se verifica
Ejercicio 5.8
Demostrar que para una hipótesis lineal contrastable se verifica la siguiente descomposi-
ción en suma de cuadrados
b H k2 = kY − Yk
kY − Y b 2 + kY
b −Y
b H k2
Ejercicio 5.9
Supongamos que cada uno de los valores x1 , x2 , . . . , x12 son las observaciones de los ángu-
los a, a0 , A, A0 , b, b0 , B, B 0 , c, c0 , C, C 0 del triángulo del gráfico adjunto. Los errores de las
observaciones 1 , . . . , 12 se asume que son independientes y con distribución N (0, σ 2 ).
Antes de escribir el modelo asociado a estos datos observemos que, aunque aparentemente
hay 12 parámetros a, a0 , . . . , éstos están ligados por las conocidas propiedades de un
triángulo, es decir
a = a0 A = A0 a + A = 180 a + b + c = 180
y1 = α + 1 y2 = α + 2 y3 = −α + 3 y4 = −α + 4
y5 = β + 5 y6 = β + 6 y7 = −β + 7 y8 = −β + 8
y9 = −α − β + 9 y10 = −α − β + 10 y11 = α + β + 11 y12 = α + β + 12
donde
y1 = x 1 y2 = x 2 y3 = x3 − 180 y4 = x4 − 180
y5 = x 5 y6 = x 6 y7 = x7 − 180 y8 = x8 − 180
y9 = x9 − 180 y10 = x10 − 180 y11 = x11 y12 = x12
Deseamos contrastar la hipótesis de que el triángulo es equilátero, es decir, que a = b =
c = 60. Pero si a = 60, b = 60, c es automáticamente 60, luego la hipótesis es
H0 : α = β = 60
Ejercicio 5.10
Con el modelo cross-over expuesto en el ejemplo 5.3.2 calcular los siguientes elementos:
(a) Una estimación de los parámetros mediante la fórmula (X0R DXR )− X0R DȲ.
87
(b) La suma de cuadrados residual
X
SCR = Y 0 Y − Y0 PY = yij2 − Y0 PY
4 4
!
X X
= Na ȳi·2 + s2i − Y0 PY
i=1 i=1
4 4
!
X X
= Na ȳi·2 + s2i − Ȳ0 DXR (X0R DXR )− X0R DȲ
i=1 i=1
α̂ − β̂
t=
ee(α̂ − β̂)
88
Capı́tulo 6
Sea Y una variable aleatoria y x una variable controlable, es decir, los valores que toma x
son fijados por el experimentador. Supongamos que calculamos Y para diferentes valores
de x de acuerdo con el siguiente modelo
yi = β 0 + β 1 xi + i i = 1, . . . , n (6.1)
Ahora podemos aplicar toda la teorı́a general desarrollada en los capı́tulos anteriores para
un modelo lineal cualquiera, al caso particular de la regresión lineal simple.
89
la solución es
β̂0 = ȳ − β̂1 x̄
Sxy sxy
βˆ1 = = 2
Sx sx
donde
X X X X
Sxy = xi yi − (1/n) xi yi = (xi − x̄)(yi − ȳ) = n sxy
X X X
Sx = x2i − (1/n)( xi ) 2 = (xi − x̄)2 = n s2x
y − ȳ = β̂1 (x − x̄)
lo que deja claro que la recta pasa por el punto (x̄, ȳ) y que el modelo es válido en el
rango de las xi , centrado en x̄. Ésta es también la recta que se obtiene a partir del modelo
equivalente con los datos xi centrados (ver ejemplo 5.6.2 y ejercicio 6.3).
Recordemos que por lo que hemos estudiado, estas estimaciones son insesgadas y de
varianza mı́nima entre todos los estimadores lineales (teorema de Gauss-Markov). Las
varianzas y covarianza de los estimadores son
b = var( β̂ 0 ) cov( β̂ 0 , β̂ 1 )
var(β) = σ 2 (X0 X)−1 (6.2)
cov(β̂0 , β̂1 ) var(β̂1 )
Es decir
2 1 x̄2
E(β̂0 ) = β0 var(β̂0 ) = σ + (6.3)
n Sx
σ2
E(β̂1 ) = β1 var(β̂1 ) = (6.4)
Sx
x̄
cov(β̂0 , β̂1 ) = −σ 2 (6.5)
Sx
Ejemplo 6.1.1
Vamos a ilustrar el cálculo “manual” de las estimaciones de los parámetros con un ejemplo
muy sencillo de muy pocos datos.
Supongamos que una empresa de compra-venta de automóviles organiza exposiciones los
fines de semana i contrata un número variable de vendedores que oscila entre 3 y 8.
El gerente de esta empresa quiere estudiar la relación entre el número de vendedores
y el número de coches vendidos ya que, si es posible, podrı́a prever las ventas a partir
del número de vendedores que contrata. Para aclararlo, el gerente examina el registro
de ventas de los últimos cuatro meses y localiza un perı́odo de 10 semanas durante las
cuales no hubo ningún incentivo especial ni a la venta ni a la compra. El número de
90
Gráfico de dispersión
Semana Vendedores Coches 30
1 5 10
2 6 20 20
Coches
3 5 18
4 4 10
10
5 3 7
6 4 14
7 7 21 0
8 6 15 0 2 4 6 8 10
9 5 13 Vendedores
10 8 22
coches vendidos durante este perı́odo y el número de vendedores empleados en cada caso
se muestra en la tabla adjunta.
Para examinar esta relación es muy útil empezar por dibujar un diagrama de dispersión.
Este gráfico muestra una relación bastante evidente entre el número de vendedores y las
ventas, relación que se podı́a esperar. Vamos a cuantificarla con la ayuda de la recta de
regresión MC.
En la siguiente tabla tenemos los cálculos necesarios para obtener los coeficientes de
regresión, las predicciones, los residuos y la suma de cuadrados de los errores para los
datos de las 10 semanas. Esta tabla se ha calculado con una hoja de cálculo, lo que permite
una mayor precisión en los cálculos sucesivos.
91
La ecuación de la recta de regresión es
y = −0,821 + 2,985x
o también
y − 15 = 2,985 (x − 5,3)
Para calcular la precisión de estas estimaciones, primero debemos estimar la varianza del
modelo.
Nota: Una aplicación de hojas de cálculo como Microsoft Excel tiene la función ESTI-
MACION.LINEAL que calcula de forma directa los coeficientes de regresión y algunos
estadı́sticos más. Otra función matricial es TENDENCIA que permite calcular directa-
mente las predicciones. Además, Excel lleva un conjunto de macros opcionales llamadas
“Herramientas para análisis” que, entre otras cosas, calculan una regresión lineal comple-
ta.
En el ejemplo anterior, se comprueba que las suma de los residuos es cero, salvo problemas
de redondeo. Esto no es una casualidad. Vamos a ver algunas propiedades adicionales para
las predicciones ŷi = β̂0 + β̂1 xi y para los residuos ei = yi − ŷi , cuya demostración se deja
para el lector (ver ejercicio 6.4).
P
(i) La suma de los residuos es cero: ei = 0.
P P
(ii) yi = ŷi
(iii) La
P suma de los residuos ponderada por los valores de la variable regresora es cero:
xi ei = 0.
(iv) La sumaPde los residuos ponderada por las predicciones de los valores observados
es cero: ŷi ei = 0.
Teorema 6.2.1
Consideremos el coeficiente de correlación muestral, cuyo significado es convencional,
sxy Sxy
r= =
sx sy (Sx Sy )1/2
Entonces se verifican las siguientes relaciones
92
P P P
(i) (yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
P P
(ii) SCR = (yi − ŷi )2 = (1 − r 2 ) (yi − ȳ)2 = (1 − r 2 )Sy
P
(iii) σ̂ 2 = ( e2i )/(n − 2) = (1 − r 2 )Sy /(n − 2)
Demostración:
X X
(yi − ȳ)2 = (yi − ŷi + ŷi − ȳ)2
X X X
= (yi − ŷi )2 + (ŷi − ȳ)2 + 2 (yi − ŷi )(ŷi − ȳ)
P P P
pero (yi − ŷi )(ŷi − ȳ) = (yi − ŷi )ŷi − ȳ (yi − ŷi ) = 0 por las propiedades del apartado
anterior. También podemos recordar la ortogonalidad de los subespacios de los errores y
de las estimaciones. Queda ası́ demostrada la relación (i).
Por otra parte, es fácil ver que
X X X
(ŷi − ȳ)2 = β̂12 (xi − x̄)2 = r2 (yi − ȳ)2
Luego X X
(yi − ŷi )2 = (1 − r 2 ) (yi − ȳ)2
Como consecuencia tenemos que el estimador centrado de la varianza σ 2 del modelo 6.1
es
σ̂ 2 = SCR/(n − 2) = (1 − r 2 )Sy /(n − 2) (6.6)
La descomposición de la suma de cuadrados de las observaciones en dos términos inde-
pendientes se interpreta ası́: la variabilidad de la variable Y se descompone en un primer
término que refleja la variabilidad no explicada por la regresión, que es debida al azar, y
el segundo término que contiene la variabilidad explicada o eliminada por la regresión y
puede interpretarse como la parte determinista de la variabilidad de la respuesta.
Podemos definir:
X
Variación total = VT = (yi − ȳ)2 = Sy
X
Variación no explicada = VNE = (yi − ŷi )2 = SCR
X
Variación explicada = VE = (ŷi − ȳ)2 = β̂12 Sx
de forma que
VT = VNE + VE (6.7)
Definición 6.2.1
Una medida del ajuste de la recta de regresión a los datos es la proporción de variabilidad
explicada que definimos con el nombre de coeficiente de determinación ası́:
VE SCR
R2 = =1−
VT Sy
93
Esta medida se puede utilizar en cualquier tipo de regresión, pero en el caso particular
de la regresión lineal simple con una recta tenemos
(1 − r2 )Sy
R2 = 1 − = r2
Sy
que es el cuadrado del coeficiente de correlación lineal entre las dos variables.
El coeficiente de determinación R2 es una medida de la bondad del ajuste, 0 ≤ R2 ≤ 1,
mientras que el coeficiente de correlación es una medida de la dependencia lineal entre
las dos variables, cuando son aleatorias y sólo hay una variable regresora.
Ejemplo 6.2.1
Continuando con el ejemplo de los datos de ventas tenemos:
SCR = 58,896
σ̂ 2 = 58,896/8 = 7,362 σ̂ = 2,713
VT = Sy = 238
58,896
R2 = 1 − = 0,7525
238
donde
b = σ 2 (X0 X)−1 = σ 2 1/n + x̄/Sx −x̄/Sx
var(β)
−x̄/Sx 1/Sx
como hemos visto en 6.2–6.5. Además sabemos que β b es independiente de SCR.
Como consecuencia de estas distribuciones hemos demostrado (ver 3.3 o 5.10) que para
contrastar una hipótesis del tipo H0 : a0 β = c se utiliza el estadı́stico
b −c
a0 β
t = 2 0 0 −1 1/2 (6.8)
(σ̂ (a (X X) a))
94
Si H0 : β1 = 0 es cierta, el modelo 6.1 se simplifica y se convierte en
yi = β 0 + i
de donde X X
SCRH = (yi − β̂0|H )2 = (yi − ȳ)2 = Sy (6.9)
Tabla 6.3: Tabla del análisis de la varianza para contrastar la significación de la regresión
El hecho de aceptar H0 : β1 = 0 puede implicar que la mejor predicción para todas las
observaciones es ȳ, ya que la variable x no influye, y la regresión es inútil. Pero también
podrı́a pasar que la relación no fuera de tipo recta.
Rechazar la hipótesis H0 : β1 = 0 puede implicar que el modelo lineal 6.1 es adecuado.
Pero también podrı́a ocurrir que no lo sea. En todo caso, es muy importante no confundir
la significación de la regresión con una prueba de causalidad. Los modelos de regresión
únicamente cuantifican la relación lineal entre la variable respuesta y las variables expli-
cativas, una en el caso simple, pero no justifican que éstas sean la causa de aquella.
Tanto la adecuación del modelo 6.1, como la hipótesis de normalidad han de estudiarse
a través del análisis de los residuos.
β̂0 − b0
t=
(σ̂ 2 (1/n+ x̄2 /Sx ))1/2
que, si la hipótesis es cierta, sigue una distribución t de Student con n − 2 grados de
libertad.
95
6.3.3. Intervalos de confianza para los parámetros
Además de los estimadores puntuales de β0 , β1 y σ 2 , con las distribuciones estudiadas
podemos proporcionar intervalos de confianza para estos parámetros. El ancho de estos
intervalos estará en función de la calidad de la recta de regresión.
Con la hipótesis de normalidad y teniendo en cuenta las distribuciones de β̂0 y β̂1 estu-
diadas, un intervalo de confianza para la pendiente β1 con nivel de confianza 100(1 − α) %
es
β̂1 ± tn−2 (α) · (σ̂ 2 /Sx )1/2
donde tn−2 (α) es tal que P [|tn−2 | < tn−2 (α)] = 1 − α.
Análogamente, para β0 es
Las cantidades
ee(β̂1 ) = (σ̂ 2 /Sx )1/2 ee(β̂0 ) = (σ̂ 2 (1/n + x̄2 /Sx ))1/2
son los errores estándar de la pendiente β̂1 y la intercepción β̂0 , respectivamente. Se trata
de estimaciones de la desviación tı́pica de los estimadores. Son medidas de la precisión
de la estimación de los parámetros.
Como sabemos
SCR 1
σ̂ 2 = = Sy (1 − r2 )
n−2 n−2
es el estimador insesgado de σ 2 y la distribución de SCR/σ 2 es ∼ χ2n−2 . Ası́, el intervalo
de confianza al 100(1 − α) % de σ 2 es
SCR SCR
≤ σ2 ≤
χ2n−2 (α/2) χ2n−2 (1
− α/2)
donde χ2n−2 (α/2) y χ2n−2 (1 − α/2) son los valores de una χ2n−2 para que la suma de las
probabilidades de las colas sea α.
β0 + β1 x0 = (1, x0 )β = x00 β
b de manera que
cuyo estimador es ŷ0 = x00 β,
b = σ 2 x0 (X0 X)−1 x0
var(x00 β) 0
96
b es
y el error estándar de x00 β
b = [σ̂ 2 (1/n + (x0 − x̄)2 /Sx )]1/2
ee(x00 β)
Entonces, el intervalo de confianza para la respuesta media E[Y |x0 ] es
s
1 (x0 − x̄)2
ŷ0 ± tn−2 (α) · σ̂ +
n Sx
Destacaremos el hecho de que evidentemente el ancho del intervalo depende de x0 , es
mı́nimo para x0 = x̄ y crece cuando |x0 − x̄| crece. Esto es intuitivamente razonable.
97
6.3.6. Región de confianza y intervalos de confianza simultáneos
Habitualmente, los intervalos de confianza se dan de forma conjunta para los dos paráme-
tros β0 , β1 de la regresión simple. Sin embargo, la confianza conjunta de ambos intervalos
no es 100(1−α) %, aunque los dos se hayan construido para verificar ese nivel de confianza.
Si deseamos que el nivel de confianza conjunta sea el 100(1 − α) % debemos construir una
región de confianza o, alternativamente, los llamados intervalos de confianza simultáneos.
A partir de la distribución de la ecuación 5.9 sabemos que, en general,
b = Iβ
donde, en este caso, Aβ b = (β̂0 , β̂1 )0 y q = 2. Ası́ pues
b − β)0 X0 X(β
(β b − β)
∼ F2,n−2
2ECM
y
0 n P nx̄
XX=
nx̄ x2i
Con esta distribución se puede construir una región de confianza al 100(1 − α) % para
β0 , β1 conjuntamente que viene dada por la elipse
b − β)0 X0 X(β
(β b − β)
≤ F2,n−2 (α)
2ECM
Con el mismo objetivo, se pueden utilizar diversos métodos de obtención de intervalos
simultáneos del tipo
β̂j ± ∆ · ee(β̂j ) j = 0, 1
Por ejemplo, el método de Scheffé proporciona los intervalos simultáneos
yi = β 1 xi + i i = 1, . . . , n
y su varianza es
1 X 1
var(β̂1 ) = P 2 2 x2i var(yi ) = σ 2 P 2
( xi ) xi
98
El estimador de σ 2 es
2 1 X 2 X
σ̂ = SCR/(n − 1) = yi − β̂1 xi yi (6.11)
n−1
Es preciso estar muy seguros para utilizar este modelo. Frecuentemente la relación entre
la variable respuesta Y y la variable regresora x varı́a cerca del origen. Hay ejemplos
en quı́mica y en otras ciencias. El diagrama de dispersión nos puede ayudar a decidir el
mejor modelo. Si no estamos seguros, es mejor utilizar el modelo completo y contrastar
la hipótesis H0 : β0 = 0.
Una medida del ajuste del modelo a los datos es el error cuadrático medio 6.11 que se
puede comparar con el del modelo completo 6.6. El coeficiente de determinación R 2 no
es un buen ı́ndice para comparar los dos tipos de modelos.
Para el modelo sin β0 , la descomposición
X X X
yi2 = (yi − ŷi )2 + ŷi2
que no es comparable con el R2 de la definición 6.2.1. De hecho puede ocurrir que R02 > R2 ,
aunque ECM0 < ECM.
6.5. Correlación
Consideremos la situación en la que las dos variables son aleatorias, tanto la la variable
respuesta como la variable explicativa o regresora. De modo que tomamos una muestra
aleatoria simple de tamaño n formada por las parejas (x1 , y1 ), . . . , (xn , yn ) de dos variables
aleatorias (X, Y ) con distribución conjunta normal bivariante
2
0 0 σ1 σ1 σ2 ρ
(X, Y ) ∼ N2 (µ, Σ) µ = (µ1 , µ2 ) Σ=
σ1 σ2 ρ σ22
99
La distribución condicionada de Y dado un valor de X = x es
2
Y |X = x ∼ N (β0 + β1 x, σ2·1 )
donde
σ2
β0 = µ 1 − µ 2 ρ
σ1
σ2
β1 = ρ
σ1
2
σ2·1 = σ22 (1 − ρ2 )
E[Y |X = x] = β0 + β1 x
H 0 : Y i = β 0 + β 1 xi + i
H1 : Yi = g(xi ) + i
100
donde g(x) es una función no lineal desconocida de x. Sin embargo, vamos a ver que
podemos reconducir el contraste a la situación prevista en la sección 5.6.2 para la elección
entre dos modelos lineales.
Necesitamos ni valores de Y para cada xi . Con un cambio de notación, para cada i =
1, . . . , k, sean
P P
xi : yi1 , . . . , yini ȳi = (1/ni ) j yij s2yi = (1/ni ) j (yij − ȳi )2
P P
ȳ = (1/n) i,j yij s2y = (1/n) i,j (yij − ȳ)2 n = n1 + · · · + n k
Introducimos a continuación el coeficiente
k
2 1 X s2yi
η̂ = 1 − ni (6.12)
n i=1 s2y
que verifica 0 ≤ η̂ 2 ≤ 1, y mide el grado de concentración de los puntos (xi , yij ) a lo largo
de la curva y = g(x) (ver figura 6.1).
101
1) Solamente se puede aplicar este test si se tienen ni > 1 observaciones de Y para
cada xi (i = 1, . . . , k).
a) 0 ≤ η 2 ≤ 1
b) η 2 = 0 =⇒ y = E(Y ) (la curva es la recta y = constante).
c) η 2 = 1 =⇒ y = g(X) (Y es función de X)
H0 : y i = µ + i
H1 : yi = g(xi ) + i
η̂ 2 /(k − 1)
F = (6.14)
(1 − η̂ 2 )/(n − k)
Comparando 6.14 con 6.10, podemos interpretar 6.14 como una prueba de signifi-
cación de la razón de correlación.
Ejemplo 6.6.1
Se mide la luminosidad (en lúmenes) de un cierto tipo de lámparas después de un tiempo
determinado de funcionamiento (en horas). Los resultados para una serie de 3, 2, 3, 2 y 2
lámparas fueron:
102
Con estos datos podemos ilustrar algunos aspectos de la regresión lineal de la luminosidad
sobre el tiempo de funcionamiento.
ȳ1 = 5445 ȳ2 = 4750 ȳ3 = 4566,7 ȳ4 = 4310 ȳ5 = 4005
s2y1 = 1050 s2y2 = 2500 s2y3 = 1155,5 s2y4 = 100 s2y5 = 25
ȳ = 4680,42 s2y = 250077 n = 12 k=5
k
1 X s2yi
η̂ 2 = 1 − ni = 0,996
n i=1 s2y
Aplicando 6.13
(0,996 − 0,939)/3
F = = 33,3
(1 − 0,996)/7
con 3 y 7 g.l. Se puede rechazar que la regresión es lineal.
Aplicando ahora 6.14
0,996/4
F = = 435,7
(1 − 0,996)/7
vemos que la razón de correlación es muy significativa.
103
Los dos modelos de regresión simple para las dos poblaciones por separado son
ECM = SCR/(n1 + n2 − 4)
104
Test de coincidencia
Se trata de investigar si las dos rectas se pueden considerar iguales, es decir, vamos a
contrastar la hipótesis
H0 : α 1 = α 2 , β 1 = β 2
Ésta es una hipótesis lineal contrastable (el modelo es de rango máximo) del tipo H0 :
Aγ = 0 con
α1
1 −1 0 0
α2
Aγ =
0 0 1 −1 β1
β2
donde A es 2 × 4 y q = rg A = 2. Luego podrı́amos utilizar las fórmulas obtenidas para
el contraste. Sin embargo, en este caso es mucho más fácil calcular directamente la suma
de cuadrados bajo la hipótesis.
Bajo H0 la estimación MC de los parámetros comunes α = α1 = α2 y β = β1 = β2 es
sencillamente la que se obtiene del modelo lineal conjunto, es decir, una única recta de
regresión con todos los datos juntos:
α∗ = ȳ − β ∗ x̄
1/2
∗ Sy
β =r
Sx
Luego
n1
X n2
X
∗ ∗ 2
SCRH = (y1i − α − β x1i ) + (y2i − α∗ − β ∗ x2i )2
i=1 i=1
= Sy (1 − r2 )
Test de paralelismo
H00 : β1 = β2
para la que A es 1 × 4 y q = rg A = 1.
Bajo H00 , la estimación MC de los parámetros α1 , α2 y β = β1 = β2 se obtiene de la
minimización de
n1
X n2
X
2
ξ= (y1i − α1 − βx1i ) + (y2i − α2 − βx2i )2
i=1 i=1
105
Las derivadas parciales son
X 1n
∂ξ
= 2(y1i − α1 − βx1i )(−1)
∂α1 i=1
X 2n
∂ξ
= 2(y2i − α2 − βx2i )(−1)
∂α2 i=1
X 1n X 2 n
∂ξ
= 2(y1i − α1 − βx1i )(−x1i ) + 2(y2i − α2 − βx2i )(−x2i )
∂β i=1 i=1
106
Test de concurrencia
se alcanza cuando
−1 Pn1 P 2
x2 x22· x1· x1i y1i x2· ni=1 x2i y2i
ᾰ = n1 + n2 − Pn11· − Pn2 2 y·· − i=1
Pn1 2 − Pn2 2
x21i
i=1 i=1 x2i i=1 x1i i=1 x2i
Pn1 Pn2
i=1 (y1i − ᾰ)x1i (y2i − ᾰ)x2i
β̆1 = Pn1 2 β̆2 = i=1Pn2 2
i=1 x1i i=1 x2i
P P h P 1 P 2
donde y·· = 2h=1 ni=1 yhi , x1· = ni=1 x1i y x2· = ni=1 x2i .
Con estos resultados se puede calcular la suma de cuadrados
nh
2 X
X
SCRH 00 = (yhi − ᾰ − β̆h xhi )2
h=1 i=1
y el estadı́stico
SCRH 00 − SCR
F =
ECM
00
que, bajo H0 , sigue una distribución F1,n1 +n2 −4 .
El test que acabamos de ver contrasta la concurrencia de las dos rectas en x = 0. Si
deseamos comprobar la concurrencia en un punto x = c, bastará aplicar este mismo test
sustituyendo los datos xhi por xhi − c. Si lo que queremos es saber simplemente si las
rectas se cortan (en algún punto), es suficiente con rechazar la hipótesis de paralelismo.
Y = α h + β h xh + h = 1, . . . , H
donde E() = 0 y var() = σ 2 es la misma para cada recta. Esta última condición
es absolutamente imprescindible para poder aplicar los contrastes estudiados al modelo
lineal conjunto que ahora describiremos.
Para cada h, consideremos los nh pares (xhi , yhi ) i = 1, . . . , nh de modo que
107
Sea Y = (y11 , . . . , y1n1 , . . . , yH1 , . . . , yHn2 )0 y
α1
α2
..
1 0 ··· 0 x1 0 ··· 0
.
0 1 ··· 0 0 x2 ··· 0
αH
Xγ = .... . . .. .. .. ... ..
. . . . . . . β1
0 0 ··· 1 0 0 · · · xH β2
..
.
βH
Y = Xγ +
P
donde X es N × 2H, con rg(X) = 2H y N = H h=1 nh .
De esta forma podemos contrastar cualquier hipótesis lineal de la forma H0 : Aγ = c.
La estimación MC de los parámetros αh , βh de este modelo se obtiene de cada recta
particular
P 1/2
i (yP
hi − ȳh· )(xhi − x̄h· ) Syh
β̂h = 2
= rh
i (xhi − x̄h· ) Sxh
α̂h = ȳh· − β̂h x̄h·
donde x̄h· , Sxh , ȳh· , Syh , rh son las medias, sumas de cuadrados de las desviaciones y coe-
ficiente de correlación para cada una de las muestras h = 1, . . . , H respectivamente.
También la suma de cuadrados general SCR es simplemente la suma de las sumas de
cuadrados de los residuos de cada recta de regresión por separado
H nh nh
!
X X X
2 2 2
SCR = (yhi − ȳh· ) − β̂h (xhi − x̄h· )
h=1 i=1 i=1
XH H
X
= SCRh = Syh (1 − rh2 )
h=1 h=1
XH
= Syh − β̂h2 Sxh
h=1
Test de coincidencia
H0 : α1 = α2 = · · · = αH (= α) ; β1 = β2 = · · · = βH (= β)
108
A partir de las estimaciones MC de los parámetros α, β que se obtienen de la recta
ajustada con todos los puntos reunidos en una única muestra, la suma de cuadrados
residual es
nh
H X
X
SCRH = (yhi − ȳ·· − β ∗ (xhi − x̄·· ))2
h=1 i=1
XH X nh nh
H X
X
2
= (yhi − ȳ·· ) − (β )∗ 2
(xhi − x̄·· )2
h=1 i=1 h=1 i=1
2
= Sy (1 − r )
donde P P 1/2
∗ (y hi − ȳ ·· )(x hi − x̄ ·· ) Sy
β = h Pi P 2
=r
h i (xhi − x̄·· ) Sx
y los estadı́sticos x̄·· , Sx , ȳ·· , Sy , r son las medias, sumas de cuadrados de las desviaciones
y coeficiente de correlación de la muestra conjunta.
Entonces el estadı́stico F para el contraste de esta hipótesis es
(SCRH − SCR)/(2H − 2)
F = (6.17)
SCR/(N − 2H)
Contraste de paralelismo
Ahora se trata de investigar si las pendientes de las rectas son iguales, es decir, si
H00 : β1 = β2 = · · · = βH
En este caso, la matriz A que representa las restricciones de los parámetros es (H −1)×2H
y su rango es H − 1. De modo que tomando, en el contraste F , los valores q = H − 1,
n = N y k = 2H, el estadı́stico especificado para este contraste es
(SCRH 0 − SCR)/(H − 1)
F =
SCR/(N − 2H)
Para calcular el numerador de este estadı́stico podemos proceder con las fórmulas ge-
nerales estudiadas u observar las peculiaridades de este modelo que permiten obtener
SCRH 0 .
P P
Primero hay que minimizar h i (yhi −αh −βxhi )2 , de donde se obtienen los estimadores
109
P P
xhi (yhi − ȳh· )
β̃ = P h P i
x (x − x̄h· )
Ph Pi hi hi
(yhi − ȳh· )(xhi − x̄h· )
= h Pi P 2
h i (xhi − x̄h· )
P
rh (Sxh Syh )1/2
= h P
h Sxh
y el estadı́stico F es P P
( h β̂h2 Sxh − β̃ 2 h Sxh )/(H − 1)
F =
SCR/(N − 2H)
que bajo H00 sigue una distribución FH−1,N −2H .
En la práctica, es aconsejable comenzar por un contraste de paralelismo y, si se acepta,
continuar con el contraste cuyo estadı́stico es
Test de concurrencia
Deseamos contrastar la hipótesis de que todas las rectas se cortan en un punto del eje de
las Y , es decir, para x = 0:
H000 : α1 = α2 = · · · = αH (= α)
(SCRH 00 − SCR)/(H − 1)
F =
SCR/(N − 2H)
110
Cuando los valores de las x son los mismos para todas las rectas, tenemos que nh = n y
xhi = xi para toda h = 1, . . . , H y ası́ las fórmulas son más simples
−1 P
Hx2· x· i xi y·i
ᾰ = Hn − P 2 y·· − P 2
i xi i xi
P P P
x̄ h i yhi (xi − x̄) β̂h
= ȳ·· − P 2
= ȳ·· − x̄ h
H i (xi − x̄) H
var(β̂h )
var(ᾰ) = var(ȳ·· ) + H x̄2
H2 P
σ 2
1 x̄ 2
σ 2 i x2i
= +P 2
= P
H n i (xi − x̄) nH i (xi − x̄)2
o también
α1 − ᾱ αH − ᾱ
H0000 : = ··· =
β1 − β̄ βH − β̄
y desgraciadamente no es lineal.
111
y sabemos que
hay varios métodos, desde los más clásicos de Bartlett(1937) o Hartley(1950), muy sensi-
bles a la no normalidad de los datos, hasta los más robustos entre los que destaca el de
Levene con sus variantes.
Si hacemos fh = nh − 2, el test de Bartlett es
P P
( fh )logS 2 − (fh logSh2 )
T =
C
donde P P P
fh S 2 fh−1 − ( fh )−1
S = P h
2
C =1+
fh 3(H − 1)
Si H0 es cierta, aproximadamente T ∼ χ2H−1 .
Cuando los fh son todos iguales, Hartley propone el estadı́stico
máx{S12 , . . . , SH
2
}
F = 2 2
mı́n{S1 , . . . , SH }
Sin embargo, como se trata de comparar las varianzas a partir de las observaciones o
réplicas de H poblaciones, es mejor considerar el problema como un análisis de la varianza
de un factor. La prueba robusta de Levene sobre la homogeneidad de varianzas se basa
en el análisis de la varianza de un factor con los datos zhi = |yhi − ȳh· |. Para reforzar la
resistencia del método se puede utilizar como medida de localización la mediana.
Finalmente podemos añadir que, cuando la heterogeneidad de las varianzas es evidente,
siempre es posible estudiar alguna transformación potencia de los datos originales y hi que
mejore la situación.
112
obs. x1 (a-d) y(a) y(b) y(c) y(d) x(e) y(e)
1 7 5,535 0,103 7,399 3,864 13,715 5,654
2 8 9,942 3,770 8,546 4,942 13,715 7,072
3 9 4,249 7,426 8,468 7,504 13,715 8,496
4 10 8,656 8,792 9,616 8,581 13,715 9,909
5 12 10,737 12,688 10,685 12,221 13,715 9,909
6 13 15,144 12,889 10,607 8,842 13,715 9,909
7 14 13,939 14,253 10,529 9,919 13,715 11,327
8 14 9,450 16,545 11,754 15,860 13,715 11,327
9 15 7,124 15,620 11,676 13,967 13,715 12,746
10 17 13,693 17,206 12,745 19,092 13,715 12,746
11 18 18,100 16,281 13,893 17,198 13,715 12,746
12 19 11,285 17,647 12,590 12,334 13,715 14,164
13 19 21,385 14,211 15,040 19,761 13,715 15,582
14 20 15,692 15,577 13,737 16,382 13,715 15,582
15 21 18,977 14,652 14,884 18,945 13,715 17,001
16 23 17,690 13,947 29,431 12,187 33,281 27,435
La figura a es la que representan todos los manuales que explican la regresión simple.
El modelo de la regresión lineal simple parece correcto y adaptado a los datos que
permite describir correctamente. El modelo parece válido.
La figura c sugiere todavı́a que el modelo lineal simple no se adapta a los datos,
pero una única observación parece ser la causa. Por contra, las otras observaciones
están bien alineadas pero respecto a otra recta de ecuación y = 4,242+0,503x1 . Hay
pues, un dato verdaderamente sospechoso. La reacción natural del experimentador
será la de investigar con detalle la razón de esta desviación. ¿No será un error de
transcripción? ¿Hay alguna causa que justifique la desviación y que no tiene en
cuenta el modelo lineal simple?
113
30 a 30 b
20 20
10 10
0 0
0 10 20 30 0 10 20 30
30 c 30 d
20 20
10 10
0 0
0 10 20 30 0 10 20 30
30 e
20
10
0
0 10 20 30
Figura 6.2: Gráficos de los cinco conjuntos de datos con la recta de regresión
La figura d tiene un análisis más sutil: los puntos rodean la recta, pero aumentan
las desviaciones a medida que crecen los valores de la variable regresora. Se hace
evidente que la suposición de una varianza común de los residuos no se verifica.
114
de un único punto, si lo suprimimos, incluso no será posible calcular la pendiente
de la recta, ya que la suma de los cuadrados de las desviaciones de las x es cero.
Éste no es el caso del primer conjunto de datos, donde la supresión de un punto no
conduce más que a una ligera modificación de los resultados. Ası́ pues, deberı́amos
ser extremadamente cautos con las posibles utilizaciones de este modelo. Además,
debemos indicar que el experimento definido por los valores de x es muy malo.
> recta.ls<-lsfit(dens,rvel)
> recta<-lm(rvel~dens)
> recta
Call:
lm(formula = rvel ~ dens)
Coefficients:
(Intercept) dens
8.089813 -0.05662558
115
También se pueden obtener otros datos importantes con la función summary:
> recta.resumen<-summary(recta)
> recta.resumen
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) 8.0898 0.1306 61.9295 0.0000
dens -0.0566 0.0022 -26.0076 0.0000
Correlation of Coefficients:
(Intercept)
dens -0.9074
> recta$coef
(Intercept) dens
8.089813 -0.05662558
> recta.resumen$sigma
[1] 0.2689388
En general, podemos saber los diferentes resultados que se obtienen con el comando lm
si escribimos names(recta) o names(summary(recta)).
> names(recta)
[1] "coefficients" "residuals" "fitted.values" "effects" "R" "rank"
[7] "assign" "df.residual" "contrasts" "terms" "call"
> names(summary(recta))
[1] "call" "terms" "residuals" "coefficients" "sigma" "df"
[7] "r.squared" "fstatistic" "cov.unscaled" "correlation"
De modo que podemos utilizar estos datos para nuevos cálculos. Por ejemplo podemos cal-
cular la matriz estimada de covarianzas entre los estimadores de los parámetros σ̂ 2 (X0 X)−1
ası́:
> cov.beta<-round(recta.resumen$sigma^2*recta.resumen$cov.unscaled,6)
> cov.beta
(Intercept) dens
(Intercept) 0.017064 -0.000258
dens -0.000258 0.000005
116
Por otra parte, y aunque el resumen proporcionado por la función summary(recta) inclu-
ye el test F de significación de la regresión, la tabla del Análisis de la Varianza se puede
calcular con la función aov.
> summary(aov(recta))
Df Sum of Sq Mean Sq F Value Pr(F)
dens 1 48.92231 48.92231 676.3944 0
Residuals 22 1.59122 0.07233
> coef(recta)
(Intercept) dens
8.089813 -0.05662558
> coef.recta<-coef(recta)
> names(coef.recta)
[1] "(Intercept)" "dens"
> names(coef.recta)<-NULL # Truco para utilizar mejor los coeficientes
> coef.recta
1 2
8.089813 -0.05662558
> ee0<-sqrt(cov.beta[1,1])
> ee1<-sqrt(cov.beta[2,2])
> c(coef.recta[1]+qt(0.025,22)*ee0,coef.recta[1]+qt(0.975,22)*ee0)
[1] 7.818905 8.360721
> c(coef.recta[2]+qt(0.025,22)*ee1,coef.recta[2]+qt(0.975,22)*ee1)
[1] -0.06126290 -0.05198826
Cabe señalar que si el modelo de regresión simple debe pasar por el origen, es decir, no
tiene término de intercepción, podemos utilizar la función lsfit(x,y,int=F) o la función
lm(y ~ x - 1).
La predicción puntual o por intervalo de nuevos valores de la variable respuesta se puede
hacer con la función predict del modelo lineal. Atención, porque los argumentos en
S-PLUS y R difieren.
Por último, podemos añadir que en R existe un conjunto de datos similares a los explicados
en la sección 6.8:
> data(anscombe)
> summary(anscombe)
117
6.10. Ejercicios
Ejercicio 6.1
Probar que bajo el modelo lineal normal yi = β0P + β1 xi + i las estimaciones MC β̂0 , β̂1
son estocásticamente independientes si y sólo si xi = 0.
Ejercicio 6.2
Comprobar que la pendiente de la recta de regresión es
1/2
Sy sy
β̂1 = r 1/2
=r
Sx sx
Ejercicio 6.3
Consideremos el modelo de regresión simple alternativo
yi = γ0 + γ1 (xi − x̄) + i i = 1, . . . , n
γ̂0 = ȳ
X xi − x̄
γ̂1 = β̂1 = yi
Sx
Ejercicio 6.4
En un modelo de regresión simple, con β0 , demostrar que se verifican las siguientes pro-
piedades para las predicciones ŷi = β̂0 + β̂1 xi y los residuos ei = yi − ŷi :
P
(i) La suma de los residuos es cero: ei = 0.
P P
(ii) yi = ŷi
(iii) La
P suma de los residuos ponderada por los valores de la variable regresora es cero:
xi ei = 0.
(iv) La sumaPde los residuos ponderada por las predicciones de los valores observados
es cero: ŷi ei = 0.
118
Ejercicio 6.5 Modelo de regresión simple estandarizado
A partir de los datos observados de una variable respuesta yi y de una variable regresora
xi se definen unas nuevas variables estandarizadas como
xi − x̄ yi − ȳ
ui = 1/2
vi = 1/2
i = 1, . . . , n
Sx Sy
La estandarización significa que los datos transformados están centrados y los vectores
u = (u1 , . . . , un )0 , v = (v1 , . . . , vn )0 son de longitud uno, es decir, ||u|| = 1 y ||v|| = 1.
Se define el modelo de regresión simple estandarizado como
v i = b 1 ui + i i = 1, . . . , n
Ejercicio 6.6
En el caso de una regresión lineal simple pasando por el origen y con la hipótesis de
normalidad, escribir el contraste de la hipótesis H0 : β1 = b1 , donde b1 es una constante
conocida.
Ejercicio 6.7
Para el modelo lineal simple consideremos la hipótesis
H 0 : y 0 = β 0 + β 1 x0
donde (x0 , y0 ) es un punto dado. Esta hipótesis significa que la recta de regresión pasa
por el punto (x0 , y0 ). Construir un test para esta hipótesis.
Ejercicio 6.8
Hallar la recta de regresión simple de la variable respuesta raı́z cuadrada de la velocidad
sobre la variable regresora densidad con los datos de la tabla 1.1 del capı́tulo 1.
Comprobar las propiedades del ejercicio 6.4 para estos datos.
Calcular la estimación de σ 2 y, a partir de ella, las estimaciones de las desviaciones
estándar de los estimadores de los parámetros β̂0 y β̂1 .
Escribir los intervalos de confianza para los parámetros con un nivel de confianza del
95 %.
Construir la tabla para la significación de la regresión y realizar dicho contraste.
Hallar el intervalo de la predicción de la respuesta media cuando la densidad es de 50
vehı́culos por km. Nivel de confianza: 90 %.
119
Ejercicio 6.9
Comparar las rectas de regresión de hombres y mujeres con los logaritmos de los datos
del ejercicio 1.4.
Ejercicio 6.10
Se admite que una persona es proporcionada si su altura en cm es igual a su peso en kg
más 100. En términos estadı́sticos si la recta de regresión de Y (altura) sobre X (peso)
es
Y = 100 + X
Contrastar, con un nivel de significación α = 0,05, si se puede considerar válida esta
hipótesis a partir de los siguientes datos que corresponden a una muestra de mujeres
jóvenes:
X : 55 52 65 54 46 60 54 52 56 65 52 53 60
Y : 164 164 173 163 157 168 171 158 169 172 168 160 172
Ejercicio 6.11
q
El perı́odo de oscilación de un péndulo es 2π gl , donde l es la longitud y g es la constante
de gravitación. En un experimento observamos tij (j = 1, . . . , ni ) perı́odos correspondien-
tes a li (i = 1, . . . , k) longitudes.
(a) Proponer un modelo, con las hipótesis que se necesiten, para estimar la constante
2π
√
g
por el método de los mı́nimos cuadrados.
longitud perı́odo
18,3 8,58 7,9 8,2 7,8
20 8,4 9,2
21,5 9,7 8,95 9,2
15 7,5 8
2π
Contrastar la hipótesis H0 : √
g
= 2.
120
Capı́tulo 7
y = a + bx
Grupo n = 3k n = 3k + 1 n = 3k + 2
Izquierdo k k k+1
Central k k+1 k
Derecho k k k+1
Repeticiones de los xi nos harán estar alerta para formar tres conjuntos que no separen
los puntos con igual x en conjuntos diferentes. Un examen detallado del tratamiento de
las repeticiones nos puede llevar incluso a formar únicamente dos grupos. Cuando cada
uno de los tercios ha sido definitivamente formado, determinaremos las dos coordenadas
de unos puntos centrales, uno para cada grupo, con la mediana de los valores de las x y
121
la mediana de los valores de las y, por separado. Etiquetaremos las coordenadas de estos
tres puntos centrales con las letras I de izquierda, C de centro i D de derecha:
La figura 7.1 muestra los puntos observados y los puntos centrales de un ejemplo hipotético
con 9 puntos. Como se ve en este gráfico, ninguno de los puntos centrales coincide con un
punto de los datos, ya que las medianas de les x y de las y se han calculado separadamente.
A pesar de ello, los tres podrı́an ser puntos observados, como ocurre a menudo, cuando
las x y las y siguen el mismo orden.
122
El ajuste de una recta en términos de pendiente e intercepción es convencional, pero
usualmente artificial. La intercepción, que da el valor de y cuando x = 0, puede ser
determinada de forma imprecisa, especialmente cuando los valores de x están todos muy
alejados del cero y el cero es un valor sin sentido en el rango de las x. Ajustar la recta
en términos de pendiente y un valor central de las x, como la media, la mediana o xC , es
mucho más útil. Nosotros escogeremos xC por conveniencia y entonces la recta inicial es
y = a∗0 + b0 (x − xC )
ri = yi − [a∗ + b(xi − xC )]
Los gráficos de los residuos son muy útiles en la evaluación del ajuste y para descubrir
patrones de comportamiento inesperados. Pero ahora, de momento, resaltaremos una pro-
piedad general de todo conjunto de residuos, en nuestro problema actual o en situaciones
más complejas:
Para una linea recta esto significa que, con los puntos (xi , ri ), i = 1, . . . , n como datos, ob-
tendremos una pendiente cero y un nivel cero. En otras palabras, los residuos no contienen
más aportación a la recta ajustada.
Una importante caracterı́stica de los procedimientos resistentes es que habitualmente
requieren iteraciones. Es el caso de la recta resistente de los tres grupos. Los residuos de
la recta con la pendiente b0 y el nivel a∗0 no tienen pendiente y nivel cero cuando hacemos
el ajuste de la recta con las mismas xi , aunque los nuevos valores de pendiente y nivel
son substancialmente menores (en magnitud) que b0 y a∗0 . Por esta razón, pensaremos en
b0 y a∗0 como los valores iniciales de una iteración.
El ajuste a una recta de los residuos obtenidos con la recta inicial da unos valores δ1 y γ1
a la pendiente y el nivel, respectivamente. En concreto, utilizaremos los residuos iniciales
(0)
ri = yi − [a∗0 + b0 (xi − xC )], i = 1, . . . , n
en lugar de los yi y repetiremos los pasos del proceso de ajuste. Como el conjunto de los
xi no ha cambiado, los tres grupos y las medianas de los x en los puntos centrales serán
los mismos.
123
Tabla 7.1: Edad y altura de unos niños en una escuela privada.
Niño Edad Altura
(meses) (cm)
1 109 137,6
2 113 147,8
3 115 136,8
4 116 140,7
5 119 132,7
6 120 145,4
7 121 135,0
8 124 133,0
9 126 148,5
10 129 148,3
11 130 147,5
12 133 148,8
13 134 133,2
14 135 148,7
15 137 152,0
16 139 150,6
17 141 165,3
18 142 149,9
Fuente: B.G. Greenberg (1953). “The use of analysis of covariance and balan-
cing in analytical studies”, American Journal of Public Health, 43, 692-699
(datos de la tabla 1, pág. 694).
Ahora podemos avanzar con otra iteración. En general no sabremos si hemos conseguido
un conjunto apropiado de residuos, hasta que verifiquemos el ajuste cero. En la práctica
continuaremos las iteraciones hasta que el ajuste de la pendiente sea suficientemente
pequeño en magnitud, del orden del 1 % o del 0,01 % del tamaño de b0 . Cada iteración
añade su pendiente y su nivel a los valores previos
b1 = b 0 + δ 1 , b 2 = b 1 + δ 2 , . . .
y
a∗1 = a∗0 + γ1 , a∗2 = a∗1 + γ2 , . . .
Las iteraciones son normalmente pocas y los cálculos no muy largos.
Ejemplo 7.1.1
En una discusión en 1953, Greenberg consideró los datos de edad y altura de dos muestras
de niños, una de una escuela privada urbana y la otra de una escuela pública rural. En
la tabla 7.1 se reproducen los datos de los 18 niños de la escuela privada.
Aunque los datos no siguen claramente una linea recta, su patrón no es notablemente
curvado y el ajuste a una linea puede resumir cómo la altura y crece con la edad x en
124
este grupo de niños. Sólo los niños 13 y 17 tienen puntos muy separados y veremos cómo
influyen en el conjunto. Dado que 18 es divisible por 3 y los datos x no tienen repeticiones,
cada grupo contiene seis puntos. Los puntos centrales de cada grupo son
180
160
Altura
140
120
100 110 120 130 140 150
Edad
Figura 7.2: Altura versus edad para los niños de una escuela privada.
Los datos de la tabla 7.2 están ya ordenados en función de los valores de x = Edad y se
han calculado los residuos de la recta inicial.
Para ver cómo van las iteraciones, calcularemos los primeros ajustes de la pendiente y
del nivel
−1,0500 − 0,5367
δ1 = = −0,0705
138,00 − 115,50
γ1 = −0,1519
125
Tabla 7.2: Edad y altura de los niños en los tres grupos y residuos de la recta inicial
126
20
10
Residuos
0
-10
-20
100 110 120 130 140 150
Edad
Figura 7.3: Residuos de la altura versus edad, después del ajuste por la recta resistente.
que tienen alrededor de 120 meses. Si tuviéramos más información, podrı́amos estudiar
porqué estos niños son demasiado altos o demasiado bajos para su edad. Por ejemplo,
podrı́amos separar los niños de las niñas.
En este ejemplo hemos visto cómo dos puntos, hasta cierto punto inusuales, han tenido
muy poco efecto, si han tenido alguno, en el ajuste general de los datos. Una recta ajustada
por el método de los mı́nimos cuadrados corre mucho más riesgo de dejarse influenciar
por estos puntos. Para estos datos la recta de regresión mı́nimo-cuadrática es
y = 79,6962 + 0,5113x
o
y = 144,8853 + 0,5113(x − 127,5)
donde observamos cómo los puntos 5, 7, 8 y 17 han torcido la recta. Además, si el valor de
y del punto 13 no fuera tan bajo, la recta mı́nimo-cuadrática podrı́a ser más empinada. En
todo caso, como la evaluación del ajuste se hace con los residuos, la figura 7.4 nos muestra
los residuos mı́nimo-cuadráticos con la edad. Aunque es bastante similar al anterior,
este gráfico nos da la sensación de una ligera tendencia a la baja. Es decir, los residuos
mı́nimo-cuadráticos resultarı́an más horizontales si elimináramos de ellos una recta con
una pendiente ligeramente negativa.
En este ejemplo la variabilidad de los residuos merece más atención que la diferencia
entre las pendientes de la recta de regresión mı́nimo-cuadrática y la recta resistente. Por
ejemplo, la desviación estándar de los residuos mı́nimo-cuadráticos es 6,8188 y el error
estándar de la pendiente es 0,1621, sobre dos veces la diferencia entre las pendientes.
Ası́ hemos visto, cualitativamente, cómo algunos datos pueden afectar a la recta mı́nimo-
cuadrática mucho más que la recta resistente. En todo caso, cuando los datos están razo-
nablemente bien dispuestos las dos lı́neas son parecidas.
127
20
10
Residuos MC
0
-10
-20
100 110 120 130 140 150
Edad
128
7.2. Métodos que dividen los datos en grupos
Otras técnicas anteriores al método resistente de los tres grupos fueron propuestas e
involucran la división de los datos en grupos. Algunos de estos métodos no pretenden ser
una alternativa al método de los mı́nimos cuadrados y fueron desarrollados para ajustar
una recta “cuando ambas variables están sujetas a error”.
Método de Wald
Wald (1940) propuso dividir los datos en dos grupos de igual tamaño. Idealmente, los
valores teóricos Xi del primer grupo son menores que los del segundo. En la práctica,
porque los valores de Xi son desconocidos, agruparemos los puntos en base a los xi
observados.
Supongamos que n es par y sea m = n/2. Entonces, si asumimos que los valores de x
están ordenados en orden creciente, la pendiente propuesta es
(ym+1 + · · · + yn ) − (y1 + · · · + ym )
bW =
(xm+1 + · · · + xn ) − (x1 + · · · + xm )
Si xm+1 = xm , el método descarta los puntos con repetición en el centro.
El punto de intercepción es
aW = ȳ − bW x̄
donde ȳ y x̄ son las medias totales, de la misma forma que en la recta mı́nimo-cuadrática.
Método de Bartlett
129
de forma que la recta pasa por el punto (x̄, ȳ).
Recta de Brown-Mood
Definición 7.3.1
El punto de colapso (breakdown bound) de un procedimiento para ajustar una recta a n
parejas de datos y-versus-x es la proporción k/n, donde k es el mayor número de puntos
que pueden ser reemplazados arbitrariamente mientras dejen la pendiente y el punto de
intercepción delimitados.
130
Residuos mı́nimo-absolutos
Minimizar la suma de los residuos en valor absoluto tiene una historia casi tan larga como
la del método de los mı́nimos cuadrados. Para ajustar una recta hace falta hallar bM A y
aM A que minimicen
Xn
|yi − aM A − bM A xi |
i=1
Al contrario que para los mı́nimos cuadrados, no hay una fórmula para calcular bM A y
aM A . De hecho, la pendiente y el punto de intercepción pueden no ser únicos.
Como la mediana es la medida que minimiza
n
X
|yi − t|
i=1
hace falta esperar que este procedimiento tenga un alto punto de colapso. Desgraciada-
mente, este colapso es 0. La suma que se minimiza involucra tanto los valores xi como los
yi y ası́ es posible pensar en un punto (xi , yi ) que tome el control de la recta.
Otra forma de aplicar la mediana al ajuste de una recta consiste en determinar, para cada
pareja de puntos, la pendiente y entonces calcular la mediana de estas pendientes. Con
más cuidado, supongamos que los xi son todos diferentes, definimos
yj − y i
bij = 1≤i<j≤n
xj − x i
bT = Med{bij }
Este método es una propuesta de Theil (1950), mejorada por Sen (1968), para manejar
las repeticiones de los xi .
Para deducir el punto de colapso, supongamos que exactamente k de los n puntos son
salvajes. Entonces el número de pendientes salvajes es
k(k − 1
+ k(n − k)
2
Si este número es suficientemente grande, bT quedará descontrolada. Para valores de
n grandes, podemos multiplicar el número de pendientes n(n − 1)/2 por 1/2, el punto
de colapso de la mediana, y igualar con la expresión anterior. Si resolvemos la ecuación
planteada para k, obtenemos un valor de k/n aproximadamente de 0,29. Esto quiere decir
que el punto de colapso de bT es 0,29.
Para conseguir un alto punto de colapso, Siegel (1982) ideó el método de las medianas
repetidas.
131
Empezamos con las pendientes por parejas del método anterior, pero ahora tomaremos
las medianas en dos pasos, primero en cada punto y después para todos
bM R = Med{Med{bij }}
i j6=i
En el primer paso se toma la mediana de las pendientes de n − 1 rectas que pasan por el
punto (xi , yi ) y en el segundo paso se toma la mediana de estas n pendientes.
Para el punto de intercepción calcularemos ai = yi − bM R xi y entonces
aM R = Med{ai }
i
Siegel probó que el punto de colapso de la recta con medianas repetidas es esencialmente
1/2.
7.3.1. Discusión
Ahora que tenemos diversos métodos con diferentes puntos de colapso, ¿cómo podemos
elegir uno?
Una consideración es el grado de resistencia que una particular aplicación pide. Otro
asunto es la precisión relativa de las pendientes estimadas, especialmente en muestras
pequeñas. También es evidente que el tiempo de computación es otro de los factores a
tener en cuenta.
Finalmente, podemos decir que la recta resistente de los tres grupos tiene un comporta-
miento suficientemente bueno en los tres aspectos considerados y, por ello, es el método
resistente que hemos destacado.
132
Capı́tulo 8
8.1. El modelo
De forma análoga al caso de la regresión lineal simple, podemos considerar el modelo
lineal entre una variable aleatoria respuesta Y y un grupo de k variables no aleatorias
x1 , . . . , xk explicativas o regresoras.
Si y1 , . . . , yn son n observaciones independientes de Y , el modelo lineal de la regresión
múltiple se define como
yi = β0 + β1 xi1 + · · · + βk xik + i i = 1, . . . , n (8.1)
donde (xi1 , . . . , xik ) son los valores observados correspondientes a yi y se asumen las
consabidas hipótesis de Gauss-Markov sobre los errores.
En notación matricial, el modelo se escribe
Y = Xβ +
donde Y = (y1 , . . . , yn )0 , β = (β0 , β1 , . . . , βk )0 , = (1 , . . . , n )0 y la matriz de diseño es
1 x11 . . . x1k
1 x21 . . . x2k
X = .. .. ..
. . .
1 xn1 . . . xnk
y cuya solución son las estimaciones β̂0 , β̂1 , . . . , β̂k , sin ningún problema de estimabilidad
ya que el modelo es de rango máximo. Además, estas estimaciones son insesgadas y de
varianza mı́nima.
133
Las predicciones de los valores de Y dadas las observaciones de las variables regresoras
x1 , . . . , xk son
b = Xβ
Y b = PY
es decir
ŷi = β̂0 + β̂1 xi1 + · · · + β̂k xik i = 1, . . . , n (8.2)
También podemos considerar el modelo con las variables regresoras centradas
γ
β1
Y = (1, Z) .. +
.
βk
donde las columnas de Z tienen media cero, es decir, z(j) = x(j) − x̄j 1 o
que verifican las propiedades que se han explicado para la regresión simple en la página 92
(ver ejercicio 6.4).
134
8.2. Medidas de ajuste
Como en la regresión simple, la evaluación del ajuste del hiperplano de regresión a los
datos se puede hacer con la varianza residual o estimación MC de σ 2 .
La suma de cuadrados residual es
X
SCR = e0 e = (yi − β̂0 − β̂1 xi1 − · · · − β̂k xik )2 = Y0 Y − Y0 Xβ̂
que tiene n − m grados de libertad. Ası́, la estimación centrada de la varianza del diseño
es el llamado error cuadrático medio
σ̂ 2 = SCR/(n − m) = ECM
Su raı́z cuadrada σ̂, que tiene las mismas unidades que Y , es el error estándar de la
regresión múltiple. También aquı́, la varianza residual y el error estándar dependen de las
unidades de la variable respuesta y no son útiles para comparar diversas regresiones.
En primer lugar, vamos a introducir el coeficiente de correlación múltiple de Y sobre
x1 , . . . , xk . El uso del término correlación es convencional puesto que las variables regre-
soras no son aleatorias. El coeficiente se define como la correlación muestral entre Y e
Ŷ P
(yi − ȳ)(ŷi − ȳ)
ryx = corr(Y, Ŷ ) = P P
[ (yi − ȳ)2 (ŷi − ȳ)2 ]1/2
P
ya que (1/n) ŷi = ȳ.
El coeficiente de correlación múltiple ryx verifica 0 ≤ ryx ≤ 1 y es una buena medida del
ajuste de Y al modelo Xβ, pues
b =0
ryx = 1 =⇒ kY − Yk
Teorema 8.2.1
Las sumas de cuadrados asociadas a la regresión múltiple verifican:
P P P
(i) (yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
P
2 (ŷi − ȳ)2
(ii) ryx = P
(yi − ȳ)2
P
(iii) SCR = (yi − ŷi )2 = (1 − ryx 2
)Sy
Demostración:
La descomposición en suma de cuadrados (i) se justifica de la misma forma que se ha
visto en el teorema 6.2.1. También se puede ver el ejercicio 5.8.
El hecho fundamental es la ortogonalidad
b 0Y
(Y − Y) b =0
135
Luego
X X
(yi − ȳ)(ŷi − ȳ) = (yi − ŷi + ŷi − ȳ)(ŷi − ȳ)
X X
= (yi − ŷi )(ŷi − ȳ) + (ŷi − ȳ)2
X
= (ŷi − ȳ)2
puesto que el primer sumando es nulo. Teniendo en cuenta la definición de ryx , es fácil
deducir (ii).
Finalmente, combinando (i) y (ii) obtenemos (iii).
Como en 6.7, la descomposición (i) del teorema anterior justifica la definición del coefi-
ciente de determinación
VE SCR
R2 = =1−
VT Sy
También aquı́, esta medida del ajuste verifica 0 ≤ R2 ≤ 1 y coincide con el cuadrado del
coeficiente de correlación múltiple
2
(1 − ryx )Sy
R2 = 1 − 2
= ryx
Sy
Sin embargo, el coeficiente de correlación múltiple ryx es una medida de la asociación
lineal entre la variable respuesta Y y las regresoras x = (x1 , . . . , xk ) que, en este caso, es
convencional.
Como R2 es la proporción de variabilidad explicada por las variables regresoras, resulta
que si R2 ≈ 1, entonces la mayor parte de la variabilidad es explicada por dichas variables.
Pero R2 es la proporción de la variabilidad total explicada por el modelo con todas las
variables frente al modelo y = β0 , de manera que un R2 alto muestra que el modelo mejora
el modelo nulo y por tanto sólo tiene sentido comparar coeficientes de determinación entre
modelos anidados (casos particulares).
Además un valor grande de R2 no necesariamente implica que el modelo lineal es bueno.
El coeficiente R2 no mide si el modelo lineal es apropiado. Es posible que un modelo con
un valor alto de R2 proporcione estimaciones y predicciones pobres, poco precisas. El
análisis de los residuos es imprescindible.
Tampoco está claro lo que significa un valor “grande”, ya que problemas en diversas
ciencias (fı́sica, ingenierı́a, sociologı́a,. . . ) tienen razonablemente criterios diferentes.
Por otra parte, cuando se añaden variables regresoras R2 crece, pero eso no significa que
el nuevo modelo sea superior:
2 SCRnuevo SCR
Rnuevo =1− ≥ R2 = 1 − ⇒ SCRnuevo ≤ SCR
Sy Sy
pero es posible que
SCRnuevo SCR
ECMnuevo = ≥ ECM =
n − (m + p) n−m
luego, en esta situación, el nuevo modelo será peor. Ası́, como R 2 crece al añadir nuevas
variables regresoras, se corre el peligro de sobreajustar el modelo añadiendo términos
innecesarios. El coeficiente de determinación ajustado penaliza esto.
136
Definición 8.2.1
Una medida del ajuste de la regresión múltiple a los datos es el coeficiente de determina-
ción o proporción de variabilidad explicada
VE SCR
R2 = =1−
VT Sy
Sin embargo, para corregir el peligro de sobreajuste se define el coeficiente de determina-
ción ajustado como
SCR/(n − m) n−1
R̄2 = 1 − =1− (1 − R2 )
Sy /(n − 1) n−m
Cuando R̄2 y R2 son muy distintos, el modelo ha sido sobreajustado y debemos eliminar
variables o términos.
137
Extrapolación oculta
2
1
x2
0
-1
-2
-2 -1 0 1 2
x1
Figura 8.1: Conjunto convexo para los puntos de dos variables regresoras
138
Si H0 es cierta, al igual que en 6.9, la estimación del único parámetro que queda en el
modelo es β̂0|H = ȳ y la suma de cuadrados residual es
X
SCRH = (yi − ȳ)2 = Sy
es decir X X X
(yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2
Tabla 8.1: Tabla del análisis de la varianza para contrastar la significación de la regresión
múltiple
Del mismo modo que en la sección 6.5 la hipótesis 8.4 equivale a afirmar que el coeficiente
de correlación múltiple poblacional es cero y se resuelve con el contraste asociado a la
tabla anterior.
139
Significación parcial
donde X1 es n × (m − p) y X2 es n × p.
b = (X0 X)−1 X0 Y y la suma de
Para este modelo, la estimación de los parámetros es β
cuadrados de la regresión es
0 0
b X0 Y) = β
SCR (β) = SCRH − SCR = Y 0 Y − (Y0 Y − β b X0 Y
140
que ya contiene todas las otras variables, como si fuera la última variable añadida al
modelo. El contraste es equivalente al contraste 8.5.
Estos contrastes F parciales juegan un papel muy importante en la búsqueda del mejor
conjunto de variables regresoras a utilizar en un modelo. Por ejemplo, en el modelo
parabólico Y = β0 + β1 x + β2 x2 + estaremos interesados en SCR (β1 |β0 ) y luego en
SCR (β2 |β0 , β1 ) que es la contribución cuadrática al modelo lineal simple.
En el modelo Y = β0 + β1 x1 + β2 x2 + β3 x3 + , la descomposición en suma de cuadrados
es
Sy = SCR (β1 , β2 , β3 |β0 ) + SCR
pero
SCR (β1 , β2 , β3 |β0 ) = SCR (β1 |β0 ) + SCR (β2 |β0 , β1 ) + SCR (β3 |β0 , β1 , β2 )
= SCR (β2 |β0 ) + SCR (β1 |β0 , β2 ) + SCR (β3 |β0 , β1 , β2 )
= ...
Sin embargo, hay que ir con cuidado porque este método no siempre produce una partición
de la suma de cuadrados de la regresión y, por ejemplo,
SCR (β1 , β2 , β3 |β0 ) 6= SCR (β1 |β2 , β3 , β0 ) + SCR (β2 |β1 , β3 , β0 ) + SCR (β3 |β1 , β2 , β0 )
Del mismo modo que hemos explicado en 6.3.6, en regresión múltiple la región con una
confianza conjunta del 100(1 − α) % es
b − β)0 X0 X(β
(β b − β)
≤ Fm,n−m (α)
mECM
Los intervalos simultáneos para los coeficientes de la regresión son del tipo
β̂j ± ∆ · ee(β̂j )
para un conjunto de s coeficientes entre los k + 1. Por ejemplo, el método de Scheffé pro-
porciona los intervalos simultáneos
Los intervalos simultáneos para un conjunto de s respuestas medias a los puntos x01 , . . . , x0s
son
ŷx0j ± ∆(ECM x00j (X0 X)−1 x0j )1/2
donde ∆ = (sFs,n−k−1 (α))1/2 por el método de Scheffé.
141
8.4. Coeficientes de regresión estandarizados
Es difı́cil comparar coeficientes de regresión porque la magnitud de β̂j refleja las unidades
de medida de la variable regresora. Por ejemplo, en el modelo
Y = 5 + x1 + 1000x2
donde x1 se mide en litros y x2 en mililitros, aunque β̂2 = 1000 es mucho mayor que
β̂1 = 1, el efecto sobre Y es el mismo.
Generalmente, las unidades de los coeficientes de regresión son
unidades Y
unidades β̂j =
unidades xj
Por todo ello, frecuentemente es de gran ayuda trabajar con variables estandarizadas que
producen coeficientes de regresión sin dimensión. Básicamente hay dos técnicas:
Escala normal unidad
xij − x̄j
zij = i = 1, . . . , n; j = 1, . . . , k
ŝj
∗ yi − ȳ
yi = i = 1, . . . , n
ŝy
donde
n n n
1X 1 X 1 X
x̄j = xij ŝ2j = (xij − x̄j )2 ŝ2y = (yi − ȳ)2
n i=1 n − 1 i=1 n − 1 i=1
El modelo es
donde las variables regresoras y la variable respuesta tienen media cero y varianza muestral
uno. La estimación del modelo es b b = (b̂1 , . . . , b̂k )0 = (Z0 Z)−1 Z0 Y∗ y b̂0 = ȳ ∗ = 0.
Escala longitud unidad
xij − x̄j
wij = 1/2
i = 1, . . . , n; j = 1, . . . , k
Sj
yi − ȳ
yi0 = 1/2
i = 1, . . . , n
Sy
donde n n
X X
2
Sj = (xij − x̄j ) Sy = (yi − ȳ)2
i=1 i=1
El modelo es
yi0 = b1 wi1 + b2 wi2 + · · · + bk wik + ηi i = 1, . . . , n
donde las variables regresoras y la variable respuesta tienen media cero y longitud
v
u n
uX
t (wij − w̄j )2 = 1
i=1
142
b = (W0 W)−1 W0 Y0 .
y la estimación de los parámetros es b
Pero en este modelo tenemos
1 r12 . . . r1k
r21 1 . . . r2k
0
W W = Rxx = .. .. . . ..
. . . .
rk1 rk2 . . . 1
Z0 Z = (n − 1)W0 W
Z0 Y∗ = (n − 1)W0 Y0
Definición 8.4.1
Se llaman coeficientes de regresión estandarizados los que se obtienen como solución del
sistema de ecuaciones
b1 + r12 b2 + · · · + r1k bk = r1y
r21 b1 + b2 + · · · + r2k bk = r2y
.. .. .. ..
. . . .
rk1 b1 + rk2 b2 + · · · + bk = rky
es decir
Rxx b = Rxy
donde Rxx es la matriz de coeficientes de correlación entre las variables regresoras y
Rxy = (r1y , . . . , rky )0 el vector columna con los coeficientes de correlación entre las varia-
bles regresoras y la respuesta.
R2 = ryx
2
= b̂1 r1y + b̂2 r2y + · · · + b̂k rky
143
Algunos paquetes estadı́sticos calculan ambos conjuntos de coeficientes de regresión. En
algún caso, a los coeficientes de regresión estandarizados les llaman “beta coeficientes” lo
que para nosotros es confuso.
Finalmente señalaremos que debemos cuidar las interpretaciones puesto que los coeficien-
tes estandarizados todavı́a son parciales, es decir, miden el efecto de xj dada la presencia
de las otras variables regresoras. También b̂j está afectado por el recorrido de los valores
de las variables regresoras, de modo que es peligroso utilizar b̂j para medir la importancia
relativa de la variable regresora xj .
Ejemplo 8.4.1
En un estudio sobre la incidencia que puede tener sobre el rendimiento en lenguaje Y ,
la comprensión lectora x1 y la capacidad intelectual x2 , se obtuvieron datos sobre 10
estudiantes tomados al azar de un curso de básica (ver tabla 8.3).
Y x1 x2
3 1 3
2 1 4
4 3 7
9 7 9
6 8 7
7 7 6
2 4 5
6 6 8
5 6 5
8 9 7
144
El coeficiente de determinación es
R2 = ryx
2
= b̂1 · 0,849 + b̂2 · 0,781 = 0,791
y puede afirmarse que hay una buena relación entre el rendimiento en lenguaje y la
comprensión lectora y la capacidad intelectual.
Finalmente, para decidir sobre la hipótesis H0 : β1 = β2 = 0 calcularemos
2
ryx 10 − 3
F = 2
· = 13,22
1 − ryx 3 − 1
con 2 y 7 grados de libertad. Ası́ H0 puede ser rechazada, es decir, la relación anterior es
significativa.
8.5. Multicolinealidad
Cuando la matriz X no es de rango máximo, sabemos que X0 X es singular y no podemos
calcular su inversa. Ya sabemos que la solución puede ser la utilización de alguna g-inversa,
aunque ello implica que la solución de las ecuaciones normales no es única. En el caso de
la regresión múltiple es difı́cil, aunque no imposible, que alguna columna sea linealmente
dependiente de las demás. Si ocurriera esto dirı́amos que existe colinealidad entre las
columnas de X. Sin embargo, el término colinealidad o multicolinealidad se refiere al
caso, mucho más frecuente, de que la dependencia entre las columnas no es exacta sino
aproximada, es decir, a la quasi-dependencia lineal entre las variables regresoras. Esto
puede provocar problemas de computación de los parámetros y en el cálculo de la precisión
de los mismos (ver Apéndice A.4).
Entre las múltiples formas de detección de la multicolinealidad vamos a destacar el cálculo
de los factores de inflación de la varianza. Nosotros hemos visto que la matriz de varianzas-
covarianzas de los estimadores de los parámetros de un modelo lineal es
b = σ 2 (X0 X)−1
var(β)
donde [R−1xx ]jj es el j-ésimo elemento de la diagonal de la matriz. Estas varianzas pue-
den estar “infladas” a causa de la multicolinealidad que puede ser evidente a partir de
la observación de los elementos no nulos fuera de la diagonal de Rxx , es decir, de las
correlaciones simples entre las variables regresoras.
Definición 8.5.1
Los elementos de la diagonal de la matriz R−1 xx se llaman FIV o factores de inflación de
la varianza ya que
var(b̂j ) = σ̃ 2 FIVj
145
Se demuestra que
FIVj = (1 − Ri2 )−1
donde Rj2 es el coeficiente de determinación múltiple de la variable regresora xj con todas
las demás variables regresoras.
El factor de inflación de la varianza FIVj = 1 cuando Rj2 = 0, es decir, cuando xj no
depende linealmente del resto de las variables. Cuando Rj2 6= 0, entonces FIVj > 1 y si
Rj2 ≈ 1, entonces FIVj es grande. Ası́ pues, el factor de inflación de la varianza mide
el incremento que se produce en la varianza de los estimadores de los coeficientes de
regresión al comparar dicha varianza con la que deberı́an tener si las variables regresoras
fuesen incorrelacionadas.
Cuando FIVj > 10 tenemos un grave problema de multicolinealidad. Algunos autores
prefieren calcular la media de los FIVj y alertar sobre la multicolinealidad cuando dicha
media supera el número 10.
Una de las posibles soluciones tras la detección de multicolinealidad es la estimación por
la regresión ridge (ver 4.3.1).
Ejemplo 8.5.1
Con los datos del ejemplo 8.4.1, la matriz de correlaciones Rxx y su inversa son
1,0000 0,6973 −1 1,9465 −1,3574
Rxx = Rxx =
0,6973 1,0000 −1,3574 1,9465
y los factores de inflación de la varianza son FIV 1 = 1,9465, FIV2 = 1,9465, que coinciden
naturalmente cuando k = 2.
yi = β0 + β1 xi + β2 x2i + · · · + βm xm
i + i (8.6)
Observemos que se trata de un modelo de regresión lineal múltiple de Y sobre las variables
x1 = x, x2 = x2 , . . . , xm = xm . Para una regresión polinómica de grado m, la matriz de
diseño es
1 x1 x21 . . . xm 1
1 x 2 x2 . . . x m
2 2
X = .. .. .. ..
. . . .
1 x n xn . . . x m
2
n
Estos modelos se pueden aplicar cuando el analista sabe que efectos curvilı́neos están
presentes en la función respuesta. También se pueden utilizar como aproximaciones a
desconocidas, y posiblemente muy complejas, relaciones no lineales. Ası́, los polinomios
se pueden considerar los desarrollos de Taylor de la función desconocida.
La regresión polinómica se justifica por el teorema de Weierstrass, el cual dice que toda
función continua f (x) se puede aproximar por un polinomio Pm (x) de grado m adecuado.
Se puede probar esta propiedad desde el punto de vista probabilı́stico:
146
Sea f (x) una función continua en el intervalo (0, 1) y consideremos
n
X
Pn (x) = f (k/n)xk (1 − x)n−k
k=0
1) Es muy importante que el orden del polinomio sea tan bajo como sea posible.
Para utilizar polinomio de grado m > 2 se debe justificar con razones externas a
los datos. Existen transformaciones de las variables, en particular de la respuesta,
que hacen que el modelo sea de primer orden. Un modelo de orden bajo con una
variable transformada es casi siempre preferible a un modelo de orden superior con
la métrica original. Se trata de mantener el principio de parsimonia o simplicidad
de los modelos.
3) Debemos ser muy cuidadosos con la extrapolación (ver página 138), ya que las
consecuencias pueden ser ruinosas.
4) Cuando el orden del polinomio es alto, la matriz X0 X está mal condicionada (ver
apéndice A.4 y sección 8.5). Esto provoca problemas graves para el cálculo de los
coeficientes de regresión y deficiencias en la precisión de los mismos. En Seber [61]
pág. 214 se ve un ejemplo en el que variaciones del orden de 10−10 en X0 Y producen
variaciones del orden de 3 en los elementos de β. b
De hecho, los modelos de regresión polinómicos están notablemente mal condicio-
nados cuando el grado es mayor que 5 o 6, particularmente si los valores de x están
igualmente espaciados.
Para reducir el efecto no esencial de la mala condición de los modelos de regresión po-
linómicos se deben centrar las variables regresoras. Además se pueden utilizar polinomios
de Tchebychev o, mejor, polinomios ortogonales.
147
La utilización de polinomios de Tchebychev consiste en considerar el modelo
Tomando inicialmente
T0 (x) = 1 T1 (x) = x
se obtienen
T2 (x) = 2x2 − 1
T3 (x) = 4x3 − 3x
T4 (x) = 8x4 − 8x2 + 1
..
.
148
Entonces, debido a la ortogonalidad, tenemos que
P
φ20 (xi ) P 0 ... 0
0 2
φ1 (xi ) . . . 0
e =
e 0X
X .. .. . ..
. . . .
P 2.
0 0 ... φm (xi )
siendo ahora m
X XX
(ŷi − ȳ)2 = ( φj (xi )γ̂j )2
i i j=1
149
En el caso particular que los valores de x sean igualmente espaciados podemos transfor-
marlos de manera que
xi = i − 12 (n + 1) i = 1, 2, . . . , n
φ0 (x) = 1
φ1 (x) = λ1 x
1
φ2 (x) = λ2 (x2 − 12
(n2 − 1))
1
φ3 (x) = λ3 (x3 − 20
(3n2 − 7)x)
..
.
donde las λj se eligen de forma que los valores de φj (xi ) sean enteros. Estos polinomios
se encuentran tabulados para varios valores de n.
H0 : m = m 0
(8.10)
H1 : m = m 1 > m 0
150
significativo, se contrasta m = 3 con m = 4, y ası́ sucesivamente. El proceso es el inverso
en el caso de elección ascendente.
También es útil tener en cuenta que un descenso importante de la suma de cuadrados
residual Q(m) al pasar de grado k a grado m, es un indicio de que el grado es m.
Finalmente, si disponemos de ni observaciones yi1 , . . . , yini para cada valor de la variable
de control xi i = 1, . . . , p, una vez elegido el grado m, podemos analizar la validez del
modelo planteando el contraste
donde g(x) es una función desconocida de x. La hipótesis nula significa afirmar que
g(x) = Pm (x) es un polinomio de grado m en x. Tenemos entonces (véase 6.12):
X
SCR = (yih − ȳi )2 = ns2y (1 − η̂ 2 ) n−p g.l.
i,h
SCRH = Q(m) = ns2y (1 − ryx
2
) n − m − 1 g.l.
Ejemplo 8.6.1
Se dispone de la respuesta a un test de conducta de dos grupos de ratas, uno control y
otro experimental, para diez observaciones realizadas cada tres dı́as desde el dı́a 47 al dı́a
74 de vida (ver tabla 8.4).
47 25,7 34,1
50 20,1 24,9
53 16,2 21,2
56 14,0 23,3
59 21,3 22,0
62 20,3 30,9
65 28,4 31,4
68 23,5 26,5
71 16,8 23,0
74 9,9 17,2
Tabla 8.4: Datos del test de conducta a dos grupos de ratas
El modelo considerado hace depender la variable conducta (medida mediante el test) del
tiempo t según una función polinómica
151
Para determinar el grado del polinomio al cual se ajustan los valores experimentales se
plantea la hipótesis 8.10 que se resuelve mediante el test F 8.11.
Los resultados, obtenidos según el método de los polinomios ortogonales, son los siguientes
grupo control g.l. grupo experimental g.l.
Observemos que hay un fuerte descenso de la suma de cuadrados residual Q(m) al pasar
de grado 2 a grado 3, indicio de que los datos experimentales se ajustan a un polinomio
de grado 3.
Las F obtenidas son:
contraste grupo control grupo experimental
40
35
30
25 grupo control
20 grupo
15 experimental
10
5
0
40 50 60 70 80
El modelo es:
grupo control (◦)
152
8.7. Comparación de curvas experimentales
8.7.1. Comparación global
Si dos curvas experimentales se ajustan bien a modelos de formulación matemática di-
ferente (por ejemplo, dos polinomios de distinto grado) hay que aceptar que las curvas
experimentales son distintas.
Si las dos curvas son polinomios del mismo grado
y1 = Pm (x) +
y2 = P̄m (x) +
H0 : βi = β̄i i = 0, 1, . . . , m
análoga a
H0 : γi = γ̄i i = 0, 1, . . . , m (8.13)
si utilizamos el modelo planteado mediante polinomios ortogonales (ver 8.7).
Sean SCR1 = Q1 (m), SCR2 = Q2 (m) las sumas de cuadrados residuales para cada curva
y SCR = SCR1 + SCR2 la suma de cuadrados residual del modelo conjunto construido
mediante la unión de los dos modelos.
La construcción del modelo conjunto es sólo posible si los dos modelos poseen varianzas
iguales. Por este motivo, es necesario plantear previamente el test de homogeneidad de
varianzas
H0 : σ12 = σ22
H1 : σ12 6= σ22
SCR1 /(n1 − m − 1)
F = (8.14)
SCR2 /(n2 − m − 1)
153
8.7.2. Test de paralelismo
La hipótesis lineal de que las curvas son paralelas se plantea de la siguiente forma
H0 : βi = β̄i i = 1, . . . , m
H0 : γi = γ̄i i = 1, . . . , m (8.16)
Ejemplo 8.7.1
En el ejemplo 8.6.1 hemos ajustado los datos del grupo control y del grupo experimental
a dos polinomios de grado 3.
¿Podemos aceptar que en realidad los dos polinomios son iguales? Esta pregunta equivale
a plantear la hipótesis lineal 8.13. Para resolverla es necesario realizar previamente el test
de homogeneidad de varianzas utilizando 8.14
41,61/(10 − 3 − 1)
F = = 1,10
37,80/(10 − 3 − 1)
con 4 y 12 g.l. que es significativa (p < 0,01). Debemos aceptar en consecuencia que las
dos curvas son diferentes (la conducta de los individuos del grupo control es diferente de
la conducta de los individuos del grupo experimental).
No obstante, podemos preguntarnos si las dos curvas son paralelas y plantear la hipótesis
lineal 8.16 que resolveremos utilizando el estadı́stico 8.17. La suma de cuadrados residual
bajo H0 es ahora SCR∗H = Q∗12 = 82,59
con 3 y 12 g.l. (no significativa). Podemos entonces aceptar que las dos curvas experi-
mentales son paralelas. La interpretación en términos de la conducta podrı́a realizarse
conociendo con más precisión el planteamiento del problema.
154
8.8. Ejemplos con S-PLUS
Vamos a utilizar los datos del ejemplo 8.4.1 sobre el lenguaje. Las siguientes instrucciones
permiten introducir los datos y dibujar los diagramas de dispersión dos a dos de las
variables del ejemplo (ver figura 8.3).
2 4 6 8
8
6
y
4
2
8
6
x1
4
2
9
8
7
x2
6
5
4
3
2 4 6 8 3 4 5 6 7 8 9
Figura 8.3: Diagramas de dispersión dos a dos entre la variable respuesta y las variables
explicativas del ejemplo 8.4.1
> y<-c(3,2,4,9,6,7,2,6,5,8)
> x1<-c(1,1,3,7,8,7,4,6,6,9)
> x2<-c(3,4,7,9,7,6,5,8,5,7)
> exp<-cbind(x1,x2)
> lenguaje.datos<-data.frame(y,exp)
> par(pty="s")
> pairs(lenguaje.datos)
El siguiente paso es calcular el modelo de regresión lineal múltiple que permita predecir
los valores de Y en función de las variables explicativas x1 y x2 .
> regrem<-lm(y~x1+x2)
> summary(regrem)
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) -0.4244 1.4701 -0.2887 0.7812
x1 0.5123 0.2087 2.4543 0.0438
155
x2 0.4853 0.3178 1.5273 0.1705
Correlation of Coefficients:
(Intercept) x1
x1 0.1811
x2 -0.8036 -0.6973
> summary(regrem)$r.squared
[1] 0.790684
pero no hay nombre para el coeficiente ajustado. Mientras que en R sı́ es posible.
También se pueden obtener los coeficientes a partir de la matriz X0 X:
> XtX<-t(regrem$R)%*%regrem$R
> XtX
(Intercept) x1 x2
(Intercept) 10 52 61
x1 52 342 350
x2 61 350 403
> XtX.inv<-solve(XtX)
> XtX.inv
(Intercept) x1 x2
(Intercept) 1.34840753 0.03466479 -0.2342073
x1 0.03466479 0.02718635 -0.0288580
x2 -0.23420728 -0.02885800 0.0629949
> XtX.inv%*%t(cbind(1,exp))%*%y
[,1]
(Intercept) -0.4244237
x1 0.5123174
x2 0.4853071
> summary(regrem)$cov.unscaled
(Intercept) x1 x2
(Intercept) 1.34840753 0.03466479 -0.2342073
x1 0.03466479 0.02718635 -0.0288580
x2 -0.23420728 -0.02885800 0.0629949
También se obtiene más fácilmente con los elementos que proporciona la función lsfit:
156
> regrem.ls<-lsfit(exp,y)
> regrem.diag<-ls.diag(regre.ls)
> regrem.diag$cov.unscaled
La matriz σ̂ 2 (X0 X)−1 de varianzas y covarianzas entre los estimadores MC de los coefi-
cientes se obtiene de forma sencilla:
> summary(regrem)$sigma^2*summary(regrem)$cov.unscaled
(Intercept) x1 x2
(Intercept) 2.16117719 0.05555943 -0.37537868
x1 0.05555943 0.04357326 -0.04625252
x2 -0.37537868 -0.04625252 0.10096587
o también
> regrem.diag$std.dev^2*regrem.diag$cov.unscaled
> beta.est<-cbind(regrem.ls$coef);beta.est
[,1]
Intercept -0.4244237
x1 0.5123174
x2 0.4853071
> cbind(beta.est+qt(0.025,7)*regrem.diag$std.err,
+ beta.est+qt(0.975,7)*regrem.diag$std.err)
[,1] [,2]
(Intercept) -3.90064431 3.051797
x1 0.01872084 1.005914
x2 -0.26605529 1.236669
> summary.aov(regrem)
Df Sum of Sq Mean Sq F Value Pr(F)
x1 1 38.64190 38.64190 24.10956 0.0017330
x2 1 3.73876 3.73876 2.33270 0.1705213
Residuals 7 11.21934 1.60276
Por otra parte, se observa directamente que SCR = 11,21934. Con estos datos, completar
la tabla 8.1 es relativamente sencillo. Sin embargo se puede conseguir dicha tabla, aunque
con otra organización, mediante un contraste de modelos:
157
> regrem0<-lm(y~1)
> anova(regrem0,regrem)
Analysis of Variance Table
Response: y
Otro aspecto que también hemos visto ha sido el cálculo de los coeficientes de regresión
estandarizados, que con S-PLUS se obtienen ası́:
> cor(exp)
x1 x2
x1 1.0000000 0.6973296
x2 0.6973296 1.0000000
> cor(exp,y)
[,1]
x1 0.8490765
x2 0.7813857
> solve(cor(exp),cor(exp,y))
[,1]
x1 0.5921248
x2 0.3684796
> x1.est<-(x1-mean(x1))/stdev(x1)
> x2.est<-(x2-mean(x2))/stdev(x2)
> y.est<-(y-mean(y))/stdev(y)
> regrem.est<-lm(y.est~-1+x1.est+x2.est)
> summary(regrem.est)
> diag(solve(cor(exp)))
[1] 1.946542 1.946542
158
8.9. Ejercicios
Ejercicio 8.1
Consideremos el modelo de la regresión lineal múltiple
yi = β0 + β1 xi1 + · · · + βm xim i = 1, . . . , n
Sean β̂0 , β̂1 , . . . , β̂m las estimaciones MC de los parámetros. Explicar en qué condiciones
podemos afirmar que E(β̂j ) = βj , j = 0, 1, . . . , m.
Por otra parte, ¿es siempre válido afirmar que
β0 + β1 xi1 + · · · + βm xim ?
Ejercicio 8.2
En la regresión múltiple de una variable Y sobre tres variables control x1 , x2 , x3
H0 : β 2 = β 3 = 0
Ejercicio 8.3
En una gran ciudad, queremos relacionar el número de muertos diarios por enfermedades
cardio-respiratorias con la media de humos (mg/m3 ) i la media de dióxido de azufre
(partes/millón) medidas por los equipos del Ayuntamiento en diversas zonas de la ciudad.
Consideremos un modelo de regresión lineal no centrado con los siguientes datos:
15 6,87 21,09 0,2243 −1,2611 0,2987
X0 X = 5,6569 18,7243 (X0 X)−1 = 16,1158 −4,3527
63,2157 1,2054
3922
X0 Y = 2439,54 Y0 Y = 1264224
7654,35
Se pide:
159
4) Calcular el intervalo de confianza al 95 % para la media del valor respuesta para
una media de humos de 1 mg/m3 y una media de SO2 de 1.
Ejercicio 8.4
Se dispone de los siguientes datos sobre diez empresas fabricantes de productos de limpieza
doméstica:
Empresa V IP P U
1 60 100 1,8
2 48 110 2,4
3 42 130 3,6
4 36 100 0,6
5 78 80 1,8
6 36 80 0,6
7 72 90 3,6
8 42 120 1,2
9 54 120 2,4
10 90 90 4,2
Vi = β0 + β1 IPi + β2 P Ui + i
b
2) Estimar la matriz de varianzas-covarianzas del vector β.
Ejercicio 8.5
Dado el modelo
Yt = β0 + β1 X1t + β2 X2t + ut
y los siguientes datos
Yt X1t X2t
10 1 0
25 3 −1
32 4 0
43 5 1
58 7 −1
62 8 0
67 10 −1
71 10 2
obtener:
160
(a) La estimación MC de β0 , β1 , β2 utilizando los valores originales.
(m) El contraste de la hipótesis nula conjunta H0 : β1 = 10β2 , 2β0 + 2β1 + 7β2 = 50.
Ejercicio 8.6
Supongamos que hemos estimado la siguiente ecuación utilizando MC (con las variables
medidas en logaritmos)
Yt = β0 + β1 X1t + β2 X2t t = 1, . . . , 17
Se pide:
2. Si X1t aumenta en un 1 por 100 y X2t en un 2 por 100, ¿cuál serı́a el efecto estimado
en Yt ?
161
3. Efectuar un test estadı́stico para verificar la hipótesis de que β1 = 1 y β2 = −1
y dar el valor de dicho estadı́stico. ¿Cuáles son las tablas que necesitaremos para
realizar el test y cuántos son los grados de libertad?
Ejercicio 8.7
Una variable Y depende de otra variable control x que toma los valores x1 = 1, x2 =
2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal
yi = β0 + β1 xi + β2 x2i + i i = 1, 2, 3, 4
Ejercicio 8.8
La puntuación del test open-field para un grupo de 10 ratas control (C) y otro grupo de
10 ratas experimentales (E) a lo largo de los dı́as 47, 50, . . . , 74 contados desde el instante
del nacimiento fue
Dı́a 47 50 53 56 59 62 65 68 71 74
grupo C 34 24 21 23 23 30 31 26 23 17
grupo E 25 20 16 15 21 20 28 23 18 9
1) Comprobar que se puede aceptar como válido el polinomio de grado 3 como poli-
nomio de regresión de Y (puntuación) sobre x (edad en dı́as).
2) El polinomio de grado 3 que ajusta Y a x es
SCRH = 225,8
162
Capı́tulo 9
1. Algunas de las variables explicativas del modelo tienen una relación no lineal con
la variable respuesta.
9.1. Residuos
9.1.1. Estandarización interna
Los residuos de un modelo lineal se obtienen como diferencia entre los valores observados
de la variable respuesta y las predicciones obtenidas para los mismos datos:
b
e = (e1 , . . . , en )0 = Y − Y
163
que tiene sólo n − k − 1 grados de libertad, donde k es el número de variables regresoras,
ya que los n residuos no son independientes,
Se llaman residuos estandarizados a
ei
di = √ i = 1, . . . , n
ECM
que tienen media cero y varianza aproximada uno.
b = (I − P)Y = (I − P),
Ahora bien, como el vector de residuos aleatorios es e = Y − Y
donde P es la matriz proyección, la matriz de varianzas-covarianzas de los residuos es
var(e) = σ 2 (I − P) de manera que
var(ei ) = σ 2 (1 − hii )
De modo que muchos autores recomiendan trabajar con los residuos studentizados
ei
ri = i = 1, . . . , n
[ECM(1 − hii )]1/2
Además, hii es una medida de la localización del i-ésimo punto xi respecto al punto medio.
En la regresión lineal simple
1 (xi − x̄)2
hii = + Pn 2
(9.1)
n i=1 (xi − x̄)
164
Ejemplo 9.1.1
Si recuperamos el ejemplo de regresión simple propuesto en la sección 1.2 con los datos
de tráfico, podemos calcular los residuos studentizados de ese modelo.
Primero calculamos los elementos de la diagonal de la matriz P, por ejemplo
1 (12,7 − 54,44167)2
h11 = + = 0,155865
24 15257,4383
y con este valor se obtiene el residuo
0,528699
r1 = = 2,13968
0,2689388(1 − 0,155865)1/2
Los otros residuos se calculan de forma similar, mejor con la ayuda de una hoja de cálculo
o con un programa estadı́stico (ver sección 9.4).
Ejemplo 9.1.2
Vamos a calcular el residuo studentizado externamente t1 para la primera observación
de la regresión simple continuación del ejemplo 9.1.1. Para ello necesitamos el valor del
error ECM = (0,2689388)2 = 0,072328 con el que calculamos
24 − 1 − 1 − 2,139682
s2(i) = 0,072328 = 0,060004
24 − 1 − 2
y con esta estimación externa
0,528699
t1 = p = 2,349159
0,060004(1 − 0,155865)
165
a) Residuos studentizados b) Residuos studentizados
internamente externamente
2
2
1
1
r_i
t_i
0
0
-1
-1
-2
-2
5 10 15 20 5 10 15 20
dato dato
Siguiendo con la misma idea, también podemos calcular los residuos en función de las
predicciones ŷi(i) calculadas con el modelo de regresión sin la i-ésima observación. Sean
e(i) = yi − ŷi(i) los residuos ası́ obtenidos y
n
X
PRESS = e2(i)
i=1
su suma de cuadrados2 .
Se demuestra que
ei σ2
e(i) = var(e(i) ) = (9.4)
1 − hii 1 − hii
de modo que la estandarización de estos residuos
e(i) ei
1/2
= 2
[var(e(i) )] [σ (1 − hii )]1/2
también depende del estimador que utilicemos para estimar σ 2 . Si utilizamos el estimador
interno ECM, recuperamos los residuos studentizados ri y si utilizamos el estimador
externo s2(i) obtenemos los residuos studentizados externamente ti .
Los residuos asociados con puntos para los que hii sea grande, tendrán residuos e(i) gran-
des. Estos puntos serán puntos de alta influencia. Una gran diferencia entre el residuo
ordinario ei y el residuo e(i) indicará un punto en el que el modelo, con ese punto, se
ajusta bien a los datos, pero un modelo construido sin ese punto “predice” pobremente.
9.1.3. Gráficos
Algunos gráficos de los residuos nos van a ayudar en el diagnóstico del modelo aplicado.
2
prediction error sum of squares
166
En primer lugar, el análisis de datos univariante de los residuos y, en particular, los gráficos
como histogramas, diagramas de caja, diagramas de tallo y hojas, etc. nos mostrarán
algunos detalles. Por ejemplo, en el diagrama de caja podemos estudiar la centralidad, la
simetrı́a y la presencia de valores atı́picos.
,6
,4
-,0
14,00 -0 . 00011122222333
8,00 0 . 01112224
-,2 2,00 0 . 55
-,6
N= 24
RESIDUO
Figura 9.2: Boxplot y diagrama de tallo y hojas de los residuos en la regresión simple del
ejemplo 9.1.3.
Ejemplo 9.1.3
También con los datos de tráfico del ejemplo de regresión simple propuesto en la sección
1.2 podemos representar algunos gráficos de los residuos sin estandarizar. En la figura
9.2 se muestran dos de los gráficos obtenidos con el programa SPSS. En ellos se observa
una cierta asimetrı́a de los residuos, aunque no hay ningún valor atı́pico.
167
Gráfico de los valores observados versus los valores ajustados.
La proximidad de los puntos a la bisectriz muestra el ajuste de la recta de regresión
(figura 9.3 c).
Gráfico de los cuantiles de la distribución normal o QQ-plot y gráfico de las proba-
bilidades acumuladas de la distribución normal o PP-plot.
Con estos gráficos se pretende visualizar el ajuste de la distribución muestral de
los residuos a la ley normal. En el QQ-plot se dibujan los puntos asociados a los
cuantiles de la distribución normal (estándar en S-PLUS o sin estandarizar como
en SPSS). En el PP-plot se dibujan las probabilidades acumuladas estimadas y
teóricas para la distribución normal. En ambos casos se dibuja también una recta
que representa el ajuste perfecto a la distribución normal. Los desvı́os exagerados
de dichas rectas indican una posible violación de la hipótesis de normalidad (figura
9.3 d).
El estudio de la normalidad de los residuos se debe completar con algún contraste
de ajuste como la prueba ji-cuadrado o el test de Kolmogorov (ver sección 9.4).
0.4
0.2
0.2
residuos
residuos
0.0
0.0
-0.2
-0.2
5 10 15 20 3 4 5 6 7
indice ajustados
0.4
7
0.2
observados
residuos
6
0.0
5
-0.2
4
3 4 5 6 7 -2 -1 0 1 2
Ejemplo 9.1.4
Como continuación del ejemplo de regresión simple 9.1.3 con los datos de tráfico, pode-
mos representar algunos gráficos como los de la figura 9.3. Entre esos gráficos podemos
168
destacar la no aleatoriedad manifiesta del gráfico (b) que indica un ajuste no lineal entre
las variables. Ello justifica la introducción del modelo parabólico (ejercicio 9.1).
el tamaño medio de cada hii es (k + 1)/n. Ası́, cuando un punto verifique hii > 2(k + 1)/n
diremos que dicha observación es un punto de alto nivel. Estos puntos se deben marcar
para su posterior estudio ya que son potencialmente influyentes.
Ejemplo 9.2.1
Siguiendo con el ejemplo 9.1.1 los datos con mayor nivel son
dato nivel
1 0,15586452
15 0,13601868
2 0,13354830
Dado que 2(k + 1)/n = (2 · 2)/24 = 0,1666, no hay ningún punto de alto nivel.
3
leverage
169
9.2.2. Influencia en los coeficientes de regresión
Entre las medidas de influencia sobre los coeficientes de regresión la más empleada es la
distancia de Cook (1977,1979)
b−β
(β b (i) )0 X0 X(β
b −β
b (i) )
Ci = i = 1, . . . , n (9.5)
(k + 1)ECM
donde β b son las estimaciones MC en el modelo con todos los puntos, mientras que βb son
(i)
las estimaciones sin el i-ésimo punto. Esta medida calcula la distancia cuadrática entre
byβ
β b (i) , relativa a la geometrı́a fija de X0 X.
Otra versión equivalente de esta distancia es
b −Y
(Y b (i) )0 (Y
b −Y
b (i) )
Ci =
(k + 1)ECM
b = Xβ
ya que Y byY b (i) = Xβb (i) .
Sin embargo para el cálculo de esta distancia es mejor utilizar la fórmula
ri2 hii
Ci = ·
k + 1 1 − hii
donde la primera parte depende del ajuste al modelo de la i-ésima predicción, mientras
que el segundo factor es una función de la distancia del punto xi al centroide del conjunto
de observaciones de las variables explicativas. Una demostración de esta fórmula puede
verse en el ejercicio 9.19 del libro de Ugarte y Militino[64].
La búsqueda de puntos influyentes se puede iniciar con la identificación de puntos con
distancia de Cook elevada. Sin embargo se desconoce la distribución exacta de este es-
tadı́stico y no hay reglas fijas para la determinación de los puntos con valor de Ci grande.
Los puntos con distancias de Cook grandes pueden ser influyentes y podemos extraerlos
del análisis para ver si los cambios son apreciables.
Ejemplo 9.2.2
Con el ejemplo de regresión simple que estamos estudiando desde el ejemplo 9.1.1 se
observa que los datos con mayor distancia de Cook son:
dato hii ri Ci
1 0,1559 2,1397 0,4227
12 0,1227 2,1178 0,3136
Estos datos son los de mayor influencia debida al gran residuo studentizado (los dos
mayores) y a su alto nivel, especialmente el dato 1.
Otra medida de influencia sobre cada coeficiente de regresión por separado fue propuesta
por ... y consiste en la diferencia estandarizada entre la estimación MC de dicho parámetro
con todas las observaciones y la estimación MC del mismo sin la i-ésima:
β̂j − β̂j(i)
Dfbetasj(i) = q
s2(i) cjj
170
a) Niveles de los datos b) Distancias de Cook
0.16
0.4
0.14
0.3
0.12
0.10
h_ii
C_i
0.2
0.08
0.1
0.06
0.0
0.04
5 10 15 20 5 10 15 20
dato dato
Figura 9.4: Gráficos de los niveles y distancias de Cook de los datos del ejemplo 9.2.2.
171
Ejemplo 9.2.3
Como continuación del ejemplo 9.2.2 podemos calcular el Dffits 1 para la primera obser-
vación: r
0,155865
Dffits1 = |2,349159| = 1,009439
1 − 0,155865
p
que supera el valor frontera 2 2/24 = 0,577 y muestra la alta influencia de esta obser-
vación.
172
donde SCRP es la suma de cuadrados residual del modelo particular y σ̂ 2 un estimador
de la varianza del modelo que acostumbra a ser el ECM del modelo completo.
Para el modelo completo P = k + 1, el estadı́stico de Mallows es
SCR
Ck+1 = − (n − 2(k + 1)) = n − (k + 1) − (n − 2(k + 1)) = k + 1
ECM
También para todo modelo no completo se puede demostrar que aproximadamente E(CP ) =
P , si el modelo es adecuado. En consecuencia parece recomendable elegir los conjuntos
para los que CP sea aproximadamente P .
> recta<-lm(rvel~dens)
Para el análisis de los residuos, la función summary nos ofrece un resumen de cinco números
También podemos obtener algunos gráficos univariantes como los de la figura 9.5 con las
siguientes instrucciones:
> par(mfrow=c(1,2))
> par(pty="s")
> hist(residuals(recta),xlab="residuos")
> title("a) Histograma")
> boxplot(residuals(recta))
> title("b) Diagrama de caja")
> stem(residuals(recta))
N = 24 Median = -0.0356607
Quartiles = -0.228869, 0.1987335
173
a) Histograma b) Diagrama de caja
8
0.4
6
0.2
4
0.0
2
-0.2
0
residuos
Figura 9.5: Gráficos de los residuos de la regresión simple del ejemplo de la sección 1.2.
-3 : 510
-2 : 44332
-1 : 711
-0 : 611
0 : 3
1 : 028
2 : 245
3 :
4 : 0
5 : 33
Para obtener los gráficos de la figura 9.3 se requieren las siguientes instrucciones:
> par(mfrow=c(2,2))
> plot(residuals(recta),xlab="indice",ylab="residuos")
> title("a) Residuos vs. indice")
> plot(fitted(recta),residuals(recta),xlab="ajustados",ylab="residuos")
> title("b) Residuos vs. ajustados")
> plot(fitted(recta),rvel,xlab="ajustados",ylab="observados")
> abline(0,1)
> title("c) Ajustados vs. observados")
> qqnorm(residuals(recta),xlab="Cuantiles de la normal",ylab="residuos")
> qqline(residuals(recta))
> title("d) QQ-plot")
174
> par(mfrow=c(2,3))
> plot(recta)
En cuanto a los contrastes de ajuste a la distribución normal, podemos optar entre el test
de Kolmogorov-Smirnov ks.gof y la prueba ji-cuadrado chisq.gof. En nuestro caso:
data: residuals(recta)
ks = 0.129, p-value = 0.5 alternative
hypothesis: True cdf is not the normal distn. with estimated parameters
sample estimates:
mean of x standard deviation of x
2.298509e-017 0.2630273
recta.ls<-lsfit(dens,rvel)
> recta.diag<-ls.diag(recta.ls)
> recta.diag$hat # nivel
...
> recta.diag$std.res # residuos studentizados
...
> recta.diag$stud.res # residuos studentizados externamente
...
> recta.diag$cooks # distancias de Cook
...
> recta.diag$dfits # medidas Dffits
...
> par(mfrow=c(1,2))
> par(pty="s")
> plot(recta.diag$hat,type="h",xlab="dato",ylab="h_ii")
> title("a) Niveles de los datos")
> plot(recta.diag$cooks,type="h",xlab="dato",ylab="C_i")
> title("b) Distancias de Cook")
> par(mfrow=c(1,2))
> par(pty="s")
> plot(recta.diag$std.res,xlab="dato",ylab="r_i",ylim=c(-2.5,2.5))
> title("a) Residuos studentizados \n internamente")
> plot(recta.diag$stud.res,xlab="dato",ylab="t_i",ylim=c(-2.5,2.5))
> title("b) Residuos studentizados \n externamente")
175
9.5. Ejercicios
Ejercicio 9.1
Realizar el análisis completo de los residuos del modelo de regresión parabólico propuesto
en la sección 1.2 con los datos de tráfico.
Ejercicio 9.2
Realizar el análisis completo de los residuos de los modelos de regresión simple y pa-
rabólico propuestos en la sección 1.2 con los datos de tráfico, pero tomando como variable
respuesta la velocidad (sin raı́z cuadrada). Este análisis debe justificar la utilización de
la raı́z cuadrada de la velocidad como variable dependiente.
Ejercicio 9.3
Probar la relación 9.6 a partir de las ecuaciones 9.3 y 9.4.
176
Capı́tulo 10
Análisis de la Varianza
10.1. Introducción
El Análisis de la Varianza es un conjunto de técnicas estadı́stico-matemáticas que per-
miten analizar cómo operan sobre una variable respuesta diversos factores considerados
simultáneamente según un determinado diseño factorial. Normalmente interesa estudiar
cómo se diferencian los niveles de un cierto factor, llamado factor tratamiento, teniendo en
cuenta la incidencia de otros factores cualitativos o cuantitativos (factores ambientales),
cuya influencia es eliminada mediante una adecuada descomposición de la variabilidad de
la variable observada. También se pretende detectar la relevancia en el resultado de las
variables o factores influyentes, es decir, estudiar la causalidad.
Un experimento de este tipo consiste en fijar los valores de los factores a distintos niveles y
observar el valor de la variable respuesta en cada caso. Ahora bien, para llegar a conclusio-
nes estadı́sticas correctas es preciso, en la mayorı́a de los problemas, observar el resultado
tras la repetición del experimento varias veces para cada una de las diversas condiciones
que indica el diseño pero lo más homogéneas posibles dentro de cada una. Esto redun-
dará en la reducción de la variabilidad y, por tanto, aumentará la capacidad estadı́stica
de detectar cambios o identificar variables influyentes. Con una variabilidad muy grande
respecto al error experimental no se pueden detectar diferencias entre tratamientos.
Como ocurre con la varianza de la media muestral, para reducir la variabilidad es po-
sible considerar un pequeño número de observaciones llamadas réplicas en condiciones
totalmente homogéneas o aumentar el número de observaciones. Esto último es preci-
so cuando tomamos observaciones fuera del laboratorio o con variables influyentes que
escapan a nuestro control.
Es muy importante que las réplicas sean exactamente eso, es decir, repeticiones del ex-
perimento en las mismas condiciones y no repeticiones de la observación que pueden dar
lugar a observaciones dependientes. Ası́ pues, debemos repetir todo el experimento desde
el principio para cada una de las observaciones.
Como ya hemos dicho, para investigar el efecto del factor principal o tratamiento es po-
sible que debamos considerar y eliminar los efectos de muchas variables que influyen en
el resultado. Para eliminar el efecto de una variable sobre el resultado del experimento
tenemos tres opciones: a) fijar el valor de la variable para toda la investigación y restrin-
gir la validez de nuestras conclusiones a ese dato; b) diseñar el experimento de manera
que dicha variable aparezca como factor con unos determinados valores o niveles y c)
aleatorizar su aparición en cada condición experimental. Las dos primeras opciones son
propias del laboratorio y dependen del experimentador. La tercera resulta útil cuando
177
queremos eliminar el efecto de una variable no directamente controlable y de poca in-
fluencia esperada, ası́ la parte de la variabilidad que le corresponde se incluirá en el error
experimental.
Para diseñar correctamente un experimento es preciso trabajar bajo el principio de alea-
torización. Este principio consiste en tomar las observaciones de las réplicas asignando al
azar todos los factores no directamente controlados por el experimentador y que pueden
influir en el resultado. En el ejemplo 10.2.1 la comparación entre tres tratamientos se
hace con pacientes con ciertas condiciones de homogeneidad pero asignando los pacientes
al azar a cada tratamiento. Con la aleatorización se consigue prevenir sesgos, evitar la
dependencia entre observaciones y validar estadı́sticamente los resultados. En particular,
debemos aleatorizar el orden de realización de los experimentos.
En resumen, es necesario que el experimento esté bien diseñado mediante el control fı́sico,
fijando niveles, o estadı́stico, mediante la aleatorización, de todas las variables o factores
relevantes. Ası́ se garantizará que las diferencias se deben a las condiciones experimentales
fijadas el diseño y se podrá concluir estadı́sticamente una relación causal.
Además, en Peña[50, pág. 82] se muestra cómo la aleatorización permite la compara-
ción de medias mediante los llamados tests de permutaciones que no requieren ningún
tipo de hipótesis sobre la distribución del error. Por otra parte, puede demostrarse (ver
Scheffé[59]) que los contrastes F son una buena aproximación a los contrastes de permu-
taciones, de manera que la aleatorización justifica la utilización de la teorı́a de los modelos
lineales bajo hipótesis de normalidad, aunque dicha hipótesis no esté plenamente validada.
En general, en todo Análisis de la Varianza es necesario considerar tres etapas:
178
Con estos datos podemos calcular algunas medias que indicaremos de la siguiente forma:
ni
1 X
Media en la población i o nivel i: yi· = yih
n i h=1
k n
1 XX i
µ̂i = yi· i = 1, . . . , k
Esta suma se indica por SCD y se denomina suma de cuadrados dentro de grupos o
también intragrupos.
Consideremos la identidad
179
pero X X X
(yi· − ȳ)(yih − yi· ) = (yih − yi· )yi· − (yih − yi· )ȳ = 0
i,h i,h i,h
En efecto, el vector {yih − yi· } pertenece al espacio error y por tanto es ortogonal al vector
{yi· } que pertenece al espacio estimación como hemos visto en 2.4.2; por otra parte
X
(yih − yi· ) = 0
i,h
H0 : µ 1 = µ 2 = · · · = µ k
yih = µ + ih i = 1, . . . , k ; h = 1, . . . , ni
Obsérvese que SCE mide la variabilidad entre las medias y1· , y2· , . . . , yk· .
Por otra parte y según el teorema 2.5.1, una estimación insesgada del error experimental
σ 2 es
σ̂ 2 = SCD /(n − k)
Además, gracias a la hipótesis de normalidad ih ∼ N (0, σ) se verifica (ver teorema 5.3.1):
a) SCD /σ 2 ∼ χ2n−k
180
b) Si H0 es cierta, entonces SCE /(k − 1) es otra estimación insesgada de σ 2 y además
SCE /σ 2 ∼ χ2k−1
c) Si H0 es cierta, el estadı́stico
SCE /(k − 1)
F = (10.3)
SCD /(n − k)
sigue la distribución F con k − 1 y n − k grados de libertad.
P SCE /(k − 1)
Entre grupos SCE = i ni (yi· − ȳ)2 k−1 SCE /(k − 1)
SCD /(n − k)
P
Dentro grupos SCD = i,h (yih − yi· )2 n−k SCD /(n − k)
P
Total SCT = i,h (yih − ȳ)2 n−1
con la restricción X
αi = 0
i
H0 : α 1 = · · · = α k = 0
µ̂ = ȳ α̂i = yi· − ȳ
181
Se verifica entonces X
SCRH − SCR = SCE = ni α̂i2
i
de modo que SCE refleja bien la variabilidad entre los diferentes niveles del factor estu-
diado.
La formulación matricial de H0 es
µ
0 1 0 ... 0 0 α1
0 0 1 ... 0 0 α2
.. .. .. . . .. .. .. =0
. . . . . . .
0 0 0 ... 1 0 αk−1
αk
Aplicando entonces 5.7, tenemos que
X
E(SCRH − SCR) = E(SCE ) = (k − 1)σ 2 + ni αi2 (10.5)
i
Ejemplo 10.2.1
Se desean comparar dos medicamentos D (diurético), B (betabloqueante) con un producto
inocuo P (placebo). Se tomó una muestra de 15 individuos hipertensos cuyas condiciones
iniciales eran suficientemente homogéneas y se asignaron los tres tratamientos al azar.
El objetivo del estudio es ver cómo actúan los tres tratamientos frente a la hipertensión,
concretamente si disminuyen la misma. A tal fin se ha elegido la variable observable
“porcentaje de descenso de la presión arterial media´´. Los datos obtenidos son
D B P
22 20 10
18 28 5
30 35 0
15 19 14
17 33 18
182
Vamos a estudiar si hay diferencias significativas entre los tres fármacos y la significación
de la función paramétrica
1
ψ = (D + B) − P
2
que se puede interpretar como una medida de la diferencia entre los productos activos
respecto al placebo.
Las medias son:
y1· = 20,40 y2· = 27,00 y3· = 9,40 ȳ = 18,93
183
10.3. Diseño de dos factores sin interacción
Supongamos que la variable observable está afectada por dos causas de variabilidad, es
decir, por dos factores cualitativos A y B, con a y b niveles respectivamente. Suponga-
mos también que tenemos únicamente una observación por casilla. Entonces, podemos
disponer las observaciones del siguiente modo
B1 B2 . . . Bb
A1 y11 y12 . . . y1b y1·
A2 y21 y22 . . . y2b y2·
.. .. .. .. ..
. . . . .
Aa ya1 ya2 . . . yab ya·
y·1 y·2 . . . y·b y··
siendo
1X 1X 1 X
yi· = yij y·j = yij y·· = ȳ = yij
b j a i ab i,j
184
Como las columnas de X correspondientes a parámetros distintos son ortogonales, mien-
tras que las correspondientes a los mismos parámetros son linealmente independientes,
deducimos que el rango de X es igual al número de parámetros resultantes después de
imponer las restricciones 10.9, es decir,
rango X = 1 + (a − 1) + (b − 1) = a + b − 1 (10.10)
Estimación de parámetros
Consideremos la identidad
Elevando al cuadrado, sumando para todo i, j y teniendo en cuenta 10.9, como los pro-
ductos cruzados se anulan (puede probarse con algo de esfuerzo), obtenemos
X X X
(yij − µ − αi − βj )2 = (ȳ − µ)2 + (yi· − ȳ − αi )2 (10.11)
X
+ (y·j − ȳ − βj )2
X
+ (yij − yi· − y·j + ȳ)2
Obsérvese que
yij = µ̂ + α̂i + β̂j + eij
siendo eij la estimación del término de error
H0A : α1 = · · · = αa = 0 (10.14)
H0B : β1 = · · · = βb = 0 (10.15)
185
Vamos a obtener el test F adecuado para contrastar la hipótesis 10.15. Consideremos la
siguiente descomposición fundamental de la suma de cuadrados (que demostraremos más
adelante)
X X X
(yij − ȳ)2 = b (yi· − ȳ)2 + a (y·j − ȳ)2
i,j i j
X
+ (yij − yi· − y·j + ȳ)2
i,j
yij = µ + αi + ij
que corresponde al modelo de un solo factor. La suma de cuadrados residual (ver sección
10.2) será entonces X
SCRH = (yij − yi· )2
i,j
puesto que para cada i, las observaciones yi1 , . . . , yib hacen el papel de réplicas. Pero de
la identidad
yij − yi· = (y·j − ȳ) + (yij − yi· − y·j + ȳ)
elevando al cuadrado y teniendo en cuenta que los productos cruzados también se anulan,
deducimos
SCRH = SCC + SCR
Luego podemos decidir si puede aceptarse o no la hipótesis 10.15 utilizando el estadı́stico
SCC /(b − 1)
F = (10.17)
SCR/[(a − 1)(b − 1)]
cuya distribución bajo H0 es F con b − 1 y (a − 1)(b − 1) grados de libertad.
Análogamente se procede para estudiar el efecto fila. Los cálculos deben disponerse en
forma de tabla (ver tabla 10.3).
Finalmente, si se desea comparar dos niveles de un mismo factor, plantearemos la hipótesis
parcial
A(ij) B(ij)
H0 : αi = αj o bien H0 : βi = βj
según se trate de factor fila o columna. El estadı́stico utilizado en el primer caso será
yi· − yj· p
t= p b/2
SCR/[(a − 1)(b − 1)]
186
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
P SCF /(a−1)
Entre filas SCF = b i (yi· − ȳ)2 a−1 SCF /(a − 1) SCR/[(a−1)(b−1)]
P SCC /(b−1)
Entre col. SCC = a j (y·j − ȳ)2 b−1 SCC /(b − 1) SCR/[(a−1)(b−1)]
SCR
Residuo SCR = (a − 1)(b − 1)
P 2
(a−1)(b−1)
i,j (yij − yi· − y·j + ȳ)
P
Total SCT = i,j (yij − ȳ)2 ab − 1
Tabla 10.3: Tabla del Análisis de la Varianza para diseños de dos factores sin interacción
siendo
1 = (1, 1, . . . , 1; 1, 1, . . . , 1; . . . ; 1, 1, . . . , 1)0
u1 = (1, 0, . . . , 0; 1, 0, . . . , 0; . . . ; 1, 0, . . . , 0)0
..
.
ua = (0, . . . , 0, 1; 0, . . . , 0, 1; . . . ; 0, . . . , 0, 1)0
v1 = (1, 1, . . . , 1; 0, 0, . . . , 0; . . . ; 0, 0, . . . , 0)0
..
.
vb = (0, 0, . . . , 0; 0, 0, . . . , 0; . . . ; 1, 1, . . . , 1)0
La matriz de diseño es
X = (1, u1 , . . . , ua , v1 , . . . , vb )
y es evidente que 10.18 es equivalente a
Y = Xβ +
siendo β = (µ, α1 , . . . , αa , β1 , . . . , βb )0 .
Se verifica
u0i1 ui2 = 0 i1 6= i2 , u0i ui = b
u0i vj = 1
vj0 1 vj2 = 0 j1 6= j2 , vj0 vj = a
Sustituyendo en 10.18 los parámetros por sus estimaciones MC obtenemos
X X
Y − µ̂1 = α̂i ui + β̂j vj + e
i j
187
Como e es ortogonal al subespacio generado por las columnas de X (teorema 2.4.2),
tendremos
u0i e = vj0 e = 0
Entonces
X X X
kY − µ̂1k2 = α̂i2 kui k2 + β̂j2 kvj k2 + α̂i β̂j u0i vj + kek2
i j i,j
Pero
X X
α̂i β̂j = (yi· − ȳ)(y·j − ȳ)
i,j i,j
X X
= (yi· − ȳ)y·j − ȳ (yi· − ȳ)
i,j i,j
X X XX
= y·j (yi· − ȳ) − ȳ (yi· − ȳ) = 0
j i j i
P
pues i (yi· − ȳ) = 0.
Luego X X
kY − µ̂1k2 = α̂i2 kui k2 + β̂j2 kvj k2 + kek2
i j
Ejemplo 10.3.1
Para estudiar las diferencias entre los efectos de 4 fertilizantes sobre la producción de
patatas, se dispuso de 5 fincas, cada una de las cuales se dividió en 4 parcelas del mismo
tamaño y tipo. Los fertilizantes fueron asignados al azar en las parcelas de cada finca. El
rendimiento en toneladas fue
Finca
Fert. 1 2 3 4 5
1 2,1 2,2 1,8 2,0 1,9
2 2,2 2,6 2,7 2,5 2,8
3 1,8 1,9 1,6 2,0 1,9
4 2,1 2,0 2,2 2,4 2,1
Se trata de un diseño en bloques aleatorizados. Este diseño utiliza el modelo 10.8 y es es-
pecialmente utilizado en experimentación agrı́cola. El objetivo es comparar a tratamientos
(4 fertilizantes en este caso) utilizando b bloques (5 fincas) y repartiendo aleatoriamente
los a tratamientos en cada uno de los bloques (los fertilizantes son asignados al azar en
las parcelas de cada finca). Para una correcta aplicación de este diseño debe haber máxi-
ma homogeneidad dentro de cada bloque, de modo que el efecto bloque sea el mismo para
todos los tratamientos. Interesa pues saber si hay diferencias significativas entre los tra-
tamientos αi y entre los bloques βj estableciendo con este fin las hipótesis lineales 10.14
y 10.15 respectivamente. Los resultados obtenidos son
y1· = 2,05 y2· = 2,175 y3· = 2,075 y4· = 2,225 y5· = 2,175
y·1 = 2,00 y·2 = 2,56 y·3 = 1,84 y·4 = 2,16 ȳ = 2,04
188
Bloques
1 1 2 4 3
2 4 3 2 1
3 2 1 4 3
4 3 1 4 2
5 2 4 3 1
B1 B2 . . . B b
y111 y121 y1b1
A1 y112 y122 . . . y1b2
.. .. ..
. . .
y11r y12r y1br
.. .. .. ..
. . . .
ya11 ya21 yab1
Aa ya12 ya22 . . . yab2
.. .. ..
. . .
ya1r ya2r yabr
189
Indicaremos
1 X 1 X
yi·· = yijk y·j· = yijk
br j,k ar i,k
1X 1 X
yij· = yijk y··· = ȳ = yijk
r k abr i,j,k
µ = media general
αi = efecto del nivel i de A
βj = efecto del nivel j de B
γij = interacción entre los niveles Ai y Bj
1 + (a − 1) + (b − 1) + (a − 1)(b − 1) = ab (10.21)
parámetros.
La interacción γij debe añadirse para prever el caso de que no se verifique la aditividad
supuesta en 10.8. Indicando ηij = E(yijk ), la interacción mide la desviación respecto a un
modelo totalmente aditivo
γij = ηij − µ − αi − βj (10.22)
Por otra parte, diremos que un diseño es de rango completo si el número de parámetros
es igual al número de condiciones experimentales, es decir, al número de filas distintas
de la matriz de diseño. En un diseño que no es de rango completo hay menos parámetros
que condiciones experimentales, por lo que en realidad “admitimos” que los datos se
ajustan al modelo propuesto. Por ejemplo, en el diseño sin interacción tenemos (ver 10.10)
a+b−1 < ab, luego admitimos de partida el modelo 10.8. Sin embargo, este modelo puede
no ser cierto y de hecho existe la llamada prueba de Tukey para comprobarlo. En cambio,
por 10.21, el modelo 10.19 posee tantos parámetros como condiciones experimentales de
variabilidad, de modo que es válido por construcción. En general, un modelo de rango
completo se ajusta intrı́nsecamente a los datos sin problemas. No obstante, para poder
estimar todos los parámetros es necesario disponer de más de una réplica por condición
experimental. Esta es la razón por la cual la interacción no puede ser incluida en 10.8.
El modelo 10.19 puede ser reparamentrizado en la forma
190
Pasamos del modelo 10.23 al 10.19 mediante las transformaciones
!
1 X 1 X
µ= ηij αi = ηij − µ
ab i,j b
! j
(10.24)
1 X
βj = ηij − µ γij = ηij − µ − αi − βj
a i
Elevando al cuadrado y teniendo en cuenta las restricciones 10.20, los productos cruzados
se anulan y queda
X X X
(yijk − µ − αi − βj − γij )2 = (ȳ − µ)2 + (yi·· − ȳ − αi )2
i,j,k i,j,k i,j,k
X
+ (y·j· − ȳ − βj )2
i,j,k
X (10.25)
+ (yij· − yi·· − y·j· + ȳ − γij )2
i,j,k
X
+ (yijk − yij· )2
i,j,k
Como el último término de esta expresión no depende de los parámetros, es fácil ver que
las estimaciones MC son
σ̂ 2 = SCR/[ab(r − 1)]
Considerando 10.23 y 10.24 podemos obtener las estimaciones 10.26 por otro camino. Es
obvio que las estimaciones de ηij son
η̂ij = yij·
191
Hipótesis lineales
En el diseño de dos factores con interacción, las hipótesis de mayor interés son
Esta relación, que se puede probar con algo de esfuerzo, la expresaremos brevemente como
Ejemplo 10.4.1
Se desean comparar tres genotipos distintos de Drosophila melanogaster, observando si
existen diferencias de viabilidad sembrando 100 y 800 huevos. De este modo, para cada una
de las 6 casillas del experimento (3 genotipos × 2 siembras) se dispusieron 6 preparados
(6 réplicas) y al cabo del tiempo suficiente de ser sembrados los huevos, se obtuvo el
porcentaje de huevos que habı́an eclosionado. Los resultados fueron:
192
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
P SCF /(a−1)
Entre filas SCF = br i (yi·· − ȳ)2 a−1 SCF /(a − 1) SCR/[ab(r−1)]
P SCC /(b−1)
Entre col. SCC = ar j (y·j· − ȳ)2 b−1 SCC /(b − 1) SCR/[ab(r−1)]
P
Total SCT = i,j,h (yijh − ȳ)2 abr − 1
Tabla 10.5: Tabla del Análisis de la Varianza para diseños de dos factores con interacción
Huevos Genotipo
sembrados ++ +− −−
100 93 94 93 95,5 83,5 92 92 91 90
90 93 86 92,5 82 82,5 95 84 78
800 83,3 87,6 81,9 84 84,4 77 85,3 89,4 85,4
80,1 79,6 49,4 67 69,1 88,4 87,4 52 77
El número X de huevos eclosionados por casilla sigue la distribución binomial con n = 100
ó n = 800. Para normalizar la muestra aplicaremos la transformación
r r
X porcentaje
Y = arcsen = arcsen
n 100
Los datos transformados son:
Huevos Genotipo
sembrados ++ +− −−
100 74,7 75,8 74,7 77,8 66 73,6 73,6 72,5 71,6
71,6 74,7 68 74,1 64,9 65,3 77,1 66,4 62
800 65,9 69,4 64,8 66,4 66,7 61,3 67,5 71 67,5
63,5 63,1 44,7 54,9 56,2 70,1 69,2 46,1 61,3
Se calcula:
y11· = 73,25 y12· = 70,28 y13· = 70,53 y21· = 61,9
y22· = 62,6 y23· = 63,77 y1·· = 71,36 y2·· = 62,76
y·1· = 67,58 y·2· = 66,44 y·3· = 67,15 ȳ = 67,06
Podemos obtener entonces la tabla del Análisis de la Varianza para un diseño de dos
factores con interacción:
Fuente variación suma cuadrados g.l. cuadrados medios F
Entre siembras 665,64 1 665,64 14,87
Entre genotipos 7,87 2 3,93 0,09
Interacción 35,29 2 17,65 0,39
Residuo 1342,61 30 44,75
Total 2051,41 35
193
A la vista de los valores F obtenidos, se concluye que no es significativa la diferencia
entre genotipos ni la interacción, pero sı́ existen diferencias significativas sembrando 100
o 800 huevos, siendo el porcentaje de eclosiones mayor en el primer caso, ya que según
parece al haber menos huevos, las larvas disponen de más alimento.
Observación: cuando un factor no es significativo, la interacción generalmente tampoco
lo es.
194
La tabla 10.6 contiene la descomposición de la variabilidad. Los sumatorios deben des-
arrollarse para todos los subı́ndices i, j, k, m, verificándose por lo tanto
X X
SCA = (yi··· − ȳ)2 = bcd (yi··· − ȳ)2
i,j,k,m i
X X
SCB = (y·j·· − ȳ)2 = acd (y·j·· − ȳ)2
i,j,k,m j
X
SCBC = ad (y·jk· − y·j·· − y··k· + ȳ)2
j,k
(etcétera.)
Fuente de
variación suma de cuadrados grados de libertad
P 2
A P(yi··· − ȳ) 2 a−1
B P(y·j·· − ȳ) 2 b−1
C P(y··k· − ȳ) 2 c−1
D P(y···m − ȳ) d−1
2
AB P(yij·· − yi··· − y·j·· + ȳ) 2 (a − 1)(b − 1)
AC P(yi·k· − yi··· − y··k· + ȳ) 2 (a − 1)(c − 1)
AD P(yi··m − yi··· − y···m + ȳ)2 (a − 1)(d − 1)
BC P(y·jk· − y·j·· − y··k· + ȳ) 2 (b − 1)(c − 1)
BD P(y·j·m − y·j·· − y···m + ȳ) 2 (b − 1)(d − 1)
CD P(y··km − y··k· − y···m + ȳ) (c − 1)(d − 1)
ABC (yijk· − yij·· − yi·k· − y·jk· (a − 1)(b − 1)(c − 1)
2
P +yi··· + y·j·· + y··k· − ȳ)
ABD (yij·m − yij·· − yi··m − y·j·m (a − 1)(b − 1)(d − 1)
2
P +yi··· + y·j·· + y···m − ȳ)
ACD (yi·km − yi·k· − yi··m − y··km (a − 1)(c − 1)(d − 1)
2
P +yi··· + y··k· + y···m − ȳ)
BCD (y·jkm − y·jk· − y·j·m − y··km (b − 1)(c − 1)(d − 1)
2
P +y·j·· + y··k· + y···m − ȳ)
ABCD (yijkm − yijk· − yij·m − yi·km − y·jkm (a − 1)(b − 1)(c − 1)(d − 1)
+yij·· + yi·k· + y·jk· + yi··m + y·j·m
2
P +y··km −2yi··· − y·j·· − y··k· − y···m + ȳ)
Total (yijkm − ȳ) abcd − 1
Estas sumas de cuadrados pueden reunirse convenientemente, sumando también los gra-
dos de libertad, según el tipo de diseño factorial para obtener la suma de cuadrados
residual. Veamos tres casos:
1) Supongamos que se trata de un diseño de tres factores y réplicas, como el descrito
en a). Entonces:
SCT = SCA + SCB + SCC + SCAB + SCAC + SCBC + SCABC + SCR
195
siendo la suma de cuadrados residual
2) Supongamos que se trata de un diseño de 4 factores con una sola observación por
casilla, como el descrito en b). Entonces:
SCT = SCA +SCB +SCC +SCD +SCAB +· · ·+SCCD ++SCABC +· · ·+SCBCD +SCR
siendo
196
T = A + R + AR
Efecto A A a−1
Efecto B B b−1
Efecto C C c−1
Interacción A × B AB (a − 1)(b − 1)
Interacción A × C AC (a − 1)(c − 1)
Interacción B × C BC (b − 1)(c − 1)
Residuo ABC (a − 1)(b − 1)(c − 1)
197
6. Tres factores con r observaciones por casilla
T = A + B + C + R + AB + AC + AR + BC + BR + CR
+ ABC + ABR + ACR + BCR + ABCR
Efecto A A a−1
Efecto B B b−1
Efecto C C c−1
Interacción A×B AB (a − 1)(b − 1)
Interacción A×C AC (a − 1)(c − 1)
Interacción B×C BC (b − 1)(c − 1)
Interacción A × B × C ABC (a − 1)(b − 1)(c − 1)
Residuo R + AR + BR + CR + ABR abc(r − 1)
+ACR + BCR + ABCR
7. Diseño de parcela dividida
T = A + C + B + AC + AB + CB + ACB
B1 A2 A1 A3 A4
C1 C2 C2 C1 C2 C1 C1 C2
B2 A1 A3 A4 A2
C2 C1 C2 C1 C1 C2 C1 C2
B3 A3 A4 A2 A1
C1 C2 C1 C2 C2 C1 C2 C1
198
Para estudiar la significación del factor A y del factor bloque debe calcularse
A/(a − 1) B/(b − 1)
FA = FB =
AB/[(a − 1)(b − 1)] AB/[(a − 1)(b − 1)]
Para que exista identidad entre yijk y el término de la derecha, la estimación de la des-
viación aleatoria eijk debe ser
Ejemplo 10.5.1
Con el fin de valorar la acción de los hongos xilófagos sobre la madera, se han tomado
240 muestras de madera procedente de tocones de Pinus silvestris, clasificados atendiendo
simultáneamente a 4 factores (edad, orientación, altura y profundidad). La descripción
de los factores es:
199
Altura (A): 0, 2, 5, 15 expresada en cm contados a partir de la superficie de corte.
Los datos se adaptan a un diseño de 4 factores con una observación por casilla. El residuo
es la suma de cuadrados indicada simbólicamente por EOAP y su valor es 373,19 con 72
grados de libertad. Un examen inicial de los cocientes F de la tabla, obtenidos dividiendo
los cuadrados medios por 373,19/72 = 5,18, para un nivel de significación de 0,05 nos
lleva a las siguientes conclusiones:
200
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios F
Se observa que sigue existiendo variabilidad significativa respecto E,O y A. También son
significativas las interacciones EO y EA. Por lo tanto, se confirman las conclusiones
iniciales. Una estimación insesgada de la varianza σ 2 es σ̂ 2 = 5,39.
1) Un diseño balanceado si n1 = n2 = · · · = nk 6= 0.
D = diag(n1 , n2 , . . . , nk )
b 0 X0 DȲ
SCR = Y 0 Y − β R
201
siendo H0 : Aβ = 0 una hipótesis contrastable. La matriz M que relaciona X con XR
mediante X = MXR se define como en la sección 2.7, pero añadiendo una fila de ceros en
el lugar correspondiente a una casilla con observaciones faltantes. Véase Cuadras (1983).
Para otros tratamientos del caso no balanceado y de las observaciones faltantes véase
Seber (1977, pág. 259,290).
Ejemplo 10.6.1
Consideremos un diseño de dos factores A, B sin interacción, con a = 2, b = 3, n 11 = 1,
n12 = 2, n13 = 0, n21 = 3, n22 = 0, n23 = 1; es decir, no balanceado y con observaciones
faltantes en los niveles A1 B3 y A2 B2 . Entonces, para los parámetros µ, α1 , α2 , β1 , β2 , β3 ,
tenemos:
1 0 0 0 0 0
0 1 0 0 0 0
1 1 0 1 0 1
0 1 0 0 0 0
1 1 0 0 1 0
0 0 0 0 0 0
1 1 0 0 0 1
XR = 1 0 1 1 0 0
M = 0 0 0 1 0 0
0 0 0 1 0 0
1 0 1 0 1 0
0 0 0 1 0 0
1 0 1 0 0 1
0 0 0 0 0 0
0 0 0 0 0 1
D = (1, 2, 0, 3, 1, 0)
1 1 0 1 0 0
1 1 0 0 1 0
1 1 0 0 1 0
0 0 0 0 0 0
X = MXR =
1 0 1 1 0 0
1 0 1 1 0 0
1 0 1 1 0 0
0 0 0 0 0 0
1 0 0 0 0 1
202
10.7. Ejercicios
Ejercicio 10.1
Los siguientes datos corresponden a los ı́ndices de mortalidad, en un perı́odo de 10 años,
clasificados por estaciones. Determinar si hay diferencias significativas entre las diferentes
estaciones al nivel 0,01.
Invierno Primavera Verano Otoño
9,8 9,0 8,8 9,4
9,9 9,3 9,4
9,8 9,3 8,7 10,3
10,6 9,2 8,8 9,8
9,9 9,4 8,6 9,4
10,7 9,1 8,3 9,6
9,7 9,2 8,8 9,5
10,2 8,9 8,7 9,6
10,9 9,3 8,9 9,5
10,0 9,3 9,4
Por otra parte, difiere significativamente de 10,0 el ı́ndice medio registrado en invierno?
Ejercicio 10.2
Para el diseño de un factor con k niveles
yih = µ + αi + ih i = 1, . . . , k; h = 1, . . . , ni
P
con αi = 0, demostrar:
P
c) Cuando H0 es cierta y mı́n{n1 , . . . , nk } → ∞, entonces F −→1.
d) Si k = 2, el contraste F para la hipótesis
H0 : α 1 = α 2 = 0
Ejercicio 10.3
La siguiente tabla registra las producciones de 4 variedades de maı́z, plantadas según un
diseño en bloques aleatorizados
203
Variedad
1 2 3 4
a 7 6 6 7
b 10 8 7 9
Bloque c 6 3 5 7
d 4 3 3 3
e 8 5 5 6
Al nivel 0,05 estudiar si hay diferencias entre variedades y entre bloques. Comparar la
variedad 1 con la variedad 3.
Ejercicio 10.4
En una experiencia agrı́cola en la que se combina año con genotipo, se admite el siguiente
modelo
yikr = µ + αi + βk + γik + ωir + ikr (10.27)
donde yikr es la longitud de la planta, αi i = 1, . . . , 5 es el efecto principal del año, βk
k = 1, 2, 3 es el efecto principal del genotipo, γik es la interacción genotipo × año, ωir es
una interacción de las réplicas con los años y ikr es el término de error con distribución
N (0, σ 2 ). La tabla 10.7 presenta la descomposición ortogonal de la suma de cuadrados.
g.l. SC Y Y ×T T
A (año) 4 742 412 630
B (genotipo) 2 118 105 110
C (bloque) 3 74 87 97
AB 8 647 630 521
AC 12 454 478 372
BC 6 87 63 79
ABC 24 345 247 270
Tabla 10.7: Tabla con las sumas de cuadrados para el diseño 10.27
Se pide:
b) Estudiar si los efectos principales y las interacciones son significativas (nivel 0,05).
Ejercicio 10.5
En un estudio sobre viabilidad de Drosophila melanogaster se tienen en cuenta los si-
guientes factores:
Genotipo (G): se estudian 3 genotipos distintos
Generación (N ): el experimento se repite durante 4 generaciones sucesivas
Temperatura (T ): incubación a 17 y 25 grados centı́grados
204
Se obtuvieron 5 réplicas para cada una de las combinaciones de los 3 factores. El expe-
rimento se realizó sembrando 100 huevos y anotando el número de huevos eclosionados
(esto constituye una réplica). Después de transformar adecuadamente los datos origina-
les (ver ejemplo 10.5.1), se obtuvo la siguiente descomposición ortogonal de la suma de
cuadrados (R es el factor réplica)
SC g.l.
G 621 2
N 450 3
T 925 1
R 347 4
GN 35 6
GT 210 2
GR 48 8
NT 23 3
NR 34 12
TR 110 4
GN T 75 6
GN R 17 24
GT R 22 8
NT R 11 12
GN T R 107 24
Se pide:
a) Sabiendo que las interacciones entre 2 o 3 factores en las que intervenga el factor
N no forman parte del modelo lineal asociado al diseño, estudiar la significación de
los efectos principales y de las interacciones (nivel de significación: 0,01).
205
Capı́tulo 11
Análisis de Componentes de la
Varianza
11.1. Introducción
En los diseños hasta ahora estudiados hemos supuesto que los efectos de los factores son
fijos y por este motivo se denominan modelos de efectos fijos. Sin embargo, en ciertas
situaciones es necesario interpretar los efectos de los factores como aleatorios. En estos
casos no tiene interés el estudio de las funciones lineales de los efectos sino sus varianzas.
A los modelos relacionados con los efectos aleatorios se les denomina modelos de efectos
aleatorios o de componentes de la varianza. Pueden darse también efectos de ambos
tipos en un mismo modelo: son los modelos mixtos. Veamos como distinguirlos mediante
ejemplos.
yij = µ + αi + ij i = 1, 2, 3, 4; j = 1, 2, . . . , 10
H0 : α 1 = α 2 = α 3 = α 4 = 0
es decir, no hay efecto variedad y las cuatro pueden considerarse homogéneas en cuanto
a la productividad.
206
11.1.2. Un modelo de efectos aleatorios
Para determinar el contenido en DNA de los hepatocitos de rata hemos tomado al azar
cinco ratas. De cada hı́gado realizamos tres preparaciones y evaluamos con las técnicas
adecuadas la cantidad de DNA por célula.
Un modelo apropiado para estos datos serı́a también el de un factor
yij = µ + Ai + ij i = 1, 2, . . . , 5; j = 1, 2, 3
H0 : σA2 = 0
lo que equivale a afirmar que no hay variabilidad entre las distintas ratas de la población
respecto la variable estudiada.
yij = µ + αi + Bj + ij i = 1, 2, . . . , 6; j = 1, 2, 3, 4
H0 : α 1 = · · · = α 6 = 0
mientras que la hipótesis de que existe homogeneidad entre los diferentes dı́as del verano
es
H0 : σB2 = 0
207
solamente cuando existen interacciones. En diseños no balanceados el análisis es mucho
más complejo.
El cuadro 11.1 muestra los cuadrados medios esperados y el cociente a efectuar para
obtener la F en diseños de uno y dos factores con efectos fijos, aleatorios o mixtos. Por
ejemplo, en el diseño de dos factores sin interacción se verifica
a X 2
E[SCRB /(b − 1)] = E(CMB ) = σ 2 + β
b−1 j j
b) Si los dos factores son aleatorios, los cocientes F que deben calcularse para las
distintas hipótesis son
SCRA /(a − 1)
H0 : σA2 = 0 F =
SCRI /[(a − 1)(b − 1)]
SCRB /(b − 1)
H00 : σB2 = 0 F =
SCRI /[(a − 1)(b − 1)]
En los dos primeros casos es necesario dividir por la interacción para hallar la F .
En efecto, si H0 es cierta σA2 = 0 y entonces SCRA /(σ 2 + rσAB
2
) y SCRI /(σ 2 + rσAB
2
)
siguen distribuciones ji-cuadrado independientes con a − 1 y (a − 1)(b − 1) grados
de libertad respectivamente. Luego
CMA
F =
CMI
sigue la distribución F con a − 1 y (a − 1)(b − 1) grados de libertad. Observemos
que el término desconocido σ 2 + rσAB
2
desaparece. Podemos realizar consideraciones
0 00
análogas para H0 y H0 .
208
la F en diseños de uno y dos factores con efectos fijos, aleatorios o mixtos
Tabla 11.1: Tabla de los cuadrados medios esperados y el cociente a efectuar para obtener
1
P
SCRA σ2 + k−1 ni αi2 CMA /CMR σ 2 + n 0 σA
2
CMA /CMR
un factor (n0 = n1 = . . . = nk )
2
SCR σ σ2
209
b
P b
P
SCRA σ2 + a−1 αi2 CMA /CMR σ 2 + bσA
2
CMA /CMR σ2 + a−1 αi2 CMA /CMR
a
P
dos factores SCRB σ2 + b−1 βj2 CMB /CMR σ 2 + bσB
2
CMB /CMR σ 2 + aσB
2
CMB /CMR
SCR σ2 σ2 σ2
br
P br
P 2
αi
SCRA σ2 + a−1 αi2 CMA /CMR σ 2 + rσAB
2 2
+ brσA CMA /CMI σ 2 + rσAB
2
+ a−1 CMA /CMI
ar
P
dos factores SCRB σ2 + b−1 βj2 CMB /CMR σ 2 + rσAB
2 2
+ arσB CMB /CMI σ 2 + arσB
2
CMB /CMR
P 2
r γij
con interacción SCRI σ2 + (a−1)(b−1) CMI /CMR σ 2 + rσAB
2
CMI /CMR σ 2 + rσAB
2
CMI /CMR
SCR σ2 σ2 σ2
c) Si A es fijo y B es aleatorio, los cocientes F a efectuar son
SCRA /(a − 1)
H0 : α 1 = · · · = α a = 0 F =
SCRI /[(a − 1)(b − 1)]
SCRB /(b − 1)
H00 : σB2 = 0 F =
SCR/[ab(r − 1)]
En este caso solamente el efecto principal de A debe ser dividido por la interacción.
En efecto, si H0 es cierta αi = 0 i = 1, . . . , a y entonces SCRA /(σ 2 + rσAB2
) y
2 2
SCRI /(σ + rσAB ) siguen distribuciones ji-cuadrado independientes. Al realizar el
cociente para obtener la F desaparece el término σ 2 + rσAB
2
.
En cambio, para σB2 = 0 (H00 cierta), tenemos que
Ejemplo 11.2.1
Se desea estudiar y comparar la acción de tres fármacos tranquilizantes A, B C en la con-
ducción de automóviles. La variable que sirvió de referencia fue el tiempo que un individuo
tarda en iniciar la frenada ante la puesta repentina en rojo de un semáforo. Se eligieron
8 hombres al azar y se sometió a cada hombre a los 3 tratamientos, en perı́odos sucesivos
y secuencias al azar, mediante el procedimiento del doble ciego (ni el médico ni el pacien-
te saben cual es el fármaco suministrado en un determinado momento). Los resultados
fueron, en milésimas de segundo (cada dato es el promedio de varias observaciones):
1 2 3 4 5 6 7 8
A 548 619 641 846 517 876 602 628
Tratamiento B 519 776 678 858 493 741 719 595
C 637 818 701 855 618 849 731 687
Como hay tres tratamientos fijos y ocho individuos elegidos al azar de la población, nos
encontramos ante un diseño mixto, donde el efecto individuo (efecto bloque) es aleatorio.
Las hipótesis a contemplar son
donde σB2 es la varianza del efecto individuo. La tabla del Análisis de la Varianza es
210
Fuente de suma de cuadrados
variación cuadrados g.l. medios F
Entre tratam. 27535 2 13767,5 5,15
Entre individuos 258040 7 36862,8 13,78
Residuo 37451 14 2675,0
Total 323026 23
Para 2 y 14 g.l. F = 5,15 es significativa al nivel 0,025, aceptamos pues que hay diferencias
entre fármacos. Para 7 y 14 g.l. F = 13,78 es significativa al nivel 0,005, aceptamos que
hay variabilidad entre individuos.
Ejemplo 11.3.1
Para estimar la variabilidad entre individuos del ejemplo anterior, igualaremos los cua-
drados medios a sus valores esperados
b2 + 3b
36862,8 = σ σB2
b2
2675 = σ
de donde
bB2 = (36862,8 − 2675)/3 = 11395,9
σ
bB =
El tiempo de frenado entre los individuos varı́a con una desviación tı́pica estimada σ
106 milésimas de segundo.
211
11.4.1. Diseño de un factor con efectos fijos
Tal como se ha visto en la sección 10.2, el modelo lineal que se adapta a este diseño es
yij = µi + ij
o, reparametrizado,
yij = µ + αi + ij i = 1, . . . , k; j = 1, . . . , ni
P
con la restricción ki=1 αi = 0. Las yij son independientes y normales N (µi , σ). Las ij
son independientes y normales N (0, σ).
La descomposición de la variabilidad viene dada por
X X X
(yij − ȳ)2 = (yi· − ȳ)2 + (yij − yi· )2
i,j i i,j
es decir
SCT = SCe + SCd
o también
SCRH = (SCRH − SCR) + SCR
con n − 1, k − 1 y n − k grados de libertad respectivamente, siendo n1 + · · · + nk = n.
Teorema 11.4.1
El valor esperado de la suma de cuadrados entre grupos es
k
X
2
E(SCe ) = (k − 1)σ + ni αi2
i=1
luego
k
SCe 1 X
2
E(CMe ) = E =σ + ni αi2
k−1 k − 1 i=1
Demostración:
P
Por definición SCe = ki=1 ni (yi· − ȳ)2 .
Del modelo yij = µ + αi + ij se obtiene
yi· = µ + αi + i·
ȳ = µ + ··
Pk P
ya que i=1 αi = 0 y en consecuencia α· = (1/k) ki=1 αi = 0.
Entonces
k
X
SCe = ni (αi + i· − ·· )2
i=1
Xk k
X k
X
= ni αi2 + ni 2i· + n2·· +2 ni αi i·
i=1 i=1 i=1
k
X k
X
−2·· ni αi − 2·· ni i·
i=1 i=1
212
pero !
k
X k
X ni
1 X X
·· ni i· = ·· ni ij = ·· ij = n2··
i=1 i=1
ni j=1 i,j
luego
k
X k
X
E(SCe ) = ni αi2 + ni E(2i· ) + n E(2·· )
i=1 i=1
k k
!
X X
+2 ni αi E(i· ) − 2 ni α i E(·· )
i=1 i=1
−2n E(2·· )
Recordando que las v.a. ij son independientes y normales N (0, σ) se verifica
√ √
i· ∼ N (0, σ/ ni ) ·· ∼ N (0, σ/ n)
Teorema 11.4.2
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SCd ) = (n − k)σ 2
y por lo tanto
SCd
E(CMd ) = E = σ2
n−k
Demostración:
Teniendo en cuenta que SCd = SCR, la demostración de este teorema ya se realizó en la
sección ?? con el modelo lineal general. También se puede demostrar siguiendo un proceso
parecido al del teorema anterior.
Caso particular
213
Si el diseño es balanceado, es decir, igual número de réplicas por condición experimental
(n1 = · · · = nk = n0 ), entonces los teoremas 11.4.1 y 11.4.2 adoptan respectivamente las
formas
k
n0 X 2
E(CMe ) = σ 2 + α
k − 1 i=1 i
SCd
E(CMd ) = E = σ2
k(n0 − 1)
H0 : µ 1 = µ 2 = · · · = µ k = µ
H0 : α 1 = α 2 = · · · = α k = 0
a) SCd /σ 2 ∼ χ2n−k
c) Si H0 es cierta, el estadı́stico
yij = µ + Ai + ij i = 1, . . . , k; j = 1, . . . , ni
2) E(Ai · Ai0 ) = 0 ∀i 6= i0
214
es decir, {Ai } son variables aleatorias de media cero y varianza σA2 , independientes entre
sı́ y de los errores {ij }. Luego
Este modelo de efectos aleatorios que hemos formulado y en general cualquier modelo
de efectos aleatorios, difiere de un modelo de efectos fijos en que bajo las asunciones
realizadas
E(yij ) = µ + Ai ∀j
Teorema 11.4.3
Para el diseño de un factor con efectos aleatorios el valor esperado de la suma de cuadrados
entre grupos es
E(SCe ) = (k − 1)σ 2 + n0 (k − 1)σA2
luego
SCe
E(CMe ) = E = σ 2 + n0 σA2
k−1
Demostración:
P
Por definición SCe = n0 ki=1 (yi· − ȳ)2 .
Del modelo se obtiene
yi· = µ + Ai + i·
ȳ = µ + A· + ··
de donde
k
X
SCe = n0 [(Ai − A· ) + (i· − ·· )]2
i=1
" k k k k
X X X X
= n0 A2i + A2· − 2A· Ai + 2i·
i=1 i=1 i=1 i=1
k k
#
X X
+k2·· − 2·· i· + 2 (Ai − A· )(i· − ·· )
i=1 i=1
215
pero
k
X Xk n0 k n0
1 X 1 XX 1
i· = ij = ij = kn0 ·· = k··
i=1 i=1
n0 j=1 n0 i=1 j=1 n0
ya que
k n0
1 XX
·· = ij
kn0 i=1 j=1
Entonces
" k k k
#
X X X
SCe = n0 A2i + kA2· + 2 2
i· − k·· + 2 (Ai − A· )(i· − ·· )
i=1 i=1 i=1
k
X k
X
E(SCe ) = n0 E(A2i ) − n0 kE(A2· ) + n0 E(2i· )
i=1 i=1
k
X
−n0 kE(2·· ) + 2n0 E[(Ai − A· )(i· − ·· )]
i=1
Teorema 11.4.4
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SCd ) = k(n0 − 1)σ
es decir
SCd
E(CMd ) = E = σ2
k(n0 − 1)
216
Demostración:
P P 0
Por definición SCe = ki=1 nj=1 (yij − yi· )2 .
Del modelo se obtiene
yi· = µ + Ai + i·
Entonces
n0
k X
X
SCd = (ij − i· )2
i=1 j=1
X n0
k X n0
k X
X n0
k X
X
= 2ij + 2i· −2 i· ij
i=1 j=1 i=1 j=1 i=1 j=1
X n0
k X k
X k
X n0
X
= 2ij + n0 2i· −2 i· ij
i=1 j=1 i=1 i=1 j=1
X n0
k X k
X k
X
= 2ij + n0 2i· − 2 i· n0 i·
i=1 j=1 i=1 i=1
X n0
k X k
X
= 2ij − n0 2i·
i=1 j=1 i=1
de manera que
X n0
k X k
X
E(SCd ) = E(2ij ) − n0 E(2i· )
i=1 j=1 i=1
2
σ
= kn0 σ 2 − n0 k
n0
= kn0 σ 2 − kσ 2
= k(n0 − 1)σ 2
H0 : σA2 = 0
Recordemos que
k
X k
X
2
SCA = n0 (yi· − ȳ) = n0 (Ai + i· − A· − ·· )2
i=1 i=1
X X
2
SCR = (yij − yi· ) = (ij − i· )2
i,j i,j
siendo SCA la suma de cuadrados entre grupos o suma de cuadrados del factor y SCR
la suma de cuadrados dentro de los grupos o suma de cuadrados residual, representadas
hasta ahora por SCe y SCd respectivamente. Recuérdese también que A· es una variable
aleatoria y en consecuencia susceptible de tomar un valor distinto de cero.
217
Realizando el cambio gi = Ai + i· obtenemos k v.a. independientes con distribución
normal de media cero y varianza
σ2
var(gi ) = var(Ai ) + var(i· ) = σA2 +
n0
Por el teorema de Fisher, la variable aleatoria
ks2g /σg2
se distribuye según una ji-cuadrado con k − 1 g.l., es decir,
Pk P
i=1 (gi − ḡ)
2
n0 ki=1 (gi − ḡ)2 SCA
σ2
= 2 2
= 2 2
∼ χ2k
2
σA + n 0 n0 σ A + σ n0 σ A + σ
Entonces
SCA = (n0 σA2 + σ 2 ) · χ2k−1
SCA
E(CMA ) = E = n0 σA2 + σ 2
k−1
A este resultado habı́amos llegado también anteriormente por el teorema 11.4.3.
Por otra parte, SCR está distribuida de idéntica forma que en los modelos de efectos fijos.
Los ij desempeñan el papel de las observaciones, con media cero y varianza σ 2 . Luego
SCR = σ 2 · χ2k(n0 −1)
SCR
E(CMR ) = E = σ2
k(n0 − 1)
Para efectuar comparaciones falta demostrar que SCA y SCR son independientes. Para
ello, basta probar la independencia entre Ai + i· − A· − ·· y ij − i· . Tenemos que Ai − A·
y ij − i· son obviamente independientes. Si expresamos ij = ·· + (i· − ·· ) + (ij − i· ),
utilizando otra vez la analogı́a con los modelos de efectos fijos, i· −·· pertenece al espacio
de las estimaciones y ij −i· pertenece al espacio error, espacios que son ortogonales entre
sı́. Debido a la normalidad del modelo, sus vectores son independientes, luego SCA y SCR
son independientes. Entonces, si H0 es cierta, el estadı́stico
SCA /[σ 2 (k − 1)] SCA /(k − 1) CMA
F = 2
= =
SCR/[σ k(n0 − 1)] SCR/[k(n0 − 1)] CMR
sigue la distribución F con k −1 y k(n0 −1) g.l.. La hipótesis H0 se rechaza si el estadı́stico
es significativo.
Como resumen de lo expuesto en los apartados anteriores véase el cuadro 11.2. Obsérvese
que, si bien la hipótesis a contrastar del modelo I es formalmente distinta de la hipótesis
del modelo II, se utiliza el mismo estadı́stico de contraste
CMA k−1
F = ∼ Fk(n 0 −1)
CMR
Una estimación de los componentes de la varianza es
CMA − CMR
b2 = CMR
σ bA2 =
σ
n0
solución obtenida resolviendo el sistema resultante de igualar los cuadrados medios con
b2
los cuadrados medios esperados (ver sección anterior). Obsérvese que los estimadores σ
2 2 2
yσbA son siempre estimadores insesgados de los parámetros σ y σA respectivamente.
218
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II
P
2 n0 αi2
Tratamientos k−1 CMA = SCA /(k − 1) σ + σ 2 + n0 σA2
k−1
Total n0 k − 1
Tabla 11.2: Tabla comparativa para diseños de un factor con efectos fijos y efectos alea-
torios
t3 t2 t1 t1
t1 t1 t2 t3
t2 t3 t3 t2
Las letras t indican la asignación aleatoria de los tratamientos en los bloques. Como
ejemplo véase el ejemplo 10.3.1.
Generalizando, consideremos el caso de a tratamientos en b bloques. La observación yij
indica la respuesta del i-ésimo tratamiento aplicado al j-ésimo bloque. Se supondrá que
yij (i = 1, . . . , a; j = 1, . . . , b) son valores de v.a. independientes con distribución normal
de media µij y varianza común σ 2 . Serán de utilidad también
El promedio de las medias poblacionales para el i-ésimo tratamiento está definido por
b
1X
µi· = µij
b j=1
Asimismo, el promedio de las medias poblacionales para el j-ésimo bloque está definido
por
a
1X
µ·j = µij
a i=1
219
y el promedio de las ab medias poblacionales es
a b
1 XX
µ·· = µij
ab i=1 j=1
donde ij mide la desviación del valor observado yij frente la media poblacional µij . La
forma más común de expresar esta ecuación se obtiene al sustituir
µij = µ + αi + βj
donde αi es el efecto del i-ésimo tratamiento y βj el efecto del j-ésimo bloque. Se supone
que los efectos del tratamiento y del bloque son aditivos. Ası́, el modelo es
yij = µ + αi + βj + ij
entonces
b
1X
µi· = (µ + αi + βj ) = µ + αi
b j=1
a
1X
µ·j = (µ + αi + βj ) = µ + βj
a i=1
H0A : α1 = α2 = · · · = αa = 0
H0B : β1 = β2 = · · · = βb = 0
220
En la sección 10.3 se vio que la descomposición fundamental de la suma de cuadrados
(descomposición de la variabilidad) viene dada por
X X X
(yij − ȳ)2 = b (yi· − ȳ)2 + a (y·j − ȳ)2
i,j i j
X
+ (yij − yi· − y·j + ȳ)2
i,j
es decir
SCT = SCF + SCC + SCR
donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre filas, SCC la
suma de cuadrados entre columnas y SCR la suma de cuadrados residual.
Teorema 11.4.5
El valor esperado de la suma de cuadrados entre filas es
a
X
2
E(SCF ) = (a − 1)σ + b αi2
i=1
luego
a
b X 2
E(CMF ) = E(SCF /(a − 1)) = σ 2 + α
a − 1 i=1 i
Demostración:
Es análoga a la del teorema 11.4.1.
Teorema 11.4.6
El valor esperado de la suma de cuadrados entre columnas es
b
X
2
E(SCC ) = (b − 1)σ + a βj2
j=1
luego
b
a X 2 2
E(CMC ) = E(SCC /(b − 1)) = σ + β
b − 1 j=1 j
Demostración:
Es análoga a la del teorema 11.4.1.
Teorema 11.4.7
El valor esperado de la suma de cuadrados residual es
luego
E(CMR ) = E(SCR/[(a − 1)(b − 1)]) = σ 2
221
Demostración:
Es análoga a la del teorema 11.4.2.
Inferencia en el diseño de dos factores sin interacción con efectos fijos
Una de las hipótesis a contrastar es
H0A : α1 = α2 = · · · = αa = 0
Por el teorema 11.4.5, CMF es un estimador insesgado de σ 2 si H0A es cierta. Por el
teorema 11.4.7 SCR es siempre un estimador insesgado de σ 2 , tanto si H0A es cierta como
si no lo es. Además, suponiendo que ij ∼ N (0, σ), se verifica el teorema ?? de la teorı́a
general del modelo lineal formal:
a) SCR/σ 2 ∼ χ2(a−1)(b−1)
es decir
SCT = SCF + SCC + SCR
222
Teorema 11.4.8
El valor esperado de la suma de cuadrados entre filas es
luego
E(CMF ) = E(SCF /(a − 1)) = σ 2 + bσA2
Demostración:
Es análoga a la del teorema 11.4.3.
Teorema 11.4.9
El valor esperado de la suma de cuadrados entre columnas es
luego
E(CMC ) = E(SCC /(b − 1)) = σ 2 + aσB2
Demostración:
Es análoga a la del teorema 11.4.3.
Teorema 11.4.10
El valor esperado de la suma de cuadrados residual es
luego
E(CMR ) = E(SCR/[(a − 1)(b − 1)]) = σ 2
Demostración:
Es análoga a la del teorema 11.4.4.
Inferencia en el diseño de dos factores sin interacción con efectos aleatorios
Las hipótesis de interés en este modelo son
223
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II
b X 2
Entre filas a−1 CMF = SCF /(a − 1) σ2 + αi σ 2 + bσA2
a−1
a X 2
Entre col. b−1 CMC = SCC /(b − 1) σ2 + βj σ 2 + aσB2
b−1
SCR
Error (a − 1)(b − 1) CMR = σ2 σ2
(a − 1)(b − 1)
Total ab − 1
Tabla 11.3: Tabla comparativa para diseños de dos factores con efectos aleatorios y sin
interacción
b2 = CMR
σ bA2 = (CMF − CMR )/b
σ bB2 = (CMC − CMR )/a
σ
verificándose
σ2) = σ2
E(b σA2 ) = σA2
E(b σB2 ) = σB2
E(b
siendo Ai , Bj , (AB)ij y ijk variables aleatorias normales independientes con media cero
y varianza σA2 , σB2 , σAB
2
y σ 2 respectivamente.
En el cuadro 11.4 figuran las esperanzas de los cuadrados medios tanto para el modelo I
como para el modelo II, indicando por modelo I cuando los dos factores son fijos y por
modelo II cuando los dos factores son aleatorios. La demostración de las fórmulas de estas
esperanzas se hace de forma análoga a la de los teoremas 11.4.5, 11.4.6 y 11.4.7 para el
modelo I, y 11.4.8, 11.4.9 y 11.4.10 para el modelo II.
Las hipótesis a contrastar en el modelo II son
224
Esperanza del cuadrado medio
Fuente de cuadrados
variación g.l. medios Modelo I Modelo II
SCA rb
P
Entre filas a−1 CMA = a−1
σ2 + a−1
αi2 σ 2 + rσAB
2
+ brσA2
SCB ra
P
Entre col. b−1 CMB = b−1
σ2 + b−1
βj2 σ 2 + rσAB
2
+ arσB2
SCAB r
P
Interac. g∗ CMAB = g
σ2 + g
τij σ 2 + rσAB
2
SCR
Residuo ab(r − 1) CMR = ab(r−1)
σ2 σ2
Tabla 11.4: Tabla comparativa para diseños de dos factores con efectos aleatorios y con
interacción
que sigue bajo H0A la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0A se
rechaza si el estadı́stico es significativo.
De manera análoga para contrastar la segunda hipótesis se utiliza el estadı́stico
SCB /[(b − 1)(σ 2 + rσAB
2
)] SCB /(b − 1) CMB
F = 2 2
= =
SCAB /[(a − 1)(b − 1)(σ + rσAB )] SCAB /(a − 1)(b − 1) CMAB
que sigue bajo H0B la distribución F con b − 1 y (a − 1)(b − 1) g.l..
En el contraste de las dos hipótesis anteriores se divide por el cuadrado medio de la
interacción; en cambio, para contrastar la tercera hipótesis se divide por el cuadrado
medio del error, es decir, se utiliza el estadı́stico
SCAB /[(a − 1)(b − 1)σ 2 ] SCAB /[(a − 1)(b − 1)] CMAB
F = 2
= =
SCR/[ab(r − 1)σ ] SCR/[ab(r − 1)] CMR
que sigue bajo H0AB la distribución F con (a − 1)(b − 1) y ab(r − 1) g.l.. La hipótesis H0AB
se rechaza si el estadı́stico es significativo.
Las estimaciones insesgadas de las componentes de la varianza (ver sección 11.3) son
b2 = CMR
σ σ2) = σ2
E(b
2 2 2
bAB
σ = (CMAB − CMR )/r E(b
σAB ) = σAB
225
Fuente de cuadrados Esperanza del cuadrado medio
variación g.l. medios Modelo II
Total abcr − 1
Tabla 11.5: Tabla para diseños de tres factores con efectos aleatorios
226
En efecto
cov(yij , yij 0 )
ρI (yij , yij 0 ) = p p
var(yij ) var(yij 0 )
E[(yij − µ)(yij 0 − µ)]
=
σA2 + σ
E(A2i + Ai ij + Ai ij 0 + ij ij 0 )
=
σA2 + σ
E(A2i ) σA2
= =
σA2 + σ σA2 + σ
ρbI = max{0, rI }
siendo
bA2
σ F −1
rI = 2 2
=
bA + σ
σ b F + n0 − 1
donde F = CMA /CMR .
Para ver si rI es significativo hemos de plantear el contraste de la hipótesis H0 : ρI = 0
equivalente a H0 : σA2 = 0 que se resuelve mediante Análisis de la Varianza.
Ejemplo 11.5.1
En un estudio sobre los guisantes se tomaron 5 vainas, cada una de las cuales contenı́a 8
guisantes. Los pesos en centigramos fueron
1 44 41 42 40 48 46 46 42
2 43 46 48 42 50 45 45 49
vaina 3 33 34 37 39 32 35 37 41
4 56 52 50 51 54 52 49 52
5 36 37 38 40 40 41 44 44
Los datos se asimilan a un diseño de un factor de efectos aleatorios. Las sumas de cua-
drados son (n0 = 8)
227
ya que
F −1 36,57
rI = = = 0,8205
F + n0 − 1 44,57
Realicemos el contraste de hipótesis para comprobar que es significativo. La hipótesis
H0 : ρI = 0 equivale a plantear el contraste H0 : σA2 = 0, que se resuelve mediante
Análisis de la Varianza. Como F = 37,57 con 4 y 35 g.l. es muy significativa, aceptamos
que es distinto de cero. La interpretación en este caso es la siguiente: aproximadamente el
80 % de la variabilidad se explica por la componente genética, el resto es debido a factores
ambientales.
228
11.6. Ejercicios
Ejercicio 11.1
En una población, de entre las mujeres que habı́an concebido tres hijos varones, se selec-
cionaron 5 al azar y se anotó el peso que registró cada hijo al nacer:
Ejercicio 11.2
Eligiendo 4 tardes al azar del verano, se midió la temperatura de un lago a diferentes
profundidades con los siguientes resultados
Fecha
Profundidad (m) 1 2 3 4
0 23,8 24,0 34,6 24,8
1 22,6 22,4 22,9 23,2
2 22,2 22,1 22,1 22,2
3 21,2 21,8 21,0 21,2
4 18,4 19,3 19,0 18,8
5 13,5 14,4 14,2 13,8
Determinar si son factores de efectos fijos o de efectos aleatorios y si hay diferencias entre
profundidades y entre fechas.
Ejercicio 11.3
Para valorar la variabilidad del contenido de zumo de una cierta variedad de limón, se
tomaron 4 árboles al azar y se midió el contenido de zumo de 3 limones de cada árbol.
Esta observación se hizo durante 5 dı́as, eligiendo fechas al azar. Los resultados fueron
(en cm3 ):
Árbol
Dı́a 1 2 3 4
1 24 26 26 28 20 27 28 18 21 27 24 20
2 18 25 19 21 24 23 27 19 17 25 23 22
3 16 21 15 24 20 21 22 25 24 29 27 27
4 21 24 22 23 20 26 24 24 23 20 21 27
5 23 24 28 27 21 28 26 25 27 25 27 28
Estudiar si existe variabilidad entre árboles, entre dı́as y entre las interacciones árboles
× dı́as.
Ejercicio 11.4
229
Se han obtenido réplicas de una variable observable y combinado dos factores A, B. El
número de réplicas (“factor” R) por casilla es de tres. La descomposición de la suma de
cuadrados es la siguiente:
Fuente variación g.l. Suma cuadrados
A 3 420
B 1 143
AB 3 32
R 2 109
AR 6 197
BR 2 39
ABR 6 155
Utilizando el nivel de significación 0,01, se pide:
a) Suponiendo A, B factores de efectos fijos, estudiar si son significativos. Hallar tres
estimaciones independientes de la varianza del diseño.
b) Suponiendo A, B factores de efectos aleatorios, estudiar si A y la interacción A × B
son significativos.
Ejercicio 11.5
Consideremos de nuevo el enunciado del problema 6.4. Supongamos ahora que en el
modelo (∗) ωir = 0, A (año) es de efectos aleatorios y B (genotipo) es de efectos fijos.
Estudiar si los efectos principales y las interacciones son significativas.
Ejercicio 11.6
Los resultados yijh de un cierto experimento, donde i = 1, . . . , p; j = 1, . . . , q; h = 1, . . . , b
combinan dos factores X, Y , junto con un factor bloque B que no interacciona con X, Y .
En este experimento las réplicas son bloques y el modelo es
yijk = µ + Xi + Yj + Iij + Bh + ijh
La tabla de suma de cuadrados es:
Fuente variación g.l. Suma cuadrados
X 2 625
Y 3 1340
B 4 402
XY 6 227
XB 8 289
YB 12 310
XY B 24 528
Se pide:
a) Suponiendo los efectos fijos, estudiar la significación de los efectos principales y la
interacción (nivel 0,05). Hallar dos estimadores insesgados de la varianza del modelo.
b) Suponiendo todos los efectos aleatorios, y sabiendo que los valores esperados de los
cuadrados medios son:
2
E(CMX ) = rqσX + rσI2 + σ 2 E(CMY ) = rpσY2 + rσI2 + σ 2
E(CMI ) = rσI2 + σ 2 E(CMB ) = pqσB2 + σ 2 E(CMR ) = σ 2
230
Apéndice A
Matrices
AA− A = A
Métodos de construcción
A− = VL−1 U0
es una g-inversa.
231
A.2. Derivación matricial
Definimos la derivada de f (X) con respecto a X n × p como la matriz
∂f (X) ∂f (X)
= .
∂X ∂xij
∂a0 x ∂Ax
1. = a, = A0
∂x ∂x
∂x0 x ∂x0 Ax ∂x0 Ay
2. = 2x, = (A0 + A)x, = Ay
∂x ∂x ∂x
Luego
P2 = TΛT0 TΛT0 = TΛ2 T0 = TΛT0 = P
y rg(P) = r.
232
3. Si P es idempotente, también I − P lo es.
Demostración:
(I − P)2 = I − 2P + P2 = I − 2P + P = I − P.
κ[X0 X] = (κ[X])2
Por la definición κ > 1, por tanto X0 X siempre está peor condicionada que X. Luego,
a no ser que κ[X] sea un valor moderado, es mejor no calcular X0 X en los métodos de
computación de las soluciones (ver capı́tulo 11 de Seber[61]).
En la práctica, es muy común que una variable regresora esté altamente correlacionada
con una combinación lineal de las otras variables regresoras, de forma que las columnas
de X estarán muy próximas a ser linealmente dependientes. Ası́ X0 X estará cerca de la
singularidad (o será singular), el menor valor propio será pequeño y κ[X] será grande (ver
sección 8.5).
233
Apéndice B
Proyecciones ortogonales
234
5. El subespacio generado por las columnas de PΩ es hPΩ i = Ω.
Demostración:
Es evidente que hPΩ i ⊂ Ω, ya que PΩ es la proyección sobre Ω. Recı́procamente si
x ∈ Ω, entonces x = PΩ x ∈ hPΩ i. Luego los dos subespacios son el mismo.
8. Si Ω = hXi, entonces
PΩ = X(X0 X)− X0
b = B(B− c) = BB− Bβ = Bβ = c.
Bβ
b = Xβ,
Por otra parte, si escribimos θ b tenemos Y = θ
b + (Y − θ)
b donde
b0 (Y − θ)
θ b = βb 0 X0 (Y − Xβ)
b
b 0 (X0 Y − X0 Xβ)
= β b =0
Luego Y = θb + (Y − θ)
b es una descomposición ortogonal de Y tal que θ
b ∈ hXi
b ⊥ hXi. Como θ
y (Y − θ) b = Xβb = XB− c = X(X0 X)− X0 Y tenemos que PΩ =
0 − 0
X(X X) X por la unicidad demostrada en (2).
235
B.2. Proyecciones en subespacios
1. Dado ω ⊂ Ω, entonces PΩ Pω = Pω PΩ = Pω .
Demostración:
Como ω ⊂ Ω y ω = hPω i (por el punto B.1.5), tenemos que la proyección sobre Ω
de las columnas de Pω son las propias columnas, es decir, PΩ Pω = Pω . El resultado
completo se deduce porque PΩ y Pω son matrices simétricas.
2. PΩ − Pω = Pω⊥ ∩Ω .
Demostración:
Consideremos la descomposición PΩ y = Pω y + (PΩ − Pω )y. Como PΩ y y Pω y
pertenecen a Ω resulta que (PΩ − Pω )y ∈ Ω. Ası́ la ecuación anterior presenta la
descomposición ortogonal de Ω en ω y ω ⊥ ∩Ω ya que Pω (PΩ −Pω ) = O (por B.2.1).
ω ⊥ ∩ Ω = {Ω ∩ ker(A∗ )}⊥ ∩ Ω
= {Ω⊥ + hA0∗ i} ∩ Ω
ya que (Ω1 ∩ Ω2 )⊥ = Ω⊥ ⊥ ⊥ 0
1 + Ω2 y [ker(A∗ )] = hA∗ i.
236
Apéndice C
Estadı́stica multivariante
(Y − µ)0 A(Y − µ) = Y 0 AY − µ0 AY − Y0 Aµ + µ0 Aµ
de modo que
237
Por otra parte, sabemos que, para dos matrices C y D, la traza del producto verifica
X
tr(CD) = tr(DC) = cij dji
i,j
y por eso
X X
tr(AV) = aij cov(Yj , Yi ) = aij E((Yj − µj )(Yi − µi ))
i,j i,j
!
X
= E (Yi − µi )aij (Yj − µj ) = E((Y − µ)0 A(Y − µ))
i,j
(a) A∗ Y es independiente de V0 V.
(b) U0 U y V0 V son independientes.
238
Bibliografı́a
[2] D.A. Allen and F.B. Cady, Analyzing Experimental Data by Regression. Wadsworth,
1982.
[3] V.L. Anderson and R.A. McLean, Design of Experiments. Marcel Dekker, 1974.
[4] S.F. Arnold, The Theory of Linear Models and Multivariate Observations. Wiley,
1981.
[6] J. Bibby and H. Toutenberg, Prediction and Improved Estimation in Linear Models.
Wiley, 1977.
[8] G.E.P. Box and N. Draper, Empirical Model Building and Response Surfaces. Wiley,
1987.
[9] G.E.P. Box, W. Hunter and J.S. Hunter, Estadı́stica para Investigadores. Reverté,
1988.
[10] R.J. Brook and G.C. Arnold, Applied Regression Analysis and Experimental Design.
Marcel Dekker, 1985.
[12] W.G. Cochran and G.M. Cox, Experimental Designs. Wiley, 2nd Edition, 1992.
[13] R.D. Cook and S. Weisberg, Residuals and Influence in Regression. Chapman and
Hall, 1982.
[14] R.D. Cook and S. Weisberg, Applied Regression Including Computing and Graphics.
Wiley, 1999.
[15] J.A. Cornell, Experiments with Mixtures: Designs, Models, and the Analysis of Mix-
ture Data. Wiley, 3rd Edition, 2002.
239
[18] S. Chatterjee and B. Price, Regression Analysis by Example. Wiley, 3rd Edition,
1999.
[20] C. Daniel and F.S. Wood, Fitting Equations to Data. Wiley, 1980.
[23] H.E. Doran, Applied Regression Analysis in Econometrics. Marcel Dekker, 1989.
[24] N.R. Draper and H. Smith, Applied Regression Analysis. Wiley, 3rd Edition, 1998.
[25] R.A. Fisher, The Design of Experiments. Oliver Boyd, Edimburgo, 1953.
[26] J. Fox, Linear Statistical Models & Related Methods. Wiley, 1984.
[29] F.A. Graybill, Theory and Application of the Linear Model. Wadsworth, 1976.
[30] R.F. Gunst and R.L. Mason, Regression Analysis and its Aplication. Marcel Dekker,
1980.
[33] C.R. Hicks, Fundamental Conceps in the Design of Experiments. Holt, Renehart and
Winston, 1982.
[35] D.C. Hoaglin, F. Mosteller, and J.W. Tukey, Understanding Robust and Exploratory
Data Analysis. Wiley, 1983.
[36] R.R. Hocking, Methods and Applications of Linear Models: Regression and the Analy-
sis of Variance. Wiley, 2nd Edition, 2003.
[37] P.W.M. John, Statistical Design and Analysis of Experiments. Mc Millan, 1971.
[38] J.A. John and M.H. Quenouille, Experiments: Design and Analysis. Charles Griffin,
1977.
[40] M. Kendall, A. Stuart and J.K. Ord, The Avanced Teory of Statistics (vol. 3, Design
and Analysis, and Time Series). Charles Griffin, 1983.
240
[42] T.J. Lorenzen and V. L. Anderson, Design of Experiments. Marcel Dekker, 1993.
[43] R.L. Mason, R.F. Gunst and J.L. Hess, Statistical Design and Analysis of Experi-
ments: With Applications to Engineering and Science. Wiley, 2nd Edition, 2003.
[44] P. McCullagh and J.A. Nelder, Generalized Linear Models. Chapman and Hall, 1989.
[46] D.C. Montgomery, E.A. Peck and G.G. Vining Introduction to Linear Regression
Analysis. Wiley, 3rd Edition, 2001.
[47] F. Mosteller and J.W. Tukey, Data Analysis and Regression. Addison-Wesley, 1977.
[48] R.H. Myers, Clasical and Modern Regression with Application. Duxbury Press, 1986.
[49] J. Neter, W. Wasserman and M.H. Kutner, Applied Linear Statistical Models. Ri-
chard D. Irwin, 1990.
[52] C.R. Rao, Linear Statistical Inference and its Applications. Wiley, 1973
[53] C.R. Rao and H. Toutenburg, Linear Models. Springer Series in Statistics, 1995.
[54] D.A. Ratkowsky, Non Linear Regression Modeling. Marcel Dekker, 1983.
[55] P.J. Rousseeuw and A.M. Leroy, Robust Regression and Outlier Detection. Wiley,
2003.
[60] G.A.F. Seber and C.J. Wild, Nonlinear Regression, Wiley, 2003.
[61] G.A.F. Seber and A.J. Lee, Linear Regression Analysis. Wiley, 2nd. Edition, 2003.
[63] S.D. Silvey, Optimal Design: An Introduction to the Teory for Parameter Estimation.
Chapman and Hall, 1980.
[64] M.D. Ugarte y A.F. Militino. Estadı́stica Aplicada con S-Plus. Universidad Pública
de Navarra, 2001.
[65] H.D. Vinod and A. Ullah, Recent Advances in Regression Methods. Marcel Dekker,
1981.
241
[66] S. Weisber, Applied Linear Regression. Wiley, 2nd Edition, 1985.
[68] T.H. Wonnacott and R.J. Wonnacott, Regression: a second course in statistics. Wiley,
1981
242
Índice alfabético
ampliar un modelo método, 14
con una variable, 56 matriz
con varias variables, 60 de diseño, 24
de rango no máximo, 37
BLUE, 44 reducida, 35
breakdown bound, 131 de rango máximo, 48
coeficiente de determinación, 15, 94, 137 de regresión, 24
ajustado, 138 del modelo, 24
condiciones del modelo lineal, 15, 26 proyección, 46
modelo
Dfbetas, 173 centrado, 14
distancia de Cook, 173 lineal, 24
lineal normal, 26
ecuaciones normales, 27 multicolinealidad, 48
espacio
error, 45 nivel de un punto, 172
estimación, 45
estadı́stico punto de colapso, 131
F , 50 rango
t, 51 del diseño, 26
estimación máximo, 26
de la máxima verosimilitud, 34 recta resistente, 122
de varianza mı́nima, 34, 44 regresión
insesgada, 33 parabólica, 12
mı́nimo cuadrática, 27 simple, 14
ridge, 65 residuos
sesgada, 64 atı́picos, 168
función paramétrica, 42 estandarizados, 167
estimable, 42 studentizados, 167
intervalo de confianza, 51 studentizados externamente, 168
ridge regression, 65
Gauss-Markov
condiciones de, 15, 26 selección de variables, 156
teorema de, 44 stepwise, 157
gráfico de dispersión, 11 suma de cuadrados
forma canónica, 33
heterocedasticidad, 16 residual, 28
homocedasticidad, 16, 26
varianza del modelo, 16
leverage, 172 estimación, 32
intervalo de confianza, 51
mı́nimos cuadrados
243