13

Econometria – Semestre 2010.01

CAPÍTULO 7 – ANÁLISE DE REGRESSÃO MÚLTIPLA – O PROBLEMA DA ESTIMAÇÃO

1-O MODELO DE 3 VARIÁVEIS – NOTAÇÃO E PREMISSAS
Considere o modelo de regressão múltipla com 2 variáveis explicativas dado por:
Yi = β1 + β 2 . X 2i + β 3 . X 3i + ε i para i = 1, 2, ..., n

(1)

Na equação (1), Y é a variável dependente, X2 e X3 são as variáveis explicativas (ou regressores) e ε
é o termo de erro aleatório. i denota a i-ésima observação. Os coeficientes β2 e β3 são chamados
de coeficientes parciais de regressão e β1 é o intercepto ou coeficiente linear.
Novamente relembramos as hipóteses subjacentes ao modelo da equação (1):
1. A média dos erros é zero (condicional aos valores dos X’s): E (ε i X 2i , X 3i ) = 0 para todo i
2. Os erros são descorrelatados: COV (ε i , ε j ) = 0 para i ≠ j
3. Homocedasticidade (variância constante): VAR (ε i ) = σ 2 para todo i
4. Covariância
nula
entre
os
COV (ε i , X 2i ) = COV (ε i , X 3i ) = 0 para todo i

erros

e

cada

variável:

5. Suposição de que o modelo está corretamente especificado.
6. Inexistência de colinearidade entre os regressores, ou seja, não há relação linear exata
entre X2 e X3. Em particular, esta hipótese implica nas colunas da matriz do modelo X (vide
apêndice C) serem linearmente independentes.
Por que esta hipótese 6 (ausência de colinearidade perfeita) é importante? Pois nos permite
simplificar a estrutura do modelo. Se X3 é uma função linear perfeita de X2, na prática não existem
duas variáveis explicativas, existe só uma. Suponha que X3 = 2.X2 exatamente. Então o modelo de
regressão (1) torna-se:
Yi = β1 + β 2 . X 2i + β 3 . X 3i + ε i = β1 + β 2 . X 2i + β 3 .(2. X 2i ) + ε i = β1 + (β 2 + 2.β 3 )X 2i + ε i =
= β1 + α . X 2 i + ε i

(2)

Ou seja, na prática (1) reduz-se a um modelo com apenas uma variável explicativa, e não
conseguimos separar a influência de X2 e X3, que está “misturada” dentro do parâmetro α.

Professora Mônica Barros

ENCE
14

Econometria – Semestre 2010.01
Mais sobre colinearidade...

• Na prática, é comum existir correlação entre os regressores – o que não pode existir é
correlação perfeita (+ 1 ou -1) entre eles, pois isso impediria a inversão da matriz XtX que é
necessária para calcular os estimadores MQO.
• Multicolinearidade se refere a relações LINEARES entre os regressores. Não diz nada, a
princípio, sobre relações como X3 = X22.

2- O SIGNIFICADO DOS COEFICIENTES DE REGRESSÃO PARCIAIS

Da hipótese sobre a média dos erros segue que:

E (Yi X 2i , X 3i ) = β1 + β 2 . X 2i + β 3 . X 3i

(3)

Os coeficientes β2 e β3 são chamados de coeficientes parciais de regressão ou coeficientes
angulares parciais. O que eles significam?
• β2 mede a variação no valor médio de Y, E(Y) por unidade de variação de X2 mantendo-se
X3 constante. Ou seja, é o efeito líquido de uma unidade de variação em X2 sobre a média
de Y excluindo-se os efeitos de X3.
•

Similarmente, β3 mede a variação no valor médio de Y, E(Y) por unidade de variação de X3
mantendo-se X2 constante.

• Você pode olhar para β2 e β3 e reconhecer as derivadas parciais de E(Y|X2, X3) em relação a
X2 e X3 respectivamente.

A questão principal é: como manter fixa a influência de um dos regressores, olhando só para o
efeito do outro regressor? Um algoritmo possível é mostrado a seguir, com um exemplo. Veremos
que ele não será necessário para calcular os β’s, sua inclusão aqui é para propósitos ilustrativos.
Exemplo 7.1.
A planilha cars_spss.xls foi retirada de um arquivo de exemplos que acompanha o software
estatístico spss. As variáveis presentes no arquivo são:
milhas_por_galao = indicador do consumo de gasolina do carro
motor = indicador do tamanho (em polegadas cúbicas) do motor
hp = potência do motor em hp
peso = peso do carro em libras

Professora Mônica Barros

ENCE
15

Econometria – Semestre 2010.01
tempo_aceleracao = tempo para acelerar de 0 a 60 milhas por hora em segundos
ano = ano do modelo
pais_origem = país de origem, variável categórica
numero_cilindros = número de cilindros do motor
filtro_8_cilindros = filtro = 0 se o motor tem 8 cilindros, 1 do contrário
Neste exemplo analisamos APENAS os carros com motor abaixo de 8 cilindros.

Os gráficos a seguir mostram a relação entre milhas_por_galao e peso e milhas_por_galao e hp.
Gráfico 1
Scatterplot of milhas_por_galao vs peso
50
45

milhas_por_galao

40
35
30
25
20
15
1500

2000

2500

3000

3500

4000

150

175

peso

Gráfico 2
Scatterplot of milhas_por_galao vs hp
50
45

milhas_por_galao

40
35
30
25
20
15
50

75

100

125
hp

Professora Mônica Barros

ENCE
16

Econometria – Semestre 2010.01

Um modelo de regressão de “milhas_por_galao” em “hp” e “peso” fornece a seguinte equação e
diagnósticos básicos:
The regression equation is
milhas_por_galao = 52,9 - 0,0990 hp - 0,00698 peso

282 cases used, 9 cases contain missing values

Predictor
Constant
hp
peso

Coef
52,904
-0,09897
-0,0069813

S = 4,33857

SE Coef
1,365
0,02062
0,0006945

R-Sq = 58,5%

T
38,76
-4,80
-10,05

P
0,000
0,000
0,000

R-Sq(adj) = 58,2%

Analysis of Variance
Source
Regression
Residual Error
Total

Source
hp
peso

DF
1
1

DF
2
279
281

SS
7394,3
5251,7
12646,0

MS
3697,2
18,8

F
196,41

P
0,000

Seq SS
5492,1
1902,2

Ou seja, os coeficientes de “hp” e “peso” são, respectivamente, -0,09897 e -0,0069813 .
Suponha que desejamos identificar a influência de “hp” sobre “milhas_por_galao” mantendo
constante o efeito (linear) de “peso”. Como fazer isso?
1) Faça a regressão de “milhas_por_galao” em “peso” e calcule os resíduos. O resultado é:
The regression equation is
milhas_por_galao = 50,7 - 0,00941 peso

288 cases used, 3 cases contain missing values

Predictor
Constant
peso

S = 4,51187

Coef
50,730
-0,0094074

SE Coef
1,316
0,0005021

R-Sq = 55,1%

T
38,54
-18,74

P
0,000
0,000

R-Sq(adj) = 55,0%

O que este modelo nos diz? Os resíduos são: R1i = mphi – 50,7 + 0,00941*pesoi onde mphi
indica o consumo (em milhas por galão) do i-ésimo carro.
2) Faça a regressão de “hp” em “peso” e calcule os resíduos.
The regression equation is
hp = 22,6 + 0,0244 peso

Professora Mônica Barros

ENCE
17

Econometria – Semestre 2010.01
285 cases used, 6 cases contain missing values

Predictor
Constant
peso

S = 12,6751

Coef
22,572
0,024364

SE Coef
3,715
0,001416

R-Sq = 51,1%

T
6,08
17,21

P
0,000
0,000

R-Sq(adj) = 51,0%

Os resíduos deste modelo são R2i = hpi – 22,6 – 0,0244*pesoi e indicam a parte de “hp” que
sobra após removermos a influência linear de “peso”.
3) Faça a regressão (sem constante) dos resíduos em 1) em relação aos resíduos em 2). O
coeficiente angular desta regressão nos dá o efeito líquido de “hp” sobre
“milhas_por_galao”, ou seja, vai fornecer o valor -0,09897 que encontramos acima na
regressão múltipla. A “mágica” dos MQO é que eles nos fornecem estes coeficientes sem
que a gente tenha que calcular estas regressões intermediárias.
The regression equation is
RESI1 = - 0,0990 RESI2

282 cases used, 9 cases contain missing values

Predictor
Noconstant
RESI2

Coef

SE Coef

-0,09897

0,02054

T

P

-4,82

0,000

Como vimos acima, o coeficiente desta regressão é o mesmo que o coeficiente de “hp” na
regressão original. Na verdade você pode escrever as equações e obter o coeficiente -0.09897
explicitamente e ver que isso sempre vai dar certo. Note que, da 1ª regressão:
mph = 50,730 – 0,0094074*(peso) + RESI1 e então, RESI1 = mph - 50,730 + 0,0094074*(peso)
Da 2ª. regressão: hp = 22,572 + 0,024364*(peso) + RESI2 e então RESI2 = hp – 22,572 0,024364*(peso)
Fazendo a regressão de RESI1 em RESI2 leva a:
RESI1 = -0,09897*(RESI2)
Subsitituindo os valores de RESI1 e RESI2 encontrados nas duas primeiras equações de regressão
leva a:
mph - 50,730 + 0,0094074*(peso) = -0,09897*( hp – 22,572 -0,024364*(peso))
mph = 50,730 + 0,09897*(22,572) + peso*(- 0,0094074 + 0,09897*0,024364) + hp*(-0,09897)
mph = 52,964 -0,0070*peso - 0,09897*hp

Professora Mônica Barros

ENCE
18

Econometria – Semestre 2010.01

O que concorda, a menos de erros de arredondamento, com os coeficientes encontrados na
regressão múltipla.
Se você quiser obter o coeficiente de “milhas_por_galao” em “peso” (sem recorrer à regressão
múltipla) pode usar um procedimento análogo.

3 – OS ESTIMADORES DE MQO

O livro do Gujarati explicita os estimadores de MQO neste caso. Como já derivamos estes
estimadores em forma matricial, acho mais conveniente relembrar a solução matricial e escrever a
matriz do modelo desta forma mais geral.
Lembre-se que a solução matricial para os estimadores MQO é (vide apêndice C):

(X X ) .(X X ).βˆ = (X X )
t

−1

t

t

−1

(

ˆ
.X t . y ⇒ β = X t X

)

−1

.X t . y

(4)

Neste caso:

 1 x1, 2

 1 x 2, 2
X =
... ...

1 x
n,2


 y1 
 
y 
Y = 2
....
 
y 
 n

x1,3 
 e1 

 β1 
e 
x2,3 
 
 2
 β =  β 2  ε =  ... 
...
β 

 
 3
xn,3 
 en 


A matriz de variância-covariância dos β’s é uma matriz 3 x 3 simétrica, que contém as variâncias
na diagonal principal e as covariâncias dos β’s fora da diagonal principal. Ela é dada por (vide
teorema 4.4. nas notas de aula do apêndice C):

(

V =σ 2 X tX

)

−1

onde σ 2 = VAR(ε i ) para i = 1,2,..., n

(5)

Note que, na equação (5), as variâncias e covariâncias dos β’s dependem de um parâmetro
desconhecido, σ2, que é a variância dos erros. Isso indica que precisamos estimar σ2 para que a
equação (5) tenha alguma utilidade prática. Como fazê-lo? A resposta está a seguir.
Resultado 4.2.
Num modelo de regressão múltipla com intercepto e (k-1) variáveis explicativas, um estimador
não tendencioso de σ2 é dado por:
n

ˆ
σ2 =

RSS
=
n−k

n

ˆ
∑ ( yi − yi )2 ∑ (εˆi )2
i =1

n−k

=

i =1

(6)

n−k

Professora Mônica Barros

ENCE
19

Econometria – Semestre 2010.01
Neste caso particular (2 regressores e uma constante), k = 3.

O estimador dado pela equação (6) NÃO É o estimador de máxima verossimilhança de σ2 sob a
hipótese de normalidade, que tem denominador n sempre. É claro que, à medida que o número
de observações (n) cresce, o estimador de máxima verossimilhança e os estimador não
tendencioso tendem a ser bem “parecidos”.
Propriedades dos estimadores MQO
• A superfície de regressão passa pelos pontos médios de Y e de todas as variáveis

explicativas, neste caso: (Y , X 2 , X 3 ) .
• Assim, no caso geral temos:

ˆ
ˆ
ˆ
ˆ
Y = β1 + β 2 . X 2 + β 3 . X 3 + ... + β k −1 . X k −1

(7)

Reescrevendo (7):

ˆ
ˆ
ˆ
ˆ
β1 = Y − β 2 . X 2 − β 3 . X 3 − ... − β k −1 . X k −1

(8)

Para uma observação qualquer, o valor ajustado por MQO é:
ˆ
ˆ
ˆ
ˆ
ˆ
Yi = β1 + β 2 . X 2i + β 3 . X 3i + ... + β k −1. X k −1,i =
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
= Y − β 2 . X 2 − β 3 . X 3 − ... − β k −1. X k −1 + β 2 . X 2i + β 3 .( X 3i ) + ... + β k −1. X k −1,i =
ˆ
ˆ
ˆ
= Y + β 2 .( X 2i − X 2 ) + β 3 .( X 3i − X 3 ) + ... + β k −1 .( X k −1,i − X k −1 )

(9)

Isto é :
ˆ
ˆ
ˆ
ˆ
Yi − Y = β 2 .( X 2i − X 2 ) + β 3 .( X 3i − X 3 ) + ... + β k −1.( X k −1,i − X k −1 )

A equação (9) nos diz que o modelo pode ser escrito como uma regressão múltipla SEM constante
usando como variáveis explicativas os desvios das variáveis em relação às suas médias.

4- O COEFICIENTE DE DETERMINAÇÃO (R2) E O COEFICIENTE DE CORRELAÇÃO MÚLTIPLA

Considere um caso muito simples – o modelo constante. Queremos estimar um modelo constante,
ou seja, yi = c + erro. Sem o conhecimento de nenhuma variável explicativa, ou seja, sem o modelo
de regressão, a nossa melhor estimativa seria o valor médio das observações de y. Na verdade
você pode aplicar o critério de mínimos quadrados ordinários para verificar que o estimador de c é
a média de Y. Aqui:
n

n

(

)

n

ˆ
ˆ
ˆ
ˆ
ˆ
RSS = ∑ ( yi − c ) =∑ yi − 2.c. yi + c 2 = ∑ yi − 2.c.n. y + n.c 2
i =1

2

i =1

2

2

i =1

Professora Mônica Barros

ENCE
20

Econometria – Semestre 2010.01
Derivando em relação a c^ e igualando a zero fornece:
dRSS
ˆ
ˆ
= 0 ⇒ −2.n. y + 2.nc = 0 ⇒ c = y
ˆ
dc

A soma de quadrados (mínima) no modelo constante será conhecida como Soma de Quadrados
Total, e denotada SST.
Note que:
SST = SYY = ∑ ( yi − y )

2

(10)

A soma dos quadrados devidos à regressão (ou soma dos quadrados explicados pela regressão),
SSReg (do inglês “sum of squares due to regression”) é dada por:

(

ˆ ˆ
SS Re g = ∑ yi − y

)

2

ˆ
ˆ
onde yi é a média dos valores ajustados, y =

1 n
1 n ˆ
ˆ
ˆ
ˆ
y i = ∑ β 1 + β 2 . x 2 i + β 3 . x3 i
∑ n i=1
n i =1

(

ˆ
ˆ
ˆ ˆ
y = β1 + β 2 .x2 + β 3 .x3 = y pelas propriedades dos MQO, como já visto.

Então, a soma dos quadrados explicados pela regressão é dada por:
ˆ
SS Re g = ∑ ( yi − y )

2

(11)

Após uma certa álgebra pode-se provar que (faça-o!):
SST = SYY = ∑ ( yi − y ) = SSReg + RSS
2

(12)

Ou seja, a soma dos quadrados total é composta de duas partes:
• A soma dos quadrados devido à regressão e,
• A soma do quadrado dos resíduos.

Intuitivamente, o “peso” destas duas partes na SST deve ser um (mas não o único) indicador do
quanto o ajuste da regressão é “bom”. Se a soma do quadrado dos residuos é “grande” (em
relação a SSReg), o ajuste deve ser “ruim”. Do contrário, se RSS é “pequena” (e SSReg é “grande”),
o ajuste do modelo deve ser “bom”.

Definição 4.3. (Coeficiente de Determinação R2)
O coeficiente de determinação (R2) de uma regressão é um número entre 0 e 1 definido como:

Professora Mônica Barros

ENCE

)
21

Econometria – Semestre 2010.01

R2 =

SS Re g SS Re g SYY − RSS
RSS
=
=
= 1−
SST
SYY
SYY
SYY

(13)

Quanto mais próximo de 1. “melhor” o ajuste do modelo de regressão.
Num modelo de regressão simples, R2 é o quadrado do coeficiente de correlação entre X e Y. Num
modelo de regressão múltipla, existe uma quantidade análoga a r, que é chamada de coeficiente
de correlação múltipla, que mede o grau de associação entre Y e TODAS as variáveis explicativas
em conjunto.
Exemplo 4.1. – continuação
Vamos olhar com mais atenção os resultados do Exemplo 4.1. Em particular estamos interessados
no cálculo do R2 e na tabela ANOVA (que contém as somas de quadrados e estas somas divididas
pelos seus graus de liberdade).
Abaixo vemos que:
S = 4,33857

R-Sq = 58,5%

R-Sq(adj) = 58,2%

Então cerca de 59% da variação nos dados é explicada pelo modelo com as 2 variáveis. Não é
bom, mas também não é trágico. Note que o desvio padrão estimado é 4,339, assim a variância
estimada é (4,339)2 = 18,823. Mas, sabemos que este estimador é a RSS dividida por (n-3). A
regressão usou n = 282 observações (vide exemplo 4.1) e então n-3 = 279. Veja agora a tabela
ANOVA a seguir:
Analysis of Variance
Source
Regression
Residual Error
Total

DF
2
279
281

SS
7394,3
5251,7
12646,0

MS
3697,2
18,8

F
196,41

P
0,000

A soma do quadrado dos resíduos é 5251,7, seus graus de liberdade são (n-3) = 279. Dividindo RSS
por 279 encontramos 18,8 (na verdade 18,823), que é o estimador da variância, que aparece na
tabela ANOVA como o MS (mean squared) associado aos resíduos.
E o R2? Pela definição e usando os valores da tabela ANOVA:
R2 =

SS Re g SS Re g 7394,3
=
=
= 0.5847
SST
SYY
12646,0

Também o R 2 pode ser calculado como :
R2 = 1−

RSS
5251,7
= 1−
= 1 − 0,4153 = 0,5847
SYY
12646,0

5 – O R2 AJUSTADO

Professora Mônica Barros

ENCE
22

Econometria – Semestre 2010.01

Um problema no uso do R2 como medida da qualidade de um modelo de regressão é que ele é
não decrescente no número de variáveis explicativas. Ou seja, à medida que colocamos mais
variáveis explicativas, o R2 aumenta (ou pelo menos, não decresce). Por que?
2
SS Re g SS Re g
RSS
∑ εˆi
=
= 1−
= 1−
R =
2
SST
SYY
SYY
∑ ( yi − y )
2

O denominador nesta última expressão (SYY) não depende do número de variáveis explicativas,
mas o numerador depende. À medida que aumentamos o número de regressores, RSS tende a cair
(ou pelo menos ficar igual), e assim, R2 tende a crescer quando adicionamos mais regressores ao
modelo.
Então, para comparar dois modelos para a MESMA variável dependente que tenham número de
regressores diferentes, faz sentido “penalizar” o R2 à medida que aumentamos o número de
variáveis explicativas. Isso nos leva à definição do R2 ajustado.

Definição 5.1. (R2 ajustado)
R 2 adj = 1 −

RSS /(n − k )
SYY /(n − 1)

(14)

Onde k é o número de parâmetros num modelo com (k-1) variáveis explicativas (e um termo
constante) e n é o número de observações.
Por que falamos em R2 “ajustado”? Porque as somas dos quadrados que originalmente aparecem
na definição do R2 são ajustadas pelos seus graus de liberdade. A RSS está associada a (n-k) graus
de liberdade, pois o modelo tem k parâmetros, significando que “perdemos” k graus de liberdade
em relação ao número de observações original. SYY está associada a (n-1) graus de liberdade, pois
podemos interpretá-la como a soma de quadrados dos resíduos de um modelo constante (só um
parâmetro), e então perde-se 1 grau de liberdade apenas.
Podemos reescrever o R2 ajustado em termos de estimadores da variância. Note que:
ˆ
σ2 =

RSS
SYY
é o estimador da variância do erro e SY2 =
é a variância amostral dos Y’s.
n−k
n −1

Relação entre R2 e o R2 ajustado
Com um pouco de álgebra é fácil mostrar que:

Professora Mônica Barros

ENCE
23

Econometria – Semestre 2010.01

(

R 2 adj = 1 − 1 − R 2

n −1
)n − k

Para k > 1, o R2 ajustado é menor que o R2. Também, o R2 ajustado pode ser negativo, o que não
ocorre com o R2 “usual”. Note que se R2 = 1, este também será o valor do R2 ajustado. Se R2 = 0, o
R2 ajustado será negativo se k >1.
No exemplo 4.1. note que o R2 ajustado é R-Sq(adj) = 58,2%, menor que o R2 (58,5%). A diferença
é pequena pois neste caso n-1 = 281 e n-3 = 279.
Cuidados ao usar o R2 e o R2 ajustado
Ao comparar dois modelos através do R2 e do R2 ajustado, é preciso ter em mente que:
• A variável explicativa deve ser a mesma nos 2 modelos. Não se pode comparar desta forma
um modelo para Y e outro para ln(Y), por exemplo;
• O número de observações (n) deve ser o mesmo nos 2 modelos.

Professora Mônica Barros

ENCE

Mais conteúdo relacionado

PDF
Mat utfrs 10. produtos notaveis e fatoracao exercicios
PPTX
Matemática SAEB SAEPE - 9 ano.pptx
PDF
Assunto ângulos
DOC
Exercicios
PDF
Função composta
PDF
Mat pa pg exercicios gabarito
PDF
Análise combinatória II - exercícios - AP 20
PDF
Simplificação de radicais
Mat utfrs 10. produtos notaveis e fatoracao exercicios
Matemática SAEB SAEPE - 9 ano.pptx
Assunto ângulos
Exercicios
Função composta
Mat pa pg exercicios gabarito
Análise combinatória II - exercícios - AP 20
Simplificação de radicais

Mais procurados (20)

PDF
10ª lista de exercícios de geometria
PDF
Função quadrática resumo teórico e exercícios - celso brasil
PDF
Lista de exercícios de função afim
PPTX
Semelhança de figuras
PDF
Mat utfrs 19. triangulos exercicios
PDF
Geometria espacial compacto
PDF
Atividade 1 matrizes
PDF
Polinomios
DOC
1 exercícios de potenciação
PDF
Lista de relações métricas no triangulo retângulo
PDF
51582839 caderno-de-exercicios-de-matematica-basica
PPT
Fatoração
DOC
Juros compostos exercicios
DOCX
Apostila Monômios.docx
PDF
1ª LISTA DE EXERCÍCIOS( PIRÂMIDES)
DOCX
Exercícios área figuras planas e radicais
PDF
Revisão em -funções - calculo 1
PDF
Resumo conjuntos pdf
DOCX
Atividades sobre medidas de comprimento..
DOCX
Progressão aritmética
10ª lista de exercícios de geometria
Função quadrática resumo teórico e exercícios - celso brasil
Lista de exercícios de função afim
Semelhança de figuras
Mat utfrs 19. triangulos exercicios
Geometria espacial compacto
Atividade 1 matrizes
Polinomios
1 exercícios de potenciação
Lista de relações métricas no triangulo retângulo
51582839 caderno-de-exercicios-de-matematica-basica
Fatoração
Juros compostos exercicios
Apostila Monômios.docx
1ª LISTA DE EXERCÍCIOS( PIRÂMIDES)
Exercícios área figuras planas e radicais
Revisão em -funções - calculo 1
Resumo conjuntos pdf
Atividades sobre medidas de comprimento..
Progressão aritmética
Anúncio

Semelhante a Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati (20)

PDF
Econometria modelos de_regressao_linear
PDF
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
PDF
Regressão Linear I
PDF
Módulo4 regressao no spss
PDF
Capitulo 8 gujarati resumo
PPTX
Tópico 4 regressão linear simples 01
PPT
Cap 2 - MRLS.ppt
PPT
Modelo de regressão linear: aspectos teóricos e computacionais
PPT
Cap.10 Multicolinearidade.pptCap.10 Multicolinearidade.pptCap.10 Multicolinea...
PDF
SCX5001_2023 - Regressao Linear Multipla.pdf
PPTX
Regressao linear
PPT
Regressao linear multipla
PDF
Regressão Linear Múltipla
PDF
Lista de Exercícios Econometria I - UFES
PPTX
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
PDF
Regressao simples
PPTX
AMD - Aula n.º 8 - regressão linear simples.pptx
PDF
Aula 2 de Análise de Regressão ufmg prova 1
PPTX
Regressão Linear Simples
PPTX
AMD - Aula n.º 9 - regressão linear múltipla.pptx
Econometria modelos de_regressao_linear
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
Regressão Linear I
Módulo4 regressao no spss
Capitulo 8 gujarati resumo
Tópico 4 regressão linear simples 01
Cap 2 - MRLS.ppt
Modelo de regressão linear: aspectos teóricos e computacionais
Cap.10 Multicolinearidade.pptCap.10 Multicolinearidade.pptCap.10 Multicolinea...
SCX5001_2023 - Regressao Linear Multipla.pdf
Regressao linear
Regressao linear multipla
Regressão Linear Múltipla
Lista de Exercícios Econometria I - UFES
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
Regressao simples
AMD - Aula n.º 8 - regressão linear simples.pptx
Aula 2 de Análise de Regressão ufmg prova 1
Regressão Linear Simples
AMD - Aula n.º 9 - regressão linear múltipla.pptx
Anúncio

Mais de Monica Barros (13)

PDF
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
PDF
Introdução à programação em R
PDF
Time series and forecasting from wikipedia
PDF
Barros monica isf2012
PDF
Southeast load
PDF
Barros Monica Isf2012
PDF
V30n3a02
PDF
V29n2a04 Artigo Revista Sobrapo
PDF
Icord 2007
PDF
Modelagem Revistas
PDF
Pulp And Paper Isf
PDF
Ecomod 2007
PDF
Residential%20 Electrical%20 Energy%20 Consumption%20 Profile%20in%20 Brazil
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Introdução à programação em R
Time series and forecasting from wikipedia
Barros monica isf2012
Southeast load
Barros Monica Isf2012
V30n3a02
V29n2a04 Artigo Revista Sobrapo
Icord 2007
Modelagem Revistas
Pulp And Paper Isf
Ecomod 2007
Residential%20 Electrical%20 Energy%20 Consumption%20 Profile%20in%20 Brazil

Último (20)

PDF
MIDR- Desenvolvimento regional apostila
PPTX
NR 23 TREINAMENTO combate a incêndio (1).pptx
PPTX
Crédito em um contexto mais amplo (dívidas).pptx
PDF
Linkage e teorias evolucionistas lamarck e darwin.pdf
PPTX
introdução a informatica e suas peculiaridades
PDF
DIÁLOGO DE LÍNGUA PORTUGUESA_ A NOVA MATRIZ .pptx (1).pdf
DOCX
Aula 3- Direitos Humanos e Prevenção à Violência .docx
PPTX
REVISA_GOIAS_3_SERIE_LP_2_BIMESTRE_PPT.pptx
PPTX
Slides Lição 9, Betel, A Triunidade Divina, 3Tr25.pptx
PPTX
História da enfermagem 14.07.2025_040859.pptx
PPTX
A enfermagem voltada aos adultos portadores de sindrome de down
PPTX
NORMA 17 - ERGONOMIA NO TRABALHO - SST.pptx
PPTX
Aula de psicofarmacologia: classes de psicofármacos
PDF
projeto 5 Em movimento Ciencias Humanas.pdf
PDF
Fronteira escrito por José de Souza Martins
PPTX
slide aulao saepe-saeb descritores att.pptx
PDF
DocumentoCurricularGoiasAmpliadovolII.pdf
PDF
Análise e interpretação da letra da música Página Por Página - Mundo Bita.
PPTX
material-didatico-1a-revisao-pre-enem-livepdf.pptx
PDF
Caderno do Futuro - História - 9º Ano - Professor.pdf
MIDR- Desenvolvimento regional apostila
NR 23 TREINAMENTO combate a incêndio (1).pptx
Crédito em um contexto mais amplo (dívidas).pptx
Linkage e teorias evolucionistas lamarck e darwin.pdf
introdução a informatica e suas peculiaridades
DIÁLOGO DE LÍNGUA PORTUGUESA_ A NOVA MATRIZ .pptx (1).pdf
Aula 3- Direitos Humanos e Prevenção à Violência .docx
REVISA_GOIAS_3_SERIE_LP_2_BIMESTRE_PPT.pptx
Slides Lição 9, Betel, A Triunidade Divina, 3Tr25.pptx
História da enfermagem 14.07.2025_040859.pptx
A enfermagem voltada aos adultos portadores de sindrome de down
NORMA 17 - ERGONOMIA NO TRABALHO - SST.pptx
Aula de psicofarmacologia: classes de psicofármacos
projeto 5 Em movimento Ciencias Humanas.pdf
Fronteira escrito por José de Souza Martins
slide aulao saepe-saeb descritores att.pptx
DocumentoCurricularGoiasAmpliadovolII.pdf
Análise e interpretação da letra da música Página Por Página - Mundo Bita.
material-didatico-1a-revisao-pre-enem-livepdf.pptx
Caderno do Futuro - História - 9º Ano - Professor.pdf

Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati

  • 1. 13 Econometria – Semestre 2010.01 CAPÍTULO 7 – ANÁLISE DE REGRESSÃO MÚLTIPLA – O PROBLEMA DA ESTIMAÇÃO 1-O MODELO DE 3 VARIÁVEIS – NOTAÇÃO E PREMISSAS Considere o modelo de regressão múltipla com 2 variáveis explicativas dado por: Yi = β1 + β 2 . X 2i + β 3 . X 3i + ε i para i = 1, 2, ..., n (1) Na equação (1), Y é a variável dependente, X2 e X3 são as variáveis explicativas (ou regressores) e ε é o termo de erro aleatório. i denota a i-ésima observação. Os coeficientes β2 e β3 são chamados de coeficientes parciais de regressão e β1 é o intercepto ou coeficiente linear. Novamente relembramos as hipóteses subjacentes ao modelo da equação (1): 1. A média dos erros é zero (condicional aos valores dos X’s): E (ε i X 2i , X 3i ) = 0 para todo i 2. Os erros são descorrelatados: COV (ε i , ε j ) = 0 para i ≠ j 3. Homocedasticidade (variância constante): VAR (ε i ) = σ 2 para todo i 4. Covariância nula entre os COV (ε i , X 2i ) = COV (ε i , X 3i ) = 0 para todo i erros e cada variável: 5. Suposição de que o modelo está corretamente especificado. 6. Inexistência de colinearidade entre os regressores, ou seja, não há relação linear exata entre X2 e X3. Em particular, esta hipótese implica nas colunas da matriz do modelo X (vide apêndice C) serem linearmente independentes. Por que esta hipótese 6 (ausência de colinearidade perfeita) é importante? Pois nos permite simplificar a estrutura do modelo. Se X3 é uma função linear perfeita de X2, na prática não existem duas variáveis explicativas, existe só uma. Suponha que X3 = 2.X2 exatamente. Então o modelo de regressão (1) torna-se: Yi = β1 + β 2 . X 2i + β 3 . X 3i + ε i = β1 + β 2 . X 2i + β 3 .(2. X 2i ) + ε i = β1 + (β 2 + 2.β 3 )X 2i + ε i = = β1 + α . X 2 i + ε i (2) Ou seja, na prática (1) reduz-se a um modelo com apenas uma variável explicativa, e não conseguimos separar a influência de X2 e X3, que está “misturada” dentro do parâmetro α. Professora Mônica Barros ENCE
  • 2. 14 Econometria – Semestre 2010.01 Mais sobre colinearidade... • Na prática, é comum existir correlação entre os regressores – o que não pode existir é correlação perfeita (+ 1 ou -1) entre eles, pois isso impediria a inversão da matriz XtX que é necessária para calcular os estimadores MQO. • Multicolinearidade se refere a relações LINEARES entre os regressores. Não diz nada, a princípio, sobre relações como X3 = X22. 2- O SIGNIFICADO DOS COEFICIENTES DE REGRESSÃO PARCIAIS Da hipótese sobre a média dos erros segue que: E (Yi X 2i , X 3i ) = β1 + β 2 . X 2i + β 3 . X 3i (3) Os coeficientes β2 e β3 são chamados de coeficientes parciais de regressão ou coeficientes angulares parciais. O que eles significam? • β2 mede a variação no valor médio de Y, E(Y) por unidade de variação de X2 mantendo-se X3 constante. Ou seja, é o efeito líquido de uma unidade de variação em X2 sobre a média de Y excluindo-se os efeitos de X3. • Similarmente, β3 mede a variação no valor médio de Y, E(Y) por unidade de variação de X3 mantendo-se X2 constante. • Você pode olhar para β2 e β3 e reconhecer as derivadas parciais de E(Y|X2, X3) em relação a X2 e X3 respectivamente. A questão principal é: como manter fixa a influência de um dos regressores, olhando só para o efeito do outro regressor? Um algoritmo possível é mostrado a seguir, com um exemplo. Veremos que ele não será necessário para calcular os β’s, sua inclusão aqui é para propósitos ilustrativos. Exemplo 7.1. A planilha cars_spss.xls foi retirada de um arquivo de exemplos que acompanha o software estatístico spss. As variáveis presentes no arquivo são: milhas_por_galao = indicador do consumo de gasolina do carro motor = indicador do tamanho (em polegadas cúbicas) do motor hp = potência do motor em hp peso = peso do carro em libras Professora Mônica Barros ENCE
  • 3. 15 Econometria – Semestre 2010.01 tempo_aceleracao = tempo para acelerar de 0 a 60 milhas por hora em segundos ano = ano do modelo pais_origem = país de origem, variável categórica numero_cilindros = número de cilindros do motor filtro_8_cilindros = filtro = 0 se o motor tem 8 cilindros, 1 do contrário Neste exemplo analisamos APENAS os carros com motor abaixo de 8 cilindros. Os gráficos a seguir mostram a relação entre milhas_por_galao e peso e milhas_por_galao e hp. Gráfico 1 Scatterplot of milhas_por_galao vs peso 50 45 milhas_por_galao 40 35 30 25 20 15 1500 2000 2500 3000 3500 4000 150 175 peso Gráfico 2 Scatterplot of milhas_por_galao vs hp 50 45 milhas_por_galao 40 35 30 25 20 15 50 75 100 125 hp Professora Mônica Barros ENCE
  • 4. 16 Econometria – Semestre 2010.01 Um modelo de regressão de “milhas_por_galao” em “hp” e “peso” fornece a seguinte equação e diagnósticos básicos: The regression equation is milhas_por_galao = 52,9 - 0,0990 hp - 0,00698 peso 282 cases used, 9 cases contain missing values Predictor Constant hp peso Coef 52,904 -0,09897 -0,0069813 S = 4,33857 SE Coef 1,365 0,02062 0,0006945 R-Sq = 58,5% T 38,76 -4,80 -10,05 P 0,000 0,000 0,000 R-Sq(adj) = 58,2% Analysis of Variance Source Regression Residual Error Total Source hp peso DF 1 1 DF 2 279 281 SS 7394,3 5251,7 12646,0 MS 3697,2 18,8 F 196,41 P 0,000 Seq SS 5492,1 1902,2 Ou seja, os coeficientes de “hp” e “peso” são, respectivamente, -0,09897 e -0,0069813 . Suponha que desejamos identificar a influência de “hp” sobre “milhas_por_galao” mantendo constante o efeito (linear) de “peso”. Como fazer isso? 1) Faça a regressão de “milhas_por_galao” em “peso” e calcule os resíduos. O resultado é: The regression equation is milhas_por_galao = 50,7 - 0,00941 peso 288 cases used, 3 cases contain missing values Predictor Constant peso S = 4,51187 Coef 50,730 -0,0094074 SE Coef 1,316 0,0005021 R-Sq = 55,1% T 38,54 -18,74 P 0,000 0,000 R-Sq(adj) = 55,0% O que este modelo nos diz? Os resíduos são: R1i = mphi – 50,7 + 0,00941*pesoi onde mphi indica o consumo (em milhas por galão) do i-ésimo carro. 2) Faça a regressão de “hp” em “peso” e calcule os resíduos. The regression equation is hp = 22,6 + 0,0244 peso Professora Mônica Barros ENCE
  • 5. 17 Econometria – Semestre 2010.01 285 cases used, 6 cases contain missing values Predictor Constant peso S = 12,6751 Coef 22,572 0,024364 SE Coef 3,715 0,001416 R-Sq = 51,1% T 6,08 17,21 P 0,000 0,000 R-Sq(adj) = 51,0% Os resíduos deste modelo são R2i = hpi – 22,6 – 0,0244*pesoi e indicam a parte de “hp” que sobra após removermos a influência linear de “peso”. 3) Faça a regressão (sem constante) dos resíduos em 1) em relação aos resíduos em 2). O coeficiente angular desta regressão nos dá o efeito líquido de “hp” sobre “milhas_por_galao”, ou seja, vai fornecer o valor -0,09897 que encontramos acima na regressão múltipla. A “mágica” dos MQO é que eles nos fornecem estes coeficientes sem que a gente tenha que calcular estas regressões intermediárias. The regression equation is RESI1 = - 0,0990 RESI2 282 cases used, 9 cases contain missing values Predictor Noconstant RESI2 Coef SE Coef -0,09897 0,02054 T P -4,82 0,000 Como vimos acima, o coeficiente desta regressão é o mesmo que o coeficiente de “hp” na regressão original. Na verdade você pode escrever as equações e obter o coeficiente -0.09897 explicitamente e ver que isso sempre vai dar certo. Note que, da 1ª regressão: mph = 50,730 – 0,0094074*(peso) + RESI1 e então, RESI1 = mph - 50,730 + 0,0094074*(peso) Da 2ª. regressão: hp = 22,572 + 0,024364*(peso) + RESI2 e então RESI2 = hp – 22,572 0,024364*(peso) Fazendo a regressão de RESI1 em RESI2 leva a: RESI1 = -0,09897*(RESI2) Subsitituindo os valores de RESI1 e RESI2 encontrados nas duas primeiras equações de regressão leva a: mph - 50,730 + 0,0094074*(peso) = -0,09897*( hp – 22,572 -0,024364*(peso)) mph = 50,730 + 0,09897*(22,572) + peso*(- 0,0094074 + 0,09897*0,024364) + hp*(-0,09897) mph = 52,964 -0,0070*peso - 0,09897*hp Professora Mônica Barros ENCE
  • 6. 18 Econometria – Semestre 2010.01 O que concorda, a menos de erros de arredondamento, com os coeficientes encontrados na regressão múltipla. Se você quiser obter o coeficiente de “milhas_por_galao” em “peso” (sem recorrer à regressão múltipla) pode usar um procedimento análogo. 3 – OS ESTIMADORES DE MQO O livro do Gujarati explicita os estimadores de MQO neste caso. Como já derivamos estes estimadores em forma matricial, acho mais conveniente relembrar a solução matricial e escrever a matriz do modelo desta forma mais geral. Lembre-se que a solução matricial para os estimadores MQO é (vide apêndice C): (X X ) .(X X ).βˆ = (X X ) t −1 t t −1 ( ˆ .X t . y ⇒ β = X t X ) −1 .X t . y (4) Neste caso:  1 x1, 2   1 x 2, 2 X = ... ...  1 x n,2   y1    y  Y = 2 ....   y   n x1,3   e1    β1  e  x2,3     2  β =  β 2  ε =  ...  ... β      3 xn,3   en   A matriz de variância-covariância dos β’s é uma matriz 3 x 3 simétrica, que contém as variâncias na diagonal principal e as covariâncias dos β’s fora da diagonal principal. Ela é dada por (vide teorema 4.4. nas notas de aula do apêndice C): ( V =σ 2 X tX ) −1 onde σ 2 = VAR(ε i ) para i = 1,2,..., n (5) Note que, na equação (5), as variâncias e covariâncias dos β’s dependem de um parâmetro desconhecido, σ2, que é a variância dos erros. Isso indica que precisamos estimar σ2 para que a equação (5) tenha alguma utilidade prática. Como fazê-lo? A resposta está a seguir. Resultado 4.2. Num modelo de regressão múltipla com intercepto e (k-1) variáveis explicativas, um estimador não tendencioso de σ2 é dado por: n ˆ σ2 = RSS = n−k n ˆ ∑ ( yi − yi )2 ∑ (εˆi )2 i =1 n−k = i =1 (6) n−k Professora Mônica Barros ENCE
  • 7. 19 Econometria – Semestre 2010.01 Neste caso particular (2 regressores e uma constante), k = 3. O estimador dado pela equação (6) NÃO É o estimador de máxima verossimilhança de σ2 sob a hipótese de normalidade, que tem denominador n sempre. É claro que, à medida que o número de observações (n) cresce, o estimador de máxima verossimilhança e os estimador não tendencioso tendem a ser bem “parecidos”. Propriedades dos estimadores MQO • A superfície de regressão passa pelos pontos médios de Y e de todas as variáveis explicativas, neste caso: (Y , X 2 , X 3 ) . • Assim, no caso geral temos: ˆ ˆ ˆ ˆ Y = β1 + β 2 . X 2 + β 3 . X 3 + ... + β k −1 . X k −1 (7) Reescrevendo (7): ˆ ˆ ˆ ˆ β1 = Y − β 2 . X 2 − β 3 . X 3 − ... − β k −1 . X k −1 (8) Para uma observação qualquer, o valor ajustado por MQO é: ˆ ˆ ˆ ˆ ˆ Yi = β1 + β 2 . X 2i + β 3 . X 3i + ... + β k −1. X k −1,i = ˆ ˆ ˆ ˆ ˆ ˆ = Y − β 2 . X 2 − β 3 . X 3 − ... − β k −1. X k −1 + β 2 . X 2i + β 3 .( X 3i ) + ... + β k −1. X k −1,i = ˆ ˆ ˆ = Y + β 2 .( X 2i − X 2 ) + β 3 .( X 3i − X 3 ) + ... + β k −1 .( X k −1,i − X k −1 ) (9) Isto é : ˆ ˆ ˆ ˆ Yi − Y = β 2 .( X 2i − X 2 ) + β 3 .( X 3i − X 3 ) + ... + β k −1.( X k −1,i − X k −1 ) A equação (9) nos diz que o modelo pode ser escrito como uma regressão múltipla SEM constante usando como variáveis explicativas os desvios das variáveis em relação às suas médias. 4- O COEFICIENTE DE DETERMINAÇÃO (R2) E O COEFICIENTE DE CORRELAÇÃO MÚLTIPLA Considere um caso muito simples – o modelo constante. Queremos estimar um modelo constante, ou seja, yi = c + erro. Sem o conhecimento de nenhuma variável explicativa, ou seja, sem o modelo de regressão, a nossa melhor estimativa seria o valor médio das observações de y. Na verdade você pode aplicar o critério de mínimos quadrados ordinários para verificar que o estimador de c é a média de Y. Aqui: n n ( ) n ˆ ˆ ˆ ˆ ˆ RSS = ∑ ( yi − c ) =∑ yi − 2.c. yi + c 2 = ∑ yi − 2.c.n. y + n.c 2 i =1 2 i =1 2 2 i =1 Professora Mônica Barros ENCE
  • 8. 20 Econometria – Semestre 2010.01 Derivando em relação a c^ e igualando a zero fornece: dRSS ˆ ˆ = 0 ⇒ −2.n. y + 2.nc = 0 ⇒ c = y ˆ dc A soma de quadrados (mínima) no modelo constante será conhecida como Soma de Quadrados Total, e denotada SST. Note que: SST = SYY = ∑ ( yi − y ) 2 (10) A soma dos quadrados devidos à regressão (ou soma dos quadrados explicados pela regressão), SSReg (do inglês “sum of squares due to regression”) é dada por: ( ˆ ˆ SS Re g = ∑ yi − y ) 2 ˆ ˆ onde yi é a média dos valores ajustados, y = 1 n 1 n ˆ ˆ ˆ ˆ y i = ∑ β 1 + β 2 . x 2 i + β 3 . x3 i ∑ n i=1 n i =1 ( ˆ ˆ ˆ ˆ y = β1 + β 2 .x2 + β 3 .x3 = y pelas propriedades dos MQO, como já visto. Então, a soma dos quadrados explicados pela regressão é dada por: ˆ SS Re g = ∑ ( yi − y ) 2 (11) Após uma certa álgebra pode-se provar que (faça-o!): SST = SYY = ∑ ( yi − y ) = SSReg + RSS 2 (12) Ou seja, a soma dos quadrados total é composta de duas partes: • A soma dos quadrados devido à regressão e, • A soma do quadrado dos resíduos. Intuitivamente, o “peso” destas duas partes na SST deve ser um (mas não o único) indicador do quanto o ajuste da regressão é “bom”. Se a soma do quadrado dos residuos é “grande” (em relação a SSReg), o ajuste deve ser “ruim”. Do contrário, se RSS é “pequena” (e SSReg é “grande”), o ajuste do modelo deve ser “bom”. Definição 4.3. (Coeficiente de Determinação R2) O coeficiente de determinação (R2) de uma regressão é um número entre 0 e 1 definido como: Professora Mônica Barros ENCE )
  • 9. 21 Econometria – Semestre 2010.01 R2 = SS Re g SS Re g SYY − RSS RSS = = = 1− SST SYY SYY SYY (13) Quanto mais próximo de 1. “melhor” o ajuste do modelo de regressão. Num modelo de regressão simples, R2 é o quadrado do coeficiente de correlação entre X e Y. Num modelo de regressão múltipla, existe uma quantidade análoga a r, que é chamada de coeficiente de correlação múltipla, que mede o grau de associação entre Y e TODAS as variáveis explicativas em conjunto. Exemplo 4.1. – continuação Vamos olhar com mais atenção os resultados do Exemplo 4.1. Em particular estamos interessados no cálculo do R2 e na tabela ANOVA (que contém as somas de quadrados e estas somas divididas pelos seus graus de liberdade). Abaixo vemos que: S = 4,33857 R-Sq = 58,5% R-Sq(adj) = 58,2% Então cerca de 59% da variação nos dados é explicada pelo modelo com as 2 variáveis. Não é bom, mas também não é trágico. Note que o desvio padrão estimado é 4,339, assim a variância estimada é (4,339)2 = 18,823. Mas, sabemos que este estimador é a RSS dividida por (n-3). A regressão usou n = 282 observações (vide exemplo 4.1) e então n-3 = 279. Veja agora a tabela ANOVA a seguir: Analysis of Variance Source Regression Residual Error Total DF 2 279 281 SS 7394,3 5251,7 12646,0 MS 3697,2 18,8 F 196,41 P 0,000 A soma do quadrado dos resíduos é 5251,7, seus graus de liberdade são (n-3) = 279. Dividindo RSS por 279 encontramos 18,8 (na verdade 18,823), que é o estimador da variância, que aparece na tabela ANOVA como o MS (mean squared) associado aos resíduos. E o R2? Pela definição e usando os valores da tabela ANOVA: R2 = SS Re g SS Re g 7394,3 = = = 0.5847 SST SYY 12646,0 Também o R 2 pode ser calculado como : R2 = 1− RSS 5251,7 = 1− = 1 − 0,4153 = 0,5847 SYY 12646,0 5 – O R2 AJUSTADO Professora Mônica Barros ENCE
  • 10. 22 Econometria – Semestre 2010.01 Um problema no uso do R2 como medida da qualidade de um modelo de regressão é que ele é não decrescente no número de variáveis explicativas. Ou seja, à medida que colocamos mais variáveis explicativas, o R2 aumenta (ou pelo menos, não decresce). Por que? 2 SS Re g SS Re g RSS ∑ εˆi = = 1− = 1− R = 2 SST SYY SYY ∑ ( yi − y ) 2 O denominador nesta última expressão (SYY) não depende do número de variáveis explicativas, mas o numerador depende. À medida que aumentamos o número de regressores, RSS tende a cair (ou pelo menos ficar igual), e assim, R2 tende a crescer quando adicionamos mais regressores ao modelo. Então, para comparar dois modelos para a MESMA variável dependente que tenham número de regressores diferentes, faz sentido “penalizar” o R2 à medida que aumentamos o número de variáveis explicativas. Isso nos leva à definição do R2 ajustado. Definição 5.1. (R2 ajustado) R 2 adj = 1 − RSS /(n − k ) SYY /(n − 1) (14) Onde k é o número de parâmetros num modelo com (k-1) variáveis explicativas (e um termo constante) e n é o número de observações. Por que falamos em R2 “ajustado”? Porque as somas dos quadrados que originalmente aparecem na definição do R2 são ajustadas pelos seus graus de liberdade. A RSS está associada a (n-k) graus de liberdade, pois o modelo tem k parâmetros, significando que “perdemos” k graus de liberdade em relação ao número de observações original. SYY está associada a (n-1) graus de liberdade, pois podemos interpretá-la como a soma de quadrados dos resíduos de um modelo constante (só um parâmetro), e então perde-se 1 grau de liberdade apenas. Podemos reescrever o R2 ajustado em termos de estimadores da variância. Note que: ˆ σ2 = RSS SYY é o estimador da variância do erro e SY2 = é a variância amostral dos Y’s. n−k n −1 Relação entre R2 e o R2 ajustado Com um pouco de álgebra é fácil mostrar que: Professora Mônica Barros ENCE
  • 11. 23 Econometria – Semestre 2010.01 ( R 2 adj = 1 − 1 − R 2 n −1 )n − k Para k > 1, o R2 ajustado é menor que o R2. Também, o R2 ajustado pode ser negativo, o que não ocorre com o R2 “usual”. Note que se R2 = 1, este também será o valor do R2 ajustado. Se R2 = 0, o R2 ajustado será negativo se k >1. No exemplo 4.1. note que o R2 ajustado é R-Sq(adj) = 58,2%, menor que o R2 (58,5%). A diferença é pequena pois neste caso n-1 = 281 e n-3 = 279. Cuidados ao usar o R2 e o R2 ajustado Ao comparar dois modelos através do R2 e do R2 ajustado, é preciso ter em mente que: • A variável explicativa deve ser a mesma nos 2 modelos. Não se pode comparar desta forma um modelo para Y e outro para ln(Y), por exemplo; • O número de observações (n) deve ser o mesmo nos 2 modelos. Professora Mônica Barros ENCE