Proyecto Final-Estadística-Christian Salazar Y.
Proyecto Final-Estadística-Christian Salazar Y.
Resumen. _La regresión lineal es muy útil para la sociedad ya Las variables se representarán de están manera:
que permite pronosticar parámetros a partir de diversas variables. o Y: Precio de cada casa de Boston
El presente proyecto se basa en predecir los precios de las viviendas o x 1 :Numeros de Habitaciones
en Boston por el método de regresión lineal múltiple utilizando el
software R, tiene como objetivo diseñar y validar un modelo donde o x 2 :Numeros de Baños
la variable de respuesta son los precios de las casas de Boston y las o x 3 :Pies cuadrados construidos
variables predictoras son el número de habitaciones, número de De esta manera el modelo propuesto tiene la forma:
casas y la cantidad de pies cuadrados construido de cada vivienda.
La base de datos era del año 2007 y estuvo constituida por 21613 Y = β0 + β 1 x 1 + β 2 x 2 + β 3 x 3 +ε
observaciones y se la obtuvo de las bases de datos del banco
mundial. El modelo tuvo un poder de explicación del 50,69% Donde β 0 , β 1 , β 2 , β3 son los parámetros que deben estimarse
suponiendo que los residuales seguía una distribución normal con para el modelo, mientras que ε es el componente aleatorio de Y.
media 0 y una varianza σ 2, pero al final se concluyó que los Para validar el modelo se supondrá que los errores siguen una
errores no seguían una distribución normal. distribución normal:ε → N ( 0 , σ 2 ).
Palabras claves: Regresión Lineal múltiple, viviendas de Boston, II. DESARROLLO
variables predictoras, variables de respuestas, software R
Se realiza un procedimiento riguroso para estimar los coeficientes del
I. INTRODUCIÓN modelo propuesto y sus correspondientes interpretaciones para
La regresión lineal es una técnica de modelado estadístico que se validar dicho modelo.
emplea para describir una variable de respuesta continua como una A. Diagramas de dispersión
función de una o varias variables predictoras (MathWorks -
Creadores de MATLAB y Simulink, s.f). En este apartado se realizará los diagramas de dispersión de la
Para utilizar el método de regresión lineal múltiple es necesario variable dependiente con cada uno de las variables independientes en
una base de datos. La base de datos es de las viviendas de Boston que el software R.
se la obtuvo del historial de datos del Banco Mundial (World Bank) o Precio vs Número de Habitaciones
que corresponde al año 2007, consta de 21613 observaciones y 21
variables.
Se escoge esta base de datos ya que es fácil de entender cada una
de las variables y además el banco mundial otorga los datos en un
archivo con extensión csv y de esta manera es sencillo importarlos al
software utilizado.
Se utiliza el programa R para obtener el modelo de forma Fig. 1 Grafico de dispersión del Precio respecto al
eficiente y rápida. Es importante mencionar que para este trabajo número de habitaciones
solo se analiza 4 variables del total de ellas, las cuales son:
7932.712
^y =74847.141−57860.894 x1 +7932.712 x2 +309.392 x3
^β 2
^β 3 309.392
^y =74847.141−57860.894(5)+7932.712(4)+309.392(3000)
^y =745.449 dólares
Modelo teórico expresado en notación matricial:
E. Tabla Anova
Donde la matriz X es la matriz de diseño, además ε i=ui y de En el software que se utiliza en este trabajo existe una función
esta manera la forma simbólica es: muy útil llamada “anova (_)” donde entrega todos los valores
correspondientes a una tabla anova. Para este caso se muestra a
Y = βX+ ε continuación:
Ha: ¬ Ho
Intercepción Pies N. N. Baños
Estadístico de prueba: F 0=7405 construidos Habitaciones
Intercepción 47.798.790.173,000 3.248,728 - -7.180.927,533
10.767.204,22
Rechazo Ho si: F 0> ¿ ¿ donde v1 =3 y v 2=21609) 1
Pies 3.248.728,000 9,528 -2.402,102 -7.078,512
construidos
F ∞ ,3,21609 ≈ 2,60
N. -10.767.204,221 -2.402,102 5.450.390,210 -1.233.742,849
Habitacione
Análisis con el valor-p: p=0,00000000000000022 < 0,05 s
N. Baños -7.180.927,533 -7.078,512 -1.233.742,849 12.324.002,945
Conclusión: Como F 0> F ∞ es verdadero y el valor-p es
menor que el 5% se concluye que se rechaza la Hipótesis nula (Ho) y Tabla III Matriz de varianza y covarianza
se acepta la Hipótesis alterna (Ha), en consecuencia, al menos unas
de las variables independiente x i contribuyen significativamente En la tabla 3 se muestra la matriz de varianza y covarianzas donde
la diagonal de la matriz son la varianza de los estimadores de
al modelo.
mínimos cuadrados.
Es importante recalcar que el valor-p lo otorga el programa R en
el resumen del modelo. Fig. 7 Resultado de la función “vcov (_)”
G. Coeficiente de determinación
En el software R con cierta función se puede obtener un resumen
del modelo del aspecto más importante y esta función es “summary
(_)” que ya se mencionó anteriormente. De aquí se obtiene el A continuación, se presenta el objeto que muestra la función
coeficiente de determinación. “vcov (_)” en R:
Entonces:
R2=0,5069; 0< R2< 1
Se puede inferir que el poder de explicación para el modelo de J. Varianza de los estimadores del modelo de mínimos
mínimos cuadrados es de aproximadamente 50,69%. Por cuadrados
consiguiente, indica que el 50,69% de la variabilidad de los precios En la diagonal de la matriz de varianza y covarianza proporciona
de las casas de Boston es predicha con nuestro modelo, teniendo en la varianza de los estimadores del modelo de mínimos cuadrados.
cuenta 3 variables predictoras.
o V [ ^β 0 ]=47 ' 798.790,173
H. Estimación de la varianza
o V [ ^β 1 ]=5 ' 450.390,210
La variación de los errores del modelo σ 2 es desconocida, pero el
programa R ya muestra un estimado para esta varianza.
o V [ ^β 2 ]=12 ' 324.002,945
Ha: β1≠ 0
o V [ ^β 3 ]=9,528206 Estadístico de prueba: t=-24.78
Rechazo Ho si:
t <−t ∞ ó t>t ∞
K. Intervalo de confianza del 95% para cada parámetro
2 2
El intervalo de confianza para β i con un nivel de confianza de 1-
a , viene dado por la siguiente expresión: ∞
t ∞ /2 donde v1 =21609 y =0,025
2
^β i−t ∝ ∗ σ 2^ ≤ βi ≤ ^βi +t ∝ ∗ σ 2^ ; i=0,1,2,3 …
2
√
β i
2
β √ i t ∞ /2,21609 ≈ 1,960
Para este caso se utiliza la función “confint (_)” el cual muestra el Analizando con el valor-p: p= 0,0000000000000002<0,05
intervalo para el parámetro asignado.
Conclusión: Como
t <−t ∞ es verdadero y el valore- p es menor a
o β 0:
Para el parámetro 2
0,05, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis
61295,84 ≤ β 0 ≤ 88398,44
alterna (Ha), es decir, la variable x 1 que corresponde al número de
habitaciones contribuye significativamente a la respuesta.
o β 1:
Para el parámetro
−62436,9 ≤ β 1 ≤−53284,89 Analizando la variable x 2,número de baños: Fig. 9 Gráfico Q-Q de normalidad
Se supone como cierto un valor especificado para β 2
o β 2:
Para el parámetro
Ho: β 2=0
1051,764 ≤ β 2 ≤ 14813,66
Ha: β2≠ 0
o β 3:
Para el parámetro
303,342 ≤ β 3 ≤ 315,4427 Estadístico de prueba: t= 2.26
Se observa que cada uno de los parámetros no contienen el valor Rechazo Ho si:
t <−t ∞ ó t>t ∞
“0”, y se puede inferir que cada una de las variables independientes 2 2
x i aportan significativamente a la variable dependiente y , en
consecuencia, los parámetros tienen que ser diferente de cero. ∞
t ∞ /2 donde v1 =21609 y =0,025
Los código y resultados seleccionados en esta sección se 2
muestran a continuación:
t ∞ /2,21609 ≈ 1,960
Conclusión: Como
t >t ∞ es verdadero y el valore- p es menor a
2
0,05, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis
alterna (Ha), es decir, la variable x 2 que corresponde al número de
Fig. 8 Códigos e intervalos
baños, contribuye significativamente al modelo.
L. Probar con el 5% de significancia si el aporte de
cada variable x i al modelo es significativo Analizando la variable x 3, pies cuadrados construidos:
Ya que se está utilizando el software R, aquel programa me da los Se supone como cierto un valor especificado para β 3
valores de los estadísticos de prueba y el valor-p. Ho: β 3=0
Analizando la variable x 1, número de habitaciones: Ha: β3≠ 0
Se supone como cierto un valor especificado para β 1
Ho: β 1=0 Estadístico de prueba: t= 100.23
Rechazo Ho si:
t <−t ∞ ó t>t ∞
2 2 Rechazo Ho si: D>( D¿¿ α , n=21613) ¿
Dα ,n =0.009250844
Analizando con el valor-p: p=0.00000000000000022<0,05
M. Probar la normalidad del error con 5% de o Unas de las limitaciones que se presento fue no conocer
significancia como manejar el software R al inicio y se tuvo que
aprender por videos para poder realizar la investigación.
Para realizar los cálculos anteriores se supuso que los errores
seguían una distribución normal N (0,σ 2), pero ahora se va a probar
IV. REFERENCIAS
si en realizad lo son. Primero se analiza la normalidad de los errores
mediante grafica que compara los errores teóricos con los errores MSc. Luis Rodríguez Ojeda. Guayaquil-Ecuador del 2007.Probabilidad y
estimados. estadística Básica para Ingenieros.
https://www.dspace.espol.edu.ec/bitstream/123456789/25020/1/PROBABILI
Se puede evidenciar que existen puntos atípicos en la figura 9 y DAD%20Y%20ESTADISTICA%20BASICA%20PARA
%20INGENIEROS.pdf.
una gran porción de puntos se desvía de los límites de la línea de 45°,
por lo tanto, se infiere que los errores no pueden estar cumpliendo MathWorks. "¿Qué es la regresión lineal?” MATLAB &
una distribución normal. Simulink. https://la.mathworks.com/discovery/linear-regression.html
Ahora se realiza una prueba de Kolmogórov-Smirnov para
confirmar si en realidad los errores no siguen una distribución Rpubs.5 de abril del 2016. “Regresión lineal simple”. RPUBS.
normal. Https://rpubs.com/joser/regresionsimple.
Ho: ε → N ( 0 , σ 2 ) Y. A. Saavedra Coneo.8 de junio del 2019. "Regresión lineal múltiple con
R".
https://yuasaavedraco.github.io/Docs/Regresión_lineal_múltiple_con_R.html.
Ha: ¬ H 0
Word bank open data | data. Word Bank Open Data |
Estadístico de prueba: D= 0.098078 Data. https://datos.bancomundial.org/.
Word Bank Data. Base de datos y Códigos.
https://drive.google.com/drive/folders/1c9S4DT5TNoHBSjWR6FwKQx8laY
3ukU_N?usp=sharing