0% encontró este documento útil (0 votos)
133 vistas6 páginas

Proyecto Final-Estadística-Christian Salazar Y.

Este documento describe un modelo de regresión lineal múltiple para predecir los precios de las viviendas en Boston utilizando variables como el número de habitaciones, baños y pies cuadrados. El modelo explicó el 50,69% de la variación en los precios y estimó que a medida que aumentan los baños y los pies cuadrados, el precio también aumenta, pero aumentar las habitaciones hace que el precio disminuya. El modelo predijo correctamente el precio de una casa de ejemplo.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
133 vistas6 páginas

Proyecto Final-Estadística-Christian Salazar Y.

Este documento describe un modelo de regresión lineal múltiple para predecir los precios de las viviendas en Boston utilizando variables como el número de habitaciones, baños y pies cuadrados. El modelo explicó el 50,69% de la variación en los precios y estimó que a medida que aumentan los baños y los pies cuadrados, el precio también aumenta, pero aumentar las habitaciones hace que el precio disminuya. El modelo predijo correctamente el precio de una casa de ejemplo.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 6

Predicción de los Precios de las Viviendas en Boston

con Regresión Lineal Múltiple usando el software R


Escuela Superior Politécnica Del Litoral
Christian Abel Salazar Ycaza
[email protected]

Resumen. _La regresión lineal es muy útil para la sociedad ya Las variables se representarán de están manera:
que permite pronosticar parámetros a partir de diversas variables. o Y: Precio de cada casa de Boston
El presente proyecto se basa en predecir los precios de las viviendas o x 1 :Numeros de Habitaciones
en Boston por el método de regresión lineal múltiple utilizando el
software R, tiene como objetivo diseñar y validar un modelo donde o x 2 :Numeros de Baños
la variable de respuesta son los precios de las casas de Boston y las o x 3 :Pies cuadrados construidos
variables predictoras son el número de habitaciones, número de De esta manera el modelo propuesto tiene la forma:
casas y la cantidad de pies cuadrados construido de cada vivienda.
La base de datos era del año 2007 y estuvo constituida por 21613 Y = β0 + β 1 x 1 + β 2 x 2 + β 3 x 3 +ε
observaciones y se la obtuvo de las bases de datos del banco
mundial. El modelo tuvo un poder de explicación del 50,69% Donde β 0 , β 1 , β 2 , β3 son los parámetros que deben estimarse
suponiendo que los residuales seguía una distribución normal con para el modelo, mientras que ε es el componente aleatorio de Y.
media 0 y una varianza σ 2, pero al final se concluyó que los Para validar el modelo se supondrá que los errores siguen una
errores no seguían una distribución normal. distribución normal:ε → N ( 0 , σ 2 ).
Palabras claves: Regresión Lineal múltiple, viviendas de Boston, II. DESARROLLO
variables predictoras, variables de respuestas, software R
Se realiza un procedimiento riguroso para estimar los coeficientes del
I. INTRODUCIÓN modelo propuesto y sus correspondientes interpretaciones para
La regresión lineal es una técnica de modelado estadístico que se validar dicho modelo.
emplea para describir una variable de respuesta continua como una A. Diagramas de dispersión
función de una o varias variables predictoras (MathWorks -
Creadores de MATLAB y Simulink, s.f). En este apartado se realizará los diagramas de dispersión de la
Para utilizar el método de regresión lineal múltiple es necesario variable dependiente con cada uno de las variables independientes en
una base de datos. La base de datos es de las viviendas de Boston que el software R.
se la obtuvo del historial de datos del Banco Mundial (World Bank) o Precio vs Número de Habitaciones
que corresponde al año 2007, consta de 21613 observaciones y 21
variables.
Se escoge esta base de datos ya que es fácil de entender cada una
de las variables y además el banco mundial otorga los datos en un
archivo con extensión csv y de esta manera es sencillo importarlos al
software utilizado.
Se utiliza el programa R para obtener el modelo de forma Fig. 1 Grafico de dispersión del Precio respecto al
eficiente y rápida. Es importante mencionar que para este trabajo número de habitaciones
solo se analiza 4 variables del total de ellas, las cuales son:

o Precio o Precio vs Numero de Baños


o Número de Habitaciones
o Número de Baños
o Pies cuadros construidos

El objetivo es desarrollar un modelo para predecir el precio de las


casas de Boston de acuerdo al número de habitaciones que cuenta la
vivienda, el número de baños y el total de pies cuadrados
construidos. Por lo tanto, para el modelo la variable dependiente va
Fig. 2 Grafico de dispersión del Precio respecto al número
hacer el precio de cada casa de Boston, y las que van actuar como
de Baños
variables independientes va hacer el número de habitaciones,
números de baños y el total de pies cuadrados construidos.
Tabla I Valores estimados para los coeficientes
Coeficiente Valor
^β 0 74847.141
Por lo tanto, el modelo de mínimos cuadrados es de esta forma:
^β 1 -57860.894

7932.712
^y =74847.141−57860.894 x1 +7932.712 x2 +309.392 x3
^β 2
^β 3 309.392

Fig. 3 Grafico de dispersión del Precio respecto al número


de Baños
o Precio vs Pies cuadrados construidos

Para los gráficos de dispersión en R la función utilizada es “plot


Fig. 4 Resultados de la función anova (_)
Se puede apreciar una función que puede predecir los precios de las
casas de Boston de acuerdo a sus características anteriormente
mencionadas. Analizando la función se estima que el precio inicial
que debería tener las casas es de 74847.141 dólares, y a medida que
(_)”, donde los
Fig.códigos separa
5 Código muestran a continuación:
los Gráficos de dispersión aumenta el número de baños y los pies cuadrados construidos el
precio va aumentando, pero es relevante observar que al aumentar el
Se puede evidenciar que en la Figura 1 no existe relación lineal número de habitaciones disminuye el precio de las casas, es un
fuerte, mientras que en la Figura 2 y 3 la relación es mucho mejor comportamiento singular de la función encontrada.
que en la Figura 1, es decir que dichas figuras tienden a una relación Los códigos utilizados fueron “lm (_)” que da el modelo de mínimos
lineal positiva. cuadrados y “summary (_)” que entrega valores importantes para la
validación.
B. Matriz de diseño y el modelo propuesto en notación
científica
Debido a que se tiene un amplio número de observaciones, se Fig. 6 Códigos para conocer los estimadores de los coeficientes.
muestra la matriz de diseño de forma general junto a su modelo
propuesto en notación matricial.
D. Pronosticar el precio de la casa de Boston
Pronosticar el precio de una casa de Boston que tiene 5
habitaciones,4 baños y 3000 pies cuadrados construidos.

^y =74847.141−57860.894 x1 +7932.712 x2 +309.392 x3

^y =74847.141−57860.894(5)+7932.712(4)+309.392(3000)

^y =745.449 dólares
Modelo teórico expresado en notación matricial:
E. Tabla Anova
Donde la matriz X es la matriz de diseño, además ε i=ui y de En el software que se utiliza en este trabajo existe una función
esta manera la forma simbólica es: muy útil llamada “anova (_)” donde entrega todos los valores
correspondientes a una tabla anova. Para este caso se muestra a
Y = βX+ ε continuación:

Fuente de Grados Suma de Cuadrados F0


C. Modelo de mínimos cuadrados Variación de cuadrados medios
liberta
Se puede utilizar la matriz de diseño para calcular los estimadores d
correspondientes o una función de R que ya dan los valores de los Pies 1 1,43564E+15 1,43564E+15 21599,0525
estimadores directamente. Cuadrados
En este trabajo se utilizará una función de R ya que eficaz y no es N. 1 4,06354E+13 4,06354E+13 611,3549
necesario la multiplicación de matrices. Habitaciones
N. Baños 1 3,39393E+11 3,39393E+11 5,1061
Regresión 3 1,47662E+15 1,47662E+15 7405
Error 21609 1,4363E+15 6646774896   S=257800⇒ S 2=507,7400909914442
4
Donde S2 es un estimador insesgado de la varianza del modelo
Total 21612 4,38953E+15    
teórico: E [ S 2 ] =σ 2 .
Tabla II Tabla Anova

Se puede evidenciar los valores correspondientes de la tabla


I. Matriz de varianzas y covarianza
anova con sus respectivas fuentes de variación.
La función correspondiente en este apartado es “anova (_)” donde La matriz de varianzas y covarianza es una forma ordenada de
muestra una tabla similar a la tabla 2: expresar las varianzas y covarianzas de los estimadores del modelo
de la regresión lineal y viene dada por esta expresión:
F. Probar con 5% la dependencia lineal del modelo
propuesto −1 −1
[ σ ij ]=( x T x ) σ 2 ≈ ( x T x ) S2
Debemos probar si hay dependencia lineal entre y y las variables
independientes.
Donde x es la matriz de diseño del modelo de regresión lineal
Establecemos como cierto que no hay dependencia entre ^ y y las múltiple.
variables independientes. En R existe una función donde muestra la matriz directamente y
es la función “vcov (_)”.
Ho: β 1=β 2=β 3=0 (No hay dependencia entre y y las x i)

Ha: ¬ Ho
  Intercepción Pies N. N. Baños
Estadístico de prueba: F 0=7405 construidos Habitaciones
Intercepción 47.798.790.173,000 3.248,728 - -7.180.927,533
10.767.204,22
Rechazo Ho si: F 0> ¿ ¿ donde v1 =3 y v 2=21609) 1
Pies 3.248.728,000 9,528 -2.402,102 -7.078,512
construidos
F ∞ ,3,21609 ≈ 2,60
N. -10.767.204,221 -2.402,102 5.450.390,210 -1.233.742,849
Habitacione
Análisis con el valor-p: p=0,00000000000000022 < 0,05 s
N. Baños -7.180.927,533 -7.078,512 -1.233.742,849 12.324.002,945
Conclusión: Como F 0> F ∞ es verdadero y el valor-p es
menor que el 5% se concluye que se rechaza la Hipótesis nula (Ho) y Tabla III Matriz de varianza y covarianza
se acepta la Hipótesis alterna (Ha), en consecuencia, al menos unas
de las variables independiente x i contribuyen significativamente En la tabla 3 se muestra la matriz de varianza y covarianzas donde
la diagonal de la matriz son la varianza de los estimadores de
al modelo.
mínimos cuadrados.
Es importante recalcar que el valor-p lo otorga el programa R en
el resumen del modelo. Fig. 7 Resultado de la función “vcov (_)”

G. Coeficiente de determinación
En el software R con cierta función se puede obtener un resumen
del modelo del aspecto más importante y esta función es “summary
(_)” que ya se mencionó anteriormente. De aquí se obtiene el A continuación, se presenta el objeto que muestra la función
coeficiente de determinación. “vcov (_)” en R:
Entonces:
R2=0,5069; 0< R2< 1
Se puede inferir que el poder de explicación para el modelo de J. Varianza de los estimadores del modelo de mínimos
mínimos cuadrados es de aproximadamente 50,69%. Por cuadrados
consiguiente, indica que el 50,69% de la variabilidad de los precios En la diagonal de la matriz de varianza y covarianza proporciona
de las casas de Boston es predicha con nuestro modelo, teniendo en la varianza de los estimadores del modelo de mínimos cuadrados.
cuenta 3 variables predictoras.
o V [ ^β 0 ]=47 ' 798.790,173
H. Estimación de la varianza
o V [ ^β 1 ]=5 ' 450.390,210
La variación de los errores del modelo σ 2 es desconocida, pero el
programa R ya muestra un estimado para esta varianza.
o V [ ^β 2 ]=12 ' 324.002,945
Ha: β1≠ 0
o V [ ^β 3 ]=9,528206 Estadístico de prueba: t=-24.78

Rechazo Ho si:
t <−t ∞ ó t>t ∞
K. Intervalo de confianza del 95% para cada parámetro
2 2
El intervalo de confianza para β i con un nivel de confianza de 1-
a , viene dado por la siguiente expresión: ∞
t ∞ /2 donde v1 =21609 y =0,025
2
^β i−t ∝ ∗ σ 2^ ≤ βi ≤ ^βi +t ∝ ∗ σ 2^ ; i=0,1,2,3 …
2

β i
2
β √ i t ∞ /2,21609 ≈ 1,960

Para este caso se utiliza la función “confint (_)” el cual muestra el Analizando con el valor-p: p= 0,0000000000000002<0,05
intervalo para el parámetro asignado.
Conclusión: Como
t <−t ∞ es verdadero y el valore- p es menor a
o β 0:
Para el parámetro 2
0,05, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis
61295,84 ≤ β 0 ≤ 88398,44
alterna (Ha), es decir, la variable x 1 que corresponde al número de
habitaciones contribuye significativamente a la respuesta.
o β 1:
Para el parámetro
−62436,9 ≤ β 1 ≤−53284,89 Analizando la variable x 2,número de baños: Fig. 9 Gráfico Q-Q de normalidad
Se supone como cierto un valor especificado para β 2
o β 2:
Para el parámetro
Ho: β 2=0
1051,764 ≤ β 2 ≤ 14813,66
Ha: β2≠ 0
o β 3:
Para el parámetro
303,342 ≤ β 3 ≤ 315,4427 Estadístico de prueba: t= 2.26

Se observa que cada uno de los parámetros no contienen el valor Rechazo Ho si:
t <−t ∞ ó t>t ∞
“0”, y se puede inferir que cada una de las variables independientes 2 2
x i aportan significativamente a la variable dependiente y , en
consecuencia, los parámetros tienen que ser diferente de cero. ∞
t ∞ /2 donde v1 =21609 y =0,025
Los código y resultados seleccionados en esta sección se 2
muestran a continuación:
t ∞ /2,21609 ≈ 1,960

Analizando con el valor-p: p= 0,0239<0,05

Conclusión: Como
t >t ∞ es verdadero y el valore- p es menor a
2
0,05, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis
alterna (Ha), es decir, la variable x 2 que corresponde al número de
Fig. 8 Códigos e intervalos
baños, contribuye significativamente al modelo.
L. Probar con el 5% de significancia si el aporte de
cada variable x i al modelo es significativo Analizando la variable x 3, pies cuadrados construidos:

Ya que se está utilizando el software R, aquel programa me da los Se supone como cierto un valor especificado para β 3
valores de los estadísticos de prueba y el valor-p. Ho: β 3=0
Analizando la variable x 1, número de habitaciones: Ha: β3≠ 0
Se supone como cierto un valor especificado para β 1
Ho: β 1=0 Estadístico de prueba: t= 100.23
Rechazo Ho si:
t <−t ∞ ó t>t ∞
2 2 Rechazo Ho si: D>( D¿¿ α , n=21613) ¿

Dα ,n =0.009250844
Analizando con el valor-p: p=0.00000000000000022<0,05

Conclusión: Como D> D α , n es una igualdad verdadera y el valor-


p es menor que 0,05, entonces se rechaza la hipótesis nula (Ho) y se
acepta la hipótesis altera (Ha), en consecuencia, los errores no
siguen una distribución normal estándar con dichos parámetros.
Códigos y resultados en R se presentan a continuación:

t ∞ /2 donde v1 =21609 y =0,025
2
III. CONCLUSIÓN
t ∞ /2,21609 ≈ 1,960
o Haciendo la suposición de que los errores seguían una
distribución normal estándar, el modelo de regresión
Analizando con el valor-p: p= 0,0000000000000002<0,05
lineal encontrado es bueno para pronosticar los precios
de las casas de Boston con un 50% de certeza.
Conclusión: Como
t >t ∞ es verdadero y el valor- p es menor a
2
0,05, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis Fig. 10 Códigos y Resultados en R
alterna (Ha), es decir, la variable x 3 que corresponde a los pies o Cada prueba que se realizó para validar el modelo de
cuadrados construidos, contribuye significativamente al modelo. mínimo cuadro se los hizo con un nivel de significancia
del 5% y también se utilizó el valor-p.

o Se realizó una estimación con la varianza poblacional


porque no se la conocía, la estimación fue con la
varianza muestral para poder realizar ciertos cálculos.

o Al momento de probar la normalidad de los errores se


realizó con dos métodos: la primara era método gráfico
y la segunda es fue con el método de Kolmogórov-
Smirnov y se llegó a la conclusión de que los errores no
seguían una distribución normal.

M. Probar la normalidad del error con 5% de o Unas de las limitaciones que se presento fue no conocer
significancia como manejar el software R al inicio y se tuvo que
aprender por videos para poder realizar la investigación.
Para realizar los cálculos anteriores se supuso que los errores
seguían una distribución normal N (0,σ 2), pero ahora se va a probar
IV. REFERENCIAS
si en realizad lo son. Primero se analiza la normalidad de los errores
mediante grafica que compara los errores teóricos con los errores MSc. Luis Rodríguez Ojeda. Guayaquil-Ecuador del 2007.Probabilidad y
estimados. estadística Básica para Ingenieros.
https://www.dspace.espol.edu.ec/bitstream/123456789/25020/1/PROBABILI
Se puede evidenciar que existen puntos atípicos en la figura 9 y DAD%20Y%20ESTADISTICA%20BASICA%20PARA
%20INGENIEROS.pdf.
una gran porción de puntos se desvía de los límites de la línea de 45°,
por lo tanto, se infiere que los errores no pueden estar cumpliendo MathWorks. "¿Qué es la regresión lineal?” MATLAB &
una distribución normal. Simulink. https://la.mathworks.com/discovery/linear-regression.html 
Ahora se realiza una prueba de Kolmogórov-Smirnov para
confirmar si en realidad los errores no siguen una distribución Rpubs.5 de abril del 2016. “Regresión lineal simple”. RPUBS.
normal. Https://rpubs.com/joser/regresionsimple.
Ho: ε → N ( 0 , σ 2 ) Y. A. Saavedra Coneo.8 de junio del 2019. "Regresión lineal múltiple con
R".
https://yuasaavedraco.github.io/Docs/Regresión_lineal_múltiple_con_R.html.
Ha: ¬ H 0
Word bank open data | data. Word Bank Open Data |
Estadístico de prueba: D= 0.098078 Data. https://datos.bancomundial.org/.
Word Bank Data. Base de datos y Códigos.
https://drive.google.com/drive/folders/1c9S4DT5TNoHBSjWR6FwKQx8laY
3ukU_N?usp=sharing

También podría gustarte