0% encontró este documento útil (0 votos)
81 vistas5 páginas

1591 6177 1 PB

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
81 vistas5 páginas

1591 6177 1 PB

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 5

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/326680722

Ventajas de la estadística bayesiana frente a la frecuentista: ¿por qué nos


resistimos a usarla?

Article  in  Ecosistemas · July 2018


DOI: 10.7818/ECOS.1591

CITATION READS

1 1,364

15 authors, including:

Paloma Ruiz-Benito Enrique Andivia


University of Alcalá Complutense University of Madrid
91 PUBLICATIONS   2,174 CITATIONS    68 PUBLICATIONS   346 CITATIONS   

SEE PROFILE SEE PROFILE

Julen Astigarraga Rafael Barrientos


University of Alcalá Complutense University of Madrid
3 PUBLICATIONS   6 CITATIONS    90 PUBLICATIONS   814 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Life BioDehesa View project

ADAPTAMIX: ADAPTAtion of Mediterranean forests to climate change: the role of MIXed stands on promoting resilience to drought events View project

All content following this page was uploaded by Paloma Ruiz-Benito on 02 August 2018.

The user has requested enhancement of the downloaded file.


AEET
Ecosistemas 27(2): 136-139 [Mayo-Agosto 2018]
Doi.: 10.7818/ECOS.1591

Artículo publicado en Open Access bajo los términos


de Creative Commons attribution Non Comercial License 3.0.
ecosistemas
REVISTA CIENTÍFICA DE ECOLOGÍA Y MEDIO AMBIENTE

ASOCIACIÓN ESPAÑOLA ISSN 1697-2473 / Open access


DE ECOLOGÍA TERRESTRE NOTAS ECOINFORMÁTICAS disponible en www.revistaecosistemas.net

Ventajas de la estadística bayesiana frente a la frecuentista: ¿por


qué nos resistimos a usarla?
P. Ruiz-Benito1,*, E. Andivia1, J. Archambeaou2, J. Astigarraga1, R. Barrientos1, V. Cruz-Alonso1, M. Florencio1, D. Gómez1,
L. Martínez-Baroja1, P. Quiles1, Z.Rohrer1, A.M.C. Santos1, E. Velado1, S. Villén-Pérez1, I. Morales-Castilla1

(1) Departamento de Ciencias de la Vida, Universidad de Alcalá, Edificio de Ciencias, Campus Universitario, 28805 Alcalá de Henares (Madrid), España.
(2) UMR 1202 BIOGECO, University of Bordeaux, Talence, France.

* Autor de correspondencia: P. Ruiz-Benito [[email protected]]

> Recibido el 04 de junio de 2018 - Aceptado el 05 de junio de 2018

Ruiz-Benito, P., Andivia, E., Archambeaou, J., Astigarraga, J., Barrientos, R., Cruz-Alonso, V., Florencio, M., Gómez, D., Martínez-Baroja,
L., Quiles, P., Rohrer, Z., Santos, A.M.C., Velado, E., Villén-Pérez, I., Morales-Castilla, I. 2018. Ventajas de la estadística bayesiana frente a
la frecuentista: ¿por qué nos resistimos a usarla?. Ecosistemas 27(2): 136-139. Doi.: 10.7818/ECOS.1591

La complejidad de la naturaleza requiere de la aplicación de Los Criterios de Información se basan en el principio de parsimonia
modelos matemáticos que nos permitan su simplificación, es decir, de forma que se evalúa la verosimilitud del modelo en función de
que nos permitan realizar abstracciones para describir nuestras ob- su bondad de ajuste a los datos y de su complejidad (i.e., número
servaciones (Bolker 2008). La teoría de la probabilidad permite la de parámetros, Burnham y Anderson 2002). La selección de mode-
descripción de la incertidumbre asociada a los sistemas estocásti- los se hace generalmente en función de diferencias en AIC entre
cos naturales y el ajuste de modelos. Para describir la realidad y modelos comparables (p.ej. como regla orientativa se usa ΔAIC > 2
testar nuestra hipótesis calculamos una serie de parámetros aso- para considerar que hay soporte empírico para el modelo más com-
ciados al proceso objeto de estudio, que generalmente incluyen al plejo, Burnham y Anderson 2002), y la inferencia de múltiples mo-
menos un estadístico de tendencia central que lleva asociado un delos permite calcular la media de todos ellos cuando no hay un
rango de variación (p. ej. media e intervalos de confianza si usamos grado de soporte empírico claro para un determinado modelo (Dor-
una aproximación frecuentista, o la media de la distribución poste- man et al. 2018). A pesar de la popularidad creciente de este tipo
rior del parámetro y los intervalos de credibilidad en estadística ba- de enfoques también han sido criticados dado que, si bien serían
yesiana). Los tres enfoques principales usados para el cálculo de útiles para descartar los modelos menos informativos, pueden ser
estos parámetros son la estadística frecuentista, la máxima verosi- similares a otros enfoques basados en p-valores (Murtaugh 2014),
militud y la estadística bayesiana (Tabla 1). Estos enfoques se di- no bastarían para identificar el mejor modelo (Kadane y Lazar 2004)
ferencian principalmente en los métodos utilizados para extraer y serían necesarios criterios adicionales (Dziak et al. 2017).
conclusiones sobre los datos observados: los p-valores, los esti- La estadística bayesiana es el único enfoque en el que se hace
madores de máxima verosimilitud y la distribución posterior de los un uso explícito de la probabilidad para cuantificar la incertidumbre
parámetros. de la inferencia (Tabla 1). Se trata de un proceso de aprendizaje
Los p-valores y los estimadores de máxima verosimilitud, co- iterativo en el que se alcanzan conclusiones sobre un fenómeno
múnmente utilizados, han sido criticados porque algunas de sus (probabilidad a posteriori) a partir del conocimiento previo sobre el
asunciones no se ajustan al funcionamiento de los procesos eco- sistema (probabilidad a priori) y de nuevas evidencias (información
lógicos y precisan de normas arbitrarias e inflexibles para aceptar proveniente de los datos). Es decir, los resultados de un nuevo es-
o rechazar hipótesis (Wasserstein y Lazar 2016). Por ejemplo, en tudio podrían ser usados para actualizar el conocimiento sobre el
muchos estudios se acepta la hipótesis de que dos grupos de datos sistema e incluirlo en estudios posteriores. Por tanto, la estadística
son diferentes cuando el p-valor asociado al estadístico de con- bayesiana se basa en la reasignación de credibilidad a través de
traste es < 0.05; es decir, cuando la probabilidad de obtener una las probabilidades, donde las probabilidades son los valores de los
diferencia como la observada, o aún más extrema, si realmente parámetros en modelos matemáticos biológicamente coherentes
no hubiese diferencias entre ambos grupos es <0.05. Además, el (ver manuales de referencia como Bolker 2008; Kéry 2010; Gelman
p-valor está muy afectado por el tamaño muestral y su interpreta- et al. 2013; Kruschke 2015; McElreath 2016).
ción testando la hipótesis nula puede resultar poco intuitiva (An- El uso de un marco de trabajo bayesiano tiene una serie de
derson et al. 2000). Frente al p-valor, los criterios de información ventajas sobre la estadística frecuentista (p. ej. Bolker 2008; Clark
como el AIC (Akaike Information Criterion), BIC (Bayesian Infor- 2005; Gelman et al. 2013): (i) permite ajustar modelos complejos
matión Criterion) o DIC (Deviance Information Criterion) permiten no abordables por métodos frecuentistas debido a las restricciones
realizar la comparación y selección de modelos testando simultá- de estos modelos; (ii) permite alcanzar estimaciones más exactas
neamente varias hipótesis específicas (Johnson y Omald 2004). de los parámetros cuando el tamaño muestral es pequeño;

© 2018. Los Autores. Editado por la AEET. [Ecosistemas no se hace responsable del uso indebido de material sujeto a derecho de autor] 136
Ecosistemas 27(2): 135-139 Lara-Romero 2018

Tabla 1. Comparación de las aproximaciones frecuentistas, de máxima verosimilitud y bayesiana para ajustar un determinado modelo (p. ej. Y = a + b X).
Table 1. Comparison of frequentist, máximum likelihood and bayesian aproches to fit a certain model (e.g. Y = a + b X).

Frecuentista Máxima verosimilitud Bayesiana

Contraste de hipótesis basado en el Probabilidad de observar los datos dado Probabilidad de la hipótesis dados los
p-valor: probabilidad (P) de observar los un determinado modelo (con parámetros datos observados.
Aproximación datos (D) dado que la hipótesis nula (Ho) θ) viene determinado por la verosimilitud Se basa en el teorema de Bayes:
probabilidad es verdadera. (L: likelihood).
(p(D|θ) p(θ))
P=P(D|Ho) L(θ)=P(D|M(θ)) P(θ|D)=
p(D)

P-valor es la probabilidad de observar Parámetros que hacen que el resultado Media, mediana o moda de la distribución
estos datos (u otros más extremos) bajo sea más probable (MLE: estimadores de posterior de los parámetros.
la hipótesis nula (¡no es la probabilidad máxima verosimilitud). El parámetro tiene una distribución de
de que la hipótesis nula sea verdadera!). No hay definición de probabilidad de los probabilidad: esta es la única
Parámetro
Los parámetros se ajustan minimizando parámetros, pero se definen los intervalos aproximación con la que podemos estimar
la suma de las diferencias al cuadrado de confianza con dos unidades de la probabilidad de diferentes hipótesis o
entre cada valor observado y predicho. probabilidad logarítmica (Edwards 1992). valores del parámetro.

(iii) la interpretación de los resultados es fácil y directa ya que indi-


can la probabilidad de que un parámetro tome un cierto valor; (iv)
se pueden incluir medidas de incertidumbre, datos perdidos y dife-
rentes niveles de variabilidad; (v) permite realizar propagaciones
de error; (vi) permite especificar las distribuciones de los paráme-
tros (dependientes a su vez de otros parámetros) cuando a priori
sabemos cómo se distribuyen (priors); (vii) minimiza el uso de lími-
tes arbitrarios para tomar decisiones.
A pesar de las múltiples ventajas, la estadística bayesiana tan
sólo recientemente comienza a implementarse con cierta frecuen-
cia en el área de Ecología. Hemos realizado una búsqueda en Web
of Science incluyendo las palabras “Bayesian” y “Ecology” entre los
años 1994-2017 y hemos obtenido 14 495 resultados de los que el
90.7% se han publicado a partir del año 2000 y el 73.6% desde el
año 2010 (Fig. 1a). Las principales áreas de publicación son: Cien-
cias Ambientales, Zoología, Genética y Ciencias de la Vida
(Fig. 1b). El uso de la estadística bayesiana en Ecología puede
estar menos generalizado por diversos motivos. En primer lugar,
probablemente existe una inercia en el uso de métodos frecuentis-
tas y de máxima verosimilitud, y una falta de conocimiento sobre
cómo implementar procedimientos bayesianos. Sin embargo, tam-
bién es importante resaltar que la inferencia Bayesiana no es el
único procedimiento adecuado para los análisis de datos más co-
munes en Ecología. Por ejemplo, los resultados obtenidos por ajus-
tes bayesianos son similares a los obtenidos mediante estadística
frecuentista si no se usa un conocimiento a priori de los parámetros
o modelos complejos. El conocimiento a priori del sistema es dis-
cutible y en ocasiones difícil de establecer, lo que ha dado lugar a
un fuerte debate en la definición de la distribución a priori de los
parámetros o la evaluación del ajuste del modelo (Dennis 1996;
Gelman y Shalizi 2013). En segundo lugar, los procedimientos ba- Figura 1. a) Número de publicaciones en la base de datos Web of Science
con las palabras clave “Bayesian” y “Ecology” a lo largo del tiempo. b) Prin-
yesianos son computacionalmente complejos y pueden requerir un
cipales áreas temáticas en que se dividen las publicaciones de la búsqueda
elevado tiempo de ejecución para ajustar el modelo, especialmente anterior.
si el tamaño muestral es elevado. Estas desventajas hacen que su
Figure 1. a) Number of publications on Web of Science using the key-words
uso no sea generalizado, sobre todo cuando los resultados son si-
“Bayesian” and “Ecology” through time. b) The areas of the publications
milares con otros procedimientos en principio más sencillos. found in the previous search.
Las limitaciones en el uso de la estadística bayesiana están
siendo subsanadas gracias al aumento de las capacidades de com-
putación en paralelo de los equipos informáticos y a la mejora de por Geman y Geman (1984) y utilizado por programas como Wing-
programas informáticos cada vez más asequibles para usuarios no bugs, o JAGS2, ver Tabla 2). Los recursos para implementar dis-
experimentados. Así, ha habido un reciente desarrollo de progra- tintas aplicaciones bayesianas en R han proliferado de forma
mas informáticos de código abierto tales como Stan (www.mc- notable durante los últimos años, tal y como reflejan grupos de tra-
stan.org), que hacen uso de algoritmos de muestreo más eficientes bajo específicos tales como “CRAN Task View: Bayesian Inference”
(p. ej. Hamiltonian Monte Carlo propuesto por Hoffman y Gelman (https://cran.r-project.org/web/views/Bayesian.html), que cataloga
2014) que los utilizados por anteriores aplicaciones para la esta- exhaustivamente los recursos disponibles en R para realizar infe-
dística bayesiana (p. ej. algoritmo de muestreo de Gibbs propuesto rencia estadística bayesiana. Los recursos disponibles en R para

137
Ecosistemas 27(2): 135-139 Lara-Romero 2018

Tabla 2. Programas estadísticos comúnmente usados en Ecología para realizar inferencia bayesiana y los paquetes en R disponibles para su ajuste.
Table 2. Statistical programmes commonly used in Ecology for Bayesian statistics and the R libraries available for the parameterisation.

Programa y URL Descripción Paquete Referencias

Lenguaje de programación probabilístico para la inferencia


estadística escrito en C++. Bürkner (2016),
brms;
Stan Permite el desarrollo de modelos jerárquicos bayesianos rstan Stan Development Team
usando simulaciones MCMC (“Markov chain Monte Carlo”) (2018).
y algoritmos de Monte Carlo Hamiltonianos

R2WinBUGS;
BUGS Programa que incluye programas flexibles como Wingbugs,
R2OpenBUGS; Brown y Zhou (2018);
(Bayesian inference Openbugs y MultiBugs que usa métodos MCMC y algoritmo
rbugs; Sturtz et al. (2005)
Using Gibbs Sampling) de Gibbs
glmmBUGS

rjags;
JAGS Programa para el desarrollo de modelos jerárquicos
R2jags; Su y Yajima (2015)
(Just Another Gibss Sampler) bayesianos usando simulaciones MCMC y algoritmos Gibbs
runjags

BayesX
Programa para realizar inferencia bayesiana usando BayesX;
(Bayesian Inference in Belitz et al. (2017);
modelos de regresión aditivos (p. ej. GAM o “generalized BayesXsrc;
Structured Additive Umlauf et al. (2015)
additive models”) R2BayesX
Regression Models)

CUDA Arquitectura de cálculo que aprovecha la potencia de la


(Compute Unified GPU (unidad de procesamiento gráfico) para proporcionar cudaBayesreg Ferreira da Silva (2011)
Device Architecture) un incremento del rendimiento del sistema

realizar inferencia estadística abarcan desde paquetes para, por de la Comunidad de Madrid (2016-T2/AMB-1665 y 2017-T2/AMB-
ejemplo, ajustar modelos mixtos en marcos bayesianos (p. ej. pa- 6035, respectivamente). V.C-A. y E.V-A están financiada por el pro-
quete MCMCglmm, Hadfield 2010) hasta el desarrollo de paquetes grama de Becas Predoctorales de Medio Ambiente de la Fundación
específicos para implementar programas existentes de inferencia Tatiana Pérez de Guzmán el Bueno (2015 y 2016, respectiva-
bayesiana desde R (Tabla 2). mente). Z.R. está financiada por un convenio entre la Fundación
Debido a la dificultad de enfrentarnos en solitario a los retos que FIRE y LafargeHolcim España.
supone aplicar marcos bayesianos al estudio de los procesos eco-
lógicos, en la Unidad Docente de Ecología (UDE) del departamento Referencias
de Ciencias de la Vida de la Universidad de Alcalá hemos consti- Anderson, D.R., Burnham, K.P., Thompson, W.L. 2000. Null hypothesis test-
tuido un grupo de trabajo EcoBayesUAH sobre estadística baye- ing: problems, prevalence, and an alternative. The Journal of Wildlife
siana ([email protected]). Hemos elegido utilizar Stan y Management 64: 912-923.
su paquete rstan en R (R Core Team 2018) debido a la facilidad que Belitz, C., Brezger, A., Kneib, T., Lang, S., Umlauf, N. 2017. BayesX: Soft-
ofrece para ajustar modelos complejos, su eficiente desarrollo y la ware for Bayesian Inference in Structured Additive Regression Models.
buena documentación existente (ver http://mc-stan.org/users/docu- Version 1.1. Disponible en: http://www.BayesX.org/.
mentation/). Nuestro grupo de trabajo, actualmente compuesto por Bolker, B. 2008. Ecological models and data in R. Princeton University
15 investigadores pre- y postdoctorales de la UDE, se reúne quin- Press. Princeton, New Jersey, Estados Unidos.
cenalmente desde marzo de 2018 con tres objetivos iniciales: (1) Brown, P.E., Zhou, L. 2018. glmmBUGS: Generalised Linear Mixed Models
fomentar el estudio de aspectos teóricos y aplicados de la estadís- and Spatial Models with WinBUGS, Jags, and OpenBUGS. R package
tica bayesiana a problemas en Ecología; (2) ganar experiencia en version 2.4.2. Disponible en: https://CRAN.R-project.org/package=glmm
la implementación de modelos bayesianos mediante la realización BUGS.
y programación de ejemplos y ejercicios propuestos en libros y re- Burnham, K.P., Anderson, D.R. 2002. Model selection and multimodel infer-
cursos online; y, (3) solucionar problemas que encontramos al apli- ence: a practical information-theoretic approach. Springer-Verlag, New
car los modelos bayesianos a nuestros datos, discutiendo los puntos York, Estados Unidos.
críticos a conocer a la hora de ejecutar un modelo. Estamos encon- Bürkner, P.C. 2016. brms: An R package for Bayesian multilevel models
trando las reuniones del grupo útiles en el proceso de aprendizaje using Stan. Journal of Statistical Software 80: 1-28.
y animamos a que se desarrollen actividades semejantes en otras Clark, J.S. 2005. Why environmental scientists are becoming Bayesians.
instituciones. Nuestro grupo fomentará la colaboración con otros Ecology Letters 8: 2-14.
grupos de carácter similar o personas interesadas, especialmente
Dennis, B. 1996. Discussion: Should Ecologists Become Bayesians? Eco-
para compartir conocimientos y experiencias. logical Applications 6: 1095-1103.
Dziak, J.J., Coffman, D.L., Lanza, S.T., Li, R. 2017. Sensitivity and specificity
Agradecimientos of information criteria. PeerJ PrePrints: 5:e1103v3. DOI:10.7287/
peerj.preprints.1103v3
Queremos agradecer al grupo de EcoInformática de la AEET
Dormann, C.F., Calabrese, J.M., Guillera-Arroita, G., Matechou, E., Bahn,
por su apoyo para escribir esta nota y en especial a Ignasi Barto-
V., Barto´n, K., Beale, C.M., Ciuti, S., Elith, J., Gerstner, K., Guelat, J.,
meus, Francisco Rodríguez, Hugo Saiz y Antonio Luque, por la re- Keil, P., Lahoz-Monfort, J.J., Pollock, L.J. Reineking, B., Roberts, D.R.,
visión de la misma. A.M.C.S. cuenta con una beca Juan de la Schröder B., Tuiller, W., Warton, D.I., Wintle, B.A., Wood, S.N., W¨uest,
Cierva (MINECO, IJCI-2014-19502). I.M-C. y M.F. están financiado R.O, Hartig, F. 2018. Model averaging in ecology: a review of Bayesian,
por una Ayuda Postdoctoral del Programa Propio de la Universidad information-theoretic and tactical approaches for predictive inference.
de Alcalá. P.R-B. y S.V-P cuentan con ayuda Atracción de Talento Ecological Monographs DOI: 10.1002/ecm.1309.

138
Ecosistemas 27(2): 135-139 Lara-Romero 2018

Edwards, M.B. 1992. Likelihood. Johns Hopkins University Press. Baltimore, Kéry, M. 2010. Introduction to WinBUGS for Ecologists. Academic Press.
Maryland, Estados Unidos. Burlington, MA, Estados Unidos.
Ferreira da Silva, A.R. 2011. cudaBayesreg: Parallel Implementation of a Kruschke, J.K. 2015. Doing Bayesian data analysis: a tutorial with R, JAGS,
Bayesian Multilevel Model for fMRI Data Analysis. Journal of Statistical and Stan. Elsevier, USA.
Software 44: 1-24.
McElreath, R. 2016. Statistical rethinking: A Bayesian Course with examples
Geman, S., Geman, D. 1984. Stochastic relaxation, Gibbs distributions, and in R and Stan. CRS Press. Boca Ratón, FL, Estados Unidos.
the Bayesian restoration of images. IEEE Transactions on Pattern
Analysis and Machine Intelligence 6: 721–741. Murtaugh, P.A. 2014. In defense of P values. Ecology 95: 611-617.
Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A., Rubin, D.B., R Core Team 2018. R: A language and environment for statistical computing.
2013. Bayesian data analysis. Tercera edición. Chapman and Hall / En: R Foundation for Statistical Computing, Viena, Austria.
CRC Press, New York, Estados Unidos. Su, Y. S., Yajima, M. 2015. R2jags: Using R to Run ‘JAGS’ from R. R pack-
Gelman, A., Shalizi, C.R. 2013. Philosophy and the practice of Bayesian age version 0.5-7 [usado septiembre 2015]. Disponible en: https://cran.r-
statistics. British Journal of Mathematical and Statistical Psychology project.org/web/packages/R2jags/index.html.
66(1):8-38.
Stan Development Team 2018. RStan: the R interface to Stan. R package
Hadfield, J.D. 2010. MCMC Methods for Multi-Response Generalized Linear version 2.17.3. [usado mayo 2018]. Disponible en: http://mc-stan.org/
Mixed. Journal of Statistical Software 33: 1-22.
Sturtz, S., Ligges, U., Gelman, A. 2005. R2WinBUGS: A Package for Run-
Hoffman, M.D., Gelman, A. 2014. The No-U-turn sampler: adaptively setting
path lengths in Hamiltonian Monte Carlo. Journal of Machine Learning ning WinBUGS from R. Journal of Statistical Software 12: 1-16.
Research 15: 1593-1623. Umlauf, N., Adler, D., Kneib, T., Lang, S., Zeileis, A. 2015. Structured Addi-
Johnson, J.B. Omland, K.S. 2004. Model selection in ecology and evolution. tive Regression Models: An R Interface to BayesX. Journal of Statistical
Trends in Ecology and Evolution 19: 101-108. Software 63: 1-46.
Kadane, J.B., Lazar, N.A. 2004. Methods and criteria for model selection. Wasserstein, R. L., Lazar, N.A. 2016. The ASA’s statement on p-values: con-
Journal of the American Statistical Association 99: 279-290. text, process, and purpose. The American Statistician: 70: 129-133

139

View publication stats

También podría gustarte