Bioestadstica Parte 1
Bioestadstica Parte 1
1 Introducción
2
Síndrome de Estrés Porcino: causas
mutación puntual en el gen RYR1: C1843T (Fujii et al, 1991)
autosómica recesiva
◼ CC: Individuos sanos y no portadores
◼ CT: Individuos sanos y portadores
◼ TT: Individuos enfermos
RYR1 codifica el canal de liberación de calcio (Ca+2) en el músculo
esquelético
Los individuos enfermos presentan alteraciones en el metabolismo
de Ca+2 > contracción muscular aumentada > hipertrofia muscular,
alteraciones en la retención de agua, pH…
Diagnóstico por PCR
3
Un problema de interés
En 2016 se faenaron en el país 3,8M de cabezas
El frigorífico de mayor volumen faenado es La Pompeya S.A.C.I.F. y
A., ubicado en Marcos Paz (Bs As) con 864.466 cabezas (22,6%)
Se desea estudiar la frecuencia de los tres genotipos (CC, CT y TT)
en animales a ser faenados en este frigorífico y su efecto sobre la
calidad de la carne
◼ ¿Es esperable que los cerdos con el mismo genotipo posean exactamente la
misma calidad de carne?
◼ ¿Qué factores pueden generar variabilidad en la calidad?
◼ ¿Es necesario / posible estudiar TODOS los cerdos faenados en La Pompeya?
Se seleccionaron al azar 403 individuos
4
Algunas definiciones
Individuo, unidad de observación o experimental: es la menor
unidad de la cual se obtiene una observación independiente.
Población es el conjunto de todos los individuos de interés
◼ Normalmente es demasiado grande para poder abarcarlo.
◼ A veces las poblaciones son “virtuales”, por ej en los experimentos
◼ El estudio de toda la población se denomina censo
◼ En un censo las posibilidades de errores se minimizan, pero efectuar un censo
es habitualmente muy costoso, no siempre es posible, no siempre es lo mejor
y en general es innecesario
Muestra es un subconjunto de la población y es sobre el que
realmente hacemos las observaciones
5
Volviendo al ejemplo
Individuo
Población
Tamaño de la población N =
Muestra
Tamaño de la muestra n =
6
Inferencia estadística
Consiste en generalizar los resultados extraídos de una muestra sobre la
población con un riesgo de error controlado
7
Incertidumbre
Es la característica más importante de los sistemas biológicos
Si tomamos dos
muestras de
individuos, aún
perteneciendo a la
misma población,
esperamos que sus
medias muestrales
difieran en cierta
medida
8
Muestreo aleatorio simple
Se eligen al azar individuos de la población en estudio, de manera
que todos tengan la misma probabilidad de ser seleccionados,
hasta alcanzar el tamaño muestral deseado
El azar es importante porque:
◼ Nos asegura representatividad de la muestra (sobre todo para
muestras grandes)
◼ Elimina sesgos (el diseño de un estudio está sesgado si favorece
sistemáticamente ciertos resultados
◼ Permite emplear la inferencia estadística para proyectar y
analizar los resultados
9
Experimentos
Consiste en asignar tratamientos en forma aleatoria a las unidades
experimentales y medir una respuesta
Al menos dos grupos:
◼ Un grupo recibe el procedimiento experimental (grupo experimental)
◼ el otro no recibe nada o recibe el placebo o el procedimiento estándar
(grupo control o testigo)
El tratamiento control es fundamental para evaluar el efectos de los
tratamientos experimentales (¿qué ocurre en ausencia de la
manipulación experimental?)
Las diferencias que se observen en la respuesta son asignables al
tratamiento aplicado y no a otro factor
11
Introducción y objetivos. evaluar si una
intervención domiciliaria reduce la
mortalidad y los reingresos hospitalarios
de pacientes con insuficiencia cardiaca y
mejora su calidad de vida. Métodos.
Ensayo clínico aleatorizado, realizado
desde enero de 2004 a octubre de 2006.
Se aleatorizó a 283 pacientes,
diagnosticados de insuficiencia cardiaca e
ingresados en el hospital, al grupo de
atención domiciliaria (grupo intervención)
o al grupo de atención habitual (grupo
control). Al año de seguimiento se
determinó: mortalidad por todas las
causas, reingresos hospitalarios debido al
empeoramiento de la insuficiencia
cardiaca y calidad de vida según escala
MLHF 12
Más definiciones
Variable es la característica de interés que es medida en cada uno de
los individuos
Observación o dato es el valor particular que toma la variable en cada
individuo
13
Genotipos RYR1
En cada uno de los cerdos se determinó:
◼ Genotipo Individuo
1
Genotipo
CC
pH
5,81
2 CC 6,65
◼ Sexo 3 CC 5,69
4 CC 7,05
◼ pH de la canal 45 min post sacrificio 5 CC 5,62
6 CC 7,58
◼ Peso de la canal (kg) 7
8
CT
CT
4,96
6,35
◼ Espesor de grasa dorsal (mm) 9
10
CC
CC
5,96
6,22
11 CC 7,55
◼ Pérdida de agua (% V/P) 12 CC 5,87
13 CC 6,29
14 CT 7,23
15 CT 5,75
16 CT 6,6
17 CC 6,58
18 CC 5,67
19 CC 7,1
20 CT 4,68
14 etc
Tipos de variables
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se
pueden hacer operaciones algebraicas con ellos
◼ Nominales: si los valores no pueden ordenarse jerárquicamente
tipo de cultivo, raza
◼ Ordinales: si los valores pueden ordenarse
grado de infección
Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)
◼ Discretas: Si toma valores enteros
Cantidad de frutos por planta, Número de lesiones por cm2 de piel
◼ Continuas: Si entre dos valores, son posibles infinitos valores intermedios
Peso, altura, superficie, concentración
15
Identificando variables
◼ Genotipo
◼ Sexo
◼ pH de la canal 45 min post sacrificio
◼ Peso de la canal (kg)
◼ Pérdida de agua (% V/P)
◼ Espesor de la grasa dorsal (mm)
frecuencia relativa
Roja 0,32
transito
3% 30
% de plantas
13%
Conducir 25
utilizando 0,21
Celular /
20
Exceso de
Auriculares Velocidad 15
4% 0,11
Estac. lugar
50% 10
No uso prohib. 5
cinturon de 24%
seguridad 0 0,00
9 11 12 14 16 17 19
4% 1 2 3 4 5
Diámetro (µ) 17
Nro de rizomas
Gráfico de caja o Box plot
Dato atípico
Para variables cuantitativas
No se representan las frecuencias 20
variable
RIQ
10
Med
Q1
5
75 15 México 76,6
Q3 =76,8
16 Uruguay 77,0
70
17 Panamá 77,3
18 Chile 78,9
65
19 Costa Rica 79,1
60
20 Cuba 79,2
Datos atípicos o outliers
Son datos muy distintos al resto
Pueden aparecer por:
◼ error en el procedimiento (toma de datos, registro, ingreso a BD)
◼ Como consecuencia de un evento extraordinario
◼ Outlier multivariante: valores similares al resto para cada variable, pero con una
combinación atípica
◼ Indicativos de un segmento menor de la población o de un fenómeno novedoso
Se detectan por métodos gráficos (gráfico de caja) o analíticos
(estandarización, pruebas estadísticas)
20
Infostat
www.infostat.com.ar
Desarrollado por la Facultad
de Ciencias Agrarias,
Universidad Nacional de
Córdoba
Distribución libre
Interface amigable en R
21
Frecuencia de genotipos RyR1
Se determinó genotipo y pH de la canal a los 45 min post sacrificio
de 403 cerdos del frigorífico La Pompeya
Individuo Genotipo pH
1 CC 5,81
2 CC 6,65
Para el ingreso de datos: 3 CC 5,69
4 CC 7,05
Si se cuenta con base de datos con extensión idb2: 5 CC 5,62
Archivo > Abrir 6 CC 7,58
7 CT 4,96
Para pegar desde Excel o Word: Archivo > Nueva tabla 8 CT 6,35
Copiar > Pegar incluyendo nombre de columnas 9 CC 5,96
10 CC 6,22
Para tabla de frecuencias: 11 CC 7,55
12 CC 5,87
Una variable: Estadísticas > Tablas de frecuencias 13 CC 6,29
14 CT 7,23
Dos variables (tabla de doble entrada o de contingencia): 15 CT 5,75
Estadísticas > Datos categorizados > Tablas de 16 CT 6,6
contingencia 17 CC 6,58
18 CC 5,67
19 CC 7,1
22 20 CT 4,68
etc
Estadística descriptiva en Infostat
Para el ingreso de datos:
Si se cuenta con base de datos con extensión idb2: Archivo
> Abrir
Para pegar desde Excel o Word: Archivo > Nueva tabla
Copiar > Pegar incluyendo nombre de columnas
Para graficar:
Gráficos > Histograma > Particiones: Genotipo
Gráficos > Gráfico de caja > Particiones: Genotipo
Genotipo = CC
Genotipo = CC 8,00
0,27
7,30
frecuencia relativa
0,20
6,60
pH
0,13
5,90
0,07
5,20
23 0,00
4,474,865,255,656,046,436,827,227,618,00
4,50
pH
Forma de la distribución de la variable
Simétrica: la distribución puede dividirse en dos partes
iguales alrededor de un valor central, y cada mitad es el
reflejo de la otra
Asimétrica: una cola de la distribución está mas alargada
que la del otro lado
Unimodal: la distribución tiene un único pico o máximo
relativo
Bimodal: la distribución tiene dos picos. Esto generalmente
ocurre cuando se mezclan dos poblaciones
24
Un brevísimo resumen sobre
estadísticos
◼ Tendencia central
Indican valores con respecto a los que los datos parecen agruparse.
◼ Media o promedio, mediana y moda
◼ Variabilidad
Indican la mayor o menor concentración de los datos con respecto a las medidas
de tendencia central.
◼ Varianza, Desviación estándar, coeficiente de variación
◼ Posición
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de
individuos.
◼ Cuartiles, deciles, percentiles
◼ Proporción o porcentaje
◼ Indican la relación entre la cantidad de éxitos y el total de datos
25
Estadísticos
Para cálculo de estadísticos:
Estadísticas> Medidas resumen >
Variables: pH > Criterios de clasificación: Genotipo
26
Distribución normal o de Gauss
◼ Para variables continuas (aunque no todas
las variables continuas siguen una
distribución normal)
◼ Es una distribución TEÓRICA
◼ Simétrica
◼ Caracterizada por dos parámetros:
la media μ localizada en el centro de la
distribución
el desvío estándar σ que incide en el
ancho de la distribución
◼ Aparece de manera natural:
Altura, peso
Error de medición
En procesos donde la variable es el
resultado de la suma de muchos efectos
pequeños simulación 27
Estandarización
Para calcular el valor estandarizado o valor Z de una observación se le
debe restar el valor esperado de la variable y dividir por el desvío
estándar de la variable:
x−µ
z=
El valor Z es el número de desvíos estándar en que dicho valor se
aleja de la media
No tiene unidades
Cuanto más grande sea el valor absoluto de Z, más lejos estará el valor
de la media (más inusual)
28
¿Cómo saber si una variable tiene distribución
normal?
Métodos gráficos
◼ Histograma: la variable se agrupa en intervalos y se representa la
frecuencia de cada uno (válido para n > 30)
◼ Q-Q plot: Consiste en un gráfico de dispersión de los cuantiles
observados vs los cuantiles esperados suponiendo distribución
normal. Si la distribución es normal, los datos deben quedar
distribuidos al azar alrededor de una recta con pendiente 1
0,27
QQ plot
0,043
Cuantiles observados
0,20
frecuencia relativa
0,036
0,14
0,029
0,07
0,022
0,016
0,00
0,016 0,022 0,029 0,036 0,043
29
0,01 0,02 0,02 0,02 0,03 0,03 0,04 0,04 0,04 0,05
X Cuantiles de una Normal
Desviaciones de la normalidad
0,182 0,34 6,999
0,57
Cuantiles observados
Cuantiles observados
0,129 0,25 5,606
frecuencia relativa
0,43
frecuencia relativa
2,821
0,14 0,021 0,08
0,00 1,428
-0,032 0,00
-0,01 0,02 0,04 0,06 0,08 0,11 0,13 0,15 0,17 0,20 1,428 2,821 4,213 5,606 6,999
-0,032 0,021 0,075 0,129 0,182 1,01 1,66 2,31 2,96 3,61 4,26 4,91 5,56 6,21 6,86
X Cuantiles de una Normal
Cuantiles de una Normal X
0,34 21,03
0,23 14,86
0,11 8,69
0,00 2,52
5,96 9,17 12,39 15,61 18,82 22,04 25,25 2,52 8,69 14,86 21,03 27,20
X Cuantiles de una Normal(14,862,28,474)
30
32
Bioestadística
Clase 2
Estimación de parámetros
33
Estimación del pH medio
en cada genotipo CC
Población
Muestra
Variable
Parámetro
Estimador
n=
Media =
DE =
34
Parámetros vs estimadores
▪ Parámetros:
▪ estadísticos calculados sobre toda la población
▪ No varían, a menos que varíe la población (constantes)
▪ Usualmente desconocidos
▪ Estimadores:
▪ estadísticos calculados sobre una muestra
▪ Usualmente es la única información con la que contamos
▪ Cambian con cada muestra, al azar (no son constantes sino variables
aleatorias)
▪ Se puede estudiar su distribución de probabilidades (distribución muestral)
35
Estimación de un parámetro
Estimación puntual: se calcula un valor simple a partir de una muestra
a fin de estimar el parámetro. No hay medida de cuán buena es la
estimación
▪ Si el promedio de una población es desconocido, se lo estima
puntualmente mediante el promedio de una muestra
▪ Si el desvío estándar de una población es desconocido, se lo estima
puntualmente mediante el desvío estándar de una muestra s
x
▪ Si la proporción de éxitos de una población es desconocida, se la
estima puntualmente mediante la proporción de éxitos muestral p
E( estimador ) = parámetro
( x − x )2
s2 = es un estimador insesgado de 2
n −1
( x − x )2
s2 = no lo es
n
38
Distribución muestral
Los estimadores se calculan sobre n valores muestrales, por lo tanto varían de
muestra en muestra y por lo tanto son variables aleatorias.
Las distribuciones de probabilidad de los estimadores se denominan
distribuciones muestrales.
Por lo tanto los estimadores, como toda variable aleatoria, se pueden
caracterizar por:
su tendencia central: promedio o esperanza
su variabilidad: desvío estándar (llamado error estándar)
su distribución de probabilidades (normal, binomial, etc)
39
¿Por qué es importante la distribución
normal?
La razón es que aunque una variable no posea distribución normal,
ciertos estadísticos/estimadores calculados sobre muestras elegidas al
azar sí poseen una distribución normal (Teorema central del límite)
Por ejemplo: la media muestral, la diferencia de medias muestrales, los
errores en las predicciones de los modelos…
Es decir, tengan las distribución que tengan nuestros datos, los ‘objetos’
que resumen la información (estimadores) de una muestra, posiblemente
tengan distribución normal (o asociada)
La mayoría de las pruebas estadísticas se basan en estimadores con
distribución normal (Estadística paramétrica)
simulación
40
Teorema central del límite
Dada una v.a. cualquiera, si extraemos muestras de
tamaño n, y calculamos los promedios muestrales, entonces:
43
¿Cómo calcular un rango de valores
para µ?
x−µ
z=
n
P( za 2 < Z < z1−a 2 ) = 1 − a
x −µ
P ( za 2 < < z1−a 2 ) = 1 − a
n
P( za / 2 n < x − < z1−a / 2 n) = 1−a
LI LS
Intervalo de confianza para µ
46
Amplitud
Amplitud ( A) = LS − LI
Es el ancho del IC
Determina la precisión de la estimación (cuanto más amplitud,
menor precisión, peor estimación)
Sus unidades son las de la variable
47
Nivel de confianza
es – a priori - la probabilidad de que el intervalo contenga al parámetro
Se lo simboliza como 1- α
Lo fija el investigador. Valores típicos de 1- α =0,90 ; 0,95; 0,99
α es la probabilidad de error (no contener al parámetro) y se la denomina
también riesgo
Media
60
59
58
57
0 25 50 75 48 100
Intervalos
¿Cómo hacer más precisa una
estimación? Nivel de za/2
Para disminuir la amplitud del IC confianza
(mayor precisión): 0.90 1.645
0.95 1.96
Tamaño de la muestra 0.99 2.576
Nivel de confianza
Desvío estándar
P ( LI < µ < LS ) = 1 − a
LI = x + za 2 n
LS = x + z1−a 2 n
49
Supuestos
Para que las estimaciones sean confiables se debe cumplir:
50
Estimación de un promedio con desvío
poblacional desconocido
❑ Es la situación más habitual
❑ Como se desconoce se utiliza su estimador s →
mayor incertidumbre
❑ No es correcto utilizar la distribución normal para
❑ Se demuestra que la media muestral en estos casos ajusta a una
distribución conocida como t de Student, que posee mayor dispersión que
la normal estándar
x−µ x−µ
z= tGL =
n s n
51
Distribución t de Student
❑ Tiene forma acampanada como la normal estándar, pero su dispersión es mayor
(es más aplanada). Esto se debe a que al desconocer hay mayor incertidumbre
❑ Es simétrica con respecto al cero, es decir que µ=0
❑ No se trata de una única curva, sino de infinitas curvas, cada una caracterizada
por un parámetro denominado grados de libertad (GL)
❑ Los GL indican la cantidad de datos independientes, es decir el número de
observaciones de la variable menos el número de restricciones que verifican
❑ Los GL dependen del tamaño
de la muestra y en este caso valen n-1
❑ A medida que aumentan los GL
más se asemeja a la normal estándar
(porque s converge a )
52
Intervalo de confianza para µ cuando el desvío
poblacional es desconocido
❑ Con conocido
P ( LI < µ < LS ) = 1 − a
LI = x + t n −1,a 2 s n
LS = x + t n −1,1−a 2 s n 53
Supuestos
Para que las estimaciones sean confiables se debe cumplir:
54
Estimaciones no paramétricas
¿Y si la distribución de la variable no es normal y el
tamaño de la muestra no es lo suficientemente grande
para aplicar TCL?
No es correcto utilizar estas fórmulas, que se basan en la
distribución normal de la media muestral
Puede utilizarse un intervalo de confianza no
paramétrico, es decir que no asume ninguna distribución
de probabilidades. Estimación por bootstrap
55
Estimación de una proporción
❑ Si de una población con cierta proporción de éxitos se extraen
infinitas muestras aleatorias de tamaño n y a cada una de ellas se le
calcula la proporción muestral p, se demuestra que ésta se comporta
según una distribución normal siempre y cuando se cumplan las
condiciones de aproximación de la distribución binomial a la normal, es
decir: n > 30, n 5 y (1- )n 5
p −
z=
(1 − )
n
56
Intervalo de confianza para π
Para µ con conocido
p (1 − p ) p (1 − p )
P ( p + za / 2 < < p + z1−a / 2 ) = 1−a
n n
LI LS
P ( LI < < LS ) = 1 − a
p (1 − p )
LI = p + za / 2
n
p (1 − p )
LI = p + z1−a / 2 57
n
Supuestos
Para que las estimaciones sean confiables se debe cumplir:
58
Cálculo del tamaño muestral:
Para un promedio: Para una proporción:
2
t ;1−a / 2 S Z12−a /2 p (1 − p )
n = n=
A/ 2 ( A / 2) 2
n −1
❑ error estándar: Mide la dispersión de las muestras
s
(dispersión del estimador). Da idea de la precisión en
la estimación del parámetro EE( X ) =
n
❑ error muestral: Mide en cuanto puede diferir como
máximo la muestra del parámetro con una cierta
probabilidad o nivel de confianza. Permite calcular los EM = tn −1EE( X )
intervalos de confianza (rango de valores que se
espera contengan al parámetro con una cierta X tn −1EE( X )
confianza). Se conoce también como semi-amplitud
del IC (A/2)
60
Desvío estándar, error estándar y error
muestral
16 16 16
14 14 14
12
12 12
FUERZA (Media +- EE )
10
10 10
8
95% IC FUERZA
8 8
6
6 6
4
4 4 N= 15 15
N= 15 15 N= 15 15 Convencional TAC
Convencional TAC Convencional TAC
TRAT
TRAT TRAT
Adriana Pérez
Bioestadística
UADE
Vitamina E en dieta de cerdos
En un criadero de cerdos la ganancia de peso diario de los animales
es de 100 g/día
Se desea aumentar la ganancia de peso. Se cree que la
suplementación con vitamina E podría contribuir a ello
Se decide hacer un ensayo con 30 animales alimentados con la
dieta habitual + suplementación con vitamina E
¿Cómo decidir a partir de los resultados si la suplementación fue
efectiva o no?
¿Podemos equivocarnos al concluir?
63
¿Qué es una prueba de hipótesis?
Es un procedimiento de inferencia estadística para determinar la
validez de una aseveración o hipótesis planteada sobre una
población basándose en evidencia muestral
La afirmación sobre la población se efectúa a nivel de sus
parámetros:
◼ Media
◼ Proporción
◼ Diferencia de medias, de proporciones…
La prueba de hipótesis es un procedimiento de toma de
decisiones, relacionada principalmente con la elección de una
acción entre dos conjuntos posibles de valores del parámetro
64
Definiciones
Hipótesis de investigación: denotada por Hi expresa el objetivo del investigador.
Hipótesis estadísticas:
La hipótesis nula, denotada por Ho, es el status quo o estado actual (lo que se
cree hasta el momento) o la que asegura que no hay diferencias en la
población. Es la hipótesis de no efecto.
Notas:
◼ Las hipótesis nula y alternativa se refieren ambas a la misma población
◼ Deben plantearse antes de obtener la muestra
65
Definiendo las Hipótesis
¿La incorporación de vitamina E a la dieta es efectiva?
Se desea determinar la efectividad de incorporar vitamina E a la dieta de
cerdos a fin de mejorar el aumento de peso, que actualmente es en
promedio de 100g/día.
◼Ho :
◼H1 :
◼Ho :
◼H1 :
66
Definiendo las Hipótesis
¿Control de calidad: el lote de glifosato cumple con la especificación?
El glifosato es un herbicida post-emergente de amplio espectro, no selectivo,
ampliamente utilizado en nuestro país
Se comercializa bajo la forma de sal de isopropilamina a una concentración de
48 mg/100 ml de la sal
Los lotes se controlan a fin de determinar si cumplen con la especificación,
para lo cual se toman 10 alícuotas de 1 ml cada una
◼Ho :
◼ H1 :
Usando parámetros:
◼Ho :
◼ H1 :
67
Definiendo las Hipótesis
¿El glifosato afecta el desarrollo embrionario de anuros?
68
Definiendo las Hipótesis
¿El glifosato afecta el desarrollo embrionario de anuros?
◼Ho :
◼H1 :
69
Pasos en una Prueba de hipótesis:
1. Planteo de las hipótesis
1. Establecer la hipótesis nula en términos de igualdad
Ho: = 0 ó 0 ó 0
71
Pasos en pruebas de hipótesis
1. Plantear las dos hipótesis estadísticas
2. Fijar el máximo riesgo que estamos dispuestos a admitir de rechazar la
hipótesis nula erróneamente (nivel de significación a; usualmente igual
a 0,05)
3. Obtener la muestra
4. Calcular el grado de concordancia entre los datos y la hipótesis nula
(valor p)
5. Comparar el valor p con el nivel de significación para decidir si se
rechaza o no Ho. Si p-valor es menor al nivel de significación (i.e. menor
a 0,05) se rechaza Ho y se acepta H1 (prueba significativa). Caso
contrario, no se rechaza Ho (prueba no significativa).
72
Veamos un ejemplo
¿El glifosato afecta el desarrollo embrionario de anuros?
1. Ho : 1,2 mm
H1 : < 1,2 mm
73
Cálculo del valor-p
Es la probabilidad, si Ho fuese verdadera, de obtener una muestra
aleatoria cuyos datos sean tanto o más discordantes con Ho como los
de la muestra obtenida
Ho : 1,2 mm
5,5
DISTRIBUCION DE MUESTRAS
valor − p = P ( x < 1) = ¿?
4,1 s
x = =
Densidad
2,8 n
1,4 x = 1mm
0,0
0,8 0,9 1,1 1,2 1,3 1,5 1,6
long promedio de 20 embriones
x
µx = 1,2 74
Ho : 1,2 mm
H1 : < 1,2 mm valor − p = P ( x < 1) =
Es una estandarización
DISTRIBUCION DE MUESTRAS
5,5
4,1
x =
s
=
0 ,3
x−µ
t n −1 =
Densidad
n 20
2,8
s n
1,4
0,0
GL=n-1=19
0,8 0,9 1,1 1,2 1,3 1,5 1,6
long promedio de 20 embriones
µx = 1,2
76
Otro caso
¿El lote de glifosato cumple con la especificación?
a = 0 ,05
77
Distribución muestral
Suponemos que la concentración promedio del glifo del lote es la deseada (Ho
verdadera) 48% P/V) = 48
Modelemos el comportamiento de las muestras de 10 alícuotas:
Distribución muestral
x = 48%
0,40
0,30
s
x =
Densidad
0,20
=
0,10
n 10 n
0,00
distribución t
42 45 48 51 54
promedio de 10 alícuotas x
78
¿el lote cumple con la
especificación?
Controlemos un lote
Al sacar las 10 alícuotas se obtienen los siguientes valores:
47,8 47,4 48,8 46,9 49,1 47,3 49,1 49,9 49,3 48,9
La concentración promedio de glifosato y el desvío estándar de la muestra son:
Función de densidad
T Student(9): p(evento)=0,1019
0,39
0,29
Densidad
0,19
0,10
0,00 79
-5,67 -2,83 0,00 2,83 5,67
t9
En Infostat Para la prueba de hipótesis:
Estadísticas>
Inferencia basada en una muestra >
Prueba t para una media
Variable: Glifo
80
Pruebas de hipótesis uni y bilaterales
El cálculo de p depende de la hipótesis alternativa
Unilateral Unilateral
izquierda derecha
H1: 0
Bilateral
81
Cálculo del p-valor
Como p-valor es > 0,05, no hay evidencias para rechazar Ho y se concluye que no hay
pruebas de que el lote no cumpla con la especificación. Por lo tanto, se acepta el lote.
pˆ −
z=
(1 − )
n
84
Observaciones
Las hipótesis no se plantean después de observar los datos, sino antes.
La hipótesis nula es conservadora, no especulativa; es la hipótesis del escéptico
a debe ser pequeña y es fijado por el investigador
La prueba de hipótesis se plantea de manera tal de controlar el error de tipo I
Rechazar una hipótesis nula no prueba que sea falsa. Podemos equivocarnos (error
tipo I)
No rechazar una hipótesis nula no prueba que sea cierta. Podemos equivocarnos
(error tipo II)
No rechazar Ho no implica que Ho sea verdadera
Si decidimos rechazar una hipótesis nula debemos informar la probabilidad de
equivocarnos.
Rechazar Ho refuta a la Ho. En cambio, no rechazarla no constituye evidencia a
favor de Ho
El valor-p no mide la probabilidad de que Ho sea verdadera, sino la probabilidad de
obtener un resultado muestral tan o más extremo que el obtenido, si Ho fuese
verdadera
85
Errores y decisiones correctas en PH
Realidad
H0 verdadera H0 falsa
No Error de tipo II
Decisión correcta
rechazo Probabilidad β
Ho Probabilidad 1-α
Decisión
basada
en la Rechazo Error de tipo I
muestra Decisión correcta
Ho Probabilidad α
Probabilidad 1-β
Acepto (nivel de
H1 (potencia)
significación)
86
87
Definiciones
a = P(error tipo I) = P(rechazar Ho / Ho es verdadera). Falso positivo. False
discovery
= P(error tipo II) = P(no rechazar Ho / Ho es falsa). Falso negativo
1- = Potencia = Poder o capacidad de la prueba estadística para detectar
diferencias cuando éstas realmente existen
88
Volviendo a los casos
❑ Error tipo I = rechazar Ho / Ho es verdadera = concluir que ………………………..
cuando en realidad …………………………………………………….
89
Volviendo a los casos
En el ensayo de control de calidad, cuando concluimos que no
existían evidencias de que el lote no cumpliese con la especificación
(p-valor = 0,69)
90
En resumen:
Si se rechaza Ho:
◼ la evidencia muestral contradice Ho ◼ En términos del problema, se concluye
◼ hay pruebas concluyentes contra Ho que hay evidencias significativas de
◼ la prueba es significativa que… (H1)
◼ Se puede estar cometiendo error tipo
I, cuya probabilidad a priori es a
Si no se rechaza Ho:
◼ la evidencia muestral no contradice
Ho (lo cual no prueba que sea ◼ En términos del problema, se concluye
verdadera) que NO hay evidencias significativas
◼ No hay evidencias contra Ho de que… (H1)
◼ La prueba no es concluyente
◼ Se puede estar cometiendo error tipo
II, cuya probabilidad es y
usualmente es desconocida 91
¿De qué depende la potencia de una
prueba?
De la magnitud del efecto que se desea detectar
Del tamaño de la muestra
De la variabilidad en la respuesta
Del nivel de significación
De si la prueba es uni o bilateral
92
Diseño experimental: cálculo del
tamaño muestral
PH para la media. Se requiere:
◼ a
(Z1−a + Z1− )
2
◼ potencia 1-
◼ Variabilidad de x
n=
◼ magnitud del efecto que se desea detectar (d) d
PH para la proporción. Se requiere:
◼ a
◼ potencia 1-
◼ magnitud del efecto que se desea detectar (d)
2
Z1−a 0 (1 − 0 ) + Z1− 1 (1 − 1 )
n=
d
93
Supuestos
Para que las conclusiones sean válidas, se deben verificar los supuestos de la
prueba:
Para PH para una media con desvío poblacional conocido:
◼ muestra aleatoria y observaciones independientes
◼ distribución normal o tamaño de muestra suficientemente grande
◼ desvío poblacional conocido
94
Bioestadística
Clases 4 y 5
Pruebas de hipótesis para dos
poblaciones
95
Pasos en una investigación
✓ Plantear hipótesis de investigación sobre una población
97
Artículo completo
Elementos de un experimento
diseñado
Unidad experimental o individuo: es la unidad del material experimental que
recibe un dado tratamiento experimental en forma aleatoria y de la cual se
obtiene una observación independiente
Variable respuesta o dependiente: es la respuesta del sistema que se va a
evaluar. Su comportamiento es aleatorio e interesa estudiar si depende de
otra/s variable/s llamadas explicatorias
Variable predictora o independiente: es la que define los grupos (o
tratamientos) que se desean comparar
Réplicas: cantidad de repeticiones independientes de cada tratamiento
98
99
100
Si se encuentran diferencias entre los Para cada variable, una
grupos, se habla de efecto prueba de hipótesis distinta 101
Experimento o estudio
observacional?
Unidad experimental o
unidad muestral?
Cantidad de muestras?
No hay aleatorización en la
asignación del grupo, pero sí
en la selección de los
individuos
Si se encuentran diferencias
entre los grupos, se habla de
asociación, no de efecto
102
Artículo completo
Comparando dos grupos independientes
La prueba a aplicar depende de:
Tipo de variable respuesta (cuali o cuantitativa)
Escala de medición de la variable respuesta (nominal, ordinal, de escala o de
razón)
Distribución de la variable respuesta (normal, binomial, etc)
Tipo de muestreo: Muestras dependientes (o apareadas) o independientes
Parámetros a comparar (medias, varianzas, medianas, proporciones)
103
Muestras independientes vs
dependientes
Muestras independientes
✓ Las respuestas de los individuos de un grupo no tienen ninguna relación con las
de los individuos del otro grupo (observaciones independientes)
✓ Por ej: se comparan varones con mujeres; tratados con no tratados
104
¿Existen diferencias entre hombres y mujeres
universitarios en el porcentaje de fumadores?
Individuo Grupo Fumador No n Proporción
Muestras independientes o fumador (prevalen-
dependientes? cia)
Variable respuesta Mujeres
Clasificación y escala de la VR
Variable explicatoria Varones
Parámetros a comparar
Estimadores
Prueba estadística
Verificación de los supuestos
de la prueba
105
Pruebas para comparar dos grupos
Muestras Escala de la Parámetros Prueba Supuestos
variable a comparar
respuesta
Cualitativa Proporciones Prueba Z para dos πn ≥ 5,
Independientes proporciones (1-π)n ≥ 5
nominal 𝜋1 𝑦 𝜋2
Cualitativa Prueba de Wilcoxon Distribuciones
Independientes ordinal o Medianas para muestras similares
más independientes
Cualitativa Prueba de Wilcoxon Distribuciones
Dependientes
ordinal o Medianas para muestras similares
más dependientes
Prueba t Distribución normal
Medias
Independientes Cuantitativa para muestras de la variable
𝜇1 𝑦 𝜇2 independientes en cada grupo
Prueba t Distribución normal
Medias para muestras de las
Dependientes Cuantitativa
𝜇1 𝑦 𝜇2 dependientes diferencias
entre grupos
Prueba F Distribución normal
Varianzas 106
Independientes Cuantitativa de la variable
σ21 𝑦σ22
en cada grupo
Infostat
107
Algunas fórmulas…
Prueba Z
𝜋1 𝑦 𝜋2 para dos
proporciones
Prueba t para
muestras
indepen-
dientes
Prueba t para
108
muestras
dependientes
Estadística parámetrica vs
no paramétrica
Estadística paramétrica
◼ la variable debe ajustar a cierta distribución de probabilidades (por ejemplo,
distribución normal)
◼ La distribución a la que ajusta la variable está caracterizada por parámetros (de
ahí el nombre de estas pruebas)
◼ Los datos deben estar al menos en escala de intervalos
◼ En general son más potentes que su equivalente no paramétrico
◼ Por ej: Prueba t para muestras independientes
Estadística no paramétrica
◼ No exigen que la variable siga cierta distribución de probabilidades. Se las
denomina por eso pruebas libres de distribución
◼ Los datos deben estar al menos en escala ordinal
◼ Por ej: Prueba de Wilcoxon
109
¿Cómo saber si una variable tiene
distribución normal? 1,18
QQ-plot
n= 18 r= 0,972 (RDUO_long)
Cuantiles observados(RDUO_long)
Métodos gráficos: 0,57
111
Prueba no paramétrica:
Prueba de rangos de Wilcoxon (Mann-Whitney)
◼ Ho: las 2 poblaciones no difieren en su tendencia central
Procedimiento
◼ Se ordenan todos los datos en una sola serie, de menor a mayor
◼ Se asignan rangos Rij o números de orden a cada observación; en caso de empate
se asigna el rango promedio de las observaciones empatadas
◼ Se calcula el rango Ri de cada grupo como la suma de los Rij
◼ El estadístico de prueba es:
ni ( ni + 1 )
mín U = n1n2 + − Ri
2
112
Informe técnico
Introducción y objetivos
Metodología:
◼ Descripción del ensayo
◼ Descripción del análisis estadístico efectuado
Resultados y conclusiones
◼ Relato de los resultados
◼ Tabla o gráfico
115
Resultados
Tablas y/o figuras
Se deben mostrar todos los resultados de las variables respuesta
primarias, no sólo los que dieron significativos o resultan interesantes
Complementan el texto, no lo duplican
Deben estar integradas al texto pero deben diseñarse para comprenderse
por separado
En el texto se referencian por su número (toda tabla o figura presentada
debe estar referenciada en el texto)
Convenientemente rotuladas
116
Algunos tips
Reportar las estimaciones seguidas por los IC
◼ El aumento fue de 10 unidades (IC95%: 7,5; 12,5 unidades)
Nunca reportar p-valores = 0 ni por debajo de la precisión de la PC
(i.e. p = 2,1.10-25), aunque el software lo indique así
117
Presentación de resultados
118
Tablas y figuras:
ckeck-list
Tablas
◼ Título
◼ Estadísticos para los dos grupos:
n
media y DE o EE
mediana y rango o RIQ
Cantidad de eventos y porcentaje
◼ Unidades de medida de las variables
◼ Significación
◼ Magnitud del efecto (IC para la
diferencia entre los dos grupos)119
2,85
Ganancia de peso
Tablas y figuras: ckeck-list 2,65
2,46
Figuras
2,26
◼ Título
◼ Estadísticos para los dos grupos:
2,07
media y DE o EE Control Alfalfa
mediana y rango o RIQ Dieta
0,75
0,00
Control Alfalfa
Dieta
Figura 1: Efecto de la
suplementación sobre la
ganancia de peso en cabritos
Bibliografía
Balzarini, M. G. et al. (2016). Estadística y biometría. Editorial
Brujas.Disponible aquí
121