0% encontró este documento útil (0 votos)
77 vistas121 páginas

Bioestadstica Parte 1

El documento describe factores genéticos que afectan la calidad de la carne de cerdo, en particular el Síndrome de Estrés Porcino (SEP). El SEP causa una carne pálida, blanda y exudativa debido a una mutación en el gen RYR1. El estudio analizó la frecuencia de los tres genotipos (CC, CT y TT) en 403 cerdos seleccionados al azar de un frigorífico, y su efecto sobre la calidad de la carne. Se midieron variables como genotipo, pH, peso y espes

Cargado por

Carlos Alvarez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
77 vistas121 páginas

Bioestadstica Parte 1

El documento describe factores genéticos que afectan la calidad de la carne de cerdo, en particular el Síndrome de Estrés Porcino (SEP). El SEP causa una carne pálida, blanda y exudativa debido a una mutación en el gen RYR1. El estudio analizó la frecuencia de los tres genotipos (CC, CT y TT) en 403 cerdos seleccionados al azar de un frigorífico, y su efecto sobre la calidad de la carne. Se midieron variables como genotipo, pH, peso y espes

Cargado por

Carlos Alvarez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 121

Bioestadística

1 Introducción

Prof. Adriana Pérez


[email protected]
Factores genéticos que afectan la
calidad de la carne de cerdo
Síndrome de Estrés Porcino (SEP)
 Mayor sensibilidad al estrés, incluso muerte súbita, por
ej. durante el transporte
 Después del sacrificio causa un deterioro en la calidad de
la carne dando lugar a una carne pálida, suave (blanda) y
exudativa (PSE)
 Graves perjuicios económicos

2
Síndrome de Estrés Porcino: causas
 mutación puntual en el gen RYR1: C1843T (Fujii et al, 1991)
 autosómica recesiva
◼ CC: Individuos sanos y no portadores
◼ CT: Individuos sanos y portadores
◼ TT: Individuos enfermos
 RYR1 codifica el canal de liberación de calcio (Ca+2) en el músculo
esquelético
 Los individuos enfermos presentan alteraciones en el metabolismo
de Ca+2 > contracción muscular aumentada > hipertrofia muscular,
alteraciones en la retención de agua, pH…
 Diagnóstico por PCR

3
Un problema de interés
 En 2016 se faenaron en el país 3,8M de cabezas
 El frigorífico de mayor volumen faenado es La Pompeya S.A.C.I.F. y
A., ubicado en Marcos Paz (Bs As) con 864.466 cabezas (22,6%)
 Se desea estudiar la frecuencia de los tres genotipos (CC, CT y TT)
en animales a ser faenados en este frigorífico y su efecto sobre la
calidad de la carne
◼ ¿Es esperable que los cerdos con el mismo genotipo posean exactamente la
misma calidad de carne?
◼ ¿Qué factores pueden generar variabilidad en la calidad?
◼ ¿Es necesario / posible estudiar TODOS los cerdos faenados en La Pompeya?
 Se seleccionaron al azar 403 individuos

4
Algunas definiciones
 Individuo, unidad de observación o experimental: es la menor
unidad de la cual se obtiene una observación independiente.
 Población es el conjunto de todos los individuos de interés
◼ Normalmente es demasiado grande para poder abarcarlo.
◼ A veces las poblaciones son “virtuales”, por ej en los experimentos
◼ El estudio de toda la población se denomina censo
◼ En un censo las posibilidades de errores se minimizan, pero efectuar un censo
es habitualmente muy costoso, no siempre es posible, no siempre es lo mejor
y en general es innecesario
 Muestra es un subconjunto de la población y es sobre el que
realmente hacemos las observaciones
5
Volviendo al ejemplo
 Individuo
 Población
 Tamaño de la población N =
 Muestra
 Tamaño de la muestra n =

6
Inferencia estadística
Consiste en generalizar los resultados extraídos de una muestra sobre la
población con un riesgo de error controlado

 La población ideal que se pretende estudiar se denomina población


objetivo, de referencia, de interés o universo.
 Pero la población que en realidad podemos estudiar, porque es el grupo del
cual extraeremos la muestra, puede no coincidir con la población objetivo.
En ese caso, las conclusiones se deben aplicar a la población de la cual se
extrajo la muestra (en forma aleatoria)

 Las formas de obtener datos son:


◼ por muestreo (estudios observacionales)
◼ mediante experimentos (estudios experimentales)

7
Incertidumbre
Es la característica más importante de los sistemas biológicos

Si tomamos dos
muestras de
individuos, aún
perteneciendo a la
misma población,
esperamos que sus
medias muestrales
difieran en cierta
medida

8
Muestreo aleatorio simple
 Se eligen al azar individuos de la población en estudio, de manera
que todos tengan la misma probabilidad de ser seleccionados,
hasta alcanzar el tamaño muestral deseado
 El azar es importante porque:
◼ Nos asegura representatividad de la muestra (sobre todo para
muestras grandes)
◼ Elimina sesgos (el diseño de un estudio está sesgado si favorece
sistemáticamente ciertos resultados
◼ Permite emplear la inferencia estadística para proyectar y
analizar los resultados

9
Experimentos
 Consiste en asignar tratamientos en forma aleatoria a las unidades
experimentales y medir una respuesta
 Al menos dos grupos:
◼ Un grupo recibe el procedimiento experimental (grupo experimental)
◼ el otro no recibe nada o recibe el placebo o el procedimiento estándar
(grupo control o testigo)
 El tratamiento control es fundamental para evaluar el efectos de los
tratamientos experimentales (¿qué ocurre en ausencia de la
manipulación experimental?)
 Las diferencias que se observen en la respuesta son asignables al
tratamiento aplicado y no a otro factor

¿En nuestro ejemplo? 10


Tipos de estudios según cómo se
recopilan los datos
Estudios observacionales o descriptivos: El proceso que se observa no está siendo
controlado. Los tratamientos no son asignados por el investigador. Observación
pasiva. El azar interviene en la selección de las unidades de observación. Confusión
de efectos. Asociación, no causalidad, no efecto
◼ Unidad de observación o individuo
◼ Tratamientos no asignados aleatoriamente

Estudios experimentales o manipulativos: El investigador asigna activamente y en


forma aleatoria un tratamiento a los individuos a fin de observar la respuesta. Hay
una intervención. Proveen fuerte evidencia sobre causalidad, es decir sobre el
efecto de los tratamientos
◼ Unidad experimental (UE) o individuo
◼ Tratamientos asignados aleatoriamente a las UE

11
Introducción y objetivos. evaluar si una
intervención domiciliaria reduce la
mortalidad y los reingresos hospitalarios
de pacientes con insuficiencia cardiaca y
mejora su calidad de vida. Métodos.
Ensayo clínico aleatorizado, realizado
desde enero de 2004 a octubre de 2006.
Se aleatorizó a 283 pacientes,
diagnosticados de insuficiencia cardiaca e
ingresados en el hospital, al grupo de
atención domiciliaria (grupo intervención)
o al grupo de atención habitual (grupo
control). Al año de seguimiento se
determinó: mortalidad por todas las
causas, reingresos hospitalarios debido al
empeoramiento de la insuficiencia
cardiaca y calidad de vida según escala
MLHF 12
Más definiciones
 Variable es la característica de interés que es medida en cada uno de
los individuos
 Observación o dato es el valor particular que toma la variable en cada
individuo

13
Genotipos RYR1
 En cada uno de los cerdos se determinó:
◼ Genotipo Individuo
1
Genotipo
CC
pH
5,81
2 CC 6,65
◼ Sexo 3 CC 5,69
4 CC 7,05
◼ pH de la canal 45 min post sacrificio 5 CC 5,62
6 CC 7,58
◼ Peso de la canal (kg) 7
8
CT
CT
4,96
6,35
◼ Espesor de grasa dorsal (mm) 9
10
CC
CC
5,96
6,22
11 CC 7,55
◼ Pérdida de agua (% V/P) 12 CC 5,87
13 CC 6,29
14 CT 7,23
15 CT 5,75
16 CT 6,6
17 CC 6,58
18 CC 5,67
19 CC 7,1
20 CT 4,68
14 etc
Tipos de variables
 Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se
pueden hacer operaciones algebraicas con ellos
◼ Nominales: si los valores no pueden ordenarse jerárquicamente
 tipo de cultivo, raza
◼ Ordinales: si los valores pueden ordenarse
 grado de infección

 Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)
◼ Discretas: Si toma valores enteros
 Cantidad de frutos por planta, Número de lesiones por cm2 de piel
◼ Continuas: Si entre dos valores, son posibles infinitos valores intermedios
 Peso, altura, superficie, concentración

15
Identificando variables
◼ Genotipo
◼ Sexo
◼ pH de la canal 45 min post sacrificio
◼ Peso de la canal (kg)
◼ Pérdida de agua (% V/P)
◼ Espesor de la grasa dorsal (mm)

▪ Las variables se suelen representar como X


▪ X = peso vivo
▪ Unidad de medida = kg
▪ No confundir Variable con Unidad de medida de la variable
16
¿Y una vez que tenemos los datos?
Procedemos a describirlos mediante gráficos
 Gráfico circular o de barras para variables cualitativas
 Gráfico de barras para variables cuantitativas discretas
 Histograma para variables cuantitativas
HISTOGRAMA
0,42
Otras
infraccione 40
Violar Luz s de 35

frecuencia relativa
Roja 0,32
transito
3% 30
% de plantas

13%
Conducir 25
utilizando 0,21
Celular /
20
Exceso de
Auriculares Velocidad 15
4% 0,11
Estac. lugar
50% 10
No uso prohib. 5
cinturon de 24%
seguridad 0 0,00
9 11 12 14 16 17 19
4% 1 2 3 4 5
Diámetro (µ) 17
Nro de rizomas
Gráfico de caja o Box plot
Dato atípico
 Para variables cuantitativas
 No se representan las frecuencias 20

 Permite detectar la forma de la


distribución 15
 Permite detectar datos atípicos
Q3

variable

RIQ
10
Med
Q1
5

RIQ: rango intercuartílico = Q3-Q1


 Ordenar los datos de menor a mayor Esperanza
Posición País de vida al
 Hallar mín, Q1, mediana, Q3 y máx nacer
 Hallar el rango intercuartílico (RIQ) = Q3 – Q1 1 Haití 62,1
RIQ = 4,25 2 Bolivia 67,0
3 Guatemala 71,3
 Calcular los límites inferior y superior como Q1- 4 El Salvador 72,3
1,5 RIQ y Q3+1,5 RIQ respectivamente 5 Paraguay 72,4
Q1 =72,55
LI = 66,175 LS=83,175 6 Nicaragua 72,7
Rep
 Las observaciones que caen por fuera se 7
Dominicana 72,7
consideran datos atípicos 8 Honduras 72,8
 Prolongar la línea hasta el LI o el mín y hasta el 9 Brasil 73,2
10 Colombia 73,8
LS o máx, el que esté más cerca de la caja M =73,9
11 Perú 74,0
I = 66,175 S=79,2 12 Venezuela 74,5
80 13 Ecuador 75,5
14 Argentina 76,0
Esperanza de vida

75 15 México 76,6
Q3 =76,8
16 Uruguay 77,0
70
17 Panamá 77,3
18 Chile 78,9
65
19 Costa Rica 79,1
60
20 Cuba 79,2
Datos atípicos o outliers
 Son datos muy distintos al resto
 Pueden aparecer por:
◼ error en el procedimiento (toma de datos, registro, ingreso a BD)
◼ Como consecuencia de un evento extraordinario
◼ Outlier multivariante: valores similares al resto para cada variable, pero con una
combinación atípica
◼ Indicativos de un segmento menor de la población o de un fenómeno novedoso
 Se detectan por métodos gráficos (gráfico de caja) o analíticos
(estandarización, pruebas estadísticas)

20
Infostat
 www.infostat.com.ar
 Desarrollado por la Facultad
de Ciencias Agrarias,
Universidad Nacional de
Córdoba
 Distribución libre
 Interface amigable en R

21
Frecuencia de genotipos RyR1
 Se determinó genotipo y pH de la canal a los 45 min post sacrificio
de 403 cerdos del frigorífico La Pompeya
Individuo Genotipo pH
1 CC 5,81
2 CC 6,65
 Para el ingreso de datos: 3 CC 5,69
4 CC 7,05
Si se cuenta con base de datos con extensión idb2: 5 CC 5,62
Archivo > Abrir 6 CC 7,58
7 CT 4,96
Para pegar desde Excel o Word: Archivo > Nueva tabla 8 CT 6,35
Copiar > Pegar incluyendo nombre de columnas 9 CC 5,96
10 CC 6,22
 Para tabla de frecuencias: 11 CC 7,55
12 CC 5,87
Una variable: Estadísticas > Tablas de frecuencias 13 CC 6,29
14 CT 7,23
Dos variables (tabla de doble entrada o de contingencia): 15 CT 5,75
Estadísticas > Datos categorizados > Tablas de 16 CT 6,6
contingencia 17 CC 6,58
18 CC 5,67
19 CC 7,1
22 20 CT 4,68
etc
Estadística descriptiva en Infostat
 Para el ingreso de datos:
Si se cuenta con base de datos con extensión idb2: Archivo
> Abrir
Para pegar desde Excel o Word: Archivo > Nueva tabla
Copiar > Pegar incluyendo nombre de columnas
 Para graficar:
Gráficos > Histograma > Particiones: Genotipo
Gráficos > Gráfico de caja > Particiones: Genotipo
Genotipo = CC
Genotipo = CC 8,00
0,27
7,30
frecuencia relativa

0,20
6,60

pH
0,13
5,90
0,07
5,20
23 0,00
4,474,865,255,656,046,436,827,227,618,00
4,50
pH
Forma de la distribución de la variable
 Simétrica: la distribución puede dividirse en dos partes
iguales alrededor de un valor central, y cada mitad es el
reflejo de la otra
 Asimétrica: una cola de la distribución está mas alargada
que la del otro lado
 Unimodal: la distribución tiene un único pico o máximo
relativo
 Bimodal: la distribución tiene dos picos. Esto generalmente
ocurre cuando se mezclan dos poblaciones

24
Un brevísimo resumen sobre
estadísticos
◼ Tendencia central
 Indican valores con respecto a los que los datos parecen agruparse.
◼ Media o promedio, mediana y moda
◼ Variabilidad
 Indican la mayor o menor concentración de los datos con respecto a las medidas
de tendencia central.
◼ Varianza, Desviación estándar, coeficiente de variación
◼ Posición
 Dividen un conjunto ordenado de datos en grupos con la misma cantidad de
individuos.
◼ Cuartiles, deciles, percentiles
◼ Proporción o porcentaje
◼ Indican la relación entre la cantidad de éxitos y el total de datos

25
Estadísticos
Para cálculo de estadísticos:
Estadísticas> Medidas resumen >
Variables: pH > Criterios de clasificación: Genotipo

26
Distribución normal o de Gauss
◼ Para variables continuas (aunque no todas
las variables continuas siguen una
distribución normal)
◼ Es una distribución TEÓRICA
◼ Simétrica
◼ Caracterizada por dos parámetros:
 la media μ localizada en el centro de la
distribución
 el desvío estándar σ que incide en el
ancho de la distribución
◼ Aparece de manera natural:
 Altura, peso
 Error de medición
 En procesos donde la variable es el
resultado de la suma de muchos efectos
pequeños simulación 27
Estandarización
 Para calcular el valor estandarizado o valor Z de una observación se le
debe restar el valor esperado de la variable y dividir por el desvío
estándar de la variable:
x−µ
z=

 El valor Z es el número de desvíos estándar  en que dicho valor se
aleja de la media 
 No tiene unidades
 Cuanto más grande sea el valor absoluto de Z, más lejos estará el valor
de la media (más inusual)
28
¿Cómo saber si una variable tiene distribución
normal?
Métodos gráficos
◼ Histograma: la variable se agrupa en intervalos y se representa la
frecuencia de cada uno (válido para n > 30)
◼ Q-Q plot: Consiste en un gráfico de dispersión de los cuantiles
observados vs los cuantiles esperados suponiendo distribución
normal. Si la distribución es normal, los datos deben quedar
distribuidos al azar alrededor de una recta con pendiente 1
0,27
QQ plot
0,043

Cuantiles observados
0,20
frecuencia relativa

0,036

0,14
0,029

0,07
0,022

0,016
0,00
0,016 0,022 0,029 0,036 0,043
29
0,01 0,02 0,02 0,02 0,03 0,03 0,04 0,04 0,04 0,05
X Cuantiles de una Normal
Desviaciones de la normalidad
0,182 0,34 6,999
0,57

Cuantiles observados
Cuantiles observados
0,129 0,25 5,606

frecuencia relativa
0,43
frecuencia relativa

0,075 0,17 4,213


0,28

2,821
0,14 0,021 0,08

0,00 1,428
-0,032 0,00
-0,01 0,02 0,04 0,06 0,08 0,11 0,13 0,15 0,17 0,20 1,428 2,821 4,213 5,606 6,999
-0,032 0,021 0,075 0,129 0,182 1,01 1,66 2,31 2,96 3,61 4,26 4,91 5,56 6,21 6,86
X Cuantiles de una Normal
Cuantiles de una Normal X

0,46 27,20 n= 60 r= 0,933 (Columna1)


Cuantiles observados(Columna1)
frecuencia relativa

0,34 21,03

0,23 14,86

0,11 8,69

0,00 2,52
5,96 9,17 12,39 15,61 18,82 22,04 25,25 2,52 8,69 14,86 21,03 27,20
X Cuantiles de una Normal(14,862,28,474)

30

Applied Regression Analysis, Josef Brüder


¿Cómo analizar un conjunto de datos?

• Representar los datos gráficamente


1

• Interpretar (forma, centro, dispersión, datos atípicos)


2

• Resumen numérico (media, mediana, desvío estándar, CV,


3 etc)

• Modelo estadístico (distribución normal por ejemplo)


4
31
Actividad
1. Determinar el porcentaje de individuos de cada genotipo
2. Determinar el porcentaje de individuos de cada sexo
3. Determinar el porcentaje de individuos de cada genotipo en
machos y en hembras
4. Analizar pH según genotipo en relación a forma de la distribución,
presencia de outliers, tendencia central, variabilidad, ajuste a
distribución normal
5. Estandarizar los valores de pH e interpretar la observación 1 y 4

32
Bioestadística
Clase 2
Estimación de parámetros

33
Estimación del pH medio
en cada genotipo CC
 Población
 Muestra
 Variable
 Parámetro
 Estimador
n=
Media =
DE =

34
Parámetros vs estimadores
▪ Parámetros:
▪ estadísticos calculados sobre toda la población
▪ No varían, a menos que varíe la población (constantes)
▪ Usualmente desconocidos

▪ Estimadores:
▪ estadísticos calculados sobre una muestra
▪ Usualmente es la única información con la que contamos
▪ Cambian con cada muestra, al azar (no son constantes sino variables
aleatorias)
▪ Se puede estudiar su distribución de probabilidades (distribución muestral)

35
Estimación de un parámetro
Estimación puntual: se calcula un valor simple a partir de una muestra
a fin de estimar el parámetro. No hay medida de cuán buena es la
estimación
▪ Si el promedio  de una población es desconocido, se lo estima
puntualmente mediante el promedio de una muestra
▪ Si el desvío estándar  de una población es desconocido, se lo estima
puntualmente mediante el desvío estándar de una muestra s
x
▪ Si la proporción de éxitos  de una población es desconocida, se la
estima puntualmente mediante la proporción de éxitos muestral p

Estimación por intervalos de confianza: rango de valores a dentro del


cual se asume se encuentra el parámetro con una cierta probabilidad o
confianza
36
Propiedades de un buen estimador
❑ Insesgado: Un estimador es insesgado cuando la esperanza del estimador
es igual al valor del parámetro que se desea estimar. O sea:

E( estimador ) = parámetro
 ( x − x )2
s2 = es un estimador insesgado de  2
n −1
 ( x − x )2
s2 = no lo es
n

❑ Consistente: A medida que el tamaño de la muestra aumenta el


estimador debe tender al valor del parámetro y su varianza debe tender a
cero
37
Propiedades de un buen estimador

38
Distribución muestral
Los estimadores se calculan sobre n valores muestrales, por lo tanto varían de
muestra en muestra y por lo tanto son variables aleatorias.
Las distribuciones de probabilidad de los estimadores se denominan
distribuciones muestrales.
Por lo tanto los estimadores, como toda variable aleatoria, se pueden
caracterizar por:
 su tendencia central: promedio o esperanza
 su variabilidad: desvío estándar (llamado error estándar)
 su distribución de probabilidades (normal, binomial, etc)

39
¿Por qué es importante la distribución
normal?
 La razón es que aunque una variable no posea distribución normal,
ciertos estadísticos/estimadores calculados sobre muestras elegidas al
azar sí poseen una distribución normal (Teorema central del límite)
 Por ejemplo: la media muestral, la diferencia de medias muestrales, los
errores en las predicciones de los modelos…
 Es decir, tengan las distribución que tengan nuestros datos, los ‘objetos’
que resumen la información (estimadores) de una muestra, posiblemente
tengan distribución normal (o asociada)
 La mayoría de las pruebas estadísticas se basan en estimadores con
distribución normal (Estadística paramétrica)
simulación

40
Teorema central del límite
Dada una v.a. cualquiera, si extraemos muestras de
tamaño n, y calculamos los promedios muestrales, entonces:

 dichos promedios tienen distribución aproximadamente normal;


 La media de los promedios muestrales es la misma que la de la variable
original.
 El desvío estándar de los promedios disminuye en un factor “raíz de n”
(error estándar).
 Las aproximaciones anteriores se hacen exactas cuando n tiende a
infinito.

◼ Este teorema justifica la importancia de la distribución normal.


◼ Sea lo que sea lo que midamos, cuando se promedie sobre una
muestra grande (n>30) nos va a aparecer de manera natural la
distribución normal.
simulación 41
Teorema central del límite
De cada distribución
poblacional se extrajeron
10000 muestras del
tamaño indicado, se
calculó la media y se
construyó la distribución
muestral

▪ La distribución de las medias muestrales de la mayoría de las distribuciones


seguirán una distribución aproximadamente normal
▪ El valor esperado o medio de las estimaciones será la media de la población
µ (estimación insesgada)
▪ La precisión en la estimación (medida con el error estándar EE) aumenta a
medida que aumenta n
42
Distribución muestral

Las distribuciones muestrales son indispensables para


poder hacer inferencia sobre la población

43
¿Cómo calcular un rango de valores
para µ?

x−µ
z=
 n
P( za 2 < Z < z1−a 2 ) = 1 − a
x −µ
P ( za 2 < < z1−a 2 ) = 1 − a
 n
P( za / 2  n < x −  < z1−a / 2  n) = 1−a

P( x + za 2  n < µ < x + z1−a 2  n) = 1−a 44

LI LS
Intervalo de confianza para µ

P( x + za 2  n < µ < x + z1−a 2  n) = 1−a


LI LS

Estimación por intervalo de confianza: se calculan dos números para crear un


rango de valores que se espera contenga al parámetro con una cierta
probabilidad o nivel de confianza
P( Límite inf < parámetro < Lím sup) = nivel de confianza(1 − a )
P ( LI < µ < LS ) = 1 − a
LI = x + za 2  n
LS = x + z1−a 2 
45
n
En el ejemplo:
¿Entre qué valores esperaría que se encuentre la media poblacional ?

Una vez construido el IC, ya no se habla de probabilidad sino de confianza

46
Amplitud
Amplitud ( A) = LS − LI

 Es el ancho del IC
 Determina la precisión de la estimación (cuanto más amplitud,
menor precisión, peor estimación)
 Sus unidades son las de la variable

47
Nivel de confianza
 es – a priori - la probabilidad de que el intervalo contenga al parámetro
 Se lo simboliza como 1- α
 Lo fija el investigador. Valores típicos de 1- α =0,90 ; 0,95; 0,99
 α es la probabilidad de error (no contener al parámetro) y se la denomina
también riesgo

Intervalos de confianza para la media


Cobertura: 95,00%
63
 Es el porcentaje de intervalos que se
62
espera contengan al parámetro (para ese
tamaño de muestra) 61

Media
60

59

58

57
0 25 50 75 48 100
Intervalos
¿Cómo hacer más precisa una
estimación? Nivel de za/2
Para disminuir la amplitud del IC confianza
(mayor precisión): 0.90 1.645
0.95 1.96
 Tamaño de la muestra 0.99 2.576
 Nivel de confianza
 Desvío estándar

P ( LI < µ < LS ) = 1 − a
LI = x + za 2  n
LS = x + z1−a 2  n
49
Supuestos
Para que las estimaciones sean confiables se debe cumplir:

◼ Muestreo aleatorio probabilístico


◼ La variable x debe tener distribución normal; en caso contrario, el
tamaño de la muestra debe ser lo suficientemente grande
◼ El desvío estándar poblacional  debe ser conocido

50
Estimación de un promedio con desvío
poblacional desconocido
❑ Es la situación más habitual
❑ Como se desconoce  se utiliza su estimador s →
mayor incertidumbre
❑ No es correcto utilizar la distribución normal para
❑ Se demuestra que la media muestral en estos casos ajusta a una
distribución conocida como t de Student, que posee mayor dispersión que
la normal estándar

x−µ x−µ
z= tGL =
 n s n

51
Distribución t de Student
❑ Tiene forma acampanada como la normal estándar, pero su dispersión es mayor
(es más aplanada). Esto se debe a que al desconocer  hay mayor incertidumbre
❑ Es simétrica con respecto al cero, es decir que µ=0
❑ No se trata de una única curva, sino de infinitas curvas, cada una caracterizada
por un parámetro denominado grados de libertad (GL)
❑ Los GL indican la cantidad de datos independientes, es decir el número de
observaciones de la variable menos el número de restricciones que verifican
❑ Los GL dependen del tamaño
de la muestra y en este caso valen n-1
❑ A medida que aumentan los GL
más se asemeja a la normal estándar
(porque s converge a )

52
Intervalo de confianza para µ cuando el desvío
poblacional  es desconocido
❑ Con  conocido

P( x + za 2  n < µ < x + z1−a 2  n) = 1−a


❑ Con  desconocido

P ( x + t n −1,a / 2 s n <  < x + t n −1,1−a / 2 s n) = 1−a


LI LS

P ( LI < µ < LS ) = 1 − a
LI = x + t n −1,a 2 s n
LS = x + t n −1,1−a 2 s n 53
Supuestos
Para que las estimaciones sean confiables se debe cumplir:

◼ Muestreo aleatorio probabilístico


◼ La variable x debe tener distribución normal; en caso contrario, el tamaño
de la muestra debe ser lo suficientemente grande

54
Estimaciones no paramétricas
 ¿Y si la distribución de la variable no es normal y el
tamaño de la muestra no es lo suficientemente grande
para aplicar TCL?
 No es correcto utilizar estas fórmulas, que se basan en la
distribución normal de la media muestral
 Puede utilizarse un intervalo de confianza no
paramétrico, es decir que no asume ninguna distribución
de probabilidades. Estimación por bootstrap

55
Estimación de una proporción
❑ Si de una población con cierta proporción de éxitos  se extraen
infinitas muestras aleatorias de tamaño n y a cada una de ellas se le
calcula la proporción muestral p, se demuestra que ésta se comporta
según una distribución normal siempre y cuando se cumplan las
condiciones de aproximación de la distribución binomial a la normal, es
decir: n > 30,  n  5 y (1-  )n  5

p −
z=
 (1 −  )
n
56
Intervalo de confianza para π
 Para µ con  conocido

P( x + za 2  n < µ < x + z1−a 2  n) = 1−a


❑ Para 

p (1 − p ) p (1 − p )
P ( p + za / 2 <  < p + z1−a / 2 ) = 1−a
n n
LI LS
P ( LI <  < LS ) = 1 − a
p (1 − p )
LI = p + za / 2
n
p (1 − p )
LI = p + z1−a / 2 57
n
Supuestos
Para que las estimaciones sean confiables se debe cumplir:

◼ Muestreo aleatorio probabilístico


◼ Para que sea válida la aproximación a la normal el tamaño de la
muestra debe ser lo suficientemente grande (n30), pn  5 y (1-p)n 
5

58
Cálculo del tamaño muestral:
 Para un promedio: Para una proporción:
2
 t ;1−a / 2 S  Z12−a /2 p (1 − p )
n =   n=
 A/ 2  ( A / 2) 2

 En el caso de la proporción, si se desconoce el valor de p, se utiliza p=1-p= 0,50.


Eso genera el máximo tamaño muestral para una dada amplitud y nivel de
confianza
 Recordar que p es una proporción. Por lo tanto, tanto p como A se expresan
como proporciones (no porcentajes)
 Los percentiles t y Z se obtienen de dichas distribuciones. En Infostat, en
Estadísticas > Probabilidades y cuantiles
 La amplitud del IC es proporcional a n  para reducir un IC a la mitad, se debe
cuadriplicar el tamaño de la muestra 59
Desvío estándar, error estándar y
error muestral
 (x )
❑ desvío estándar: Es un “promedio” de las distancias 2
de los datos a la media. Mide la dispersión de la −x
variable s= i

n −1
❑ error estándar: Mide la dispersión de las muestras
s
(dispersión del estimador). Da idea de la precisión en
la estimación del parámetro EE( X ) =
n
❑ error muestral: Mide en cuanto puede diferir como
máximo la muestra del parámetro con una cierta
probabilidad o nivel de confianza. Permite calcular los EM = tn −1EE( X )
intervalos de confianza (rango de valores que se
espera contengan al parámetro con una cierta X  tn −1EE( X )
confianza). Se conoce también como semi-amplitud
del IC (A/2)
60
Desvío estándar, error estándar y error
muestral
16 16 16

14 14 14

12
12 12

FUERZA (Media +- EE )
10
10 10

8
95% IC FUERZA

8 8

6
6 6

4
4 4 N= 15 15
N= 15 15 N= 15 15 Convencional TAC
Convencional TAC Convencional TAC
TRAT
TRAT TRAT

¿Qué pasará con las barras de error al aumentar el tamaño de la


muestra?
Ver Cumming et al. 2007. Error bars in experimental
61
biology. JCB 177: 7–11
Bioestadística
Clase 3
Pruebas de hipótesis para una
población

Adriana Pérez
Bioestadística
UADE
Vitamina E en dieta de cerdos
 En un criadero de cerdos la ganancia de peso diario de los animales
es de 100 g/día
 Se desea aumentar la ganancia de peso. Se cree que la
suplementación con vitamina E podría contribuir a ello
 Se decide hacer un ensayo con 30 animales alimentados con la
dieta habitual + suplementación con vitamina E
 ¿Cómo decidir a partir de los resultados si la suplementación fue
efectiva o no?
 ¿Podemos equivocarnos al concluir?

63
¿Qué es una prueba de hipótesis?
 Es un procedimiento de inferencia estadística para determinar la
validez de una aseveración o hipótesis planteada sobre una
población basándose en evidencia muestral
 La afirmación sobre la población se efectúa a nivel de sus
parámetros:
◼ Media
◼ Proporción
◼ Diferencia de medias, de proporciones…
 La prueba de hipótesis es un procedimiento de toma de
decisiones, relacionada principalmente con la elección de una
acción entre dos conjuntos posibles de valores del parámetro

64
Definiciones
Hipótesis de investigación: denotada por Hi expresa el objetivo del investigador.

Hipótesis estadísticas:
 La hipótesis nula, denotada por Ho, es el status quo o estado actual (lo que se
cree hasta el momento) o la que asegura que no hay diferencias en la
población. Es la hipótesis de no efecto.

 La hipótesis alternativa, denotada por H1, es lo opuesto a la hipótesis nula, el


cambio en la población que el investigador espera sea verdadero.

 Notas:
◼ Las hipótesis nula y alternativa se refieren ambas a la misma población
◼ Deben plantearse antes de obtener la muestra

65
Definiendo las Hipótesis
¿La incorporación de vitamina E a la dieta es efectiva?
Se desea determinar la efectividad de incorporar vitamina E a la dieta de
cerdos a fin de mejorar el aumento de peso, que actualmente es en
promedio de 100g/día.

◼Ho :
◼H1 :

Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:

◼Ho :
◼H1 :

66
Definiendo las Hipótesis
¿Control de calidad: el lote de glifosato cumple con la especificación?
El glifosato es un herbicida post-emergente de amplio espectro, no selectivo,
ampliamente utilizado en nuestro país
Se comercializa bajo la forma de sal de isopropilamina a una concentración de
48 mg/100 ml de la sal
Los lotes se controlan a fin de determinar si cumplen con la especificación,
para lo cual se toman 10 alícuotas de 1 ml cada una

◼Ho :
◼ H1 :

Usando parámetros:
◼Ho :
◼ H1 :
67
Definiendo las Hipótesis
¿El glifosato afecta el desarrollo embrionario de anuros?

 Los embriones de anfibios de la especie Xenopus laevis son un modelo tradicional


para el estudio del desarrollo embriológico. Tienen una longitud media de 1,2 mm

 Experimento: Se incubaron embriones por


inmersión en el herbicida comercial
conteniendo glifosato en diluciones
1/5000. La dilución corresponde a dosis de
glifosato entre 50 y 1540 veces inferior de
las usadas en el campo. Mayores dosis
matan los embriones

 A las tres semanas se estudiaron los


embriones a fin de detectar retardo en el
crecimiento y malformaciones

68
Definiendo las Hipótesis
¿El glifosato afecta el desarrollo embrionario de anuros?

◼Ho :
◼H1 :

Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:


◼Ho :
◼H1 :

69
Pasos en una Prueba de hipótesis:
1. Planteo de las hipótesis
1. Establecer la hipótesis nula en términos de igualdad

Ho:  = 0 ó   0 ó   0

2. Establecer la hipótesis alternativa, que puede hacerse de tres


maneras, dependiendo del interés del investigador

H1:   0 ó  < 0 ó  > 0

Prueba bilateral unilateral izq unilateral der

0 toma un valor específico en cada prueba de hipótesis 70


Rechazamos o no a la hipótesis nula?
 Se efectúa el muestreo y se contrastan los datos con la Ho
 Si no hay concordancia, la Ho se rechaza y se acepta la H1
 La medida de la concordancia es una probabilidad, denominada
valor-p
 Si el valor-p es bajo (menor a un valor fijado de antemano
denominado nivel de significación), la Ho se rechaza y se acepta H1,
ya que la concordancia es baja
 Caso contrario, no se rechaza Ho por el momento

71
Pasos en pruebas de hipótesis
1. Plantear las dos hipótesis estadísticas
2. Fijar el máximo riesgo que estamos dispuestos a admitir de rechazar la
hipótesis nula erróneamente (nivel de significación a; usualmente igual
a 0,05)
3. Obtener la muestra
4. Calcular el grado de concordancia entre los datos y la hipótesis nula
(valor p)
5. Comparar el valor p con el nivel de significación para decidir si se
rechaza o no Ho. Si p-valor es menor al nivel de significación (i.e. menor
a 0,05) se rechaza Ho y se acepta H1 (prueba significativa). Caso
contrario, no se rechaza Ho (prueba no significativa).

72
Veamos un ejemplo
¿El glifosato afecta el desarrollo embrionario de anuros?
1. Ho :   1,2 mm
H1 :  < 1,2 mm

2. Fijamos el nivel de significación en 5%


3. Obtenemos los datos: 20 embriones de X. laevis
fueron incubados por inmersión en el herbicida
comercial conteniendo glifosato en diluciones
1/5000. Al cabo de 3 semanas se midió la
longitud corporal de los 20 embriones:

73
Cálculo del valor-p
Es la probabilidad, si Ho fuese verdadera, de obtener una muestra
aleatoria cuyos datos sean tanto o más discordantes con Ho como los
de la muestra obtenida
Ho :   1,2 mm

5,5
DISTRIBUCION DE MUESTRAS
valor − p = P ( x < 1) = ¿?

4,1 s
x = =
Densidad

2,8 n
1,4 x = 1mm
0,0
0,8 0,9 1,1 1,2 1,3 1,5 1,6
long promedio de 20 embriones
x
µx = 1,2 74
Ho :   1,2 mm
H1 :  < 1,2 mm valor − p = P ( x < 1) =
Es una estandarización
DISTRIBUCION DE MUESTRAS
5,5

4,1
x =
s
=
0 ,3
x−µ
t n −1 =
Densidad

n 20
2,8
s n
1,4

0,0
GL=n-1=19
0,8 0,9 1,1 1,2 1,3 1,5 1,6
long promedio de 20 embriones

µx = 1,2

Como p-valor es < 0,05, se rechaza Ho y se concluye que existen evidencias


significativas de que la longitud promedio de los embriones desarrollados en
presencia de glifosato es menor a 1,2 mm

Pero ojo: como decidimos basándonos en una muestra y las muestras


son variables, no estamos 100% seguros de haber concluido 75
correctamente
¿De qué depende el valor p?
 Del tamaño de la muestra
 De la variabilidad en la respuesta
 De la magnitud del efecto observado

 Calcule el valor-p del ensayo anterior si:


◼ El ensayo se hubiese efectuado con 10 larvas
◼ Si el desvío estándar de la longitud corporal fuese el doble
◼ Si en el ensayo se hubiese obtenido una longitud promedio menor
◼ Si el nivel de significación fuese de 0,01

76
Otro caso
¿El lote de glifosato cumple con la especificación?

◼Ho:  = 48% P/V


◼H1:   48% P/V

◼ Los lotes se controlan a fin de determinar si cumplen con la especificación


tomando 10 alícuotas y midiendo la concentración de glifosato

◼Se fija el nivel de significación en 5% n = 10

a = 0 ,05

77
Distribución muestral
 Suponemos que la concentración promedio del glifo del lote es la deseada (Ho
verdadera) 48% P/V)  = 48
 Modelemos el comportamiento de las muestras de 10 alícuotas:

Distribución muestral

 x = 48%
0,40

0,30

  s
x =
Densidad

0,20
= 
0,10
n 10 n
0,00
distribución t
42 45 48 51 54
promedio de 10 alícuotas x
78
¿el lote cumple con la
especificación?
Controlemos un lote
 Al sacar las 10 alícuotas se obtienen los siguientes valores:
47,8 47,4 48,8 46,9 49,1 47,3 49,1 49,9 49,3 48,9
 La concentración promedio de glifosato y el desvío estándar de la muestra son:

 ¿Cuál es la probabilidad de obtener esa concentración o una aún más elevada si el


lote cumple con la especificación?

Función de densidad
T Student(9): p(evento)=0,1019
0,39

0,29
Densidad

0,19

0,10

0,00 79
-5,67 -2,83 0,00 2,83 5,67
t9
En Infostat Para la prueba de hipótesis:
Estadísticas>
Inferencia basada en una muestra >
Prueba t para una media
Variable: Glifo

80
Pruebas de hipótesis uni y bilaterales
El cálculo de p depende de la hipótesis alternativa

Unilateral Unilateral
izquierda derecha

H1:  < 0 H1:  > 0

H1:   0
Bilateral

81
Cálculo del p-valor

Como p-valor es > 0,05, no hay evidencias para rechazar Ho y se concluye que no hay
pruebas de que el lote no cumpla con la especificación. Por lo tanto, se acepta el lote.

Pero ojo: como decidimos basándonos en una


muestra y las muestras son variables, no
estamos 100% seguros de haber concluido 82
correctamente
Pasos en pruebas de hipótesis
1. Plantear las dos hipótesis estadísticas
2. Fijar el nivel de significación a
3. Generar los datos necesarios
4. Calcular el valor p con los datos muestrales
5. Comparar el valor p con el nivel de significación para decidir si se rechaza
o no Ho
Si el valor-p es ≤ α se rechaza Ho, Si el valor-p es > α no se rechaza Ho,
entonces: entonces:
• Hay evidencias contra H0, se • No hay evidencias contra H0, se
acepta H1 acepta Ho por el momento
•La prueba no es concluyente
•La prueba es concluyente •La prueba es no significativa
•La prueba es significativa
“Significativo” en estadística no quiere decir “importante”, sino quiere decir que “es poco
probable que ocurra sólo por azar”
83
¿Error tipo I? ¿Error tipo II?
Pruebas de hipótesis para una proporción
poblacional
 El parámetro es  (proporción poblacional)
 El estimador es la proporción muestral p
 La lógica es la misma, pero el valor p se calcula utilizando la
distribución muestral de p

pˆ − 
z=
 (1 −  )
n

84
Observaciones
 Las hipótesis no se plantean después de observar los datos, sino antes.
 La hipótesis nula es conservadora, no especulativa; es la hipótesis del escéptico
 a debe ser pequeña y es fijado por el investigador
 La prueba de hipótesis se plantea de manera tal de controlar el error de tipo I
 Rechazar una hipótesis nula no prueba que sea falsa. Podemos equivocarnos (error
tipo I)
 No rechazar una hipótesis nula no prueba que sea cierta. Podemos equivocarnos
(error tipo II)
 No rechazar Ho no implica que Ho sea verdadera
 Si decidimos rechazar una hipótesis nula debemos informar la probabilidad de
equivocarnos.
 Rechazar Ho refuta a la Ho. En cambio, no rechazarla no constituye evidencia a
favor de Ho
 El valor-p no mide la probabilidad de que Ho sea verdadera, sino la probabilidad de
obtener un resultado muestral tan o más extremo que el obtenido, si Ho fuese
verdadera
85
Errores y decisiones correctas en PH
Realidad
H0 verdadera H0 falsa

No Error de tipo II
Decisión correcta
rechazo Probabilidad β
Ho Probabilidad 1-α
Decisión
basada
en la Rechazo Error de tipo I
muestra Decisión correcta
Ho Probabilidad α
Probabilidad 1-β
Acepto (nivel de
H1 (potencia)
significación)

86
87
Definiciones
 a = P(error tipo I) = P(rechazar Ho / Ho es verdadera). Falso positivo. False
discovery
  = P(error tipo II) = P(no rechazar Ho / Ho es falsa). Falso negativo
 1- = Potencia = Poder o capacidad de la prueba estadística para detectar
diferencias cuando éstas realmente existen

 Idealmente, desearíamos que ambas probabilidades de error valgan cero


 Pero eso es imposible, a menos que efectuemos un censo
 Se elige controlar al menos al error tipo I, que es el más grave
 Como a es fijado a priori, es independiente del n. En cambio,  disminuye a
medida que aumenta n

88
Volviendo a los casos
❑ Error tipo I = rechazar Ho / Ho es verdadera = concluir que ………………………..
cuando en realidad …………………………………………………….

❑ Error tipo II = no rechazar Ho / Ho es falsa = concluir que ………………………..


cuando en realidad …………………………………………………….

¿Cuál de los dos pudimos cometer en este ensayo?

89
Volviendo a los casos
En el ensayo de control de calidad, cuando concluimos que no
existían evidencias de que el lote no cumpliese con la especificación
(p-valor = 0,69)

❑ Error tipo I = rechazar Ho / Ho es verdadera = concluir que el lote no cumple


con la especificación y reprocesarlo cuando en realidad sí cumplía

❑ Error tipo II = no rechazar Ho / Ho es falsa = concluir que el lote sí cumple con la


especificación y liberarlo a la venta cuando en realidad no cumplía

90
En resumen:
 Si se rechaza Ho:
◼ la evidencia muestral contradice Ho ◼ En términos del problema, se concluye
◼ hay pruebas concluyentes contra Ho que hay evidencias significativas de
◼ la prueba es significativa que… (H1)
◼ Se puede estar cometiendo error tipo
I, cuya probabilidad a priori es a

 Si no se rechaza Ho:
◼ la evidencia muestral no contradice
Ho (lo cual no prueba que sea ◼ En términos del problema, se concluye
verdadera) que NO hay evidencias significativas
◼ No hay evidencias contra Ho de que… (H1)
◼ La prueba no es concluyente
◼ Se puede estar cometiendo error tipo
II, cuya probabilidad es  y
usualmente es desconocida 91
¿De qué depende la potencia de una
prueba?
 De la magnitud del efecto que se desea detectar
 Del tamaño de la muestra
 De la variabilidad en la respuesta
 Del nivel de significación
 De si la prueba es uni o bilateral

simulación (Power of test)

92
Diseño experimental: cálculo del
tamaño muestral
 PH para la media. Se requiere:
◼ a
 (Z1−a + Z1−  ) 
2
◼ potencia 1- 
◼ Variabilidad de x
n= 
◼ magnitud del efecto que se desea detectar (d)  d 
 PH para la proporción. Se requiere:
◼ a
◼ potencia 1- 
◼ magnitud del efecto que se desea detectar (d)

2
 Z1−a  0 (1 −  0 ) + Z1−   1 (1 −  1 ) 
n= 
 d 
 
93
Supuestos
Para que las conclusiones sean válidas, se deben verificar los supuestos de la
prueba:
Para PH para una media con desvío poblacional conocido:
◼ muestra aleatoria y observaciones independientes
◼ distribución normal o tamaño de muestra suficientemente grande
◼ desvío poblacional conocido

Para PH para una media con desvío poblacional desconocido:


◼ muestra aleatoria y observaciones independientes
◼ distribución normal o tamaño de muestra suficientemente grande

Para PH para una proporción:


◼ muestra aleatoria y observaciones independientes
◼ tamaño de muestra suficientemente grande; pn>5 y (1-p)n>5

94
Bioestadística
Clases 4 y 5
Pruebas de hipótesis para dos
poblaciones

95
Pasos en una investigación
✓ Plantear hipótesis de investigación sobre una población

✓ Decidir cómo aplicar los tratamientos o cómo muestrear (diseño


experimental o diseño muestral)
✓ Cuántos y cuáles individuos pertenecerán al estudio (muestra)
✓ Cómo asignar los tratamientos
✓ Qué datos tomar de los mismos (variables)

✓ Tomar los datos (muestreo - experimento)

✓ Describir (resumir) los datos obtenidos


✓ Estadísticos, tablas de frecuencias, gráficos

✓ Efectuar inferencia sobre la población


✓ Prueba de hipótesis, intervalo de confianza, etc
Experimento o estudio observacional?
Unidad experimental o unidad muestral?
Cantidad de muestras?

97
Artículo completo
Elementos de un experimento
diseñado
 Unidad experimental o individuo: es la unidad del material experimental que
recibe un dado tratamiento experimental en forma aleatoria y de la cual se
obtiene una observación independiente
 Variable respuesta o dependiente: es la respuesta del sistema que se va a
evaluar. Su comportamiento es aleatorio e interesa estudiar si depende de
otra/s variable/s llamadas explicatorias
 Variable predictora o independiente: es la que define los grupos (o
tratamientos) que se desean comparar
 Réplicas: cantidad de repeticiones independientes de cada tratamiento

 El diseño experimental es el arreglo que determina la asignación de las unidades


experimentales a los tratamientos.

98
99
100
Si se encuentran diferencias entre los Para cada variable, una
grupos, se habla de efecto prueba de hipótesis distinta 101
Experimento o estudio
observacional?
Unidad experimental o
unidad muestral?
Cantidad de muestras?

No hay aleatorización en la
asignación del grupo, pero sí
en la selección de los
individuos
Si se encuentran diferencias
entre los grupos, se habla de
asociación, no de efecto
102
Artículo completo
Comparando dos grupos independientes
La prueba a aplicar depende de:
 Tipo de variable respuesta (cuali o cuantitativa)
 Escala de medición de la variable respuesta (nominal, ordinal, de escala o de
razón)
 Distribución de la variable respuesta (normal, binomial, etc)
 Tipo de muestreo: Muestras dependientes (o apareadas) o independientes
 Parámetros a comparar (medias, varianzas, medianas, proporciones)

103
Muestras independientes vs
dependientes
 Muestras independientes
✓ Las respuestas de los individuos de un grupo no tienen ninguna relación con las
de los individuos del otro grupo (observaciones independientes)
✓ Por ej: se comparan varones con mujeres; tratados con no tratados

 Muestras dependientes o apareadas


✓ A partir de cada unidad observacional o experimental se obtienen dos
observaciones. Las observaciones de cada par no son independientes entre sí
pero sí con respecto a otro par
✓ Por ej: se mide a cada paciente antes y después de efectuar una prueba

104
¿Existen diferencias entre hombres y mujeres
universitarios en el porcentaje de fumadores?
 Individuo Grupo Fumador No n Proporción
 Muestras independientes o fumador (prevalen-
dependientes? cia)
 Variable respuesta Mujeres
 Clasificación y escala de la VR
 Variable explicatoria Varones
 Parámetros a comparar
 Estimadores
 Prueba estadística
 Verificación de los supuestos
de la prueba

105
Pruebas para comparar dos grupos
Muestras Escala de la Parámetros Prueba Supuestos
variable a comparar
respuesta
Cualitativa Proporciones Prueba Z para dos πn ≥ 5,
Independientes proporciones (1-π)n ≥ 5
nominal 𝜋1 𝑦 𝜋2
Cualitativa Prueba de Wilcoxon Distribuciones
Independientes ordinal o Medianas para muestras similares
más independientes
Cualitativa Prueba de Wilcoxon Distribuciones
Dependientes
ordinal o Medianas para muestras similares
más dependientes
Prueba t Distribución normal
Medias
Independientes Cuantitativa para muestras de la variable
𝜇1 𝑦 𝜇2 independientes en cada grupo
Prueba t Distribución normal
Medias para muestras de las
Dependientes Cuantitativa
𝜇1 𝑦 𝜇2 dependientes diferencias
entre grupos
Prueba F Distribución normal
Varianzas 106
Independientes Cuantitativa de la variable
σ21 𝑦σ22
en cada grupo
Infostat

107
Algunas fórmulas…

Prueba Z
𝜋1 𝑦 𝜋2 para dos
proporciones

Prueba t para
muestras
indepen-
dientes

Prueba t para
108
muestras
dependientes
Estadística parámetrica vs
no paramétrica
 Estadística paramétrica
◼ la variable debe ajustar a cierta distribución de probabilidades (por ejemplo,
distribución normal)
◼ La distribución a la que ajusta la variable está caracterizada por parámetros (de
ahí el nombre de estas pruebas)
◼ Los datos deben estar al menos en escala de intervalos
◼ En general son más potentes que su equivalente no paramétrico
◼ Por ej: Prueba t para muestras independientes

 Estadística no paramétrica
◼ No exigen que la variable siga cierta distribución de probabilidades. Se las
denomina por eso pruebas libres de distribución
◼ Los datos deben estar al menos en escala ordinal
◼ Por ej: Prueba de Wilcoxon
109
¿Cómo saber si una variable tiene
distribución normal? 1,18
QQ-plot
n= 18 r= 0,972 (RDUO_long)

Cuantiles observados(RDUO_long)
 Métodos gráficos: 0,57

◼ Q-Q plot -0,03

 Métodos analíticos -0,64

◼ Prueba de Shapiro-Wilks -1,25


-1,25 -0,64 -0,03 0,57 1,18
Cuantiles de una Normal(5,3044E-016,0,41861)

Se trata de una prueba no paramétrica que en todos los casos se plantea


como:
Ho: la variable respuesta tiene distribución normal
H1: la variable respuesta no tiene distribución normal

Los cálculos son muy complejos, por lo que se resuelven mediante


software
110
Prueba no paramétrica:
Se utiliza cuando
◼ No se verifican los supuestos de la prueba paramétricas:
 La distribución de la variable no es normal

 La muestra no es grande (como para que sirva el TCL)

◼ La variable es de escala ordinal

◼ El procedimiento se basa en ordenar los datos y calcular rangos


◼ Para muestras independientes (Mann-Whitney/Wilcoxon)
◼ Para muestras dependientes (Wilcoxon)

111
Prueba no paramétrica:
Prueba de rangos de Wilcoxon (Mann-Whitney)
◼ Ho: las 2 poblaciones no difieren en su tendencia central

Procedimiento
◼ Se ordenan todos los datos en una sola serie, de menor a mayor
◼ Se asignan rangos Rij o números de orden a cada observación; en caso de empate
se asigna el rango promedio de las observaciones empatadas
◼ Se calcula el rango Ri de cada grupo como la suma de los Rij
◼ El estadístico de prueba es:

ni ( ni + 1 )
mín U = n1n2 + − Ri
2

112
Informe técnico
 Introducción y objetivos
 Metodología:
◼ Descripción del ensayo
◼ Descripción del análisis estadístico efectuado
 Resultados y conclusiones
◼ Relato de los resultados
◼ Tabla o gráfico

Guía para la publicación de métodos estadísticos y resultados:


Lang, T. A., & Altman, D. G. (2014). Statistical analyses and methods in the published
literature: The SAMPL guidelines. Guidelines for Reporting Health Research, 264-274.
Artículo completo
113
114
Metodología
¿Cómo describir el Análisis estadístico?
 Las variables continuas fueron expresadas como (media y DE / media y EE /
mediana y RIQ) y las categóricas como frecuencia y porcentaje.
 Las diferencias entre los (grupos) fueron analizadas mediante (test 1, test 2, lo
que fuese apropiado) para variables continuas y (test 1, test 2, lo que fuese
apropiado) para variables categóricas.
 Se consideraron significativas aquellas pruebas con p < (nivel de significación)
 Todos los análisis estadísticos fueron efectuados utilizando el programa
estadístico (Infostat, FCA, Universidad Nacional de Córdoba)

115
Resultados
Tablas y/o figuras
 Se deben mostrar todos los resultados de las variables respuesta
primarias, no sólo los que dieron significativos o resultan interesantes
 Complementan el texto, no lo duplican
 Deben estar integradas al texto pero deben diseñarse para comprenderse
por separado
 En el texto se referencian por su número (toda tabla o figura presentada
debe estar referenciada en el texto)
 Convenientemente rotuladas

116
Algunos tips
 Reportar las estimaciones seguidas por los IC
◼ El aumento fue de 10 unidades (IC95%: 7,5; 12,5 unidades)
 Nunca reportar p-valores = 0 ni por debajo de la precisión de la PC
(i.e. p = 2,1.10-25), aunque el software lo indique así

117
Presentación de resultados

118
Tablas y figuras:
ckeck-list

Tablas
◼ Título
◼ Estadísticos para los dos grupos:
 n
 media y DE o EE
 mediana y rango o RIQ
 Cantidad de eventos y porcentaje
◼ Unidades de medida de las variables
◼ Significación
◼ Magnitud del efecto (IC para la
diferencia entre los dos grupos)119
2,85

Ganancia de peso
Tablas y figuras: ckeck-list 2,65

2,46
 Figuras
2,26
◼ Título
◼ Estadísticos para los dos grupos:
2,07
 media y DE o EE Control Alfalfa
 mediana y rango o RIQ Dieta

◼ Unidades de medida de las variables 3,00 p=0,001


Ejes rotulados; eje Y inicio en 0

Ganancia de peso (KG)



2,25
◼ Significación
1,50

0,75

0,00
Control Alfalfa
Dieta
Figura 1: Efecto de la
suplementación sobre la
ganancia de peso en cabritos
Bibliografía
 Balzarini, M. G. et al. (2016). Estadística y biometría. Editorial
Brujas.Disponible aquí

121

También podría gustarte