Egmar Estadística+e+Informática+ (SPSS) +en+La+Investigación+Descriptiva+e+Inferencial+ +Juan+Antonio+Gil+Pascual
Egmar Estadística+e+Informática+ (SPSS) +en+La+Investigación+Descriptiva+e+Inferencial+ +Juan+Antonio+Gil+Pascual
www.uned.es/publicaciones
Índice
UNIDAD DIDÁCTICA 1
PROCEDIMIENTOS Y PREPARACIÓN DE LOS DATOS . . . . . . . . . . . .
. . . . . . . . . . 15
EJERCICIOS DE AUTOCOMPROBACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 75 SOLUCIÓN A LOS EJERCICIOS DE
AUTOCOMPROBACIÓN . . . . . . . . . . . . . . . . . . . 76
BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 83
UNIDAD DIDÁCTICA 2
ANÁLISIS DESCRIPTIVO DE DATOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 85
1. INTRODUCCIÓN A LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 87
3. REPRESENTACIONES GRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 99
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . 99
3.2. Caracteres cualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 99
3.3. Caracteres cuantitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . 102
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . 253
1.2. Hipótesis estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . 253
1.2.1. Hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
254
1.2.2. Hipótesis alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
254
1.3. Formulación de hipótesis. Hipótesis simple frente alternativa
simple . 255
1.3.1. Regiones críticas y de aceptación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
255
1.3.2. Error tipo I, error tipo II y potencia de una prueba . . . . . . . . . . . . . . 256
2. ANÁLISIS DE LA VARIANZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
UNIDAD DIDÁCTICA 1
PROCEDIMIENTOS Y PREPARACIÓN DE LOS
DATOS
Objetivos
Conocer los rudimentos operativos del paquete estadístico SPSS. Saber
manejar y transformar los datos con SPSS.
Operar adecuadamente con archivos de datos.
1. GENERALIDADES
1.1. Introducción
El SPSS-PC es un paquete estadístico de Análisis de datos. En sus
comienzos funcionaba sobre MS-DOS y en la actualidad trabaja en el
entorno Windows. Se utiliza como apoyo en la investigación en ciencias
sociales, económicas y de la salud. Contiene programas capaces de realizar
desde un simple análisis descriptivo hasta diferentes tipos de análisis
multivariante como: análisis discriminante, análisis de regresión, análisis
de cluster, análisis de varianza, series temporales, etc. Está formado por un
conjunto de módulos:
(ejecutar).
Proceso (Proceso 1) Ejecuta programas en Sax Basic sobre un objeto de
SPSS, por ejemplo una tabla pivote. Hay programas que contienen
procesos standard almacenados en el subdirectorio SPSS y con extensión
sbs.
En todas las ventanas del SPSS están disponibles unos menús, una
barra de herramientas, una barra de estado, y unos botones, algunos de los
cuales son comunes a todas las ventanas y otros específicos de cada una de
ellas. Las acciones que se pueden realizar con los iconos se irán
explicando a lo largo del manual. En cuanto a los menús, se comentarán
brevemente a continuación, y con más detalle a lo largo del manual.
1.2.1. Menús
Los menús más importantes del SPSSWIN son los siguientes:
Archivo Se utiliza para nuevo (datos, sintaxis, resultados, resultados
borrador,
proceso), abrir, abrir base de datos, leer datos de texto, cerrar, guardar,
A continuación se
explica la operación que se realiza cuando se pincha con el botón
izquierdo del ratón alguno de estos iconos:
En el campo Buscar
qué: se especifica la cadena de caracteres que se quiere localizar.
Para
Para fusionar los archivos con los mismos casos y distintas variables
tendremos: — Abrir uno de los archivos de datos.
— Elegir en el menú:
Datos.
Fundir archivos.
Añadir variables.
— Seleccionar el archivo de datos que se desee fundir con el fichero
anteriormente abierto.
— Se puede incluir alguna variable (+) del archivo de datos externo de
la lista de variables excluidas, para esto podemos cambiar el nombre,
pulsando la tecla correspondiente.
5.3. Agregar datos
Agregar datos permite crear un fichero de datos con el resumen o
UNIDAD DIDÁCTICA 2
ANÁLISIS DESCRIPTIVO DE DATOS
Objetivos
Describir el comportamiento de datos estadísticos con la ayuda de
tablas de frecuencias y gráficos.
Determinar los principales estadísticos de posición y dispersión.
Determinar los principales estadísticos de simetría y apuntamiento.
Realizar con soltura el proceso de exploración y filtrado de datos
estadísticos.
Describir el comportamiento de datos bivariados a partir de tabla de doble
entrada.
Determinar los estadísticos de correlación y regresión en datos bivariados.
Utilizar comandos SPSS para realizar los estudios exploratorio, descriptivo
y relacional de datos.
1. INTRODUCCIÓN A LA ESTADÍSTICA
1.1. Introducción
Cualquier análisis de datos suele iniciarse por una descripción de las
variables observadas. Esto suele incluir, principalmente, medidas de
tendencia central, variabilidad, asimetría y curtosis. Con estos análisis
iÂÂ Â= = =in
i= ==111
2.1.2. Distribución de frecuencias en el caso de variable discreta
Sea una variable discreta X que se estudia en una población P con n
individuos y que tiene como resultados posibles
x1, x2, .......,xk.
Las definiciones de distribución de frecuencia absoluta y relativa
para X son análogas a las dadas para atributos con sólo cambiar modalidad
por valor de la variable. Es evidente que estas también verifican las
igualdades:
kk
 Âi= =1
i= =11
Además en este caso se van a poder definir dos nuevos tipos de
distribuciones de frecuencias:
— Frecuencia absoluta acumulada es un valor de la variable, xi: es
el número de individuos de la población que presenta un valor de la
variable menor o igual que xi; lo denotaremos por Ni. Si suponemos a los
x1,x2,......,xk ordenados de menor a mayor, entonces es claro que,
i
N=n= +++ 2nniÂi1
r=1
Âiii i i Â
i=1 i=1 i=1 i=1
y conocida c, podemos calcular las frecuencias relativas con la expresión:
f
has
i
ii i ==cc
— Diagrama integral o función de distribución (utiliza las
frecuencias acumuladas).Como hemos dicho anteriormente, encontrar el
Â
Â
nx
iiii= = = =i=1
n nx ni=1 i=1 i=1
y esta es la fórmula que intuitivamente encontrábamos adecuada.
En la definición anterior hemos hablado de valores de la variable y sus
frecuencias relativas. No olvidemos que también son variables estadísticas
las variables continuas, ¿cómo entender para ellas la expresión de la
media? La respuesta es simple, en lugar de utilizar valores de la variable,
utilizaremos las marcas de clase. Como frecuencia relativa para cada
marca de clase, utilizaremos la frecuencia relativa de la clase a la que
pertenece.
Ej: Con los datos de la tabla 2.2.3 del lanzamiento de un dado 20
veces, la media sería
35543
fx X()= 0
ii
i=1
ii) Si definimos la desviación de la variable X a un número real «a» como
el resultado de la operación
k 2Âfx a
ii ()
i=1
–
esta desviación alcanza su mínimo cuando hacemos a = X.
iii) Si dada la variable X, le aplicamos una transformación lineal para
pasar a una variable Y, es decir, Y=(a+X)/b, la media de la variable Y
resulta ser
_
_ Y aX= b
Esta tercera propiedad nos permite calcular la media de una variable
directamente, o bien a través de la media aritmética de cualquier
transformación lineal de la variable inicial. Este hecho resulta
_ Âf d A() Â = + = +ÂfdX
ii = + i i ii
iii
2) En el caso que di = c · ui entonces cui = xi – A; xi = cui + A
X=
Â
f cu+() c f u A= +=+Â Âf u
ii ii ii i i i
Ej: Dada la tabla siguiente, perteneciente a la talla de 20 alumnos, vamos a
efectuar las transformaciones expresadas anteriormente:
X xi di fi difi ui uifi [1 1,25] 1,125 -0,25 1/20 -0,0125 -1 -1/20 (1,25
1,50] 1,375 0 2/20 0 0 0 (1,50 1,75] 1,625 0,25 17/20 0,2125 1 17/20
De forma directa la media será: X–=1/20 (1,125 + 2.1,375 + 17.1,625)
= 1,575 Siendo en este caso A = 1,375 y c = 0,25
–
Con lo cual X = 1,375 + (0,2125 – 0,0125) = 1,575
–
X = 1,375 + 0,25.0,8 = 1,575
iv) — Unicidad. Para un conjunto de datos, existe una sola media.
— Puesto que cada dato de la muestra entra en su cálculo, su valor está
afectado por todos los datos. Así, los valores extremos (mínimo y
máximo) de la muestra pueden alterar gravemente el valor de la media si
X
= ◊◊ = =
13/// /13 2 4 8644
–
— La media armónica, que notaremos por XH se definirá como:
X
H
n n 1= ==
nkk
ÂÂÂ
f /x ii i=11 1
Ej.: la media armónica de los números 2, 4 y 8 es: 1 3
XH = 1 1 1 1 1 1= 1 1 1= 343
3
23434
◊+ ◊ + ◊8 2+ +8
–
— La media cuadrática, que notaremos por XC se define por:
n11k k
X
2
Ci
ÂÂÂ
2 f x2 ii n i= = =1
ei–i()
Ni+1
Ni–
Ni
1
k
li–2 li–1 Me li li+1 xi
Tenemos li – li–1 = ai
Me –li–1 = k luego Me = li–1 + k
Planteamos la siguiente proporción:
n-N
i-1k = 2
ai ni
ˆ
Á
ii
luego k=Ë2 ¯ entonces finalmente:
aÊn N-l˜n -Ni-1 aini il= + 2 ◊eMl
- ni
donde:
li–1: es el extremo inferior de la clase mediana.
ai: es la amplitud de la clase mediana.
ni+1
ni
ni–1
k
li–
Xfx= ◊i iÂ
i=1–
se trata de medir como de lejos están los valores xi de X.
— Desviación media absoluta a la media: Para conseguir el objetivo
anterior, parece que lo más fácil es sumar las diferencias entre xi y la
media. Esto nos podría conducir a un absurdo pues, aunque estas
diferencias sean muy grandes, se podrían compensar al tener signo
opuesto. Así llegaríamos a la conclusión de que no existe dispersión aún
cuando ningún xi coincida con la media. La definición de desviación
media absoluta viene a evitarlo tomando valores absolutos. La expresión
que la define es:
k
D.M.= ◊XÂii
i=1
Por ejemplo:
Sea x: 1, 2, 3, 7, 8, 9
xi 1 2 3 7 8 9
–
|x– X | 4 3 2 2 3 4 18
–
D.M. = fi|xi– X|= 18/6 = 3
ii -()
S2 = i=1 x k1
-
La razón principal para introducir la varianza modificada es la
siguiente: se ha observado que cuando se utilizan los estadísticos para
sacar conclusiones sobre la población de la que proviene la muestra, la
media de ésta es una buena estimación de la media de la población, sin
embargo, la varianza muestral calculada como en [4] no da una buena
Âyii i i x() Â () =
Á ii˜
ii ¯
V V fd2 ÊÂfd ˜ xd i iÂ= = ◊ - ◊
ˆ2
Á
Á ii˜ i Ë i ¯
si el cambio es de la forma xi = A + c.ui
È ÊÂ
= ◊ ◊ - ◊fu ˜ ˙x
22 Á
Í
Í
Â
ˆ2˘
V c fuii Á ii˜ ˙ Î i Ë i ¯ ˚
Veamos un ejemplo de cálculo de la varianza para datos agrupados. Sean
los pesos de 100 estudiantes dados por la siguiente distribución:
Peso ni xi di = xi – A dini di2ni 60-62 5 61 -6 -30 180
63-65 18 64 -3 -54 162 66-68 42 67 0 0 0
69-71 27 70 3 81 243
72-74 8 73 6 48 288 100 45 873
Vx = 873/100 – (45/100)2 = 8,52; sx = 2,92
Si utilizamos la fórmula para amplitud constante tenemos:
Peso ni xi ui uini ui2ni 60-62 5 61 -2 -10 20
63-65 18 64 -1 -18 18 66-68 42 67 0 0 0
69-71 27 70 1 27 27
72-74 8 73 2 16 32 100 15 97
= ◊ii eÂ
i=1
1 –1,29
2 –0,97
3 –0,64
7 0,64
8 0,97
9 1,29
Podemos comprobar que
–
X ±sx = 5 ± 3,1 están el 67% de los casos.
6. MEDIDAS DE FORMA
Una vez estudiadas la tendencia central de la población y en qué
medida es ésta fiable, nos disponemos a estudiar de qué forma se reparte
esta dispersión entorno al promedio.
6.1. Medidas de simetría
Una inspección somera de los histogramas dibujados más abajo (ver
fig. 2.6.1) permite apreciar diferentes situaciones de simetría(o asimetría)
respecto de la recta vertical que pasa por la media. Los tres histogramas
poseen la misma media
–
Xª 0 y el mismo tamaño n = 95.
()3
k 3donde m3 es el momento centrado de orden 3, es decir, m3 = ◊Âfx–X
i ()
i=1
Su interpretación es la siguiente:
— Es nulo para todo el histograma simétrico respecto de la media.
— Es positivo para los histogramas cuya cola derecha (rectángulos
situados a la derecha de la media) es más larga que la cola izquierda:
asimetría positiva. — Es negativo para los histogramas cuya cola izquierda
es más alarga que su cola derecha: asimetría negativa.
1. El coeficiente de asimetría es adimensional e invariante por cambios
de escala en los datos.
2. Igualmente es invariante por desplazamiento del histograma a derecha o
izquierda.
3. Las condiciones 1 y 2 son aplicables al coeficiente de apuntamiento.
Los coeficientes de asimetría para los tres gráficos de la fig. 2.6.1 son,
respectivamente: g1=0 g1=0,81 y g1=- 1,45.
6.2. Medidas de apuntamiento
Los histogramas más simétricos (o aproximadamente simétricos) pueden
presentar una de las formas que aparecen en fig. 2.6.2.
i ()
m
r
=
i=1
n
Observemos que: m1 = 0
m2 = s2
g1 = m3/s3
g2 = (m4/s 4) – 3
Las siguientes relaciones entre los momentos m1,m2,m3,m4 y
m1,m2,m3,m4 son de utilidad en el cálculo de los coeficientes de g1 y g2,
a) m2 = m2 – m12
b) m3 = m3 – 3m2m1 + 2m13
c) m4 = m4 – 4m3m1 + 6m2m12 – 3m13
El momento de orden (r,s) respecto al origen de un variable
bidimensional (x,y) toma la expresión:
m
rs
=
1
hk
Â
Â
r
s
xyn
n
i j ij i=1 j=1
Cuando se trata de estudiar dos variables (x,y) los primeros momentos con
relación al origen toman la expresión y son:
xy ()[]2S xx
x
En esta ecuación b, la pendiente de la recta, será:
S
b
==
xy Covarianza / Varianza de x S
2
x
a, la ordenada en el origen, valdrá:
a = y – bx
Si x es la variable dependiente entonces la ecuación anterior y las normales
resultan de forma parecida, solamente debemos cambiar la x por la y.
Se =()2S yy []N
R [] y como 1=e R e
S
2
S
2
yyyy
o de otra forma
– []
ey
Â
Â
xy n
ij ij
30 96 225 400 720 896 144 648=++ + + + + + ◊=4,99 5,82 2,55xy N –– 100
S= i j
luego b255 0,50= =
509
a = 5,82 – 0,5 (4,99) = 3,33
en consecuencia la recta de regresión será:
FP-I
220
o3
200
ab Gráficamente se ve que A tiene una mediana mayor que B, y sólo un
valor atípico, mientras B tiene dos.
Se concluye que el método A da mejores resultados porque aprenden más
palabras y tienen menor coeficiente de variación.
El fichero de sintaxis es:
EXAMINE
VARIABLES=a b
/PLOT BOXPLOT
/COMPARE VARIABLES
/PERCENTILES(25,50,75) HAVERAGE
/STATISTICS DESCRIPTIVES EXTREME
/CINTERVAL 95
/MISSING PAIRWISE
/NOTOTAL.
5. Para el cálculo de los estadísticos se plantea la siguiente tabla: a)
Los estadísticos pedidos son:
ESTADÍSTICOS DESCRIPTIVOS
Media Desviación típica N x 6,630 1,6846 10
y 6,430 2,1649 10
CORRELACIONES
x y Correlación de Pearson 1 ,895(**) Sig. (bilateral) ,000
x
Suma de cuadrados y produc
tos cruzados 25,541 29,371
Covarianza 2,838 3,263 N 10 10
Correlación de Pearson ,895(**) 1 Sig. (bilateral) ,000
y
Suma de cuadrados y produc
UNIDAD DIDÁCTICA 3
Donde:
N 2Ây –()
i
s
2es la varianza poblacional =i=1
N
Como en la mayoría de los casos se desconoce s 2, pero se sabe que el
estimador insesgado de la cuasi-varianza poblacional de la media es la
cuasi-varianza muestral de la media. Es decir, se cumple:
E(s2) = S2
Donde: n
nn
2 22Â Â iyny
ykVy ()
donde k: factor de desviación y le corresponde, en general, una
ˆ()=s2
n
Estimador del total poblacional
Si se denota por Y al total poblacional de la característica y. Un estimador
de Y será:
ˆ =YNy
En el ejemplo 3.1.1:
Y
ˆ
49
=◊
100 10 = 490 ejercicios terminados La varianza será:
ˆˆ()=()=2 ()
= ()=
n ËÁN ¯˜= () ()
nNN n nNf
Su intervalo de confianza será: ˆˆˆ
=1 = 1 () Vy = 1 () yk Vy
n nn
s2
Total
ˆYNy VY N V y =( ˆ)() VY = ˆ( ˆ)() ± ˆˆ( ˆ)
nNf
22 + 100
Total poblacional
Para estimar, con el total poblacional, el tamaño de muestra adecuado es:
ˆ()VNy NV y2 ˆ() por tanto
s
22n Ns22
NN n
()
e
- =fi=
n k2 e2 2
k2 +Ns
En el cálculo del tamaño muestral, en este caso, no tiene sentido hablar de
población infinita.
Proporción
En el cálculo de p= a , sabemos que V(p) =Nn- PQ , por tanton N -1 n
N PQNn PQ e2
N -1
N
- = fi=
n
k
22
e 1 PQ +1
k2
Si la población es infinita o el muestreo es con reemplazamiento el tamaño
muestral será el límite de la expresión anterior cuando N tiende a infinito.
PQ 2kPQ nn = = =
• 2 e2e
k2
Cuando no conocemos PQ pero si se sabe el máximo valor que puede
tomar
Â
j=1
Vy Nn
- s2
jj j
j
=Como , sustituyendo: Nj nj
L WNn- s2
Vy
st  Âj Nj njj= =1
160 16 72 12 98 49ww w
12 3= = = = = = 330 33 330 55 330 165
16 12 49
yst= + + =33 34 55 25 2.., ., ,27 477 165 18 5
Vy
st
=Ê
ËÁ ˆ
22 2
ˆ() ,, ,
+Ê
ËÁ ˆ
72 10+ÊËÁ
ˆ 86 8 165
¯˜
98
12 = 1 8318 160 18
Total poblacional
LL
ˆ
st st= = =Âj j Âj j
j=1 j=1
La estimación de la varianza de Yˆst será:
Â
p
ˆ 1 (ˆˆ ˆ ) ˆˆ 2= + + + = + + + =.........ˆˆLLjjst N Np N p11 2 2 N pL L N 1 N 2 Npwp
j=1
ˆ
El estimador de la varianza de pst será:
Vpstˆ( ˆ)[
LLˆˆ
jj jj
N NV p NV pj
1 2ˆ( ˆ ) 2 ˆ( ˆ ) wV p 22 2wNn- pq
2 L ˆ( ˆ )]L Â
NV p = +++ = =
j Âj N j nj -1j=1 j=1
El intervalo de confianza será:
ˆst ±pkVpˆ( ˆst )
En el ejemplo 3.1.2 supongamos que se sabe que el número de hogares
donde se lee algún libre de aventuras se distribuye en los estratos de la
siguiente manera:
N 98 12-13
En consecuencia
Vp
st
=Ê
ËÁ ˆ
22 2
ˆ( ˆ)., ., .,+ÊËÁ ˆ +ÊËÁ49 ˆ 0 019944= 0,005876165¯˜
1.5.2. Cálculo del tamaño muestral para la estimación de la media total y
proporción poblacional
Media
LWS22
2 1 LeÂ
+
N WS
2
k
2 jj
j=1
Total
LNS22
Â
jj
wjn=j=1
2 Le +ÂNS2
k
2 jj j=1
Proporción
L N PQ
j jjÂW2
j N -1 w
j jn= j=1
2 1 L N2e Âj PQ
+
N
j
-
1
jj22
kNj=1
n
j
es la cuasivarianza poblacional. Recordar que
S
2
=
N j - 1 jjj =
Nj PQ donde y S jn
1.5.3. Afijación Se denomina afijación al reparto del tamaño muestral n
ncj nj =L 1ÂNSjj
jcj=1
o también 1
n
()0 cc WSjj cj nj = L
Â
WS c
jj j
j=1
NnL Nn L =11
ÂÂ
j
=N jjNS2 N
n
j j 1n j 1= =
=
1 1000-100
1000
2
 ÂÂNjj 1 j nj n
= ==j j 1
nn NSjj
j
=
como entonces L
ÂNSjj
j=1
Ê L ˆ2
ÁÁÂWSjj˜˜L 2 1
Vy
ˆ()= Ëj=1 ¯ 110
2
st nN WSÂ - 1000 278= 0,722jj 100j=1
Por tanto el error de muestreo Vyst =ˆ() ,0 722 = 0,8497 . Como se puede
apreciar se consigue menor error muestral con la afijación optima.
1.6. Muestreo por conglomerados
Un conglomerado es una colección de elementos que tiene una
configuración parecida a la población de que procede.
Cada conglomerado es un grupo natural constituyente de la población, así
0
FIGURA 3.2.2. Funciones de densidad y de distribución de una N(0,1).
Aproximación a la distribución Normal N(0,1) de algunas
distribuciones discretas.
Veamos el esquema siguiente:
n grande np>10 N(0,1)
l>20 l grande
Binomial (n,p) Poissón l n grande p<0,1; np=l<5
Si la distribución Binomial se aproxima a la de Poisson entonces l=np y si
la aproximación es hacia la distribución Normal entonces z= x-np
generando una N(0,1).npq
En el caso de la distribución de Poisson z= x lserá una N(0,1).l
2dt sp-•
Propiedades de la función de densidad
— Es simétrica respecto al eje que pasa por la abscisa x= m, o de otra
forma, la media, mediana y moda coinciden.
— Es asintótica al eje de abscisas.
— Posee un máximo en x=m, de valor 1 .sp
— Existen puntos de inflexión, a distancia s del eje de simetría. — El área
encerrada es igual a la unidad.
Parámetros de la distribución Normal (N( m, s)) a) Media: m
b) Varianza: V(X)=s2
c) Desviación estándar: s
Manejo de tablas de la distribución N(0,1)
La obtención de probabilidades de sucesos relacionados con la variable
3. Distribución F de Fisher-Snedecor
Consideremos m+n variables aleatorias N(0,s) e independientes y1 y2 ........
ym y z1 z2 .... zn, la variable
2 2y + y + .......+ y2
12m
F(m,n) =
m
2+ z2+ ......+ z2z1 2 n
n
sigue la distribución F de Fisher-Snedecor con m y n grados de
libertad.
f (x)
F (n)
FIGURA 3.2.5. Función de densidad de la distribución F de Fisher-
Snedecor.
Las principales características de esta función son las siguientes: no
depende de la varianza de las variables integrantes, no es simétrica y su
campo de variación, como producto de cuadrados, es el intervalo [0,•).
Veamos que no depende de s. Por la definición de normal podemos
1nn2
3. Si las poblaciones son normales y n1 ≥30 y n2 ≥30 o siendo
aproximadamente normales es n1 ≥100 y n2 ≥100, 2 es válida
aproximadamente. Caso 2:
1. varianzas desconocidas y n1 ≥30 y n2 ≥30.
1111
+
()
ˆ2 ns n sˆ2
+()22
nn nn–212 12
3. Se utiliza preferentemente en muestras pequeñas (n1£30, n2£30).
Si las poblaciones son aproximadamente normales y n1 ≥30 y n2 ≥30, 2
es aproximadamente N(0,1). Si las poblaciones no son aproximadamente
normales pero n1 ≥ 100 y n2 ≥100, 2 es aproximadamente N(0,1).
Caso 4:
1. varianzas desconocidas no necesariamente iguales.
∂logL =1 Â ()= 0
∂m s2
i
que despejando m tenemos:
ˆm= =1Ân xx
i
2.4. Estimadores por intervalos de confianza para parámetros de la
población
Antes de comentar las expresiones de los estimadores de distintos
parámetros poblacionales conviene que veamos algunos términos
utilizados posteriormente.
Intervalo de confianza, nivel de confianza y error
Sea x1,x2,.....,xn una muestra aleatoria simple de una v.a. X cuya
distribución depende de un parámetro q (y posiblemente de otros
parámetros). Se dice que los estadísticos
U=g1(x1,x2,.....,xn) V=g2(x1,x2,.....,xn)
constituyen un intervalo de confianza para qqa, o al 100(1-a)%, si se
verifica:
1. U<V para toda muestra de tamaño n
2. P(U<qqa
para todos los valores de los demás parámetros.
Entonces (U,V) constituyen un intervalo de confianza para q con nivel
ÁÁ- ˜˜
Ë c c/;() /;() ¯
Ejemplo 1
En una muestra de 20 personas de una ciudad, se sabe que la altura
tiene una media de 170 cm y una desviación típica de 10 cm. Se quiere
saber a un nivel de confianza del 95% el intervalo de confianza de la
varianza poblacional. Resolver el mismo supuesto cuando n=200.
22 220
= = = =; ˆ.,105 26
19 100
2 = 2 = 32 85
(/ );( ) n-c c
21 0,025;19
2 = 2 =890( – /);( ) n-c
c 0,975;19
Luego el intervalo de confianza para la varianza será:
Ê19.105,26;.,19 105 26ˆ
= (60,88; 224,71)0I=ËÁ 32,85 890 ¯˜
y para la desviación típica: (7,80;14,99).
Si el tamaño de la muestra es n=200 entonces se aproximará: 22
()xx z nn1± + 2
12
()ˆ2 +()ˆ2
()
xx t nn
±+
1111
11 22 donde t
a/2 es una t denn –212 12
Student con (n1+n2-2) g.l. esta expresión se utiliza preferentemente en
muestras pequeñas (n1£30,n2£30).
e) Si las varianzas desconocidas no son necesariamente iguales entonces:
()
xx ts2ˆˆs2
12 2
a
± +1 2 donde ta/2 es una t de Student con m (g.l.) donde
n1 n2
Ês2ˆˆs2 ˆ2
ËÁ
1+ 2
n2 ¯˜
– ˆˆ2 y 2 son las cuasi-varianzas.m =n1
ËÁ ˆ
2 ËÁ ˆ2 1 2
ˆˆ
n
1
+ +2111
Si p1 y p2 son las proporciones muestrales del suceso principal (éxito) de
dos poblaciones binomiales independientes B(n1,P1) y B(n2,P2)
respectivamente, las fórmulas anteriores son válidas con la salvedad de
sustituir xpq
Si en lugar de querer obtener la diferencia de medias queremos obtener
la suma de medias tendríamos las mismas fórmulas anteriores solamente
que sustituyendo
x 2.
En todas las fórmulas que hemos presentado en los diferentes cálculos
de los intervalos de confianza, de forma general, cuando hablemos del
error probable de la estimación vendrá dado por za/2Var(q) o ta/2 Var(q),
es decir, el segundo término de las fórmulas.
Ejemplo 1
Se quiere comparar el promedio de problemas matemáticos resueltos
semanalmente por dos clases similares de alumnos. Se toma dos muestras
de 8 y 9 alumnos respectivamente y se observa el número de problemas
resueltos:
Clase A: 8, 9, 9,10,10,11,11,12
Clase B: 9,8,8,10,10,11,10,10,11
Suponiendo que la distribución de resueltos en ambas clases es normal y
de
varianzas iguales, calcular el intervalo de confianza del 95% para la
diferencia de promedios entre ambas clases.
Clase A: ˆxs n = 811 1
Clase B: xs n = 922 2
En las tablas obtenemos: t0,025,(8+9-2)=2,13
I= 10 – 9,67
()
2,13 1 ().,13122
±+
UNIDAD DIDÁCTICA 4
ANÁLISIS INFERENCIAL DE DATOS
Objetivos
Conocer los fundamentos de los tests estadísticos y su incidencia en las
decisiones sobre los parámetros poblacionales.
Diferenciar las pruebas de una sola cola frente a las de dos. Distinguir
los condicionantes paramétricos de las pruebas estadísticas. Valorar la
utilización de pruebas paramétricas.
n
4. Región de rechazo:
Prueba de una extremidad
z>za (o bien z<-za,cuando la hipótesis alternativa es Ha: p<p0) Prueba de
dos extremidades
z>za/2 o bien z<-za/2
a a/2 a/2
Za–Za/2Za/2
()
s2.1 s2
4. Región de rechazo:
Prueba de una extremidad
z>za (o bien z<-za, cuando la hipótesis alternativa es Ha: m-m<D0) Prueba
de dos extremidades
z>za/2 o bien z<-za/2
a a/2 a/2
Za–Za/2Za/2
Suposiciones: Se seleccionaron las muestras aleatorias e independientes de
dos poblaciones y n1>30 y n2>30.
Diferencia de proporciones:
1. Hipótesis nula: H: (p1-p2)=D0 donde D0 es alguna diferencia
especificada que se quiera probar. En muchos casos se deseará probar la
hipótesis de que no hay una diferencia entre p1 y p2 - es decir, D0=0.
2. Hipótesis alternativa:
Prueba de una extremidad (o cola)
Ha: (p1 -p2)>D0 o bien Ha: (p1-p2)<D0
Prueba de dos extremidades (o colas)
Ha: p1-p2πD0
3. Estadístico de la prueba:
()
ˆ ()–0
ˆˆ+ ˆˆ
pq pq
n
n 12
Caso II: Si suponemos que D0 no es igual a cero, es decir D0π0 entonces
los mejores estimadores para p
1
yp
2
son
^ y ^ respectivamente ^ y ^
()
ˆ – ˆz pp D12 0= ˆ ˆ pqˆ ˆ
11
/2
ta–ta/2ta/2
/2
ta–ta/2ta/2
n
+
1n2
dos de libertad.
Ês2ˆˆs2 ˆ2
ËÁ
1+ 2
Con mn1 n2¯˜ -2=Ês2 ˆ2 Ês2 ˆ2
ËÁ
2
n1
1 ¯˜ˆˆËÁn2 ¯˜
n1 + + n211
+
Diferencia de medias -muestras relacionadas:
1. Hipótesis nula: H: (m1 m2)=md =0
2. Hipótesis alternativa:
Prueba de una extremidad (o cola) Ha: md >0 o bien Ha:md <0
Prueba de dos extremidades (o colas) Ha: mdπ0
3. Estadístico de la prueba: td –0 d= =ssdd
n n donde n=número de diferencias por parejas
n 2Âdd()
s
d
=
i=1
n –1
4. Región de rechazo:
Prueba de una extremidad
t>ta(o bien t<-ta, cuando la hipótesis alternativa es Ha: m <0) Prueba de
0 ()ns2
3. Estadístico de la prueba:
2
c =s2 0
4. Región de rechazo:
Prueba de una extremidad
c2>c2 (o bien c2<cca, cuando la hipótesis alternativa es Ha:s2 <s02 )
dondea
c2 y cca son los valores de la cola superior e inferior respectivamente dea
c2 que ponen a en las áreas de las colas.
Prueba de dos extremidades
c2>c2 o sea c2<cca/2, donde c2 y cca/2 son los valores de la cola supea/2 a/2
rior e inferior respectivamente de c2 que ponen a/2 en las áreas de las
colas.
4. Región de rechazo:
Prueba de una extremidad F>Fa
Prueba de dos extremidades F>Fa/2
Cuando
F
=
s
2
1 , los valores críticos, Fa y Fa/2 , se basan en n1=n1-1 y n2=n2-1s2
2
grados de libertad.
a a/2
FaFa/2
Suposiciones: Las muestras se seleccionaron aleatoria e
independientemente de poblaciones con distribución normal.
Prueba para el coeficiente de correlación poblacional simple r
1. Hipótesis nula: H0: r =0
2. Hipótesis alternativa:
Prueba de una extremidad (o cola)
Ha: r >0 o bien Ha: r <0
Prueba de dos extremidades (o colas) Ha: r π0
3. Estadístico de la prueba: =t rn–2 1–r2
4. Región de rechazo:
Prueba de una extremidad
t>ta(o bien t<-ta,cuando la hipótesis alternativa es Ha: r <0) Prueba de dos
extremidades
t>ta/2 o bien t<-ta2
a a/2 a
/2
ta–ta/2ta/2
Fichero de sintaxis
T-TEST
Fichero de sintaxis
T-TEST
/ROUPS=sexo(1 2) /MISSING=ANALYSIS /VARIABLES=item1
Iremos
seleccionando las variables por pares. En nuestro caso hemos elegido a y b
que se corresponde con la variable bajo estudio, antes y después de la
prueba. Si pulsamos el menú opciones se entrará a configurar el intervalo
de confianza y el tratamiento de los valores perdidos.
n oe()2
Ejemplo
Un comerciante al por mayor sabe que normalmente el 5% de las cajas de
productos agrícolas que le envían durante el mes no sirven para la venta al
público. ¿Qué probabilidad existe de que en un determinado mes, de 3400
cajas recibidas a lo más 150 cajas estén en mal estado?.
Tenemos fm=150 p=0,05 ; mx=Np=3400.0,05=170
zfm- mx= =150-170 =157 por tanto P[z<-1,57]=0,0582 luego será el 5,82%.Npq
3400 0 05 0 95
12 12 1 2 nn nn()
12
()
nn nn()
Si z<z( a) aceptamos Ho de aleatoriedad
Si z>z(a) se rechaza H0 donde z(a) se obtiene de la N(0,1)
Si empleamos la prueba de dos colas la región de rechazo será z>z(a/2) o
bien
z<-z(a/2).
Cuando los datos son numéricos una forma de aplicar el test de rachas es
proceder como sigue:
- Test sobre- y bajo mediana para la aleatoriedad de datos numéricos.
Para determinar si unos datos numéricos son aleatorios, se colocan primero
en el mismo orden que fueron cogidos, hallamos la mediana y sustituimos
cada entrada por las letras p y q según que este valor esté sobre o bajo
mediana. Si un valor coincide con la mediana se suprime. La muestra será
aleatoria según lo sea la secuencia de p y q obtenida.
Ejemplo 1
Supongamos los resultados de extraer 15 letras A y B según la siguiente
secuencia: A,B,B,A,A,B,A,A,A,B,A,B,A,B,B. Queremos saber si la
extracción ha sido aleatoria.
Datos:
n1= 8 letras A
n2= 7 letras B
r=10 rachas
a=0,05
Cálculos:
Miramos en las tablas P(r £ r1)=0,025 y P(r<r2)=0,975 para n1 y n2
dados llegamos a que r1=5 y r2=12 luego como r1<r<r2 aceptamos la
hipótesis de aleatoriedad en la extracción.
Ejemplo 2
La sucesión de 40 extracciones de A y B es la siguiente:
B,A,A,B,B,B,A,A,B,B,B,B,B,B,A,A,B,B,B,A,B,A,B,B,B,B,A,A,B,B,B,A,B,A,B,B,A,
B,B,B. Queremos saber si la extracción ha sido aleatoria.
Datos:
12 12 1 2 nn nn()
12
()
2
nn nn()
Sustituyendo por los valores tenemos z=(19-18,55)/2,73=0,16
La región de rechazo para una prueba de cola inferior con a=0,05 es z<
-z0,05 o bien z<-1,645. Como el z obtenido (0,16) es mayor que -1,645
entonces nada se opone en aceptar la hipótesis H0.
2.3. Pruebas bimuestrales (muestras relacionadas)
Las pruebas bimuestrales para muestras relacionadas se usan cuando el
investigador desea saber la diferencia entre dos tratamientos: por ejemplo
comparar dos métodos de enseñanza, haciendo que cada sujeto sirva como
su propio control.
En estas comparaciones de dos grupos, algunas veces se observan
diferencias significativas que no son resultado del tratamiento. Por
c
2
=
Â
AAD
() []
22
2
2 =()
AD
Si las frecuencias esperadas ((A+D)/2), es muy pequeña (menor que 5),
deberá usarse la prueba Binomial antes de la prueba de McNemar. En el
caso binomial N=A+D, y x es la menor de las dos frecuencias observadas
A o D, y p=0,5.
Decisión
Si c2 <c2 crítico, se acepta H0
Si c2 >c2 crítico, se rechaza H0. El cambio es significativo.
Ejemplo
Los 25 alumnos de una clase de 1.º de Bachillerato son sometidos a un
entrenamiento en habilidades numéricas obteniéndose los siguientes
resultados antes y después de la aplicación de esta metodología de apoyo.
Se desea contrastar si el entrenamiento mejora estas habilidades.
Después
– + Antes + 14 4
–34
Donde + indica clasificación mayor que la mediana y - menor que la
mediana respectivamente en las puntuaciones de la prueba de habilidades
numéricas.
z = () 2[5]1 N2
tre Tp y Tn .
Decisión
a) Si n£25 donde n es el número de pares de sujetos cuya diferencia es
distinta de cero, se observa en la tabla de Wilcoxon el valor crítico de T. Si
T>T crítico, aceptamos H0. No hay diferencia significativa. Si T£T crítico,
rechazamos H0 (Prueba de una sola cola).
b) Si n>25 hacemos normalización del valor de T mediante la ecuación:
z =4
nn +()12 1+()
24
si |z|≥z(a) rechazamos H0 (prueba de dos colas).
Ejemplo
Podemos utilizar el mismo ejemplo que hemos presentado en el caso del
test de signos:
Sean 12 adolescentes elegidos al azar entre miembros de un club de
cine-forum. Interesa comprobar si después de la proyección de una
película violenta, los adolescentes muestran una mayor agresividad que
perdure incluso varios días. Realizados test, antes de la película y tres días
después, resultan los siguientes datos:
Adolescentes Antes (A) Después (B)
1 14 19
2 16 18
3 23 22
4 26 27
5 24 28
6 28 35
7 27 30
8 18 17
9 15 17
10 22 28
11 20 30
12 25 24
Para resolver el ejercicio planteamos la siguiente tabla:
Adolescentes Antes (A) Después (B) Diferencia B-A Rango de
diferen. Tp Tn
1 14 19 5 9 9
2 16 18 2 5,5 5,5
3 23 22 -1 2,5 2,5
4 26 27 1 2,5 2,5
12 13 25
24 24
P(z<-2,47)=0,0068, valor que se aproxima al que pudiéramos obtener
con la tabla de Wilcoxon para P(T>7,5), luego por los dos procedimientos
debemos rechazar la hipótesis al nivel de a=0,01
2.4. Pruebas bimuestrales (muestras independientes)
Frecuentemente, la naturaleza de la variable dependiente impide usar a
los sujetos como su propio control, como sucede cuando la variable
dependiente es el tiempo empleado para resolver un problema poco
familiar, pues esto solo sucede una vez.
Cuando el uso de dos muestras relacionadas no es práctico ni
adecuado, pueden usarse muestras independientes. En este diseño, las dos
muestras pueden obtenerse con la ayuda de dos métodos:
a) Tomando al azar de dos poblaciones.
b) Asignando al azar ambos tratamientos a miembros de alguna muestra de
orígenes arbitrarios.
En cualquier caso no es necesario que las dos muestras tengan el
mismo tamaño. Es importante que los datos de las dos muestras a
() ()!! ! !()p= ()
NABC D !!! ! !
Esta probabilidad determina la ocurrencia de una distribución dada; pero si
se quiere conocer la probabilidad de ocurrencia de tal distribución u otra
más extrema habrá que calcular las distintas probabilidades para cada
forma de la distribución hasta llegar a la más extrema.
Decisión
Se rechaza H0 si pp= <i a
Â
i
Ejemplo
Se quiere comprobar si en el ambiente universitario de una Facultad de
CC. de la Educación los líderes «carismáticos» se «queman»
significativamente más que los líderes «no-carismáticos». Estudiados 14
líderes resultó la siguiente distribución:
«Quemados» «No quemados» Lid. «carismáticos» 6 2 8
Lid. «no carismáticos» 1 5 6
7 7 14
La probabilidad exacta de ocurrencia de tal distribución será:
p
=
++
NABC D!!! ! !
()
()
+
()
!! ! !
()
8677!!!!
= =fi
14 6 2 1 5!! !! !,,%
Concluiríamos, a nivel de confianza del 5% que tal distribución no
puede darse al azar. Ahora bien, es necesario calcular la probabilidad
asociada a una distribución todavía más extrema que la dada (se logra
aumentando el valor mayor de la tabla en el sentido de la hipótesis
alternativa). Esta sería la siguiente,
«Quemados» «No quemados» Lid. «carismáticos» 7 1 8
Lid. «no carismáticos» 0 6 6
7 7 14
8677
p
= =fi
147610
!!!! !!!!!,%
Otra distribución más extrema que esta última ya no puede darse. Por
consiguiente, la probabilidad exacta de ocurrencia de una distribución
empírica como la primitiva o más extrema será:
p=4,90+0,233=5,133%
Existe una modificación del test de Fisher introducida por Tocher que
consiste en sumar tan sólo las probabilidades de las configuraciones que
sugieren mayor asociación que la dada (p0) y compararlo con el nivel de
significación a, de tal manera que:
12= + + +()
p0
Una vez calculado el valor de T acudimos a una tabla de números
aleatorios y tomamos al azar un número n comprendido entre 0 y 1. El
criterio de aceptación o rechazo de la hipótesis nula H0 será entonces el
siguiente:
— si n<T rechazamos H0 — si n>T aceptamos H0
2.4.2. Contraste de Kolmogorov
Objetivo
Este contraste ya se ha visto para el caso unimuestral, en el caso de dos
muestras se aplica de la misma forma pero ahora no examinamos el grado
de ajuste entre las frecuencias acumuladas de una distribución teórica
específica y la frecuencia acumulada de la función de distribución
empírica sino entre las frecuencias acumuladas de las dos muestras.
Si las dos muestras provienen de la misma población cabe esperar que
sus distribuciones respectivas de frecuencias acumuladas sean semejantes
entre si ya que únicamente presentan diferencias casuales debidas al azar.
Si por el contrario las diferencias son grandes, habrá que concluir que no
pueden provenir de la misma población.
Hipótesis La hipótesis nula se plantea en los siguientes términos: H0:
FA=FB (no hay diferencia entre las funciones de distribución). Frente a la
hipótesis alternativa: H1: FAπFB Estadístico Para cada una de las dos
muestras se construyen los mismos intervalos, pues si los intervalos son
distintos entonces no se pueden comparar.
Si denotamos por Fbi la frecuencia acumulada hasta el intervalo i-
ésimo de la muestra B y Fai la frecuencia acumulada hasta el intervalo i-
ÂÂd=()
En primer lugar
seleccionaremos las variables. Hemos elegido, nivel en las filas y selección
en las columnas. Estas variables pueden ser numéricas o de cadena.
Cuando pulsemos el botón estadísticos podremos seleccionar:
Fichero de sintaxis
CROSSTABS
/TABLES=nivel BY selecc
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ GAMMA
/CELLS= COUNT COLUMN.
Ejecución del comando crosstabs
Tabla de contingencia nivel* selección.
Selección
Seleccionado No seleccionado Total
Nivel Primarios sin c. escolaridad Recuento 8 8 16 % de selección 10.5%
()
+ +()Se cumplirá: R+R =
ab2
Unm nn +()–R
aa 2
Unm mm+()– R
.nm n m+ +()
12
Ejemplo
Se dispone de dos tipos de cobayas I y II que se las adiestra para
recorrer un determinado laberinto. Se nos pide contrastar si las cobayas de
tipo I alcanzan la salida con un número medio de errores igual al que da
las cobayas de tipo II. Fijemos a=0,05. Tomamos una muestra de m=8
cobayas de tipo I y n=9 cobayas de tipo II y se quiere contrastar si las dos
muestras son idénticas.
I 17 12 15 10 14 11 8 13 II 13 16 9 11 9 18 6 10 7
Se quiere contrastar la hipótesis H0: provienen de la misma población
(µ1=µ2) frente H1: µ1>µ2 (test de una cola).
Xi Ri
17 16
12 10
15 14
10 6,5
12
P{z<(25,5-36)/10,39}=P{z<-1,01}=0,16
como a <0,16 aceptamos la hipótesis nula.
Cuando existen bastantes pares igualados es conveniente hacer la
corrección
nm 33-
1 22[].––()E 2nm
[] = ++ =
()nm nm()
Decisión
Si n,m £20 la región crítica será: RC={R<cte}
Si n,m>20 entonces z=(R- E[R])/ ÷V[R] se distribuye según una
normal, luego la región crítica será RC={|z|>cte}.
Para valores próximos a n,m>20 se efectúa ajuste por distribución
continua.
Ejemplo
Se desea estudiar si hay diferencias sexuales en la cantidad de agresión
exhibida por los niños en el juego.
Para ello se observa el comportamiento de 12 niños y 12 niñas durante el
desarrollo de una sesión de juego, puntuando el grado de agresión de cada
individuo. Los datos obtenidos son los siguientes:
Niños(+) Niñas(+)
86 55
69 40
72 22
65 58
113 16
65 7 118 9
45 16
141 26
104 36
41 20
50 15
H0: la agresión es la misma en ambos sexos.
H1: los niños y las niñas muestran diferencias en el grado de agresión.
Como la hipótesis H1 es cualquier clase de diferencia entre los dos grupos
(y por
supuesto estos son independientes) se escoge la prueba de rachas de
WaldWolfowitz.
Ordenamos los datos:
7 9 15 16 16 20 22 26 36 40 41 45 50 55 58 65 65 69 72 86 104 113 118
141
––––––––––+++––+++++++++
r=4 rachas
La región crítica será {r<cte}
Si miramos en la tabla para n=m=12 y a=0,05 fi {r<7}
Como 4<7 fi rechazamos H0fi existe diferencia en función del sexo.
2.5. Pruebas para k-muestras relacionadas
A veces, las circunstancias requieren que diseñemos un experimento de
k=número de grupos
A= suma de los valores 1 de cada grupo (suma de columnas)
L= suma de los valores 1 de cada sujeto o grupo de sujetos iguales (suma
en las filas)
Decisión
Si Q<c2 crítico se acepta H0
Si Q≥c2 crítico se rechaza H0 y por tanto hay diferencia significativa.
Ejemplo
Supongamos 3 grupos de 18 amas de casa de iguales características.
Cada uno de estos grupos es sometido a una entrevista con diferente estilo.
Queremos saber si las diferencias brutas entre los tres estilos de entrevistas
n=número de filas
k= número de columnas
R= suma de rangos en la columna j
Si la hipótesis de nulidad (que todas las muestras —columnas—
proceden de la misma población) es en efecto verdadera, la distribución de
los rangos de cada columna será obra del azar y los rangos en los
diferentes grupos 1, 2, 3,....,k deberán aparecer en todas las columnas con
frecuencia casi igual.
Decisión
Si k=3 y 1<n<10 o k=4 y 1<n<5
Las tablas de Friedman nos proporcionan un valor p para un nivel de
significación. Entonces:
Si p£a se rechaza H0. Hay diferencia significativa entre los grupos. Si p>a
se acepta H0.
Si no se cumple las condiciones anteriores entonces se calcula c2 (ji-
cuadrado) crítico según el valor de a y k-1 g.l.
Si cr2< c2 crítico, aceptamos H0.
Si cr2≥c2 crítico, rechazamos H0.
Ejemplo
Supongamos que 18 conjuntos de ratas formados cada uno por tres
ratas de la misma camada son sometidos en su aprendizaje a tres diferentes
métodos de motivación. Las puntuaciones que se adjudican a cada rata se
obtienen al computar los errores cometidos por cada una de ellas a lo largo
del recorrido a realizar y son los siguientes:
r = Âxy  Â
22 xy Cuando X e Y son los rangos de las muestras tenemos r=rs luego
tenemos:
2 Â Âd2d
rs= =1–
NN3 –NN–
6
Como d=x-y=(X–X–)–(Y–Y–)=X-Y puesto que X–=Y– al tratarse de
rangos quedando finalmente la fórmula:
N
6
Â
d
2
i
rs =1–i=1 []3NN
Si existen muchas observaciones ligadas esta fórmula debe ser sustituida
por la siguiente:
22 2
+Âr xy d
= []s 222 Â Âxy
3x NNTy NN––33 – t) / 12donde  Â–Â= = – T con T
r
s
ligas de la variable Y.
5. Si los N sujetos constituyen una muestra aleatoria de alguna población,
se
puede examinar el grado en que el valor observado de t indica la existencia
de una asociación entre las variables X e Y de esa población. El método
para
obtener tal resultado, depende del tamaño de N:
a) Para N£ 10 utilizaremos la tabla de rango de Kendall que contiene la
probabilidad asociada —de una cola— de un valor tan grande como el de
una S observada.
b) Para N>10 aproximaremos a la normal mediante la fórmula:
media=mt=0 22()+5desviación estándar = =t 91)
tmtz= st
Decisión
Si la p obtenida por el método adecuado es igual o menor que a entonces
rechazamos H0 y confirmamos H1.
Comparación dettyrs
Aún cuando los valores que obtenemos con t y rs son distintos y por
tanto no comparables, sin embargo la prueba de significación que hagamos
respecto a la población nos debe llevar en ambos casos a resultados
similares.
Ejemplo
Estamos interesados en analizar el grado de asociación entre el nivel de
industrialización de los países de la CEE (medido por el porcentaje de
empleo en la industria con respecto al total, factor A), y la parte de gastos
totales familiares que dedican a transportes y comunicaciones, factor B.
Los datos aparecen a continuación:
País Factor A Factor B Xi Yi Alemania 40,7 13,9 10 6
Francia 32,1 13,7 5 4
Italia 34,6 13,6 8 3
Holanda 28,7 10,7 3 1
Bélgica 32,7 12,2 6 2
Luxemburgo 32,0 16,5 4 7
T Â(3tt– )
donde siendo t=número de observaciones en un grupo liga12
do por un rango dado.
S indica sumar todos los grupos de ligas dentro de cualquiera de las
ordenaciones.
El efectuar esta corrección por ligas representa aumentar el valor de W. Si
el número de ligas es pequeño o si no existe la fórmula que emplearemos
es la siguiente:
sW= 1 23 – )12 (kN N
Significación
Si queremos estudiar si el estadístico W es significativamente distinto de 0
tenemos que atender al tamaño de N:
a) Si N es menor o igual a 7 emplearemos la tabla de Kendall que contiene
los valores críticos a los niveles 0,05 y 0,01.
b) Si N>7 la fórmula: c2=k(N-1)W puede usarse para calcular un valor de
c2 cuya significación, para gl=N-1, podemos encontrar en la tabla de la ji-
cuadrado.
Interpretación de W
Un alto valor de W, es decir un alto grado de acuerdo acerca de un
orden no significa necesariamente que el orden escogido es el «objetivo»,
ya que esta coincidencia puede tener algún trasfondo no deseado. En este
ESTADÍSTICOS DE CONTRASTEb
Aptitud verbalComprensión lectora
Z –.322a
Sig. asintót. (bilateral) .748
a Basaso en los rangos negativos.
b Prueba de los rangos con signo de Wilcoxon.
UNIDAD DIDÁCTICA 5
HACIA UN ESTUDIO DEL MODELO
Objetivos
Diferenciar los principales conceptos relacionados con el análisis de
regresión: método de selección de las variables, condiciones de aplicación
del modelo y evaluación del mismo.
Saber interpretar los resultados del modelo de regresión, efectuando
una valoración del proceso y del ajuste final obtenido. Aplicar los
conocimientos de análisis de regresión para resolver supuestos de
investigación educativa utilizando el programa SPSS. Interpretar
correctamente las salidas de ordenador de SPSS en los supuestos
n n n  Â** 2
() ( ) ( )ii
i= = =1
o de forma matricial:
SCres= [yy’-b’X’y]
SC
reg
=[b’X’y-n
FIGURA 5.1.4.
Cuadro de diálogo. Regresión lineal. Estadísticos.
TABLA 5.1.7. ANOVA del modelo(g)
ModeloSuma de gl Media F Sig.cuadrados cuadrática
1 Regresión Residual Total
6714,276 1 6714,276 247,143 ,000(a) 5379,173 198 27,168
12093,449 199
2 Regresión Residual Total
9077,750 24538,875 296,501 ,000(b)
nk - 1
Sus valores oscilan desde –3 a +3 aproximadamente. Naturalmente tienen
media 0 y desviación típica 1.
c) Residuos estudentizados (SRESID —en el programa SPSS—). Su
expresión es:
SRESID =
i ˆs 1-d
ii
Este tipo de
interacción se denomina ordinal y se caracteriza por la ausencia de cruce
entre las gráficas de hombre y mujer.
b) Los hombres superan a las mujeres en algunos métodos pero no en
otros. Se produce cruce entre las gráficas. Es la llamada interacción no
ordinal:
ÂÂxijJ nj
SC x x x()2 siendo j==11 y N el número total de puntuacionestotal ij .. ..= - =
ÂÂ Nj==11
SCintra Â= ij().jÂ
j=1i=1
2
Si planteamos la hipótesis nula: H0:m1=m2=.........=mj o H0: aj=0, se
conforma la siguiente tabla 5.2.1 del análisis de la varianza:
TABLA 5.2.1. Análisis de la varianza de un factor. Efectos fijos.
Fuente de variación Suma de Grados Media de Estadístico Fcuadrados de
libertad cuadrados
Entre grupos SCentre J-1 MCentre = SCentre MC entre J-1 MCintra
Intra grupos SC
intra
N-J
MC
intra
= SCintra
N- J
Total SCtotal N-1
Con la hipótesis nula de homogeneidad de varianzas, el estadístico F se
distribuye con una F de Snedecor con J-1 y N-J grados de libertad. Si el p-
valor asociado a F es menor que a, se rechazará la hipótesis nula al nivel
de significación a.
2. Supuestos
Para aplicar el análisis de la varianza nos hemos apoyado en tres
supuestos: independencia de las observaciones, igualdad de varianza
ÂÂDij
   Â0 000ij
i= = = =11 1 1
ÂÂ
Â
ijk
-
2
... en
i=1 j=1k =1
suma de los siguientes cuadrados: en la suma de cuadrados respecto al
factor A
ab
Â
i
..
(( ))
2
... , en la suma de cuadrados respecto al factor B (anÂ(. .xx...)2,
i=1 j=1 a b
en la suma de cuadrados respecto a la interacción y
..
i=1 j=1
en una suma de cuadrados de errores no explicado por el modelo
(diferencia del
abn
total menos los factores y la interacción) .
ÂÂ
Â
ijk
()
2
ij.
ÂÂ
Â
x
2
ijk -N con T suma de todos los elementos.
i=1 j=1k =1
a T T2
i.. -
SCA =Â2
i=1nb N con Ti.. suma de todos los elementos de la fila i (nivel i del fac
tor A).
b T 2T 2
SCB =Â .. -N con T.j. suma de todos los elementos de la columna j (nivel j
del j=1na
del factor B).
a bT 2T 2
Seleccionaremos el
item3 (prueba de inglés), como variable dependiente, y zona, como factor.
Si pulsamos contrastes podemos realizar pruebas a priori (antes de
realizar el experimento) con el estadístico t.
Inter-grupos (Combinados)
Término lineal No ponderado Ponderado Desviación 14,764 2 7,382 ,799
,452
5,658 1 5,658 ,612 ,435
5,953 1 5,953 ,644 ,424
8,811 1 8,811 ,953 ,330
Intra-grupos 1358,630 147 9,242
Total 1373,393 149
Como se puede observar no hay diferencia significativa para las distintas
zonas.
Pruebas post hoc COMPARACIONES MÚLTIPLES
Variable dependiente: prueba de inglés
(I) zona (J) zona Intervalo de confianza al 95% Diferencia de
Editorial
9 788436 252644
0184216EP01A02