Biostatistica Normal
Biostatistica Normal
Legea normal
Legea normal (Gauss1-Laplace) joac un rol important n teoria probabilitilor i statistica
matematic. O variabila aleatoare X urmeaz legea de repartiie normal (
2
( , ) X N m )
dac are densitatea de repartiie de forma:
2
1
2
1
( )
2
x m
f x e
=
Parametrii m i ai repartiiei normale au o semnificaie aparte. Dac se calculeaz media i
dispersia unei variabile
2
( , ) X N m se obine:
2 2
( ) ; ( ) M X m D X = = .
In practic, multe fenomene, procese sau caracteristici pot fi bine aproximate de modelul normal. Din
punct de vedere teoretic, se tie c n anumite condiii relativ generale, legea normal poate fi
considerat ca aproximnd alte modele.
(a) Dou repartiii normale cu aceeai medie i dispersii diferite.
(b) Dou repartiii normale cu aceeai dispersie i medii diferite.
Observaii.
1. Variabila
X m
Z
= ,
iar funcia de repartiie
1
( ) ( ) ( )
2
Z
F x P Z x x = < = + ,
2
unde este funcia lui Laplace (valorile acestei funcii sunt tabelate).
Graficul funciei de repartiie F
Z
i graficul funciei lui Laplace
Are loc relaia
( )
x m
P X x P Z
< = <
,
ceea ce ne permite s folosim valorile din tabelul distribuiei normale standard.
2. Dac
2
( , ) X N m , , a bR atunci
( ) ( ) ( )
b m a m
P a X b F b F a
< < = =
.
In particular,
- Intre valorile m i m + (situate la distana fa de m) aria de sub graficul funciei
densitate este 0,683. ( ( ) P m X m < < + =0,683)
- Intre valorile 2 m i 2 m + , aria subgraficului lui f este 0,955.
- Intre valorile 3 m i 3 m + , aria subgraficului lui f este 0,995; deci practic, valorile
unei variabile repartizat normal, sunt cuprinse ntre 3 m i 3 m + .
Exemplu. Considerm ca variabil Y nivelul de colesterol (serum cholesterol level) al unei populaii.
Se tie c media (pentru populaia respectiv) este m=175mg/100mL, iar abaterea (deviaia) standard
este = 30mg/100mL). Se consider ca normale valorile situate la mai puin de dou abateri de la
medie. Care sunt valorile limit normale i care este proporia din populaie care se situeaz ntre
aceste valori?
y
y =1
x
y=F(x)
0
y = -1/2
y = 1/2
y=(x)
3
Fie
175
30
Y
Z
= . P(-60<Y 175<60) = ( 2 2) 1 2 ( 2) P Z P Z < < = > = 0,9544
( 2) 1 ( 2) P Z P Z > = =1 0,9772 = 0,0228
Deci valorile normale sunt cuprinse ntre 115 i 235 (vezi figura de mai sus), iar 95,44% din
populaie ndeplinete aceast condiie.
Dac definim limite normale astfel nct 95% din populaie s se situeze ntre aceste limite, cum
gsim aceste valori?
( ) 0.95 P a Z a < < = , de unde rezult ( ) 0.025 P Z a > = i ( ) 0.975 P Z a = .
De unde obinem a = 1.96.
Revenind la Y,
175
1.96 1.96
30
Y
< < , deci 116.2 233.8 Y < < .
Media statistic i dispersia statistic
Studiul statistic al unei populaii (colectiviti statistice) din punct de vedere al unei
proprieti sau al unui fenomen (caracteristic msurabil sau calitativ exprimat printr-o variabil
aleatoare teoretic X) se refer la gruparea datelor de selecie (de observaie) i obinerea unor
repartiii probabilistice empirice, precum i la utilizarea acestor repartiii empirice pentru estimarea
parametrilor necunoscui de care depinde repartiia teoretic a colectivitii studiate.
Mai precis, dac studiul se face dup o caracteristic X, funcia de repartiie teoretic este
: F R R, ( ) ( ) F x P X x = <
In cazul n care aceast funcie este doar specificat depinde de parametri cu valori necunoscute,
4
se pune problema estimrii (aproximrii) parametrilor respectivi. Ne vom ocupa numai de
estimarea parametrilor prin intervale de ncredere.
Ca rezultat al procesului de msurare se obin datele experimentale x
1
, x
2
, ... , x
n
. Aceste date
pot reprezenta fie n msurri distincte ale unei caracteristici pentru n obiecte distincte, fie msurri
repetate ale aceleiai mrimi. Numrul n al valorilor de observaie asupra colectivitii statistice
generale dup caracteristica de studiu X reprezint volumul unei selecii aleatoare.
O variabil aleatoare n-dimensional (X
1
, X
2
, ... , X
n
) este o selecie aleatoare simpl i repetat
de volum n dup caracteristica de studiu X dac variabilele de selecie sunt indepedente i identic
repartizate cu X. Prin abuz de scriere i de limbaj vom considera c (x
1
, x
2
, ... , x
n
), o valoare a
seleciei aleatoare (X
1
, X
2
, ... , X
n
) este un eantion aleator, iar o funcie oarecare de aceste valori
este o statistic.
Vom nota cu
1 2
...
n
x x x
x
n
+ + +
=
media statistic, valoarea mediei de selecie
1 2
1
( ... )
n
X X X X
n
= + + + .
De asemenea,
2 2
1
1
( )
n
i
i
s x x
n
=
=
reprezint dispersia statistic, valoarea dispersiei de selecie
2
2
1
1
( ) ( )
n
i
i
d X X X
n
=
=
,
iar cu
2 2 2
*
1
1
( )
1 1
n
i
i
n
s x x s
n n
=
= =
dispersia statistic modificat, valoarea dispersiei de selecie modificat
2 2
*
1
1
( ) ( )
1
n
i
i
d X X X
n
=
=
.
Vom prezenta n continuare cteva cazuri remarcabile, care ne vor conduce la determinarea
intervalelor de ncredere pentru estimarea mediei, respectiv dispersiei teoretice n cazul unei selecii
aleatoare simple i repetate de volum n, dup o caracteristic dat X care urmeaz o repartiie normal
de parametri m i .
Se poate arta c n acest caz media de selecie este de asemenea o variabil repartizat normal
5
2
, N m
n
iar standardizata mediei de selecie este o variabil repartizat normal standard, adic
(0,1)
X m
N
n
.
Estimarea prin intervale de ncredere
Fie Y o variabil aleatoare repartizat normal, avnd media m i abaterea standard . (Notaie.
2
( , ) Y N m .)
Variabila standardizat: (0,1)
Y m
Z N
= .
Fie (0,1] . Notm cu z
= , unde (0,1) Z N .
S observm c
( ) 1 ( ) P Z z P Z z
= > .
Exemplu: ( 0,1) 1 ( 0,1) 1 0, 53982 0, 46018 P Z P Z > = = = .
In EXCEL, ( 0,1) (0.1) P Z NORMSDIST = =0,53982.
Se poate arta c:
1
z z
= .
Intrebare: Putem estima media populaiei folosind media eantionului? Ct de precis este
aceast estimare?
Vrem s estimm media populaiei folosind un eantion aleator de volum n. Presupunem c
populaia este normal (X este repartizat normal) i se cunoate dispersia
2
.
x
f(x)
1
z
z
1
( ) P Z z
( ) P Z z
>
6
Dac
X m
Z
n
= , atunci
1
2
1
X m
P z
n
=
sau
1 1
2 2
1 P X z m X z
n n
+ =
.
Rezult c un interval de ncredere garantat cu precizie1 pentru media ( ) m M X = a unei populaii
normale (cu dispersie cunoscut
2 2
( ) D X = ) este dat de
1 1
2 2
, x z x z
n n
+
.
Exemplu.
78 n = cazuri de deces prin SIDS
X = greutatea la natere exprimat n grame
Prezupunem c am calculat media eantionului x i am gsit 2994 x g = .
Se cunoate abaterea standard a greutii la natere 800g = .
Determinm un interval de ncredere garantat 95% pentru media m a populaiei.
1 0, 95 0, 05 = =
1 0,025 0,975
1
2
z z z
= =
Intervalul cutat este:
0,975 0,975
800 800
2994 , 2994
78 78
z z
+
.
Determinm
0,975
z .
0,975
( ) 0, 975 P Z z = .
In EXCEL folosim funcia NORMSINV.
0,975
(0, 975) 1, 959964 1, 96 z NORMSINV = =
Intervalul cutat este [2816,3172].
7
Obs. Alte funcii n Excel:
2
( , ) Y N m
m=175
=30
( 235) (235,175, 30, ) 0, 97725 P Y NORMDIST TRUE < = =
( ) 0.975 P Y a = a = ?
(0.975,175, 30) a NORMINV = =233.7989