PSM2022
PSM2022
Note de curs
Iulian Stoleriu
Copyright © 2021 Iulian Stoleriu
Cuprins
1 Elemente de combinatorică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Noţiuni şi exemple 7
1.2 Exerciţii rezolvate 15
1.3 Exerciţii propuse 17
3 Probabilităţi condiţionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1 Definiţii 49
3.2 Noţiunea de independenţă a evenimentelor 54
3.3 Probabilitatea ca o măsură a convingerii (Bayes) 56
3.4 Exerciţii rezolvate 57
3.5 Exerciţii propuse 61
4 Variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1 Introducere 63
4.2 Variabile aleatoare discrete 64
4.2.1 Operaţii cu variabile aleatoare discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3 Variabile aleatoare de tip continuu 69
4.4 Independenţa variabilelor aleatoare 70
4.5 Caracteristici numerice ale unei variabile aleatoare 71
4.5.1 Media (sau valoarea aşteptată) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.2 Dispersia (varianţa) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.3 Standardizarea unei variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5.4 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5.5 Cuantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.6 Modul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 Funcţia de repartiţie 75
4.6.1 Repartiţii discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.6.2 Repartiţii continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.7 Teoreme limită 83
4.8 Exerciţii rezolvate 87
4.9 Exerciţii propuse 92
7 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
7.1 Estimatori punctuali 150
7.1.1 Exemple de estimatori punctuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
7.2 Estimarea parametrilor prin intervale de încredere 152
7.2.1 Intervale de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.2.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.2.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7.3 Exerciţii rezolvate 157
7.4 Exerciţii propuse 161
9 Corelaţie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.1 Introducere 175
9.2 Corelaţie şi coeficient de corelaţie 176
9.2.1 Test statistic pentru coeficientul de corelaţie . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
9.3 Coeficientul de corelaţie Spearman 180
9.4 Exerciţii rezolvate 182
9.5 Exerciţii propuse 183
6
10 Regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.1 Introducere 185
10.2 Regresie liniară simplă 187
10.2.1 Caracteristici ale parametrilor de regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
10.2.2 Validarea parametrilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
10.3 Predicţie prin regresie 194
10.4 Exerciţii rezolvate 195
10.5 Exerciţii propuse 198
11 Anexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
1. Elemente de combinatorică
n
[
În continuare, vom utiliza următoarea notaţie prescurtată: Ai = A1 ∪ A2 ∪ . . . ∪ An .
i=1
Enunţul (1) se traduce astfel: dacă mulţimea A are m elemente şi mulţimea B are n elemente,
atunci mulţimea A ∪ B va avea m + n elemente. Enunţul (2) se interpretează similar.
Exemplu 1.1.1 La un adăpost de animale, există 11 posibilităţi de a alege un câine, 9 posibilităţi
de a alege o pisică şi 5 posibilităţi de a alege o pasăre. În câte moduri îţi poţi alege un pet de la
acest adăpost? . R: 11+9+5 = 25.
Exemplu 1.1.2 Pe o foaie dintr-un caiet de Matematică desenaţi un pătrat cu latura 4. Câte
pătrate distincte, formate de aliniamentul caietului, pot fi observate în interiorul acestui pătrat,
inclusiv pătratul desenat?
8 Capitolul 1. Elemente de combinatorică
R: Pentru fiecare i ∈ {1, 2, 3, 4}, notam cu Ai mulţimea tuturor pătratelor de latură egală cu i.
Atunci, |A1 | = 42 = 16, |A2 | = 32 = 9, |A3 | = 22 = 4, |A4 | = 12 = 1 şi
|A1 ∪ A2 ∪ A3 ∪ A4 | = 16 + 9 + 4 + 1 = 30.
Exemplu 1.1.3
(a) Câte pătrate cu varfurile in nodurile retelei alaturate putem construi?
. R: 50
(b) Aceeasi cerinta ca la punctul (a), dar pentru o retea cu n × n puncte.
R: N = (n − 1)2 · 1 + (n − 2)2 · 2 + (n − 3)2 · 3 + . . . + 12 · (n − 1), unde n
este numarul de noduri din reţea. Aici, (n − k)2 = nr. pătratelor de latură k.
Pentru fiecare pătrat de latură k există alte k − 1 pătrate înscrise în el, plus
pătratul însuşi.
2. Principiul includerii-excluderii
(2) În general, dacă A1 , A2 , . . . , An sunt mulţimi finite de elemente, nu neapărat disjuncte, atunci
cardinalul reuniunii lor este:
n n
Ai ∩ A j ∩ Ak − . . . + (−1)n−1 |A1 ∩ · · · ∩ An |
[
Ai = ∑ |Ai | − ∑ Ai ∩ A j + ∑
i=1 i=1 1≤i< j≤n 1≤i< j<k≤n
Exemplu 1.1.4 Un coş conţine trei tipuri de fructe (mere, pere, gutui). Care este numărul minim
de fructe din coş astfel încât el să conţină ori cel puţin 9 mere, ori cel puţin 7 pere, ori cel puţin 5
gutui? (există fructe la discreţie şi ordinea fructelor în coş nu este importantă)
. R: N = 9 + 7 + 5 − 1 − 1 − 1 + 1 = 19.
Exemplu 1.1.5 Câte numere întregi dintre 1 şi 100 sunt divizibile cu 2 sau 3?
R: Utilizăm principiul includerii-excluderii. Dacă N este mulţimea numerelor întregi căutate,
N este mulţimea complementară lui N şi Dk este mulţimea numerelor naturale până la 100,
1.1 Noţiuni şi exemple 9
• Dacă există m modalităţi de a face ceva şi există n modalităţi de a face altceva, atunci există
m · n modalităţi de a afectua ambele acţiuni.
• În general, dacă există mi (i = 1, 2, , . . . , n) modalităţi de a alege obiectul xi , atunci există
m1 · m2 · . . . · mn modalităţi de a alege toate obiectele m1 , m2 , . . . , mn .
Exemplu 1.1.6 La o pizzeria, se poate comanda pizza cu blat subţire sau gros. De asemenea,
există 17 alegeri posibile de topping. În câte moduri îşi poate comanda cineva o pizza de la
această unitate? R: 2 · 17 = 34
Exemplu 1.1.7 Într-o clasa de elevi sunt 10 fete şi 15 baieti. In câte moduri poate fi aleasa o
pereche baiat-fata pentru a reprezenta clasa la o adunare? R: 10 · 15 = 150
Exemplu 1.1.8 Dacă există doar 3 drumuri carea leaga orasul Iasi de Vaslui şi 4 drumuri care
leaga Vaslui de Galati, determinati câte rute posibile leaga orasul Iasi de Galati, trecand prin
Vaslui. R: 3 · 4 = 12
Exemplu 1.1.9 Şase prieteni vor să se aşeze pe acelaşi rând la cinema. Dacă sunt disponibile
doar şase locuri, în câte moduri se pot aşeza? R: 6 · 5 · 4 · 3 · 2 · 1 = 6! = 720
Exemplu 1.1.10 Dacă A = {a1 , a2 , . . . , an }, atunci cardinalul mulţimii părţilor lui A, inclusiv ∅
(mulţimea vidă) şi A, este |P(A)| = 2n .
R: Mulţimea părţilor conţine sau nu fiecare element din A. Aşadar, pentru fiecare element al lui
A există două posibilităţi: el aparţine lui P(A) sau nu aparţine. Altfel spus, fiecare element din
A poate fi ales în 2 moduri. Cum avem n elemente în A, în total vor fi 2n elemente în P(A).
4. Permutări
Numărul permutărilor posibile ale n obiecte distincte aşezate în cerc, fără repetiţie, (numite
permutări circulare) este Pn−1 = (n − 1)!
10 Capitolul 1. Elemente de combinatorică
Fie A o mulţime cu n elemente (nu neapărat distincte) şi fie k ∈ Z, k ≥ 2. Vom numi partiţie
ordonată a mulţimii A în k submulţimi k-tuplul (A1 , A2 , . . . , Ak ) astfel încât
k
[
A= Ai şi Ai ∩ A j = ∅, ∀i 6= j.
i=1
k
Presupunem că |Ai | = ni , cu ∑ ni = n.
i=1
Numărul de partiţii (numite permutări cu repetiţie) posibile ale unei mulţimi cu n elemente este
n!
Pnn1 ,n2 ,...,nk =
n1 !n2 ! · . . . · nk !
!! Acest număr se mai numeşte şi coeficient multinomial şi este coeficientul lui x n1 n2 nk
1 · x2 · . . . · xk
din dezvoltarea lui (x1 + x2 + . . . + xk )n .
Exemplu 1.1.11 În câte moduri pot fi aranjate 7 persoane in linie, pe un singur rand? P7 = 7!
Exemplu 1.1.12 (i) Câte numere de patru cifre pot fi formate cu elementele multimii {1, 2, 3, 4},
astfel încât fiecare cifra apare doar o singura data?
(ii) Dar cu elementele multimii {0, 2, 3, 4}, astfel încât fiecare cifra sa apara doar o singura
data?
R: (i) P(4) = 4! = 24 numere. (ii) Dintre toate permutarile posibile (P(4) = 4! = 24) vom
scadea acele ‘‘numere’’ care incep cu cifra 0, care sunt in numar de P(3) = 3! = 6. Astfel, vom
avea 4! − 3! = 18 numere.
Exemplu 1.1.13 În câte moduri putem aranja n obiecte în p cutii distincte, astfel încât prima
cutie conţine n1 obiecte, a doua cutie conţine n2 obiecte, ş.a.m.d., ultima cutie conţine n p obiecte,
unde n1 + n2 + . . . + n p = n.
R: Acesta este numărul permutărilor cu repetiţie, şi anume:
n!
.
n1 ! n2 ! . . . , n p !
Altfel, putem raţiona după cum urmează: există Cnn1 posibilităţi de a aranja obiectele în prima
cutie; de îndată ce primele n1 obiecte au fost aranjate în prima cutie, cele n − n1 obiecte rămase
n2
pot fi aranjate în Cn−n 1
moduri în a două cutie, apoi cele n − n1 − n2 obiecte rămase pot fi aranjate
n3
în Cn−n1 −n2 moduri în a treia cutie etc. Folosind principiul multiplicării, găsim că numărul total
de aranjamente este
n2 n3 n! (n − n1 )! (n − n1 − n2 )! nk !
Cnn1 ·Cn−n ·Cn−n1 −n2
· . . . ·Cnnkk = · · ·...·
1
n1 !(n − n1 )! n2 !(n − n1 − n2 )! n3 !(n − n1 − n2 − n3 )! nk !
n!
=
n1 !n2 ! · · · nk !
1.1 Noţiuni şi exemple 11
5. Aranjamente
Exemplu 1.1.14 Dacă A = {a, b, c}, atunci cele 32 = 9 cupluri (2-tupluri) ordonate formate cu
elementele din A sunt: (a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c).
Exemplu 1.1.15 Considerăm mulţimea {A, B, C, D, E}. Atunci, există 53 = 125 triplete (3-
tupluri) ordonate formate cu literele acestei mulţimi.
n!
Akn = n · (n − 1) · . . . · (n − k + 1) =
(n − k)!
6. Deranjamente
7. Combinări
Pentru 0 ≤ k ≤ n, se numeşte combinare de n elemente luate câte k
elemente orice submulţime a mulţimii A formată din k elemente (dis-
tincte), fără să conteze ordinea elementelor în mulţime. Numărul tuturor
combinărilor de n luate câte k se notează prin Cnk şi este dat de formula
n!
Cnk = .
k!(n − k)!
Exemplu 1.1.20 Dacă A = {a, b, c}, atunci există C32 = 3 submulţimi formate cu elementele
din A, şi anume: {a, b}, {b, c}, {c, a}.
!! Numărul Cnk se mai numeşte şi coeficient binomial, deoarece este coeficientul termenului
ak bn−k din dezvoltarea binomului lui Newton (a + b)n .
De remarcat faptul că:
• Akn este numărul de k-tupluri ordonate formate cu elemente distincte ale mulţimii A;
• Cnk este numărul de submulţimi cu k elemente ale mulţimii A, în care repetarea unui acelaşi
element k
Ç å din A nu este permisă. De notat faptul că, în literatura matematică, Cn mai este notat şi
n
.
k
Exemplu 1.1.21 O echipă de 5 persoane ce trebuie să conţină 3 bărbaţi şi 2 femei este aleasă
dintre 8 bărbaţi şi 7 femei. Câte echipe diferite pot fi selectate? R: C83 ·C72 .
k k (n − 1 + k)!
Cn = Cn+k−1 = .
k!(n − 1)!
Exemplu 1.1.22 Dacă A = {a1 , a2 , . . . , a5 } sunt aromele de îngheţată de care dispune o anumită
tonetă, atunci un exemplu de combinare cu repetiţie formată din 7 cupe de îngheţată este o
secvenţă de forma < a1 , a1 , a1 , a3 , a4 , a4 , a5 >.
1.1 Noţiuni şi exemple 13
Putem justifica formula de mai sus printr-un exemplu, după cum urmează.
Presupunem că avem mulţimea S = {a, b, c, d, e} şi dorim să determinăm numărul combinărilor
de câte 7 elemente cu repetiţie. Aşadar, n = 5, k = 7. Un exemplu de astfel de element este:
A = {a, a, a, b, d, e, e}. Pentru a calcula câte astfel de mulţimi putem forma, partiţionăm dreapta
reală prin bare, astfel încât să avem 5 regiuni, corespunzătoare elementelor din S. Pentru fiecare
element din A punem câte un ∗ în regiunea corespunzătoare elementului din S. Obţinem astfel
şirul următor de steluţe şi bare:
∗ | |{z} | |{z}
∗ ∗} | |{z}
∗|{z ∗ | |{z}
∗∗
3a 1b 0c 1d 2e
În general, numărul de combinări cu repetiţie căutat este, de fapt, numărul de moduri (fără
repetiţie) de a alege k poziţii distincte dintr-o mulţime cu n + k − 1 elemente (steluţe şi bare),
k
adică Cn+k−1 .
Sau, alternativ, este numărul de moduri de a pune n − 1 bare (separatoare) în cele n + k − 1 spaţii
libere.
Eventual, în loc de steluţe şi bare se pot considera 0 şi 1, obţinând şirul 00010110100.
Exemplu 1.1.23 Presupunem ca mulţimea A este A = {a, b, c}. Pentru aceasta mulţime există 3
submulţimi ale sale formate din câte două elemente distincte, şi anume: {a, b}, {a, c}, {b, c}.
În cazul în care cerinţa ca elementele să fie distincte este îndepărtată, atunci putem crea mai
multe ”submulţimi” distincte formate din câte 2 elemente fiecare. Acestea sunt:
{a, a}, {a, b}, {a, c}, {b, b}, {b, c}, {c, c}.
Observaţie 1.1.1
Problemele de numărare nu sunt întotdeauna uşoare.
Pentru a le rezolva este necesară tehnică şi multă
experienţă, deoarece unele probleme pot fi foarte
dificile. Din fericire, multe probleme de numărare pot
fi aduse, prin similaritate, la tehnica extragerii bilelor
dintr-o urnă (vezi Figura 1.1).
Figura 1.1: O urnă cu n bile
Considerăm o urnă ce conţine n bile diferite, numerotate 1, 2, . . . , n, din care extragem k bile.
Această extragere poate fi făcută în mai multe moduri posibile, în funcţie de:
• ordine. Putem extrage bilele pe rând, una câte una, sau toate odată. În primul caz, putem
nota ordinea în care sunt extrase bilele, pe când în al doilea caz nu o putem nota. Totuşi,
putem presupune că şi în al doilea caz bilele au fost extrase pe rând, una câte una, însă nu
s-a notat ordinea.
14 Capitolul 1. Elemente de combinatorică
• revenire. De îndată ce o bilă a fost extrasă, ea poate fi pusă înapoi în urnă (după ce,
eventual, s-a notat numărul ei), sau poate fi lăsată în afara urnei. Dacă bila este repusă în
urmă, spunem că avem o extragere cu revenire, iar dacă este lăsată afară, avem o extragere
fără revenire.
(a) Extragere ordonată, cu revenire. Numărul extragerilor ordonate, cu revenire, a k bile din
cele n din urnă este nk (aranjamente cu repetiţie).
(b) Extragere ordonată, fără revenire. Numărul extragerilor ordonate, fără revenire, a k bile
din cele n din urnă este Akn (aranjamente).
(c) Extragere neordonată, fără revenire. Numărul extragerilor neordonate, fără revenire, a k
bile din cele n din urnă este Cnk (combinări).
(d) Extragere neordonată, cu revenire. Numărul extragerilor neordonate, cu revenire, a k bile
k
din cele n din urnă este Cn (combinări cu repetiţie).
Exemplu 1.1.25 Un test grilă conţine 20 de întrebări, fiecare întrebare având 4 răspunsuri
posibile, cu un singur răspuns corect. În câte moduri distincte poate fi completat testul?
R: Fiecare întrebare are 4 variante: (a), (b), (c) sau (d). Astfel, urna are 4 de bile. Se extrag 20
de bile (pentru fiecare întrebare, alegem unul dintre cele 4 răspunsuri posibile), cu revenire, iar
ordinea extragerii contează. 420 = 1099511627776.
Exemplu 1.1.26 Opt cai participă la o cursă de hipism. În câte moduri putem plasa pariurile pe
câştigători? (primul, al doilea şi al treilea)
R: Urna are 8 bile (caii). Se extrag 3 bile (locurile), fără revenire, iar ordinea extragerii contează.
Primul loc poate fi ocupat de oricare din cei 8 cai, al doilea loc de oricare dintre cei 7 cai rămaşi,
al treilea loc de oricare dintre cei 6 cai rămaşi. A38 = 336.
Exemplu 1.1.27 Ana are o colecţie de 20 de rochii. Ea doreşte să ia 4 rochii cu ea în vacanţă. În
câte moduri o poate face?
R: Urna are 20 de bile (rochii). Se extrag 4 bile (rochii), fără revenire, fără a conta ordinea.
4 = 4845.
C20
Exemplu 1.1.28 Câte configuraţii posibile putem obţine aruncând 4 zaruri identice?
4
R: Urna are 6 bile (feţele unui zar). Se extrag 4 bile, cu revenire, fără a conta ordinea. C6 =
C94 = 126.
1.2 Exerciţii rezolvate 15
Astfel, N = 410.
Exemplu 1.2.1 Câte numere întregi dintre 1 şi 1000 nu sunt divizibile cu 2, 3 sau 5?
R: Utilizăm principiul includerii-excluderii. Dacă N este mulţimea numerelor întregi căutate,
N este mulţimea complementară lui N şi Dk este mulţimea numerelor naturale până la 1000,
divizibile cu k (k = 2, 3, 5), atunci
|N| = 1000−|N| = 1000−[|D2 |+|D3 |+|D5 |−|D2 ∩D3 |−|D2 ∩D5 |−|D3 ∩D5 |+|D2 ∩D3 ∩D5 |].
:
ï ò ï ò ï ò ï ò ï ò ï ò ï ò
1000 1000 1000 1000 1000 1000 1000
|N| = 1000 − − − + + + − = 266.
2 3 5 6 10 15 30
Exerciţiu 1.2.3 Exista 7 trasee pentru un alpinist de a urca de la baza unui munte pana in varf.
(a) Câte trasee diferite poate urma un alpinist in drumul sau de la baza pana in varf şi retur?
. R: 7 · 7 = 49
(b) Câte dintre aceste trasee au calea de intoarcere diferita de calea dupa care a urcat?
. R: 7 · 6 = 42
Exerciţiu 1.2.4 (1) Câte numere diferite de patru cifre putem forma cu cifrele de la 0 la 7?
. R: 7 · 83
(2) Câte numere diferite de patru cifre putem forma cu cifrele de la 0 la 5, fara cifre repetate?
. R: 5 · 5 · 4 · 3
Exerciţiu 1.2.5 Intr-o sala de ceremonii sunt 10 aparate de aer conditionat. Pentru ca evenimen-
tele de aici sa se desfasoare in conditii bune, este necesar ca macar un aparat sa fie in functiune
in orice moment. In câte moduri poate fi acest lucru programat?
. R: 210 − 1. Fiecare aparat din cele 10 poate fi ON sau OFF.
Exemplu 1.2.2 Determinaţi numarul anagramelor cuvantului ITALIA astfel încât literele de
acelasi fel sa nu fie consecutive.
R: N = 6!/(2! · 2!) − |A I| = 180 − |A| − |I| + |A I| = 180 − 5!/2! − 5!/2! + 4! = 84
S T
.
16 Capitolul 1. Elemente de combinatorică
Exerciţiu 1.2.6 Determinaţi numarul parolelor de 8 caractere ce pot fi formate tinand cont de
urmatoarele restrictii:
(a) toate caracterele sunt literele alfabetului englez (sunt 26 de litere), scrise cu litere mici.
. R: 268
(b) toate caracterele sunt literele alfabetului englez, scrise cu litere mici şi distincte.
. R: 26!/18!
(c) toate caracterele sunt literele alfabetului englez, cu litere mici, distincte, in ordine alfabetica.
. R: C26 8
(d) toate caracterele sunt litere şi cifre, care alterneaza şi nu se pot repeta.
. R: 2 · (26 · 25 · 24 · 23) · (10 · 9 · 8 · 7)
(e) caracterele pot fi doar literele A, B, C, D, in numere egale de fiecare.
Exerciţiu 1.2.7 (a) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând
cu 7 locuri?
(b) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând cu 7 locuri,
astfel încât toate cele trei femei să fie mereu aşezate împreună?
(c) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând cu 7 locuri,
astfel încât niciuna dintre cele trei femei sa nu fie alaturi de o alta femeie?
(d) Calculaţi suma numerelor obţinute la (a) şi (b). Este egală cu 7!? De ce?
R: (a) În 7! moduri.
(b) Considerăm cele 3 femei ca fiind un grup unitar. Avem 5 grupuri unitare, şi anume: acest
grup de femei şi cei patru bărbaţi (fiecare bărbat este considerat ca fiind un grup unitar). Putem
permuta în linie aceste grupuri unitare în 5! moduri. În interiorul grupului de femei, ele pot
fi permutate în 3! moduri. Folosind principiul multiplicării, putem permuta cele 3 femei şi 4
bărbaţi în 3! · 5! = 720 moduri.
(c) Aşezăm mai întâi bărbaţii în linie (în 4! moduri), apoi aşezăm femeile. Prima femeie poate fi
aşezată la stânga sau la dreapta oricărui bărbat, adică în 5 moduri. A două femeie poate fi aşezată
în unul din cele 4 locuri rămase disponibile, iar a treia în unul cele 3 locuri rămase disponibile.
În total, 4! · 5 · 4 · 3 = 1440 moduri.
(d) Nu, pentru aceste două cazuri, (a) şi (b), nu acoperă toate cazurile posibile, adică 7!. Există
posibilitatea de a aşeza două femei alăturat şi a treia în altă parte, caz neacoperit mai sus.
Exerciţiu 1.2.8 10 baieţi şi 7 fete sunt aşejaţi pe un rând cu 17 locuri. În câte moduri pot fi
aşezaţi aşa încât baieţii să fie aşezaţi împreună şi fetele împreună? R: 10! · 7! · 2!
Exerciţiu 1.2.9 O echipă de 5 persoane ce trebuie să conţină 3 bărbaţi şi 2 femei este aleasă
dintre 8 bărbaţi şi 7 femei. Câte echipe diferite pot fi selectate? R: C83 ·C72 = 1176
Exerciţiu 1.2.10 În câte moduri pot fi aranjate cele 8 litere din cuvantul TRIANGLE pe un rând
astfel încât să nu conţina măcar una dintre secvenţele GIA şi NT?
R: Utilizăm principiul includerii-excluderii. Obţinem: 8! − 6! − 7! + 5! = 34680 cazuri.
Exerciţiu 1.2.11 Mircea are 5 batoane de ciocolată distincte pe care doreşte să le pună în 3
buzunare, astfel încât fiecare buzunar conţine măcar un baton. În câte moduri o poate face?
R: Utilizăm principiul includerii-excluderii. Obţinem: 35 − 3 · 25 + 3 = 150. Sunt 35 cazuri
posibile fără a avea vreo restricţie, din care scoatem numărulul cazurilor în care cele 5 batoane
sunt puse în doar două buzunare, i.e., C31 25 , şi adunăm numărul cazurilor în care punem toate
batoanele într-un singur buzunar, i.e., C32 cazuri.
Exerciţiu 1.2.12 La o serată dansantă participă 5 perechi soţ-soţie. La un anumit dans se stinge
becul şi fiecare barbat alege la întâmplare câte o parteneră. În câte moduri diferite pot fi formate
perechile astfel încât sa nu fie nicio concordanţă soţ-soţie? R: D5 =! 5 = 44
Exerciţiu 1.2.13 Într-o clasă sunt 30 de elevi, 19 baieţi şi 11 fete. În câte moduri putem alege o
1.3 Exerciţii propuse 17
R: Presupunem că punctele din figură au coordonatele A(0, 0), B(m, n). Orice traiectorie care
uneşte cele două puncte este complet determinată de numărul de blocuri verticale (un block
este intervalul dintre două străzi orizontale învecinate) pe care le are de parcurs maşina. Notăm
cu v0 , v1 , . . . , vm străzile verticale. Teoretic, pe fiecare dintre aceste m + 1 străzi, maşina poate
parcurge maxim n blocuri până la destinaţie. Pentru fiecare i = 0, m, notăm cu bi numărul de
blocuri parcurse de maşină pe strada i. Spre exemplu, drumul din figura de mai sus corespunde
configuraţiei (0, 0, 0, 2, 1, 0, 0, 1, 0, 3, 0, 0, 3, 0, 0). Astfel, numărul de drumuri distincte pe
care le poate parcurge maşina de la A la B este egal cu numărul de soluţii naturale pe care le
poate avea următoarea ecuaţie:
v0 + v1 + · · · + vm = n.
n
Astfel, răspunsul este Cm+n drumuri distincte leagă punctul A de punctul B.
10 = 1961256 drumuri diferite.
În cazul reţelei din figură, m = 14, n = 10, deci C24
Exerciţiu 1.3.10 La o serată dansantă sunt 10 baieţi şi 13 fete. În câte moduri se pot forma două
perechi fată-băiat? R: 3510
Exerciţiu 1.3.11 (a) Calculaţi numărul de permutări ale literelor din cuvântul NUMBER.R: 720
(b) Câte dintre permutările de la (a) încep şi se termină cu o vocală? R: 48
Exerciţiu 1.3.12 O companie îşi alege conducerea printre membrii consiliului de administraţie.
Există 10 de membri în consiliul de administraţie.
(a) În câte moduri se pot alege un preşedinte, un vicepreşedinte şi un secretar? R: A310 = 720
(b) În câte moduri se pot fi aleşi 3 membri care să reprezinte consiliul la un congres? R: C10 3
Exerciţiu 1.3.13 La o degustate de vinuri, sunt degustare 20 de soiuri diferite, apoi sunt clasificate.
În câte moduri diferite se pot alege primele 3 locuri? R: A320 = 6840
Exerciţiu 1.3.14 Câte pătrate distincte pot fi observate pe o tablă de şah? Generalizaţi rezultatul
n
pentru o tablă de tipul n × n. R: 204, ∑ k2 = n(n + 1)(2n + 1)/6
k=1
Exerciţiu 1.3.15 La un turneu de şah participă 10 jucători. Dacă fiecare jucător joacă cu fiecare,
câte jocuri vor fi în total? R: C102 = 45
Exerciţiu 1.3.16 În câte moduri putem rearanja literele cuântului REARRANGE pentru a obţine
cuvinte noi? R: 15120
Exerciţiu 1.3.17 Dintre cei 30 de elevi dintr-o clasă, 21 de elevi studiază Engleza, 15 studiază
Franceza şi 11 studiază Germana. Mai mult, 10 elevi studiază Engleza şi Franceza, 7 elevi
studiază Engleza şi Germana şi 5 elevi studiază Franceza şi Germana. Ştiind că doar 3 elevi ai
clasei studiază toate cele trei limbi, să se determine câţi elevi din clasa nu studiază niciuna dintre
aceste limbi.
Exerciţiu 1.3.18 În câte moduri pot fi rearanjaţi 5 studenţi pe 5 locuri într-un rând astfel încât
unul dintre ei să rămână mereu pe acelaşi loc? R: 4! = 24
Exerciţiu 1.3.19 Determinaţi numărul de permutări ale mulţimii {1, 2, 3, 4, 5, 6, 7, 8} astfel
încât exact trei elemente rămân pe aceeaşi pozitie. R: 2464
Exerciţiu 1.3.20 Câte permutări ale literelor ABCDEFGH conţin secvenţa ABC? R: 6! = 720
Exerciţiu 1.3.21 Un antrenor de fotbal doreşte să formeze 3 echipe a câte 5 jucători fiecare
dintr-un grup de 15 fotbalişti disponibili. Determinaţi în câte moduri o poate face dacă:
(a) echipele au câte un nume; R: 756756
(b) echipele nu au nume. R: 126126
Exerciţiu 1.3.22 Un magazin vinde 5 tipuri diferite de ciocolată. În câte moduri distincte putem
alege 13 ciocolate din acest magazin? . 13
R: C13+5−1 = C1713
Exerciţiu 1.3.23 În câte moduri pot fi oferite 10 mere identice la 7 copii? R: C10+7−1 10 = C1610
Exerciţiu 1.3.24 Câte anagrame diferite pot fi folosind literele cuvântului ABRACADABRA?
. R: 83160
. R: 1260
2. Probabilităţi. Definiţii. Proprietăţi
Exemplu 2.1.1 Să considerăm experienţa ce constă în aruncarea unei monede. Ne interesează
rezultatul aruncării, adică faţa care va apărea în sus după ce moneda va fi în repaus. În lipsa
tuturor informaţiilor necesare legate de efectuarea experimentului, există o incertitudine în ce
priveşte rezultatul. Înainte de efectuarea experimentului, nu putem şti cu siguranţă care faţă va
apărea. Dacă am avea mai multe informaţii despre materialul din care este făcută moneda, despre
forţa cu care este aruncată, despre orientarea iniţială a monedei, despre impactul dintre deget şi
monedă, despre rezistenţa/turbulenţele aerului, despre caracteristicile suprafeţei pe care va cădea,
şi aşa mai departe, am putea spune cu siguranţă pe ce parte va cădea moneda. E clar că nu le
putem şti pe toate, aşadar va trebui să facem unele anticipări legate de rezultatul experimentului.
Un astfel de eveniment cu rezultat incert (neştiut înainte de efectuarea experimentului) se nu-
meşte eveniment aleator (sau, rareori, stochastic).
Exemplu 2.1.2 [1] Dacă experimentul aleator este aruncarea unui zar ideal (un zar în care
fiecare faţă are aceeaşi şansă de apariţie), atunci spaţiul de selecţie va fi Ω = {1, 2, 3, 4, 5, 6}.
[2] Dacă experimentul aleator este determinarea numărului de clienţi ce intră într-o anumită
bancă într-o zi de lucru, atunci spaţiul de selecţie este Ω = {0, 1, 2, 3, 4, . . .} = N.
[3] Dacă experimentul aleator este determinarea timpului de funcţionare continuă a unui set
format din patru baterii de un anumit tip, atunci spaţiul de selecţie este
Ω = {(t1 , t2 , t3 , t4 ), ti ≥ 0, i = 1, 2, 3, 4} = R4+ .
[4] Dacă experimentul aleator este determinarea numărului de zile ploioase dintr-un anumit an
(care nu este bisect), atunci spaţiul de selecţie este Ω = {0, 1, 2, 3, 4, . . . , 365}.
Din punct de vedere matematic, dacă Ω este o mulţime finită, atunci mulţimea tuturor eveni-
mentelor aleatoare legate de un experiment aleator (adică, legate de spaţiul de selecţie Ω) este o
submulţime a mulţimii părţilor lui Ω, P(Ω). În acest material vom nota această submulţime cu
F . Elementele din F sunt evenimente care pot fi observate atunci când experimentul aleator este
efectuat. Cu alte cuvinte, F este informaţia pe care o primim după desfăşurarea experimentului
aleator. După efectuarea experimentului, putem observa dacă un anumit eveniment A aparţine
sau nu lui F .
Reamintim că, dacă Ω are n elemente, atunci P(Ω) va avea 2n elemente.
P(Ω) = {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, Ω}.
Vom numi eveniment aleator elementar (sau eveniment aleator simplu) un eveniment aleator
care are un singur rezultat posibil. De exemplu, apariţia feţei cu 3 puncte la aruncarea unui zar
ideal. Mulţimea Ω este astfel mulţimea tuturor evenimentelor elementare asociate experienţei
aleatoare. Un eveniment aleator cu mai mult de un rezultat posibil se va numi eveniment aleator
compus.
Un exemplu de eveniment compus este apariţia unui număr impar la aruncarea unui zar ideal.
Acest eveniment este compus din trei evenimente elementare, ce corespund feţelor cu 1, 3 sau 5
puncte.
Alt exemplu de eveniment aleator: apariţia unei duble (6, 6) la aruncarea a două zaruri este
un eveniment aleator elementar, iar obţinerea unei duble la aruncarea a două zaruri este un
eveniment aleator compus.
Vom numi eveniment sigur (sau eveniment cert), acel eveniment care se realizează la fiecare
efectuare a experienţei aleatoare. Astfel, evenimentul sigur este întreg spaţiu de selecţie, Ω.
Prin eveniment imposibil înţelegem acel eveniment ce nu se realizează în nicio probă. Evenimen-
tul imposibil asociat unei experienţe aleatoare se notează prin ∅.
Se numeşte caz favorabil pentru evenimentul aleator un caz în care respectivul eveniment se
realizează măcar într-o proba a sa.
Evenimentele aleatoare (adică elementele din F ) le vom nota cu A, B, C, . . . .
Prin A (uneori prin Ac ) vom nota evenimentul complementar (sau evenimentul contrar) lui A,
2.1 Experimente şi evenimente aleatoare 21
care se realizează doar atunci când A nu se realizează. Avem: Ac = Ω \ A. Spre exemplu, dacă
experienţa aleatoare este aruncarea unui zar şi evenimentul aleatoar A este apariţia unei feţe cu
un număr par de puncte, A = {2, 4, 6}, atunci evenimentul contrar A este evenimentul apariţiei
unui număr impar, i.e., A = {1, 3, 5}. Avem că A A = Ω.
S
Operaţii cu evenimente
realizează ori de câte ori se realizează exact unul dintre evenimentele A şi B.
• Notăm prin A ⊂ B (citit A implică B) şi spunem că realizarea lui A implică realizarea lui B.
• Spunem că A = B (citit A coincide cu B) dacă A ⊂ B şi B ⊂ A.
• Spunem că A şi B sunt evenimente incompatibile dacă în nicio probă ele nu se pot realiza
simultan. Scriem astfel: A B = ∅.
T
• Spunem că A şi B sunt evenimente compatibile dacă ele se pot realiza simultan în măcar o
probă a experimentului aleator. Scriem astfel: A B 6= ∅.
T
• Spunem că A şi B sunt evenimente echiprobabile dacă ele au aceeaşi sansă de realizare.
Spre exemplu, la aruncarea unei monede ideale, orice faţa are aceeaşi şansă de apariţie.
Exemple de evenimente echiprobabile:
– aruncarea unei monede ideale este un experiment cu 2 evenimente echiprobabile:
apariţia feţei sau apariţia stemei.
– aruncarea unui zar ideal este un experiment cu 6 evenimente echiprobabile: apariţia
fiecăreia dintre cele 6 feţe.
– aruncarea a două zaruri ideale este un experiment cu 36 evenimente echiprobabile.
22 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
În cuvinte, aceste relaţii se reţin astfel: complementara reuniunii a două evenimente este
intersecţia complementarelor evenimentelor şi, respectiv, complementara intersecţiei a
două evenimente este reuniunea complementarelor evenimentelor.
Aceste relaţii se pot extinde similar şi pentru mai mult de două evenimente, astfel:
A1 ∪ A2 ∪ . . . ∪ An = A1 ∩ A2 ∩ . . . ∩ An şi A1 ∩ A2 ∩ . . . ∩ An = A1 ∪ A2 ∪ . . . ∪ An .
Pentru a putea cuantifica şansele de realizare a unui eveniment aleator, s-a introdus noţiunea
de probabilitate. Presupunem că pentru un anume experiment aleator, am construit mulţimea
tuturor evenimentelor elementare, Ω. Atunci, fiecărui eveniment A în putem asocia un număr
P(A), numit probabilitatea realizării evenimentului A (sau, simplu, probabilitatea lui A), fiind o
măsură precisă a şanselor ca A să se realizeze.
În literatura de specialitate, probabilitatea este definită în mai multe moduri, depinzând de
situaţie: cu definiţia clasică (apare pentru prima oară în lucrările lui P. S. Laplace2 ), folosind o
abordare statistică (cu frecvenţe relative), probabilitatea bayesiană (introdusă de Thomas Bayes3 )
sau utilizând definiţia axiomatică (Kolmogorov).
Pentru început, ne vom preocupa de probabilitatea definită clasic şi aplicaţiile sale.
Tripletul (Ω, P(Ω), P) se va numi câmp de probabilitate finit (în sens Laplace).
k
Ţinând cont de definiţia evenimentului contrar, dacă P(A) = , atunci
n
n−k k
P(A) = = 1 − = 1 − P(A).
n n
Etape pentru calculul probabilităţii unui eveniment într-un câmp de probabilitate Laplace
P(A ∪ B ∪C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩C) − P(B ∩C) + P(A ∩ B ∩C).
12. Dacă Ω = {ω1 , ω2 , . . . , ωn } este finită, compusă din evenimentele elementare ωi , atunci
Se observă de aici că, dacă A = {ωn1 , ωn2 , . . . , ωnk } ⊂ Ω şi evenimentele elementare
{ωi }ni=1 sunt echiprobabile (adică, P ({ωi }) = n1 , ∀i = 1, 2, . . . , n), atunci
|A| k
P(A) = = .
|Ω| n
Exemplu 2.2.1 Se aruncă un zar ideal. Care este probabilitatea apariţiei unui număr par?
R: Mulţimea Ω a tuturor cazurilor are 6 elemente (feţele zarului). Evenimente elementare:
Deoarece zarul este ideal, toate feţele au aceeaşi şansă de apariţie (evenimente echiprobabile).
Notăm cu A evenimentul apariţiei unui număr par la aruncarea unui zar ideal. Atunci, există
3 cazuri favorabile lui A, şi anume feţele numerotate cu 2, 4, 6. Probabilitatea căutată va fi
|A| 3
P(A) = = = 0.5.
|Ω| 6
Exemplu 2.2.2 Într-o şcoală britanică, evaluarea elevilor se face folosind literele alfabetului. De
regulă, sunt folosite primele 7 litere ale alfabetului. Un elev a primit calificativ de trecere dacă
obţine unul dintre calificativele A, B, C. Care este probabilitatea ca un elev ales aleator să obţină
calificativ de trecere?
R: Aşadar, mulţimea tuturor cazurilor posibile este Ω = {A, B, C, D, E, F, G}. Oricare notă
are aceeaşi şansă de a fi atribuită (evenimente elementare echiprobabile). Cazurile favorabile
realizării evenimentului dorit sunt A, B, C. Astfel, probabilitatea ca un elev ales aleator să aibă
3
calificativ de trecere este P = .
7
Exemplu 2.2.3 O monedă ideală este aruncată de 3 ori. Se cere probabilitatea de a obţine două
steme. Dar cel puţin două steme?
R: Mulţimea tuturor cazurilor posibile este
A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
6
Probabilitatea apariţiei sumei 7 este P = 36 = 16 .
2.2 Probabilitatea definită clasic 25
Exemplu 2.2.5 Din 100 de mere, 10 sunt stricate. Care este probabilitatea ca, luând la întâmplare
3 mere, să luăm şi mere stricate?
3 moduri de alege 3 mere dintr-o mulţime de 100. Toate aceste moduri au aceeaşi
R: Există C100
probabilitate. Notăm cu A evenimentul de a avea şi mere stricate printre cele 3 extrase. Cu
alte cuvinte, din cele 3 mere extrase există cel puţin un măr stricat. Este mai uşor de calculat
probabilitatea evenimentului contrar, A = evenimentul ca toate cele 3 mere ales să fie bune
3 . Atunci
(niciun măr nu este stricat). Cazurile favorabile evenimentului cerut sunt în număr de C90
|A| C3 90 · 89 · 88
P(A) = 1 − P(A) = 1 − = 1 − 390 = 1 − ≈ 0.7265.
|Ω| C100 100 · 99 · 98
Exemplu 2.2.6 Se aruncă un zar ideal de 3 ori. Calculaţi probabilitatea de a obţine numere
diferite în toate cele 3 aruncări.
R: Mulţimea cazurilor egal posibile este
A = {(a, b, c) ∈ Ω, a 6= b 6= c 6= a}.
|A| 6 · 5 · 4 5
Cardinalul lui A este |A| = 6 · 5 · 4 = 120. Probabilitatea căutată este P(A) = = = .
|Ω| 63 9
Observaţie 2.2.1 De remarcat faptul că probabilitatea nu poate fi definită întotdeauna în acest
fel. Dacă măcar una dintre cerinţele 1.− 3. nu este satisfăcută, atunci definiţia de mai sus nu are
sens. Câteva exemple:
• Considerăm experimentul aleator ce constă în alegerea la întâmplare a un punct din pătratul
[0, 1] × [0, 1], astfel încât toate punctele din acest pătrat au aceeaşi şansă de a fi alese. Se
cere să se calculeze probabilitatea ca punctul astfel ales să se situeze deasupra primei
bisectoare. În acest caz, atât numărul cazurilor posibile, cât şi numărul cazurilor favorabile
este infinit, făcând definiţia clasică a probabilităţii inutilizabilă.
• Experienţa aleatoare constă în aruncarea unui zar neomogen. În acest caz, nu toate feţele
zarului au aceeaşi şansă de apariţie, iar definiţia de mai sus nu poate fi utilizată.
• Un biscuit ce are una dintre feţe unse cu unt are şanse mai mari de a cădea cu faţa unsă în
jos când este scăpat. Pentru a estima care este probabilitatea să cadă cu o anumită faţă în
jos, nu putem utiliza definiţia de mai sus (evenimentele elementare nu sunt echiprobabile).
• În cazul în care dorim să pariem pe rezultatul unui anumit meci de fotbal, nu putem
determina probabilităţile de victorie/egal/înfrângere folosind definiţia clasică, deoarece
experienţa (meciul) nu poate fi repetată în aceleaşi condiţii de mai multe ori.
Să considerăm un experiment aleator (e.g., aruncarea unui zar) al cărui rezultat posibil este
evenimentul aleator A (e.g., apariţia feţei cu 6 puncte). Presupunem că acest experiment aleator
îl putem efectua de un număr infinit de ori în condiţii identice, astfel încât rezultatul unei probe
să nu influenţeze rezultatul alteia (probe independente). Să notăm cu νn (A) frecvenţa absolută
νn (A)
de realizare a lui A în n ∈ N∗ probe independente. Raportul fn (A) = se va numi frecvenţă
n
relativă de realizare a lui A în n probe independente. Acest raport are următoarele proprietăţi:
Mai mult, şirul frecvenţelor relative { fn (A)}n∈N are limită şi această este definită ca fiind
probabilitatea de realizare a evenimentului A, notată P(A). Aşadar, în cazul definiţiei statistice
a probabilităţii, probabilitatea de realizare a evenimentului A este definită prin limita şirului
frecvenţelor relative de producere a respectivului eveniment când numărul de probe tinde la
infinit. Matematic, scriem astfel:
Practic, dacă numărul n de experimente este foarte mare, atunci P(A) = fn (A). Faptul că acest
şir are o limită şi este P(A) a fost dovedit de Jacob Bernoulli4 şi publicat în 1713. Vom reveni
asupra acestui rezultat (numit de Bernoulli teorema de aur) într-un curs viitor, când vom discuta
de legile numerelor mari.
4 Jacob Bernoulli (aka James sau Jacques) (1654 − 1705), matematician de origine elveţiană
2.3 Alte modalităţi de a defini probabilitatea 27
Exemplu 2.3.1 Dorim să determinăm probabilitatea de apariţie a stemei la aruncarea unei mo-
nede pe care o bănuim a fi măsluită. În acest caz, nu putem utiliza definiţia clasică a probabilităţii,
deoarece evenimentele elementare nu sunt echiprobabile. Să notăm cu A evenimentul apariţiei
stemei dintr-o singură aruncare a monedei. Pentru a determina experimental P(A), se aruncă
moneda de un număr suficient de mare de ori (fie acest număr n) şi observăm frecvenţa absolută
de apariţie a stemei în cele N aruncări (sa o notăm cu νn ). Dacă n este foarte mare (tinde la
νn (A)
infinit), atunci frecvenţa relativă fn (A) = va fi foarte apropiată de P(A). Matematic,
n
scriem ca în relatia (2.3.1).
În acest sens, Figura 2.1 (a) este o justificare grafica a convergentei sirului frecventelor relative
la probabilitatea teoretica P(A) = 21 în cazul unei monede ideale (şansele de apariţie a fiecărei
feţe sunt egale).
Figura 2.1: Simularea aruncării unei monede corecte (a) şi a unui zar corect (b)
Exemplu 2.3.2 Dorim să determinăm probabilitatea ca un bărbat dintr-un anumit oraş, ales
aleatoar, să aibă peste 1.75 cm înălţime. Pentru aceasta, alegem un eşantion aleator (o selecţie
aleatoare) de n bărbaţi din acel oraş şi observăm frecvenţa absolută νn a bărbaţilor din selecţie
care au proprietatea cerută. Pentru un n suficient de mare, probabilitatea cerută va fi aproximată
νn
prin p ≈ .
n
Totuşi, după cum vom vedea mai târziu, există metode mai precise de a determina această
probabilitate. Ele au la bază noţiunea de variabilă aleatoare de tip continuu.
sau numărul cazurilor favorabile, se vor considera măsuri potrivite pentru mulţimile cazurilor
posibile, respectiv, favorabile.
Exemplu 2.3.3 Să presupunem că dispunem de un procedeu prin care putem alege la întâmplare
un număr dintr-un interval [a, b]. În plus, vom presupune că acest procedeu ne asigură că nu
există porţiuni privilegiate ale intervalului [a, b], i.e., oricare ar fi două subintervale de aceeaşi
lungime, este la fel de probabil ca numărul să aparţină oricăruia dintre aceste intervale. Mai mult,
dacă am folosi de foarte multe ori acest procedeu, alegând astfel foarte multe numere din acest
interval, vom observa că acestea vor fi repartizate aproximativ uniform în [a, b], i.e., nu vor există
valori în vecinătatea cărora numărul ales să cadă mai des, ori de câte ori efectuăm experimentul.
Din aceste observaţii, putem deduce că probabilitatea ca un număr ales aleator să aparţină unui
subinterval al lui [a, b] este dependentă de lungimea acelui subinterval şi nu de poziţia sa în
interiorul lui [a, b]. Mai mult, aceasta este chiar proporţională cu lungimea subintervalului. Vom
numi experimentul de alegere descris mai sus ca fiind alegerea aleatoare uniformă a unui număr
din intervalul [a, b]. Se poate observa analogia cu experienţa alegerii dintr-un număr finit de
cazuri egal posibile.
Aşadar, folosind procedeul de alegere aleatoare uniformă a unui număr din intervalul [a, b], ne
punem întrebarea:
Dacă alegem aleator, în mod uniform, un număr real între a şi b, care sunt şansele (echivalent
cu a afla probabilitatea) ca acest număr să aparţină intervalului [c, d] ⊂ [a, b]? Să notăm cu
A evenimentul a cărui probabilitate dorim să o evaluăm. Considerăm că intervalul [a, b] este
mulţimea tuturor cazurilor egal posibile şi [c, d] ⊂ [a, b] este mulţimea cazurilor favorabile
realizării evenimentului. Atunci, probabilitatea evenimentului A se defineşte prin
În particular, dacă c = d, atunci probabilitatea ca numărul ales aleator dintr-un interval să coin-
cidă cu un număr fixat (dinainte stabilit) este zero, deoarece lungimea segmentului [c, c] este 0.
Astfel, întrezărim posibilitatea teoretică ca un eveniment să aibă probabilitatea nulă, fară ca el să
fie evenimentul imposibil ∅. Evenimentul A 6= ∅ se va numi eveniment P− nul.
Pe de altă parte, P(A) = 1 (probabilitatea ca numărul ales aleator să nu fie cel dinainte stabilit). Se
observă că A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Totuşi, deşi teoretic
este imposibil, din punct de vedere practic este posibil ca, din mai multe probe independente ale
experimentului, să dăm peste numărul dinainte stabilit.
În mod cu totul analog cazului 1-dimensional, dacă se alege la întâmplare şi în mod uniform un
punct dintr-un domeniu planar D, astfel ca să nu existe puncte sau porţiuni privilegiate în acest
D0
domeniu, atunci probabilitatea ca punctul să cadă în subdomeniul D 0 ⊂ D este aria
aria D .
În trei dimensiuni, o probabilitate similară este raportul dintre volumul mulţimii cazurilor favora-
bile şi volumul mulţimii cazurilor egal posibile.
În general, dacă Ω este mulţimea cazurilor egal posibile şi F este mulţimea cazurilor favorabile,
atunci probabilitatea ca, alegând la întâmplare un element din Ω, acesta să se afle în F este
definită prin
2.3 Alte modalităţi de a defini probabilitatea 29
măs(F)
P= .
măs(Ω)
După cum am văzut mai sus, în cazurile practice, prin măsură putem înţelege lungime, arie sau
volum.
Exemplu 2.3.4 (problema întâlnirii) Doi prieteni îşi propun să se întâlneasca între orele 1
p.m. şi 2 p.m.. Ambii ajung aleator în intervalul stabilit, iar cel care ajunge primul la punctul de
întâlnire aşteaptă un sfert de oră, după care, dacă celălalt nu a ajuns în acest timp, pleacă. Care
este probabilitatea ca cei doi prieteni să se întâlnească?
R: Notez cu t şi s timpii de sosire ai celor doi prieteni.
Condiţia de întâlnire este: |t − s| ≤ 14 . Mulţimea cazurilor
egal posibile Ω este formată din toate punctele interioare
pătratului albastru ([1, 2] × [1, 2]). Matematic, scriem Ω
astfel:
Ω = {(t, s) ∈ R × R; 1 ≤ t, s ≤ 2}.
Mulţimea cazurilor favorabile formată din mulţimea tuturor
punctelor din zona haşurată. Matematic o scriem astfel:
1
F = {(t, s) ∈ Ω; |t − s| ≤ }.
4
Pe de altă parte,
aria disc π
P(A) = = .
aria perete 4
Aşadar, putem aproxima π prin
νn
π '4 (pentru n foarte mare).
n
În continuare vom discuta schemele clasice de probabilitate asociate extragerii de bile dintr-o
urnă. În practică, există multe experimente aleatoare care pot fi asemănate extragerilor de bile
dintr-o urnă. Spre exemplu, să luăm experimentul aleator ce constă în tragerea cu o armă asupra
unei ţinte cu scopul de a o nimeri. Există două rezultate posibile asociate acestui experiment:
trăgătorul atinge ţinta sau nu o atinge. Să mai presupunem că un anumit trăgător are şanse 60%
să nimerească ţinta. Dorim să determinăm probabilitatea următorului eveniment aleator (notat cu
A): trăgătorul nimereşte ţinta de cel puţin două ori din trei trageri.
Putem asemăna acest experiment aleator cu experimentul aleator ce constă în extragerea unei bile
dintr-o urnă idealizată ce conţine bile albe şi negre. Presupunem că bila albă este corespondentul
reuşitei ţintaşului din primul experiment. Atunci compoziţia urnei este de 60% bile albe şi
40% bile negre. Corespondentul evenimentului cel puţin două reusite din trei încercări va fi
evenimentul extragerea a cel puţin două bile albe din trei extrageri cu revenire a bilei extrase în
urnă. Se cere revenirea fiecarei bile extrase în urnă pentru a nu schimba configuraţia iniţială a
urnei şi, astfel, de a păstra la fiecare extragere aceleaşi şanse de a extrage o bilă albă din urnă.
După cum vom vedea mai jos, schemele cu urne pot fi aplicate cu uşurinţă şi la calculul
probabilităţilor unor evenimente care nu sunt neapărat legate de urne şi bile. Extragerea unei bile
din urna poate fi făcută:
• cu revenire a bilei extrase înapoi în urna şi, astfel, compoziţia iniţială a urnei rămâne
neschimbată după fiecare extragere
• fără revenire a bilei extrase înapoi în urna şi, astfel, compoziţia iniţială a urnei va fi
schimbată la fiecare extragere.
În practică, extragerea cu revenire este folosită atunci când experimentul aleator investigat se
efectuează în aceleaşi condiţii la fiecare probă (e.g., aruncarea unei monede, aruncarea succesivă
a unei perechi de zaruri), iar extragerea fără revenire este utilizată atunci când, după fiecare
extragere, distribuţia iniţială a cazurilor posibile se modifică (e.g., extragerea numerelor la LOTO,
extragerea la întâmplare a unor monede din buzunar, fără să le mai punem la loc).
O urnă conţine a bile albe şi b bile negre. Din această urnă se extrag cu revenire n ∈ N∗ bile.
Bilele de aceeaşi culoare sunt toate la fel. Atunci, probabilitatea ca din cele n bile extrase, să
avem k bile albe şi n − k bile negre este
Se observă că această probabilitate este, de fapt, coeficientul lui xk din dezvoltarea polinomului
(p x + q)n . Schema binomială se mai numeşte schema lui Bernoulli7 şi se poate enunţa în mod
echivalent astfel:
În limbajul cu urnă şi bile, evenimentul Ai din enunţul anterior ar fi evenimentul apariţiei unei
bile albe la extragerea i, pentru orice i = 1, 2, . . . , n.
Practic, această schemă poate fi folosită atunci când un experiment aleator se poate efectua de un
număr infinit de ori, în aceleaşi condiţii, şi urmărim să evaluăm şansele ca un eveniment aleator
(legat de acest experiment aleator) să se realizeze de un număr de ori. Mai precis, presupunem
că A este un eveniment legat de o experienţă aleatoare care se repetă în aceleaşi condiţii de n ori.
Dacă probabilitatea ca A să se realizeze într-o singură probă este P(A) = p, atunci probabilitatea
ca A să se realizeze de exact k ori din cele n probe este Cnk pk qn−k . Astfel, schema bilei revenite de-
termină probabilitatea (şansele) de a obţine k succese din n încercări efectuate în aceleaşi condiţii.
Exemple de evenimente pentru care putem folosi formalismul oferit de schema bilei revenite:
• evenimentul ca un sportiv să înscrie un număr k de coşuri la aruncarea de un număr fix (n)
de ori (în aceleaşi condiţii) cu mingea de baschet;
• evenimentul ca un arcaş să nimerească ţinta de k ori din n încercări;
• evenimentul apariţiei a k steme din n aruncări ale unei monede;
• evenimentul apariţiei a k duble din n aruncări ale unei perechi de zaruri;
• şi altele.
Exerciţiu 2.4.1 O monedă ideală este aruncată de 10 ori. Care este probabilitatea de a obţine:
(a) nicio faţă cu banul; (b) 4 steme; (c) cel mult 4 steme; (d) măcar 4 steme?
7 Jacob Bernoulli (1655 - 1705) a fost un matematician născut în Basel
2.4 Scheme probabilistice 33
Observaţie 2.4.1 Se poate observa faptul că la schema bilei revenite nu este obligatoriu să
precizăm numărul bilelor albe şi negre din urnă. Este suficient să precizăm compoziţia iniţială a
a b
urnei cu ajutorul proporţiilor (probabilităţilor) p = şi q = 1 − p = .
a+b a+b
Aici, p şi q sunt probabilitatea de a extrage o bilă albă, respectiv, neagră la o singură extragere.
Exerciţiu 2.4.2 Se aruncă două zaruri de 5 ori. Care este probabilitatea să apară de două ori o
dublă?
R: Experimentul aleator este aruncarea simultană a două zaruri. Acest experiment se poate
repeta (teoretic) la infinit. Notăm cu A evenimentul apariţiei unei duble. Probabilitatea lui A este
P(A) = p = 16 , deoarece avem 6 cazuri favorabile (cele 6 perechi) din 36 de cazuri egal posibile.
Evenimentul a cărui probabilitate se cere este apariţia a două duble din 5 aruncări, notat A2/5 .
Pentru a calcula probabilitatea acestui eveniment folosim schema binomială cu n = 5, k = 2 şi
p = 61 , q = 1 − p = 56 . Vom avea
Å ã2 Å ã3
2 2 5−2 1 5
P A2/5 = C5 p q = 10 · · ≈ 0.1608.
6 6
34 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
Exerciţiu 2.4.3 În faţa unui oponent de acelaşi calibru la tenis de masă, care eveniment este
mai probabil: să câştigi 3 partide din 5, sau să câştigi 4 partide din 7? Justificaţi răspunsul.
R: Experimentul aleator este o partidă de tenis de masă, care se repetă în aceleaşi condiţii de
mai multe ori, în mod independent de partidele jucate anterior. Evenimentul aleator este legat de
numărul de partide câştigate de unul dintre jucători. Deoarece cei doi oponenţi sunt de acelaşi
calibru, probabilitatea ca într-o singură partidă unul să câştige împotriva celuilalt este p = 12 ,
adică sunt şanse 50% − 50% pentru fiecare dintre ei de a câştiga o partidă.
Suntem în cazul schemei binomiale. Putem formaliza astfel: jucătorul J1 este reprezentat de bila
albă şi jucătorul J2 este reprezentat de bila neagră.
5
Probabilitatea ca J1 să câştige 3 din 5 este P3/5 = C53 21 = 0.31250, iar probabilitatea ca J1 să
7
câştige 4 din 7 este P4/7 = C74 12 = 0.27344 < P1 . Desigur, probabilităţile sunt aceleaşi dacă
privim din perspectiva jucătorului J2 .
Aşadar, este mai probabil ca un jucător de tenis să câştige 3 partide din 5 decât 4 din 7.
Observaţie 2.4.2
Ce se întâmplă dacă se vor juca din ce în ce mai
multe partide între ecei doi?
Pentru un n ≥ 1, probabilitatea de a câştiga n + 1
partide din 2n + 1 jucate este
n+1 1
Pn = C2n+1 .
22n+1
Se observă din figura alăturată că această proba-
bilitate se apropie de 0 pentru un n mare.
În cuvinte, cu cât vor fi jucate mai multe partide între cei doi, şansele fiecăruia de a câştiga
jumătate plus una dintre partide se apropie de zero, adică sunt din ce în ce mai multe şanse ca
meciul să se termine la egalitate. Acest fapt este aşteptat, deoarece ei sunt la fel de buni.
Schema multinomială
O urnă conţine bile de m culori, repartizate astfel încât proporţia bilelor de culoarea i este pi , pentru i = 1, 2, . . . , m,.
Bilele de aceeaşi culoare sunt echivalente. Din această urnă se extrag cu revenire n bile. Atunci, probabilitatea ca
m
din cele n bile extrase să avem xi bile de culoarea i (i = 1, 2, . . . , m, xi ∈ N, ∑ xi = n) este
i=1
n!
P= px1 px2 · . . . · pxmm (2.4.3)
x1 !x2 ! · . . . · xm ! 1 2
Exerciţiu 2.4.4 În campionatul scoţian de fotbal, două echipe de fotbal (Celtic şi Rangers) pot juca între ele 8
meciuri într-un sezon. Ştiind că Celtic care 50% şanse de a câştiga un meci direct şi Rangers are doar 30% şanse de
victorie, determinaţi probabilitatea ca Celtic să câştige cel puţin 5 meciuri directe şi să nu piardă niciunul.
R: Folosim schema multinomială cu 3 culori: victorie, egal şi înfrangere.
Pentru echipa Celtic, avem: p1 = 0.5, p2 = 0.2, p3 = 0.3, respectiv. Atunci, probabilitatea cerută este:
8! 8! 8! 8!
P = p5 p3 p0 + p6 p2 p0 + p7 p1 p0 + p8 p0 p0
5!3!0! 1 2 3 6!2!0! 1 2 3 7!1!0! 1 2 3 8!0!0! 1 2 3
1 1 1 1 1 1 1
= 56 · · + 28 · · +8· · + 28 · = 0.1534.
32 125 64 25 128 5 256
2.4 Scheme probabilistice 35
O urnă conţine a bile albe şi b bile negre. Din această urnă se extrag fără revenire n bile
(n ≤ a + b). Atunci, probabilitatea ca din cele n bile extrase, să avem k bile albe şi n − k bile
negre este
CakCbn−k
Pk,n = n , pentru orice k ce satisface max(0, n − b) ≤ k ≤ min(a, n). (2.4.4)
Ca+b
Exerciţiu 2.4.5 O urnă conţine 6 bile albe şi 4 bile negre. Scoatem din urnă trei bile
(a) cu revenire;
(b) fără revenire.
Care este probabilitatea ca două bile să fie albe şi una neagră?
R: (a) Dacă extragerea se face cu revenire, atunci folosim schema binomială. Probabilitatea
6
ca la o singură extragere să scoatem o bilă albă este p = 10 = 0.6. Probabilitatea de a ascoate o
bilă neagră este q = 1 − p = 0.4. Atunci, probabilitatea de a scoate două bile albe este
Pa = C32 · p2 · q1 = 3 · 0.62 · 0.41 = 0.432.
(b) Dacă extragerile se fac fără revenire, atunci folosim schema hipergeometrică. Vom găsi că
C2 ·C1
probabilitatea cerută este Pb = 6 3 4 = 0.5.
C10
Exerciţiu 2.4.6 Într-un lot de 100 de articole se află 5 ce au defecţiuni. Alegem 3 articole. Care
este probabilitateaca:
(a) exact un articol să aibă defecţiuni?
(b) să nu fi ales niciun articol cu defecţiuni?
R: Probabilităţile cerute sunt:
2 ·C1
C95 5 4465 · 5
(a) Pa = 3
= = 0.1381.
C100 161700
3 ·C0
C95 5 138415 · 1
(b) Pb = 3
= = 0.8560.
C100 161700
Exerciţiu 2.4.7 La jocul LOTTO 6 /49 , se extrag aleator 6 bile dintr-o urnă cu bile numerotate de
la 1 la 49. Dacă Tudor a jucat numerele 4 , 7 , 8 , 12 , 19 , 22 , care sunt şansele ca Tudor
să fi nimerit
(a) niciun număr;
(b) exact 3 numere;
(c) cel puţin 3 numere;
(d) toate cele 6 numere?
R: Extragerile se fac fără revenire, deci vom aplica schema hipergeometrică. Pentru a utiliza
formalismul din această schemă, considerăm că bilele cu numerele jucate de Tudor sunt bilele
albe din urnă, celelalte 43 de bile fiind bile negre.
C60 ·C43
6
(b) P = 6
≈ 0.4360, deci, sunt cca. 43.60% şanse.
C49
C63 ·C43
3
(b) P = 6
≈ 0.0177, deci, sunt cca. 1.77% şanse.
C49
36 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
3
C63 ·C43 2
C64 ·C43 1
C65 ·C43 0
C66 ·C43
(c) P = 6
+ 6
+ 6
+ 6
≈ 0.0187.
C49 C49 C49 C49
0
C66 ·C43
(d) P = 6
≈ 0.0000000715.
C49
Exerciţiu 2.4.8 Un cofraj conţine conţine 10 ouă vopsite în trei culori: 5 roşii, 3 galbene şi 2 albastre. Luăm la
întâmplare 3 ouă din cofraj, fără revenire. Care este probabilitatea să avem unul de fiecare culoare?
Avem n urne, U1 , U2 , . . . , Un , care conţin bile albe şi bile negre. Ştim că probabilitatea de a
extrage o bila albă din urna Ui este pi şi că probabilitatea de a extrage o bilă neagră din urna
Ui este qi = 1 − pi , pentru orice i = 1, 2, . . . , n. Din fiecare urnă se extrage câte o bilă. Atunci,
probabilitatea de a obţine exact k bile albe şi n − k bile negre este coeficientul termenului xk din
dezvoltarea polinomului P(x) = (p1 x + q1 ) · (p2 x + q2 ) · . . . · (pn x + qn ).
Observaţie 2.4.3 Dacă urnele ar fi identice (toate având aceeaşi compoziţie), regăsim schema
binomială. Schema poate fi privită într-un cadru mai general, fără a considera bile şi urne:
Exerciţiu 2.4.9 Într-un atelier sunt trei strunguri. Primul strung dă rebuturi în proporţie de 0.9%,
al doilea în proportie de 1.1%, iar rebuturile date de al treilea strung sunt în proporţie de 0.8%.
Se ia la întâmplare câte o piesa produsă de la fiecare strung. Se cere probabilitatea ca două dintre
piese să fie bune şi doar una rebut.
2.4 Scheme probabilistice 37
adică: 0.991 · 0.989 · 0.008 + 0.991 · 0.992 · 0.011 + 0.992 · 0.989 · 0.009 = 0.0275.
Exerciţiu 2.4.10 Trei vânători ochesc cu puşca o aceeaşi vulpe. Ştim că probabilităţile ca fiecare
dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2. Cei trei trag fiecare câte un foc asupra
vulpii. Care sunt şansele ca vulpea să scape neatinsă?
R: Notăm cu A evenimentul ca vulpea să scape neatinsă. Folosim schema lui Poisson cu
p1 = 31 , p2 = 14 , p3 = 21 , de unde q1 = 23 , q2 = 34 , q3 = 12 . Vulpea scapă neatinsă dacă vor fi 0
reuşite din cele 3 trageri. Astfel,
probabilitatea
1 evenimentului A va fi coeficientul lui x0 (termenul
1 2 1 3 1
liber) din dezvoltarea 3 x + 3 · 4 x + 4 · 2 x + 2 , care este:
2 3 1 1
P(A) = q1 · q2 · q3 = · · = = 0.25.
3 4 2 4
Aşadar, şansele ca vulpea să scape neatinsă sunt de 0.25 · 100% = 25%.
Exerciţiu 2.4.11 Trei semnale sunt recepţionate corect cu probabilitaţile 0.8, 0.75, 0.9. Să se
determine cu ce probabilitate exact două dintre semnale sunt recepţionate corect.
R: Folosim schema lui Poisson. Avem că:
Probabilitatea căutată este coeficientul lui x2 din polinomul (0.8x + 0.2)(0.75x + 0.25)(0.9x +
0.1), adică
P(A) = 0.8 · 0.75 · 0.1 + 0.8 · 0.25 · 0.9 + 0.2 · 0.75 · 0.9 = 0.375.
38 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
Exerciţiu 2.5.2 Care e probabilitatea de a ghici toate cele 6 numere, jucând o variantă simplă la
LOTTO 6 /49 ?
6 . Există un singur caz favorabil. Astfel, probabilitatea
R: Numărul cazurilor egal posibile: C49
căutată este
1
P = 6 ≈ 0.0000000715.
C49
Exerciţiu 2.5.3 Dintr-un pachet de 36 cărţi se extrag trei la întâmplare. Care este probabilitatea
ca cel puţin o carte să fie as?
R: Mulţimea tuturor cazurilor favorabile este mulţimea tuturor combinaţiilor de 3 cărţi ce pot fi
extrase din totalul de 36. Astfel cardinalul ei este |Ω| = C36 3 . Dacă A este evenimentul a cărui
Exerciţiu 2.5.4 Dintre cei 426 de studenţi la Matematică, 214 ascultă muzică rock, 172 ascultă
atât muzică rock cât şi muzică pop, iar la 16 studenţi nu le place niciunul dintre aceste două
genuri muzicale. Alegând întâmplare un student de la Matematică, care este probabilitatea să îi
placă doar muzica pop?
R: Fie R = evenimentul ca un student ales la întâmplare să fie rocker şi P = evenimentul ca
un student ales la întâmplare să fie... popper.
Atunci, P(R) = 214426 , P(P R) = 426 , P(P R) = 426 . Se cere P(P R).
T 172 T 16 T
Dar:
16
= P(P R) = P(P R) = 1 − P(P R)
\ [ [
426
= 1 − [P(P) + P(R) − P(P R)],
\
368
de unde P(P) = 426 .
Atunci, P(P R) = P(P) − P(P R) = 196
≈ 0.46.
T T
426
Altă variantă, cu mulţimi (vezi poza).
Exerciţiu 2.5.5 Cinci bărbaţi şi trei femei sunt aşezaţi aleator pe scaune la o masă rotundă cu 8
locuri. Care este probabilitatea ca nicio femeie să nu şadă langă o altă femeie?
Exerciţiu 2.5.6 Un număr de 8 persoane (A, B, . . . , H) sunt distribuite aleator la o masă rotundă
cu 8 locuri.
(i) Care este probabilitatea ca A şi B sa fie aşezate alăturat?
(ii) Care este probabilitatea ca A şi B sa nu fie aşezate alăturat?
2!6! 2 2 5
R: (i) = , (ii) 1 − =
7! 7 7 7
Exerciţiu 2.5.7 Un grup de 10 persoane, format din 5 perechi soţ-soţie, sunt aşezate aleator în
linie de un fotograf. Care este probabilitatea ca fiecare femeie să stea lângă soţul ei?
5! · (2!)5
R: ≈ 0.0011
10!
Exerciţiu 2.5.8 (problema zilei de naştere) Dacă într-o clasă sunt 23 de elevi, care este probabili-
tatea ca cel puţin doi dintre ei serbează o aceeaşi zi de naştere? (presupunem că anul are n = 365
de zile şi ignorăm anii bisecţi).
40 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
A23
365
P(A) = ≈ 0.4927,
36523
Exerciţiu 2.5.11 Alegem la întâmplare un număr natural dintre 1 şi 1000, inclusiv, astfel încât
toate numerele au şanse egale de a fi alese. Care este probabilitatea ca acest număr să nu fie
divizibil nici cu 12, nici cu 15?
8 Fra Luca Bartolomeo de Pacioli (1446 − 1517) a fost un matematician şi călugăr franciscan italian, colaborator
R: Notez cu D evenimentul ca un număr ales aleator din mulţime să fie divizibil cu 12 şi cu C
evenimentul ca un număr ales aleator din mulţime să fie divizibil cu 15. Dacă un număr ales
aleator nu este divizibil nici cu 12 şi nici cu 15, atunci el se va afla în D ∩C. Dar, folosind regula
lui de Morgan,
P D ∩C = P(D ∪C) = 1 − P(D ∪C).
Utilizând principiul includerii-excluderii, avem că
P(D ∪C) = P(D) + P(C) − P(D ∩C),
de unde
[ 1000 1000 1000
12 ] + [ 15 ] − [ 60 ]
P = 1− = 0.867.
1000
Exerciţiu 2.5.12 În sertarul lui Gigel se află 6 perechi diferite de şosete. Gigel ia la întâmplare,
pe întuneric, 5 şosete. Care este probabilitatea de a nimeri exact o pereche?
R: Cazuri posibile: C12 5 = 792. Cazuri favorabile: C1 ·C3 · 23 = 480. Pentru uşurinţa justificării,
6 5
presupunem că perechile sunt colorate diferit. Sunt C61 moduri de a alege o pereche, sunt C53
moduri de a alege celelalte 3 culori din cele 5 rămase disponibile şi sunt câte 2 moduri de a alege
o şosetă de fiecare culoare aleasă. Găsim că probabilitatea este
480
P= ≈ 0.6061.
792
Exerciţiu 2.5.13 La jocul de poker, un jucător primeşte la întâmplare 5 cărţi dintr-un pachet de
52 de cărţi. Care este probabilitatea de a primi exact o pereche?
R: Putem alege 5 cărţi aleator în C52 5 moduri. Într-un pachet de 52 de cărţi, sunt 13 valori
(semne) diferite, de câte 4 culori fiecare. Alegem un semn în C13 1 = 13 moduri. După ce am ales
semnul, putem alege două culori cu acest semn în C42 = 6 moduri. Restul de 3 cărţi pot fi alese în
3 = 220 moduri, dintre cele 12 semne rămase. Fiecare carte dintre aceste 3 poate avea orice
C12
culoare. Avem 43 = 16 posibilităţi. Aşadar, probabilitatea dorită este
1 ·C2 ·C3 · 43
C13 4 12 1098240
5
= ≈ 0.4226.
C52 2598960
Exerciţiu 2.5.14 Determinaţi care eveniment este mai probabil: obţinerea a cel puţin unei feţe
de 6 puncte la aruncarea de 4 ori a unui zar ideal sau obţinerea a cel puţin unei duble (6, 6) în
urma aruncării de 24 de ori a două zaruri ideale (problema cavalerului de Mére9 ).
R: Notăm cu E1 = {1, 2, 3, 4, 5, 6}. Pentru experimentul aruncării unui singur zar de 4 ori,
spaţiul selecţiilor este Ω1 = E1 × E1 × E1 × E1 . Cardinalul acestei mulţimi este |Ω1 | = 64 .
Notăm cu E2 = {(i, j); i, j = 1, 2, 3, 4, 5, 6}. Pentru experimentul aruncării a două zaruri de 24
de ori, spaţiul selecţiilor este Ω2 = E2 × E2 × · · · × E2 , de 24 de ori. Cardinalul acestei mulţimi
este |Ω2 | = 3624 .
În ambele cazuri, spaţiul selectiilor este finit şi evenimenele elementare sunt echiprobabile.
Pentru a determina cardinalul evenimentului A1 = obţinerea a cel puţin unei feţe de 6 puncte la
aruncarea de 4 ori a unui zar ideal, este mai uşor de a examina complementara acestui eveniment.
Aceasta este A1 = {1, 2, 3, 4, 5}4 , cu |A1 | = 54 . Găsim că probabilitatea lui A1 este
Å ã4
5
P(A1 ) = 1 − P(A1 ) = 1 − ≈ 0.5177.
6
9 Antoine Gombaud, aka Chevalier de Méré (1607 − 1684), scriitor francez
42 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
Pentru a determina cardinalul evenimentului A2 = obţinerea a cel puţin unei duble (6, 6) în
urma aruncării de 24 de ori a două zaruri ideale, este mai uşor de a examina complementara
acestui eveniment. Aceasta este A2 = (E2 \ (6, 6)) × (E2 \ (6, 6)) × · · · × (E2 \ (6, 6)) (de 24 de
ori), cu |A2 | = 3524 . Găsim că probabilitatea lui A2 este
Å ã24
35
P(A2 ) = 1 − P(A2 ) = 1 − ≈ 0.4914.
36
Exerciţiu 2.6.7 Grupele sanguine pentru un grup de 200 de persoane sunt distribuite astfel: 50
au grupa A, 65 au grupa B, 70 au grupa O şi 15 au grupa AB. Dacă o persoană din acest grup este
selectată la întâmplare, care este probabilitatea ca această persoană să aibă grupa de sânge O?
Exerciţiu 2.6.8 Dacă A şi B sunt două evenimente incompatibile astfel încât P(A) = 0.6 şi
P(B) = 0.2, aflaţi probabilitatea ca măcar unul dintre ele să se realizeze.
Exerciţiu 2.6.9 Probabilitatea ca un student să ia notă de trecere la ambele examene la Probabili-
tăţi şi Statistică este 0.75 iar probabilitatea să nu ia niciunul este 0.1. Dacă probabilitatea de a lua
examenul de Probabilităţi este de 0.8, care este probabilitatea de a lua examenul de Statistică?
Exerciţiu 2.6.10 A şi B sunt două evenimente astfel încât P(A) = 0.6, P(B) = 0.4 şi P(A ∩ B) =
0.1. Aflaţi probabilităţile P(A sau B) şi P(nici A şi nici B).
Exerciţiu 2.6.11 Considerăm tipul de vin (roşu sau alb) cumpărat de fiecare dintre cei cinci
client, i diferit, i ai unui anumit magazin.
(a) Dacă probabilitatea ca cel mult unul dintre aces, ti client, i să cumpere vin ros, u este 0.428, care
este probabilitatea ca cel put, in doi să cumpere vin ros, u?
(b) Dacă P(tot, i cinci cumpără vin ros, u) = 0.116 s, i P(tot, i cinci cumpără vin alb) = 0.005, care
este probabilitatea ca cel put, in unul din fiecare tip de vin să fie cumpărat?
Exerciţiu 2.6.12 Să presupunem că pentru două evenimente A şi B avem că P(A) = 0.80,
P(A ∪ B) = 0.9 şi P(A \ B) = 0.50. Calculat, i: (a) P(A ∩ B); (b) P(A ∪ B) (c) P(B).
Exerciţiu 2.6.13 (i) Câte anagrame diferite pot fi folosind literele cuvântului ABRACADABRA?
. R: 83160
(ii) Toate literele din acest cuvânt sunt puse într-o căciulă, după care extragem pe rând câte o
literă şi le aşezăm în ordinea ieşirii. Care este probabilitatea să obţinem cuvântul ABRACADABRA?
Exerciţiu 2.6.14 Aruncăm o monedă de două ori. Care este probabilitatea de a obţine două
steme consecutive? Dar nicio stemă?
Exerciţiu 2.6.15 Aruncăm o monedă de cinci ori. Care este probabilitatea de a obţine cel puţin o
stemă?
Exerciţiu 2.6.16 Se aruncă două zaruri. Care este probabilitatea ca numărul arătat de primul zar
să fie mai mare decât numărul arătat de al doilea zar?
Exerciţiu 2.6.17 Aruncăm o monedă de trei ori. Care este probabilitatea ca la a două aruncare
să nu fi apărut banul?
Exerciţiu 2.6.18 Scrieţi spaţiul de selecţie pentru experimentul aleator “o monedă este aruncată
de 4 ori”.
Exerciţiu 2.6.19 Aruncăm un zar ideal. Fie A evenimentul ca un număr par să apară şi B
evenimentul ca un număr prim să apară.
• Sunt evenimentele A şi B incompatibile?
• Calculaţi probabiliăţile: P(A ∪ B), P(A ∩ B), P(A \ B), P(A ∩ B).
Exerciţiu 2.6.20 Aruncăm un zar ideal. Care este probabilitatea de a obţine un număr prim sau
par?
Exerciţiu 2.6.21 Spunem că un număr de telefon format cu 6 cifre este valid, dacă prima cifră
este 2, iar a doua cifră nu poate fi 0.
(a) Câte astfel de numere de telefon valide se pot forma?
(b) Formăm la întâmplare un număr de telefon cu 6 cifre. Care este probabilitatea ca el să fie
valid?
Exerciţiu 2.6.22 Un zar are feţele colorate diferit, după cum urmează: feţele 1 şi 2 în roşu, feţele
3 şi 4 în alb şi feţele 5 şi 6 în albastru. Se consideră evenimentele:
• A = apariţia unei feţe de culoare roşie;
• B = apariţia unei feţe de culoare albă;
44 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
Exerciţiu 2.6.35 În anumite familii, părinţii continuă să aibă copii pâna au cel puţin câte un
copil de fiecare sex. Să presupunem că probabilitatea de a avea un copil, indiferent de sex, este
0.5. Pentru astfel de familii, care este probabilitatea de a avea 4 copii?
Exerciţiu 2.6.36 Două persoane joacă un joc care este câştigat de cel care ajunge primul la trei
victorii. Dacă, din anumite motive, jocul se întrerupe la scorul de 2 : 1, cum trebuie împărţită
miza de 100 RON pusă în joc? (miza e împărţită proporţional cu şansele fiecărui jucător de a
ajunge la trei victorii) R: 75 şi 25
Exerciţiu 2.6.37 Se aruncă două zaruri. Care este probabilitatea ca la primul zar sa apara faţa cu
3 puncte, stiind ca suma punctelor aparute este 7? R: 1/6.
Exerciţiu 2.6.38 Amestecăm un pachet de cărţi de joc.
(i) Care este probabilitatea ca prima carte din pachet să fie un as? R: 4·51!
52!
(ii) Care este probabilitatea ca, pentru toate cărţile din pachet, cărţile de aceeaşi culoare să fie
4
ordonate una dupa cealaltă? R: 4!·(13!)
52!
(iii) Care este probabilitatea ca toate inimile să fie grupate una după cealaltă? R: 40!·13!
52!
Exerciţiu 2.6.39 O pereche de zaruri ideale este aruncată de 200 de ori. Care este probabilitatea
să obţinem o sumă de 7 în cel puţin 20% dintre cazuri?
Exerciţiu 2.6.40 Un cofraj conţine 10 ouă, dintre care două sunt sparte. Dacă se aleg 5 ouă la
întâmplare, care este probabilitatea ca dintre cele cinci: (a) niciunul să nu fie spart; (b) un ou
să fie spart.
Exerciţiu 2.6.41 La o tombola se vând 500 bilete, dintre care doar 5 sunt câştigătoare. O
persoană cumpară 10 bilete. Care este probabilitatea să nu se găsească nici un bilet câştigator?
Exerciţiu 2.6.42 Dacă într-o clasă sunt n = 30 de elevi, care este probabilitatea ca cel puţin unul
dintre ei să serbeze ziua de naştere în aceeaşi zi cu tine? (ignorăm anii bisecţi).
Exerciţiu 2.6.43 Un grup de 10 baieţi şi 10 fete este împărţit la întâmplare în două grupuri egale.
Să se determine probabilitatea ca fiecare grup să aibă acelaşi număr de baieţi şi de fete.
Exerciţiu 2.6.44 Două numere sunt generate aleator, astfel încât 0 < x < 3 şi 1 ≤ y ≤ 7 (uniform
în intervalele considerate). Care este probabilitatea ca suma lor să fie cel mult 5?
Exerciţiu 2.6.45 Două numere sunt generate aleator, astfel încât 0 < x < 1 şi 0 ≤ y ≤ 1 (uniform
în intervalele considerate).
x 1
(i) Care este probabilitatea ca raportul lor să fie între 2 şi 3? R: 12 ≈ 0.8333
y
(ii) Care este probabilitatea ca produsul lor să fie cel mult 0.5? R: ln 2+1
2 ≈ 0.8466
Exerciţiu 2.6.46 În problema întâlnirii, timpul de aşteptare se măreşte de la 15 minute la 20
minute. Care este probabilitatea ca cei doi prieteni să se întâlnească?
Exerciţiu 2.6.47 Dacă un ceas se opreşte la întâmplare, care este probabilitatea ca limba care
indică orele să se oprească între 7 şi 10?
Exerciţiu 2.6.48 La un joc de darts, jucătorii aruncă darts
spre panoul alăturat. Presupunem că întotdeauna nimeresc
panoul şi orice punct de pe panou are aceeaşi şansă de a fi
atins. Calculaţi:
• probabilitatea de a nimeri zona verde;
• probabilitatea de a nimeri zona roşie;
• probabilitatea de a nu nimeri niciun disc colorat.
Exerciţiu 2.6.49 Doi prieteni doresc să joace darts, fiecare alegându-
şi o tablă dintre modelele de tablă de darts din figura alăturată. Care
are cea mai mare şansă de câştig?
46 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
Exerciţiu 2.6.50 Ana, Bogdan şi Ciprian aleg fiecare câte un număr aleator între 0 şi 1, astfel
încât orice punct din interior are aceeaşi şansă de a fi ales. Care este probabilitatea ca suma
pătratelor numerelor alese să nu fie mai mare de 1?
Exerciţiu 2.6.51 Se aleg la întâmplare trei numere între 0 şi 1, astfel încât orice punct din interior
are aceeaşi şansă de a fi ales. Care este probabilitatea ca pătratul unui număr să fie mai mare
decât suma pătratelor celorlalte două numere?
Exerciţiu 2.6.52 Se alege aleator, în mod uniform, un număr x ce aparţin intervalului [−5, 5].
Care este probabilitatea evenimentului ca |x| > 2?
Exerciţiu 2.6.53 La un seminar participă 8 studenţi. Care este probabilitatea ca cel puţin doi
dintre ei să fie în aceeaşi zodie?
Exerciţiu 2.6.54 Evenimentele incompatibile A şi B sunt astfel încât P(A) = 0.2 şi P(B) = 0.4.
• Care este probabilitatea ca B să se realizeze şi A nu?
• Care este probabilitatea ca niciunul dintre ele să nu se realizeze?
Exerciţiu 2.6.55 Se aruncă două zaruri ideale. Care este probabilitatea ca primul zar să arate un
numă strict mai mare decât al doilea?
Exerciţiu 2.6.56 Păcală îl ademeneşte pe Tândală la un joc de barbut. Păcală a confecţionat
următoarele trei zaruri, pentru care numărul de puncte de pe fiecare faţă sunt modificate:
zarul 1: 5 7 8 9 10 18
zarul 2: 2 3 4 15 16 17
zarul 3: 1 6 11 12 13 14
Pentru fiecare zar, toate feţele au aceeaşi şansă de apariţie. Fiecare jucător alege un zar şi îl
păstrează pentru restul competiţiei. Un joc constă în aruncarea zarului ales, iar cel care obţine un
număr mai mare de puncte va câştiga jocul. Un astfel de joc poate fi repetat de mai multe ori, în
condiţii identice şi independente.
Păcală, politicos fiind, îl invită pe Tândală să fie primul care îşi alege zarul. Arătaţi că, orice
zar ar alege Tândală, Păcală are posibilitatea de a alege un zar mai bun dintre cele rămase şi să
câştige jocul.
Exerciţiu 2.6.57 Într-un sertar sunt 3 pachete a câte 20 de ţigări. În primul pachet este o ţigară
ruptă, în al doilea pachet sunt două ţigări rupte, iar în al treilea pachet sunt 3 ţigări rupte. Din
fiecare pachet luăm la întâmplare câte o ţigară. Care este probabilitatea ca
(a) niciuna să nu fie ruptă;
(b) toate trei să fie rupte;
(c) doar una să fie ruptă.
Exerciţiu 2.6.58 Se aruncă două zaruri de 5 ori. Care este probabilitatea să obţinem de două ori
suma 7?
Exerciţiu 2.6.59 Se aruncă o monedă de 6 ori. Care este probabilitatea să obţinem exact 3
steme?
Exerciţiu 2.6.60 Un profesor pregăteşte pentru examenul oral 18 de bilete, dintre care 7 sunt
de Algebră, 6 sunt de Geometrie şi 5 sunt de Analiză. Toate biletele sunt puse într-o cutie. Un
student extrage 3 bilete deodată. Care este probabilitatea ca:
(a) să aibă câte un bilet din fiecare disciplină;
(b) toate biletele să fie de Algebră;
(c) cel puţin un bilet este de Analiză.
Exerciţiu 2.6.61 Presupunem că într-o familie există şanse egale de a se naşte un băiat sau o fată.
Într-o familie cu 6 copii, care sunt şansele ca toţii copiii să fie fete? Dar să fie 3 fete şi 3 băieţi?
Exerciţiu 2.6.62 Un procent de 35% dintre locuitorii din Iaşi au fost la vot la ultimele alegeri.
2.6 Exerciţii propuse 47
Dacă întrebăm la întâmplare 5 oameni cu drept de vot, care sunt şansele ca măcar 3 dintre ei să fi
votat la ultimele alegeri?
Exerciţiu 2.6.63 Un jucător de fotbal este cotat cu şanse de 75% să marcheze gol de la 11 metri.
Care este probabilitatea ca, din următoarele 3 lovituri 11 metri pe care le va bate, să marcheze
doar de 2 ori?
Exerciţiu 2.6.64 Se aruncă un zar de 10 ori. Care este probabilitatea ca exact de 2 ori sa apară
faţa cu un punct şi exact de 3 ori să apară faţa cu două puncte?
Exerciţiu 2.6.65 Într-un lot de 100 de articole se află 80 corespunzătoare, 15 ce au defecţiuni
remediabile şi 5 rebuturi. Alegem 6 articole. Care este probabilitatea 3 să fie bune, 2 cu defecţiuni
remediabile şi unul să fie rebut ?
Exerciţiu 2.6.66 Se aruncă o monedă de 6 ori care este probabilitatea de a obţine un număr egal
de steme şi feţe cu banul?
Exerciţiu 2.6.67 Se aruncă un zar de 3 ori. Care sunt şansele ca niciun 6 să nu fi apărut?
Exerciţiu 2.6.68 Un producător de coşuri ştie că 10% dintre coşurile pe care le produce au
defecte. Dacă produce 10 coşuri pe zi, care este probabilitatea ca cel mult două dintre ele să fie
defecte?
Exerciţiu 2.6.69 Un coş conţine 7 mere roşii şi 3 mere verzi.
(a) Se alege la întâmplare un măr, fără a-l vedea. Care este probabilitatea ca el să fie roşu?
(b) Se aleg la întâmplare 3 mere. Care este probabilitatea ca măcar unul să fie verde?
Exerciţiu 2.6.70 Trei studenţi aruncă pe rând cu mingea la coşul de baschet. Şansele fiecăruia
de a înscrie sunt 0.5, 0.7, respectiv 0.9. Care este probabilitatea ca toţi trei să fi înscris?
3. Probabilităţi condiţionate
3.1 Definiţii
De multe ori in practica se pot intalni evenimente conditionate de alte evenimente. Aceasta
inseamna ca realizarea unui eveniment poate fi influentata de realizarea sau nerealizarea unui alt
eveniment.
Exemplu 3.1.1 Considerăm evenimentul A = echipa X a castigat ultimele trei meciuri in
campionat şi evenimentul B = echipa X castiga campionatul. Ne-ar putea interesa probabilitatea
evenimentului conditionat B|A = evenimentul ca echipa X sa castige campionatul stiind ca a
castigat ultimele trei meciuri. B|A se citeste evenimentul B conditionat de A.
Exemplu 3.1.2 Într-un depozit au fost aduse piese produse de 2 maşini diferite. Există şanse
ca oricare dintre cele două maşini să producă piese cu defecte. Alegem o piesă la întâmplare
din depozit. Ne-ar interesa să evaluăm şansele ca piesa aleasă să aibă defecte sau nu, ştiind
că ea poate fi produsă de oricare dintre cele două maşini. Pentru a evalua aceste şanse, facem
următoarele notaţii:
• A = evenimentul ca piesa aleasă să aibă defecte,
• B1 = evenimentul ca piesa aleasă să fi fost produsă de maşina 1,
• B2 = evenimentul ca piesa aleasă să fi fost produsă de maşina 2.
Astfel, am fi interesaţi să evaluăm probabilităţile următoarelor evenimente:
• evenimentul ca piesa să fie cu defecte ştiind că a fost produsă de maşina 1. Acest eveniment
va fi notat prin A|B1 , iar probabilitatea acestui eveniment se notează prin P(A|B1 ) sau
PB1 (A).
• evenimentul ca piesa să fie cu defecte ştiind că a fost produsă de maşina 2. Acest eveniment
va fi notat prin A|B2 , iar probabilitatea acestui eveniment se notează prin P(A|B2 ) sau
PB2 (A).
De asemenea, se poate schimba ordinea de condiţionare şi să evaluăm probabilităţile evenimente-
lor următoare:
• evenimentul ca piesa să fi fost produsă de maşina 1, ştiind că ea este cu defecte, eveniment
notat prin B1 |A. Notăm probabilitatea acestui eveniment prin P(B1 |A) sau PA (B1 ).
50 Capitolul 3. Probabilităţi condiţionate
• evenimentul ca piesa să fi fost produsă de maşina 2, ştiind că ea este cu defecte, eveniment
notat prin B2 |A. Notăm probabilitatea acestui eveniment prin P(B2 |A) sau PA (B2 ).
Considerăm două evenimente aleatoare A şi B, cu P(B) > 0. Relaţia P(B) > 0 indică faptul
că evenimentul B nu este imposibil. Avem nevoie de această condiţie deoarece nu am putea
condiţiona de un eveniment imposibil.
Aflaţi probabilitatea
1. evenimentului A condiţionat de B (apare un număr par, ştiind că a apărut un număr cel
puţin egal cu 3);
2. evenimentului B condiţionat de A (apare un număr cel puţin egal cu 3, ştiind că a apărut
un număr par);
3. evenimentului A condiţionat de B (apare un număr par, ştiind că nu a apărut un număr
cel puţin egal cu 3).
R: Avem că A = {2, 4, 6}, B = {3, 4, 5, 6} şi A ∩ B = B A = {4, 6}. Atunci:
T
T
P(A B) 2/6 1
1. P(A|B) = = = .
P(B) 4/6 2
T
P(B A) 2/6 2
2. P(B|A) = = = .
P(A) 3/6 3
De asemenea, B = {1, 2} şi A B = {2}. Atunci:
T
T
P(A B) 1/6 1
3. P(A|B) = = = .
P(B) 2/6 2
Proprietăţi ale probabilităţilor condiţionate:
Proprietăţi 3.1.1 1. P(A ∩ B) = P(A|B) · P(B) = P(B|A) · P(A), ∀A, B evenimente de pro-
babilitate nenulă.
2. P(A|B) = 1 − P(A|B), ∀A, B evenimente, cu P(B) 6= 0.
P(Bi ) · P(A|Bi )
P(Bi |A) = . (3.1.3)
P(A)
Observaţie 3.1.1 În practică, sunt întâlniţi următorii termeni: sensibilitate şi specificitate.
Sensibilitatea măsoară proport, ia testelor pozitive dintre toate probele cu adevărat pozitive. Cu
alte cuvinte, sensibilitatea unui test este capacitatea sa de a identifica corect persoanele cu boala
(adevăratele pozitive = true positives).
Specificitatea măsoară proport, ia testelor negative dintre toate es, antioanele cu adevărat negative.
Cu alte cuvinte, specificitatea unui test este capacitatea sa de a indica corect persoanele fără
boală (adevăratele negative = true negatives).
În problema anterioară, sensibilitatea este de 80% şi specificitatea este de 70%.
Exerciţiu 3.1.4 Într-un depozit au fost aduse piese produse de 2 fabrici diferite, astfel încât 40%
dintre piese sunt produse de prima fabrică şi restul de a doua fabrică. Există şanse ca oricare
dintre cele două fabrici să producă piese cu defecte. Şansele ca piesele produse de cele două
fabrici să fie cu defecte sunt de 10% şi, respectiv, de 5%. Alegem o piesă la întâmplare din
depozit şi observăm că este cu defecte.
(a) Care sunt şansele ca, alegând la întâmplare o piesă din depozit, aceasta să fie cu defecte?
(b) Care este probabilitatea să fi fost făcută de prima fabrică? Dar de a doua fabrică?
(c) Dacă administratorul depozitului are pierderi de 1400 de RON de pe urma pieselor cu defecte,
ce sume de bani ar trebui să solicite de la cele două fabrici pentru a-şi acopere pierderile?
R: Notăm cu F1 evenimentul ca o piesă aleasă din depozit să fi fost făcută de prima fabrică, cu
F2 evenimentul ca o piesă aleasă din depozit să fi fost făcută de a doua fabrică şi cu A evenimentul
ca piesa aleasă să fie defectă. Din ipoteză, avem că:
(a) Probabilitatea ca piesa aleasă aleator din depozit să fie cu defecte este
Exerciţiu 3.1.6 Într-un coş sunt 10 mere, 6 roşii şi 4 verzi. Extragem, pe rând, două mere, fără
revenire. Care este probabilitatea ca primul măr să fie roşu şi al doilea verde?
R: Fie R evenimentul ca primul măr să fie roşu şi V evenimentul ca al doilea măr să fie verde.
Atunci,
6 4 4
P(R ∩V ) = P(R) · PR (V ) = · = .
10 9 15
Exerciţiu 3.1.7 O urnă conţine 5 bile albe şi 3 bile negre. Se extrag succesiv 3 bile, fără
întoarcerea bilei extrase. Care este probabilitatea ca prima bilă să fie albă şi celelalte două să fie
negre?
R: Notăm cu Ai evenimentul ca la extragerea i să vedem o bilă albă, i = 1, 2, 3. Atunci,
evenimentul cerut este A1 ∩ A2 ∩ A3 , a cărui probabilitate este:
5 3 2 5
P(A1 ∩ A2 ∩ A3 ) = P(A1 ) · PA1 (A2 ) · PA1 ∩A2 (A3 ) = · · = .
8 7 6 56
echivalent cu T
P(A B)
= P(A).
P(B)
Putem rescrie ultima egalitate sub forma simetrică:
\
P(A B) = P(A) · P(B). (3.2.6)
Deoarece în relaţia (3.2.6) nu mai este nevoie de condiţie suplimentara pentru P(B), este prefera-
bil să definim independenţă a două evenimente arbitrare astfel:
Definiţie 3.2.1
2. Spunem că evenimentele A1 , A2 , . . . , An sunt independente două câte două dacă oricare
două evenimente din mulţime sunt independente.
3. Evenimentele A1 , A2 , . . . , An se numesc independente în ansamblu dacă oricum am alege
evenimente din aceasta mulţime, probabilitatea ca acestea să se realizeze simultan este
egală cu produsul probabilităţilor fiecărui eveniment în parte.
Matematic, scriem astfel:
∀k ≥ 2, ∀n1 , n2 , . . . , nk ∈ {1, 2, . . . , n}, ni distincte, are loc:
\ \ \
P(An1 An2 · · · Ank ) = P(An1 ) · P(An2 ) · . . . · P(Ank )
4. În general, evenimentele (Ai )i∈I ⊂ F , (I ⊂ N), se numesc independente dacă evenimentele
din orice submultime finita sunt independente.
Observaţie 3.2.1 Independenţa două câte două a evenimentelor nu implică independenţa în
ansamblu. Să exemplificăm considerând următorul experiment.
Considerăm aruncarea a două monede ideale. Fie A evenimentul ca "faţa ce apare la prima
monedă este stema", B evenimentul ca "faţa ce apare la a doua monedă este stema", iar C
evenimentul ca "doar la o monedă din cele două a apărut faţa cu stema". Se observă cu uşurinţă
că evenimentele A, B şi C sunt independente două câte două, deoarece:
\ 1 \ 1 \ 1
P(A C) = P(A) · P(C) = ; P(B C) = P(B) · P(C) = ; P(A B) = P(A) · P(B) = .
4 4 4
Totodată, mai observăm că oricare două dintre ele determina în mod unic pe al treilea. Aşadar,
independenţa a două câte două nu implică independenţa celor trei evenimente în ansamblu, fapt
observat şi din relaţia
\ \ 1
0 = P(A B C) 6= P(A) · P(B) · P(C) = .
8
Exerciţiu 3.2.1 Se aruncă două zaruri ideale. Fie A evenimentul în care suma celor numerele
este 7 şi B evenimentul că primul zar arată 3. Sunt aceste două evenimente independente?
R: Evenimentul total Ω este format din mulţimea tuturor perechilor posibile, care sunt în
număr de 36. Evenimentul A este
A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
Evenimentul B este
B = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}.
56 Capitolul 3. Probabilităţi condiţionate
E = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}.
Evenimentul F este
F = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}.
Exemplu 3.3.1 Săptămâna trecută a început campionatul naţional de fotbal. Înainte de primul
meci, Tudor avea o favorită la start, şi anume, echipa Juventus. Notăm cu C evenimentul ca
această echipă să câştige campionatul. El credea că probabilitatea acestui eveniment este P(C).
Totuşi, Juventus a pierdut primul meci. Probabilitatea ca acest eveniment să se fi întâmplat era
P(E) (aici, E reprezintă evenimentul ca echipa Juventus să piardă primul meci din campionat).
Folosind formula lui Bayes, probabilitatea condiţionată P(C/E), adică Juventus să câştige
campionatul condiţionată de pierderea primului meci, este
Probabilitatea P(C) se numeşte probabilitate subiectivă (sau a priori), înainte de experiment, şi
este bazată pe convingerea personală (intuiţie). După ce un experiment aleator a fost efectuat,
această probabilitate va fi ajustată pe baza informaţiei dobândite. Vom obţine astfel P(C/E),
numită probabilitate a posteriori (convingerea că Juventus va câştiga campionatul, ţinând cont
de informaţia că a pierdut primul meci). În mod similar, putem calcula probabilitatea ca Juventus
să piardă campionatul, condiţionată de pierderea primului meci, este
Exerciţiu 3.4.3 (1) Familia Petrescu are doi copii. Copilul mai în vârsta este o fată. Care este
probabilitatea ca ambii copii să fie fete?
(2) Familia Petrescu are doi copii. Cineva s-a intâlnit cu unul dintre copii; este o fată. Care este
probabilitatea ca ambii copii să fie fete?
R: (a) Cazuri echiprobabile pentru cei doi copii ai familiei: {FF, BF}.
1
Pa = .
2
(b) Cazuri echiprobabile pentru cei doi copii ai familiei: {FF, FB, BF}.
1
Pb = .
3
Altă soluţie: Notăm cu A = evenimentul ca ambii copii sa fie fete; B1 = evenimentul ca al
doilea copil sa fie fata si B2 = evenimentul ca macar unul dintre copii sa fie fata. Cei doi copii ai
familiei pot fi dupa cum urmeaza: {FF, FB, BF, BB}.
Exerciţiu 3.4.4 Pentru o familie cu 4 copii, care eveniment vi se pare mai probabil:
[1] câte doi de acelaşi sex sau [2] trei copii de un sex şi unul de altul?
(presupunem şanse egale de naştere a unei fete sau a unui băiat)
R: Spaţiul de selecţie este:
{FFFF, FFFB, FFBF, FBFF, BFFF, FFBB, FBFB, BFFB,
BBFF, BFBF, FBBF, FBBB, BBFB, BFBB, BBBF, BBBB}
Probabilitatea de a avea câte doi de acelaşi sex este
6 C2
P1 = = 0.375 (= 44 )
16 2
Probabilitatea de a avea trei copii de un sex şi unul de altul este
8 C41 +C43
P2 = = 0.5 (= )
16 24
Exerciţiu 3.4.5 O urnă conţine 10 bile: 4 roşii şi 6 albastre. O a doua urnă conţine 16 bile
roşii şi un număr necunoscut de bile albastre. Câte o singură bilă este extrasă din fiecare urnă.
Probabilitatea ca ambele bile extrase să aibă aceeaşi culoare este 0.44. Câte bile albastre sunt în
a doua urnă?
R: Extragerile din cele două urne se fac independent. Avem că:
Ä [ ä
0.44 = P {I = red, II = red} {I = blue, II = blue}
= P({I = red}) × P({II = red}) + P({I = blue}) × P({II = blue})
4 16 6 b 3b + 32
= × + × = ,
10 16 + b 10 16 + b 5b + 80
de unde b = 4.
3.4 Exerciţii rezolvate 59
Exerciţiu 3.4.6 S-a determinat statistic că incidenţa unei anumite boli rare într-o ţară este de
doar 1 caz la 10000 de adulţi. Pentru această boală rară există un test medical. Dacă un adult are
boala, atunci testul va indica acest fapt (test pozitiv) în 99% din cazuri. De asemenea, în 2% din
cazuri, testul va fi pozitiv chiar dacă individul nu are boala (false positive). Un cetăţean adult
este selectat aleator şi este testat pentru această boală rară. Testul este pozitiv. Care sunt şansele
ca cetăţeanul să sufere de această boală?
R: Notăm cu A evenimentul ca cetăţeanul să aibă boala şi cu B evenimentul ca rezultatul testului
să fie pozitiv. Atunci, din datele problemei, avem că
P(A) = 0.0001, P(A) = 0.9999, P(B/A) = 0.99, P(B/A) = 0.02.
Atunci, P(B) = P(A) · P(B/A) + P(A) · P(B/A) = 0.030096. Folosind formula lui Bayes,
P(A) · P(B/A) 9.9 · 10−5
P(A/B) = = ≈ 0.0049.
P(B) 0.027099
Deoarece probabilitatea este de 0.0049, şansele ca un cetăţean testat pozitiv să aibă într-adevăr
boala sunt mai mici de 5 la mie!
Q: Cum explicaţi rezultatul, deşi testul pare a fi de încredere? De câte ori a crescut probabilita-
tea a posteriori faţă de cea a priori, după ce rezultatul testului a fost anunţat?
Exerciţiu 3.4.7 Trei vanatori ochesc cu puşca o aceeasi vulpe. Fiecare vânător trage câte un foc
asupra vulpii. Fiecare dintre ei poate nimeri sau nu vulpea.
(a) Scrieţi spaţiul de selecţie Ω asociat experimentului aleator.
Ştim ca probabilităţile că fiecare dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2.
(b) Care este probabilitatea ca vulpea sa scape neatinsa?
Dupa trageri, se constata ca vulpea a fost nimerita o singura data.
(c) Care este probabilitatea ca primul vanator sa o fi nimerit?
R: (a) Notăm cu S evenimentul ca un vanator atinge tinta (succes) si cu E evenimentul sa nu o
atinga (eşec). Atunci, spaţiul de selectie este:
Ω = {SSS, SSE, SES, SEE, ESS, ESE, EES , EEE}.
(b) Notăm cu pi , qi , i = 1, 2, 3, probabilităţile de succes (respectiv, eşec) pentru fiecare vânător.
De asemenea, fie Vi (i = 0, 1) evenimentul ca vulpea să fi fost atinsă de i ori. Folosind schema
lui Poisson, găsim că
2 3 1 6
P(V0 ) = q1 · q2 · q3 = · · =
3 4 2 24
1 3 1 1 1 1 1 3 1 11
P(V1 ) = p1 q2 q3 + q1 p2 q3 + q1 q2 p3 = · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
6
Aşadar, probabilitatea ca vulpea sa scape neatinsa este P(V0 ) = 24 = 0.25.
!! Evenimentele elementare din Ω nu sunt echiprobabile, deci nu putem spune că P(V0 ) =
P(EEE) = 1/8!
(c) Notam cu A1 evenimentul ca primul vanator sa nimereasca vulpea. Avem de calculat
probabilitatea conditionata P(A1 /V1 ). Folosind formula (Bayes), avem ca:
P(A1 ) · P(V1 /A1 )
P(A1 /V1 ) =
P(V1 )
1/3 · 3/4 · 1/2 3
= = .
1/3 · 3/4 · 1/2 + 2/3 · 1/4 · 1/2 + 2/3 · 3/4 · 1/2 11
60 Capitolul 3. Probabilităţi condiţionate
Aici, V1 /A1 este evenimentul ca vulpea să fi fost nimerită o singură dată, ştiind că a nimerit-o
primul vânător, care este echivalent cu evenimentul că nici al doilea şi nici al treilea vânător nu
au nimerit-o. Atunci, P(V1 /A1 ) = P(A2 ∩ A3 ) = q2 q3 .
Exerciţiu 3.4.8 Trei întreprinderi trimit acelaşi tip de piese într-un depozit central, în proporţie
de 50%, 30%, respectiv, 20%. Cele trei întreprinderi au rebuturi în proporţie de, respectiv,
1%, 3%, 2%. Valoarea pieselor ce s-au dovedit a fi rebuturi este de 3600 RON. Cum ar trebui
împărţită această sumă între cele 3 întreprinderi?
R: Vom cere fiecarei intreprinderi despagubiri in cuantumuri proportionale cu ponderile de
rebuturi din depozit aduse de fiecare dintre ele. Notăm cu:
• A−evenimentul ca o piesă aleasă la întâmplare din depozitul central să fie rebut.
• Ai −evenimentul ca, alegând la întâmplare o piesă din depozit, aceasta să aparţină firmei i.
Pentru a determina cum împărţim cei 3600 între cele 3 firme, va trebui să determină probabilităţile
condiţionate P(A1 | A), P(A2 | A), P(A2 | A), care reprezintă ponderile de rebuturi produse de
fiecare firmă, condiţionate de apariţia unui rebut la o alegere la întâmplare din depozit.
Din datele problemei avem ca:
P(A1 ) = 0.5, P(A2 ) = 0.3, P(A3 ) = 0.2, P(A|A1 ) = 0.01, P(A|A2 ) = 0.03, P(A|A3 ) = 0.02.
Folosind formula probabilitatilor totale, gasim ca:
P(A) = P(A1 )P(A|A1 ) + P(A2 )P(A|A2 ) + P(A3 )P(A|A3 )
= 0.5 · 0.01 + 0.3 · 0.03 + 0.2 · 0.02 = 0.018.
Folosind formula lui Bayes, gasim ca:
P(A1 )P(A|A1 ) 5 P(A2 )P(A|A2 ) 1
P(A1 | A) = = , P(A2 | A) = = ,
P(A) 18 P(A) 2
P(A3 )P(A|A3 ) 2
P(A3 | A) = = .
P(A) 9
În consecinţă, pierderile vor trebui să fie împărţite astfel:
5 1 2
× 3600 = 1000 (firma 1); × 3600 = 1800 (firma 2); × 3600 = 800 (firma 3).
18 2 9
Exerciţiu 3.4.9 Doua persoane joaca un joc. Ele arunca succesiv o moneda. Jocul este castigat
de acea persoana care obtine prima, la aruncarea sa, fata cu stema. Sa se calculeze probabilitatea
de castig pentru fiecare dintre jucatori, stiind ca pentru fiecare dintre ei probabilitatea de a obtine
fata cu stema este 0.5.
R: Notăm cu A1 − evenimentul ca primul jucator sa castige; A2 − evenimentul ca al doilea
jucator sa castige. Fie P(A1 ) = p si P(A2 ) = q. Atunci, p + q = 1. Mai notam cu S evenimentul
ca primul sa obtina stema la prima aruncare. Avem ca: P(S) = P(S) = 0.5, P(A1 /S) = 1,
P(A1 /S) = q (daca primul nu da stema la prima aruncare, atunci rolurile celor doi jucatori se
inverseaza). Folosind formula probabilitatilor totale, obtinem:
1 1
p = P(A1 ) = P(S)P(A1 /S) + P(S)P(A1 /S) = + q.
2 2
Rezolvand sistemul
1 1
p + q = 1, + q = p,
2 2
gasim ca p = 23 si q = 13 .
3.5 Exerciţii propuse 61
Exerciţiu 3.5.16 O cutie opacă conţine două monede: una corectă şi una cu două steme. Scoatem
la întâmplare o monedă din cutie şi o aruncăm de n ori, obţinând de fiecare dată stema. Care sunt
şansele să fi scos moneda măsluită? Cunoscând doar rezultatele aruncărilor, vom şti vreodată cu
siguranţă ce monedă am scos?
Exerciţiu 3.5.17 Sultanul îl prinde pe Ali-Baba şi doreşte să îl pedepsească. Totuşi, se gândeşte
să-i mai dea o şansă, spunându-i: ”Ali, ai 10 bile albe şi 10 bile negre. Aşază bilele cum doreşti
în cele două urne, astfel încât nicio urnă să nu fie goală. Apoi, eu voi alege, la întâmplare, o urnă,
din care voi extrage o bilă. Dacă bila este albă, scapi nepedepsit. Altfel, vei muri.” Ajutaţi-l pe
Ali să-şi maximizeze şansele de supravieţuire.
Exerciţiu 3.5.18 La un spectacol TV aveti de ales una dintre cele 3 usi din fata. In spatele unei
usi se afla o masina, iar in spatele a celorlalte doua usi se afla cate o capra. Alegeti o usa din cele
3, insa gazda emisiunii, care stie ce se afla dincolo de usi, deschila o usa din cele ramasa si iti
arata ca se afla o capra. Totodata, gazda te intreaba daca vrei sa schimbi usa deja aleasa. O vei
face? De ce?
Exerciţiu 3.5.19 Aruncă două monede corecte legat la ochi. Cineva ît, i spune că ai aruncat cel
put, in o stemă. Care este probabilitatea ca ambele aruncări să fie steme?
4. Variabile aleatoare
4.1 Introducere
În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare reală. Se
numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece valorile
observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea numerică
este un număr real. Deoarece aceste variabile sunt legate de nişte experimente aleatoare, vom
asocia probabilităţi tuturor valorilor lor posibile. Aceste probabilităţi descriu, de fapt, şansele ca
fiecare valoare posibilă să fie observată.
Aşadar, din punct de vedere euristic, o variabilă aleatoare reală este o funcţie ce atribuie valori
reale unor probe dintr-un spaţiu de selecţie Ω al unui experiment aleator. În viaţă de zi cu zi
întâlnim numeroase astfel de funcţii, e.g., numerele ce apar la extragerea loto, numărul clienţilor
deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a unei persoane într-o
staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de clasa a IV-a la un
test de matematică etc.
Variabilele aleatoare le vom nota cu litere de la sfârşitul alfabetului, X, Y, Z sau ξ , η, ζ etc.
Exemplu 4.1.1 Un exemplu simplu de variabilă aleatoare reală este următorul. Considerăm
experimentul aleator al aruncării unei monede. Acest experiment poate avea doar două rezultate
posibile, notate S (stema) şi B (banul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui
experiment aleator îi putem ataşa funcţia (variabila aleatoare reală) X, care asociază feţei S
valoarea 1 şi feţei B valoarea 0. Matematic, scriem astfel: X : Ω → R, X(S) = 1, X(B) = 0.
Astfel, valorile 1 şi 0 pentru X vor indica faţa apărută la aruncarea monedei. O astfel de variabilă
64 Capitolul 4. Variabile aleatoare
aleatoare se numeşte variabilă aleatoare Bernoulli şi poate fi ataşată oricărui eveniment aleator
ce are doar două rezultate posibile, numite generic succes şi eşec.
Variabilele aleatoare pot fi: discrete, continue sau mixte. Variabilele aleatoare discrete sunt cele
care pot lua o mulţime finită sau cel mult numărabilă de valori. O variabilă aleatoare se numeşte
variabilă aleatoare continuă (sau de tip continuu) dacă mulţimea tuturor valorilor sale este
totalitatea numerelor dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune
disjunctă de astfel de intervale, cu precizarea că pentru orice posibilă valoare c, P(X = c) = 0. O
variabilă aleatoare mixtă este o combinaţie de două sau mai multe variabile aleatoare dicrete sau
continue. Variabilele anterioare mixte sunt mai puţin întâlnite decât celelalte două.
Exemple de variabile aleatoare discrete: numărul feţei apărute la aruncarea unui zar, numărul
de apariţii ale unui tramvai într-o staţie într-un anumit interval, numărul de insuccese apărute
până la primul succes etc. Din clasa variabilelor aleatoare de tip continuu amintim: timpul de
aşteptare la un ghişeu până la servire, preţul unui activ financiar într-o perioadă bine determinată.
Un exemplu de variabilă aleatoare mixtă: dacă timpul de aşteptare la un ghişeu este mai mare de
5 minute, firma te răsplăteşte cu 5 RON.
Dacă variabila aleatoare X poate lua un număr finit de valori, x1 , x2 , . . . , xn , atunci scriem
Exemplu 4.2.1 Urmărim timpul de funcţionare a unui anumit tip de baterie şi ne interesează să
vedem dacă bateria a funcţionat mai mult de 1 an, cât are perioada de garanţie. Atunci, putem
considera o variabilă aleatoare X care să indice dacă bateria a funcţionat mai mult de 1 an.
Matematic, putem scrie această variabilă astfel:
®
1, dacă bateria a funcţionat mai mult de 1 an
X=
0, dacă bateria a funcţionat mai puţin de 1 an
S B S B
Å ã
xk
X:
1/2 1/2 pk 1/2 1/2
Exemplu 4.2.3 Presupunem că X este variabila aleatoare ce reprezintă numărul de puncte ce
apare la aruncarea unui zar ideal. Această variabilă aleatoare ia valorile 1, 2, 3, 4, 5, 6, cu ponde-
rile asociate toate egale cu 1/6. Această variabilă o mai putem reprezenta în una din următoarele
forme:
tabloul de repartiţie tabelul de repartiţie
Å ã
1 2 3 4 5 6 xk 1 2 3 4 5 6
X:
1/6 1/6 1/6 1/6 1/6 1/6 pk 1/6 1/6 1/6 1/6 1/6 1/6
Exemplu 4.2.4 (repartiţia Poisson1 ) Pentru un λ > 0, considerăm variabila aleatoare X care
are ca valori toate numerele naturale, cu ponderile respective:
λk
P(X = k) = e−λ , ∀k ∈ N.
k!
Vom spune astfel că variabila aleatoare X urmează repartiţia Poisson de parametru λ . Matematic,
scriem X ∼ P(λ ). Valorile sale reprezintă numărul evenimentelor spontane (cu intensitatea λ )
realizate într-un anumit interval de timp. Această variabilă aleatoare o putem reprezenta în una
dintre următoarele forme:
tabloul de repartiţie tabelul de repartiţie
Ç å
0 1 2 ··· k ··· xk 0 1 2 ··· n ···
X: 2 k 2 k
e−λ e−λ 1!
λ
e−λ λ2! ··· e−λ λk! ··· pk e−λ e−λ 1!
λ
e−λ λ2! ··· e−λ λk! ···
1 Siméon-Denis Poisson (1781 − 1840), matematician şi fizician francez, student al lui Laplace
66 Capitolul 4. Variabile aleatoare
Dacă c ∈ R∗ este o constantă şi X este o variabilă aleatoare ca în (4.2.2), atunci c + X şi cX sunt
tot variabile aleatoare, ce au tablourile de repartiţie
Å ã Å ã
c + x1 c + x2 c + x3 . . . c + xn c · x1 c · x2 c · x3 . . . c · xn
c+X : cX :
p1 p2 p3 ... pn p1 p2 p3 ... pn
Exemplu 4.2.5 Notăm cu X este variabila aleatoare ce reprezintă numărul apărut la aruncarea
unui zar ideal Dacă la toate numerele de pe feţele unui zar se adaugă valoarea 10, atunci variabila
aleatoare ce reprezintă numărul apărut va fi Y = X + 10, cu tabloul de repartiţie
Å ã
11 12 13 14 15 16
X + 10 :
1/6 1/6 1/6 1/6 1/6 1/6
Dacă toate numerele de pe feţele unui zar se dublează, atunci variabila aleatoare ce reprezintă
numărul apărut va fi Z = 2 · X, cu tabloul de repartiţie
Å ã
2 4 6 8 10 12
2·X :
1/6 1/6 1/6 1/6 1/6 1/6
Adunarea variabilelor aleatoare
Å ã
x1 + y1 x1 + y2 . . . xi + y j . . . xm + yn
X +Y :
r11 r12 ... ri j ... rmn
Scriind doar o dată valorile care se repetă şi adunând probabilităţile aferente, găsim că
Å ã
−1 0 1 2
X +Y :
2/8 3/8 2/8 1/8
Å ã
x1 · y1 x1 · y2 . . . xi · y j . . . xm · yn
X ·Y :
r11 r12 ... ri j ... rmn
(−2)4 (−1)4 04 14 24
Å ã
4
X :
1/5 1/5 1/5 1/5 1/5
Scriind doar o dată valorile care se repetă şi adunând probabilităţile aferente, găsim că
Å ã
4 0 1 16
X :
1/5 2/5 2/5
Definiţie 4.2.1 Dacă X este o variabilă aleatoare discretă de forma (4.2.2), atunci definim
funcţia de probabilitate (de frecvenţă) (en., probability mass function) ataşată variabilei aleatoare
discrete X ca fiind o funcţie f : R → [0, 1], definită prin
f (xi ) = pi , i = 1, 2, 3, . . . , n.
În cuvinte, pentru fiecare posibilă valoare a unei variabilă aleatoare discrete, funcţia de probabili-
tate ataşează probabilitatea cu care X ia această valoare. Funcţia f are proprietatea că
n
f (xi ) ≥ 0 şi ∑ f (xi) = 1.
i=1
Exemplu 4.2.9 Reamintim că, pentru experimentul aruncării unui zar ideal, variabila aleatoare
(discretă) ataşată este
Å ã
1 2 3 4 5 6
X:
1/6 1/6 1/6 1/6 1/6 1/6
În Figura 4.1 de mai jos am reprezentat grafic funcţia de probabilitate pentru variabila aleatoare
X ce afişează numărul apărut la aruncarea unui zar ideal. Această funcţie este
Figura 4.2: (a) repartiţia uniformă pe intervalul [0, 1] (b) repartiţia normală standard
Pentru ca o funcţie reală să poată fi o densitate de repartiţie a unei variabile aleatoare, ea trebuie
sa satisfacă următoarele condiţii:
Z ∞
[1] f (x) ≥ 0, [2] f (x) dx = 1.
−∞
Funcţia de probabilitate sau densitatea de repartiţie poate depinde de unul sau mai mulţi parametri
reali.
Considerăm un câmp de probabilitate (Ω, F , P) şi fie X o variabilă aleatoare reală definită pe
acest câmp. În continuare, vom introduce diverse caracteristici (numerice şi funcţionale) pentru
variabilele aleatoare.
Definiţie 4.4.1 (i) Spunem că două variabilele aleatoare X şi Y sunt independente dacă pentru
orice a, b ∈ R, evenimentele {X ≤ a} şi {Y ≤ b} sunt independente, adică:
(ii) Spunem că variabilele aleatoare {Xi }ni=1 sunt independente dacă pentru orice set de numere
reale a1 , a2 , . . . , an , are loc:
Å ã
x1 + y1 x1 + y2 . . . xi + y j . . . xm + yn
X +Y :
p1 · q1 p1 · q2 . . . pi · q j . . . pm · qn
Å ã
x1 · y1 x1 · y2 ... xi · y j ... xm · yn
X ·Y :
p1 · q1 p1 · q2 ... pi · q j ... pm · qn
Exemplu 4.4.1 Să considerăm aruncarea unui zar. Aruncăm zarul de două ori şi notăm cu X1 ,
respectiv, X2 , variabilă aleatoare ce reprezintă numărul de puncte apărute la fiecare aruncare.
Evident, valorile acestor variabilă aleatoare sunt din mulţimea {1, 2, 3, 4, 5, 6}. Aşadar,
Xi : Ω → {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:
1
P ({X1 = i} ∩ {X2 = j}) = P ({X1 = i, X2 = j}) =
36
= P({X1 = i}) · P({X2 = j}), ∀i, j ∈ {1, 2, 3, 4, 5, 6},
această însemnând că variabilele aleatoare X1 şi X2 sunt independente stochastic (aruncările au
fost efectuate independent una de cealaltă).
4.5 Caracteristici numerice ale unei variabile aleatoare 71
Definiţie 4.5.1 Dacă X este o variabilă aleatoare discretă având tabelul de repartiţie (4.2.2) şi
funcţia de probabilitate f , atunci media acestei variabilă aleatoare se defineşte prin:
E(X) = p1 x1 + p2 x2 + p3 x3 + . . . + pn xn . (4.5.5)
Definiţie 4.5.2 Dacă X este o variabilă aleatoare de tip continuu, cu densitatea de repartiţie
f : R → R, atunci media (teoretică) acestei variabilă aleatoare, dacă există (!) (nu toate variabilele
aleatoare de tip continuu admit medie), se defineşte astfel:
Z ∞
E(X) = x f (x)dx. (4.5.6)
−∞
Proprietăţi 4.5.1
Definiţie 4.5.4 Dacă X este o variabilă aleatoare de tip continuu, cu densitatea de repartiţie
f : R → R. Atunci, pentru orice funcţie continuă h(x), media variabilă aleatoare h(X) (dacă
există) se defineşte prin: Z ∞
E(h(X)) = h(x) f (x)dx.
−∞
Definiţie 4.5.5 Dacă X este o variabilă aleatoare discretă având tabelul de repartiţie (4.2.2), cu
media E(X) = m, definim dispersia lui X (notată Var(X) sau Var(X)) ca fiind:
Var(X) = E[(X −m)2 ] = p1 (x1 −m)2 + p2 (x2 −m)2 + p3 (x3 −m)2 +. . .+ pn (xn −m)2 . (4.5.7)
72 Capitolul 4. Variabile aleatoare
Definiţie 4.5.6 Fie X : Ω → R o variabilă aleatoare de tip continuu pentru care există E(X) =
m ∈ R. Definim dispersia lui X (sau varianţa lui X) cantitatea
Z ∞
2
Var(X) = E[(X − m) ] = (x − m)2 f (x) dx. (4.5.8)
−∞
Notaţiile consacrate pentru dispersie sunt Var(X), σX2 sau, simplu, σ 2 , dacă nu este pericol de
confuzie. Alte formule pentru dispersie:
Ç å2
2
∑ xi pi − ∑ xi pi , în cazul discret
2 2
Var(X) = E[X ] − [E(X)] = Z ∞
i∈J
Åi∈J
Z ∞ ã2
2
x f (x) dx − x f (x) dx , în cazul continuu
−∞ −∞
Proprietăţi 4.5.2
Definiţie 4.5.7 √Numimpabatere standard (sau deviaţie standard, sau deviaţie medie pătratică)
cantitatea σ = σ2 = Var(X).
X −m
Definiţie 4.5.8 Variabila aleatoare Y = se numeşte variabila aleatoare standardizată
σ
(sau normată).
4.5.4 Momente
Pentru o variabilă aleatoare X (discretă sau continuă), ce admite medie, momentele sunt valorile
aşteptate ale puterilor variabilei aleatoare X sau X − µ.
4.5 Caracteristici numerice ale unei variabile aleatoare 73
Pentru o v.a. X de tip continuu ce admite medie m = E(X) < ∞, definim momentele:
Z ∞
αk (X) = xk f (x) dx (momente iniţiale de ordin k);
Z −∞
∞
µk (X) = (x − m)k f (x) dx (momente iniţiale centrate de ordin k);
−∞
Momente speciale:
• α1 (X) = E(X) = m;
• µ2 (X) = Var(X) = σ 2 ;
µ3 (X)
• γ1 = este coeficientul de asimetrie (en., skewness);
σ3
O repartiţie este simetrică dacă γ1 = 0. Vom spune că asimetria este pozitivă (sau la
dreapta) dacă γ1 > 0 şi negativă (sau la stânga) dacă γ1 < 0.
µ4 (X)
• K= − 3 este excesul (coeficientul de aplatizare sau boltire) (en., kurtosis).
σ4
Este al patrulea moment standardizat şi apoi translatat cu −3. Termenul (−3) apare pentru
că indicele kurtosis al distribuţiei normale să fie egal cu 0.
Indică dacă repartiţia unei variabile are valori extreme (outliers). Termenul (−3) apare
pentru că indicele kurtosis al distribuţiei normale să fie egal cu 0. Vom avea o repartiţie
mezocurtică pentru K = 0, leptocurtică pentru K > 0 sau platocurtică pentru K < 0.
4.5.5 Cuantile
Fie X o variabilă aleatoare cu funcţia de repartiţie F(x) = P(X ≤ x).
Definiţie 4.5.9 Pentru α ∈ (0, 1), definim cuantila de ordin α valoarea xα ∈ R astfel încât:
Dacă X este o variabilă aleatoare de tip continuu şi F(x) este strict crescătoare pe R, atunci xα
este unica valoare pentru care
Observaţie 4.5.1 (1) Cuantilele sunt măsuri de poziţie, ce măsoară locaţia unei anumite valori
faţă de restul valorilor. Ele sunt unice doar dacă variabila aleatoare este continuă şi F(x) este
strict crescătoare.
(2) În cazul în care X este o variabilă aleatoare discretă, este posibil să avem mai mult de o
cuantilă de ordin α pentru X. În acest caz, există o infinitate de soluţii, şi anume valorile dintr-un
interval (vezi Figura 4.4, unde toate valorile din intervalul [x1 , x2 ] sunt α−cuantile).
(3) Aşa cum se poate observa din Figura 4.3, valoarea xα pentru o repartiţie continuă este acel
număr real pentru care aria haşurată este chiar α.
4.5.6 Modul
Este acea valoare x∗ pentru care f (x∗ ) (densitatea de repartiţie sau funcţia de probabilitate) este
maximă. O repartiţie poate să nu aibă niciun mod, sau poate avea mai multe. Spre exemplu,
4.6 Funcţia de repartiţie 75
repartiţia uniform discretă (spre exemplu, v.a. ce reprezintă punctele apărute la aruncarea unui
zar ideal) nu are niciun mod, iar repartiţia normală este unimodală.
Numim funcţie de repartiţie ataşată v.a. reale X o funcţie F : R → [0, 1], definită prin
Termenul din engleză pentru funcţia de repartiţie este cumulative distribution function (cdf).
adică suma tuturor probabilităţilor corespunzătoare valorilor lui X care nu-l depăşesc pe x.
Exemplu 4.6.1 Considerăm variabila aleatoare ce are următorul tablou de repartiţie:
Å ã
1 2 3 4 5
X:
0.04 0.16 0.2 0.25 0.35
Funcţia de repartiţie a lui X este F : R −→ [0, 1], definită prin:
0, dacă x < 1,
0.04, dacă 1 ≤ x < 2,
0.04 + 0.16 = 0.2, dacă 2 ≤ x < 3,
F(x) =
0.04 + 0.16 + 0.2 = 0.4, dacă 3 ≤ x < 4,
0.04 + 0.16 + 0.2 + 0.25 = 0.65, dacă 4 ≤ x < 5,
0.65 + 0.35 = 1, dacă x ≥ 5.
Dacă X variabilă aleatoare discretă, atunci pentru orice două numere reale a şi b (a ≤ b), vom
avea:
P(a ≤ X ≤ b) = F(b) − F(a−), P(a < X ≤ b) = F(b) − F(a),
P(a ≤ X < b) = F(b−) − F(a−), P(a < X < b) = F(b−) − F(a).
Dacă X este o variabilă aleatoare continuă şi f este densitatea sa de repartiţie, atunci funcţia de
repartiţie este dată de formula:
Z x
F(x) = f (t) dt, x ∈ R. (4.6.12)
−∞
76 Capitolul 4. Variabile aleatoare
Dacă X variabilă aleatoare continuă, atunci pentru orice două numere reale a şi b (a ≤ b), vom
avea:
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b) = F(b) − F(a).
Observaţie 4.6.1 Deseori în calcule probabilistice, avem de calculat evenimentul P(X > x),
pentru un x ∈ R dat. Numim funcţie de repartiţie complementară, funcţia Fc : R → [0, 1], dată
prin F(x) = P(X > x) = 1 − F(x), ∀x ∈ R.
Fie X o variabilă aleatoare care ia valori nenegative şi pentru care media µ = E(X) < ∞. Atunci,
pentru orice a > 0 are loc inegalitatea:
σ2
P(|X − µ| ≥ a) ≤ pentru orice a > 0. (Cebîşev2 )
a2
Dacă în inegalitatea lui Cebîşev luăm a = kσ , unde k ∈ N, atunci obţinem:
1
P(|X − µ| ≥ kσ ) ≤ 2 ,
k
sau, echivalent:
1
P(|X − µ| < kσ ) ≥ 1 − 2 .
k
În cazul particular k = 3, obţinem regula celor 3σ :
1
P(|X − µ| ≥ 3σ ) ≤ ≈ 0.1.
9
sau
8
P(µ − 3σ < X < µ + 3σ ) ≥ , (4.6.13)
9
semnificând că o mare parte din valorile posibile ale variabilei aleatoare X se află în intervalul
[µ − 3σ , µ + 3σ ].
Teorema 4.6.1 Dacă X şi Y sunt variabile aleatoare independente şi g, h sunt două funcţii,
atunci şi variabilele aleatoare g(X) şi h(Y ) sunt independente.
În plus, dacă există mediile E(|g(X)|) şi E(|h(Y )|), atunci există şi E(|g(X) · h(Y )|) şi, în plus,
E(g(X) · h(Y )) = E(g(X)) · E(h(Y )).
Rezultatul poate fi generalizat la mai multe variabile aleatoare independente.
În particular, dacă funcţiile din rezultatul anterior sunt funcţiile identice, atunci obţinem:
Teorema 4.6.2 Dacă X1 , X2 , . . . , Xn sunt variabile aleatoare reale independente astfel încât
E(|Xk |) < ∞, ∀k = 1, 2, . . . , n,
atunci E(|X1 · X2 · . . . · Xn |) < ∞ şi:
E(X1 · X2 · . . . · Xn ) = E(X1 ) · E(X2 ) · . . . · E(Xn ). (4.6.14)
Teorema 4.6.3 Dacă X1 , X2 , . . . , Xn sunt variabile aleatoare reale independente astfel încât
Var(Xk ) < ∞, ∀k = 1, 2, . . . , n,
atunci Var(X1 + X2 + . . . + Xn ) < ∞ şi:
Var(X1 + X2 + . . . + Xn ) = Var(X1 ) +Var(X2 ) + . . . +Var(Xn ). (4.6.15)
2 Pafnuty Lvovich Chebyshev (1821 − 1894), matematician rus
4.6 Funcţia de repartiţie 77
Scriem că X ∼ U (n), dacă valorile lui X sunt {1, 2, . . . , n}, cu probabilităţile asociate
1
P(X = k) = , k = 1, 2, . . . , n.
n
n+1 n2 − 1
Media şi dispersia sunt: E(X) = , Var(X) = .
2 12
D.p.d.v. practic, repartiţia uniformă reprezintă observarea unui rezultat elementar în urma unui
experiment aleator cu un număr finit de cazuri posibile echiprobabile. Spre exemplu:
• faţa care apare la aruncarea unei monede ideale este o v.a. repartizată U (2);
• numărul de puncte care apar la aruncarea unui zar ideal este o v.a. repartizată U (6).
O variabilă aleatoare Bernoulli (scriem X ∼ B(1, p)) poate lua doar două valori, care sunt
formalizate matematic prin X = 1 (succes) sau X = 0 (insucces), cu probabilităţile P(X = 1) = p
şi P(X = 0) = 1 − p. Uneori, se foloseşte notaţia q = 1 − p.
Media şi dispersia sunt: E(X) = p, Var(X) = p(1 − p).
D.p.d.v. practic, o variabilă B(1, p) reprezintă numărul de succese obţinute într-o singură probă
a unui experiment de tip Bernoulli (are două variante de realizare: succes sau eşec). Spre
exemplu, numărul de steme apărute la aruncarea unei unei monede corecte poate fi modelat ca
fiind o v.a. B(1, 0.5).
Este un model matematic pentru schema bilei revenite (schema extragerilor cu repetiţie). Scriem
că X ∼ B(n, p) (n > 0, p ∈ (0, 1)), dacă valorile posibile ale lui X sunt {0, 1, . . . , n}, cu
probabilităţile asociate
Este un model matematic pentru schema bilei nerevenite (schema extragerilor fără repetiţie).
Scriem că X ∼ H (n, a, b) (n, a, b > 0) dacă
CakCbn−k
P(X = k) = n , pentru orice k ce satisface max(0, n − b) ≤ k ≤ min(a, n).
Ca+b
Observaţie 4.6.2 (i) Dacă X ∼ H (1, a, b), atunci X ∼ B(1, p), cu p = a+b
a
.
n
a+b−n
Media şi dispersia sunt: E(X) = ∑ E(Xk ) = np, Var(X) = np(1 − p) .
k=0 a+b−1
n
În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între Var(X) şi ∑ Var(Xk ),
k=0
deoarece (Xk )k nu sunt independente stochastic.
a+b−n a+b−n n
(ii) Pentru N = a + b n, putem face aproximarea ≈ = 1 − , de unde
a+b−1 a+b N
n
Var(X) ≈ np(1 − p) 1 − . (4.6.16)
N
Observăm că repartiţiile binomială şi hipergeometrică au aceeaşi medie, însă dispersiile diferă
prin termenul N−n N−1 . În cazul în care numărul de bile este mult mai mare decât numărul de
n
extrageri (N n), atunci acest termen devine aproximativ 1 − N . În plus, dacă N este foarte
mare, atunci trecând N → ∞ în (4.6.16), găsim că şi dispersiile celor două repartiţii coincid. Cu
alte cuvinte, când numărul de bile din urnă este foarte mare, nu mai contează dacă extragerea
bilelor se face cu repetiţie sau nu. Acest fapt îl vom utiliza în Teoria selecţiei, când extragerile se
fac dintr-o colectivitate de volum foarte mare.
Aplicaţii: la testul Fisher exact (test de concordanţă) sau la Texas hold’em poker.
Valorile sale reprezintă numărul evenimentelor spontane (cu intensitatea λ ) realizate într-un
anumit interval de timp. Pentru un λ > 0, spunem că X ∼ P(λ ) (legea evenimentelor rare) dacă
X ia valori naturale, cu probabilităţile
λk
P(X = k) = e−λ , V k ∈ N.
k!
Media şi dispersia sunt: E(X) = λ , Var(X) = λ .
Valorile sale reprezintă numărul de insuccese înregistrate până la obţinerea primului succes,
într-un număr de probe independente. Probabilitatea de avea succes la o singură probă este p,
aceeaşi pentru toate probele.
Spunem că X ∼ G eo(p), (p ∈ (0, 1)) dacă X ia valori în N, cu probabilităţile
Este unica distribuţie discretă cu această proprietate. Printre distribuţiile de tip continuu, doar
distribuţia exponenţială satisface această proprietate.
Valorile sale reprezintă numărul de insuccese obţinute înainte de a se realiza succesul de rang m.
În cazul particular m = 1, obţinem repartiţia geometrică.
Pentru m ≥ 1, p ∈ (0, 1), spunem că X ∼ BN (m, p) dacă X ia valorile {m, m + 1, m + 2, . . .},
cu probabilităţile asociate
m−1
P(X = k) = Cm+k−1 pm (1 − p)k , ∀k ≥ m, p ≥ 0.
Observaţie 4.6.4 Dacă (Xk )k=1,n ∼ G eo(p) sunt v.a. independente stochastic, atunci X =
n
∑ Xk ∼ BN (m, p).
k=1
Media şi dispersia sunt:
n n
m(1 − p) m(1 − p)
E(X) = ∑ E(Xk ) = , Var(X) = ∑ Var(Xk ) = .
k=1 p k=1 p2
Spunem că variabila aleatoare de tip continuu X urmează o repartiţie uniformă, scriem X ∼
U (a, b) (a < b), dacă funcţia sa de densitate este
ß 1
, dacă x ∈ (a, b),
f (x; a, b) = b−a
0 , altfel.
5 Paul Adrien Maurice Dirac(1902 − 1984) a fost un fizician britanic
6 Oliver Heaviside (1850 − 1925) a fost un om de ştiinţă britanic, autodidact
80 Capitolul 4. Variabile aleatoare
a+b (b − a)2
Media şi dispersia sunt: E(X) = , Var(X) = .
2 12
Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), astfel încât orice valoare are
aceeaşi şansă de a fi aleasă, urmează o repartiţie U (0, 1).
1 (x−µ)2
−
f (x; µ, σ ) = √ e 2σ 2 , x ∈ R.
σ 2π
Media şi dispersia sunt: E(X) = µ şi Var(X) = σ 2 .
Se mai numeşte şi repartiţia gaussiană. În cazul µ = 0 şi σ 2 = 1, densitatea de repartiţie devine:
1 x2
f (x) = √ e− 2 , x ∈ R. (4.6.17)
2π
În acest caz spunem că X urmează repartiţia normală standard, N (0, 1).
Graficul densităţii de repartiţie pentru repartiţia normală este clopotul lui Gauss (vezi Figura
4.5). Din grafic (pentru σ = 1), se observă că majoritatea valorilor nenule ale repartiţiei normale
standard se află în intervalul (µ − 3σ , µ + 3σ ) = (−3, 3).
Valorile sale sunt timpi realizaţi între două valori spontane repartizate P(λ ). Spunem că
X ∼ exp(λ ) (λ > 0) dacă are densitatea de repartiţie
λ e−λ x ,
ß
dacă x > 0,
f (x; λ ) =
0 , dacă x ≤ 0
1 1
Media şi dispersia sunt: E(X) = şi Var(X) = 2 .
λ λ
Repartiţia exponenţială satisface aşa-numita proprietate a lipsei de memorie, i.e.,
Este unica distribuţie continuă cu această proprietate. Dintre repartiţiile discrete, doar repartiţia
geometrică mai satisface această proprietate.
O v.a. X este repartizată X ∼ Γ(a, λ ), unde a, λ > 0, dacă densitatea sa de repartiţie este:
( a
λ
Γ(a) xa−1 e−λ x , dacă x > 0,
f (x; a, λ ) =
0 , dacă x ≤ 0.
a a
Media şi dispersia sunt: E(X) = , Var(X) = .
λ λ2
Observaţie 4.6.5 (i) Dacă n = 1, atunci Γ(1, λ ) ≡ exp(λ ).
(ii) Dacă v.a. {Xk }k=1,n ∼ exp(λ ) sunt independente stochastic, atunci suma lor este variabila
n
aleatoare ∑ Xk ∼ Γ(n, λ ).
k=1
(6) Repartiµia Weibull7 , W bl(k, λ ) (wbl)
În practică, distribuţia Weibull este utilizată în analiza fiabilităţii, modelând numărul de defecţiuni
în timp ale unui sistem/dipozitiv.
Media şi varianţa sunt:
1 2
Å ã ñ Å ã Å Å ãã ô
1 2 2
E(X) = λ Γ 1 + , Var(X) = λ Γ 1 + − Γ 1+ .
k k k
Vom spune că X ∼ χ 2 (n) (se citeşte repartiţia hi-pătrat cu n grade de libertate) dacă densitatea
sa de repartiţie este:
1 n x 2n −1 e− 2x , dacă x > 0,
n
f (x; n) = Γ( 2 )2 2
0 , dacă x ≤ 0.
unde Γ este funcţia lui Euler. Graficul acestei repartiţii (pentru diverse valori ale lui n) este
reprezentat în Figura 4.6.
Media şi dispersia sunt: E(χ 2 ) = n, Var(χ 2 ) = 2n.
Spunem că X ∼ t(n) (cu n grade de libertate) dacă densitatea de repartiţie este:
å− n+1
Γ n+1
Ç
2 x2 2
f (x; n) = √ 1+ , x ∈ R.
nπ Γ 2n
n
n
Media şi dispersia sunt: E(X) = 0, Var(X) = .
n−2
Această repartiţie este foarte utilizată în testarea ipotezelor statistice (test pentru media unei
populaţii statistice).
8 William Sealy Gosset (1876 − 1937), statistician britanic, care a publicat sub pseudonimul Student
9 Sir Ronald Aylmer Fisher (1890 − 1962), statistician, eugenist, biolog şi genetician britanic
4.7 Teoreme limită 83
Spunem că X ∼ F (m, n) (cu m, n grade de libertate) dacă densitatea de repartiţie este:
m
( mn ) 2 Γ( m+n
2 ) 2 −1
m m+n
m − 2
Γ( m2 )Γ( 2n )
x 1 + n x , dacă x > 0;
f (x) =
0 , dacă x ≤ 0.
n 2n2 (n + m − 2)
Media şi dispersia sunt: E(X) = , Var(X) = .
n−2 m(n − 2)2 (n − 4)
Această repartiţie este foarte utilizată în testarea ipotezelor statistice (test pentru compararea
dispersiilor unor populaţii statistice).
λ
f (x; λ , µ) = , x ∈ R.
π[(x − µ)2 + λ 2 ]
Dacă, în plus, presupunem că variabilele aleatoare din şirul de mai sus sunt independente
stochastic, atunci putem privi acest şir de variabile aleatoare ca un model pentru repetiţii
independente ale experimentului în aceleasi condiţii. Deşi avem de-a face cu un şir de funcţii
ce iau valori întâmplătoare, suma unui număr suficient de mare de variabile aleatoare îşi pierde
caracterul aleator.
n
Teoremele limită clasice descriu comportarea asimptotică pentru Sn = ∑ Xk , potrivit normalizată.
k=1
În Teoria Probabilităţilor există mai multe rezultate care stabilesc condiţiile în care una sau
cealaltă dintre legile anterioare au loc. Rezultatele matematice ce au la bază comportamentul
asimptotic al şirului {Sn }n se numesc legea slabă a numerelor mari, legea tare a numerelor mari
10 Augustin Louis Cauchy (1789 − 1857), matematician francez
84 Capitolul 4. Variabile aleatoare
şi teorema limită centrală. Prezentăm în continuare doar cele mai importante dintre ele, şi anume:
teoremele lui Bernoulli şi Hincin, pentru legea slabă, şi teorema lui Kolmogorov pentru legea
tare.
Teorema 4.7.1 (Teorema lui Bernoulli)
Să considerăm un experiment aleator şi un eveniment A asociat experimentului, pentru care
probabilitatea de realizare a sa este P(A) = p. Notăm cu νN este numărul de realizări ale lui A în
N experimente independente.
Atunci, şirul frecvenţelor relative, νNN , se apropie foarte mult de probabilitatea p în următorul
sens: dacă se efectuează o selecţie de volum mare N şi se obţin νN cazuri favorabile, atunci, cu o
probabilitate apropiată de 1, putem afirma că probabilitatea evenimentului cercetat este egală cu
frecvenţa relativă.
Teorema 4.7.2 (Hincin11 ) (legea slabă a numerelor mari)
Dacă Xn , n ≥ 1 sunt variabile aleatoare de medie µ, au dispersii finite, sunt independente două
câte două şi identic repartizate, atunci, pentru un n mare, putem scrie că media aritmetică
1 n
∑ Xi ≈ µ
n i=1
cu o probabilitate apropiată de 1.
Observaţie 4.7.1 1. Teorema ne spune că, deşi variabilele aleatoare independente pot lua valori
depărtate de mediile lor, media aritmetică a unui număr suficient de mare de astfel de variabile
aleatoare ia valori în vecinătatea lui µ, cu o probabilitate apropiată de 1.
2. De asemenea, acest rezultat poate fi interpretat în Statistică după cum urmează. Variabilele
Xk corespund unor observaţii independente asupra unei mărimi. Pentru orice un eşantion suficient
de mare de observaţii, valoarea medie a acestor observaţii se va afla, cu o probabilitate mare,
arbitrar de aproape de valoarea aşteptată µ. De fapt, toate aceste medii (pentru un n suficient de
mare) se vor afla, cu o probabilitate mare, într-un interval de forma (µ − ε, µ + ε).
3. Mai menţionăm şi faptul că teorema de mai sus are loc şi în cazul în care variabilele aleatoare
i.i.d. sunt doar cu medii finite, nu neapărat independente.
Teorema 4.7.3 (Kolmogorov) (legea tare a numerelor mari)
Dacă variabilele aleatoare (Xn )n∈N∗ sunt independente, identic repartizate, toate având aceeaşi
medie µ finită, atunci, pentru un n suficient de mare,
1 n
∑ Xi = µ,
n i=1
Sn − nµ
standardizată, Sn = √ , este o variabilă aleatoare de repartiţie N (0, 1).
σ n
Matematic, scriem că:
Sn − nµ
Sn := √ ∼ N (0, 1).
σ n
Observaţie 4.7.3 (a) În mod echivalent, mai putem spune că distribuţia variabilei aleatoare
1 n σ
X = ∑ Xk este aproximativ normală N (µ, √ ).
n k=1 n
(b) O consecinţă a teoremei limită centrală este că putem calcula probabilităţi legate de variabile
aleatoare ce au repartiţii oarecare folosind tabelele de la repartiţia normală. Astfel, vom avea:
Sn − nµ
Å ã
lim P a ≤ √ ≤ b = Θ(b) − Θ(a), (4.7.19)
n→∞ σ n
unde funcţia Θ este funcţia lui Laplace (func stia de rapartiţie pentru o normală standard) şi este
tabelată (vezi Tabelul 11.2).
(c) TLC ne permite să aproximăm sume de variabile aleatoare identic repartizate, avînd orice
tip de repartiţii (atât timp cât variaţia lor e finită), cu o variabilă aleatoare normală. Un exemplu
ar fi aproximarea repartiţiei normale cu repartiţia binomială când numărul de încercări e foarte
mare (vezi teorema lui de Moivre-Laplace de mai jos).
Se pune problema: Cât de mare ar trebui să fie n, în practică, pentru că teorema limită centrală
să fie aplicabilă?
Dacă variabilele aleatoare {Xk }k sunt deja normal repartizate, atunci aproximarea sumei standar-
dizate cu o variabilă normală este, de fapt, o egalitate, fiind adevarată pentru orice n ∈ N∗ . Dacă
{Xk }k nu sunt normal repartizate, atunci un număr n astfel încât n ≥ 30 ar fi suficient pentru
aproximarea cu repartiţia normală deşi, dacă repartiţia lui Xk este simetrică, aproximarea ar putea
fi bună şi pentru un număr n mai mic de 30.
(2) În general, dacă dorim să aproximăm o repartiţie discretă (ce are media µ şi dispersia σ 2 )
cu una normală, atunci scriem:
k + 12 − µ
Ç å
P(X ≤ k) ≈ Θ (4.7.22)
σ
şi
k + 12 − µ k − 21 − µ
Ç å Ç å
P(X = k) ≈ Θ −Θ , (4.7.23)
σ σ
Exerciţiu 4.7.1 În Figura 4.7 am reprezentat grafic (cu bare) funcţiile de probabilitate pentru
repartiţiile binomială şi Poisson, atunci când numărul de extrageri în schema binomială este un
număr mare. Observăm că pentru un număr n suficient de mare, cele două grafice se suprapun.
Din Figura 4.7, observăm că graficul are forma clopotului lui Gauss, justificând grafic faptul
că funcţiile de probabilitate pentru binomială (albastru) şi Poisson (roşu) tind la densitatea de
repartiţie pentru repartiţia normală.
Exerciţiu 4.7.2 Graficele din Figura 4.8 reprezintă un set de date repartizate exponenţial cu
media 2 (stânga) şi mediile lor (dreapta), care sunt repartizate normal.
4.8 Exerciţii rezolvate 87
Figura 4.8: Date repartizate exp(2) (stânga) şi mediile lor (dreapta)
X 1 2 3 4 5
p(x) 7a 5a 4a 3a a
unde a este un număr real necunoscut. Aflaţi valoarea lui a, media şi modul pentru variabila
aleatoare X.
R: Reamintim că toate probabilităţile trebuie să fie între 0 şi 1 şi suma probabilităţilor trebuie să
1
fie egală cu 1. Astfel, vom avea că 7a + 5a + 4a + 3a + a = 1, de unde a = 20 .
7 5 4 3 1
Media lui X este E(X) = 20 · 1 + 20 · 2 + 20 · 3 + 20 · 4 + 20 · 5 = 2.3.
Se observă că modul variabilei este Mo(X) = 1.
Exerciţiu 4.8.3 Considerăm variabila aleatoare X ce are tabelul de repartiţie următor:
X 2 3 5 7 11
1 1 1
p(x) 6 3 4 a b
unde a şi b sunt numere reale necunoscute. Media variabilei aleatoare X este 14 3 . Aflaţi valorile a
şi b.
R: Deoarece suma probabilităţilor trebuie să fie egală cu 1, găsim că a + b = 41 . Media variabilei
X este E(X) = 14 1 1 1 25
3 = 6 · 2 + 3 · 3 + 4 · 5 + 7a + 11b, de unde 7a + 11b = 12 . Din aceste două
ecuaţii, găsim că a = 16 şi b = 12
1
.
88 Capitolul 4. Variabile aleatoare
Exerciţiu 4.8.4 O pisică dintr-o anumită rasă poate avea între 1 şi 4 pui la naştere. Notăm cu
X xariabila aleatoare X ce reprezintă numărul de pui pe care îi poate avea la naştere, care are
tabelul de repartiţie următor:
X 1 2 3 4
p(x) 0.18 0.51 0.27 0.04
(a) Aflaţi numărul mediu de pui nou-născuţi şi deviaţia standard pentru o pisică din această rasă.
(b) Preţul unei pisici din această rasă este o variabilă aleatoare P = 250 · X + 2500 (exprimat în
RON). Aflaţi preţul mediu şi deviaţia standard a preţului unei pisici din această rasă.
R: (a) Numărul mediu de pui nou-născuţi per pisică este
E(X) = 0.18 · 1 + 0.51 · 2 + 0.27 · 3 + 0.04 · 4 = 2.17.
Dispersia lui X este
σX2 = 0.18 · (1 − 2.17)2 + 0.51 · (2 − 2.17)2 + 0.27 · (3 − 2.17)2 + 0.04 · (4 − 2.17)2 ≈ 0.5811.
√
Deviaţia standard a lui X este σX = 0.5811 ≈ 0.7623.
(b) Folosim formulele E(aX + b) = a · E(X) + b şi Var(aX + b) = a2 ·Var(X). Astfel:
(c) Mircea va câştiga la un singur joc dacă va obţine o sumă mai mare decât suma pe care a
plătit-o la intrarea în joc. Astfel, probabilitatea de a câştiga este
1 1 1 7
P(C > 7.5) = P(C = 8) + P(C = 10) + P(C = 12) = + + = ≈ 0.5833,
6 4 6 12
deci şansele de câştig sunt de circa 58.33%.
Exerciţiu 4.8.6 Se aruncă două zaruri ideale distincte.
(a) Scrieţi repartiţia variabilei aleatoare S2 ce reprezinta suma fetelor obţinute.
(b) Calculaţi media variabilei aleatoare S2 . Care este valoarea cea mai probabilă a sa?
(c) Reprezentaţi grafic funcţia de probabilitate a lui S2 (graficul frecvenţelor).
(d) Care este probabilitatea ca suma fetelor obtinute sa fie cel putin 7?
R: (a) Tabloul de repartiţie pentru S2 este:
Å ã
2 3 4 5 6 7 8 9 10 11 12
S2 : 1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36
(b) Media lui S2 este 7, care este şi cea mai probabilă valoarea a sa (modul).
E(S2 ) = 7
1 2 3 4 5 6 5 4 3 2 1
= · 2 + · 3 + · 4 + · 5 + · 6 + · 7 + · 8 + · 9 + · 10 + · 11 + · 12
36 36 36 36 36 36 36 36 36 36 36
Exerciţiu 4.8.7 Considerăm un eveniment aleator care are probabilitatea p ∈ (0, 1) de realizare
într-o singură probă (de exemplu, probabilitatea de a trece un examen). Notăm cu X numărul
de eşecuri înregistrate până obţinem pentru prima oară un succes. Scrieţi repartiţia variabilei
aleatoare X.
R: Valorile posibile ale variabilei X sunt toate numerele naturale. Spre exemplu, X = 0 daca
nu am avut niciun esec (examenul a fost trecut din prima), X = 1 daca am avut un esec din
90 Capitolul 4. Variabile aleatoare
X 0 1 2 ··· n ···
pn p qp q2 p · · · qn p ···
∞ ∞
1
Se observa cu usurinta ca ∑ qn p = p ∑ qn = p 1 − q = 1. Vom spune că variabila X urmeaza
n=0 n=0
repartitia geometrica de parametru p. Scriem X ∼ G eo(p). Ca o observatie, variabila Y = X + 1
reprezinta numarul de incercari pana la reusita.
Exerciţiu 4.8.8 Care este probabilitatea de apariţie pentru prima oară a feţei la aruncarea
unui zar ideal din cel puţin 3 aruncări? Dar în exact 3 aruncări?
R: Notăm cu X variabilă aleatoare variabilă aleatoare ale cărei valori reprezintă numărul de
eşecuri avute până la primul succes. Aceasta urmează repartiţia geometrică G eo(1/6). În
consecinţă, numărul de aruncări necesare obţinerii feţei pentru prima dată este Y = X + 1.
Probabilitatea de a obţine pentru prima oară această faţă din cel puţin 3 aruncări este totuna cu
probabilitatea de a avea cel puţin 2 eşecuri până la apariţia acestei feţe. Aşadar, avem:
Probabilitatea de a obţine pentru prima oară faţa cu şase puncte din exact 3 aruncări este:
Exerciţiu 4.8.9 În drumul Mariei de acasă până la serviciu se află două semafoare. Notăm cu
X1 variabilă aleatoare ce reprezintă numărul de semafoare pe care Maria le prinde pe roşu, şi
presupunem că repartiţia lui X1 este următoarea:
x 0 1 2
p(x) 0.2 0.5 0.3
x 0 1 2 3 4
p(x) 0.04 0.2 0.37 0.3 0.09
4.8 Exerciţii rezolvate 91
(c) P(X ≥ 2) = 0.37 + 0.3 + 0.09 = 0.76. Altfel, folosind funcţia de repartiţie,
P(X ≥ 2) = 1 − P(X < 2) = 1 − P(X ≤ 1) = 1 − F(1) = 1 − 0.24 = 0.76.
Exerciţiu 4.8.10 Trei vanatori ochesc cu pusca o aceeasi vulpe. Fiecare vânător trage câte un
foc asupra vulpii. Fiecare dintre ei poate nimeri sau nu vulpea. Ştim ca probabilităţile că fiecare
dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2. Fie V variabila aleatoare ce reprezintă
numărul de ori în care vulpea a fost nimerită. Determinaţi repartiţia variabilei aleatoare V .
R: Variabila V poate avea doar valorile: 0− vulpea nu este atinsa, 1− vulpea este atinsa o
singura data, 2− vulpea este atinsa de 2 ori sau 3− vulpea este atinsa de 3 ori. Pentru i = 1, 2, 3,
notam cu Vi variabila aleatoare ce reprezinta numarul de ori în care vanatorul i atinge vulpea.
Repartitiile pentru fiecare Vi sunt:
Å ã Å ã Å ã
0 1 0 1 0 1
V1 : 2 1 V2 : 3 1 V3 : 1 1
3 3 4 4 2 2
Deoarece vanatorii trag independent unul de celalalt, avem ca V1 , V2 , V3 sunt variabile aleatoare
independente. Atunci V = V1 +V2 +V3 are repartiţia:
Å ã
0 1 2 3
V: 6 11 6 1
24 24 24 24
Într-adevăr, pentru fiecare eveniment {V = i} se calculează probabilitatea astfel:
P(V = 0) = P ({V1 = 0} ∩ {V2 = 0} ∩ {V3 = 0})
2 3 1 6
= P(V1 = 0) · P(V2 = 0) · P(V3 = 0) = · · =
3 4 2 24
P(V = 1) = P ({V1 = 1} ∩ {V2 = 0} ∩ {V3 = 0}) + P ({V1 = 0} ∩ {V2 = 1} ∩ {V3 = 0}) +
+P ({V1 = 0} ∩ {V2 = 0} ∩ {V3 = 1})
1 3 1 1 1 1 1 3 1 11
= · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
P(V = 2) = P ({V1 = 1} ∩ {V2 = 1} ∩ {V3 = 0}) + P ({V1 = 1} ∩ {V2 = 0} ∩ {V3 = 1}) +
+P ({V1 = 0} ∩ {V2 = 1} ∩ {V3 = 1})
1 1 1 1 3 1 2 1 1 6
= · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
P(V = 3) = P ({V1 = 1} ∩ {V2 = 1} ∩ {V3 = 1}) =
1 1 1 1
= P(V1 = 1) · P(V2 = 1) · P(V3 = 1) = · · =
3 4 2 24
92 Capitolul 4. Variabile aleatoare
Exerciţiu 4.8.11 Cineva a înregistrat zilnic timpul între două sosiri succesive ale tramvaiului
într-o anumită staţie şi a găsit că, în medie, acesta este de 20 de minute. Se ştie că acest timp este
distribuit exponenţial. Dacă o persoană a ajuns în staţie exact când tramvaiul pleca, aflaţi care
sunt şansele ca ea să aştepte cel puţin 15 minute până vine următorul tramvai.
R: Notăm cu T timpul de aşteptare în staţie între două sosiri succesive ale tramvaiului şi cu FT
funcţia sa de repartiţie. Ştim că T ∼ exp(λ ), unde λ = 20. Aşadar, avem de calculat P(T ≥ 15),
care este:
Z ∞
P(T ≥ 15) = 1 − P(T < 15) = 1 − FT (15) = 15e−15x dx ≈ 0.4724,
0
aleatoare Z.
Exerciţiu 4.9.10 Persoana A arunca 2 zaruri si persoana B arunca 3 zaruri. Fiecare aduna
punctele obtinute. Sa se calculeze probabilitatea evenimentului ca A si B sa obtina aceeasi suma.
Exerciţiu 4.9.11 Se arunca doua zaruri. Care este probabilitatea ca numerele obtinute sa fie
solutiile ecuatiei λ 2 − 4λ + 3 = 0.
Exerciţiu 4.9.12 Consideram variabila aleatoare care reprezinta numarul ce apare la aruncarea
unui zar ideal. Determinati functia de repartitie asociata si reprezentati-o grafic.
Exerciţiu 4.9.13 X este o variabila aleatoare uniformă U (−2, 5).
(i) Determinati functia de repartitie asociata si reprezentati-o grafic.
(ii) Se alege aleator, după repartiţia U (−2, 5), un număr din intervalul (−1, 1). Care este
probabilitatea ca el să fie pozitiv?
Exerciţiu 4.9.14 (a) Folosiţi tabelele de cuantile pentru a găsi următoarele:
2
(a) z0.975 (b) t0.975, 12 (c) χ0.9, 5 (d) f0.95, 12, 10 .
(b) Găsiţi valorile de mai sus folosind definiţia şi integrând densităţile de repartiţie corespunză-
toare.
Exerciţiu 4.9.15 Temperatura T (0C) dintr-un anumit proces chimic are repartiţia U (−5, 5).
Calculaţi P(T < 0); P(−2.5 < T < 2.5); P(−2 ≤ T ≤ 3).
Exerciţiu 4.9.16 Temperatura de topire a unui anumit material este o variabilă aleatoare cu
media de 120 oC şi deviaţia standard de 2 oC. Determinaţi temperatura medie şi deviaţia standard
în o F, ştiind că o F = 1.8 oC + 32.
Exerciţiu 4.9.17 Notăm cu Sn suma numerelor ce apar în n aruncări independente ale unui zar
ideal.
(a) Calculaţi probabilitatea P = P(S2 ≥ 6).
(b) Calculaţi probabilitatea obţinerii unui număr par.
Exerciţiu 4.9.18 O companie de asigurări oferă angajaţilor săi diverse poliţe de asigurare. Pentru
un asigurat ales aleator, notăm cu X numărul de luni scurs între două plăţi succesive. Funcţia de
repartiţie a lui X este:
0 , x < 1;
0.3 , 1 ≤ x < 3;
0.4 , 3 ≤ x < 4;
F(x) =
0.45 , 4 ≤ x < 6;
0.65 , 6 ≤ x < 12;
1 , 12 ≤ x.
−2 0 2
Å ã
X: 1 1 1 .
4 2 4
note 4 5 6 7 8 9 10
frecventa 3 6 7 8 5 4 2
Statistica descriptivă este acea ramură a Statisticii care se preocupă de descrierea datelor statistice,
prin gruparea, reprezentarea grafică şi calcularea unor măsuri empirice ale formei sau tendinţei
datelor. Este primul pas pe care îl face un statistician ce urmăreşte sa extragă informatii dintr-un
set de date.
Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru o mai
buna observare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului), datele sunt
asezate in tabele de frecvente. Aceste tabele pot contine, pe langa clasele construite, frecvente
absolute, frecvente relative, frecvente cumulate, frontierele claselor, valorile de mijloc. Uneori
doar un singur tip de frecvente este suficient pentru a continua analiza datelor. Un exemplu de
tabel de frecvente este Tabelul 5.4.
Exista mai multe optiuni pentru reprezentarea grafica a datelor, in functie de tipul de date pe care
le avem. Spre exemplu, pentru date discrete sunt preferate reprezentarile cu bare sau cu sectoare
de disc. Dupa caz, mai pot fi folosite reprezentari cu puncte sau stem&leaf. Pentru date continue
se folosesc histograme sau sectoare de disc.
rata şomajului este ridicată, este de aşteptat ca în acea zonă calitatea vieţii persoanelor de acolo să
nu fie la standarde ridicate. Totuşi, ne-am dori să fim cât mai precişi în evaluarea legăturii dintre
rata somajului şi calitatea vieţii, de aceea ne-am dori să construim un model matematic ce să ne
confirme intuiţia. Un alt gen de problemă: ardem de nerăbdare să aflăm cine va fi noul preşedinte,
imediat ce secţiile de votare au închis porţile (exit-pole). Chestionarea tuturor persoanelor ce au
votat, colectarea şi unificarea tuturor datelor într-un timp record nu este o măsură deloc practică.
În ambele probleme menţionate, observaţiile şi culegerea de date au devenit prima treaptă spre
înţelegerea fenomenului studiat. De cele mai multe ori, realitatea nu poate fi complet descrisă de
un astfel de model, dar scopul este de a oferi o aproximare cât mai fidelă şi cu costuri limitate. În
ambele situaţii menţionate apar erori în aproximare, erori care ţin de întâmplare. De aceea, ne-am
dori să putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la colecţiile
de date obţinute dintr-o colectivitate, Statistica introduce metode de predicţie şi prognoză pentru
descrierea şi analiza proprietăţilor întregii colectivităţi. Aria de aplicabilitate a Statisticii este
foarte mare: ştiinţe exacte sau sociale, umanistică sau afaceri etc. O disciplină strâns legată de
Statistică este Econometria. Aceasta ramură a Economiei se preocupă de aplicaţii ale teoriilor
economice, ale Matematicii şi Statisticii în estimarea şi testarea unor parametri economici, sau
în prezicerea unor fenomene economice.
Statistica a apărut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaţiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai
bune administrări. Datorită originii sale, Statistica este considerată de unii ca fiind o ştiinţă de
sine stătătoare, ce utilizează aparatul matematic, şi nu este privită ca o subramură a Matematicii.
Dar nu numai originile sale au fost motivele pentru care Statistica tinde să devină o ştiinţă
separată de Teoria Probabilităţilor. Datorită revoluţiei computerelor, Statistica a evoluat foarte
mult în direcţia computaţională, pe când Teoria Probabilităţilor foarte puţin. Aşa cum David
Williams scria în [19], "Teoria Probabilităţilor şi Statistica au fost odată căsătorite; apoi s-au
separat; în cele din urmă au divorţat. Acum abia că se mai întâlnesc".
Din punct de vedere etimologic, cuvântului statistică îşi are originile în expresia latină statisticum
collegium (însemnând consiliul statului) şi cuvântul italian statista, însemnând om de stat sau
politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecţii şi clasificări de date.
Metodele statistice sunt astăzi aplicate într-o gamă largă de discipline. Amintim aici doar câteva
exemple:
• în Agricultură, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a fi
folosite pe un anumit teren arabil;
• în Economie, pentru studiul rentabilităţii unor noi produse introduse pe piaţă, pentru
corelarea cererii cu ofertă, sau pentru a analiza cum se schimbă standardele de viaţă;
• în Contabilitate, pentru realizarea operaţiunilor de audit pentru clienţi;
• în Biologie, pentru clasificarea din punct de vedere ştiinţific a unor specii de plante sau
pentru selectarea unor noi specii;
• în Ştiinţele educaţiei, pentru a găsi cel mai eficient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naţionale asupra diverselor caregorii de persoane ce lucrează în
învăţământ;
• în Meteorologie, pentru a prognoza vremea într-un anumit ţinut pentru o perioadă de timp,
sau pentru a studia efectele încălzirii globale;
• în Medicină, pentru testarea unor noi medicamente sau vaccinuri;
• în Psihologie, în vederea stabilirii gradului de corelaţie între timiditate şi singurătate;
5.1 Elemente introductive de Statistică 97
• în Politologie, pentru a verifica dacă un anumit partid politic mai are sprijinul populaţiei;
• în Ştiinţele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
• etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identifica mai întâi
care este colectivitatea asupra căreia se doreşte studiul. Această colectivitate (sau populaţie)
poate fi populaţia unei ţări, sau numai elevii dintr-o şcoală, sau totalitatea produselor agricole
cultivate într-un anumit ţinut, sau toate bunurile produse într-o uzină. Dacă se doreşte studiul
unei trăsături comune a tuturor membrilor colectivităţii, este de multe ori aproape imposibil
de a observa această trăsătură la fiecare membru în parte, de aceea este mult mai practic de a
strânge date doar despre o submulţime a întregii populaţii şi de a căuta metode eficiente de a
extrapola aceste observaţii la toată colectivitatea. Există o ramură a statisticii ce se ocupă cu
descrierea acestei colecţii de date, numită Statistică descriptivă. Această descriere a trăsăturilor
unei colectivităţi poate fi făcută atât numeric (media, dispersia, mediana, cuantile, tendinţe etc),
cât şi grafic (prin puncte, bare, histograme etc). De asemenea, datele culese pot fi procesate
într-un anumit fel, încât să putem trage concluzii foarte precise despre anumite trăsături ale
întregii colectivităţi. Această ramură a Statisticii, care trage concluzii despre caracteristici ale
întregii colectivităţi, studiind doar o parte din ea, se numeşte Statistică inferenţială. În contul
Statisticii inferenţiale putem trece şi următoarele: luarea de decizii asupra unor ipoteze statistice,
descrierea gradului de corelare între diverse tipuri de date, estimarea caracteristicilor numerice
ale unor trăsături comune întregii colectivităţi, descrierea legăturii între diverse caracteristici etc.
Statistica Matematică este o subramură a Matematicii ce se preocupă de baza teoretică abstractă
a Statisticii. Din datele culese pe cale experimentală, Statistica Matematică va căuta să extragă
informaţii şi să le interpreteze. Un cercetător într-un domeniul teoretic al Statisticii, cum este şi
Statistica Matematică, va căuta să îmbunătăţească metodele teoretice existente sau să introducă
altele noi. Aceasta va utiliza noţiuni din Teoria probabilităţilor, dar şi noţiuni din alte ramuri ale
Matematicii, cum ar fi: Algebra liniară, Analiza matematică, Teoria optimizării. De asemenea,
partea computaţională este deosebit de utilă în studiul Statisticii moderne, fără de care cercetarea
ar fi îngreunată sau, uneori, chiar imposibil de realizat.
unde f este o funcţie ce verifică anumite proprietăţi şi este caracteristică modelului, x este
vectorul ce conţine variabilele măsurate şi θ e un parametru (sau un vector de parametri), care
poate fi determinat sau nedeterminat. Termenul de eroare apare deseori în pratică, deoarece
unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, şi
eventual revizuit, astfel încât să se potrivească într-o măsură cât mai precisă datelor culese.
98 Capitolul 5. Elemente de Statistică descriptivă
5.1.4 Variabile
În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare (prescurtat,
v.a.). Se numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece
valorile observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea
numerică este un număr real. Aşadar, din punct de vedere euristic, o variabilă aleatoare este o
cantitate ce poate avea orice valoare dintr-o multime data, fiecarei valori atribuindu-se o anumita
pondere (frecventa relativa). În viaţă de zi cu zi întâlnim numeroase astfel de funcţii, e.g.,
numerele ce apar la extragerea loto, rezultatul masurarii fertilitatii solului in diverse locatii,
numărul clienţilor deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a
unei persoane într-o staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de
clasa a IV-a la un test de matematică etc. De regula, variabilele aleatoare sunt notate cu litere de
5.1 Elemente introductive de Statistică 99
finit sau cel mult numărabil). Exemple: numărul de studenţi care vin la un curs,
numărul de copii care îi are o mamă, nota la examenul de Statistică etc.
– date continue, dacă această caracteristică este continuă (o variabilă aleatoare de tip
continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe
axa reala). Exemple: media de la licenţă, atunci datele rezultate vor fi cantitative şi
continue, timpul de funcţionare e continuă a unei baterii, înălţimea unei persoane etc.
• Mai putem vorbi de date univariate, bivariate sau multivariate, atunci când datele statistice
sunt observaţii asupra unei variabile, a două variabile sau a mai multor variabile, respectiv.
• Spunem că avem date temporale sau spaţiale, după cum variabila studiată este dependentă
de timp (se obţin serii de timpi) sau de spaţiu (e.g., aciditatea solului în diverse locaţii).
Un alt mod de a caracteriza datele cantitative este următorul:
• date de tip interval. Datele de tip interval pot fi organizate în intervale de lungime egală,
semnificând diferent, e egale în caracteristica măsurată, dar fără a avea un zero semnificativ
(un punct „zero adevărat”), ci doar un zero arbitrar. Datele de tip interval sunt ordonate,
pot fi atât continue cât şi discrete. Le putem aduna şi scădea, dar nu le putem înmulţi
sau împărţi. Punctul cheie al unei scale de tip interval este cuvântul „interval”, care
înseamnă „spat, iu dintre”. Astfel, scalele de tip interval nu ne spun doar despre ordine, ci
s, i despre valoarea dintre fiecare element. Datele de tip interval pot arăta init, ial ca nişte
date ordinale (de exemplu, temperatură scăzută, medie sau ridicată), dar nivelurile sunt de
natură cantitativă s, i diferent, ele dintre niveluri au o semnificat, ie consistentă.
Un exemplu de date de tip interval: ora observată la un ceas analogic, de 12 ore. Ceasul are
intervale egale, iar timpul necesar pentru ca orarul să treacă de la 1 la 2 este acelas, i cu timpul
necesar pentru a trece de la 9 la 10. Ora 0 nu semnifică lipsa unei măsurători, deci 0 nu semnifică
absenţa mărimii. Pe această scală, valorile se pot aduna sau scădea, dar nu se pot înmulţi sau
împărţi. Spre exemplu, ora 10 nu este dublul orei 5.
Alte exemple de date de tip interval: date calendaristice, anul naşterii, coeficientul IQ al unei
persoane, temperatura în grade Celsius etc.
• date de tip raport. Datele de tip raport reprezintă cea mai complexă scală de măsurare
a datelor, precum s, i cea mai preferată scară de măsurare. Au toate proprietăt, ile datelor
de tip interval, dar posedă şi un zero natural, ceea ce înseamnă că există un punct în care
măsura respectivă, oricare ar fi ea, nu există. De aceea, putem înmult, i s, i împărt, i, precum
s, i aduna sau scădea datele de tip raport. Exemple de date de tip raport: date obţinute ca
observaţii ale unor variabile precum înălt, imea, masa corporală, durata, vârsta etc. Toate
aceste variabile pot avea o valoare de zero care reprezintă nimicul (absenţa valorii). Un
exemplu real de date de tip raport este venitul: banii câs, tigat, i într-o perioadă de timp. Se
poate câs, tiga fie 0 RON într-o lună, fie orice altă sumă de RON mai mare decât zero.
În mod esent, ial, datele de tip interval pot fi negative sau pozitive, în timp ce datele de tip raport
pot fi doar pozitive.
5.1 Elemente introductive de Statistică 101
• selecţie de cotă: selecţia ar trebui să fie o copie a întregii populaţii, dar la o scară mult
mai mică. Aşadar, putem selecta proporţional cu numărul persoanelor din fiecare rasă,
de fiecare gen, origine etnică etc) (e.g., persoanele din Parlament ar trebui să fie o copie
reprezentativă a persoanelor întregii ţări, într-o scară mult mai mică).
Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii
necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc
statistici. Prin intermediul statisticilor putem trage concluzii despre populaţia Ω, din care a
provenit eşantionul observat. Teoria probabilităţilor ne oferă procedee de determinare a repartiţiei
asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiţia exactă
este acea repartiţie ce poate fi determinată pentru orice volum al selecţiei. În general, dacă se
lucrează cu selecţii de volum redus (n < 30), atunci repartiţia exactă ar trebui să fie cunoscută
a priori, dacă se doreşte luarea de decizii prin inferenţă. Repartiţia asimptotică este repartiţia
limită a statisticii când n → ∞, iar utilizarea acesteia conduce la rezultate bune doar pentru
n ≥ 30.
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din
acestea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie
cat mai fidel si sugestiv acele date (prin grafice sau indicatori statistici), sa estimeze anumiti
parametri de interes (e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa
verifice prin inferenta ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii
sau chiar la forma acesteia.
Etapele unei analize statistice:
• Verificarea datelor pentru erori sau date lipsă. Sunt cazuri în care datele statistice sunt
înregistrate greşit (e.g., lipseşte virgula sau nu este la locul potrivit, unele date au o altă
unitate de măsură sau lipsesc unele valori).
• Organizarea şi gruparea datelor. Aceasta se face folosind tabele de frecvenţe. Gruparea
datelor nu este unică şi se pot încerca diverse grupări, alegându-se cea mai potrivită
specificului datelor. Este la latitudinea statisticianului de a le organiza, în funcţie de
specificul lor, de informaţiile pe care doreşte să le extragă.
• Reprezentarea datelor folosind diagrame/grafice potrivite. Datele de tip interval şi raport
pot fi reprezentate prin histograme sau prin sectoare de disc, iar cele de tip categorial pot
fi reprezentate prin bare sau prin sectoare de disc. Un grafic potrivit poate sugera multe
informaţii despre date. Pentru datele statistice cantitative se poate reprezenta şi diagrama
box-and-whiskers plot, reprezentând sinteza celor cinci statistici importante: valoarea
minimă, prima cuartilă, mediana (a doua cuartilă), a treia cuartilă şi valoarea maximă a
datelor. Această diagramă poate indica (dacă este cazul!) existenţa unor valori care ies din
tiparul majorităţii valorilor (numite outliers).
• Calculul unor indicatori statistici pentru date. Spre exemplu, se pot calcula: media,
dispersia, mediana, skewness, coeficientul de variaţie etc. Aceşti indicatori se doresc a fi
reprezentanţi numerici ai datelor statistice.
• Luarea de decizii pe baza datelor. Aceasta se poate face în urma unor teste statistice. Exem-
ple de teste statistice: test pentru verificarea normalităţii datelor, test pentru verificarea
mediei datelor, test pentru semnificaţia coeficientului de corelaţie etc.
înrolaţi în anul întâi de master, iar caracteristica este media la licenţă obţinută de fiecare dintre
aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul [6, 10], iar
aceasta variabila poate lua orice valoare din acest interval.
Vom numi date (sau date statistice) informaţiile obţinute în urma observarii valorilor acestei
caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenţă observate. În general,
datele pot fi calitative (se mai numesc şi categoriale) sau cantitative, după cum caracteristica (sau
variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă
(are o valoare numerica). Totodata, aceste date pot fi date de tip discret, dacă sunt obţinute în
urma observării unei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale
carei posibile valori sunt in numar finit sau cel mult numarabil), sau date continue, dacă această
caracteristică este continuă (o variabilă aleatoare de tip continuu, sau o variabila ce poate lua
orice valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele
vor fi cantitative şi continue.
În Statistică se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . ., si
valorile lor cu litere mici, x, y, z, . . .. Daca in exemplul de mai sus notam cu Z variabila medie la
licenta, atunci un anume z observat va fi media la licenta pentru un student din colectivitate ales
aleator.
Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea
şi reprezentarea grafica a datelor, dar şi în calcularea anumitor caracteristici numerice pentru
acestea. Datele înainte de prelucrare, adică exact aşa cum au fost culese, se numesc date
negrupate. Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 5.1,
reprezentând timpi (în min.sec) de aşteptare pentru primii 100 de clienţi care au aşteptat la un
ghişeu până au fost serviţi.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88
5.36 1.32
Tabela 5.1: Date statistice negrupate
De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urmăreşte a se grupa datele, pentru o mai uşoară gestionare. Imaginaţi-vă că enumerăm toate
voturile unei selecţii întâmplătoare de 15000 de votanţi, abia ieşiţi de la vot. Mai degrabă, ar fi
mai util şi practic să grupăm datele după numele candidaţilor, precizând numărul de voturi ce l-a
primit fiecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase
de interes.
1. Date de tip discret: Dacă datele de selecţie sunt discrete (e.g., {z1 , z2 , . . . , zn }), este
posibil ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt
104 Capitolul 5. Elemente de Statistică descriptivă
nota frecvenţa absolută frecvenţa cumulată frecvenţa relativă frecvenţa relativă cumulată
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 - 100% -
z01 , z02 , . . . , z0r , r ≤ n. Atunci, putem grupa datele într-un aşa-numit tabel de frecvenţe (vezi
exemplul din Tabelul 5.2). Alternativ, putem organiza datele negrupate într-un tabel de frecvenţe,
după cum urmează:
unde fi este frecvenţa apariţiei valorii z0i , (i = 1, 2, . . . , r), şi se va numi distribuţia empirică de
selecţie a lui Z. Aceste frecvenţe pot fi absolute sau de relative. Un tabel de frecvenţe (sau o
distribuţie de frecvenţe) conţine cel puţin două coloane: o coloană ce reprezintă datele observate
(grupate în clase) şi o coloană de frecvenţe. În prima coloană apar clasele, adică toate valorile
distincte observate. Datele din această coloană nu se repetă. Prin frecvenţa absolută a clasei
înţelegem numărul de elemente ce aparţine fiecărei clase în parte. De asemenea, un tabel de
frecvenţe mai poate conţine frecvenţe relative sau cumulate. O frecvenţă relativă se obţine prin
împărţirea frecvenţei absolute a unei categorii la suma tuturor frecvenţelor din tabel. Astfel,
suma tuturor frecvenţelor relative este egală cu 100%. Frecvenţa (absolută) cumulată a unei
clase se obţine prin cumularea tuturor frecvenţelor absolute până la (inclusiv) clasa respectivă.
Frecvenţa relativă cumulată a unei clase se obţine prin cumularea tuturor frecvenţelor relative
până la (inclusiv) clasa respectivă.
Aşadar, elementele unui tabel de frecvenţe pot fi: clasele (ce conţin valori pentru variabile),
frecvenţe absolute, frecvenţe relative sau cumulate. Într-un tabel, nu este obligatoriu să apară
toate coloanele cu frecvenţe sau ele să apară în această ordine.
În Tabelul 5.2, sunt prezentate notele studenţilor din anul al III-lea la examenul de Statistică.
Acesta este exemplu de tabel ce reprezentă o caracteristică discretă.
2. Date de tip continuu: Dacă datele statistice sunt realizări ale unei variabile Z de tip
continuu, atunci se obişnuieste să se facă o grupare a datelor de selecţie în clase. Datele de tip
continuu pot fi grupate într-un tablou de distribuţie sau sub forma unui tabel de distribuţie, dupa
cum urmeaza:
5.2 Organizarea şi descrierea datelor statistice 105
Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum doreste
utilizatorul. Uneori, tabelul de distribuţie pentru o caracteristică de tip continuu mai poate fi scris
şi sub forma unui tabel ca in (5.2.2), unde
ai−1 + ai
• z0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
• fi este frecvenţa apariţiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r), ∑ fi = n.
i=1
Pentru definirea claselor unui tabel de frecvenţe, nu există o regulă precisă. Fiecare utilizator
de date îşi poate crea propriul tabel de frecvenţe. Scopul final este ca acest tabel să scoată în
evidenţă caracteristicele datelor, cum ar fi: existenţa unor grupe (clase) naturale, variabilitatea
datelor într-un anumit grup (clasă), informaţii legate de existenţa unor anumite date statistice care
nu au fost observate in selecţia dată etc. În general, aceste caracteristici nu ar putea fi observate
privind direct setul de date negrupate. Totuşi, pentru crearea tabelelor de frecvenţe, se recomandă
următorii paşi:
1. Determinarea numărului de clase (disjuncte). Este recomandat ca numărul claselor să fie
între 5 şi 20. Dacă volumul datelor este mic (e.g., n < 30), se recomandă constituirea a 5
sau 6 clase. De asemenea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezentată de
cel puţin 5 valori (pentru un număr mic de clase). Dacă numărul claselor este mai mare,
putem avea şi mai puţine date într-o clasă, dar nu mai puţin de 3. O clasă cu prea puţine
valori (0, 1 sau 2) poate să nu fie reprezentativă.
2. Determinarea lăţimii claselor. Dacă este posibil, ar fi bine dacă toate clasele ar avea aceeaşi
lăţime. Acest pas depinde, în mare măsură, de alegerea din pasul anterior.
3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât fiecare
dată statistică să aparţine unei singure clase.
În practică, un tabel de frecvenţe se realizează prin încercări, până avem convingerea că gruparea
făcută poate surprinde cât mai fidel datele observate.
Aşadar, dacă ne este dată o înşiruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat în tabele sau tablouri de frecvenţe. Invers (avem tabelul sau tabloul de
repartiţie şi vrem să enumerăm datele) nu este posibil, decât doar în cazul unei caracteristici de
tip discret. De exemplu, dacă ni se dă Tabelul 5.4, ce reprezintă rata somajului într-o anumită
regiune a ţării pe categorii de vârste, nu am putea şti cu exactitate vârsta exactă a persoanelor
care au fost selecţionate pentru studiu.
Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clasă, valoarea obţinută prin media valorilor extreme ale clasei. În
106 Capitolul 5. Elemente de Statistică descriptivă
cazul Tabelului 5.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenţa cumulată
a unei clase este suma frecvenţelor tuturor claselor cu valori mai mici.
Tabelul 5.3 reprezintă aceste date sub forma stem-and-leaf (ramură-frunză). Se observă că acest
tabel arată atât cum sunt repartizate datele, cât şi forma repartiţiei lor. Aşadar, 7|5 semnifică un
punctaj de 75. Pentru un volum prea mare de date, această reprezentare nu este cea mai bună
metodă de vizualizare a datelor. În secţiunile următoare vom prezenta şi alte metode utile.
5.3 Reprezentarea datelor statistice 107
stem leaf
10
9 26
8 1568
7 357779
6 122488
5 0359
4 148
3 49
2
1 8
0
Figura 5.2: Reprezentarea datelor discrete. Figura 5.3: Tabel stem-and-leaf repre-
zentând punctajele studenţilor.
Este utilă pentru reprezentarea variabilelor discrete cu un număr mic de valori diferite. Barele
sunt dreptunghiuri ce reprezintă frecvenţele, nefiind unite între ele. Fiecare dreptunghi reprezintă
o singură valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regulă, pe orizontală
iar frecvenţele pe verticală. Figura 5.41 reprezintă datele din tabelul cu note. Se poate schimba
orientarea categoriilor şi a claselor; în acest caz barele vor apărea pe orizontală (Figura 5.42 ).
Figura 5.6 contine o compunere de două reprezentări cu bare, reprezentând vârstele bărbaţilor şi
femeilor dintr-un eşantion, cu scopul de a le compara.
5.3.4 Histograme
O histogramă este o reprezentare aproximativă a distribut, iei datelor numerice intermediul unor
dreptunghiuri, ale căror lăt, imi reprezintă intervalele claselor s, i ale căror arii sunt proport, ionale
cu frecvent, ele corespunzătoare.
Cuvântul "histogramă" a fost introdus pentru prima oară de Karl Pearson1 în 1895. Acesta
derivă din cuvintele greceşti histos (gr., ridicat în sus) şi gramma (gr., desen, înregistrare). O
histogramă este o formă pictorială a unui tabel de frecvenţe, foarte utilă pentru selecţii mari de
date de tip continuu. Se aseamănă cu reprezentarea prin bare, cu următoarele două diferenţe: nu
există spaţii între bare (deşi, pot apărea bare de înalţime zero ce arată a fi spaţiu liber) şi ariile
barelor sunt proporţionale cu frecvenţele corespunzătoare. Numărul de dreptunghiuri este egal
cu numărul de clase, lăţimea dreptunghiului este intervalul clasei, iar înălţimea este aşa încât aria
fiecărui dreptunghi reprezintă frecvenţa. Aşadar, în general, dreptunghiurile unei histograme se
ating pentru a indica faptul că variabila reprezentată grafic este continuă. Aria totală a tuturor
dreptunghiurilor este egală cu numărul total de observaţii. Dacă barele unei histograme au toate
1 Karl Pearson (1857 − 1936), statistician, avocat şi eugenist britanic
5.3 Reprezentarea datelor statistice 109
aceeaşi lăţime, atunci înălţimile lor sunt proporţionale cu frecvenţele. Înălţimile barelor unei
histogramei se mai numesc şi densităţi de frecvenţă. În cazul în care lăţimile barelor nu sunt
toate egale, atunci înălţimile lor satisfac:
frecvenţa
înălţimea = a · , a = factor de proporţionalitate.
lăţimea clasei
O histogramă este utilizată pentru date de tip continuu, unde clasele reprezintă intervale de
date, în timp ce o diagramă cu bare este un grafic de variabile de tip discret sau categorial. Se
recomandă ca diagramele cu bare să aibă goluri între dreptunghiuri pentru a se observa diferenţa.
În multe cazuri, cuvintele folosite pentru a descrie o histogramă sunt: „simetrică”, „deformată la
stânga” sau „deformată la dreapta”, „unimodală”, „bimodală” sau „multimodală ”. O idee bună
ar fi reprezentarea datelor utilizând mai multe lăt, imi diferite ale claselor, pentru a afla mai multe
despre date.
Să presupunem că am fi grupat datele din Tabelul 5.5 într-o altă manieră, în care clasele nu sunt
echidistante (vezi Tabelul 5.7). În Tabelul 5.7, datele din ultimele două clase au fost cumulate
într-o singură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă din Tabelul 5.5
nu avea suficiente date. Histograma ce reprezintă datele din Tabelul 5.7 este cea din Figura 5.8.
Conform cu regula proporţionalităţii ariilor cu frecvenţele, se poate observa că primele patru bare
au înălţimi egale cu frecvenţele corespunzătoare, pe când înălţimea ultimei bare este jumătate
din valoarea frecvenţei corespunzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte.
În general, pentru a construi o histogramă, vom avea în vedere următoarele:
− datele vor fi împărţite (unde este posibil) în clase de lungimi egale. Uneori aceste divizări sunt
naturale, alteori va trebui să le fabricăm.
− numărul de clase este, în general, între 5 şi 20. Cu cât avem mai multe date, cu atât vom folosi
mai multe clase.
110 Capitolul 5. Elemente de Statistică descriptivă
Observaţie 5.3.1 (1) Dacă lungimea unei clase este infinită, atunci se obişnuieşte ca lăţimea
ultimului interval să fie luată drept dublul lăţimii intervalului precedent.
(2) În multe situaţii, capetele intervalelor claselor sunt nişte aproximări, iar în locul acestora vom
5.3 Reprezentarea datelor statistice 111
putea utiliza alte valori. Spre exemplu, să considerăm clasa [15, 20). Această clasă reprezintă
clasa acelor plante ce au înălţimea cuprinsă între 15cm şi 20cm. Deoarece valorile înălţimilor
sunt valori reale, valorile 15 şi 20 sunt, de fapt, aproximările acestor valori la cel mai apropiat
întreg. Aşadar, este posibil ca această clasă să conţină acele plante ce au înălţimile situate
între 14.5cm (inclusiv) şi 20.5cm (exclusiv). Am putea face referire la aceste valori ca fiind
valorile reale ale clasei, numite frontierele clasei. În cazul în care am determinat frontierele
clasei, lăţimea unei clase se defineşte ca fiind diferenţa între frontierele ce-i corespund. În
concluzie, în cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, lăţimea 6 şi frecvenţa 17
6.
Pentru exemplificare, în Tabelul 5.9 am prezentat frontierele claselor, lăţimile lor şi densităţile
de frecvenţă pentru datele din Tabelul 5.4.
Se poate reprezenta distribuţia unei caracteristici şi folosind sectoare de disc (diagrame circulare)
(en., pie charts), fiecare sector de disc reprezentând câte o frecvenţă relativă. Această variantă
este utilă în special la reprezentarea datelor calitative. Există şi posibilitatea de a reprezenta
datele prin sectoare 3 dimensionale. În Figura 5.9 am reprezentat datele din Tabelul 5.4.
5.3.7 Ogive
• Valoarea medie
Este o măsură a tendinţei centrale a datelor. Pentru o selecţie {x1 , x2 , . . . , xn }, definim:
1 n
x̄ = ∑ xi ,
n i=1
ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru media
teoretica, µ = EX, daca aceasta exista.
• Momentele
Pentru k ∈ N∗ , momentele iniţiale de ordin k se definesc astfel:
1 n k
ak = ∑ xi .
n i=1
114 Capitolul 5. Elemente de Statistică descriptivă
1 n
mk = ∑ (xi − x)k .
n i=1
• Dispersia
Aceasta este o măsură a gradului de împrăştiere a datelor în jurul valorii medii. Pentru o
selecţie {x1 , x2 , . . . , xn }, definim dispersia astfel:
n
Ç n
å
1 1
s2 = ∑ (xi − x̄)2 = [ ∑ xi2 − n(x̄)2 ] .
n − 1 i=1 n − 1 i=1
• Deviaţia standard
Este tot o măsură a împrăştierii datelor în jurul valorii medii. Pentru o selecţie {x1 , x2 , . . . , xn },
definim deviaţia standard:
s
1 n
s= ∑ (xi − x̄)2.
n − 1 i=1
• Coeficientul de variaţie (sau de dispersie)
Acest coeficient (de obicei, exprimat în procente) este util atunci când comparăm două
repartiţii având unităţi de măsură diferite. Nu este folosit atunci când x sau µ este foarte
mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de variatie a datelor
este mai mare pentru populatie ce are media mai mica.
s
cv = , coeficient de variaţie,
x
• Amplitudinea (plaja de valori, range)
Pentru un set de date, amplitudinea (en., range) este definită ca fiind diferenţa dintre
valoarea cea mai mare şi valoarea cea mai mică a datelor, i.e., xmax − xmin .
• Scorul z
Este numărul deviaţiilor standard pe care o anumită observaţie, x, le are sub sau deasupra
mediei. Pentru o selecţie {x1 , x2 , . . . , xn }, scorul X este definit astfel:
xi − x̄
zi = .
s
• Corelaţia (covarianţa)
Dacă avem n perechi de observaţii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), definim corelaţia (cova-
rianţa):
1 n
cov(x, y) = ∑ (xi − x̄)(yi − ȳ).
n − 1 i=1
(5.4.3)
• Coeficientul de corelaţie
cov(x, y)
r= , coeficient de corelaţie,
sx sy
• Funcţia de repartiţie empirică
5.4 Măsuri descriptive ale datelor statistice 115
Se numeşte funcţie de repartiţie empirică asociată unei variabile aleatoare X şi unei
selecţii {x1 , x2 , . . . , xn }, funcţia Fn∗ : R −→ [0, 1], definită prin
numărul valorilor ≤ x
Fn∗ (x) = . (5.4.4)
n
Propoziţia de mai jos arată că funcţia de
repartiţie empirică aproximează funcţia de
repartiţie teoretică (vezi Figura 5.14).
1 n 3
m3 n ∑i=1 (xi − x)
γ1 = 3 = î ó3/2 .
s 1 n
(x − x)2
∑
n−1 i=1 i
1 n 4
m4 n ∑i=1 (xi − x)
K= =Ä ä2 .
s4 1 n 2
n−1 ∑i=1 (xi − x)
• Cuantile
Cuantilele (de ordin q) sunt valori ale unei variabile aleatoare care separă repartiţia ordonată
în q părţi egale.
Pentru q = 2, cuantila xq se numeşte mediană, notată prin x0.5 sau me.
Presupunem că observaţiile sunt ordonate, x1 < x2 < · · · < xn . Pentru această ordine,
definim valoarea mediană:
®
x(n+1)/2 , dacă n = impar;
x0.5 =
(xn/2 + xn/2+1 )/2 , dacă n = par;
Pentru q = 4, cuantilele se numesc cuartile (sunt în număr de 3). Prima cuartilă, notată
x0.25 sau q1 , se numeşte cuartila inferioară, a doua cuartilă este mediana, iar ultima
cuartilă, notată x0.75 sau q3 , se numeşte cuartila superioară. Diferenţa iqr = q3 − q1 se
numeşte distanţa intercuartilică.
Pentru q = 10 se numesc decile (sunt în număr de 9), pentru q = 100 se numesc percentile
(sau centile sunt în număr de 99), pentru q = 1000 se numesc permile (sunt în număr de
999). Sunt măsuri de poziţie, ce măsoară locaţia unei anumite observaţii faţă de restul
datelor.
• Modul
Modul (sau valoarea modală) este acea valoare x∗ din setul de date care apare cel mai
des. Un set de date poate avea mai multe module. Dacă apar două astfel de valori, atunci
vom spune că setul de date este bimodal, pentru trei astfel de valori avem un set de date
trimodal etc. În cazul în care toate valorile au aceeaşi frecvenţă de apariţie, atunci spunem
că nu există mod. De exemplu, setul de date
1 3 5 6 3 2 1 4 4 6 2 5
nu admite valoare modală. Nu există un simbol care să noteze distinctiv modul unui set de
date.
1 r
x̄ f = ∑ xi fi,
media (empirică) de selecţie, (sau, media ponderată)
n i=1
Ç r å
2 1 r 2 1 2 2
sf = ∑ fi(xi − x̄ f ) = n − 1 ∑ xi fi − n x̄ f , dispersia (varianţa) empirică,
n − 1 i=1 i=1
»
2
s f = s f , deviaţia empirică standard.
Formule similare se pot da şi pentru măsurile descriptive ale întregii populaţii.
mediana pentru un set de date grupate este acea valoare ce separă toate datele în două părţi egale.
Se determină mai întâi clasa ce conţine mediana (numită clasă mediană), apoi presupunem că
în interiorul fiecărei clase datele sunt uniform distribuite. O formulă după care se calculează
mediana este:
n
− Fme
me = l + 2 c,
fme
unde: l este limita inferioară a clasei mediane, n este volumul selecţiei, Fme este suma frecvenţelor
până la (exclusiv) clasa mediană, fme este frecvenţa clasei mediane şi c este lăţimea clasei
mediane. Similar, formulele pentru cuartile sunt:
n 3n
4 − Fq1 4 − Fq3
q1 = l1 + c1 şi q3 = l3 + c3 ,
fq1 fq3
unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, c1 şi
c3 sunt lăţimile claselor lui q1 (respectiv, q3 ), Fq este suma frecvenţelor până la (exclusiv) clasa
ce contine cuartila, iar fq este frecvenţa clasei unde se gaseste cuartila.
5.5 Transformări de date 119
Pentru a afla modul unui set de date grupate, determinăm mai întâi clasa ce conţine această
valoare (clasă modală), iar modul va fi calculat după formula:
d1
mo = l + c,
d1 + d2
unde d1 şi d2 sunt frecvenţa clasei modale minus frecvenţa clasei anterioare şi, respectiv, frecvenţa
clasei modale minus frecvenţa clasei posterioare, l este limita inferioară a clasei modale şi c este
lăţimea clasei modale.
Aici, C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce face
transformarea este definita. În loc de funcţia ln se poate folosi şi logaritmul în altă bază, e.g.,
funcţia log10 .
De exemplu, presupunem ca datele observate sunt x1 , x2 , . . . , xn si acestea nu sunt toate pozitive,
cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor;
aceasta este xmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea 1
la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate
sunt echivalente cu folosirea directa a formulei ln(1 + xi ) (adunand valoarea 1, am facut toate
argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y1 , y2 , . . . , yn ,
unde yi = ln(1 + xi ). Un exemplu este cel din Figura 5.20. Se observa ca datele logaritmate sunt
aproape normale. O analiza statistica poate fi condusa pentru datele yi , urmand ca, eventual, la
final sa aplicam transformarea inversa xi = eyi − 1 pentru a transforma rezultatele pentru datele
initiale.
120 Capitolul 5. Elemente de Statistică descriptivă
Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a
determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii statistici
atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul
5.12.
Indicatorul datele originale datele tranformate
xi yi = ln(1 + xi )
Minimum −0.8464 −1.8734
Maximum 14.1107 2.7154
media 6.02142 1.51
Cuartila q1 3.1152 0.6532
mediana 6.5200 1.2512
Cuartila q3 8.7548 1.5785
Deviatia standard 5.2511 0.7524
Dispersia 27.5741 0.5661
Skewness 6.2322 0.0233
Kurtosis 78.6077 2.9786
Numarul de observatii 100 100
2
χ pentru testul de normalitate (7 grade de libertate) − 7.1445
Tabela 5.12: Exemplu de indicatori pentru datele originale si pentru datele transformate
5.6 Exerciţii rezolvate 121
20 10 7 19 25 12 15 7 10 8 14 16 15 7 8 13 6 5 7 12
(b) Pentru că datele sunt discrete de tip raport, le putem reprezenta folosind histograme sau
sectoare de disc (pie charts).
Exerciţiu 5.6.2 Următorul set de date grupate reprezintă punctajele (maximum este 100 de
puncte) obţinute de 80 de studenţi la testul de Statistică:
Punctajul Frecv. abs.
1 − 50 21
51 − 60 8
61 − 70 15
71 − 80 22
81 − 100 14
Total 80
122 Capitolul 5. Elemente de Statistică descriptivă
Exerciţiu 5.6.3 Următorul set de date negrupate reprezintă numărul de pets (animale de casă) pe
care fiecare dintre cei 25 de studenţi aleşi în eşantion le au.
0 0 1 2 0 0 1 0 3 4 1 0 7 1 0 1 2 3 2 1 0 0 0 1 4
(a) Construiţi un tabel de frecvenţe adecvat datelor.
(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
5.6 Exerciţii rezolvate 123
R: (a) Reprezentăm datele cu bare (date de tip categorial ordinal). Numărul de clase k = 6.
Exerciţiu 5.6.4 Următorul set de date reprezintă preţurile (în mii de euro) a 20 de case, vândute
într-o anumită regiune a unui oraş:
(a) Determinaţi amplitudinea, media, mediana, modul, deviatia standard, cuartilele şi distanţa
intercuartilică pentru aceste date. Care valoare este cea mai reprezentativă?
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
(c) Calculaţi coeficientii de asimetrie si de aplatizare.
Se observa ca valorile 340.5, 475.5 şi 525 sunt valori aberante, reprezentate prin puncte in figura.
∑(x · f ) 1
x̄ = = (2.5 · 5 + 7.5 · 13 + 12.5 · 23 + 17.5 · 17 + 22.5 · 10 + 27.5 · 2) = 13.9286.
n 70
Dispersia este:
1
s2 = ( (x2 · f ) − n · x̄2 )
n−1 ∑
1
= (2.52 · 5 + 7.52 · 13 + 12.52 · 23 + 17.52 · 17 + 22.52 · 10 + 27.52 · 2 − 70 · 13.92862 )
69
= 37.06.
Clasa mediană este clasa [10, 15). Deoarece în clasele anterioare ([0, 5) şi [5, 10)) se află deja
5 + 13 = 18 date mai mici decât mediana, pentru a afla valoarea mediană a plantelor (i.e., acea
valoare care este mai mare decât alte 35 de valori la stanga ei şi mai mică decât alte 35 de plante
de la dreapta sa), va trebui să determinăm acea valoare din clasa mediană ce este mai mare decât
alte 17 valori din această clasă. Aşadar, avem nevoie de a determina o fracţie 17
23 dintre valorile
5.6 Exerciţii rezolvate 125
35 − 18
me = 10 + × 5 = 13.6957.
23
10
Clasa modală este [10, 15), iar modul este mo = 10 + 10+6 × 5 = 13.125.
n
− Fq1
Calculăm acum prima cuartilă dupa formula q1 = l1 + 4 × c. Clasa in care se gaseste
fq1
prima cuartila este [5, 10) (o valoare din acest interval va avea la stanga sa 70/4 dintre valorile
observate). Avem: Fq1 = 5, fq1 = 13, c = 5, de unde q1 = 9.8077.
Similar, clasa in care se gaseste a treia cuartila este [15, 20) (o valoare din acest interval va avea
la dreapta sa 70/4 dintre valori. Avem: Fq3 = 41, fq3 = 10, c = 5, de unde q3 = 18.3824.
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
(a) Construiţi un tabel de frecvenţe care să conţină numărul de accidente, frecvenţele absolute şi
relative.
(b) Găsiţi media empirică, mediana şi deviaţia standard empirică.
(c) Reprezentaţi prin bare rezultatele din tabelul de frecvenţe.
(d) Găsiţi şi reprezentaţi grafic funcţia de repartiţie empirică a numărului de accidente.
numărul 0 1 2 3 4
frecv. abs. 7 9 14 12 10
frecv. rel. 0.1346 0.1731 0.2692 0.2308 0.1923
Ã
52
1 1 52
x= ∑ xi = 2.1731,
52 i=1
s= ∑ (xi − x̄)2 = 1.3094,
51 i=1
me = 2.
(c) Reprezentarea prin bare a numărului de accidente şi graficul lui Fn∗ (x) sunt reprezentate în
Figura 5.26.
126 Capitolul 5. Elemente de Statistică descriptivă
173 140 205 192 197 225 158 260 170 185 208 189 190 167 225 190 184 195
(a) Determinaţi amplitudinea, media, modul şi deviaţia standard pentru această selecţie.
(b) Reprezentaţi diagrama box-and-whisker plot pentru date.
R: (a) Avem n = 19 observaţii. Amplitudinea datelor este A = xmax − xmin = 260 − 140 = 120.
Valoarea medie este
1 19
x = ∑ xi = 191.8333.
n i=1
Modurile datelor sunt 190 şi 225. Dispersia datelor este
1 19
s2 = ∑ (xi − x)2 = 748.2647.
n − 1 i=1
√
Deviaţia standard a datelor este s = s2 = 27.3544.
(b) Grupăm datele crescător:
140; 158; 167; 170; 173; 184; 185; 189; 190; 190; 192; 195; 197; 205; 208; 225; 225; 260
Exerciţiu 5.6.8 Ana a început să lucreze la un magazin de calculatoare. Şeful ei i-a cerut să t, ină
o evident, ă a numărului de vânzări pe care le-a făcut în fiecare lună. Următorul set de date este o
listă a vânzărilor sale din ultimele 12 luni:
34, 47, 1, 15, 57, 24, 20, 11, 19, 50, 28, 37.
La fel ca Ana, Cristian lucrează la un magazin de calculatoare. De asemenea, a înregistrat
numărul de vânzări pe care le-a făcut în fiecare lună. În ultimele 12 luni, el a vândut următoarele
numere de computere:
51, 17, 25, 39, 7, 49, 62, 41, 20, 6, 43, 13.
1. Determinaţi sinteza celor cinci valori pentru vânzările efectuate de fiecare dintre cei doi.
2. Desenaţi diagramele box-and-whiskers plot pentru vânzările fiecăruia.
3. Descriet, i pe scurt comparat, iile dintre vânzările lor.
R: Se observă că 168 se află la prima cuartilă în diagrama ce reprezintă înălţimile fetelor şi
la mediană în diagrama ce reprezintă înălţimile băieţilor. Aşadar 25% dintre băieţi şi jumătate
dintre fete sunt mai scunzi de 168 cm.
128 Capitolul 5. Elemente de Statistică descriptivă
(a) Reprezentaţi cele două seturi de date prin câte un box-and-whisker plot, în aceeaşi figură.
(b) Reprezentaţi datele din tabel printr-o diagramă scatter.
(c) Calculaţi coeficientul de corelaţie empirică între T şi B şi comentaţi rezultatul.
Exerciţiu 5.7.6 Considerăm diagrama stem-and-leaf din Figura 5.3. Răspundeţi la următoarele
cerinţe:
(a) Aflaţi cuartilele şi distanţa interquartilică;
(b) Există valori extreme pentru acest set de date?
(c) Construiţi diagrama box-and-whiskers pentru acest set de date;
5.7 Exerciţii propuse 129
(d) Care este valoarea maximă cu care putem înlocui cea mai mică observaţie fără a afecta
valoarea primei cuartile?
Exerciţiu 5.7.7
O companie foloseşte două maşini pentru a produce
batoane de ciocolată. Pentru a controla calibrarea
maşinilor, au fost alese aleator câte 30 de batoane de
ciocolată produse de fiecare maşină. Datele rezultate în
urma cântăririi acestor batoane sunt reprezentate grafic
în diagrama alăturată. Comparaţi şi comentaţi datele din
cele două eşantioane.
(c) Aflaţi cuartilele pentru aceste date. Figura 5.29: Punctajele studenţilor
Exerciţiu 5.7.11 Tabelul de mai jos conţine notele a 12 studenţi la probele de Matematică şi
Informatică de la Bacalaureat.
Mate 6.20 9.10 4.30 3.10 5.70 6.30 8.15 3.70 4.30 1.50 7.85 7.65
In f o 6.50 5.70 5.50 3.70 6.20 7.05 7.30 4.90 6.55 4.12 6.45 7.25
(a) Folosiţi box-and-whisker plot pentru a reprezenta datele. Pe baza acestor diagrame,
130 Capitolul 5. Elemente de Statistică descriptivă
comparaţi datele.
(b) Construiţi diagrama scatter şi pe baza ei comentaţi legătura dintre cele două seturi de date.
Exerciţiu 5.7.12 Un vânzător ţine evidenţa numărului de clienţi care intră în magazinul său în
timpul unei zile lucrătoare. Iată rezultatele pentru 30 de zile.
14, 23, 10, 7, 14, 23, 35, 16, 27, 32, 11, 26, 24, 8, 27, 8, 17, 9, 18, 29, 21, 12, 38, 22, 19, 28, 30, 21, 19, 35
Exerciţiu 5.7.15 Se consideră următoarea selecţie de note obţinute de elevii unei şcoli la teza de
Matematică.
5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7,
6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6.
5.7 Exerciţii propuse 131
(a) Calculaţi media, deviaţia standard şi mediana pentru această selecţie.
(b) Grupaţi datele şi scrieţi funcţia de repartiţie empirică;
(c) Reprezentaţi datele printr-o diagramă/grafic adecvat.
Exerciţiu 5.7.16 Construiţi un tabel de frecvenţe cu 5 clase din următorul set de date:
5 10 7 19 25 12 15 7 6 8 17 17 22 21 7 7 24 5 6 5
Reprezentaţi datele din tabel cu bare, în aceeaşi figură cu poligonul frecvenţelor.
Exerciţiu 5.7.17 Construiţi o diagramă stem&leaf din următorul set de date:
35 22 7 39 45 12 15 27 46 18 17 27 22 21 27 37 34 35 6 15
Exerciţiu 5.7.18 Următoarea listă indică numărul de camere, cu excepţia băii şi a bucătăriei, din
50 de locuinţe. Construiţi un tabel de frecvenţe şi desenaţi un grafic cu bare pentru a reprezenta
aceste date.
2 6 4 3 3 4 4 7 5 4 5 3 7 5 5 4 4 5 6 2 5 4 4 8 6
6 3 4 4 5 8 6 5 5 3 3 3 7 5 4 4 5 4 1 6 2 3 3 6 4
Exerciţiu 5.7.19 Datele de mai jos reprezintă înălţimile a 40 de copii dintr-o şcoală. Construiţi
un tabel de frecvenţe şi desenaţi un grafic cu un număr optim de histograme pentru a reprezenta
aceste date. Estimaţi numărul de copii ce au înălţimea peste 50 cm.
113 92 60 77 103 88 91 93 57 73 65 68 72
79 83 86 79 98 62 69 77 82 78 84 68 90 79
71 74 82 84 90 100 96 80 84 93 69 75 80
Exerciţiu 5.7.20 Într-o şcoală, 2/5 dintre elevi studiază engleza, 1/4 dintre elevi studiază limba
germană, 1/5 dintre elevi studiază franceza şi restul elevilor studiază alte limbi. Desenaţi o
diagramă circulară exactă pentru a ilustra aceste informaţii.
Exerciţiu 5.7.21 Histogramele din figurile de mai jos reprezinta punctaje (din 100) la trei
examene diferite pentru un grup de 150 de studenţi. Punctajul de promovare pentru fiecare
examen este de 50.
132 Capitolul 5. Elemente de Statistică descriptivă
• Pentru fiecare examen, decideţi dacă procentul celor care au trecut examenul a fost de:
aproximativ 50%, cu mult peste 50% sau cu mult sub 50%?
• Determinaţi procentul de studenţi care au promovat examenul pentru fiecare figură.
• Ce procent de studenţi a obt, inut 65 de puncte sau mai mult la fiecare dintre aceste examene?
Exerciţiu 5.7.22 Pentru fiecare dintre histogramele de mai jos, estimaţi media, mediana şi
cuartilele. Construiţi diagramele box-and-whiskers plot corespunzătoare.
Exerciţiu 5.7.23 Într-un studiu al product, iei de lapte la oaie (care a fost utilizat la fabricarea
brânzei), un cercetător a măsurat product, ia de lapte pe 3 luni, pentru fiecare dintre cele 11 oi.
Rezultatele (în litri) au fost următoarele:
56.5 89.8 110.1 65.6 63.7 82.6 75.1 91.5 102.9 44.4 108.1
6.1 Introducere
Definiţie 6.1.1 Numim colectivitate statistică (sau populaţie) o mulţime nevidă Ω de elemente
care este cercetată din punct de vedere al uneia sau mai multor caracteristici. Elementele
colectivităţii le vom numi indivizi (sau unităţi statistice). Vom nota cu ω o unitate statistică.
Dacă populaţia este finită, atunci numărul N al unităţilor statistice ce o compun (i.e., card(Ω)= N)
îl vom numi volumul colectivităţii (sau volumul populaţiei).
Considerăm o populaţie (colectivitate statistică) Ω. Studiem populaţia Ω din punctul de vedere
al unei caracteristici a sale, X. Această caracteristică este o anumită proprietate urmărită la
indivizii ei în procesul prelucrării statistice şi o vom asimila cu o variabilă aleatoare definită pe
Ω. Problema esenţială a Statisticii Matematice este de a stabili legea de probabilitate pe care
o urmează caracteristica X. Pentru a găsi această lege (repartiţie), avem nevoie mai întâi de
un număr reprezentativ de observaţii asupra colectivităţii Ω. Pe baza acestor observaţii, vom
determina prin inferenţă o lege care să reprezinte variabila X.
Definiţie 6.1.2 Vom numi selecţie (sau eşantion, sondaj) o subcolectivitate a colectivităţii
cercetate Ω. Numărul elementelor selecţiei poartă numele de volumul selecţiei (eşantionului).
Selecţiile pot fi repetate sau nerepetate. O selecţie se numeşte repetată (sau bernoulliană) dacă
după examinarea individului acesta se reintroduce în colectivitate; în caz contrar avem o selecţie
nerepetată. În practică, volumul colectivităţii Ω este mult mai mare decât volumul selecţiei. În
aceste cazuri, selecţia nerepetată poate fi considerată ca fiind selecţie repetată. Selecţiile pe care
le vom considera în continuare sunt numai selecţii repetate din colectivitatea statistică.
Definiţie 6.1.3 Vom numi statistică (sau funcţie de selecţie) variabila aleatoare
Sn (X) = g(X1 , X2 , . . . , Xn ),
context. Repartiţia unei statistici se mai numeşte şi repartiţia (distribuţia) de selecţie.
Notaţie 6.1.1 În literatură, pentru o statistică se foloseşte una dintre următoarele notaţii:
Să considerăm ω (n) o selecţie repetată de volum n din colectivitatea dată şi Xi , i = 1, n,
variabilele aleatoare de selecţie. Cu ajutorul acestora, putem construi diverse funcţii de selecţie.
1. Media de selecţie
1 n
X(ω (n) ) = ∑ Xi(ω (n)), ω (n) ∈ Ω(n) . (6.1.1)
n i=1
Pentru un ω (n) fixat, să notăm cu {x1 , x2 , . . . , xn } valorile de selecţie corespunzătoare variabilelor
aleatoare de selecţie {X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selecţie pentru un ω (n) fixat
6.1 Introducere 135
este:
1 n
x= ∑ xi (media empirică).
n i=1
Propoziţie 6.1.1 Media de selecţie satisface următoarele proprietăţi:
σ2
1. E(X) = µ, Var(X) = ,
n
1 n a.s.
2. ∑ Xi −→ µ, când n → ∞.
n i=1
Observaţie 6.1.2 (1) În capitolele următoare vom scrie relaţia (6.1.1) sub forma restrânsă:
1 n
X= ∑ Xi.
n i=1
Pentru simplitatea formulelor, de acum înainte vom face abstraţie de dependenţa de ω (n) în
formule, care se va subînţelege.
(2) Propoziţia 6.3.2 precizează care este repartiţia mediei de selecţie pentru variabile aleatoare
de selecţie dintr-o colectivitate normală, iar Propoziţia 6.3.4 precizează care este repartiţia
asimptotică a mediei de selecţie pentru variabile de selecţie într-o colectivitate oarecare.
(3) Valoarea
σ
σX = √
n
se mai numeşte şi eroarea standard a mediei de selecţie. Dacă selecţia se face dintr-o populaţie
de volum comparabil cu cel al populaţiei (n > 0.05N), atunci ipoteza de selecţie fără repetiţie nu
va mai fi validă. În acest caz, un termen de corecţie se aplică pentru eroarea standard şi scriem:
…
σ N −n
σX = √ .
n N −1
»
Atunci când n N, atunci N−n N−1 ≈ 1 şi obţinem formula anterioară.
2. Dispersia de selecţie
1 n
Var(X, ω (n) ) = ∑ [Xi(ω (n)) − X(ω (n))]2.
n i=1
Pentru simplitate, o vom nota cu Var(X) (sau Var), iar valoarea acesteia pentru un ω (n) fixat
este:
1 n
d 2 (x) = ∑ [xi − x]2 (dispersia empirică)
n i=1
De cele mai multe ori, în locul lui Var(X) se utilizează statistica S2 (X), definită prin:
2 1 n
S (X) = ∑ [Xi − X]2 .
n − 1 i=1
136 Capitolul 6. Noţiuni din Teoria selecţiei statistice
Aceasta se mai numeşte şi dispersie de selecţie modificată, iar valoarea ei pentru un ω (n) fixat
este:
2 2 1 n
s = S (x) = ∑ [xi − x]2 (dispersia empirică modificată)
n − 1 i=1
Propoziţia 6.3.11 precizează care este repartiţia statisticii S2 .
În continuare, dacă nu este dubiu în ce priveşte caracteristica X, vom folosi notaţia simplificată
S2 în loc de S2 (X).
Propoziţie 6.1.2 Dispersiile de selecţie verifică următoarele relaţii:
n−1 2
E(Var(X)) = σ , E(S2 ) = σ 2 ,
n
a.s. a.s.
Var(X) −→ σ 2 , S2 −→ σ 2 , când n → ∞.
√
Observaţie 6.1.3 (i) Statistica S = S2 se numeşte deviaţie standard √ de selecţie. Valoarea sa
pentru o selecţie dată este deviaţie standard empirică, dată de s = s2 .
(ii) După cum vom vedea în capitolul următor, primele două relaţii arată că statistica S2 (X)
este un estimator nedeplasat pentru dispersia teoretică, pe când Var(X) este estimator deplasat.
Aşadar, se poate spune că, pentru selecţii de volum mic, statistica S2 oferă o aproximare mai
bună pentru dispersie decât oferă statistica Var, de aceea S2 este mai des utilizat în practică.
Totuşi, dacă volumul selecţiei este mare, atunci diferenţele dintre valorile celor două statistici
sunt mici.
(iii) Dacă media teoretică a colectivităţii este cunoscută a priori, E(X) = µ ∈ R, atunci dispersia
de selecţie Var(X) devine:
n
e 2 (X) = 1 ∑ [Xi − µ]2 .
D
n i=1
Propoziţia 6.3.8 precizează care este repartiţia acestei statistici.
X(1) = min{X1 , X2 , . . . , Xn }.
Statistica X(n) se numeşte ultima statistică de ordine şi reprezintă maximumul selecţiei, i.e.,
X(n) = max{X1 , X2 , . . . , Xn }.
x1 = 8, x2 = 7, x3 = 9, x4 = 5, x5 = 3,
6.2 Statistici de ordine 137
atunci
x(1) = 3, x(2) = 5, x(3) = 7, x(4) = 8, x(5) = 9.
Dacă n = 2m + 1, atunci X(m) = X( n+1 ) , adică mediana de selecţie este o statistică de ordine
2
în acest caz. Dacă n = 2m, atunci avem două valori de mijloc, X(m) şi X(m+1) . Deoarece
Me = 12 (X(m) + X(m+1) ), mediana de selecţie nu este statistică de ordine pentru n par.
Definim amplitudinea (range) selecţiei ca fiind statistica A = X(n) − X(1) . Statisticile X(n) − Me
şi Me − X(1) se numesc deviaţiile extreme ale selecţiei.
Ca o observaţie importantă, deşi variabilele aleatoare de selecţie sunt independente, totuşi
statisticile de ordine sunt dependente.
Să presupunem că F(x) este funcţia de repartiţie a selecţiei date şi f (x) densitatea de repartiţie.
Următoarea propoziţie stabileşte funcţiile de repartiţie pentru statisticile de ordine.
Propoziţie 6.2.1 Pentru un k = 1, 2, . . . , n fixat, funcţia de repartiţie pentru X(k) este:
n
FX(k) (x) = ∑ Cnj F(x) j [1 − F(x)]n− j , pentru orice x ∈ R.
j=k
În particular, pentru k = 1, obţinem că funcţia de repartiţie a celui mai mic element al selecţiei:
FX(1) (x) = 1 − [1 − F(x)]n , pentru orice x ∈ R.
Astfel, densitatea de repartiţie asociată este:
fX(1) (x) = FX0 (1) (x) = n[1 − F(x)]n−1 f (x), pentru orice x ∈ R.
Exemplu 6.2.1 La finala de 100m viteză masculin din cadrul campionatelor mondiale de
atletism în aer liber, timpii de sosire ai celor 8 sportivi calificaţi sunt variabile aleatoare
independente stochastic, identic repartizate U (9.5s, 10.5s). Calculaţi următoarele probabilităţi:
(1) Probabilitatea ca recordul mondial de 9.58s să cadă;
(2) Probabilitatea ca toţi candidaţii să termine cursa cu timpi de sosire până în 10s.
(3) Probabilitatea ca măcar trei atleţi să termine cursa sub 9.7s.
0,
dacă x ≤ 9.5
R: Deoarece T ∼ U (9.5s, 10.5s), avem că F(x) = x − 9.5, dacă 9.5 < x < 10.5
1, dacă x ≥ 10.5
Atunci:
P1 = P(T(1) ≤ 9.58) = FT(1) (9.58) = 1 − [1 − F(9.58)]8 = 1 − 0.928 ≈ 0.4868.
Propoziţie 6.3.2 (repartiţia mediei de selecţie pentru o selecţie gaussiană) Dacă X ∼ N (µ, σ )
şi Xi , i = 1, n, sunt variabilele aleatoare de selecţie, atunci statistica X satisface:
Å ã
σ
X ∼ N µ, √ , n = 1, 2, . . .
n
X −µ
Z = σ ∼ N (0, 1).
√
n
Observaţie 6.3.1 Când selecţia se face fără revenire dintr-o populaţie de volum mai mic decât
30 şi X nu este neapărat normal repartizată, atunci putem spune doar că
…
σ N −n
E(X) = µ şi Var(X) = √ ,
n N −1
fără a putea preciza care este repartiţia lui X. Aici N este volumul populaţiei şi n > 0.05N.
6.3 Selecţii aleatoare dintr-o colectivitate normală 139
Observaţie 6.3.2 (1) Concluzia propoziţiei anterioare se mai poate scrie astfel:
(X1 − X2 ) − (µ1 − µ2 )
Z = q 2 ∼ N (0, 1).
σ1 σ22
n1 + n2
(2) Să presupunem că avem două populaţii statistice normale, Ω1 şi Ω2 , iar X este o caracteris-
tică comună a celor două populaţii, ce urmează a fi studiată. (De exemplu, populaţiile statistice
să fie mulţimea pieselor produse de două strunguri într-o zi de lucru, iar caracteristica comună
să fie masa lor). Să mai presupunem că deviaţiile standard ale caracteristicilor considerate sunt
cunoscute (i.e., deviaţiile sunt date deja în cartea tehnică a celor două strunguri). Pentru fiecare
dintre cele două colectivităţi, considerăm câte o selecţie repetată, de volume n1 , respectiv, n2
(adică, vom selecta n1 dintre piesele produse de strungul întâi şi n2 piese produse de cel de-al
doilea strung). Să notăm cu X1 , respectiv, X2 mediile de selecţie corespunzătoare. Propoziţia
anterioară precizează care este repartiţia diferenţei standardizate ale celor două medii de selecţie.
Aceasta ne va fi deosebit de utilă, spre exemplu, în verificarea ipotezei că masele medii ale
pieselor produse de cele două strunguri coincid.
Propoziţie 6.3.7 Dacă X ∼ N (0, 1) , atunci variabila aleatoare
n
H 2 = ∑ Xk2 ∼ χ 2 (n).
i=1
Observaţie 6.3.3 O consecinţă imediată a acestei propoziţii este că, dacă X ∼ N (0, 1), atunci
v.a. X 2 ∼ χ 2 (1). Următoarea propoziţie este tot o consecinţă directă a Propoziţiei 6.3.7.
140 Capitolul 6. Noţiuni din Teoria selecţiei statistice
Propoziţie 6.3.8 (repartiţia dispersiei de selecţie când media colectivităţii este cunoscută)
Dacă X ∼ N (µ, σ ) , atunci variabila aleatoare
1 n
H2 = ∑ (Xi − µ)2 ∼ χ 2(n).
σ 2 i=1
Lema 6.3.9 Dacă X şi Y sunt variabile aleatoare independente stochastic, astfel încât X ∼ χ 2 (n)
şi X +Y ∼ χ 2 (n + m), atunci Y ∼ χ 2 (m).
Lema 6.3.10 Fie X caracteristica unei colectivităţi statistice N (µ, σ ), X media de selecţie de
volum n şi S2 dispersia de selecţie. Atunci, statisticile
√
X −µ n n−1 2 1 n
σ = (X − µ) şi 2
S = 2 ∑ i
(X − X)2 sunt independente stochastic.
√ σ σ σ
n i=1
Propoziţie 6.3.11 Fie X ∼ N (µ, σ ) caracteristica unei populaţii statistice. Atunci statistica
1 n
χ2 = ∑ (Xi − X)2 ∼ χ 2(n − 1).
σ 2 i=1
n−1 2
2
S ∼ χ 2 (n − 1). (6.3.2)
σ
Lema 6.3.12 Dacă X şi Y sunt variabile aleatoare independente stochastic, cu X ∼ N (0, 1) şi
Y ∼ χ 2 (n), atunci statistica
X
T = » ∼ t (n).
Y
n
Propoziţie 6.3.13 Dacă X ∼ N (µ, σ ) este caracteristica unei colectivităţi statistice, atunci
X −µ
t= S
∼ t(n − 1).
√
n−1
(t(n − 1) este repartiţia Student cu n − 1 grade de libertate, S este deviaţia stantard de selecţie)
Propoziţie 6.3.15 (repartiţia diferenţei mediilor de selecţie când dispersiile sunt necunoscute,
egale) Considerăm o selecţie de volum n1 dintr-o populaţie normală N (µ1 , σ1 ) şi o selecţie
de volum n2 dintr-o colectivitate N (µ2 , σ2 ), cele două selecţii fiind alese independent una de
cealaltă. Notăm cu X1 , X2 şi S12 = SX2 1 , S22 = SX2 2 mediile de selecţie şi dispersiile de selecţie
corespunzătoare selecţiilor alese. În plus, presupunem că σ12 = σ22 = σ 2 . Atunci
s
(X1 − X2 ) − (µ1 − µ2 ) n1 + n2 − 2
T=» 1 1
∼ t(n1 + n2 − 2).
2
(n1 − 1)S + (n2 − 1)S 2
n1 + n2
1 2
Propoziţie 6.3.16 (repartiţia diferenţei mediilor de selecţie când dispersiile sunt necunoscute şi
diferite) Considerăm o selecţie de volum n1 dintr-o populaţie normală N (µ1 , σ1 ) şi o selecţie
de volum n2 dintr-o colectivitate N (µ2 , σ2 ), cele două selecţii fiind alese independent una de
cealaltă. Notăm cu X1 , X2 şi S12 = SX2 1 , S22 = SX2 2 mediile de selecţie şi dispersiile de selecţie
corespunzătoare selecţiilor alese. Presupunem că σ12 6= σ22 . Atunci
(X1 − X2 ) − (µ1 − µ2 )
T= ∼ t(N). (6.3.3)
S12 S22
+
n1 n2
unde
Ç å2
s21 s22
+
n1 n2 Ä ä
N = Ç å2 Ç å2 −2 s21 = s2 (x1 ), s22 = s2 (x2 ) (6.3.4)
s21 1 s22 1
+
n1 n1 − 1 n2 n2 − 1
Observaţie 6.3.6 În practică se foloseşte un test statistic pentru testarea egalităţii dispersiilor
necunoscute ale celor două caracteristici.
Propoziţie 6.3.17 Dacă X ∼ χ 2 (m) şi Y ∼ χ 2 (n) sunt variabile aleatoare independente, atunci
variabila aleatoare
n X
F= ∼ F (m, n).
mY
Propoziţie 6.3.18 Dacă {X1 , X2 , . . . , Xm+n } sunt variabile aleatoare independente, identic repar-
tizate N (0, 1), atunci variabila aleatoare
populaţie extragem câte o selecţie repetată, de volume n1 , respectiv, n2 , şi considerăm S12 = SX2 1
şi S22 = SX2 2 dispersiile de selecţie corespunzătoare celor două selecţii repetate. Atunci
σ22 S12
F= ∼ F (n1 − 1, n2 − 1).
σ12 S22
R: Reamintim, zα este cuantila de ordin α, adică acea valoarea pentru care aria sub-graficului
de la −∞ până la zα este egală cu α (vezi Figura 4.3). Pentru punctele (a), (b) & (c) utilizăm
Tabelul 9.1 din Anexă. Găsim că
Exerciţiu 6.4.3 Nota la examenul de Statistică este o variabilă aleatoare normală, de medie 7.25
şi deviaţie standard 0.8.
6.4 Exerciţii rezolvate 143
pc = 100 · [P(Z < 0.9375) − P(Z > −1.56)] = 100 · [P(Z < 0.9375) − 1 + P(Z < 1.56)]
≈ 82.6 − 100 + 94.06 = 76.65.
Exerciţiu 6.4.4 Datele de mai jos reprezintă sperant, a de viat, ă în 12 t, ări din America de Sud:
61, 64, 65, 66, 70, 71, 72, 73, 74, 74, 75, 75
Media acestor date este 70, iar deviaţia standard este 4.81. (Nu trebuie să verificat, i acest lucru.)
Fără a face niciun calcul, care valoare din date a avut cea mai mare contribut, ie la deviaţia
standard? Adică, dacă am putea elimina unul dintre punctele de date, ce valoare din date ar trebui
să eliminăm, dacă scopul nostru este să facem deviaţia standard a celor 11 puncte rămase cât mai
mică posibil? De ce?
R: Deoarece media datelor este 70, cea mai mare contribuţie la valoarea deviaţiei standard o va
avea valoarea cea mai îndepărtată de medie. Astfel, valoarea 61 are cea mai mare contribuţie
la valoarea deviaţiei standard. Fără valoarea 61, deviaţia standard de la noua medie scade la
s = 4.07.
Exerciţiu 6.4.5 Diametrul arborilor pentru o anumită specie de arbori este o variabilă aleatoare
distribuită normal cu media de 20 cm s, i abaterea standard de 5 cm.
(a) Care este probabilitatea ca diametrul unui copac ales aleatoriu să fie între 16 cm s, i 23 cm?
(b) Pentru un eşantion de 25 de arbori din această specie, care este probabilitatea ca media
celor 25 diametre să fie între 16 cm s, i 23 cm?
X − 20
R: (a) Ştim că X ∼ N (20 cm, 5 cm), echivalent cu Z := ∼ N (0 cm, 1 cm). Valorile
5
standardizate pentru 16 cm şi 23 cm sunt:
16 − 20 23 − 20
z1 = = −0.8 şi z2 = = 0.6.
5 5
Probabilitatea căutată este (folosind Tabelul 9.2 din Anexă):
P(−0.8 < Z < 0.6) = P(Z < 0.6) − P(Z < −0.8) = P(Z < 0.6) − (1 − P(Z < 0.8))
= 0.7257 − (1 − 0.7881) = 0.5138,
(b) Media unui eşantion de n = 25 arbori urmează repartiţia normală de medie µX = 20 cm şi
5 = 1 cm. Matematic, scriem că X ∼ N (20 cm, 1 cm), echivalent cu
deviaţie standard σX = 5 cm
X − 20
W := ∼ N (0 cm, 1 cm). Valorile standardizate pentru 16 cm şi 23 cm sunt:
1
16 − 20 23 − 20
w1 = = −4 şi w2 = = 3.
1 1
Probabilitatea căutată este (folosind Tabelul 9.2 din Anexă):
P(−4 < W < 3) = P(Z < 3) − P(Z < −4) = P(Z < 3) − (1 − P(Z < 4))
= 0.9987 − (1 − 0.9999) = 0.9986,
adică 99.86% şanse.
Exerciţiu 6.4.6 Înălt, imile femeilor de 18-24 de ani dintr-o anumită t, ară urmează o distribut, ie
normală cu o medie de 164 cm. (Să presupunem că măsurătorile sunt făcute la cel mai apropiat
cm.) În plus, 68% din înălt, imi sunt între 159 cm s, i 169 cm.
(a) Care este deviat, ia standard a înălt, imii?
(b) În ce range se vor afla 95% dintre înălţimile femeilor din această ţară?
(c) Pentru un eşantion de 100 de femei din această ţară, care este probabilitatea ca media
înălţimilor lor să fie între 163 cm s, i 165 cm?
R: (a) Fie H variabila aleatoare ce reprezintă înălţimea unei femei din această ţară. Informaţii
din ipoteză se scriu astfel:
Deoarece ştim că 68% dintre valorile unei normale se află la cel mult o deviaţie standard de
media 164 cm, găsim că σH = 5cm.
(b) 95% dintre înălţimile femeilor din aceastăţară se vor afla la cel mult 2 deviaţii standard de
medie, adică în intervalul [164 − 10, 164 + 10] = [154, 174].
(c) Media eşantionului este µH = 164 cm şi deviaţia standard a eşantionului este σH = √5 100 cm
=
0.5 cm. Probabilitatea cerută va fi egală cu:
163 − 164 165 − 164
Å ã
P(163 < H < 165) = P <Z< = P(−2 < Z < 2)
0.5 0.5
= P(Z < 2) − P(Z < −2) = P(Z < 2) − (1 − P(Z < 2))
= 2 · 0.9772 − 1 = 0.9544.
Exerciţiu 6.4.7 Cantitatea de apă consumată de Ana în fiecare zi se presupune a fi o v.a. normală
cu media 2 l şi deviaţia standard 0.3 l, independentă de zi. Ana a cumpărat azi un bax de 6 sticle
a câte 2.5 litri de apă fiecare. Presupunând că Ana bea doar din apa cumpărată azi, care este
probabilitatea ca ea să mai aibă apă din acest stoc şi după o săptămână (7 zile, inclusiv cea de
azi)?
R: Notez cu X variabila aleatoare ce reprezintă cantitatea de apă consumată de Ana zilnic.
Informaţiile din ipoteză se scriu astfel:
unde Xi sunt variabile aleatoare independente. Cantitatea de apă consumată de Ana √ în 7 zile este
o variabilă aleatoare X = X1 + X2 + . . . + X7 ce urmează distribuţia N (7 · 2 l, 7 · 0.3 l), adică
6.4 Exerciţii rezolvate 145
Pentru o selecţie de volum n = 125 (vom considera că selecţia este repetată, deoarece volumul
selecţiei este mult mai mic decât numărul becurilor produse de fiecare manufacturier), avem că:
200 100
T1 ∼ N (1400, √ ) şi T2 ∼ N (1200, √ ).
5 5 5 5
T1 − T2 ∼ N (200, 20).
Exerciţiu 6.5.2 Masa unui bagaj ce trece pe la serviciul de check-in al aeroportului din Iaşi
pentru cursa de Viena este o v.a. cu media 21 kg şi deviaţia standard 3.5 kg pentru pasagerii de la
clasa economic şi o v.a. cu media 12 kg şi deviaţia standard 4.5 kg pentru pasagerii de la clasa
business. Presupunem că aceste valori sunt ale unor variabile aleatoare independente de la un
pasager la altul, indiferent de clasă.
(a) Dacă într-o anumită cursă se află 16 pasageri la clasa business şi 81 pasageri la clasa
economic, care este valoarea aşteptată şi deviaţia standard a masei totale de bagaje ale pasagerilor
din acel avion?
(b) Care este probabilitatea ca masa totală de bagaje ale celor 97 de pasageri pentru această
cursă să nu depăşească 2000 kg?
(c) Se aleg la întâmplare bagajele a 6 pasageri de la clasa economic şi a 10 pasageri de la clasa
business şi se cântăresc. Care este probabilitatea ca diferenţa maselor bagajelor dintre cele două
clase să fie mai mică de 20 kg?
Exerciţiu 6.5.3 Batoanele de ciocolată produse de o anumită firmă cântăresc fiecare 50 g, cu
deviaţia standard 0.02 g. Se aleg la întâmplare două loturi de batoane de ciocolată, fiecare având
100 de bucăţi. Care este probabilitatea ca masele totale ale celor două loturi să nu difere prin
mai mult de 5 g?
Exerciţiu 6.5.4 Presupunem că timpul de aşteptare a autobuzului în staţie este o v.a. repartizată
U (0, 10) pentru orele dimineţii, iar timpul de aşteptare a autobuzului în staţie la orele serii este
o v.a. repartizată U (0, 8). Toţi timpii sunt independenţi între ei.
(a) Dacă într-o anumită săptămână luaţi autobuzul în fiecare zi (5 zile lucrătoare), care este
timpul total mediu pe care vă aşteptaţi să-l petreceţi în staţia de autobuz în întreaga săptămână?
(b) Care este abaterea standard a timpului total petrecut în staţia de autobuz în întreaga săp-
tămână?
(c) Determinaţi valoarea medie şi abaterea standard a diferenţei dintre timpul total petrecut
dimineaţa şi timpul total petrecut seara în staţia de autobuz în întreaga săptămână?
7. Estimatori
Presupunem ca X este variabila de interes a unei colectivitati statistice si ca, in urma unor
masuratori, am obtinut rezultatele x1 , x2 , . . . , xn . Deoarece in urma acestor masuratori pot aparea
erori, in Statistica se considera ca aceste date sunt realizarile unor variabile X1 , X2 , . . . , Xn . Se
presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate
copii independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare
de selectie. Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de
exemplu media µ sau deviatia standard σ ale lui X.
O functie f (X1 , X2 , . . . , Xn ) ce depinde de variabilele de selectie se va numi generic statistică.
In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f (x1 , x2 , . . . , xn ), se
numeste tot statistică. Exemple de statistici:
1. Media selectiei:
1 n
X = ∑ xi .
n i=1
1 n
O valoare observata pentru X este x = ∑ xi.
n i=1
(∗ ) Daca variabilele de selectie Xi au media µ si deviatia standard σ , atunci media mediei
selectiei este tot µ si deviatia sa standard este √σn . Scriem asta astfel:
σ
µX = µ si σX = √ .
n
(∗∗ ) In cazul in care variabilele Xi sunt normale N (µ, σ ), atunci media selectiei este tot
o variabila normala, X ∼ N (µ, √σn ).
(∗∗∗ ) Daca numarul variabilelor de selectie este suficient de mare, atunci variabila x este
normala, fara ca Xi sa fie neaparat normale. Acest fapt este o consecinta a teoremei limita
centrala.
150 Capitolul 7. Estimatori
2. Dispersia selecţiei,
1 n
S2 = ∑ [Xi − X]2
n − 1 i=1
2 1 n
S2
O valoare observata pentru este s = ∑ [xi − x]2 .
n − 1 i=1
√ √
3. Deviatia standard a selecţiei, S = S . O valoare observata pentru S este s = s2 .
2
• Pentru un anumit parametru pot exista mai mulţi estimatori nedeplasati. Dintre acestia, cel
mai bun estimator va fi acela care are varianta minima.
1 n
cove = ∑ (xi − x)(yi − y),
n − 1 i=1
unde
1 n 1 n
x = ∑ xi şi y = ∑ yi .
n i=1 n i=1
152 Capitolul 7. Estimatori
După cum am văzut anterior, putem determina estimaţii punctuale pentru parametrii unei populatii
însă, o estimaţie punctuală, nu precizează cât de aproape se găseşte estimaţia θ̂ (x1 , x2 , . . . , xn )
faţă de valoarea reală a parametrului θ . De exemplu, dacă dorim să estimăm valoarea medie a
pH din sol, atunci putem găsi un estimator punctual (e.g., media de selecţie) care să ne indice că
aceasta este de 8.1. Ideal ar fi dacă această informaţie ar fi prezentată sub forma: pH mediu din
sol este 8 ± 0.2.
Putem obţine astfel de informaţii dacă vom construi un interval în care, cu o probabilitate destul
de mare, să găsim valoarea reală a lui θ .
Dorim să determinam un interval (aleator) care să acopere cu o probabilitate mare (e.g., 0.95,
0.98, 0.99 etc) valoarea posibilă a parametrului necunoscut.
Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval
de încredere (en., confidence interval) pentru parametrul θ cu probabilitatea de încredere 1 − α,
un interval aleator (θ , θ ), astfel încât
se numeşte valoare a intervalului de încredere pentru θ . Pentru simplitate însă, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât şi pentru valoarea
acestuia, înţelesul desprinzându-se din context.
Valoarea α se numeşte nivel de semnificaţie sau probabilitate de risc.
Observaţie 7.2.1 Relaţia (7.2.1) se citeşte astfel:
“probabilitatea cu care intervalul (θ , θ ) acoperă valoare lui θ este 1 − α”.
Exprimarea “probabilitatea cu care θ se află în intervalul (θ , θ ) este 1 − α” este greşită,
deoarece θ este o constantă, intervalul aleator variază.
Cu cât α este mai mic (de regulă, α = 0.01 sau 0.02 sau 0.05), cu atât şansa (care este (1 − α) ·
100%) ca valoarea reală a parametrului θ să se găsească în intervalul găsit este mai mare.
Intervalul de încredere pentru valoarea reală a unui parametru nu este unic. Dacă ni se dau
condiţii suplimentare (e.g., fixarea unui capăt), atunci putem obţine intervale infinite la un capăt
şi finite la celălalt capăt.
În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale.
Vom nota cu (generic) prin xα cuantila de ordin α pentru repartitia variabilei X. Cuantilele xα
pot fi gasite in tabele specifice repartitiei cautate, sau pot fi calculate folosind un soft specializat.
Daca variabila X urmeaza o repartitie normala N (0, 1), atunci cuantilele corespunzatoare le
vom nota prin zα si le vom gasi in Tabelul 11.1.
Daca variabila X urmeaza o repartitie Student t(n), atunci cuantilele corespunzatoare le vom
nota prin tα, n si le vom gasi in Tabelul 11.4.
Daca variabila X urmeaza o repartitie χ2 (n), atunci cuantilele corespunzatoare le vom nota prin
χα,2 si le vom gasi in Tabelul 11.3.
n
7.2 Estimarea parametrilor prin intervale de încredere 153
• Este posibil ca σ sa fie un parametru cunoscut pentru X, caz in care pentru intervalul de
incredere pentru medie se foloseste formula (7.2.2) cu σ inlocuindu-l pe s.
Exemplu 7.2.1 O maşină de îngheţată umple cupe cu îngheţată. Se doreşte ca îngheţată din cupe
să aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g
de îngheţată. Presupunem că masa conţinutului din cupă este o variabilă aleatoare repartizată
normal. Pentru a verifica dacă maşina este ajustată bine, se aleg la întâmplare 30 de înghetate
şi se cântăreşte conţinutul fiecăreia. Obţinem astfel o selecţie repetată de volum 30 după cum
urmează:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253
Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1− α2 ; n−1 = t0.995, 29 = 2.7564, media
valorilor este x = 250.0667 si deviatia standard este s = 2.9704. Astfel, obţinem intervalul de
încredere pentru µ: (248.572, 251.561).
1 n
s2 = ∑ [xi − x]2 .
n − 1 i=1
Intervale de încredere pentru deviaţia standard se obţin prin extragerea rădăcinii pătrate din
capetele de la intervalele de încredere pentru dispersie.
Exemplu 7.2.2 Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a con-
ţinutului de nicotină pentru un anumit tip de ţigări, stiind ca pentru o selecţie de 25 de bucăţi,
deviaţia standard a conţinutului de nicotină este de 1.6mg.
R: Observam ca s = 1.6mg. Din tabele, găsim ca:
2 2
χ0.975; 24 = 39.3641; χ0.025; 24 = 12.4012.
(σ 2 , σ 2 ) = (1.5608, 4.9544).
Vom spune că volumul n este suficient de mare pentru a putea face aproximarea distribuţiei lui pb
cu una normală dacă intervalul
" #
p (1 − p) p (1 − p)
µ pb − 3σ pb, µ pb + 3σ pb = p − 3 , p+3
n n
Pe baza acestui rezultat, putem lua decizii referitoare la proporţia reală p plecând de la estimatorul
pb.
Bazat pe o selectie de volum n, un interval de încredere pentru p la nivelul de semnificatie α,
este de forma:
!
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 . (7.2.6)
n n
156 Capitolul 7. Estimatori
Acest interval de încredere este valabil pentru selecţie dintr-o populaţie infinită (sau n N,
de regulă n < 0.05N) sau pentru selecţia cu repetiţie dintr-o populaţie finită. Dacă selecţia se
realizează fără repetiţie dintr-o populaţie finită (cu N astfel înât n ≥ 0.05N), atunci intervalul de
încredere este:
… … !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 . (7.2.7)
n N −1 n N −1
Deoarece p nu este a priori cunoscut, p a fost înlocuit sub radical cu estimatorul său. Valoarea
pb(1 − pb)
E = z1− α2 (7.2.8)
n
este eroarea care se face prin estimarea lui p prin intervalul de încredere dat de (7.2.6).
Observaţie 7.2.3 Folosind formula (7.2.8), se poate determina volumul minim al eşantionului
pentru care se obţine estimarea proporţiei p printr-un interval de încredere cu o eroare maximă
E (ceea ce este echivalent cu faptul că lungimea intervalului este E ).
Dacă am ghici proporţia populaţiei, p, atunci găsim următoarea estimare a volumului selecţiei:
¢ Å z α ã2 •
1− 2
n = p(1 − p) , (7.2.9)
E
unde d x e este cel mai apropiat întreg mai mare sau egal cu x.
Dacă p nu poate fi ghicit, atunci folosim faptul că p(1 − p) este maxim pentru p = 0.5 şi estimăm
pe n prin
1 z1− α2 2
¢ Å ã •
n= .
4 E
Exemplu 7.2.3 Dintr-o selecţie de 200 de elevi ai unei şcoli cu 1276 de elevi, 65% afirmă că
deţin cel puţin un telefon mobil. Să se găsească un interval de încredere pentru procentul de copii
din respectiva şcoală ce deţin cel puţin un telefon mobil, la nivelul de semnificaţie α = 0.05.
R: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N, găsim că un interval de
încredere la nivelul de semnificaţie 0.05 este
!
0.65 (1 − 0.65) 1276 − 200 0.65 (1 − 0.65) 1276 − 200
0.65 − 1.96 , 0.65 + 1.96
200 1276 − 1 200 1276 − 1
= (58.93%, 71.07%).
Exemplu 7.2.4 Într-un institut politehnic, s-a determinat că dintr-o selecţie aleatoare de 100 de
studenţi înscrişi, doar 67 au terminat studiile, obţinând o diplomă. Găsiţi un interval de încredere
care, cu o confidenţă de 90%, să determine procentul de studenţi absolvenţi dintre toţi studenţii
ce au fost înscrişi.
67
R: Mai întâi, observăm că α = 0.1, n > 30, pb = 100 = 0.67, n pb = 67 > 5 şi n(1 − pb) = 33 > 5.
Deoarece nu ni se dă vreo informaţie despre N (numărul total de studenţi înscrişi), putem
presupune că n < 0.05N. Cuantila teoretica este z0.95 = 1.6449. Găsim că intervalul de încredere
căutat este:
!
0.67 (1 − 0.67) 0.67 (1 − 0.67)
0.67 − 1.6449 , 0.67 + 1.6449 = (57.78%, 76.22%).
100 100
7.3 Exerciţii rezolvate 157
Exerciţiu 7.3.2 Un primar susţine că 90% din populaţia oraşului s-a vaccinat complet împotriva
COVID. Pentru a verifica afirmaţia primarului, se ia un eşantion aleator de 121 de locuitori ai
oraşului. Dintre aceştia, doar 102 erau vaccinaţi complet.
(a) Determinaţi procentul de selecţie (de persoane vaccinate din eşantion).
(b) Verificaţi dacă volumul eşantionului este suficient de mare pentru a putea presupune
normalitatea proporţiei de selecţie. Se va utiliza p = 0.9, care corespunde afirmaţiei
primarului.
(c) Presupunând că primarul are dreptate, care sunt şansele ca dintr-un eşantion de 121 să
observăm cel mult 102 persoane complet vaccinate?
(d) Comentaţi rezultatul de la (c).
R: (a) Procentul de selecţie este pb = 102 121 ≈ 0.84.
(b) Se verifică faptul că volumul eşantionului este suficient de mare, deoarece
" #
p (1 − p) p (1 − p)
µ pb − 3σ pb, µ pb + 3σ pb = p − 3 , p+3
n n
ñ … … ô
0.9 · 0.1 0.9 · 0.1
= 0.9 − 3 , 0.9 + 3
121 121
= [0.8182, 0.9818] ⊂ [0, 1].
»
(c) Media lui pb este 0.9 şi deviaţia standard a lui pb este p (1− pb)
= 0.0273. Deoarece eşantionul
b
n
este suficient de mare, deducem că
pb − 0.9
pb ∼ N (0.9, 0.0273) ⇔ Z := ∼ N (0, 1) .
0.0273
158 Capitolul 7. Estimatori
Probabilitatea cerută este probabilitatea ca proporţia de selecţie să fie mai mică sau egală cu
102
121 ≈ 0.84. Vom scrie că
pb − 0.9 0.84 − 0.9
Å ã
P( pb ≤ 0.84) = P ≤
0.0273 0.0273
= P(Z ≤ −2.20) = Θ(−2.20) = 1 − Θ(2.20) = 1 − 0.9861 = 0.0139.
Aşadar, şansele sunt de doar 1.39% de a observa acest rezultat.
(d) Deoarece şansele sunt doar de 1.39%, înseamnă că este foarte improbabil ca primarul să
spună adevărul şi să fi observat doar 102 persoane complet vaccinate dintr-un eşantion de 121.
În consecinţă, primarul minte.
Exerciţiu 7.3.3 Într-un depozit se află piese de acelaşi tip. La un control de calitate, dintr-un lot
de 250 de piese alese aleator, 10 piese aveau defecte.
(a) Verificaţi dacă volumul eşantionului este suficient de mare pentru a folosi aproximarea
normală a proporţiei de selecţie.
(b) Determinaţi un interval de încredere cu α = 0.1 pentru numărul de piese defecte din
depozit.
(c) Aceeaşi cerinţă ca la punctul (b), în cazul în care în depozit s-ar afla doar 400 de piese.
10
R: (a) Proporţia de selecţie este pb = 250 = 0.04. Media proporţiei de selecţie este µ pb ≈ pb = 0.04
»
şi aproximarea dispersiei proporţiei de selecţie este s pb = p(1− pb)
= 0.0124. Se poate verifica
b
n
faptul că
µ pb − 3s pb, µ pb + 3s pb = [0.0028, 0.0772] ⊂ [0, 1].
Aşadar, putem folosi aproximarea normală a proporţiei de selecţie.
(b) Cuantila z1− α2 = z0.95 = 1.6449. Deoarece volumul populaţiei este necunoscut, poate fi
presupus a fi semnificativ mai mare decât cel al eşantionului. Intervalul de încredere căutat este
dat de formula (7.2.6) şi este:
!
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 = (0.0196, 0.0604),
n n
adică 1.96% − 6.04%.
(c) Deoarece volumul eşantionului (n = 250) şi al populaţiei (N = 400) sunt comparabile,
intervalul de încredere este dat de formula (7.2.7) şi este:
… … !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 = (0.0275, 0.0525),
n N −1 n N −1
adică 2.75% − 5.25%. Acest interval este mai scurt (mai strâns în jurul valorii reale a lui p) decât
în cazul precedent. Informaţia în plus referitoare la volumul populaţiei a dat un rezultat mai bun.
Exerciţiu 7.3.4 (1) Un studiu susţine că 37% dintre elevii de liceu din ţară fumează. Cât de
mare ar trebui să fie volumul unei selecţii dintre elevii de liceu pentru a estima procentul real de
elevi ce fumează, cu o eroare de estimare maximă de 0.5%. Se va alege α = 0.1.
(2) Aceeaşi cerinţă ca la (1), folosind informaţia că între 35% şi 40% dintre elevii de liceu din
ţară fumează.
(3) Aceeaşi cerinţă ca la (1), fără vreo altă informaţie suplimentară.
R: (1) Folosim formula (7.2.9), pentru pb = 0.37. Cuantila este z0.95 = 1.6449. Găsim că o
estimaţie pentru n este:
1.6449 2
Å ã
n = 0.37(1 − 0.37) = 25228.
0.005
7.3 Exerciţii rezolvate 159
(2) Folosim formula (7.2.9), pentru p = 0.4 (se alege valoarea 40%, cea mai apropiată de 50%).
Găsim că o estimaţie pentru n este:
Å ã2
1.6449
n = 0.4(1 − 0.4) = 25975.
0.005
(3) Fără nicio informaţie suplimentară, considerăm că şansele sunt 50% − 50%. Folosim formula
(7.2.9), pentru p = 0.5. Găsim că o estimaţie pentru n este:
Å ã2
1.6449
n = 0.5(1 − 0.5) = 27057.
0.005
4 · 5 + 5 · 6 + 6 · 7 + 7 · 8 + 8 · 5 + 9 · 3 + 10 · 2
x= = 6.53,
36
iar dispersia de selecţie este
…
1
s = [5(4 − 6.53)2 + 6(5 − 6.53)2 + 7(6 − 6.53)2 + 8(7 − 6.53)2 + 5(8 − 6.53)2 + 3(9 − 6.53)2 + 2(10 − 6.53)2 ]
35
= 1.72.
Exerciţiu 7.3.6 Pentru femeile cu vârsta între 18 şi 24 ani, presiunea sistolică (în mm Hg) este
distribuită N (µ, 13.1).
Valoarea medie a presiunii sistolice pentru un grup de nouă femei cu vârste între 18 şi 24 ani,
alese aleator, este 120.5 mm Hg. Determinaţi un interval de încredere pentru µ (α = 0.1).
160 Capitolul 7. Estimatori
R: Volumul de date este mic (n = 9), dar datele sunt normal distribuite. Avem că: x = 120.5,
σ = 13.1, z1− α2 = z0.05 = 1.6449. Intervalul de încredere este
Å ã Å ã
σ σ 13.1 13.1
x − z1− α2 √ , x + z1− α2 √ = 120.5 − 1.6449 √ , 120.5 + 1.6449 √
n n 9 9
= (113.32, 127.68).
Exerciţiu 7.3.7 O fabrică produce batoane de ciocolată cântărind 100g fiecare. Pentru a se
estima abaterea masei de la această valoare, s-a făcut o selecţie de 35 de batoane, obţinându-se
valorile:
100.12; 99.92; 100.1; 99.89; 100.07; 99.88; 100.11; 99.90; 99.97; 100.2;
99.89; 100.15; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89;
99.76; 100.1; 99.24; 98.19; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89;
100.12; 98.63; 99.03; 100.3; 98.68.
Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a masei batoanelor produse
de respectiva fabrică.
R: Mai întâi, calculăm d 2 (x). Avem:
2 1 35
d (x) = ∑ [xi − 100]2 = 0.3.
35 i=1
Din tabele, sau utilizând M ATLAB, găsim cuantilele:
2 2
χ0.975; 35 = 53.2033; χ0.025; 35 = 20.5694.
Exerciţiu 7.3.8 Următoarele valori reprezintă cinci observaţii asupra unei variabile normale:
3.14, 3.43, 3.21, 2.97, 3.05. Estimaţi prin intervale de încredere media şi deviaţia standard a
acestei variabile (α = 0.1).
R: Vom avea: n = 5, t0.95,4 = 2.1318, x ≈ 3.16, s ≈ 0.1761. Intervalul de încredere pentru
medie este Å ã
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ = (2.9921, 3.3279).
n n
Intervalul de încredere pentru dispersie este:
!
n − 1 n − 1
(σ 2 , σ 2 ) = 2
s2 , 2 s2 = (0.0131, 0.1745).
χ1− α ; n−1 χ α ; n−1
2 2
Testarea ipotezelor statistice este o metodă prin care se iau decizii statistice, utilizând datele
experimentale culese. Testele prezentate mai jos au la bază noţiuni din teoria probabilităţilor.
Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental,
să se putem valida anumite estimări de parametri ai unei repartiţii sau chiar putem prezice forma
legii de repartiţie a caracteristicii considerate.
Presupunem că Z este variabila de interes a unei populaţii statistice şi că legea sa de probabilitate
este dată de depinde de un parametru θ . In general, o repartitie poate depinde de mai multi
parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, să presupunem
că (zk )k=1, n sunt datele observate relativ la caracteristica Z.
• Numim ipoteză statistică o presupunere relativă la valorile parametului θ sau chiar
referitoare la tipul legii caracteristicii.
• O ipoteză neparametrică este o presupunere relativă la repartitia lui Z. De exemplu, o
ipoteză de genul Z ∼ Normală.
• Numim ipoteză parametrică o presupunere făcută asupra valorii parametrilor unei repartiţii.
Dacă mulţimea la care se presupune că aparţine parametrul necunoscut este formată dintr-
un singur element, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză
parametrică compusă.
• O ipoteză nulă este acea ipoteză pe care o intuim a fi cea mai apropiată de realitate şi o
presupunem a priori a fi adevărată. Cu alte cuvinte, ipoteza nulă este ceea ce doreşti să
crezi, în cazul în care nu există suficiente evidenţe care să sugereze contrariul. Un exemplu
de ipoteză nulă este următoarul: "presupus nevinovat, până se găsesc dovezi care să ateste
o vină". O ipoteză alternativă este orice altă ipoteză admisibilă cu care poate fi confruntată
ipoteza nulă.
• A testa o ipoteză statistică (en., statistical inference) înseamnă a lua una dintre deciziile:
− ipoteza nulă se respinge (caz in care ipoteza alternativa este admisa)
− ipoteza nulă se admite (sau, nu sunt motive pentru respingerea ei)
• În Statistică, un rezultat se numeşte semnificativ din punct de vedere statistic dacă este
improbabil ca el să se fi realizat datorită şansei. Între două valori există o diferenţă
164 Capitolul 8. Teste statistice
semnificativă dacă există suficiente dovezi statistice pentru a dovedi diferenţa, şi nu
datorită faptului că diferenţa ar fi mare.
• Numim nivel de semnificaţie probabilitatea de a respinge ipoteza nulă când, de fapt, aceasta
este adevărată. În general, nivelul de semnificaţie este o valoare pozitiva apropiata de 0,
e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic,
valoarea implicita pentru α este 0.05.
• În urma unui test statistic pot aparea două tipuri de erori:
1. eroarea de speţa (I) sau riscul furnizorului (en., false positive) − este eroarea care se
poate comite respingând o ipoteză (în realitate) adevărată. Se mai numeşte şi risc de
genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnificaţie α, adică:
2. eroarea de speţa a (II)-a sau riscul beneficiarului (en., false negative) − este eroarea
care se poate comite acceptând o ipoteză (în realitate) falsă. Se mai numeşte şi risc
de genul al (II)-lea. Probabilitatea acestei erori este
Gravitatea comiterii celor două erori depinde de problema studiată. De exemplu, riscul de
genul (I) este mai grav decât riscul de genul al (II)-lea dacă verificăm calitatea unui articol
de îmbracăminte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dacă
verificăm concentraţia unui medicament.
• Denumim valoare P sau P−valoare sau nivel de semnificaţie observat (en., P-value)
probabilitatea de a obţine un rezultat cel puţin la fel de extrem ca cel observat, presupunând
că ipoteza nulă este adevărată. Valoarea P este cea mai mică valoare a nivelului de
semnificaţie α pentru care ipoteza (H0 ) ar fi respinsă, bazându-ne pe observaţiile culese.
Dacă Pv ≤ α, atunci respingem ipoteza nulă la nivelul de semnificaţie α, iar dacă Pv > α,
atunci admitem (H0 ). Cu cât Pv este mai mică, cu atât mai mari şanse ca ipoteza nulă să fie
respinsă. De exemplu, dacă valoarea P este Pv = 0.045 atunci, bazându-ne pe observaţiile
culese, vom respinge ipoteza (H0 ) la un nivel de semnificaţie α = 0.05 sau α = 0.1, dar
nu o putem respinge la un nivel de semnificaţie α = 0.02. Dacă ne raportăm la P−valoare,
decizia într-un test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât
nivelul de semnificaţie α, atunci ipoteza nulă este respinsă, iar dacă P−value este mai
mare decât α, atunci ipoteza nulă nu poate fi respinsă.
Un exemplu simplu de test este testul de sarcină. Acest test este, de fapt, o procedură statistică
ce ne dă dreptul să decidem dacă există sau nu suficiente evidenţe să concluzionăm că o sarcină
este prezentă. Ipoteza nulă ar fi lipsa sarcinii. Majoritatea oamenilor în acest caz vor cădea de
acord cum că un false negative este mai grav decât un false positive.
Să presupunem că suntem într-o sală de judecată şi că judecătorul trebuie să decidă dacă un
inculpat este sau nu vinovat. Are astfel de testat următoarele ipoteze:
®
(H0 ) inculpatul este nevinovat;
(H1 ) inculpatul este vinovat.
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 [1]&[i] [2]&[i]
Acceptă H0 [1]&[ii] [2]&[ii]
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 închide o persoana nevinovată închide o persoana vinovată
Accepta H0 eliberează o persoana nevinovată eliberează o persoana vinovată
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 α judecată corectă
Accepta H0 judecată corectă β
Metoda a II-a: O altă modalitate de testare a unei ipoteze statistice parametrice este prin
intermediul P−valorii, Pv . Reamintim, P−valoarea este probabilitatea de a obţine un rezultat
cel puţin la fel de extrem ca cel observat, presupunând că ipoteza nulă este adevărată. Aceasta
valoare este afisata de orice soft statistic folosit in testarea ipotezelor. Utilizând P−valoarea,
testarea se face astfel:
Ipoteza nulă va fi respinsă dacă Pv < α şi va fi admisă dacă Pv ≥ α. Aşadar, cu cât Pv este mai
mic, cu atât mai multe dovezi de respingere a ipotezei nule.
Exemplu 8.1.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un
anumit oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate
in urma sondajului sunt grupate in Tabelul 5.2. Dorim să testăm, la nivelul de semnificaţie
α = 0.05, dacă media tuturor notelor la teza de Matematică a elevilor din oras este µ = 6.5.
R: Aşadar, avem de testat
(H0 ) µ = 6.5 vs. (H1 ) µ 6= 6.5.
Media si deviatia standard a notelor din tabel sunt:
z = 6.3667, s = 1.8570.
Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:
z − µ0
t0 = s = −0.6812, t1− α2 ; n−1 = t0.975; 89 = 1.9870.
√
n
Deoarece |t0 | < t0.975; 89 , luam decizia ca ipoteza (H0 ) este admisa la acest nivel de semnificatie.
Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata
de un soft statistic, valoarea ei fiind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
8.1 Tipuri de teste statistice 167
• Calculam statistica
n−1 2
χ02 = s , (8.1.2)
σ2
• Determinam cuantilele de ordine α/2 si 1 − α/2 pentru repartitia χ 2 (n − 1) (se pot obtine din
tabele pentru repartitia χ 2 ).
• Decizia testului se
Ä va lua astfel: ä
2
– dacă χ02 ∈ χ 2α ; n−1 , χ1− α , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
Ä 2 2 ; n−1 ä
– dacă χ02 ∈
6 χ 2α ; n−1 , χ1−
2
α , atunci respingem (H0 ) (i.e., σ 2 6= σ02 ).
2 2 ; n−1
Exemplu 8.1.2 Se cercetează caracteristica Z, ce reprezintă diametrul pieselor (în mm) produse
de un strung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecţie
de piese de volum n = 11 şi obţinem distribuţia empirică:
Å ã
10.50 10.55 10.60 10.65
.
2 3 5 1
(H0 ) : σ 2 = 0.003,
χ 2α ; n−1 = 3.9403; 2
χ1− α
; n−1 = 18.3070.
2 2
Cum valoarea χ02 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu poate fi
respinsa. (o acceptam).
Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata
de un soft statistic, valoarea ei fiind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
168 Capitolul 8. Teste statistice
clasa Oi n
Å ã
, unde ∑ ni = n, ni ≥ 5;
ni i=1, n i=1
48 44 55 45 47 41 39 49 55 52
1 200 2 10128.65
s2 = ∑ xi − x2 = − 6.72682 = 5.6479.
n − 1 i=1 199
Astfel, s = 2.3765. Deoarece dispersia nu este cunoscută a priori şi eşantionul este suficient de
mare, folosim intervalul de încredere pentru eşantioane mari. Folosind t1− α2 ; n−1 = t0.975, 199 ≈
z0.975 = 1.96, găsim intervalul de încredere
Å ã
s s
(µ, µ) = x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ = (6.3974, 7.0562).
n n
(b) Folosim testul t bilateral (dispersia nu este cunoscută priori, iar n = 200 este suficient de
mare). Deoarece
6.7268 − 6.75
t0 = 2.3765
= −0.1381 şi |t0 | = 0.1381 < 1.96,
√
200
Deoarece 0.04 se aflăîn intervalul de în redere de mai sus, acceptăm ipoteza nulă.
172 Capitolul 8. Teste statistice
(a) Să se verifice, cu nivelul de semnificaţie α = 0.02, ipoteza că media acestor cheltuieli lunare
pentru o singură familie este de 140 RON, ştiind că abaterea standard este 35 RON.
(b) Să se verifice aceeaşi ipoteză, în cazul în care abaterea standard nu este cunoscută a priori.
Exerciţiu 8.3.3 Pentru o selecţie dată, de volum n = 196, am obţinut x = 0.25 şi s = 4. Nu
cunoaştem nici valoarea medie şi nici dispersia variabilei aleatoare ce caracterizează populaţia.
Verificaţi la nivelul de semnificaţie α = 0.05 ipoteza µ = 0, cu alternativa µ 6= 0.
Exerciţiu 8.3.4 Un patron susţine că firma sa nu face discriminare sexuală la angajare (i.e., atât
bărbaţii, cât şi femeile au aceeaşi şansă de a se angaja în respectiva firmă). Se aleg aleator 500
de angajaţi şi se observă că 271 sunt bărbaţi. Testaţi la nivelul de semnificaţie 0.05 dacă patronul
firmei spune adevărul sau nu.
Exerciţiu 8.3.5 O selecţie de volum n = 50 este folosită pentru a verifica următoarea ipoteză
la nivelul de semnificaţie α = 0.05. Valorile estimate pentru medie, respectiv deviaţia standard
sunt: x = 17.5 şi s = 4.5. Care este rezultatul testării?
Exerciţiu 8.3.6 Urmărim preţul X al aceluiaşi articol în 20 de magazine, alese la întâmplare.
Acestea sunt:
9.6 9.9 10.3 10.0 10.5 9.7 9.9 10.2 10.0 10.4
9.9 9.8 10.1 10.4 9.9 10.2 10.3 10.1 10.0 9.7
Presupunem că timpii de lucru sunt caracteristici normale. Formulaţi un test statistic potrivit, în
urma căruia să decideţi dacă timpii de lucru pentru a doua încercare s-au îmbunătăţit semnificativ.
8.3 Exerciţii propuse 173
Exerciţiu 8.3.8
Tabelul alăturat conţine repartiţia pe grupe de vârstă a unei selecţii
aleatoare de 385 de şomeri dintr-o anumită regiune a ţării. vârsta frecvenţa
(a) Calculaţi vârsta medie si deviaţia standard pentru selecţia dată. [18, 25) 34
(b) Estimaţi printr-un interval de încredere vârsta medie a şomerilor [25, 35) 76
din acea regiune (α = 0.1). [35, 45) 124
(c) Testaţi ipoteza că vârsta medie a şomerilor este 42 de ani [45, 55) 87
(α = 0.1). [55, 65) 64
Exerciţiu 8.3.9 Într-o şcoală sunt 200 de elevi de clasa a XII-a care au susţinut teză la Matema-
tică. Tabelul următor conţine o selecţie aleatoare de 36 de note la această teză:
note 4 5 6 7 8 9 10
frecvenţa 5 6 7 8 5 3 2
(a) Estimaţi printr-un interval de încredere procentul notelor de trecere obţinute de elevii de
clasa a XII-a din acea şcoală (α = 0.06).
(b) Testaţi ipoteza că 15% dintre elevii din şcoală nu au luat notă de trecere (α = 0.06).
Exerciţiu 8.3.10 O selecţie de 700 de salarii pe oră din România arată că media salariului pe oră
este x = 13.72 RON şi s = 9.3. Putem decide, pe baza acestui sondaj, că media salariului pe oră
este, de fapt, µ > 12.43 RON, valoare stabilită de guvernul român? Se va folosi α = 0.05.
9. Corelaţie
9.1 Introducere
În acest capitol vom discuta măsuri şi tehnici de determinare a legăturii între două sau mai multe
variabile aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [15], [16], [?].
Primele metode utilizate în studiul relaţiilor dintre două sau mai multe variabile au apărut de
la începutul secolului al XIX-lea, în lucrările lui Legendre1 şi Gauss2 , în ce priveşte metoda
celor mai mici pătrate pentru aproximarea orbitelor astrelor în jurul Soarelui. Un alt mare om
de ştiinţă al timpului, Francis Galton3 , a studiat gradul de asemănare între copii şi părinţi, atât
la oameni, cât şi la plante, observând că înălţimea medie a descendenţilor este legată liniar de
înălţimea ascendenţilor. Este primul care a utilizat conceptele de corelaţie şi regresie ( (lat.)
regressio - întoarcere). Astfel, a descoperit că din părinţi a căror înălţime este mai mică decât
media colectivităţii provin (în general) copii cu o înălţime superioară lor şi, vice-versa, din
părinţi cu înălţimi peste media colectivităţii provin (în general) copii cu o înălţime inferioară
lor. Astfel, a concluzionat că înălţimea copiilor ce provin din părinţi înalţi tinde să "regreseze"
spre înălţimea medie a populaţiei. Din lucrările lui Galton s-a inspirat un student de-al său, Karl
Pearson, care a continuat ideile lui Galton şi a introdus coeficientul (empiric) de corelaţie ce îi
poartă numele. Acest coeficient a fost prima măsură importantă introdusă care cuantifică tăria
legăturii dintre două variabile ale unei populaţii statistice.
Un ingredient fundamental în studiul acestor două concepte este diagrama prin puncte, numită
diagrama scatter plot. În probleme de regresie în care apare o singură variabila răspuns (variabila
care este prezisă) şi o singură variabilă predictor (variabila pe baza căreia facem predicţia),
diagrama scatter plot (răspuns vs. predictor) este punctul de plecare pentru studiul regresiei.
O diagramă scatter plot ar trebui reprezentată pentru orice problemă de analiză regresională,
deoarece aceasta ne va da o primă idee despre ce tip de regresie vom folosi. Un exemplu de astfel
de diagramă este reprezentat în Figura 9.1, în care am reprezentat coeficientul de inteligenţă (IQ)
1 Adrien-Marie Legendre (1752 − 1833), matematician francez
2 Johann Carl Friedrich Gauss (1777 − 1855), matematician şi fizician german
3 Sir Francis Galton (1822 − 1911), om de ştiinţă britanic
176 Capitolul 9. Corelaţie
a 200 de perechi soţ-soţie. Fiecare cruciuliţă din diagramă reprezintă IQ-ul pentru o pereche
soţ-soţie.
sunt covarianţa (corelaţia) empirică şi deviaţiile standard empirice pentru X şi Y .
Spre exemplu, pentru selecţiile
x = [0.49 -0.45 0.39 0.05 -0.49 0.24 0.72 0.15 0.13 -1.01];
y = [1.31 1.20 -2.58 -2.09 0.39 -0.86 -1.23 2.64 -0.90 -1.22];
X şi Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 9.2). Pentru valori ale lui r între
−1 şi 1, nu putem vorbi de gradul de corelare între X şi Y fără a efectua un test statistic asupra valorii
coeficientulul teoretic de corelaţie, ρ. De multe ori însă, putem afirma ca avem o corelaţie pozitivă dacă
r este apropiat de valoarea 1 (e.g., r = 0.85, caz în care norul de date are panta ascendentă) şi avem o
corelaţie negativă dacă r este apropiat de valoarea −1 (e.g., r = −0.98, caz în care norul de date are panta
descendentă).
Rezultatul r = −0.0905 de mai sus ar putea sugera faptul că cele două selecţii sunt observaţii obţinute din
două variabile aleatoare necorelate (i.e., ρ = 0), fapt ce va trebui confirmat folosind un test statistic în
care testăm ipoteza nulă ρ = 0, cu ipoteza alternativă ρ 6= 0.
n−2
T =r ∼ t(n − 2).
1 − r2
Calculez valoarea statisticii T pentru r = r0 (o notăm cu T0 ) şi, de asemenea, calculăm cuantila t1− α2 ; n−2 ,
de ordin 1 − α2 a repartiţiei t cu (n − 2) grade de libertate.
Decizia finală este următoarea:
|T0 | < t1− α2 ; n−2 , atunci ipoteza (H0 ) este acceptată;
|T0 | ≥ t1− α2 ; n−2 , atunci ipoteza (H0 ) este respinsă.
9.2 Corelaţie şi coeficient de corelaţie 179
Observaţie 9.2.2 (i) Coeficientul lui Pearson, r, este un număr adimensional ce stabileşte doar dacă
există o legătura liniară între două seturi de date statistice. Totodată, în definirea acestui coeficient se
presupune că datele statistice urmează o repartiţie normală. De multe ori, în practică, doar coeficientul r
sigur nu poate fi edificator asupra tăriei legăturii între două seturi de date statistice, ba chiar poate genera
informaţii false în cazul în care cele două seturi date nu depind liniar unul de celălalt. De aceea, şi alţi
coeficienţi pentru determinarea corelaţiei sunt luaţi în consideraţie, cum ar fi:
• r2 , coeficientul de determinare (notat în Statistică prin R2 ), care stabileşte care este procentul din
variaţia uneia dintre datele statistice ce determina (sau explică) pe celelalte date. De exemplu, un
coeficient de determinare R2 = 0.42 semnifică faptul că variabila independentă explică doar 42%
din variaţia variabilei dependente. În Statistică, acest coeficient este definit în mai multe moduri,
unele nu tocmai într-un mod echivalent;
• coeficientul lui Spearman4 , coeficientul lui Kendall5 etc. (acestea nu presupun că datele statistice
sunt normale)
(ii) Se poate testa, de asemenea, ipoteza nulă
(H0 ) : ρX,Y = ρ0 , cu ρ0 6= 0,
1+r 1 + ρ0
Å ã Å Å ã ã
1 1 1
Z = ln ∼ N ln ,√ .
2 1−r 2 1 − ρ0 n−3
(iii) Corelaţia a două variabile aleatoare nu implică o cauzalitate. Cu alte cuvinte, există o corelaţie între
vârstă şi înălţime la copii, însă niciuna dintre aceastea nu o cauzează pe cealaltă. Corelaţia poate fi luată
în evidenţă pentru o posibilă relaţie cauzală, însă nu este determinantă şi nu poate preciza relaţia cauzală,
dacă această există.
(iv) Volumul selecţiei este un factor foarte important în testarea ipotezei că două variabile aleatoare
sunt necorelate. Spre exemplu, o relaţie poate fi puternică (având un r nu foarte aproape de 0), însă nu
semnificativă, dacă valoarea lui n nu este suficient de mare. Invers, o relaţie poate fi slabă (un r aproape
de 0), dar semnificativă. Exemplul (9.2.1) poate fi edificator.
Exemplu 9.2.1 Să presupunem că dorim să stabilim dacă există vreo legătura între vârstă unei persoane
şi coeficientul său de inteligenţă. Pe baza a două seturi de datele asupra acestor caracteristici, de volum
n = 10, găsim un coeficient de corelaţie empiric r = 0.62. Se cere:
(a) Este această legătură puternică?
(b) Este această legătură semnificativă?
R: (a) Calculăm coeficientul de determinare, R2 , şi găsim R2 = 0.3844. Asta semnifică faptul că doar
38.44% din variaţia coeficientului de inteligenţă este explicată de vârstă.
(b) Aplicăm testul pentru coeficientul de corelaţie la un nivel de semnificaţie α = 0.05. Ipoteza nulă este
(H0 ) : ρ1 = ρ2 ,
4 Charles Edward Spearman (1863 − 1945), psiholog britanic
5 Sir Maurice George Kendall (1907 − 1983), statistician britanic
180 Capitolul 9. Corelaţie
1 + ri
Å ã
1
Zi = ln , i = 1, 2.
2 1 − ri
Ä Ä ä ä
au o distribuţie asimptotică normală N 12 ln 1+ρ i √1
1−ρi , n−3 . Atunci, distribuţia asimptotică a statisticii
Z = Z1 − Z2 este Ç å
1 1
Z ∼ N µZ1 − µZ2 , + ,
n1 − 3 n2 − 3
Ä ä
cu µZi = 12 ln 1+ρ
1−ρi , i = 1, 2. Statistica test va fi
i
Z1 − Z2 − (µZ1 − µZ2 )
Z= » ∼ N (0, 1) ,
1 1
n1 −3 + n2 −3
La fel ca şi coeficientul lui Pearson, coeficientul Spearman ia valori reale în intervalul [−1, 1]; valoarea 1
însemnând corelaţie pozitivă perfectă a rangurilor, iar valoarea −1 însemnând corelaţie negativă perfectă
a rangurilor.
În cazul în care avem n perechi de observaţii şi nu există valori egale pentru rangurile aceleiaşi variabile,
atunci formula alternativă pentru calcului lui rS este:
n
6 ∑ di2
i=1
rS = 1 − , (9.3.4)
n(n2 − 1)
9.3 Coeficientul de corelaţie Spearman 181
unde di = xi∗ − y∗i , i.e., diferenţa dintre rangurile corespunzătoare pentru poziţia i. Vezi exemplele (9.3.1)
şi (9.3.2).
Se poate, de asemenea, testa semnificatia valorii obtinute, rS . Testul este acelasi ca in cazul semnificatiei
coeficientului Pearson, cu deosebirea ca r este inlocuit cu rS .
Exemplu 9.3.1 Doi degustători de vinuri (denumiţi D1 şi D2) au fost rugaţi să testeze 9 soiuri de vin şi
să le claseze în ordinea preferinţelor. Să notăm mostrele testate cu A, B, C, D, E, F şi G. Preferinţele
acestora sunt cele din Tabelul 9.1, în ordinea descrescătoare a preferinţelor. Tabelul 9.2 conţine rangurile
preferinţelor celor doi degustători, iar Figura 9.3 reprezintă grafic rangurile (diagrama scatter plot).
Mostra rang D1 rang D2
A 3 5
B 2 1
C 5 3
Mostra A B C D E F G H I
D 8 7
D1 E B A G C H F D I
E 1 2
D2 B E C G A H D I F
F 7 9
Tabela 9.1: Preferinţele degustătorilor de vin. G 4 4
H 6 6
I 9 8
Există cazuri (în special pentru date cantitative) când valorile caracteristicii se repetă, aşa încât pentru
valori egale desemnăm acelaşi rang. În aceste cazuri nu mai putem utiliza formula (9.3.4) pentru calculul
coeficientului Spearman, ci va trebui să utilizăm formula (9.3.3) (vezi exemplul următor).
Exemplu 9.3.2 Datele din Tabelul 9.3 reprezintă numărul de accidente rutiere (A) şi numărul de decese
(D) înregistrate într-un anumit oraş, în primele 6 luni ale anului. Rangurile corespunzătoare valorilor sunt
prezentate în Tabelul 9.4. Datele au fost introduse în tabel în ordinea inversă a numărului de accidente. De
notat că, deoarece numărul de decese înregistrate în luna Mai este egal cu numărul de decese din Aprilie,
rangul pentru fiecare dintre cele două luni este media celor două poziţii în care s-ar afla. Folosind formula
(9.3.3), calculăm coeficientul de corelaţie Spearman. Acesta este rS = 0.8117.
182 Capitolul 9. Corelaţie
X 0 −1 3 1 2 −2
Y 2 0
(a) Dacă pentru variabilele X şi Y coeficientul de corelaţie Spearman este −1, completaţi în tabel (dacă
este posibil) un set de valori pentru Y .
(b) Aceeaşi cerinţă în cazul în care coeficientul de corelaţie Pearson este −1.
R: (a) Coeficientul Spearman √ este −1 dacă cele două seturi de date sunt de monotonii inverse. Putem
alege, spre exemplu, Y = [π, 19, −2.5, −1, 0, 10]. Alegerea nu este unică.
(b) Coeficientul Pearson este −1 dacă toate datele se află pe o aceeaşi dreaptă. Dreapta ce trece prin
punctele (−1, 2) şi (2, 0) este
2
y = (2 − x).
3
Astfel, valorile lui Y sunt unic determinate: Y = [4/3, 2, −2/3, 2/3, 0, 8/3].
{(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)}
Coeficientul de corelaţie Spearman pentru cele 9 puncte este 0, iar pentru cele 10 puncte este 0.2941.
Rangurile asociate celor 10 date sunt:
Coeficientul de corelaţie Pearson este foarte senzitiv la valorile extreme din date, pe când cpeficientul de
corelaţie Spearman este mai puţin senzitiv la valori extreme.
9.5 Exerciţii propuse 183
t 0 1 2 3 4 5 6 7 8 9 10
v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9
Folosind un test statistic, verificaţi dacă t (timp) şi v (viteză) sunt liniar corelate (α = 0.04).
Exerciţiu 9.5.3 S-a realizat un studiu pentru a afla dacă există vreo relaţie între masa corporală (M) şi
presiunea sanguină (P) la oameni. Următorul set de date a fost obţinut dintr-un studiu clinic, alegând 10
persoane la întâmplare.
M 78 86 72 82 80 86 84 89 68 71
P 140 160 134 144 180 176 174 178 128 132
(a) Calculaţi indicele de corelaţie Pearson şi determinaţi semnificaţia acestuia (α = 0.05).
(b) Calculaţi indicele de corelaţie Spearman dintre M şi P.
Exerciţiu 9.5.4 Tabelul de mai jos conţine mediile obţinute de un elev de clasa a V-a la toate disciplinele
şcolare, pentru fiecare dintre cele două semestre.
Discipline A B C D E F G H I J
semestrul I 6 9 7 8 8 9 9 9 7 10
semestrul al II-a 7 9 8 9 8 9 8 10 8 10
(a) Calculaţi coeficientul de corelaţie Pearson şi testaţi semnificaţia valorii obţinute. (α = 0.04)
(b) Calculaţi coeficientul de corelaţie Spearman.
10.1 Introducere
Regresia este o metodă statistică utilizată pentru descrierea naturii relaţiei între variabile. De fapt, regresia
stabileşte modul prin care o variabilă depinde de altă variabilă, sau de alte variabile. Analiza regresională
cuprinde tehnici de modelare şi analiză a relaţiei dintre o variabilă dependentă (variabila răspuns) şi una
sau mai multe variabile independente. De asemenea, răspunde la întrebări legate de predicţia valorilor
viitoare ale variabilei răspuns pornind de la o variabilă dată sau mai multe. În unele cazuri se poate preciza
care dintre variabilele de plecare sunt importante în prezicerea variabilei răspuns. Se numeşte variabilă
independentă o variabilă ce poate fi manipulată (numită şi variabilă predictor, stimul sau comandată), iar o
variabilă dependentă (sau variabila prezisă) este variabila pe care dorim să o prezicem, adică o variabilă al
cărei rezultat depinde de observaţiile făcute asupra variabilelor independente. Să luăm exemplul unei cutii
negre (black box) (vezi Figura 10.1). În aceasta cutie intră (sunt înregistrate) informaţiile x1 , x2 , . . . , xm ,
care sunt prelucrate (în timpul prelucrării apar anumiţi parametri, β1 , β2 , . . . , βk ), iar rezultatul final este
înregistrat într-o singură variabila răspuns, y.
Spre exemplu, dorim să stabilim o relaţie între valoarea pensiei (y) în funcţie de numărul de ani lucraţi
(x1 ) şi salariul avut de-alungul carierei (x2 ). Variabilele independente sunt măsurate exact, fără erori.
În timpul prelucrării datelor sau după aceasta pot apăra distorsiuni în sistem, de care putem ţine cont
dacă introducem un parametru ce să cuantifice eroarea ce poate apărea la observarea variabilei y. Se
stabileşte astfel o legătură între o variabilă dependentă, y, şi una sau mai multe variabile independente,
x1 , x2 , . . . , xm , care, în cele mai multe cazuri, are forma matematică generală
y = f (x1 , x2 , . . . , xm ; β1 , β2 , . . . , βk ) + ε, (10.1.1)
unde β1 , β2 , . . . , βk sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi ε este
o perturbaţie aleatoare. În cele mai multe aplicaţii, ε este o eroare de măsură, considerată a fi modelată
printr-o variabilă aleatoare normală de medie zero. Funcţia f se numeşte funcţie de regresie. Dacă aceasta
nu este cunoscută a priori, atunci poate fi greu de determinat iar utilizatorul analizei regresionale va trebui
să o intuiască sau să o aproximeze utilizând metode de tip trial and error (prin încercări). Dacă avem doar
o variabila independentă (un singur x), atunci spunem că avem o regresie simplă. Regresia multiplă face
referire la situaţia în care avem multe variabile independente.
186 Capitolul 10. Regresie
Dacă observarea variabilei dependente s-ar face fără vreo eroare, atunci relaţia (10.1.1) ar deveni (cazul
ideal):
y = f (x; β) + ε. (10.1.3)
Pentru a o analiză completă a regresiei (10.1.1), va trebui sa intuim forma funcţiei f şi apoi să determinăm
(aproximăm) valorile parametrilor de regresie. În acest scop, un experimentalist va face un număr suficient
de observaţii (experimente statistice), în urma cărora va aproxima aceste valori. Dacă notăm cu n numărul
de experimente efectuate, atunci le putem contabiliza pe acestea în următorul sistem de ecuaţii stochastice:
yi = f (x, β) + εi , i = 1, 2, . . . , n. (10.1.4)
În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate N (0, σ ), independente stochastic
două câte două (σ > 0). Astfel, sistemul (10.1.4) cu n ecuaţii stochastice algebrice are necunoscutele
{β j } j şi σ .
În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie aproximaţi
(n < k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă n = k, atunci problema
se reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz posibil, n > k, atunci avem un
sistem cu valori nedeterminate.
În funcţie de forma funcţiei de regresie f , putem avea:
• regresie liniară simplă, în cazul în care avem doar o variabilă independentă şi
f (x; β) = β0 + β1 x.
f (x; β) = β0 + β1 x1 + β2 x2 + · · · + βm xm .
f (x; β) = β0 + β1 x + β2 x2 + β3 x3 + · · · + βk xk .
• şi altele.
De remarcat faptul că primele patru modele sunt liniare în parametri, pe când ultimele două nu sunt liniare
în parametri. Modelele determinate de aceste funcţii se vor numi modele de regresie (curbe, suprafeţe etc).
În cadrul analizei regresionale, se cunosc datele de intrare, {xi }i , şi căutăm să estimăm parametrii de
regresie {β j } j şi deviaţia standard a erorilor, σ . Dacă funcţia de regresie f este cunoscută (intuită),
atunci metode statistice folosite pentru estimarea necunoscutelor sunt: metoda verosimilităţii maxime,
metoda celor mai mici pătrate şi metoda lui Bayes. Dacă f este necunoscută, metode ce duc la estimarea
necunoscutelor sunt: metoda celor mai mici pătrate sau metoda minimax.
y = β0 + β1 x. (10.2.5)
O astfel de dreaptă o vom numi dreapta de regresie a lui y în raport cu x. Pentru un set de date
bidimensionale ca mai sus, putem reprezenta această dreaptă ca în Figura 10.2 (b).
Y = 15000 + 650 X.
În acest exemplu, relaţia între X şi Y este una perfect liniară. O relaţie perfect liniară între datele
bidimensionale {(xi , yi )}i=1, n reprezentate în Figura 10.2 ar însemna că toate acestea s-ar afla pe dreapta
de regresie, ceea ce nu se întâmplă. De cele mai multe ori, datele reale nu urmează o astfel de relaţie
perfectă (spre exemplu, rata lunară poate fi una variabilă, în funcţie de rata de schimb EUR-RON), caz în
care parametrii din dependenţa liniară trebuie să fie estimaţi.
188 Capitolul 10. Regresie
Aşadar, va trebui să ţinem cont şi de eventualele perturbaţii din sistem. Putem presupune astfel că
dependenţa lui y de x este de forma
y = β0 + β1 x + ε, (10.2.6)
yi = β0 + β1 xi + εi , i = 1, n, (10.2.7)
unde
εi ∼ N (0, σ ), ∀i şi εi sunt independente stochastic.
Deoarece
εi = yi − (β0 + β1 xi ), i = 1, n,
putem interpreta εi ca fiind erorile de aproximare a valorilor observate (yi ) cu cele prezise de dreapta de
regresie (adică de valorile β0 + β1 xi ).
Ţinând cont că εi ∼ N (0, σ ) şi β0 , β1 sunt valori deterministe, din (10.2.7) rezultă că:
Deoarece {εi }i sunt independente stochastic, probabilitatea ca în cele n observaţii independente să obţinem
vectorul de valori (y1 , y2 , , . . . , yn ) este (funcţia de verosimilitate):
n
Ç n å
1 (yi − β0 − β1 xi )2
L (β0 , β1 , σ ) = ∏ Pi = n exp − ∑ .
i=1 σ (2π)n/2 i=1 2σ 2
Avem de estimat următoarele cantităţi: β0 , β1 şi σ . Pentru aceasta, vom folosi metoda verosimilităţii
maxime. Urmărim să găsim acele valori ale parametrilor β0 , β1 şi σ care maximizează funcţia de
verosimilitate. Aşadar, problema de maximizare este următoarea:
max L (β0 , β1 , σ ).
β0 , β1 , σ
∂ ln L 1 n
∂ β1
= ∑ xi (yi − β0 − β1 xi )
σ 2 i=1
= 0;
∂ ln L n 1 n
= − + 2 ∑ (yi − β0 − β1 xi )2 = 0.
∂σ σ σ i=1
unde,
1 n 1 n 1 n 1 n
x= ∑ xi , y= ∑ yi , s2x = ∑ (xi − x)2 , sxy = ∑ (xi − x)(yi − y).
n i=1 n i=1 n − 1 i=1 n − 1 i=1
Astfel, găsim că dreapta de regresie a lui y în raport cu x este aproximată de dreapta:
sxy
y = y − β“1 x + 2 x, (10.2.9)
sx
sau, altfel scrisă,
sxy
y = y+ (x − x). (10.2.10)
s2x
Din ultima condiţie de extrem, găsim că o estimaţie pentru dispersia σ 2 este:
1 n
σ̂ 2 = ∑ (yi − β“0 − β“1 xi )2 . (10.2.11)
n i=1
Însă, estimaţia pentru σ 2 dată prin formula (10.2.11) este una deplasată. În practică, în locul acestei
estimaţii se utilizează următoarea estimaţie nedeplasată:
1 n
c2 =
σ ∑ (yi − β“0 − β“1 xi )2 .
n − 2 i=1
(10.2.12)
n
Notând cu F(β0 , β1 ) = ∑ (yi − β0 − β1 xi )2 , condiţiile de extrem sunt:
i=1
n
∂F
= −2 ∑ (yi − β0 − β1 xi ) = 0;
∂ β0 i=1
n
∂F
= −2 ∑ xi (yi − β0 − β1 xi ) = 0.
∂ β1 i=1
Rezolvând acest sistem de ecuaţii algebrice în raport cu β0 şi β1 , găsim soluţiile β“0 şi, respectiv, β“1 de
mai sus. Aceasta dovedeşte că, în cazul în care erorile sunt identic normal repartizate şi independente
stochastic, metoda verosimilităţii maxime este, în fapt, totuna cu metoda celor mai mici pătrate.
Aşadar,
n n
∑ (xi − x)E[yi − y] β1 ∑ (xi − x)2
i=1 i=1
E(β“1 ) = n = n = β1 .
2 2
∑ (xi − x) ∑ (xi − x)
i=1 i=1
putem scrie:
Ä ä Ä ä
Var β“0 = Var(y − β“1 x) = Var(y) − 2 x cov(y, β“1 ) + x2Var β“1 . (10.2.14)
Dar, Ç å
1 n 1 2 σ2
Var(y) = Var ∑ εi = n σ =
n i=1 n2 n
şi
à í
n
Ä ä 1 n
∑ (xi − x)(β0 + β1 xi + εi )
i=1
cov y, β“1 = cov ∑ εi , b
n i=1
∑ (xi − x)2
i=1
á n ë
1 n
∑ (xi − x)εi
i=1
= cov ∑ εi , n
n i=1
∑ (xi − x)2
i=1
Ç n n
å
1
= n cov ∑ εi , ∑ (xi − x)εi
2 i=1 i=1
n ∑ (xi − x)
i=1
n
∑ (xi − x)σ 2
i=1
= n = 0.
2
n ∑ (xi − x)
i=1
192 Capitolul 10. Regresie
c2
Ţinând cont că estimatorii β“0 şi β“1 sunt nedeplasaţi, de relaţiile (10.2.15) şi (10.2.13), şi de estimatorul σ
2
pentru σ , se poate demonstra că:
β“0 − β0
q 2
∼ t(n − 2) (10.2.16)
b 1n + xs2
σ
x
şi
β“1 − β1
σ
b
∼ t(n − 2). (10.2.17)
sx
Putem folosi aceste statistici pentru a determina intervale de încredere pentru β0 şi β1 . Un interval de
încredere pentru β0 la nivelul de semnificaţie α este
" #
1 x 2 1 x 2
β“0 − t1− α2 ; n−2 σ
b + , β“0 + t1− α2 ; n−2 σb + . (10.2.18)
n s2x n s2x
Observaţie 10.2.2 (1) În general, dispersia σ 2 a erorilor de regresie nu este cunoscută a priori. În
cazul în care aceasta este cunoscută, atunci în loc de (10.2.16) şi (10.2.17) am avea:
β“0 − β0 β“1 − β1
q 2
∼ N (0, 1) şi σ ∼ N (0, 1). (10.2.20)
σ 1n + xs2 sx
x
În acest caz, intervalele de încredere pentru β0 şi β1 vor fi similare cu cele din relaţiile (10.2.18) şi
(10.2.19), cu diferenţa că t1− α2 ; n−2 este înlocuit prin z1− α2 . Oricum, pentru n suficient de mare, valorile
t1− α2 ; n−2 şi z1− α2 sunt foarte apropiate.
(2) Coeficientul de determinare R2 (= r2 ) se poate calcula şi folosind următoarea formulă:
s2y/x
R2 = 1 − , (10.2.21)
s2y
unde
1 n 1 n
s2y/x = ∑ (yi − β“0 − β“1 xi )2 , s2y = ∑ (yi − y)2 .
n − 1 i=1 n − 1 i=1
În analiza regresională, coeficientul R2 este folosit pentru a determina cât de bine poate fi construită o
valoare prezisă pe baza valorilor independente.
10.2 Regresie liniară simplă 193
Mai jos prezentăm testul ce verifică dacă β1 ia o valoare dată β10 sau nu, la un nivel de semnificaţie α.
Dispersia erorilor de regresie este necunoscută.
Testăm
(H0 ) : β1 = β10 versus (H1 ) : β1 6= β10 .
Considerăm statistica
β“1 − β1
T= σ
b
,
sx
care urmează repartiţia t(n − 2). Etapele testului sunt următoarele:
• Calculăm valoarea critică
β“1 − β10
T0 = σ
b
.
sx
• Calculăm cuantila de ordin 1 − pentru repartiţia t cu (n − 2) grade de libertate, t1− α2 ; n−2 ;
α
2
• Dacă
|T0 | < t1− α2 ; n−2 , atunci acceptăm ipoteza (H0 );
Dacă
|T0 | ≥ t1− α2 ; n−2 , atunci acceptăm ipoteza (H1 );
Observaţie 10.2.3 (1) O ipoteză alternativă poate fi considerată şi una dintre următoarele:
(H1 )s : β1 < β10 , (H1 )d : β1 > β10 .
(2) Dacă β10 = 0, atunci ipoteza alternativă β1 6= 0 este ipoteza că între x şi y există o dependenţă liniară.
Mai jos prezentăm testul ce verifică dacă β0 ia o valoare dată β0∗ sau nu, la un nivel de semnificaţie α.
Dispersia erorilor de regresie este necunoscută.
Testăm
(H0 ) : β0 = β0∗ versus (H1 ) : β0 6= β0∗ .
Considerăm statistica
β“0 − β0
T= q 2
∼ t(n − 2),
b 1n + xs2
σ
x
În anumite cazuri, putem folosi regresia în predicţia unor valori ale variabilei dependente. De exemplu,
putem prezice temperatura într-un anumit oraş plecând de la observaţiile temperaturilor din oraşele
învecinate. Regresia poate fi utilizată pentru predicţie după cum urmează. Să presupunem ca datele pe
care le deţinem, {(xi , yi }i=1, n , pot fi modelate de o dreaptă de regresie de forma (10.2.5). Dată fiind o
valoarea x p ce nu se află printre valorile xi , dar este o valoare cuprinsă între valorile extreme ale variabilei
independente, xmin şi xmax , dorim să prezicem valoarea răspuns,
y p = β0 + β1 x p + ε p .
Dacă β“0 şi β“1 sunt estimaţiile pentru parametrii de regresie β0 , respectiv, β1 , atunci valoarea prezisă
pentru y p pentru un x p observat va fi o valoare ybp de pe dreapta de regresie, dată de formula:
Un interval de încredere pentru y pentru un x p dat, la nivelul de senificaţie α (x p ∈ [xmin , xmax ]) este:
ñ ô
1 (x p − x)2 1 (x p − x)2
ybp − t1− α2 ; n−2 σ
b 1+ + , ybp + t1− α2 ; n−2 σ
b 1+ + . (10.3.23)
n s2x n s2x
Observaţie 10.3.1 (1) De notat faptul că este foarte important ca x p să fie o valoare cuprinsă între xmin
şi xmax . Dacă se foloseşte formula (10.3.22) şi pentru valori ale lui x în afara range-ului valorilor predictor
pentru x, atunci erorile de de aproximarea a lui y cu ybp pot fi foarte mari. De exemplu, dacă în Figura 10.4
(a) am folosi doar primele 9 puncte pentru a construi un model de regresie, atunci acesta poate fi utilizat
doar pentru predicţia valorilor variabilei y pentru orice x în acest range, i.e. x ∈ [0, 10]. Dacă, folosind
dreapta de regresie găsită anterior, am încerca o predicţie pentru x = 19, atunci am găsi că yb(19) ≈ 10, pe
când valoarea observată este y(19) ≈ 6.5, ceea ce determină o eroare foarte mare de aproximare. Mai
mult, dacă ţinem cont şi de următoarele valori observate (vezi Figura 10.4(b)), atunci curba de regresie
pare să nu fie o dreaptă.
Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale variabilelor independente
ce ies din range se utilizează termenul de prognoză (en., forecasting). Aceasta este folosită des în analiza
seriitor de timp.
(2) Valoarea prezisă ybp nu este una stabilită cu exactitate, ci este doar o medie aşteptată a valorilor
lui y pentru un x p dat. În cazul în care R2 = 1 (coeficientul de determinare), atunci valoarea pentru y
va fi prezisă fără eroare, deoarece toate punctele se află pe dreapta de regresie. În general, punctele
bidimensionale (x, y) se află împrăştiate în jurul dreptei de regresie.
(3) Valoarea ybp este determinată doar pe baza selecţiei date, de aceea, pentru a verifica dacă această valoare
poate fi extrapolată la întreaga populaţie este nevoie de inferenţă statistică (test statistic). Prezentăm, în
continuare, un test ce compară valoarea ybp cu o constantă dată.
Testăm
(H0 ) ybp = y0 versus (H1 ) ybp 6= y0 .
Etapele testului sunt următoarele:
• Estimăm ybp utilizând formula (10.3.22).
• Considerăm statistica
ybp − y
T= q 2
∼ t(n − 2);
σb 1 + 1n + (x ps−x)
2
x
ybp − y0
• Calculez valoarea T0 = q ;
1 (x p −x)2
σ 1 + n + s2
b
x
• Dacă
|T0 | < t1− α2 ; n−2 , atunci acceptăm ipoteza (H0 );
Dacă
|T0 | ≥ t1− α2 ; n−2 , atunci acceptăm ipoteza (H1 );
(4) În concluzie, regresia este o unealtă dibace pentru predicţie. Economiştii care o utilizează pot prezice
cu succes chiar 10 dintre ultimele 2 recesiuni!
Observaţie 10.3.2 Până acum am văzut cum putem estima valoarea lui y folosind pe x. În unele cazuri,
putem inversa rolurile lui x şi y, şi putem vorbi astfel de regresie a lui x în raport cu y. De exemplu,
în Exerciţiul 10.4.1 am putea estima notele la Probabilităţi în funcţie de notele la Statistică. Formulele
obţinute pentru dreapta de regresie a lui x în raport cu y sunt cele găsite anterior pentru dreapta de regresie
a lui y în raport cu x, în care rolurile lui x şi y sunt inversate.
Student A B C D E F G H I J
Probabilităţi 82 36 72 58 70 48 44 94 60 40
Statistică 84 42 50 64 68 54 46 80 60 32
R: Calculăm ln y. Obţinem:
Se observă că r = 0.9988 ≈ 1 (coeficientul de corelaţie între x şi ln y), de unde bănuim că e posibil să avem
o regresie liniară între variabilele x şi ln y. Estimăm coeficienţii de regresie ai lui ln y faţă de x şi găsim:
βˆ0 = 1.1074, βˆ1 = 0.4980. Aşadar, ln y = 0.4980 x + 1.1074, de unde y = e1.1074 e0.4980 x ≈ 3 ex/2 . În
Figura 10.6 am reprezentat grafic datele observate şi aproximările lor.
10.4 Exerciţii rezolvate 197
echivalent cu
(H0 ) : ρ =0 vs. (H0 ) : ρ 6= 0.
Folosind testul pentru coeficientul de corelaţie ρ, găsim că
de unde deducem că ipoteza nulă este admisă, deci valoarea observată pentru rP nu este semnificativă
statistic.
(II) Pentru a determina coeficientul de corelaţie Spearman, determinăm mai întâi rangurile observaţiilor
în fiecare set. Acestea sunt (ordonăm crescător începând cu I şi terminând cu FB. Pentru valori egale,
rangul atribuit este media rangurilor valorilor egale):
Discipline A B C D E F G H I
elev I 4 7.5 7.5 4 4 7.5 2 1 7.5
elev II 2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5
198 Capitolul 10. Regresie
Calculăm coeficientul de corelaţie Pearson pentru valorile numerice şi obţinem rS = −0.0421. Acesta
este coeficientul de corelaţie Spearman. Pentru a testa semnificaţia sa, folosim testul pentru coeficientul
de corelaţie Pearson. Ipotezele de verificat sunt
(H0 ) : rS nu este semnificativ vs. (H1 ) : rS este semnificativ
echivalent cu
(H0 ) : ρS = 0 vs. (H0 ) : ρS 6= 0.
Folosind testul pentru coeficientul de corelaţie ρ, găsim că
T0 = −0.1114, t0.975,7 = 2.3646,
de unde deducem că ipoteza nulă este admisă, deci valoarea observată pentru r nu este semnificativă
statistic.
În concluzie, calificativele obţinute de cei doi elevi nu sunt corelate.
Exerciţiu 10.5.2 Un student ia cu împrumut o carte de la bibliotecă şi observă că pagina de interes este
ruptă pe alocuri. Totuşi, poate citi textul din Figura 10.7. Se cere să se reconstruiască pasajul de text
(i.e., determinaţi y şi dreapta de regresie a lui x faţă de y). De asemenea, calculaţi coeficientul empiric de
corelaţie r şi comentaţi asupra aproximării datelor de seleţie prin dreptele de selecţie.
x −3 −2 −1 0 1 2
y 9 4 1 0 1 4
Exerciţiu 10.5.5 Suntem interesaţi în determinarea unei legături între înălţime şi mărimea la pantof.
Datele din tabelul de mai jos reprezintă observaţii asupra înălţimilor (H) şi a mărimilor la pantof (M)
pentru 10 bărbaţi, aleşi la întâmplare.
H 1.75 1.70 1.80 1.65 1.83 1.73 1.86 1.65 1.68 1.82
M 43 41.5 44 40.5 44.5 41 44.5 39.5 40 43.5
(a) Calculaţi coeficientul de corelaţie Pearson dintre înălţime şi mărimea la pantof. Ce procent din valorile
lui M sunt determinate de valorile lui H
(b) Determinaţi o aproximare pentru dreapta de regresie a lui M faţă de H.
(c) Obţineţi o predicţie a mărimii la pantof pentru un bărbat cu înălţimea 1.78.
3
(d) La nivelul de semnificaţie α = 0.05, testaţi ipoteza că panta dreptei de regresie este .
4
Exerciţiu 10.5.6 Fie şirul de date:
x 46 55 41 58 53
y 1.7 2.1 1.5 2.9 1.9
Exerciţiu 10.5.8 Se măsoară viteza unei maşini, v, în primele 10 secunde după aceasta a început să
accelereze. Aceste date sunt înregistrate în Tabelul 10.8.
t 0 1 2 3 4 5 6 7 8 9 10
v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9
Figura 10.8: Viteza unei maşini în primele 10 secunde după plecarea de pe loc
Se cere:
(a) Desenaţi diagrama scatter plot;
(b) Determinaţi dreapta de regresie a lui v faţă de t;
(c) Calculaţi coeficientul de corelaţie empirică şi comentaţi asupra validităţii aproximării datelor cu
dreapta de regresie.
Exerciţiu 10.5.9 Dreapta de regresie a variabilei y faţă de variabila x este y = 2 x − 6. Determinaţi
condiţiile în care dreapta de regresie a lui x faţă de y este x = 0.5 y + 3.
Exerciţiu 10.5.10 Tabelul 10.3 conţine numărul de absenţe (A) la Statistică şi notele corespunzătoare
(N) a 15 studenţi.
A 3 1 4 12 11 3 5 2 9 6 4 6 7 6 14
N 9.00 9.50 8.75 4.75 5.50 8.50 6.75 8.25 5.50 6.75 8.00 7.75 6.00 7.00 3.50
(a) Calculaţi coeficientul de corelaţie Pearson. Care este semnificaţia acestei valori referitor la relaţia
dintre absenţe şi note?
(b) Determinaţi dreapta de regresie a lui N faţă de A şi desenaţi-o în acelaşi sistem de axe cu datele din
tabel.
(c) Testaţi, la un nivel de semnificaţie α = 0.05, dacă există dovezi suficiente pentru a afirma că între
numărul de absenţe şi notele obţinute există o corelaţie.
Exerciţiu 10.5.11 În Tabelul 10.4 datele reprezintă înălţimile (H) şi masele corporale (M) a 10 fete
dintr-o clasă a unui liceu.
H 179.6 166.8 163.1 180.0 158.4 166.5 165.8 168.1 175.9 160.7
M 61.2 48.2 46 64.4 46.3 54.7 51.4 55.3 65.3 47.9
Tabela 11.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul afiseaza cuantila zα pentru care
P(X ≤ zα ) = α, unde X ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα .
202 Capitolul 11. Anexa
1 x − t2
Z
Tabela 11.2: Tabel cu valori ale funcţiei lui Laplace, Θ(x) = e 2 dt, x ∈ R.
2π −∞
Pentru a calcula Θ în valori negative, folosim faptul că Θ(−x) = 1 − Θ(x), ∀x > 0
Pentru x < −3, Θ(x) ≈ 0, iar pentru x > 3, Θ(x) ≈ 1.
Fournit les quantiles xp tels que
P(X≤xp )= p
pour X ∼ χ2n
203
n/p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995
n
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
1
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,2
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,3
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2
Tabela 11.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul afişează cuantila χα,
2
n
2 ) = α, unde X ∼ χ 2 (n).
pentru care P(X ≤ χα, n
t-distribution quantiles
204 Capitolul 11. Anexa
Tabela 11.5: Cuantile pentru repartitia F (m, n). Pentru un α si un n, tabelul afişează cuantila fα,m, n
pentru care P(X ≤ fα, m, n ) = α, unde X ∼ F (m, n). De asemenea, fα,m, n = 1
f1−α,n, m .
Bibliografie
[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.
[2] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.
[3] Gheorghe Ciucu, Virgil Craiu, Teoria estimaţiei şi verificarea ipotezelor statistice, Editura Didactică
şi Pedagogică, Bucureşti, 1968.
[4] Virgil Craiu, Teoria probabilităţilor cu exemple şi probleme, Editura Fundaţiei "Romania de Mâine",
Bucureşti, 1997.
[5] G. Ciucu, V. Craiu, I. Săcuiu, Probleme de teoria probabilităţilor, Ediţia a II-a, Editura Tehnică,
Bucureşti, 1974.
[6] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.
[7] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),
second edition, Springer, 2012.
[8] I. Florescu, C.Tudor, Handbook of Probability, Wiley Handbooks in Applied Statistics, Wiley, 2013.
[9] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, Prentice
Hall, 6th edition, 2004.
[10] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mică enciclopedie de
statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985.
[11] Gheorghe Mihoc, N. Micu, Matematică, elemente de teoria probabilităţilor, Manual pentru clasa a
XII-a, EDP Bucureşti , 1988.
[12] Octavian Petruş, Probabilităţi şi Statistica matematică - Computer Applications, Iaşi, 2000.
[13] Sheldon M. Ross, A First Course in Probability, Eighth Edition, Pearson, 2010.
[14] M.R. Spiegel, L.J. Stephens, Schaum’s Outline of Statistics, McGraw-Hill, 2007.
208 BIBLIOGRAFIE
[15] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum’s Outline Series, 2nd ed.,
The McGraw-Hill Companies, Inc., 1998.
[16] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econometrics, Schaum’s
Outline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002.
[18] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Mathematics and its
Applications), Springer Verlag, 1987.
[19] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge University
Press, 2001.
Glosar