0% au considerat acest document util (0 voturi)

44 vizualizări210 pagini

PSM2022

Încărcat de

Drepturi de autor

Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

0% au considerat acest document util (0 voturi)

44 vizualizări210 pagini

PSM2022

Încărcat de

nadiaiulya

Drepturi de autor

Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

Sunteți pe pagina 1/ 210

Teoria Probabilităţilor şi Statistică Matematică

Note de curs

Iulian Stoleriu
Copyright © 2021 Iulian Stoleriu
Cuprins

1 Elemente de combinatorică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Noţiuni şi exemple 7
1.2 Exerciţii rezolvate 15
1.3 Exerciţii propuse 17

2 Probabilităţi. Definiţii. Proprietăţi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1 Experimente şi evenimente aleatoare 19
2.2 Probabilitatea definită clasic 22
2.3 Alte modalităţi de a defini probabilitatea 26
2.3.1 Probabilitatea definită frecvenţial (sau statistic) . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.2 Probabilitate geometrică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3 Metoda Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Scheme probabilistice 31
2.4.1 Schema bilei revenite (schema binomială) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.2 Schema bilei nerevenite (schema hipergeometrică) . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4.3 Schema lui Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5 Exerciţii rezolvate 38
2.6 Exerciţii propuse 42

3 Probabilităţi condiţionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1 Definiţii 49
3.2 Noţiunea de independenţă a evenimentelor 54
3.3 Probabilitatea ca o măsură a convingerii (Bayes) 56
3.4 Exerciţii rezolvate 57
3.5 Exerciţii propuse 61

4 Variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1 Introducere 63
4.2 Variabile aleatoare discrete 64
4.2.1 Operaţii cu variabile aleatoare discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3 Variabile aleatoare de tip continuu 69
4.4 Independenţa variabilelor aleatoare 70
4.5 Caracteristici numerice ale unei variabile aleatoare 71
4.5.1 Media (sau valoarea aşteptată) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.2 Dispersia (varianţa) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.3 Standardizarea unei variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5.4 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5.5 Cuantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.6 Modul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 Funcţia de repartiţie 75
4.6.1 Repartiţii discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.6.2 Repartiţii continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.7 Teoreme limită 83
4.8 Exerciţii rezolvate 87
4.9 Exerciţii propuse 92

5 Elemente de Statistică descriptivă . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.1 Elemente introductive de Statistică 95
5.1.1 Scurt istoric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.2 Modelare statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1.3 Populaţie statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.1.4 Variabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.1.5 Date statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.1.6 Eşantionare (selecţie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2 Organizarea şi descrierea datelor statistice 102
5.2.1 Gruparea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.3 Reprezentarea datelor statistice 106
5.3.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.3.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.3.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.3.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3.6 Poligonul frecvenţelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3.7 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.8 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.9 Diagrama scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.4 Măsuri descriptive ale datelor statistice 113
5.4.1 Date negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.4.2 Date grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.5 Transformări de date 119
5.6 Exerciţii rezolvate 121
5.7 Exerciţii propuse 128

6 Noţiuni din Teoria selecţiei statistice . . . . . . . . . . . . . . . . . . . . . . . 133

6.1 Introducere 133
6.1.1 Statistici uzuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.2 Statistici de ordine 136
6.3 Selecţii aleatoare dintr-o colectivitate normală 138
6.4 Exerciţii rezolvate 142
6.5 Exerciţii propuse 147

7 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
7.1 Estimatori punctuali 150
7.1.1 Exemple de estimatori punctuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
7.2 Estimarea parametrilor prin intervale de încredere 152
7.2.1 Intervale de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.2.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.2.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7.3 Exerciţii rezolvate 157
7.4 Exerciţii propuse 161

8 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

8.1 Tipuri de teste statistice 165
8.1.1 Testul t pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
8.1.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.1.3 Test pentru proporţie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
8.1.4 Testul χ 2 de concordanţă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.2 Exerciţii rezolvate 170
8.3 Exerciţii propuse 172

9 Corelaţie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.1 Introducere 175
9.2 Corelaţie şi coeficient de corelaţie 176
9.2.1 Test statistic pentru coeficientul de corelaţie . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
9.3 Coeficientul de corelaţie Spearman 180
9.4 Exerciţii rezolvate 182
9.5 Exerciţii propuse 183
6

10 Regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.1 Introducere 185
10.2 Regresie liniară simplă 187
10.2.1 Caracteristici ale parametrilor de regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
10.2.2 Validarea parametrilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
10.3 Predicţie prin regresie 194
10.4 Exerciţii rezolvate 195
10.5 Exerciţii propuse 198

11 Anexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
1. Elemente de combinatorică

1.1 Noţiuni şi exemple

Combinatorica este o ramură a Matematicii care se preocupă de probleme de selecţie, de aranjare
şi de numărare a elementelor unei mulţimi finite. Metodele combinatorice sunt folosite în calculul
probabilităţilor, în Statistică, în Teoria grafurilor, în Criptografie, în Genetică, în proiectarea
experimentelor medicale etc.
În cele ce urmează, pentru o mulţime A, vom nota prin |A| numărul de elemente. Numărul de
elemente ale unei mulţimi se mai numeşte şi cardinalul mulţimii. Vom prezenta mai jos câteva
reguli elementare de numărare din Combinatorică.

1. Principiul aditivităţii (sau regula sumei)

(1) Dacă A şi B sunt două mulţimi disjuncte, astfel încât |A| = m, |B| =
n (m, n ∈ N), atunci numărul de elemente din reuniunea A ∪ B este |A ∪ B| =
m + n.
(2) Fie A1 , A2 , . . . , An submulţimi ale unei mulţimi finite A, astfel încât
A = A1 ∪ A2 ∪ . . . ∪ An şi Ai ∩ A j = ∅, ∀i 6= j (în acest caz, vom spune că
mulţimile {Ai }ni=1 formează o partiţie a mulţimii A). Atunci,

|A| = |A1 ∪ A2 ∪ . . . ∪ An | = |A1 | + |A2 | + . . . + |An |.

n
[
În continuare, vom utiliza următoarea notaţie prescurtată: Ai = A1 ∪ A2 ∪ . . . ∪ An .
i=1
Enunţul (1) se traduce astfel: dacă mulţimea A are m elemente şi mulţimea B are n elemente,
atunci mulţimea A ∪ B va avea m + n elemente. Enunţul (2) se interpretează similar.
Exemplu 1.1.1 La un adăpost de animale, există 11 posibilităţi de a alege un câine, 9 posibilităţi
de a alege o pisică şi 5 posibilităţi de a alege o pasăre. În câte moduri îţi poţi alege un pet de la
acest adăpost? . R: 11+9+5 = 25.
Exemplu 1.1.2 Pe o foaie dintr-un caiet de Matematică desenaţi un pătrat cu latura 4. Câte
pătrate distincte, formate de aliniamentul caietului, pot fi observate în interiorul acestui pătrat,
inclusiv pătratul desenat?
8 Capitolul 1. Elemente de combinatorică

R: Pentru fiecare i ∈ {1, 2, 3, 4}, notam cu Ai mulţimea tuturor pătratelor de latură egală cu i.
Atunci, |A1 | = 42 = 16, |A2 | = 32 = 9, |A3 | = 22 = 4, |A4 | = 12 = 1 şi

|A1 ∪ A2 ∪ A3 ∪ A4 | = 16 + 9 + 4 + 1 = 30.

Exemplu 1.1.3
(a) Câte pătrate cu varfurile in nodurile retelei alaturate putem construi?
. R: 50
(b) Aceeasi cerinta ca la punctul (a), dar pentru o retea cu n × n puncte.
R: N = (n − 1)2 · 1 + (n − 2)2 · 2 + (n − 3)2 · 3 + . . . + 12 · (n − 1), unde n
este numarul de noduri din reţea. Aici, (n − k)2 = nr. pătratelor de latură k.
Pentru fiecare pătrat de latură k există alte k − 1 pătrate înscrise în el, plus
pătratul însuşi.

2. Principiul includerii-excluderii

(1) Fie A şi B două mulţimi astfel încât |A ∩ B| 6= ∅, atunci

|A ∪ B| = |A| + |B| − |A ∩ B|.

(2) În general, dacă A1 , A2 , . . . , An sunt mulţimi finite de elemente, nu neapărat disjuncte, atunci
cardinalul reuniunii lor este:
n n
Ai ∩ A j ∩ Ak − . . . + (−1)n−1 |A1 ∩ · · · ∩ An |
[
Ai = ∑ |Ai | − ∑ Ai ∩ A j + ∑
i=1 i=1 1≤i< j≤n 1≤i< j<k≤n

În particular, pentru n = 3, avem:

|A ∪ B ∪C| = |A| + |B| + |C| − |A ∩ B| − |A ∩C| − |B ∩C| + |A ∩ B ∩C|.

Exemplu 1.1.4 Un coş conţine trei tipuri de fructe (mere, pere, gutui). Care este numărul minim
de fructe din coş astfel încât el să conţină ori cel puţin 9 mere, ori cel puţin 7 pere, ori cel puţin 5
gutui? (există fructe la discreţie şi ordinea fructelor în coş nu este importantă)
. R: N = 9 + 7 + 5 − 1 − 1 − 1 + 1 = 19.
Exemplu 1.1.5 Câte numere întregi dintre 1 şi 100 sunt divizibile cu 2 sau 3?
R: Utilizăm principiul includerii-excluderii. Dacă N este mulţimea numerelor întregi căutate,
N este mulţimea complementară lui N şi Dk este mulţimea numerelor naturale până la 100,
1.1 Noţiuni şi exemple 9

divizibile cu k (k = 2, 3), atunci căutăm cardinalul mulţimiii |D2 ∪ D3 |. Acesta este:

ï ò ï ò ï ò
100 100 100
|D2 ∪ D3 | = |D2 | + |D3 | − |D2 ∩ D3 | = + − = 50 + 33 − 16 = 67.
2 3 6

3. Principiul multiplicării (sau regula produsului)

Fie A1 , A2 , . . . , An mulţimi finite, cu |Ai | = mi , i = 1, 2, . . . , n.
Atunci cardinalul produsului cartezian A1 × A2 × . . . × An este:

|A1 × A2 × . . . × An | = |A1 | · |A2 | · . . . · |An |.

Traducerea în limba română pentru cazul k = 2:

• Dacă există m modalităţi de a face ceva şi există n modalităţi de a face altceva, atunci există
m · n modalităţi de a afectua ambele acţiuni.
• În general, dacă există mi (i = 1, 2, , . . . , n) modalităţi de a alege obiectul xi , atunci există
m1 · m2 · . . . · mn modalităţi de a alege toate obiectele m1 , m2 , . . . , mn .

Exemplu 1.1.6 La o pizzeria, se poate comanda pizza cu blat subţire sau gros. De asemenea,
există 17 alegeri posibile de topping. În câte moduri îşi poate comanda cineva o pizza de la
această unitate? R: 2 · 17 = 34
Exemplu 1.1.7 Într-o clasa de elevi sunt 10 fete şi 15 baieti. In câte moduri poate fi aleasa o
pereche baiat-fata pentru a reprezenta clasa la o adunare? R: 10 · 15 = 150
Exemplu 1.1.8 Dacă există doar 3 drumuri carea leaga orasul Iasi de Vaslui şi 4 drumuri care
leaga Vaslui de Galati, determinati câte rute posibile leaga orasul Iasi de Galati, trecand prin
Vaslui. R: 3 · 4 = 12
Exemplu 1.1.9 Şase prieteni vor să se aşeze pe acelaşi rând la cinema. Dacă sunt disponibile
doar şase locuri, în câte moduri se pot aşeza? R: 6 · 5 · 4 · 3 · 2 · 1 = 6! = 720
Exemplu 1.1.10 Dacă A = {a1 , a2 , . . . , an }, atunci cardinalul mulţimii părţilor lui A, inclusiv ∅
(mulţimea vidă) şi A, este |P(A)| = 2n .
R: Mulţimea părţilor conţine sau nu fiecare element din A. Aşadar, pentru fiecare element al lui
A există două posibilităţi: el aparţine lui P(A) sau nu aparţine. Altfel spus, fiecare element din
A poate fi ales în 2 moduri. Cum avem n elemente în A, în total vor fi 2n elemente în P(A).

4. Permutări

Fie A = {x1 , x2 , . . . , xn } o mulţime finită de elemente distincte.

Un n−tuplu ordonat format cu elementele lui A, fără repetiţie, se numeşte

permutare a elementelor lui A. Numărul tuturor permutărilor mulţimii A se
notează cu Pn şi este dat de Pn = n!

Numărul permutărilor posibile ale n obiecte distincte aşezate în cerc, fără repetiţie, (numite
permutări circulare) este Pn−1 = (n − 1)!
10 Capitolul 1. Elemente de combinatorică

Fie A o mulţime cu n elemente (nu neapărat distincte) şi fie k ∈ Z, k ≥ 2. Vom numi partiţie
ordonată a mulţimii A în k submulţimi k-tuplul (A1 , A2 , . . . , Ak ) astfel încât
k
[
A= Ai şi Ai ∩ A j = ∅, ∀i 6= j.
i=1

k
Presupunem că |Ai | = ni , cu ∑ ni = n.
i=1

Numărul de partiţii (numite permutări cu repetiţie) posibile ale unei mulţimi cu n elemente este
n!
Pnn1 ,n2 ,...,nk =
n1 !n2 ! · . . . · nk !

!! Acest număr se mai numeşte şi coeficient multinomial şi este coeficientul lui x n1 n2 nk
1 · x2 · . . . · xk
din dezvoltarea lui (x1 + x2 + . . . + xk )n .

Exemplu 1.1.11 În câte moduri pot fi aranjate 7 persoane in linie, pe un singur rand? P7 = 7!
Exemplu 1.1.12 (i) Câte numere de patru cifre pot fi formate cu elementele multimii {1, 2, 3, 4},
astfel încât fiecare cifra apare doar o singura data?
(ii) Dar cu elementele multimii {0, 2, 3, 4}, astfel încât fiecare cifra sa apara doar o singura
data?
R: (i) P(4) = 4! = 24 numere. (ii) Dintre toate permutarile posibile (P(4) = 4! = 24) vom
scadea acele ‘‘numere’’ care incep cu cifra 0, care sunt in numar de P(3) = 3! = 6. Astfel, vom
avea 4! − 3! = 18 numere.
Exemplu 1.1.13 În câte moduri putem aranja n obiecte în p cutii distincte, astfel încât prima
cutie conţine n1 obiecte, a doua cutie conţine n2 obiecte, ş.a.m.d., ultima cutie conţine n p obiecte,
unde n1 + n2 + . . . + n p = n.
R: Acesta este numărul permutărilor cu repetiţie, şi anume:
n!
.
n1 ! n2 ! . . . , n p !

Altfel, putem raţiona după cum urmează: există Cnn1 posibilităţi de a aranja obiectele în prima
cutie; de îndată ce primele n1 obiecte au fost aranjate în prima cutie, cele n − n1 obiecte rămase
n2
pot fi aranjate în Cn−n 1
moduri în a două cutie, apoi cele n − n1 − n2 obiecte rămase pot fi aranjate
n3
în Cn−n1 −n2 moduri în a treia cutie etc. Folosind principiul multiplicării, găsim că numărul total
de aranjamente este

n2 n3 n! (n − n1 )! (n − n1 − n2 )! nk !
Cnn1 ·Cn−n ·Cn−n1 −n2
· . . . ·Cnnkk = · · ·...·
1
n1 !(n − n1 )! n2 !(n − n1 − n2 )! n3 !(n − n1 − n2 − n3 )! nk !
n!
=
n1 !n2 ! · · · nk !
1.1 Noţiuni şi exemple 11

5. Aranjamente

Pentru 1 ≤ k ≤ n, numărul de k-tupluri ordonate, cu repetiţie, formate

cu elementele mulţimii A (cu n elemente) este nk . Menţionăm că într-un
astfel de k-tuplu ordonat elementele mulţimii A pot fi repetate. Aceste
k-tupluri reprezintă secvenţe ordonate cu k elemente, posibil cu repetiţie
a elementelor, formate din elementele lui A. Ele se mai numesc şi
aranjamente cu repetiţie.

Exemplu 1.1.14 Dacă A = {a, b, c}, atunci cele 32 = 9 cupluri (2-tupluri) ordonate formate cu
elementele din A sunt: (a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c).
Exemplu 1.1.15 Considerăm mulţimea {A, B, C, D, E}. Atunci, există 53 = 125 triplete (3-
tupluri) ordonate formate cu literele acestei mulţimi.

Pentru 0 ≤ k ≤ n, se numeşte aranjament de n elemente luate câte k elemente orice secvenţă

ordonată formată din k elemente distincte A. Numărul tuturor aranjamentelor de n luate câte k
se noteaza prin Akn şi este dat de formula

n!
Akn = n · (n − 1) · . . . · (n − k + 1) =
(n − k)!

În particular, pentru k = n, găsim că Ann = Pn = n!.

Exemplu 1.1.16 Dacă A = {a, b, c}, atunci există A23 = 6 cupluri (2-tupluri) ordonate formate
cu elemente distincte din A: {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.
Exemplu 1.1.17 Zece alergatori doresc sa participe la o cursa de atletism, dar pista are doar 8
culoare. In câte moduri putem aseza 8 dintre cei 10 alergatori pe culoare, câte unul pe culoar?
A810 = 1814400.
!! Numărul Akn mai poate fi privit ca fiind numărul de k-tupluri ordonate formate cu elementele
unei mulţimi cu n elemente în cazul în care repetiţia elementelor nu este permisă.

6. Deranjamente

Fie A = {x1 , x2 , . . . , xn } o mulţime finită de elemente distincte.

Se numeşte deranjament al elementelor mulţimii A o permutare a ele-

mentelor acestei mulţimi astfel încât niciun element al său nu apare în
pozitia originală. Numărul tuturor deranjamentelor ale unei mulţimi
cu n elemente se notează prin Dn = !n (numerele de Montmorta sau
subfactorial) şi este dat de
n
(−1)i
ï ò
n! 1
!n = n! ∑ = + , n = 1, 2 . . .
i=0 i! e 2

a Pierre Rémond de Montmort, 1678 − 1719, a fost un matematician francez

12 Capitolul 1. Elemente de combinatorică

!! Primele 10 deranjamente (începând cu !0 = 1) sunt, în ordine:

1, 0, 1, 2, 9, 44, 265, 1854, 14833, 133496, 1334961.
Exemplu 1.1.18 O maşina automată introduce la întâmplare scrisori în plicuri. Determinaţi
probabilitatea ca, din 100 de scrisori introduse, niciuna să nu fi fost introdusă în plicul corect.
. R: p = D100!
100
≈ 0.3679
Exemplu 1.1.19 La o serata dansanta participa 5 perechi sot-sotie. La un anumit dans se stinge
becul şi fiecare barbat alege la intamplare câte o partenera. In câte moduri diferite pot fi formate
perechile astfel încât sa nu fie nicio concordanta sot-sotie? R: ! 5 = 44.

7. Combinări
Pentru 0 ≤ k ≤ n, se numeşte combinare de n elemente luate câte k
elemente orice submulţime a mulţimii A formată din k elemente (dis-
tincte), fără să conteze ordinea elementelor în mulţime. Numărul tuturor
combinărilor de n luate câte k se notează prin Cnk şi este dat de formula

n!
Cnk = .
k!(n − k)!

Exemplu 1.1.20 Dacă A = {a, b, c}, atunci există C32 = 3 submulţimi formate cu elementele
din A, şi anume: {a, b}, {b, c}, {c, a}.
!! Numărul Cnk se mai numeşte şi coeficient binomial, deoarece este coeficientul termenului
ak bn−k din dezvoltarea binomului lui Newton (a + b)n .
De remarcat faptul că:
• Akn este numărul de k-tupluri ordonate formate cu elemente distincte ale mulţimii A;
• Cnk este numărul de submulţimi cu k elemente ale mulţimii A, în care repetarea unui acelaşi
element k
Ç å din A nu este permisă. De notat faptul că, în literatura matematică, Cn mai este notat şi
n
.
k
Exemplu 1.1.21 O echipă de 5 persoane ce trebuie să conţină 3 bărbaţi şi 2 femei este aleasă
dintre 8 bărbaţi şi 7 femei. Câte echipe diferite pot fi selectate? R: C83 ·C72 .

Fie A = {x1 , x2 , . . . , xn } o mulţime finită de elemente distincte.

Pentru k ≥ 1, se numeşte combinare cu repetiţie a unei mulţimi cu n ∈ N elemente luate câte k

elemente o secvenţă formată din k elemente ale mulţimii A, posibil cu repetiţie, fără să conteze
ordinea. Numărul tuturor combinărilor cu repetiţie (neordonate!) ale unei mulţimi cu n elemente
k
luate câte k se notează prin Cn şi este dat de formula

k k (n − 1 + k)!
Cn = Cn+k−1 = .
k!(n − 1)!

Exemplu 1.1.22 Dacă A = {a1 , a2 , . . . , a5 } sunt aromele de îngheţată de care dispune o anumită
tonetă, atunci un exemplu de combinare cu repetiţie formată din 7 cupe de îngheţată este o
secvenţă de forma < a1 , a1 , a1 , a3 , a4 , a4 , a5 >.
1.1 Noţiuni şi exemple 13

Putem justifica formula de mai sus printr-un exemplu, după cum urmează.
Presupunem că avem mulţimea S = {a, b, c, d, e} şi dorim să determinăm numărul combinărilor
de câte 7 elemente cu repetiţie. Aşadar, n = 5, k = 7. Un exemplu de astfel de element este:
A = {a, a, a, b, d, e, e}. Pentru a calcula câte astfel de mulţimi putem forma, partiţionăm dreapta
reală prin bare, astfel încât să avem 5 regiuni, corespunzătoare elementelor din S. Pentru fiecare
element din A punem câte un ∗ în regiunea corespunzătoare elementului din S. Obţinem astfel
şirul următor de steluţe şi bare:

∗ | |{z} | |{z}
∗ ∗} | |{z}
∗|{z ∗ | |{z}
∗∗
3a 1b 0c 1d 2e

În general, numărul de combinări cu repetiţie căutat este, de fapt, numărul de moduri (fără
repetiţie) de a alege k poziţii distincte dintr-o mulţime cu n + k − 1 elemente (steluţe şi bare),
k
adică Cn+k−1 .
Sau, alternativ, este numărul de moduri de a pune n − 1 bare (separatoare) în cele n + k − 1 spaţii
libere.
Eventual, în loc de steluţe şi bare se pot considera 0 şi 1, obţinând şirul 00010110100.
Exemplu 1.1.23 Presupunem ca mulţimea A este A = {a, b, c}. Pentru aceasta mulţime există 3
submulţimi ale sale formate din câte două elemente distincte, şi anume: {a, b}, {a, c}, {b, c}.
În cazul în care cerinţa ca elementele să fie distincte este îndepărtată, atunci putem crea mai
multe ”submulţimi” distincte formate din câte 2 elemente fiecare. Acestea sunt:

{a, a}, {a, b}, {a, c}, {b, b}, {b, c}, {c, c}.

Acestea sunt combinări cu repetiţie ale mulţimii A luate câte 2 elemente.

ÇÇ åå
k n
De notat faptul că, în literatura matematică, Cn mai este notat şi .
k
Exemplu 1.1.24 În câte moduri putem pune 7 mingi identice în 5 coşuri?
7
R: C5+7−1 7 = C4
= C11 11
Formule utile
n n
Cnk Akn
Cnk = Cnn−k , ∑ 2k = 2n , Cnk = , (a + b)n = ∑ Cnk ak bn−k .
k=0 Pk k=0

Observaţie 1.1.1
Problemele de numărare nu sunt întotdeauna uşoare.
Pentru a le rezolva este necesară tehnică şi multă
experienţă, deoarece unele probleme pot fi foarte
dificile. Din fericire, multe probleme de numărare pot
fi aduse, prin similaritate, la tehnica extragerii bilelor
dintr-o urnă (vezi Figura 1.1).
Figura 1.1: O urnă cu n bile

Considerăm o urnă ce conţine n bile diferite, numerotate 1, 2, . . . , n, din care extragem k bile.
Această extragere poate fi făcută în mai multe moduri posibile, în funcţie de:
• ordine. Putem extrage bilele pe rând, una câte una, sau toate odată. În primul caz, putem
nota ordinea în care sunt extrase bilele, pe când în al doilea caz nu o putem nota. Totuşi,
putem presupune că şi în al doilea caz bilele au fost extrase pe rând, una câte una, însă nu
s-a notat ordinea.
14 Capitolul 1. Elemente de combinatorică

• revenire. De îndată ce o bilă a fost extrasă, ea poate fi pusă înapoi în urnă (după ce,
eventual, s-a notat numărul ei), sau poate fi lăsată în afara urnei. Dacă bila este repusă în
urmă, spunem că avem o extragere cu revenire, iar dacă este lăsată afară, avem o extragere
fără revenire.

Avem astfel 4 experimente posibile asociate extragerii bilelor dintr-o urnă:

(a) Extragere ordonată, cu revenire. Numărul extragerilor ordonate, cu revenire, a k bile din
cele n din urnă este nk (aranjamente cu repetiţie).
(b) Extragere ordonată, fără revenire. Numărul extragerilor ordonate, fără revenire, a k bile
din cele n din urnă este Akn (aranjamente).
(c) Extragere neordonată, fără revenire. Numărul extragerilor neordonate, fără revenire, a k
bile din cele n din urnă este Cnk (combinări).
(d) Extragere neordonată, cu revenire. Numărul extragerilor neordonate, cu revenire, a k bile
k
din cele n din urnă este Cn (combinări cu repetiţie).

Măiestria rezolvitorului de probleme de combinatorică constă în a încadra problemele de combi-

natorică, aparent fără legătură cu urna, într-unul dintre cele patru cazuri de mai sus.

Exemplu 1.1.25 Un test grilă conţine 20 de întrebări, fiecare întrebare având 4 răspunsuri
posibile, cu un singur răspuns corect. În câte moduri distincte poate fi completat testul?
R: Fiecare întrebare are 4 variante: (a), (b), (c) sau (d). Astfel, urna are 4 de bile. Se extrag 20
de bile (pentru fiecare întrebare, alegem unul dintre cele 4 răspunsuri posibile), cu revenire, iar
ordinea extragerii contează. 420 = 1099511627776.
Exemplu 1.1.26 Opt cai participă la o cursă de hipism. În câte moduri putem plasa pariurile pe
câştigători? (primul, al doilea şi al treilea)
R: Urna are 8 bile (caii). Se extrag 3 bile (locurile), fără revenire, iar ordinea extragerii contează.
Primul loc poate fi ocupat de oricare din cei 8 cai, al doilea loc de oricare dintre cei 7 cai rămaşi,
al treilea loc de oricare dintre cei 6 cai rămaşi. A38 = 336.
Exemplu 1.1.27 Ana are o colecţie de 20 de rochii. Ea doreşte să ia 4 rochii cu ea în vacanţă. În
câte moduri o poate face?
R: Urna are 20 de bile (rochii). Se extrag 4 bile (rochii), fără revenire, fără a conta ordinea.
4 = 4845.
C20
Exemplu 1.1.28 Câte configuraţii posibile putem obţine aruncând 4 zaruri identice?
4
R: Urna are 6 bile (feţele unui zar). Se extrag 4 bile, cu revenire, fără a conta ordinea. C6 =
C94 = 126.
1.2 Exerciţii rezolvate 15

1.2 Exerciţii rezolvate

Exerciţiu 1.2.1
Determinaţi câte patrate cu varfurile in nodurile reţelei din figura alaturata
pot fi construite.

R: Din numărul găsit la Exemplul 1.1.3 scădem numărul pătratelor care au

vârfurile in nodurile lipsă. Vom găsi N = 50 − 7 = 43 pătrate.
Exerciţiu 1.2.2 La un examen pentru permis de conducere, 60% dintre candidaţi au trecut de
proba teoretică, 55% au trecut de proba practică, iar 45% le-au trecut pe ambele. Dacă 123 de
candidaţi au picat ambele probe, aflaţi numărul total de candidaţi.
R: Notăm cu: N numărul total de candidaţi, cu T mulţimea candidaţilor care au trecut proba
teoretică şi cu P mulţimea candidaţilor care au trecut de proba practică.
Atunci: |T | = 0.6N, |P| = 0.55N şi |T ∩ N| = 0.45N. De aici, găsim că

|T ∪ P| = |T | + |P| − |T ∩ N| = 0.6N + 0.55N − 0.45N = 0.7N.

Numărul celor care au picat ambele probe este

|T ∩ P| = |T ∪ P| = N − |T ∪ P| = N − 0.7N = 0.3N = 123.

Astfel, N = 410.
Exemplu 1.2.1 Câte numere întregi dintre 1 şi 1000 nu sunt divizibile cu 2, 3 sau 5?
R: Utilizăm principiul includerii-excluderii. Dacă N este mulţimea numerelor întregi căutate,
N este mulţimea complementară lui N şi Dk este mulţimea numerelor naturale până la 1000,
divizibile cu k (k = 2, 3, 5), atunci

|N| = 1000−|N| = 1000−[|D2 |+|D3 |+|D5 |−|D2 ∩D3 |−|D2 ∩D5 |−|D3 ∩D5 |+|D2 ∩D3 ∩D5 |].

:
ï ò ï ò ï ò ï ò ï ò ï ò ï ò
1000 1000 1000 1000 1000 1000 1000
|N| = 1000 − − − + + + − = 266.
2 3 5 6 10 15 30

Exerciţiu 1.2.3 Exista 7 trasee pentru un alpinist de a urca de la baza unui munte pana in varf.
(a) Câte trasee diferite poate urma un alpinist in drumul sau de la baza pana in varf şi retur?
. R: 7 · 7 = 49
(b) Câte dintre aceste trasee au calea de intoarcere diferita de calea dupa care a urcat?
. R: 7 · 6 = 42
Exerciţiu 1.2.4 (1) Câte numere diferite de patru cifre putem forma cu cifrele de la 0 la 7?
. R: 7 · 83
(2) Câte numere diferite de patru cifre putem forma cu cifrele de la 0 la 5, fara cifre repetate?
. R: 5 · 5 · 4 · 3
Exerciţiu 1.2.5 Intr-o sala de ceremonii sunt 10 aparate de aer conditionat. Pentru ca evenimen-
tele de aici sa se desfasoare in conditii bune, este necesar ca macar un aparat sa fie in functiune
in orice moment. In câte moduri poate fi acest lucru programat?
. R: 210 − 1. Fiecare aparat din cele 10 poate fi ON sau OFF.
Exemplu 1.2.2 Determinaţi numarul anagramelor cuvantului ITALIA astfel încât literele de
acelasi fel sa nu fie consecutive.
R: N = 6!/(2! · 2!) − |A I| = 180 − |A| − |I| + |A I| = 180 − 5!/2! − 5!/2! + 4! = 84
S T
.
16 Capitolul 1. Elemente de combinatorică

Exerciţiu 1.2.6 Determinaţi numarul parolelor de 8 caractere ce pot fi formate tinand cont de
urmatoarele restrictii:
(a) toate caracterele sunt literele alfabetului englez (sunt 26 de litere), scrise cu litere mici.
. R: 268
(b) toate caracterele sunt literele alfabetului englez, scrise cu litere mici şi distincte.
. R: 26!/18!
(c) toate caracterele sunt literele alfabetului englez, cu litere mici, distincte, in ordine alfabetica.
. R: C26 8

(d) toate caracterele sunt litere şi cifre, care alterneaza şi nu se pot repeta.
. R: 2 · (26 · 25 · 24 · 23) · (10 · 9 · 8 · 7)
(e) caracterele pot fi doar literele A, B, C, D, in numere egale de fiecare.
Exerciţiu 1.2.7 (a) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând
cu 7 locuri?
(b) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând cu 7 locuri,
astfel încât toate cele trei femei să fie mereu aşezate împreună?
(c) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând cu 7 locuri,
astfel încât niciuna dintre cele trei femei sa nu fie alaturi de o alta femeie?
(d) Calculaţi suma numerelor obţinute la (a) şi (b). Este egală cu 7!? De ce?
R: (a) În 7! moduri.
(b) Considerăm cele 3 femei ca fiind un grup unitar. Avem 5 grupuri unitare, şi anume: acest
grup de femei şi cei patru bărbaţi (fiecare bărbat este considerat ca fiind un grup unitar). Putem
permuta în linie aceste grupuri unitare în 5! moduri. În interiorul grupului de femei, ele pot
fi permutate în 3! moduri. Folosind principiul multiplicării, putem permuta cele 3 femei şi 4
bărbaţi în 3! · 5! = 720 moduri.
(c) Aşezăm mai întâi bărbaţii în linie (în 4! moduri), apoi aşezăm femeile. Prima femeie poate fi
aşezată la stânga sau la dreapta oricărui bărbat, adică în 5 moduri. A două femeie poate fi aşezată
în unul din cele 4 locuri rămase disponibile, iar a treia în unul cele 3 locuri rămase disponibile.
În total, 4! · 5 · 4 · 3 = 1440 moduri.
(d) Nu, pentru aceste două cazuri, (a) şi (b), nu acoperă toate cazurile posibile, adică 7!. Există
posibilitatea de a aşeza două femei alăturat şi a treia în altă parte, caz neacoperit mai sus.
Exerciţiu 1.2.8 10 baieţi şi 7 fete sunt aşejaţi pe un rând cu 17 locuri. În câte moduri pot fi
aşezaţi aşa încât baieţii să fie aşezaţi împreună şi fetele împreună? R: 10! · 7! · 2!
Exerciţiu 1.2.9 O echipă de 5 persoane ce trebuie să conţină 3 bărbaţi şi 2 femei este aleasă
dintre 8 bărbaţi şi 7 femei. Câte echipe diferite pot fi selectate? R: C83 ·C72 = 1176
Exerciţiu 1.2.10 În câte moduri pot fi aranjate cele 8 litere din cuvantul TRIANGLE pe un rând
astfel încât să nu conţina măcar una dintre secvenţele GIA şi NT?
R: Utilizăm principiul includerii-excluderii. Obţinem: 8! − 6! − 7! + 5! = 34680 cazuri.
Exerciţiu 1.2.11 Mircea are 5 batoane de ciocolată distincte pe care doreşte să le pună în 3
buzunare, astfel încât fiecare buzunar conţine măcar un baton. În câte moduri o poate face?
R: Utilizăm principiul includerii-excluderii. Obţinem: 35 − 3 · 25 + 3 = 150. Sunt 35 cazuri
posibile fără a avea vreo restricţie, din care scoatem numărulul cazurilor în care cele 5 batoane
sunt puse în doar două buzunare, i.e., C31 25 , şi adunăm numărul cazurilor în care punem toate
batoanele într-un singur buzunar, i.e., C32 cazuri.
Exerciţiu 1.2.12 La o serată dansantă participă 5 perechi soţ-soţie. La un anumit dans se stinge
becul şi fiecare barbat alege la întâmplare câte o parteneră. În câte moduri diferite pot fi formate
perechile astfel încât sa nu fie nicio concordanţă soţ-soţie? R: D5 =! 5 = 44
Exerciţiu 1.2.13 Într-o clasă sunt 30 de elevi, 19 baieţi şi 11 fete. În câte moduri putem alege o
1.3 Exerciţii propuse 17

echipă de 7 elevi în care să existe măcar un baiat şi o fată?

R: C30 7 −C7 −C7 = 1985082
19 11
Exerciţiu 1.2.14 (a) Determinaţi numărul de anagrame ce se pot forma cu literele cuvântului
11!
MISSISSIPPI. R: = 34650
4! · 4! · 2! · 1!
(b) Determinaţi numărul de permutări distincte care pot fi obţinute din literelor cuvântului
10!
STATISTICS. R: = 50400
3! · 3! · 3! · 1!
Exerciţiu 1.2.15 Centrul unui oraş de formă dreptun-
ghiulară are o reţea de străzi (segmentele unitate) şi
intersecţii (punctele) formată din (m + 1) × (n + 1)
linii.
În câte moduri se poate ajunge cu maşina din punctul
A până în punctul B circulând doar spre Est (spre
dreapta) şi spre Nord (în sus)?

R: Presupunem că punctele din figură au coordonatele A(0, 0), B(m, n). Orice traiectorie care
uneşte cele două puncte este complet determinată de numărul de blocuri verticale (un block
este intervalul dintre două străzi orizontale învecinate) pe care le are de parcurs maşina. Notăm
cu v0 , v1 , . . . , vm străzile verticale. Teoretic, pe fiecare dintre aceste m + 1 străzi, maşina poate
parcurge maxim n blocuri până la destinaţie. Pentru fiecare i = 0, m, notăm cu bi numărul de
blocuri parcurse de maşină pe strada i. Spre exemplu, drumul din figura de mai sus corespunde
configuraţiei (0, 0, 0, 2, 1, 0, 0, 1, 0, 3, 0, 0, 3, 0, 0). Astfel, numărul de drumuri distincte pe
care le poate parcurge maşina de la A la B este egal cu numărul de soluţii naturale pe care le
poate avea următoarea ecuaţie:
v0 + v1 + · · · + vm = n.
n
Astfel, răspunsul este Cm+n drumuri distincte leagă punctul A de punctul B.
10 = 1961256 drumuri diferite.
În cazul reţelei din figură, m = 14, n = 10, deci C24

1.3 Exerciţii propuse

Exerciţiu 1.3.1 Câte submulţimi de două elemente distincte putem extrage din mulţimea A =
{1, 2, 3, 4, 5}? Dar submulţimi de două elemente posibil egale?
Exerciţiu 1.3.2 Câte numere cu 4 cifre distincte se pot crea cu numerele din mulţimea A =
{1, 2, 3, 4, 5}? Dar numere cu 4 cifre nu neapărat distincte?
Exerciţiu 1.3.3 O monedă ideală este aruncată de 3 ori. Care sunt toate rezultatele posibile?
Exerciţiu 1.3.4 O monedă ideală şi un zar ideal sunt aruncate împreună. Care sunt toate
rezultatele posibile?
Exerciţiu 1.3.5 Două zaruri ideale sunt aruncate o singură dată. Care sunt toate rezultatele
posibile?
Exerciţiu 1.3.6 În câte moduri pot fi aleşi patru studenţi dintr-un grup de 7?
Exerciţiu 1.3.7 Câte plăcuţe de maşină pot fi confecţionate care să conţină 3 litere şi 3 cifre,
prima cifră fiind diferită de 0? (e.g., ABC 123 ).
Exerciţiu 1.3.8 (a) În câte moduri putem monta 5 becuri de culori diferite în serie? (b) Câte
cazuri posibile se pot obţine la aruncarea simultană a 4 monede ideale?
Exerciţiu 1.3.9 Şapte prieteni se întâlnesc şi îşi strâng (fiecare cu fiecare) mâinile. Calculaţi
numărul total de strângeri de mâini. R: 21
18 Capitolul 1. Elemente de combinatorică

Exerciţiu 1.3.10 La o serată dansantă sunt 10 baieţi şi 13 fete. În câte moduri se pot forma două
perechi fată-băiat? R: 3510
Exerciţiu 1.3.11 (a) Calculaţi numărul de permutări ale literelor din cuvântul NUMBER.R: 720
(b) Câte dintre permutările de la (a) încep şi se termină cu o vocală? R: 48
Exerciţiu 1.3.12 O companie îşi alege conducerea printre membrii consiliului de administraţie.
Există 10 de membri în consiliul de administraţie.
(a) În câte moduri se pot alege un preşedinte, un vicepreşedinte şi un secretar? R: A310 = 720
(b) În câte moduri se pot fi aleşi 3 membri care să reprezinte consiliul la un congres? R: C10 3

Exerciţiu 1.3.13 La o degustate de vinuri, sunt degustare 20 de soiuri diferite, apoi sunt clasificate.
În câte moduri diferite se pot alege primele 3 locuri? R: A320 = 6840
Exerciţiu 1.3.14 Câte pătrate distincte pot fi observate pe o tablă de şah? Generalizaţi rezultatul
n
pentru o tablă de tipul n × n. R: 204, ∑ k2 = n(n + 1)(2n + 1)/6
k=1
Exerciţiu 1.3.15 La un turneu de şah participă 10 jucători. Dacă fiecare jucător joacă cu fiecare,
câte jocuri vor fi în total? R: C102 = 45

Exerciţiu 1.3.16 În câte moduri putem rearanja literele cuântului REARRANGE pentru a obţine
cuvinte noi? R: 15120
Exerciţiu 1.3.17 Dintre cei 30 de elevi dintr-o clasă, 21 de elevi studiază Engleza, 15 studiază
Franceza şi 11 studiază Germana. Mai mult, 10 elevi studiază Engleza şi Franceza, 7 elevi
studiază Engleza şi Germana şi 5 elevi studiază Franceza şi Germana. Ştiind că doar 3 elevi ai
clasei studiază toate cele trei limbi, să se determine câţi elevi din clasa nu studiază niciuna dintre
aceste limbi.
Exerciţiu 1.3.18 În câte moduri pot fi rearanjaţi 5 studenţi pe 5 locuri într-un rând astfel încât
unul dintre ei să rămână mereu pe acelaşi loc? R: 4! = 24
Exerciţiu 1.3.19 Determinaţi numărul de permutări ale mulţimii {1, 2, 3, 4, 5, 6, 7, 8} astfel
încât exact trei elemente rămân pe aceeaşi pozitie. R: 2464
Exerciţiu 1.3.20 Câte permutări ale literelor ABCDEFGH conţin secvenţa ABC? R: 6! = 720
Exerciţiu 1.3.21 Un antrenor de fotbal doreşte să formeze 3 echipe a câte 5 jucători fiecare
dintr-un grup de 15 fotbalişti disponibili. Determinaţi în câte moduri o poate face dacă:
(a) echipele au câte un nume; R: 756756
(b) echipele nu au nume. R: 126126
Exerciţiu 1.3.22 Un magazin vinde 5 tipuri diferite de ciocolată. În câte moduri distincte putem
alege 13 ciocolate din acest magazin? . 13
R: C13+5−1 = C1713

Exerciţiu 1.3.23 În câte moduri pot fi oferite 10 mere identice la 7 copii? R: C10+7−1 10 = C1610

Exerciţiu 1.3.24 Câte anagrame diferite pot fi folosind literele cuvântului ABRACADABRA?
. R: 83160

Exerciţiu 1.3.25 Câte paralelipipede dreptunghice (de diverse mărimi)

se pot desprinde din paralelipipedul dreptunghic alăturat?

. R: 1260
2. Probabilităţi. Definiţii. Proprietăţi

2.1 Experimente şi evenimente aleatoare

Aleatór, -oáre (adj.)]− Din fr. aléatoire, lat. aleatorius. Care depinde de o împrejurare viitoare
şi nesigură, care este supus întâmplării; întâmplător; stochastic.
Numim experienţă aleatoare (sau experiment aleator) orice act cu rezultat incert, care poate fi
repetat în anumite condiţii date. Vom spune că un experiment este aleator atunci când informa-
ţiile noastre despre rezultatul experimentului sunt limitate, neştiind cu siguranţă ce se va întâmpla.

Exemplu 2.1.1 Să considerăm experienţa ce constă în aruncarea unei monede. Ne interesează
rezultatul aruncării, adică faţa care va apărea în sus după ce moneda va fi în repaus. În lipsa
tuturor informaţiilor necesare legate de efectuarea experimentului, există o incertitudine în ce
priveşte rezultatul. Înainte de efectuarea experimentului, nu putem şti cu siguranţă care faţă va
apărea. Dacă am avea mai multe informaţii despre materialul din care este făcută moneda, despre
forţa cu care este aruncată, despre orientarea iniţială a monedei, despre impactul dintre deget şi
monedă, despre rezistenţa/turbulenţele aerului, despre caracteristicile suprafeţei pe care va cădea,
şi aşa mai departe, am putea spune cu siguranţă pe ce parte va cădea moneda. E clar că nu le
putem şti pe toate, aşadar va trebui să facem unele anticipări legate de rezultatul experimentului.
Un astfel de eveniment cu rezultat incert (neştiut înainte de efectuarea experimentului) se nu-
meşte eveniment aleator (sau, rareori, stochastic).

Opusul noţiunii de experiment aleator este experimentul determinist, semnificând un experiment

ale cărui rezultate sunt complet determinate de condiţiile în care acesta se desfăşoară. Rezultatul
unui experiment aleator depinde de anumite circumstanţe întâmplătoare ce pot apărea. Alte
exemple de experienţe aleatoare: extragerea LOTO, aruncarea zarului, observarea duratei de
viaţă a unui individ, observarea vremii de mâine, observarea numărului de apeluri telefonice
recepţionate de o centrală telefonică într-un interval, rezultatul unui meci de fotbal etc. Mulţimea
tuturor rezultatelor posibile legate de un anumit experiment aleator se numeşte spaţiul de selecţie
asociat experimentului. Această mulţime o vom nota cu Ω şi poate fi finită sau infinită.
20 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Exemplu 2.1.2 [1] Dacă experimentul aleator este aruncarea unui zar ideal (un zar în care
fiecare faţă are aceeaşi şansă de apariţie), atunci spaţiul de selecţie va fi Ω = {1, 2, 3, 4, 5, 6}.
[2] Dacă experimentul aleator este determinarea numărului de clienţi ce intră într-o anumită
bancă într-o zi de lucru, atunci spaţiul de selecţie este Ω = {0, 1, 2, 3, 4, . . .} = N.
[3] Dacă experimentul aleator este determinarea timpului de funcţionare continuă a unui set
format din patru baterii de un anumit tip, atunci spaţiul de selecţie este

Ω = {(t1 , t2 , t3 , t4 ), ti ≥ 0, i = 1, 2, 3, 4} = R4+ .

[4] Dacă experimentul aleator este determinarea numărului de zile ploioase dintr-un anumit an
(care nu este bisect), atunci spaţiul de selecţie este Ω = {0, 1, 2, 3, 4, . . . , 365}.

Punerea în aplicare a unui experiment aleator se numeşte probă.

Vom numi eveniment aleator orice colecţie de rezultate posibile asociate experimentului aleator.
Exemple de evenimente aleatoare ce pot apărea în cazul unui zar ideal: apariţia unui număr par,
apariţia feţei cu 6 puncte, apariţia unui număr mai mic de 5 etc.

Din punct de vedere matematic, dacă Ω este o mulţime finită, atunci mulţimea tuturor eveni-
mentelor aleatoare legate de un experiment aleator (adică, legate de spaţiul de selecţie Ω) este o
submulţime a mulţimii părţilor lui Ω, P(Ω). În acest material vom nota această submulţime cu
F . Elementele din F sunt evenimente care pot fi observate atunci când experimentul aleator este
efectuat. Cu alte cuvinte, F este informaţia pe care o primim după desfăşurarea experimentului
aleator. După efectuarea experimentului, putem observa dacă un anumit eveniment A aparţine
sau nu lui F .
Reamintim că, dacă Ω are n elemente, atunci P(Ω) va avea 2n elemente.

Exemplu 2.1.3 Dacă Ω = {a, b, c}. Atunci, mulţimea P(Ω) este:

P(Ω) = {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, Ω}.

Vom numi eveniment aleator elementar (sau eveniment aleator simplu) un eveniment aleator
care are un singur rezultat posibil. De exemplu, apariţia feţei cu 3 puncte la aruncarea unui zar
ideal. Mulţimea Ω este astfel mulţimea tuturor evenimentelor elementare asociate experienţei
aleatoare. Un eveniment aleator cu mai mult de un rezultat posibil se va numi eveniment aleator
compus.
Un exemplu de eveniment compus este apariţia unui număr impar la aruncarea unui zar ideal.
Acest eveniment este compus din trei evenimente elementare, ce corespund feţelor cu 1, 3 sau 5
puncte.
Alt exemplu de eveniment aleator: apariţia unei duble (6, 6) la aruncarea a două zaruri este
un eveniment aleator elementar, iar obţinerea unei duble la aruncarea a două zaruri este un
eveniment aleator compus.
Vom numi eveniment sigur (sau eveniment cert), acel eveniment care se realizează la fiecare
efectuare a experienţei aleatoare. Astfel, evenimentul sigur este întreg spaţiu de selecţie, Ω.
Prin eveniment imposibil înţelegem acel eveniment ce nu se realizează în nicio probă. Evenimen-
tul imposibil asociat unei experienţe aleatoare se notează prin ∅.
Se numeşte caz favorabil pentru evenimentul aleator un caz în care respectivul eveniment se
realizează măcar într-o proba a sa.
Evenimentele aleatoare (adică elementele din F ) le vom nota cu A, B, C, . . . .
Prin A (uneori prin Ac ) vom nota evenimentul complementar (sau evenimentul contrar) lui A,
2.1 Experimente şi evenimente aleatoare 21

care se realizează doar atunci când A nu se realizează. Avem: Ac = Ω \ A. Spre exemplu, dacă
experienţa aleatoare este aruncarea unui zar şi evenimentul aleatoar A este apariţia unei feţe cu
un număr par de puncte, A = {2, 4, 6}, atunci evenimentul contrar A este evenimentul apariţiei
unui număr impar, i.e., A = {1, 3, 5}. Avem că A A = Ω.
S

Următoarele relaţii sunt folosite în calculul probabilistic: A = A, Ω = ∅, ∅ = Ω.

Operaţii cu evenimente

Presupunem că A şi B sunt două evenimente legate de o experienţă aleatoare.

S
• Se defineşte A B (citit A sau B) evenimentul care se realizează ori de câte ori se realizează
S
cel puţin unul dintre evenimentele A şi B. Evenimentul A B se mai numeşte şi disjuncţia
inclusivă a evenimentelor A şi B.
T
• Se defineşte A B (citit A şi B) evenimentul care se realizează ori de câte ori se reali-
T
zează simultan evenimentele A şi B. Evenimentul A B se mai numeşte şi conjuncţia
evenimentelor A şi B.
• Se defineşte A \ B = A ∩ B (citit A minus B) evenimentul care se realizează ori de câte ori
se realizează A, dar nu se realizează B.
• Se defineşte A∆B = (A B) (A B) (citit A diferenta simetrica B) evenimentul care se
T S T

realizează ori de câte ori se realizează exact unul dintre evenimentele A şi B.

Relaţii între evenimente

• Notăm prin A ⊂ B (citit A implică B) şi spunem că realizarea lui A implică realizarea lui B.
• Spunem că A = B (citit A coincide cu B) dacă A ⊂ B şi B ⊂ A.
• Spunem că A şi B sunt evenimente incompatibile dacă în nicio probă ele nu se pot realiza
simultan. Scriem astfel: A B = ∅.
T

• Spunem că A şi B sunt evenimente compatibile dacă ele se pot realiza simultan în măcar o
probă a experimentului aleator. Scriem astfel: A B 6= ∅.
T

• Spunem că A şi B sunt evenimente echiprobabile dacă ele au aceeaşi sansă de realizare.
Spre exemplu, la aruncarea unei monede ideale, orice faţa are aceeaşi şansă de apariţie.
Exemple de evenimente echiprobabile:
– aruncarea unei monede ideale este un experiment cu 2 evenimente echiprobabile:
apariţia feţei sau apariţia stemei.
– aruncarea unui zar ideal este un experiment cu 6 evenimente echiprobabile: apariţia
fiecăreia dintre cele 6 feţe.
– aruncarea a două zaruri ideale este un experiment cu 36 evenimente echiprobabile.
22 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

• Relaţiile lui de Morgan1 :

A∪B = A∩B şi A ∩ B = A ∪ B.

În cuvinte, aceste relaţii se reţin astfel: complementara reuniunii a două evenimente este
intersecţia complementarelor evenimentelor şi, respectiv, complementara intersecţiei a
două evenimente este reuniunea complementarelor evenimentelor.
Aceste relaţii se pot extinde similar şi pentru mai mult de două evenimente, astfel:

A1 ∪ A2 ∪ . . . ∪ An = A1 ∩ A2 ∩ . . . ∩ An şi A1 ∩ A2 ∩ . . . ∩ An = A1 ∪ A2 ∪ . . . ∪ An .

Simbolul Limbajul mulţimilor Limbajul evenimentelor

Ω mulţimea totală eveniment sigur
∅ mulţimea vidă eveniment imposibil
A⊂Ω A este o submulţime a lui Ω A este un eveniment
A∪B A reunit cu B A sau B
A∩B A intersectat cu B A şi B
A⊂B A submulţime a lui B A implică B
A complementara lui A evenimentul contrar lui A
A∩B = ∅ A şi B disjuncte A şi B incompatibile
A ∩ B 6= ∅ A şi B se intersectează A şi B compatibile

Pentru a putea cuantifica şansele de realizare a unui eveniment aleator, s-a introdus noţiunea
de probabilitate. Presupunem că pentru un anume experiment aleator, am construit mulţimea
tuturor evenimentelor elementare, Ω. Atunci, fiecărui eveniment A în putem asocia un număr
P(A), numit probabilitatea realizării evenimentului A (sau, simplu, probabilitatea lui A), fiind o
măsură precisă a şanselor ca A să se realizeze.
În literatura de specialitate, probabilitatea este definită în mai multe moduri, depinzând de
situaţie: cu definiţia clasică (apare pentru prima oară în lucrările lui P. S. Laplace2 ), folosind o
abordare statistică (cu frecvenţe relative), probabilitatea bayesiană (introdusă de Thomas Bayes3 )
sau utilizând definiţia axiomatică (Kolmogorov).
Pentru început, ne vom preocupa de probabilitatea definită clasic şi aplicaţiile sale.

2.2 Probabilitatea definită clasic

Considerăm un eveniment A legat de o anumită experienţă aleatoare. Dorim să evaluăm şansele
ca acest eveniment să se realizeze. Pentru a cuantifica aceste şanse, vom defini probabilitatea de
realizare a evenimentului A.
Probabilitatea clasică este definită doar când următoarele condiţii sunt toate îndeplinite:
1. experienţa aleatoare poate fi repetată de un număr nedeterminat de ori, în aceleaşi condiţii;
2. există doar un număr finit de cazuri posibile. Notăm |Ω| = n < ∞.
3. toate evenimentele elementare sunt incompatibile două câte două (oricare două cazuri posi-
bile nu se pot realiza simultan) şi toate au aceeaşi şansă de a se realiza (sunt echiprobabile).

1 AugustusDe Morgan (1806 − 1871) a fost un matematician şi logician britanic

2 Pierre-Simon,
marquis de Laplace (1749 − 1827), matematician şi astronom francez
3 Thomas Bayes (1701 − 1761), preot, statistician şi filosof britanic
2.2 Probabilitatea definită clasic 23

Considerăm o experienţa aleatoare pentru care spaţiul evenimentelor elementare (spaţiul de

selecţie) este o mulţime nevida finită Ω. Fie Ω = {ω1 , ω2 , . . . , ωn }. De asemenea, presupunem
că orice eveniment elementar ωi din Ω are aceeaşi sansa de a se realiza. Un eveniment aleator
legat de experienţa aleatoare considerată va fi o colecţie de evenimente elementare din Ω.
Presupunem că A = {ωi1 , ωi2 , . . . , ωik } este un astfel de eveniment aleator. Definim următoarea
funcţie: P : P(Ω) → [0, 1], care atribuie fiecărui eveniment A din P(Ω) valoarea P(A), numită
probabilitatea lui A, ce reprezintă şansa realizării evenimentului A. Probabilitatea de realizare a
unui eveniment A este definită aici prin

numărul cazurilor favorabile realizării evenimentului A k

P(A) = = .
numărul cazurilor egal posibile n

Tripletul (Ω, P(Ω), P) se va numi câmp de probabilitate finit (în sens Laplace).
k
Ţinând cont de definiţia evenimentului contrar, dacă P(A) = , atunci
n
n−k k
P(A) = = 1 − = 1 − P(A).
n n
Etape pentru calculul probabilităţii unui eveniment într-un câmp de probabilitate Laplace

1. Determinarea experimentului aleator care are ca posibil rezultat evenimentul A;

2. Stabilirea mulţimii Ω şi verificarea faptului că toate evenimentele elementare sunt echipro-
babile. Se calculează apoi cardinalul lui Ω, |Ω|;
3. Dacă |Ω| < ∞ şi A ∈ P(Ω), se trece la determinarea cardinalului lui A, notat prin |A|;
|A|
4. Probabilitatea realizării evenimentului A va fi P(A) = .
|Ω|

Proprietăţi 2.2.1 1. 0 ≤ P(A) ≤ 1, ∀A ∈ P(Ω).

2. P(Ω) = 1.
3. Dacă A ∩ B = ∅, atunci P(A ∪ B) = P(A) + P(B).
4. Dacă A1 , A2 , . . . , An sunt evenimente incompatibile, două câte două, atunci

P(A1 ∪ A2 ∪ . . . ∪ An ) = P(A1 ) + P(A2 ) + . . . + P(An ).

5. P(A ∪ B) = P(A) + P(B) − P(A ∩ B), ∀A, B ∈ P(Ω).

6. P(A \ B) = P(A) − P(A ∩ B).
7. Dacă B ⊂ A, atunci P(A \ B) = P(A) − P(B).
8. Dacă B ⊂ A, atunci P(B) ≤ P(A).
9. P(A) = 1 − P(A), ∀A ∈ P(Ω).
10. P(∅) = 0.
11. Pentru orice ∀A, B, C ∈ P(Ω), avem:

P(A ∪ B ∪C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩C) − P(B ∩C) + P(A ∩ B ∩C).

12. Dacă Ω = {ω1 , ω2 , . . . , ωn } este finită, compusă din evenimentele elementare ωi , atunci

P(ω1 ) + P(ω2 ) + . . . + P(ωn ) = 1.

24 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Se observă de aici că, dacă A = {ωn1 , ωn2 , . . . , ωnk } ⊂ Ω şi evenimentele elementare
{ωi }ni=1 sunt echiprobabile (adică, P ({ωi }) = n1 , ∀i = 1, 2, . . . , n), atunci

|A| k
P(A) = = .
|Ω| n
Exemplu 2.2.1 Se aruncă un zar ideal. Care este probabilitatea apariţiei unui număr par?
R: Mulţimea Ω a tuturor cazurilor are 6 elemente (feţele zarului). Evenimente elementare:

ω1 = apariţia feţei 1, ω2 = apariţia feţei 2, ω3 = apariţia feţei 3,

ω4 = apariţia feţei 4, ω5 = apariţia feţei 5, ω6 = apariţia feţei 6.

Deoarece zarul este ideal, toate feţele au aceeaşi şansă de apariţie (evenimente echiprobabile).
Notăm cu A evenimentul apariţiei unui număr par la aruncarea unui zar ideal. Atunci, există
3 cazuri favorabile lui A, şi anume feţele numerotate cu 2, 4, 6. Probabilitatea căutată va fi
|A| 3
P(A) = = = 0.5.
|Ω| 6
Exemplu 2.2.2 Într-o şcoală britanică, evaluarea elevilor se face folosind literele alfabetului. De
regulă, sunt folosite primele 7 litere ale alfabetului. Un elev a primit calificativ de trecere dacă
obţine unul dintre calificativele A, B, C. Care este probabilitatea ca un elev ales aleator să obţină
calificativ de trecere?
R: Aşadar, mulţimea tuturor cazurilor posibile este Ω = {A, B, C, D, E, F, G}. Oricare notă
are aceeaşi şansă de a fi atribuită (evenimente elementare echiprobabile). Cazurile favorabile
realizării evenimentului dorit sunt A, B, C. Astfel, probabilitatea ca un elev ales aleator să aibă
3
calificativ de trecere este P = .
7
Exemplu 2.2.3 O monedă ideală este aruncată de 3 ori. Se cere probabilitatea de a obţine două
steme. Dar cel puţin două steme?
R: Mulţimea tuturor cazurilor posibile este

Ω = {SSS, SSB, SBS, SBB, BSS, BSB, BBS, BBB}.

Cazurile favorabile realizării evenimentului A (obţinerea a două steme) sunt

A = {SSB, SBS, BSS}.

Astfel, probabilitatea evenimentului A este P(A) = 83 = 0.375.

Cazurile favorabile realizării evenimentului B (obţinerea a cel puţin două steme) sunt

B = {SSS, SSB, SBS, BSS}.

Astfel, probabilitatea evenimentului B este P(B) = 84 = 0.5.

Exemplu 2.2.4 Care este probabilitatea obţinerii sumei 7 la o singură aruncare a unei perechi de
zaruri ideale?
R: Identificăm experimentul aleator ca fiind aruncarea a două zaruri ideale. Mulţimea cazu-
rilor echiprobabile este Ω = {(i, j); i, j = 1, 2, 3, 4, 5, 6}, care are 36 de elemente. Mulţimea
cazurilor favorabile este formată din 6 elemente, şi anume:

A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
6
Probabilitatea apariţiei sumei 7 este P = 36 = 16 .
2.2 Probabilitatea definită clasic 25

Exemplu 2.2.5 Din 100 de mere, 10 sunt stricate. Care este probabilitatea ca, luând la întâmplare
3 mere, să luăm şi mere stricate?
3 moduri de alege 3 mere dintr-o mulţime de 100. Toate aceste moduri au aceeaşi
R: Există C100
probabilitate. Notăm cu A evenimentul de a avea şi mere stricate printre cele 3 extrase. Cu
alte cuvinte, din cele 3 mere extrase există cel puţin un măr stricat. Este mai uşor de calculat
probabilitatea evenimentului contrar, A = evenimentul ca toate cele 3 mere ales să fie bune
3 . Atunci
(niciun măr nu este stricat). Cazurile favorabile evenimentului cerut sunt în număr de C90

|A| C3 90 · 89 · 88
P(A) = 1 − P(A) = 1 − = 1 − 390 = 1 − ≈ 0.7265.
|Ω| C100 100 · 99 · 98

Exemplu 2.2.6 Se aruncă un zar ideal de 3 ori. Calculaţi probabilitatea de a obţine numere
diferite în toate cele 3 aruncări.
R: Mulţimea cazurilor egal posibile este

Ω = {(a, b, c), a, b, c = 1, 2, 3, 4, 5, 6}.

Cardinalul lui Ω este |Ω| = 63 = 216. Mulţimea cazurilor favorabile este

A = {(a, b, c) ∈ Ω, a 6= b 6= c 6= a}.

|A| 6 · 5 · 4 5
Cardinalul lui A este |A| = 6 · 5 · 4 = 120. Probabilitatea căutată este P(A) = = = .
|Ω| 63 9
Observaţie 2.2.1 De remarcat faptul că probabilitatea nu poate fi definită întotdeauna în acest
fel. Dacă măcar una dintre cerinţele 1.− 3. nu este satisfăcută, atunci definiţia de mai sus nu are
sens. Câteva exemple:
• Considerăm experimentul aleator ce constă în alegerea la întâmplare a un punct din pătratul
[0, 1] × [0, 1], astfel încât toate punctele din acest pătrat au aceeaşi şansă de a fi alese. Se
cere să se calculeze probabilitatea ca punctul astfel ales să se situeze deasupra primei
bisectoare. În acest caz, atât numărul cazurilor posibile, cât şi numărul cazurilor favorabile
este infinit, făcând definiţia clasică a probabilităţii inutilizabilă.
• Experienţa aleatoare constă în aruncarea unui zar neomogen. În acest caz, nu toate feţele
zarului au aceeaşi şansă de apariţie, iar definiţia de mai sus nu poate fi utilizată.
• Un biscuit ce are una dintre feţe unse cu unt are şanse mai mari de a cădea cu faţa unsă în
jos când este scăpat. Pentru a estima care este probabilitatea să cadă cu o anumită faţă în
jos, nu putem utiliza definiţia de mai sus (evenimentele elementare nu sunt echiprobabile).
• În cazul în care dorim să pariem pe rezultatul unui anumit meci de fotbal, nu putem
determina probabilităţile de victorie/egal/înfrângere folosind definiţia clasică, deoarece
experienţa (meciul) nu poate fi repetată în aceleaşi condiţii de mai multe ori.

Alte exemple în care probabilitatea clasica nu poate fi utilizata: probabilitatea ca o anumită

persoană să trăiască mai mult de 80 de ani, probabilitatea ca o anumită cometă să atingă
Pământul în traiectoria sa, probabilitatea ca echipa României să câştige cupa mondială la fotbal,
probabilitatea ca un anumit boxer să câştige meciul pentru centura IBF, probabilitatea ca un
automobil să sufere avarii în decursul unui an, probabilitatea producerii unui cutremur major în
acest an etc.
26 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

2.3 Alte modalităţi de a defini probabilitatea

După cum am văzut anterior, probabilitatea de realizare a unui anumit eveniment nu poate fi
definită întotdeauna folosind abordarea clasică (i.e., numărul cazurilor favorabile împărţit la
numărul cazurilor egal posibile). Există foarte multe situaţii în care această definiţie nu mai este
aplicabilă. Spre exemplu: în cazul în care spaţiul Ω (spaţiul tuturor evenimentelor elementare)
are cardinal infinit, sau în cazul în care evenimentele elementare nu sunt echiprobabile, sau în
cazul în care experimentul aleatoare nu poate fi repetat în aceleaşi condiţii sau chiar deloc. În
continuare vom introduce două noi moduri de definire a probabilităţii.

2.3.1 Probabilitatea definită frecvenţial (sau statistic)

Probabilitatea frecvenţială (definită statistic) exprimă probabilitatea cu ajutorul frecvenţelor de
realizare a unui eveniment într-un număr mare de experimente aleatoare realizate în aceleaşi
condiţii. Pentru a putea evalua această probabilitate, este necesară repetarea în aceleaşi condiţii a
experimentului legat de evenimentul aleator ce se doreşte a fi cuantificat.

Să considerăm un experiment aleator (e.g., aruncarea unui zar) al cărui rezultat posibil este
evenimentul aleator A (e.g., apariţia feţei cu 6 puncte). Presupunem că acest experiment aleator
îl putem efectua de un număr infinit de ori în condiţii identice, astfel încât rezultatul unei probe
să nu influenţeze rezultatul alteia (probe independente). Să notăm cu νn (A) frecvenţa absolută
νn (A)
de realizare a lui A în n ∈ N∗ probe independente. Raportul fn (A) = se va numi frecvenţă
n
relativă de realizare a lui A în n probe independente. Acest raport are următoarele proprietăţi:

1◦ . 0 ≤ fn (A) ≤ 1, pentru orice eveniment A;

2◦ . fn (Ω) = 1;
3◦ . fn (A) = 1 − fn (A), pentru orice eveniment A;
4◦ . fn (A ∪ B) = fn (A) + fn (B), dacă A ∩ B = ∅.

Mai mult, şirul frecvenţelor relative { fn (A)}n∈N are limită şi această este definită ca fiind
probabilitatea de realizare a evenimentului A, notată P(A). Aşadar, în cazul definiţiei statistice
a probabilităţii, probabilitatea de realizare a evenimentului A este definită prin limita şirului
frecvenţelor relative de producere a respectivului eveniment când numărul de probe tinde la
infinit. Matematic, scriem astfel:

P(A) = lim fn (A). (2.3.1)

n→∞

Practic, dacă numărul n de experimente este foarte mare, atunci P(A) = fn (A). Faptul că acest
şir are o limită şi este P(A) a fost dovedit de Jacob Bernoulli4 şi publicat în 1713. Vom reveni
asupra acestui rezultat (numit de Bernoulli teorema de aur) într-un curs viitor, când vom discuta
de legile numerelor mari.

4 Jacob Bernoulli (aka James sau Jacques) (1654 − 1705), matematician de origine elveţiană
2.3 Alte modalităţi de a defini probabilitatea 27

Exemplu 2.3.1 Dorim să determinăm probabilitatea de apariţie a stemei la aruncarea unei mo-
nede pe care o bănuim a fi măsluită. În acest caz, nu putem utiliza definiţia clasică a probabilităţii,
deoarece evenimentele elementare nu sunt echiprobabile. Să notăm cu A evenimentul apariţiei
stemei dintr-o singură aruncare a monedei. Pentru a determina experimental P(A), se aruncă
moneda de un număr suficient de mare de ori (fie acest număr n) şi observăm frecvenţa absolută
de apariţie a stemei în cele N aruncări (sa o notăm cu νn ). Dacă n este foarte mare (tinde la
νn (A)
infinit), atunci frecvenţa relativă fn (A) = va fi foarte apropiată de P(A). Matematic,
n
scriem ca în relatia (2.3.1).
În acest sens, Figura 2.1 (a) este o justificare grafica a convergentei sirului frecventelor relative
la probabilitatea teoretica P(A) = 21 în cazul unei monede ideale (şansele de apariţie a fiecărei
feţe sunt egale).

În mod similar, se poate determina experimental probabilitatea de apariţie a feţei cu 6 puncte la

aruncarea unui zar ideal. Figura (b) este o justificare grafică a faptului că această probabilitate se
apropie foarte mult de 16 când n este foarte mare.

Figura 2.1: Simularea aruncării unei monede corecte (a) şi a unui zar corect (b)

Exemplu 2.3.2 Dorim să determinăm probabilitatea ca un bărbat dintr-un anumit oraş, ales
aleatoar, să aibă peste 1.75 cm înălţime. Pentru aceasta, alegem un eşantion aleator (o selecţie
aleatoare) de n bărbaţi din acel oraş şi observăm frecvenţa absolută νn a bărbaţilor din selecţie
care au proprietatea cerută. Pentru un n suficient de mare, probabilitatea cerută va fi aproximată
νn
prin p ≈ .
n
Totuşi, după cum vom vedea mai târziu, există metode mai precise de a determina această
probabilitate. Ele au la bază noţiunea de variabilă aleatoare de tip continuu.

2.3.2 Probabilitate geometrică

În anumite situaţii, se poate rezolva o problema de teoria probabilitatilor folosind geometria, în
special, calcul de lungimi de segmente, arii, volume. Probabilitatea geometrică a fost introdusă
ca extensie a probabilităţii clasice, pentru situaţii în care numărul cazurilor egal posibile nu este
numărabil. În definiţia probabilităţii definite geometric, în locul numărului cazurilor egal posibile
28 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

sau numărul cazurilor favorabile, se vor considera măsuri potrivite pentru mulţimile cazurilor
posibile, respectiv, favorabile.

Exemplu 2.3.3 Să presupunem că dispunem de un procedeu prin care putem alege la întâmplare
un număr dintr-un interval [a, b]. În plus, vom presupune că acest procedeu ne asigură că nu
există porţiuni privilegiate ale intervalului [a, b], i.e., oricare ar fi două subintervale de aceeaşi
lungime, este la fel de probabil ca numărul să aparţină oricăruia dintre aceste intervale. Mai mult,
dacă am folosi de foarte multe ori acest procedeu, alegând astfel foarte multe numere din acest
interval, vom observa că acestea vor fi repartizate aproximativ uniform în [a, b], i.e., nu vor există
valori în vecinătatea cărora numărul ales să cadă mai des, ori de câte ori efectuăm experimentul.
Din aceste observaţii, putem deduce că probabilitatea ca un număr ales aleator să aparţină unui
subinterval al lui [a, b] este dependentă de lungimea acelui subinterval şi nu de poziţia sa în
interiorul lui [a, b]. Mai mult, aceasta este chiar proporţională cu lungimea subintervalului. Vom
numi experimentul de alegere descris mai sus ca fiind alegerea aleatoare uniformă a unui număr
din intervalul [a, b]. Se poate observa analogia cu experienţa alegerii dintr-un număr finit de
cazuri egal posibile.
Aşadar, folosind procedeul de alegere aleatoare uniformă a unui număr din intervalul [a, b], ne
punem întrebarea:
Dacă alegem aleator, în mod uniform, un număr real între a şi b, care sunt şansele (echivalent
cu a afla probabilitatea) ca acest număr să aparţină intervalului [c, d] ⊂ [a, b]? Să notăm cu
A evenimentul a cărui probabilitate dorim să o evaluăm. Considerăm că intervalul [a, b] este
mulţimea tuturor cazurilor egal posibile şi [c, d] ⊂ [a, b] este mulţimea cazurilor favorabile
realizării evenimentului. Atunci, probabilitatea evenimentului A se defineşte prin

lungimea ([c, d]) d − c

P(A) = = .
lungimea ([a, b]) b − a

În particular, dacă c = d, atunci probabilitatea ca numărul ales aleator dintr-un interval să coin-
cidă cu un număr fixat (dinainte stabilit) este zero, deoarece lungimea segmentului [c, c] este 0.
Astfel, întrezărim posibilitatea teoretică ca un eveniment să aibă probabilitatea nulă, fară ca el să
fie evenimentul imposibil ∅. Evenimentul A 6= ∅ se va numi eveniment P− nul.
Pe de altă parte, P(A) = 1 (probabilitatea ca numărul ales aleator să nu fie cel dinainte stabilit). Se
observă că A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Totuşi, deşi teoretic
este imposibil, din punct de vedere practic este posibil ca, din mai multe probe independente ale
experimentului, să dăm peste numărul dinainte stabilit.

În mod cu totul analog cazului 1-dimensional, dacă se alege la întâmplare şi în mod uniform un
punct dintr-un domeniu planar D, astfel ca să nu existe puncte sau porţiuni privilegiate în acest
D0
domeniu, atunci probabilitatea ca punctul să cadă în subdomeniul D 0 ⊂ D este aria
aria D .
În trei dimensiuni, o probabilitate similară este raportul dintre volumul mulţimii cazurilor favora-
bile şi volumul mulţimii cazurilor egal posibile.

În general, dacă Ω este mulţimea cazurilor egal posibile şi F este mulţimea cazurilor favorabile,
atunci probabilitatea ca, alegând la întâmplare un element din Ω, acesta să se afle în F este
definită prin
2.3 Alte modalităţi de a defini probabilitatea 29

măs(F)
P= .
măs(Ω)

După cum am văzut mai sus, în cazurile practice, prin măsură putem înţelege lungime, arie sau
volum.

Exemplu 2.3.4 (problema întâlnirii) Doi prieteni îşi propun să se întâlneasca între orele 1
p.m. şi 2 p.m.. Ambii ajung aleator în intervalul stabilit, iar cel care ajunge primul la punctul de
întâlnire aşteaptă un sfert de oră, după care, dacă celălalt nu a ajuns în acest timp, pleacă. Care
este probabilitatea ca cei doi prieteni să se întâlnească?
R: Notez cu t şi s timpii de sosire ai celor doi prieteni.
Condiţia de întâlnire este: |t − s| ≤ 14 . Mulţimea cazurilor
egal posibile Ω este formată din toate punctele interioare
pătratului albastru ([1, 2] × [1, 2]). Matematic, scriem Ω
astfel:
Ω = {(t, s) ∈ R × R; 1 ≤ t, s ≤ 2}.
Mulţimea cazurilor favorabile formată din mulţimea tuturor
punctelor din zona haşurată. Matematic o scriem astfel:
1
F = {(t, s) ∈ Ω; |t − s| ≤ }.
4

Probabilitatea ca prietenii să se întâlnească este

2
aria(F) 1 − 43 7
P= = = = 0.4375.
aria(Ω) 1 16

2.3.3 Metoda Monte Carlo

Metoda Monte Carlo este o metodă de simulare statistică, ce produce soluţii aproximative pentru
o mare varietate de probleme matematice prin efectuarea de experimente statistice pe un compu-
ter. Se poate aplica atât problemelor deterministe, cât şi celor probabilistice şi este folositoare în
obţinerea de soluţii numerice pentru probleme care sunt prea dificile în a fi rezolvate analitic.
Este o metodă folosită de secole, dar a căpătat statutul de metodă numerică din anii 1940. În
1946, S. Ulam5 a devenit primul matematician care a dat un nume acestui procedeu, iar numele
vine de la cazinoul Monte Carlo din principatul Monaco, unde se practică foarte mult jocurile de
noroc, în special datorită jocului de ruletă (ruleta = un generator simplu de numere aleatoare).
De asemenea, Nicholas Metropolis6 a adus contribuţii importante metodei.
Are la bază generarea de numere aleatoare convenabile şi observarea faptului că o parte dintre
acestea verifică o proprietate sau anumite proprietăţi. În general, orice metodă care are la bază
generarea de numere aleatoare în vederea determinării rezultatului unui calcul este numită o
metodă Monte Carlo. Orice eveniment fizic care poate fi văzut ca un proces stochastic este un
5 Stanislaw Marcin Ulam (1909 − 1984), matematician de origine poloneză, născut în Lvov, Ucraina
6 Nicholas Constantine Metropolis (1915 − 1999), fizician grec
30 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

candidat în a fi modelat prin metoda MC.

Exemplu 2.3.5 (aproximarea lui π folosind jocul de darts)

În ce constă jocul? Să presupunem că suntem la nivelul începător. Avem de aruncat o săgeată
ascuţită, ce poate penetra cu uşurinţă lemnul, spre o tablă pătrată din lemn, de latură l, în interiorul
căreia se află desenat un cerc circumscris pătratului. Dacă săgeata se înfinge în interiorul discului
atunci aţi câştigat un punct, dacă nu, atunci nu câştigaţi nimic. Repetăm jocul de un număr n de
ori şi contabilizăm la sfârşit numărul de puncte acumulate, să zicem că acest număr este νn .
Să presupunem că sunteţi un jucător slab de darts (asta implică faptul că orice punct de pe tablă
are aceeaşi şansă de a fi ţintit), dar nu aşa de slab încât să nu nimeriţi tabla. Cu alte cuvinte,
presupunem că de fiecare dată când aruncaţi săgeata, ea se înfinge în tablă.
Să notăm cu A evenimentul ca săgeata să se înfingă chiar în interiorul discului. În cazul în care
numărul de aruncări n e foarte mare, atunci probabilitatea evenimentului A, P(A), este bine
νn
aproximată de frecvenţa relativă, adică .
n

Pe de altă parte,
aria disc π
P(A) = = .
aria perete 4
Aşadar, putem aproxima π prin
νn
π '4 (pentru n foarte mare).
n

Figura 2.2: Simulări la darts.

2.4 Scheme probabilistice 31

2.4 Scheme probabilistice

În Teoria Probabilitatilor, schemele probabilistice sunt nişte modele mentale idealizate de calcul
al unor probabilităţi într-un câmp finit de probabilitate. Aceste modele implică o urnă (eventual
mai multe urne) ce conţine bile albe şi negre (în modele mai complexe, bile de mai multe culori).
Din urnă se extrag bile, cu sau fără revenire, şi se doreşte determinarea probabilităţii de a fi scos
un anumit număr de bile colorate. Cu alte cuvinte, se doreşte a determina distribuţia bilelor
extrase (câte sunt de fiecare culoare).

În continuare vom discuta schemele clasice de probabilitate asociate extragerii de bile dintr-o
urnă. În practică, există multe experimente aleatoare care pot fi asemănate extragerilor de bile
dintr-o urnă. Spre exemplu, să luăm experimentul aleator ce constă în tragerea cu o armă asupra
unei ţinte cu scopul de a o nimeri. Există două rezultate posibile asociate acestui experiment:
trăgătorul atinge ţinta sau nu o atinge. Să mai presupunem că un anumit trăgător are şanse 60%
să nimerească ţinta. Dorim să determinăm probabilitatea următorului eveniment aleator (notat cu
A): trăgătorul nimereşte ţinta de cel puţin două ori din trei trageri.

Putem asemăna acest experiment aleator cu experimentul aleator ce constă în extragerea unei bile
dintr-o urnă idealizată ce conţine bile albe şi negre. Presupunem că bila albă este corespondentul
reuşitei ţintaşului din primul experiment. Atunci compoziţia urnei este de 60% bile albe şi
40% bile negre. Corespondentul evenimentului cel puţin două reusite din trei încercări va fi
evenimentul extragerea a cel puţin două bile albe din trei extrageri cu revenire a bilei extrase în
urnă. Se cere revenirea fiecarei bile extrase în urnă pentru a nu schimba configuraţia iniţială a
urnei şi, astfel, de a păstra la fiecare extragere aceleaşi şanse de a extrage o bilă albă din urnă.

După cum vom vedea mai jos, schemele cu urne pot fi aplicate cu uşurinţă şi la calculul
probabilităţilor unor evenimente care nu sunt neapărat legate de urne şi bile. Extragerea unei bile
din urna poate fi făcută:
• cu revenire a bilei extrase înapoi în urna şi, astfel, compoziţia iniţială a urnei rămâne
neschimbată după fiecare extragere
• fără revenire a bilei extrase înapoi în urna şi, astfel, compoziţia iniţială a urnei va fi
schimbată la fiecare extragere.
În practică, extragerea cu revenire este folosită atunci când experimentul aleator investigat se
efectuează în aceleaşi condiţii la fiecare probă (e.g., aruncarea unei monede, aruncarea succesivă
a unei perechi de zaruri), iar extragerea fără revenire este utilizată atunci când, după fiecare
extragere, distribuţia iniţială a cazurilor posibile se modifică (e.g., extragerea numerelor la LOTO,
extragerea la întâmplare a unor monede din buzunar, fără să le mai punem la loc).

Posibile întrebări legate de probleme cu urne:

• Dacă ştim compoziţia iniţială a urnei, care este distribuţia de bile extrase (cu revenire sau
fără revenire) dupa un număr n de extrageri?
• Ştiind distribuţia iniţială a urnei, care este probabilitatea extragerii succesive a unei anumite
secvenţe de culori? Sau, care este probabilitatea de a extrage o bila de o anumită culoare
la prima extragere? Dar la extragerea de rang k, pentru prima oară?
32 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

2.4.1 Schema bilei revenite (schema binomială)

O urnă conţine a bile albe şi b bile negre. Din această urnă se extrag cu revenire n ∈ N∗ bile.
Bilele de aceeaşi culoare sunt toate la fel. Atunci, probabilitatea ca din cele n bile extrase, să
avem k bile albe şi n − k bile negre este

Pk/n = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n, (2.4.2)

a
unde p = este probabilitatea ca la o singură extragere să obţinem o bilă albă.
a+b

Se observă că această probabilitate este, de fapt, coeficientul lui xk din dezvoltarea polinomului
(p x + q)n . Schema binomială se mai numeşte schema lui Bernoulli7 şi se poate enunţa în mod
echivalent astfel:

Considerăm A1 , A2 , . . . , An un set de evenimente pentru care realizare niciunuia nu este influ-

enţată de realizarea sau nerealizarea celuilalt şi, în plus, toate cele n evenimente au aceeaşi
probabilitate de realizare (i.e., pi = p, qi = q, i = 1, 2, . . . , n). Atunci, probabilitatea să se
realizeze exact k evenimente din cele n este

Pk/n = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n.

În limbajul cu urnă şi bile, evenimentul Ai din enunţul anterior ar fi evenimentul apariţiei unei
bile albe la extragerea i, pentru orice i = 1, 2, . . . , n.

Practic, această schemă poate fi folosită atunci când un experiment aleator se poate efectua de un
număr infinit de ori, în aceleaşi condiţii, şi urmărim să evaluăm şansele ca un eveniment aleator
(legat de acest experiment aleator) să se realizeze de un număr de ori. Mai precis, presupunem
că A este un eveniment legat de o experienţă aleatoare care se repetă în aceleaşi condiţii de n ori.
Dacă probabilitatea ca A să se realizeze într-o singură probă este P(A) = p, atunci probabilitatea
ca A să se realizeze de exact k ori din cele n probe este Cnk pk qn−k . Astfel, schema bilei revenite de-
termină probabilitatea (şansele) de a obţine k succese din n încercări efectuate în aceleaşi condiţii.

Exemple de evenimente pentru care putem folosi formalismul oferit de schema bilei revenite:
• evenimentul ca un sportiv să înscrie un număr k de coşuri la aruncarea de un număr fix (n)
de ori (în aceleaşi condiţii) cu mingea de baschet;
• evenimentul ca un arcaş să nimerească ţinta de k ori din n încercări;
• evenimentul apariţiei a k steme din n aruncări ale unei monede;
• evenimentul apariţiei a k duble din n aruncări ale unei perechi de zaruri;
• şi altele.

Exerciţiu 2.4.1 O monedă ideală este aruncată de 10 ori. Care este probabilitatea de a obţine:
(a) nicio faţă cu banul; (b) 4 steme; (c) cel mult 4 steme; (d) măcar 4 steme?
7 Jacob Bernoulli (1655 - 1705) a fost un matematician născut în Basel
2.4 Scheme probabilistice 33

R: Asemănăm experimentul aleator de aruncare a unei monede cu extragerea cu revenire a unei

bile dintr-o urnă ce conţine doar bile albe şi negre, în proporţii egale. Deoarece sunt şanse egale
de a scoate o bilă albă sau neagră la o singură extragere, avem că p = 21 .
(a) Şansele de obţine nicio faţă cu banul sunt egale cu şansele evenimentului de a nu obţine
nicio stemă. Acestea sunt egale cu
Å ã0 Å ã10−0
0 1 1 1
P = C10 · · = ≈ 0.0009766, deci, sunt aproximativ 1 la mie şanse.
2 2 1024
(b) Se cere probabilitatea evenimentului de a scoate exact 4 bile albe din 10 extrageri cu
revenire. Folosind schema bilei revenite, putem scrie:
Å ã4 Å ã10−4
4 1 1 10! 1
P = C10 · · ≈ · = 0.2051, deci, sunt 20.51% şanse.
2 2 6! · 4! 1024
(c) Se cere probabilitatea evenimentului de a scoate cel mult 4 bile albe din 10 extrageri cu
revenire. Folosind schema bilei revenite, putem scrie:
4 Å ãk Å ã10−k Ä ä Å 1 ã10
k 1 1 0 1 2 3 4
P = ∑ C10 · · = C10 +C10 +C10 +C10 +C10 ≈ 0.3770.
k=0 2 2 2
(d) Se cere probabilitatea evenimentului de a scoate cel puţin 4 bile albe din 10 extrageri cu
revenire.
Metoda 1: Folosind schema bilei revenite, putem scrie:
10 Å ãk Å ã10−k Ä ä Å 1 ã10
k 1 1 4 5 6 7 8 9 10
P = ∑ C10 · · = C10 +C10 +C10 +C10 +C10 +C10 +C10 ≈ 0.8281.
k=4 2 2 2
Metoda 2: Putem calcula această probabilitate şi altfel, folosind probabilitatea evenimentului
contrar. Vom scrie că probabilitatea evenimentului cerut este egală cu 1 minus probabilitatea de
a obţine cel mult 3 steme:
3 Å ãk Å ã10−k ä Å 1 ã10
k 1 1 Ä
0 1 2 3
P = 1− ∑ C10 · = 1− C10 +C10 +C10 +C10 · ≈ 1−0.1717 = 0.8281.
k=0 2 2 2

Observaţie 2.4.1 Se poate observa faptul că la schema bilei revenite nu este obligatoriu să
precizăm numărul bilelor albe şi negre din urnă. Este suficient să precizăm compoziţia iniţială a
a b
urnei cu ajutorul proporţiilor (probabilităţilor) p = şi q = 1 − p = .
a+b a+b
Aici, p şi q sunt probabilitatea de a extrage o bilă albă, respectiv, neagră la o singură extragere.

Exerciţiu 2.4.2 Se aruncă două zaruri de 5 ori. Care este probabilitatea să apară de două ori o
dublă?
R: Experimentul aleator este aruncarea simultană a două zaruri. Acest experiment se poate
repeta (teoretic) la infinit. Notăm cu A evenimentul apariţiei unei duble. Probabilitatea lui A este
P(A) = p = 16 , deoarece avem 6 cazuri favorabile (cele 6 perechi) din 36 de cazuri egal posibile.
Evenimentul a cărui probabilitate se cere este apariţia a două duble din 5 aruncări, notat A2/5 .
Pentru a calcula probabilitatea acestui eveniment folosim schema binomială cu n = 5, k = 2 şi
p = 61 , q = 1 − p = 56 . Vom avea
Å ã2 Å ã3
2 2 5−2 1 5
P A2/5 = C5 p q = 10 · · ≈ 0.1608.
6 6
34 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Exerciţiu 2.4.3 În faţa unui oponent de acelaşi calibru la tenis de masă, care eveniment este
mai probabil: să câştigi 3 partide din 5, sau să câştigi 4 partide din 7? Justificaţi răspunsul.
R: Experimentul aleator este o partidă de tenis de masă, care se repetă în aceleaşi condiţii de
mai multe ori, în mod independent de partidele jucate anterior. Evenimentul aleator este legat de
numărul de partide câştigate de unul dintre jucători. Deoarece cei doi oponenţi sunt de acelaşi
calibru, probabilitatea ca într-o singură partidă unul să câştige împotriva celuilalt este p = 12 ,
adică sunt şanse 50% − 50% pentru fiecare dintre ei de a câştiga o partidă.
Suntem în cazul schemei binomiale. Putem formaliza astfel: jucătorul J1 este reprezentat de bila
albă şi jucătorul J2 este reprezentat de bila neagră.
5
Probabilitatea ca J1 să câştige 3 din 5 este P3/5 = C53 21 = 0.31250, iar probabilitatea ca J1 să
7
câştige 4 din 7 este P4/7 = C74 12 = 0.27344 < P1 . Desigur, probabilităţile sunt aceleaşi dacă
privim din perspectiva jucătorului J2 .
Aşadar, este mai probabil ca un jucător de tenis să câştige 3 partide din 5 decât 4 din 7.

Observaţie 2.4.2
Ce se întâmplă dacă se vor juca din ce în ce mai
multe partide între ecei doi?
Pentru un n ≥ 1, probabilitatea de a câştiga n + 1
partide din 2n + 1 jucate este

n+1 1
Pn = C2n+1 .
22n+1
Se observă din figura alăturată că această proba-
bilitate se apropie de 0 pentru un n mare.
În cuvinte, cu cât vor fi jucate mai multe partide între cei doi, şansele fiecăruia de a câştiga
jumătate plus una dintre partide se apropie de zero, adică sunt din ce în ce mai multe şanse ca
meciul să se termine la egalitate. Acest fapt este aşteptat, deoarece ei sunt la fel de buni.

Schema multinomială

O urnă conţine bile de m culori, repartizate astfel încât proporţia bilelor de culoarea i este pi , pentru i = 1, 2, . . . , m,.
Bilele de aceeaşi culoare sunt echivalente. Din această urnă se extrag cu revenire n bile. Atunci, probabilitatea ca
m
din cele n bile extrase să avem xi bile de culoarea i (i = 1, 2, . . . , m, xi ∈ N, ∑ xi = n) este
i=1

n!
P= px1 px2 · . . . · pxmm (2.4.3)
x1 !x2 ! · . . . · xm ! 1 2

În cazul în care m = 2, obţinem schema binomială (unde k = x1 , n − k = x2 ).

Exerciţiu 2.4.4 În campionatul scoţian de fotbal, două echipe de fotbal (Celtic şi Rangers) pot juca între ele 8
meciuri într-un sezon. Ştiind că Celtic care 50% şanse de a câştiga un meci direct şi Rangers are doar 30% şanse de
victorie, determinaţi probabilitatea ca Celtic să câştige cel puţin 5 meciuri directe şi să nu piardă niciunul.
R: Folosim schema multinomială cu 3 culori: victorie, egal şi înfrangere.
Pentru echipa Celtic, avem: p1 = 0.5, p2 = 0.2, p3 = 0.3, respectiv. Atunci, probabilitatea cerută este:
8! 8! 8! 8!
P = p5 p3 p0 + p6 p2 p0 + p7 p1 p0 + p8 p0 p0
5!3!0! 1 2 3 6!2!0! 1 2 3 7!1!0! 1 2 3 8!0!0! 1 2 3
1 1 1 1 1 1 1
= 56 · · + 28 · · +8· · + 28 · = 0.1534.
32 125 64 25 128 5 256
2.4 Scheme probabilistice 35

2.4.2 Schema bilei nerevenite (schema hipergeometrică)

O urnă conţine a bile albe şi b bile negre. Din această urnă se extrag fără revenire n bile
(n ≤ a + b). Atunci, probabilitatea ca din cele n bile extrase, să avem k bile albe şi n − k bile
negre este

CakCbn−k
Pk,n = n , pentru orice k ce satisface max(0, n − b) ≤ k ≤ min(a, n). (2.4.4)
Ca+b

Exerciţiu 2.4.5 O urnă conţine 6 bile albe şi 4 bile negre. Scoatem din urnă trei bile
(a) cu revenire;
(b) fără revenire.
Care este probabilitatea ca două bile să fie albe şi una neagră?
R: (a) Dacă extragerea se face cu revenire, atunci folosim schema binomială. Probabilitatea
6
ca la o singură extragere să scoatem o bilă albă este p = 10 = 0.6. Probabilitatea de a ascoate o
bilă neagră este q = 1 − p = 0.4. Atunci, probabilitatea de a scoate două bile albe este
Pa = C32 · p2 · q1 = 3 · 0.62 · 0.41 = 0.432.
(b) Dacă extragerile se fac fără revenire, atunci folosim schema hipergeometrică. Vom găsi că
C2 ·C1
probabilitatea cerută este Pb = 6 3 4 = 0.5.
C10
Exerciţiu 2.4.6 Într-un lot de 100 de articole se află 5 ce au defecţiuni. Alegem 3 articole. Care
este probabilitateaca:
(a) exact un articol să aibă defecţiuni?
(b) să nu fi ales niciun articol cu defecţiuni?
R: Probabilităţile cerute sunt:
2 ·C1
C95 5 4465 · 5
(a) Pa = 3
= = 0.1381.
C100 161700
3 ·C0
C95 5 138415 · 1
(b) Pb = 3
= = 0.8560.
C100 161700
Exerciţiu 2.4.7 La jocul LOTTO 6 /49 , se extrag aleator 6 bile dintr-o urnă cu bile numerotate de
la 1 la 49. Dacă Tudor a jucat numerele 4 , 7 , 8 , 12 , 19 , 22 , care sunt şansele ca Tudor
să fi nimerit
(a) niciun număr;
(b) exact 3 numere;
(c) cel puţin 3 numere;
(d) toate cele 6 numere?
R: Extragerile se fac fără revenire, deci vom aplica schema hipergeometrică. Pentru a utiliza
formalismul din această schemă, considerăm că bilele cu numerele jucate de Tudor sunt bilele
albe din urnă, celelalte 43 de bile fiind bile negre.
C60 ·C43
6
(b) P = 6
≈ 0.4360, deci, sunt cca. 43.60% şanse.
C49
C63 ·C43
3
(b) P = 6
≈ 0.0177, deci, sunt cca. 1.77% şanse.
C49
36 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
3
C63 ·C43 2
C64 ·C43 1
C65 ·C43 0
C66 ·C43
(c) P = 6
+ 6
+ 6
+ 6
≈ 0.0187.
C49 C49 C49 C49
0
C66 ·C43
(d) P = 6
≈ 0.0000000715.
C49

Generalizare: Schema hipergeometrică cu mai multe culori

În urnă sunt N bile de m culori (m ≥ 2): a1 de culoarea c1 , a2 de culoarea c2 , . . . , am de culoarea cm (a1 + a2 + . . . +

am = N). Extragem n bile (deodata, sau una câte una, fără revenire). Notăm cu Bαa11,a,α22,...,a
,...,αm
m evenimentul obţinerii
a α1 bile de culoarea c1 , α2 bile de culoarea c2 , . . . , αm bile de culoarea cm (α1 + α2 + . . . + αm = n). Atunci,
probabilitatea acestui eveniment este:

Caα11 Caα22 . . .Caαmm

P Baα11,a,α22,...,a
,...,αm
m
= α1 +α2 +...+αm .
Ca1 +a2 +...+am

Exerciţiu 2.4.8 Un cofraj conţine conţine 10 ouă vopsite în trei culori: 5 roşii, 3 galbene şi 2 albastre. Luăm la
întâmplare 3 ouă din cofraj, fără revenire. Care este probabilitatea să avem unul de fiecare culoare?

R: Folosim schema hipergeometrică cu mai multe culori. Avem: N = 10, n = 3, a1 = 5, a2 = 3, a3 = 2. Probabi-

litatea evenimentului cerut este:
Ä ä C1C1C1
P B1,1,1
5,3,2 =
5 3 2
3
= 0.25.
C10

2.4.3 Schema lui Poisson

Avem n urne, U1 , U2 , . . . , Un , care conţin bile albe şi bile negre. Ştim că probabilitatea de a
extrage o bila albă din urna Ui este pi şi că probabilitatea de a extrage o bilă neagră din urna
Ui este qi = 1 − pi , pentru orice i = 1, 2, . . . , n. Din fiecare urnă se extrage câte o bilă. Atunci,
probabilitatea de a obţine exact k bile albe şi n − k bile negre este coeficientul termenului xk din
dezvoltarea polinomului P(x) = (p1 x + q1 ) · (p2 x + q2 ) · . . . · (pn x + qn ).

Observaţie 2.4.3 Dacă urnele ar fi identice (toate având aceeaşi compoziţie), regăsim schema
binomială. Schema poate fi privită într-un cadru mai general, fără a considera bile şi urne:

Presupunem că A1 , A2 , . . . , An , sunt n evenimente independente (rezultatele oricărui eveniment

sau grup de evenimente nu sunt influenţate de celelalte evenimente) ale unui experiment aleator.
Notăm cu pi = P(Ai ), probabilitatea realizării evenimentului Ai , pentru orice i. Atunci, probabili-
tatea realizării a exact k evenimente din cele n este coeficientul lui xk din dezvoltarea polinomului
P(x) = (p1 x + q1 ) · (p2 x + q2 ) · . . . · (pn x + qn ).

Exerciţiu 2.4.9 Într-un atelier sunt trei strunguri. Primul strung dă rebuturi în proporţie de 0.9%,
al doilea în proportie de 1.1%, iar rebuturile date de al treilea strung sunt în proporţie de 0.8%.
Se ia la întâmplare câte o piesa produsă de la fiecare strung. Se cere probabilitatea ca două dintre
piese să fie bune şi doar una rebut.
2.4 Scheme probabilistice 37

R: Avem: n = 3, q1 = 0.009, q2 = 0.011, q3 = 0.008, p1 = 0.991, p2 = 0.989, p3 = 0.992.

Probabilitatea cerută este coeficientul lui x2 al polinomului

P(x) = (0.991x + 0.009)(0.989x + 0.011)(0.992x + 0.008),

adică: 0.991 · 0.989 · 0.008 + 0.991 · 0.992 · 0.011 + 0.992 · 0.989 · 0.009 = 0.0275.

Exerciţiu 2.4.10 Trei vânători ochesc cu puşca o aceeaşi vulpe. Ştim că probabilităţile ca fiecare
dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2. Cei trei trag fiecare câte un foc asupra
vulpii. Care sunt şansele ca vulpea să scape neatinsă?
R: Notăm cu A evenimentul ca vulpea să scape neatinsă. Folosim schema lui Poisson cu
p1 = 31 , p2 = 14 , p3 = 21 , de unde q1 = 23 , q2 = 34 , q3 = 12 . Vulpea scapă neatinsă dacă vor fi 0
reuşite din cele 3 trageri. Astfel,
probabilitatea
1 evenimentului A va fi coeficientul lui x0 (termenul
1 2 1 3 1

liber) din dezvoltarea 3 x + 3 · 4 x + 4 · 2 x + 2 , care este:

2 3 1 1
P(A) = q1 · q2 · q3 = · · = = 0.25.
3 4 2 4
Aşadar, şansele ca vulpea să scape neatinsă sunt de 0.25 · 100% = 25%.

Exerciţiu 2.4.11 Trei semnale sunt recepţionate corect cu probabilitaţile 0.8, 0.75, 0.9. Să se
determine cu ce probabilitate exact două dintre semnale sunt recepţionate corect.
R: Folosim schema lui Poisson. Avem că:

p1 = 0.8, p2 = 0.75, p3 = 0.9, q1 = 0.2, q2 = 0.25, q3 = 0.1.

Probabilitatea căutată este coeficientul lui x2 din polinomul (0.8x + 0.2)(0.75x + 0.25)(0.9x +
0.1), adică

P(A) = 0.8 · 0.75 · 0.1 + 0.8 · 0.25 · 0.9 + 0.2 · 0.75 · 0.9 = 0.375.
38 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

2.5 Exerciţii rezolvate

Exerciţiu 2.5.1 O urnă conţine 4 bile albe şi 6 bile negre, iar o altă urnă conţine 3 bile albe şi 2
bile negre. Din fiecare urnă se extrage câte o bilă. Considerăm următoarele două evenimente:
A = bila extrasă din prima urnă este albă;
B = bila extrasă din a doua urnă este albă.
Să se spună în cuvinte şi să se calculeze următoarele probabilităţi:
P(A), P(A ∩ B), P(A ∪ B), P(A \ B), P(A ∩ B).
R: Probabilităţile asociate evenimentelor A şi B sunt
4 3
P(A) = = 0.4 şi P(B) = = 0.6.
10 5
De asemenea, vom avea că probabilitatea evenimentului contrar lui A, adică probabilitatea de a
extrage o bilă neagră din prima urnă, este P(A) = 1 − P(A) = 0.6.
Evenimentul A ∩ B este evenimentul ca prima bilă extrasă să fie albă şi a doua bilă extrasă să
fie albă. Astfel, P(A ∩ B) este probabilitatea evenimentului ca ambele bile extrase să fie albe.
Mulţimea cazurilor echiprobabile asociate acestui eveniment are cardinalul 10 · 5 = 50. Cu alte
cuvinte, există 50 de cazuri egal posibile. Dintre acestea, favorabile evenimentului A ∩ B sunt
doar 4 · 3 = 12 cazuri. Aşadar, prima probabilitate este
4·3 6
P(A ∩ B) = = = 0.24.
10 · 5 25
Evenimentul A ∪ B este evenimentul de a scoate măcar o bilă albă din cele două extrageri. Pentru
a calcula P(A ∪ B), probabilitatea de a extrage măcar o bilă albă din cele două extrageri, folosim
formula P(A ∪ B) = P(A) + P(B) − P(A ∩ B), deci
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0.4 + 0.6 − 0.24 = 0.76.
De asemenea, probabilitatea de a extrage o bilă albă din prima urnă şi una neagră din a doua
urnă este P(A \ B) = P(A ∩ B), deoarece A \ B = A ∩ B. Se calculează astfel:
P(A \ B) = P(A) − P(A ∩ B) = 0.4 − 0.24 = 0.16.

Exerciţiu 2.5.2 Care e probabilitatea de a ghici toate cele 6 numere, jucând o variantă simplă la
LOTTO 6 /49 ?
6 . Există un singur caz favorabil. Astfel, probabilitatea
R: Numărul cazurilor egal posibile: C49
căutată este
1
P = 6 ≈ 0.0000000715.
C49

Exerciţiu 2.5.3 Dintr-un pachet de 36 cărţi se extrag trei la întâmplare. Care este probabilitatea
ca cel puţin o carte să fie as?
R: Mulţimea tuturor cazurilor favorabile este mulţimea tuturor combinaţiilor de 3 cărţi ce pot fi
extrase din totalul de 36. Astfel cardinalul ei este |Ω| = C36 3 . Dacă A este evenimentul a cărui

probabilitate se cere, atunci va fi mai uşor de calculat cardinalul evenimentului complementar, A.

Acesta este |A| = C32 3 , deoarece sunt 32 de cărţi care nu sunt as şi extragem 3 dintre ele. Astfel,

probabilitatea lui A va fi:

3
C32
P(A) = 1 − P(A) = 1 − 3
≈ 0.3053.
C36
2.5 Exerciţii rezolvate 39

Exerciţiu 2.5.4 Dintre cei 426 de studenţi la Matematică, 214 ascultă muzică rock, 172 ascultă
atât muzică rock cât şi muzică pop, iar la 16 studenţi nu le place niciunul dintre aceste două
genuri muzicale. Alegând întâmplare un student de la Matematică, care este probabilitatea să îi
placă doar muzica pop?
R: Fie R = evenimentul ca un student ales la întâmplare să fie rocker şi P = evenimentul ca
un student ales la întâmplare să fie... popper.
Atunci, P(R) = 214426 , P(P R) = 426 , P(P R) = 426 . Se cere P(P R).
T 172 T 16 T

Dar:
16
= P(P R) = P(P R) = 1 − P(P R)
\ [ [
426
= 1 − [P(P) + P(R) − P(P R)],
\

368
de unde P(P) = 426 .
Atunci, P(P R) = P(P) − P(P R) = 196
≈ 0.46.
T T
426
Altă variantă, cu mulţimi (vezi poza).
Exerciţiu 2.5.5 Cinci bărbaţi şi trei femei sunt aşezaţi aleator pe scaune la o masă rotundă cu 8
locuri. Care este probabilitatea ca nicio femeie să nu şadă langă o altă femeie?

R: Aşezăm mai întâi cei 5 bărbaţi în 4! moduri. Apoi femeile,

astfel: prima femeie poate ocupa 5 poziţii, a două 4 poziţii şi a treia
3 poziţii. În total, 4! × 5 × 4 × 3 poziţii favorabile. Probabilitatea
va fi:
4! × 5 × 4 × 3 2
P= = ≈ 0.2857.
7! 7

Exerciţiu 2.5.6 Un număr de 8 persoane (A, B, . . . , H) sunt distribuite aleator la o masă rotundă
cu 8 locuri.
(i) Care este probabilitatea ca A şi B sa fie aşezate alăturat?
(ii) Care este probabilitatea ca A şi B sa nu fie aşezate alăturat?

2!6! 2 2 5
R: (i) = , (ii) 1 − =
7! 7 7 7
Exerciţiu 2.5.7 Un grup de 10 persoane, format din 5 perechi soţ-soţie, sunt aşezate aleator în
linie de un fotograf. Care este probabilitatea ca fiecare femeie să stea lângă soţul ei?

5! · (2!)5
R: ≈ 0.0011
10!
Exerciţiu 2.5.8 (problema zilei de naştere) Dacă într-o clasă sunt 23 de elevi, care este probabili-
tatea ca cel puţin doi dintre ei serbează o aceeaşi zi de naştere? (presupunem că anul are n = 365
de zile şi ignorăm anii bisecţi).
40 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

R: Deoarece evenimentul A se referă la cel puţin doi

elevi, este mai comod să considerăm evenimentul con-
trar, A, care este evenimentul ca oricare doi elevi să
nu serbeze ziua de naştere în aceeaşi zi. Într-un an
sunt 365 de zile. Numărul de moduri în care putem
atribui fiecărui elev o zi de naştere este 36523 (fiecărui
elev îi putem atribui orice zi de naştere dintre cele 365.
Deoarece nu există doi elevi cu o aceeaşi zi de naştere,
înseamnă că avem de ales 23 de zile de naştere diferite
din cele 365 şi ordinea lor contează. Aşadar, cardinalul
lui A este |A| = A23 365 . Figura 2.3: Probabilitatea în funcţie de numă-
rul de elevi din clasă
Găsim că probabilitatea evenimentului contrar este

A23
365
P(A) = ≈ 0.4927,
36523

de unde probabilitatea căutată este P(A) ≈ 0.5073.

Exerciţiu 2.5.9 (Fra Luca Pacioli8 , 1494) Doi sportivi joacă un meci compus din mai multe
jocuri. Meciul este câştigat de cel care ajunge primul la 6 jocuri câştigate. Din anumite motive,
meciul se întrerupe la scorul de 5 : 3. Cum trebuie împărţită miza de 1000 RON pusă în joc?
(Presupunem că sportivii sunt la fel de buni la acest joc).
R:
• Miza ar trebui să fie împărţită proporţional cu şansele fiecărui sportiv de a ajunge primul
la 6 jocuri câştigate.
• Meciul ar mai fi putut continua cu maximum 3 jocuri.
• Există 8 rezultate teoretice (unele superflue) pentru cele 3 jocuri rămase.
• Convenţie: 1 / 0 − succes / insucces pentru primul jucător.
• Spaţiul de selecţie asociat este:
Ω = {111, 110, 101, 011, 100, 010, 001, 000}
7
• Probabilitatea ca primul sportiv să câştige este .
8
• Miza ar trebui împărţită astfel în raport de 7 : 1, i.e. 875 RON : 125 RON.
Exerciţiu 2.5.10 Alegem aleator trei vârfuri ale unui cub, astfel încât toate vârfurile au aceeaşi
şansă de a fi alese. Care este probabilitatea ca ele să fie vârfurile unui triunghi isoscel (inclusiv
echilateral)?
R: Experimentul aleator este alegerea la întâmplare a trei puncte din 9 disponibile, astfel încât
niciun punct să nu fie favorizat. Cazuri egal posibile: |Ω| = C83 = 56. Cazuri favorabile: |A| = 32.
Probabilitatea este
32 4
P(A) = = .
56 7

Exerciţiu 2.5.11 Alegem la întâmplare un număr natural dintre 1 şi 1000, inclusiv, astfel încât
toate numerele au şanse egale de a fi alese. Care este probabilitatea ca acest număr să nu fie
divizibil nici cu 12, nici cu 15?
8 Fra Luca Bartolomeo de Pacioli (1446 − 1517) a fost un matematician şi călugăr franciscan italian, colaborator

al lui Leonardo da Vinci

2.5 Exerciţii rezolvate 41

R: Notez cu D evenimentul ca un număr ales aleator din mulţime să fie divizibil cu 12 şi cu C
evenimentul ca un număr ales aleator din mulţime să fie divizibil cu 15. Dacă un număr ales
aleator nu este divizibil nici cu 12 şi nici cu 15, atunci el se va afla în D ∩C. Dar, folosind regula
lui de Morgan,
P D ∩C = P(D ∪C) = 1 − P(D ∪C).
Utilizând principiul includerii-excluderii, avem că
P(D ∪C) = P(D) + P(C) − P(D ∩C),
de unde
[ 1000 1000 1000
12 ] + [ 15 ] − [ 60 ]
P = 1− = 0.867.
1000

Exerciţiu 2.5.12 În sertarul lui Gigel se află 6 perechi diferite de şosete. Gigel ia la întâmplare,
pe întuneric, 5 şosete. Care este probabilitatea de a nimeri exact o pereche?
R: Cazuri posibile: C12 5 = 792. Cazuri favorabile: C1 ·C3 · 23 = 480. Pentru uşurinţa justificării,
6 5
presupunem că perechile sunt colorate diferit. Sunt C61 moduri de a alege o pereche, sunt C53
moduri de a alege celelalte 3 culori din cele 5 rămase disponibile şi sunt câte 2 moduri de a alege
o şosetă de fiecare culoare aleasă. Găsim că probabilitatea este
480
P= ≈ 0.6061.
792

Exerciţiu 2.5.13 La jocul de poker, un jucător primeşte la întâmplare 5 cărţi dintr-un pachet de
52 de cărţi. Care este probabilitatea de a primi exact o pereche?
R: Putem alege 5 cărţi aleator în C52 5 moduri. Într-un pachet de 52 de cărţi, sunt 13 valori

(semne) diferite, de câte 4 culori fiecare. Alegem un semn în C13 1 = 13 moduri. După ce am ales

semnul, putem alege două culori cu acest semn în C42 = 6 moduri. Restul de 3 cărţi pot fi alese în
3 = 220 moduri, dintre cele 12 semne rămase. Fiecare carte dintre aceste 3 poate avea orice
C12
culoare. Avem 43 = 16 posibilităţi. Aşadar, probabilitatea dorită este
1 ·C2 ·C3 · 43
C13 4 12 1098240
5
= ≈ 0.4226.
C52 2598960

Exerciţiu 2.5.14 Determinaţi care eveniment este mai probabil: obţinerea a cel puţin unei feţe
de 6 puncte la aruncarea de 4 ori a unui zar ideal sau obţinerea a cel puţin unei duble (6, 6) în
urma aruncării de 24 de ori a două zaruri ideale (problema cavalerului de Mére9 ).
R: Notăm cu E1 = {1, 2, 3, 4, 5, 6}. Pentru experimentul aruncării unui singur zar de 4 ori,
spaţiul selecţiilor este Ω1 = E1 × E1 × E1 × E1 . Cardinalul acestei mulţimi este |Ω1 | = 64 .
Notăm cu E2 = {(i, j); i, j = 1, 2, 3, 4, 5, 6}. Pentru experimentul aruncării a două zaruri de 24
de ori, spaţiul selecţiilor este Ω2 = E2 × E2 × · · · × E2 , de 24 de ori. Cardinalul acestei mulţimi
este |Ω2 | = 3624 .
În ambele cazuri, spaţiul selectiilor este finit şi evenimenele elementare sunt echiprobabile.
Pentru a determina cardinalul evenimentului A1 = obţinerea a cel puţin unei feţe de 6 puncte la
aruncarea de 4 ori a unui zar ideal, este mai uşor de a examina complementara acestui eveniment.
Aceasta este A1 = {1, 2, 3, 4, 5}4 , cu |A1 | = 54 . Găsim că probabilitatea lui A1 este
Å ã4
5
P(A1 ) = 1 − P(A1 ) = 1 − ≈ 0.5177.
6
9 Antoine Gombaud, aka Chevalier de Méré (1607 − 1684), scriitor francez
42 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Pentru a determina cardinalul evenimentului A2 = obţinerea a cel puţin unei duble (6, 6) în
urma aruncării de 24 de ori a două zaruri ideale, este mai uşor de a examina complementara
acestui eveniment. Aceasta este A2 = (E2 \ (6, 6)) × (E2 \ (6, 6)) × · · · × (E2 \ (6, 6)) (de 24 de
ori), cu |A2 | = 3524 . Găsim că probabilitatea lui A2 este
Å ã24
35
P(A2 ) = 1 − P(A2 ) = 1 − ≈ 0.4914.
36

Exerciţiu 2.5.15 Aruncăm un zar ideal de 12 ori.

(i) Care este probabilitatea de a obţine fiecare număr de exact 2 ori?
(ii) Care este probabilitatea ca faţa 2 să apară de 3 ori şi faţa 3 de 2 ori?
R:
12!
2 ·C2 ·C2 ·C2 ·C2 ·C2
C12
(i) 10 8 6 4 2 2! 2! 2! = 12! ≈ 0.0034383,
= 2! 2! 2!12
6 12 6 26 612
3 ·C2 · 47
C12 9
(ii) ≈ 0.059612.
612

2.6 Exerciţii propuse

Exerciţiu 2.6.1 Ana s, i Bianca au aplicat fiecare pentru mai multe locuri de muncă la o universitate
locală. Fie A evenimentul că Ana este angajată s, i fie B evenimentul ca Bianca să fie angajată.
Exprimat, i în termeni de A s, i B evenimentele:
(a) Ana este angajată, dar nu Bianca.
(b) Cel put, in una dintre ele este angajată.
(c) Exact una dintre ele este angajată.
Exerciţiu 2.6.2 Să presupunem că 55% dintre persoanele de la o adunare consumă regulat cafea,
45% consumă în mod regulat ceai s, i 70% consumă în mod regulat cel put, in unul dintre aceste
două produse.
(a) Care este probabilitatea ca un adult selectat aleatoriu să consume în mod regulat atât cafea,
cât s, i ceai?
(b) Care este probabilitatea ca un adult selectat aleatoriu să nu consume în mod regulat niciunul
dintre aceste două produse?
Exerciţiu 2.6.3 Într-un anumit sat, 60% dintre toate gospodăriile beneficiază de servicii de
internet de la o companie locală de cablu, 80% primesc servicii de televiziune de la compania
respectivă, iar 50% primesc ambele servicii de la companie. Dacă o gospodărie este selectată
aleatoriu, care este probabilitatea ca
(a) aceasta să primească cel put, in unul dintre aceste două servicii de la compania locală?
(b) aceasta să primească exact unul dintre servicii de la companie?
Exerciţiu 2.6.4 Care sunt toate cazurile posibile ce pot apărea la aruncarea a 4 monede?
Exerciţiu 2.6.5 Se aruncă simultan o monedă şi un zar. Care este probabilitatea ca moneda să
arate stema şi zarul faţa cu 6 puncte?
Exerciţiu 2.6.6 Se aruncă două zaruri ideale.
• Denumiţi două evenimente incompatibile legate de acest experiment aleator.
• Aflaţi probabilitatea de a obţine suma 6.
• Aflaţi probabilitatea de a obţine cel puţin suma 4.
2.6 Exerciţii propuse 43

Exerciţiu 2.6.7 Grupele sanguine pentru un grup de 200 de persoane sunt distribuite astfel: 50
au grupa A, 65 au grupa B, 70 au grupa O şi 15 au grupa AB. Dacă o persoană din acest grup este
selectată la întâmplare, care este probabilitatea ca această persoană să aibă grupa de sânge O?
Exerciţiu 2.6.8 Dacă A şi B sunt două evenimente incompatibile astfel încât P(A) = 0.6 şi
P(B) = 0.2, aflaţi probabilitatea ca măcar unul dintre ele să se realizeze.
Exerciţiu 2.6.9 Probabilitatea ca un student să ia notă de trecere la ambele examene la Probabili-
tăţi şi Statistică este 0.75 iar probabilitatea să nu ia niciunul este 0.1. Dacă probabilitatea de a lua
examenul de Probabilităţi este de 0.8, care este probabilitatea de a lua examenul de Statistică?
Exerciţiu 2.6.10 A şi B sunt două evenimente astfel încât P(A) = 0.6, P(B) = 0.4 şi P(A ∩ B) =
0.1. Aflaţi probabilităţile P(A sau B) şi P(nici A şi nici B).
Exerciţiu 2.6.11 Considerăm tipul de vin (roşu sau alb) cumpărat de fiecare dintre cei cinci
client, i diferit, i ai unui anumit magazin.
(a) Dacă probabilitatea ca cel mult unul dintre aces, ti client, i să cumpere vin ros, u este 0.428, care
este probabilitatea ca cel put, in doi să cumpere vin ros, u?
(b) Dacă P(tot, i cinci cumpără vin ros, u) = 0.116 s, i P(tot, i cinci cumpără vin alb) = 0.005, care
este probabilitatea ca cel put, in unul din fiecare tip de vin să fie cumpărat?
Exerciţiu 2.6.12 Să presupunem că pentru două evenimente A şi B avem că P(A) = 0.80,
P(A ∪ B) = 0.9 şi P(A \ B) = 0.50. Calculat, i: (a) P(A ∩ B); (b) P(A ∪ B) (c) P(B).
Exerciţiu 2.6.13 (i) Câte anagrame diferite pot fi folosind literele cuvântului ABRACADABRA?
. R: 83160
(ii) Toate literele din acest cuvânt sunt puse într-o căciulă, după care extragem pe rând câte o
literă şi le aşezăm în ordinea ieşirii. Care este probabilitatea să obţinem cuvântul ABRACADABRA?
Exerciţiu 2.6.14 Aruncăm o monedă de două ori. Care este probabilitatea de a obţine două
steme consecutive? Dar nicio stemă?
Exerciţiu 2.6.15 Aruncăm o monedă de cinci ori. Care este probabilitatea de a obţine cel puţin o
stemă?
Exerciţiu 2.6.16 Se aruncă două zaruri. Care este probabilitatea ca numărul arătat de primul zar
să fie mai mare decât numărul arătat de al doilea zar?
Exerciţiu 2.6.17 Aruncăm o monedă de trei ori. Care este probabilitatea ca la a două aruncare
să nu fi apărut banul?
Exerciţiu 2.6.18 Scrieţi spaţiul de selecţie pentru experimentul aleator “o monedă este aruncată
de 4 ori”.
Exerciţiu 2.6.19 Aruncăm un zar ideal. Fie A evenimentul ca un număr par să apară şi B
evenimentul ca un număr prim să apară.
• Sunt evenimentele A şi B incompatibile?
• Calculaţi probabiliăţile: P(A ∪ B), P(A ∩ B), P(A \ B), P(A ∩ B).
Exerciţiu 2.6.20 Aruncăm un zar ideal. Care este probabilitatea de a obţine un număr prim sau
par?
Exerciţiu 2.6.21 Spunem că un număr de telefon format cu 6 cifre este valid, dacă prima cifră
este 2, iar a doua cifră nu poate fi 0.
(a) Câte astfel de numere de telefon valide se pot forma?
(b) Formăm la întâmplare un număr de telefon cu 6 cifre. Care este probabilitatea ca el să fie
valid?
Exerciţiu 2.6.22 Un zar are feţele colorate diferit, după cum urmează: feţele 1 şi 2 în roşu, feţele
3 şi 4 în alb şi feţele 5 şi 6 în albastru. Se consideră evenimentele:
• A = apariţia unei feţe de culoare roşie;
• B = apariţia unei feţe de culoare albă;
44 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

• C = apariţia unei feţe de culoare albastră;

• D = apariţia unei feţe cu număr par;
• E = apariţia unei feţe cu număr impar.
Determinaţi următoarele probabilităţi:
P(A), P(A ∪C), P(A ∩C), P(B ∩ E), P(A ∪ B ∩ D), P(B ∩ E), P(B ∩C).
Exerciţiu 2.6.23 Într-o urnă sunt: 4 bile roşii, 6 bile albastre şi 5 bile galbene. Dacă scoatem la
întâmplare o bilă din urnă, care este probabilitatea de a extrage:
(a) o bilă roşie;
(b) o bilă care să nu fie albastră;
(c) o bilă roşie sau galbenă.
Exerciţiu 2.6.24 Calculaţi probabilitatea ca, alegând la întâmplare unul dintre numerele naturale
de 2 cifre, acesta să fie:
(a) format doar din cifre impare.
(b) pătrat perfect.
(c) număr prim.
(d) să conţină cifra 1.
Exerciţiu 2.6.25 Determinaţi probabilitatea ca, alegând la întâmplare un număr din mult, imea
{1, 2, 3, . . . , 30}, acesta să fie divizibil cu 7.
Exerciţiu 2.6.26 Scrieti câmpul de probabilitate pentru experimentul aleator ce consta în arunca-
rea unei monede ideale.
Exerciţiu 2.6.27 În două urne se află bile bile colorate astfel:
U1 : 7 albe, 10 negre, 5 roşii, U2 : 10 albe, 4 negre, 7 roşii.
Din fiecare urnă se extrage la întâmplare câte o bilă. Care este probabilitatea ca ambele bile să
fie de aceeaşi culoare?
Exerciţiu 2.6.28 Scrieti spaţiul de selecţie pentru experimentul aleator ce consta în aruncarea
unei monede ideale până apare pentru prima oară stema.
Exerciţiu 2.6.29 (i) Scrieţi câmpul de probabilitate pentru experimentul aleator ce constă în
aruncarea a trei monede ideale.
(ii) Scrieţi câmpul de probabilitate pentru experimentul aleator ce constă în aruncarea de 3 ori a
unei monede ideale.
(iii) Determinaţi probabilitatea ca la aruncarea a 3 monede ideale să obţinem cel puţin o stemă.
Exerciţiu 2.6.30 Considerăm următorul joc:
• jucătorul X aruncă 2 zaruri. El va câştiga jocul dacă obţine cel puţin o faţa de 1;
• jucătorul Y aruncă 4 zaruri şi va câştiga jocul dacă obţine cel puţin de două ori faţa 1.
Determinaţi care dintre ei au şanse mai mari de a câştiga jocul?
Exerciţiu 2.6.31 Alegem la întâmplare, în mod uniform, un număr natural dintre 1 şi 1000,
inclusiv. Care este probabilitatea ca acest număr sa nu fie divizibil 2, 3 sau 5? R: 0.266
Exerciţiu 2.6.32 Patru barbati şi patru femei sunt asezati aleator pe scaune la o masa rotunda cu
8 locuri.
4
(i) Calculaţi probabilitatea ca toate femeile sa fie alaturate. R: 35
1
(ii) Calculaţi probabilitatea ca niciun barbat sa nu sada langa un alt barbat. R: 35
Exerciţiu 2.6.33 Care este probabilitatea de apariţie pentru prima oară a feţei cu 6 puncte la
aruncarea unui zar ideal în cel mult 3 aruncări? Dar în exact 3 aruncări?
Exerciţiu 2.6.34 Un grup de 5 perechi soţ-soţie este aranjat la întâmplare de un fotograf. Care
este probabilitatea ca fiecare soţie să fi fost aşezată lângă soţul ei? Dar probabilitatea ca măcar o
soţie să nu fi fost aşezată lângă soţul ei?
2.6 Exerciţii propuse 45

Exerciţiu 2.6.35 În anumite familii, părinţii continuă să aibă copii pâna au cel puţin câte un
copil de fiecare sex. Să presupunem că probabilitatea de a avea un copil, indiferent de sex, este
0.5. Pentru astfel de familii, care este probabilitatea de a avea 4 copii?
Exerciţiu 2.6.36 Două persoane joacă un joc care este câştigat de cel care ajunge primul la trei
victorii. Dacă, din anumite motive, jocul se întrerupe la scorul de 2 : 1, cum trebuie împărţită
miza de 100 RON pusă în joc? (miza e împărţită proporţional cu şansele fiecărui jucător de a
ajunge la trei victorii) R: 75 şi 25
Exerciţiu 2.6.37 Se aruncă două zaruri. Care este probabilitatea ca la primul zar sa apara faţa cu
3 puncte, stiind ca suma punctelor aparute este 7? R: 1/6.
Exerciţiu 2.6.38 Amestecăm un pachet de cărţi de joc.
(i) Care este probabilitatea ca prima carte din pachet să fie un as? R: 4·51!
52!
(ii) Care este probabilitatea ca, pentru toate cărţile din pachet, cărţile de aceeaşi culoare să fie
4
ordonate una dupa cealaltă? R: 4!·(13!)
52!
(iii) Care este probabilitatea ca toate inimile să fie grupate una după cealaltă? R: 40!·13!
52!
Exerciţiu 2.6.39 O pereche de zaruri ideale este aruncată de 200 de ori. Care este probabilitatea
să obţinem o sumă de 7 în cel puţin 20% dintre cazuri?
Exerciţiu 2.6.40 Un cofraj conţine 10 ouă, dintre care două sunt sparte. Dacă se aleg 5 ouă la
întâmplare, care este probabilitatea ca dintre cele cinci: (a) niciunul să nu fie spart; (b) un ou
să fie spart.
Exerciţiu 2.6.41 La o tombola se vând 500 bilete, dintre care doar 5 sunt câştigătoare. O
persoană cumpară 10 bilete. Care este probabilitatea să nu se găsească nici un bilet câştigator?
Exerciţiu 2.6.42 Dacă într-o clasă sunt n = 30 de elevi, care este probabilitatea ca cel puţin unul
dintre ei să serbeze ziua de naştere în aceeaşi zi cu tine? (ignorăm anii bisecţi).
Exerciţiu 2.6.43 Un grup de 10 baieţi şi 10 fete este împărţit la întâmplare în două grupuri egale.
Să se determine probabilitatea ca fiecare grup să aibă acelaşi număr de baieţi şi de fete.
Exerciţiu 2.6.44 Două numere sunt generate aleator, astfel încât 0 < x < 3 şi 1 ≤ y ≤ 7 (uniform
în intervalele considerate). Care este probabilitatea ca suma lor să fie cel mult 5?
Exerciţiu 2.6.45 Două numere sunt generate aleator, astfel încât 0 < x < 1 şi 0 ≤ y ≤ 1 (uniform
în intervalele considerate).
x 1
(i) Care este probabilitatea ca raportul lor să fie între 2 şi 3? R: 12 ≈ 0.8333
y
(ii) Care este probabilitatea ca produsul lor să fie cel mult 0.5? R: ln 2+1
2 ≈ 0.8466
Exerciţiu 2.6.46 În problema întâlnirii, timpul de aşteptare se măreşte de la 15 minute la 20
minute. Care este probabilitatea ca cei doi prieteni să se întâlnească?
Exerciţiu 2.6.47 Dacă un ceas se opreşte la întâmplare, care este probabilitatea ca limba care
indică orele să se oprească între 7 şi 10?
Exerciţiu 2.6.48 La un joc de darts, jucătorii aruncă darts
spre panoul alăturat. Presupunem că întotdeauna nimeresc
panoul şi orice punct de pe panou are aceeaşi şansă de a fi
atins. Calculaţi:
• probabilitatea de a nimeri zona verde;
• probabilitatea de a nimeri zona roşie;
• probabilitatea de a nu nimeri niciun disc colorat.

Exerciţiu 2.6.49 Doi prieteni doresc să joace darts, fiecare alegându-
şi o tablă dintre modelele de tablă de darts din figura alăturată. Care
are cea mai mare şansă de câştig?
46 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Exerciţiu 2.6.50 Ana, Bogdan şi Ciprian aleg fiecare câte un număr aleator între 0 şi 1, astfel
încât orice punct din interior are aceeaşi şansă de a fi ales. Care este probabilitatea ca suma
pătratelor numerelor alese să nu fie mai mare de 1?
Exerciţiu 2.6.51 Se aleg la întâmplare trei numere între 0 şi 1, astfel încât orice punct din interior
are aceeaşi şansă de a fi ales. Care este probabilitatea ca pătratul unui număr să fie mai mare
decât suma pătratelor celorlalte două numere?
Exerciţiu 2.6.52 Se alege aleator, în mod uniform, un număr x ce aparţin intervalului [−5, 5].
Care este probabilitatea evenimentului ca |x| > 2?
Exerciţiu 2.6.53 La un seminar participă 8 studenţi. Care este probabilitatea ca cel puţin doi
dintre ei să fie în aceeaşi zodie?
Exerciţiu 2.6.54 Evenimentele incompatibile A şi B sunt astfel încât P(A) = 0.2 şi P(B) = 0.4.
• Care este probabilitatea ca B să se realizeze şi A nu?
• Care este probabilitatea ca niciunul dintre ele să nu se realizeze?
Exerciţiu 2.6.55 Se aruncă două zaruri ideale. Care este probabilitatea ca primul zar să arate un
numă strict mai mare decât al doilea?
Exerciţiu 2.6.56 Păcală îl ademeneşte pe Tândală la un joc de barbut. Păcală a confecţionat
următoarele trei zaruri, pentru care numărul de puncte de pe fiecare faţă sunt modificate:

zarul 1: 5 7 8 9 10 18
zarul 2: 2 3 4 15 16 17
zarul 3: 1 6 11 12 13 14

Pentru fiecare zar, toate feţele au aceeaşi şansă de apariţie. Fiecare jucător alege un zar şi îl
păstrează pentru restul competiţiei. Un joc constă în aruncarea zarului ales, iar cel care obţine un
număr mai mare de puncte va câştiga jocul. Un astfel de joc poate fi repetat de mai multe ori, în
condiţii identice şi independente.
Păcală, politicos fiind, îl invită pe Tândală să fie primul care îşi alege zarul. Arătaţi că, orice
zar ar alege Tândală, Păcală are posibilitatea de a alege un zar mai bun dintre cele rămase şi să
câştige jocul.
Exerciţiu 2.6.57 Într-un sertar sunt 3 pachete a câte 20 de ţigări. În primul pachet este o ţigară
ruptă, în al doilea pachet sunt două ţigări rupte, iar în al treilea pachet sunt 3 ţigări rupte. Din
fiecare pachet luăm la întâmplare câte o ţigară. Care este probabilitatea ca
(a) niciuna să nu fie ruptă;
(b) toate trei să fie rupte;
(c) doar una să fie ruptă.
Exerciţiu 2.6.58 Se aruncă două zaruri de 5 ori. Care este probabilitatea să obţinem de două ori
suma 7?
Exerciţiu 2.6.59 Se aruncă o monedă de 6 ori. Care este probabilitatea să obţinem exact 3
steme?
Exerciţiu 2.6.60 Un profesor pregăteşte pentru examenul oral 18 de bilete, dintre care 7 sunt
de Algebră, 6 sunt de Geometrie şi 5 sunt de Analiză. Toate biletele sunt puse într-o cutie. Un
student extrage 3 bilete deodată. Care este probabilitatea ca:
(a) să aibă câte un bilet din fiecare disciplină;
(b) toate biletele să fie de Algebră;
(c) cel puţin un bilet este de Analiză.
Exerciţiu 2.6.61 Presupunem că într-o familie există şanse egale de a se naşte un băiat sau o fată.
Într-o familie cu 6 copii, care sunt şansele ca toţii copiii să fie fete? Dar să fie 3 fete şi 3 băieţi?
Exerciţiu 2.6.62 Un procent de 35% dintre locuitorii din Iaşi au fost la vot la ultimele alegeri.
2.6 Exerciţii propuse 47

Dacă întrebăm la întâmplare 5 oameni cu drept de vot, care sunt şansele ca măcar 3 dintre ei să fi
votat la ultimele alegeri?
Exerciţiu 2.6.63 Un jucător de fotbal este cotat cu şanse de 75% să marcheze gol de la 11 metri.
Care este probabilitatea ca, din următoarele 3 lovituri 11 metri pe care le va bate, să marcheze
doar de 2 ori?
Exerciţiu 2.6.64 Se aruncă un zar de 10 ori. Care este probabilitatea ca exact de 2 ori sa apară
faţa cu un punct şi exact de 3 ori să apară faţa cu două puncte?
Exerciţiu 2.6.65 Într-un lot de 100 de articole se află 80 corespunzătoare, 15 ce au defecţiuni
remediabile şi 5 rebuturi. Alegem 6 articole. Care este probabilitatea 3 să fie bune, 2 cu defecţiuni
remediabile şi unul să fie rebut ?
Exerciţiu 2.6.66 Se aruncă o monedă de 6 ori care este probabilitatea de a obţine un număr egal
de steme şi feţe cu banul?
Exerciţiu 2.6.67 Se aruncă un zar de 3 ori. Care sunt şansele ca niciun 6 să nu fi apărut?
Exerciţiu 2.6.68 Un producător de coşuri ştie că 10% dintre coşurile pe care le produce au
defecte. Dacă produce 10 coşuri pe zi, care este probabilitatea ca cel mult două dintre ele să fie
defecte?
Exerciţiu 2.6.69 Un coş conţine 7 mere roşii şi 3 mere verzi.
(a) Se alege la întâmplare un măr, fără a-l vedea. Care este probabilitatea ca el să fie roşu?
(b) Se aleg la întâmplare 3 mere. Care este probabilitatea ca măcar unul să fie verde?
Exerciţiu 2.6.70 Trei studenţi aruncă pe rând cu mingea la coşul de baschet. Şansele fiecăruia
de a înscrie sunt 0.5, 0.7, respectiv 0.9. Care este probabilitatea ca toţi trei să fi înscris?
3. Probabilităţi condiţionate

3.1 Definiţii
De multe ori in practica se pot intalni evenimente conditionate de alte evenimente. Aceasta
inseamna ca realizarea unui eveniment poate fi influentata de realizarea sau nerealizarea unui alt
eveniment.
Exemplu 3.1.1 Considerăm evenimentul A = echipa X a castigat ultimele trei meciuri in
campionat şi evenimentul B = echipa X castiga campionatul. Ne-ar putea interesa probabilitatea
evenimentului conditionat B|A = evenimentul ca echipa X sa castige campionatul stiind ca a
castigat ultimele trei meciuri. B|A se citeste evenimentul B conditionat de A.
Exemplu 3.1.2 Într-un depozit au fost aduse piese produse de 2 maşini diferite. Există şanse
ca oricare dintre cele două maşini să producă piese cu defecte. Alegem o piesă la întâmplare
din depozit. Ne-ar interesa să evaluăm şansele ca piesa aleasă să aibă defecte sau nu, ştiind
că ea poate fi produsă de oricare dintre cele două maşini. Pentru a evalua aceste şanse, facem
următoarele notaţii:
• A = evenimentul ca piesa aleasă să aibă defecte,
• B1 = evenimentul ca piesa aleasă să fi fost produsă de maşina 1,
• B2 = evenimentul ca piesa aleasă să fi fost produsă de maşina 2.
Astfel, am fi interesaţi să evaluăm probabilităţile următoarelor evenimente:
• evenimentul ca piesa să fie cu defecte ştiind că a fost produsă de maşina 1. Acest eveniment
va fi notat prin A|B1 , iar probabilitatea acestui eveniment se notează prin P(A|B1 ) sau
PB1 (A).
• evenimentul ca piesa să fie cu defecte ştiind că a fost produsă de maşina 2. Acest eveniment
va fi notat prin A|B2 , iar probabilitatea acestui eveniment se notează prin P(A|B2 ) sau
PB2 (A).
De asemenea, se poate schimba ordinea de condiţionare şi să evaluăm probabilităţile evenimente-
lor următoare:
• evenimentul ca piesa să fi fost produsă de maşina 1, ştiind că ea este cu defecte, eveniment
notat prin B1 |A. Notăm probabilitatea acestui eveniment prin P(B1 |A) sau PA (B1 ).
50 Capitolul 3. Probabilităţi condiţionate

• evenimentul ca piesa să fi fost produsă de maşina 2, ştiind că ea este cu defecte, eveniment
notat prin B2 |A. Notăm probabilitatea acestui eveniment prin P(B2 |A) sau PA (B2 ).

Considerăm două evenimente aleatoare A şi B, cu P(B) > 0. Relaţia P(B) > 0 indică faptul
că evenimentul B nu este imposibil. Avem nevoie de această condiţie deoarece nu am putea
condiţiona de un eveniment imposibil.

Definiţie 3.1.1 Definim probabilitatea evenimentului A condiţionată de realizarea evenimentului

B, notată P(A|B) sau PB (A), prin
T
P(A B)
P(A|B) = . (3.1.1)
P(B)

Exerciţiu 3.1.1 Se aruncă un zar ideal. Considerăm evenimentele:

A = evenimentul ca numărul apărut este par şi B = evenimentul ca numărul apărut este cel puţin 3.

Aflaţi probabilitatea
1. evenimentului A condiţionat de B (apare un număr par, ştiind că a apărut un număr cel
puţin egal cu 3);
2. evenimentului B condiţionat de A (apare un număr cel puţin egal cu 3, ştiind că a apărut
un număr par);
3. evenimentului A condiţionat de B (apare un număr par, ştiind că nu a apărut un număr
cel puţin egal cu 3).
R: Avem că A = {2, 4, 6}, B = {3, 4, 5, 6} şi A ∩ B = B A = {4, 6}. Atunci:
T

T
P(A B) 2/6 1
1. P(A|B) = = = .
P(B) 4/6 2
T
P(B A) 2/6 2
2. P(B|A) = = = .
P(A) 3/6 3
De asemenea, B = {1, 2} şi A B = {2}. Atunci:
T

T
P(A B) 1/6 1
3. P(A|B) = = = .
P(B) 2/6 2
Proprietăţi ale probabilităţilor condiţionate:
Proprietăţi 3.1.1 1. P(A ∩ B) = P(A|B) · P(B) = P(B|A) · P(A), ∀A, B evenimente de pro-
babilitate nenulă.
2. P(A|B) = 1 − P(A|B), ∀A, B evenimente, cu P(B) 6= 0.

Propoziţie 3.1.2 (formula probabilităţilor totale)

Fie B1 , B2 , . . . , Bn evenimente astfel încât B1 ∪ B2 ∪ . . . ∪ Bn = Ω (reuniunea lor acoperă toate
cazurile posibile) şi P(Bi ) > 0, i = 1, 2 . . . , n (nu sunt imposibile). Atunci

P(A) = P(B1 ) · P(A|B1 ) + P(B2 ) · P(A|B2 ) + . . . + P(Bn ) · P(A|Bn ). (3.1.2)

3.1 Definiţii 51

• În cuvinte, dacă evenimentele B1 , B2 , . . . , Bn pot avea o influenţă asupra lui A, atunci în

calculul probabilităţii lui A vom ţine cont de aceste evenimente, considerând probabilităţile
condiţionate ale lui A de fiecare dintre aceste evenimente, după formula de mai sus.
• În particular, dacă evenimentul A poate fi influenţat doar de evenimentul B, în calcularea
probabilităţii lui A, adică P(A), va trebui să ţinem cont de probabilităţile condiţionate ale lui A
de B şi de B, adică de evenimentele A|B şi A|B (deoarece B ∪ B = Ω). Formula (3.1.2) devine:
P(A) = P(B) · P(A|B) + P(B) · P(A|B).
Exerciţiu 3.1.2 Doua urne contin doar bile albe si negre. Urna U1 contine 3 bile albe si 4 negre,
urna U2 contine 5 bile albe si 3 negre. Extragem aleator o bila din urna U1 si o introducem in
urna U2 . Apoi, din urna U2 extragem la intamplare o bila. Care este probabilitatea ca ultima bila
extrasa sa fie alba?
R: Notăm cu A1 evenimentul ca bila extrasă din urna întâi să fie albă şi cu A2 evenimentul ca
bila extrasă din urna a doua să fie albă. Atunci:
3
P(A1 ) =
7
şi, ţinând cont că bila extrasă din prima urnă poate fi albă sau nu,
3 6 4 5 38
P(A2 ) = P(A1 ) · P(A2 /A1 ) + P(A1 ) · P(A2 /A1 ) = · + · = .
| {z } | {z } | {z } | {z } 7 9 7 9 63
prima bilă e albă a doua bilă e albă, prima bilă e neagră a doua bilă e albă,
ştiind că prima e albă ştiind că prima e neagră

Propoziţie 3.1.3 (formula lui Bayes1 )

Fie B1 , B2 , . . . , Bn evenimente astfel încât B1 ∪ B2 ∪ . . . ∪ Bn = Ω (reuniunea lor acoperă toate
cazurile posibile) şi P(Bi ) > 0, i = 1, 2 . . . , n, P(A) > 0 (adică, aceste evenimente nu sunt
imposibile). Atunci, pentru fiecare i = 1, 2, . . . , n, probabilitatea realizarii evenimentului Bi ,
condiţionată de realizarea evenimentului A este:

P(Bi ) · P(A|Bi )
P(Bi |A) = . (3.1.3)
P(A)

• Conform Propoziţiei 3.1.2, probabilitatea evenimentului A este

P(A) = P(B1 )·P(A|B1 )+P(B2 )·P(A|B2 )+. . .+P(Bn )·P(A|Bn ).
• În particular, dacă evenimentul A poate fi influenţat doar de evenimentul B, atunci B ∪ B = Ω
şi formula lui Bayes devine:
P(B) · P(A|B)
P(B|A) = .
P(B) · P(A|B) + P(B) · P(A|B)
Exerciţiu 3.1.3 Un pacient suspect de SARS-CoV2 face testul rapid. Testul rapid are o sensibilitate
de 80% (adică, 80% dintre persoanele bolnave sunt corect indicate de test a fi pozitive (true
positives) şi o specificitate de 70% (adică, 70% dintre persoanele sănătoase sunt corect indicate
de test a fi negative (true negatives). Presupunem că, în toată ţara, doar 15% sunt infectaţi cu
SARS-CoV2.
(a) Care sunt şansele ca, pentru o persoană care face testul, rezultatul testului să fie pozitiv?
(b) Dacă pacientul testează pozitiv în urma testului rapid, care sunt şansele ca pacientul să fie cu
adevărat infectat cu SARS-CoV2?
52 Capitolul 3. Probabilităţi condiţionate

R: Notăm cu A evenimentul ca pacientul să fie cu adevărat infectat cu SARS-CoV2 şi cu B

evenimentul ca rezultatul testului pentru acest pacient să fie pozitiv. Din datele problemei,

P(A) = 0.15, P(B|A) = 0.8, P(B|A) = 0.7.

Atunci, P(A) = 1 − 0.15 = 0.85 şi P(B|A) = 1 − P(B|A) = 0.3.

(a) P(B) = P(A) · P(B|A) + P(A) · P(B|A) = 0.15 · 0.8 + 0.85 · 0.3 = 0.375, adică 37.5% şanse
ca rezultatul testului să fie pozitiv.
(b) Avem de determinat P(A|B). Conform formulei lui Bayes,
P(A) · P(B|A) P(A) · P(B|A) 0.15 · 0.8
P(A|B) = = = = 0.32,
P(B) P(A) · P(B|A) + P(A) · P(B|A) 0.15 · 0.8 + 0.85 · 0.3
adică 32% şanse ca pacientul să fie cu adevărat infectat cu SARS-CoV2.

Observaţie 3.1.1 În practică, sunt întâlniţi următorii termeni: sensibilitate şi specificitate.
Sensibilitatea măsoară proport, ia testelor pozitive dintre toate probele cu adevărat pozitive. Cu
alte cuvinte, sensibilitatea unui test este capacitatea sa de a identifica corect persoanele cu boala
(adevăratele pozitive = true positives).
Specificitatea măsoară proport, ia testelor negative dintre toate es, antioanele cu adevărat negative.
Cu alte cuvinte, specificitatea unui test este capacitatea sa de a indica corect persoanele fără
boală (adevăratele negative = true negatives).
În problema anterioară, sensibilitatea este de 80% şi specificitatea este de 70%.
Exerciţiu 3.1.4 Într-un depozit au fost aduse piese produse de 2 fabrici diferite, astfel încât 40%
dintre piese sunt produse de prima fabrică şi restul de a doua fabrică. Există şanse ca oricare
dintre cele două fabrici să producă piese cu defecte. Şansele ca piesele produse de cele două
fabrici să fie cu defecte sunt de 10% şi, respectiv, de 5%. Alegem o piesă la întâmplare din
depozit şi observăm că este cu defecte.
(a) Care sunt şansele ca, alegând la întâmplare o piesă din depozit, aceasta să fie cu defecte?
(b) Care este probabilitatea să fi fost făcută de prima fabrică? Dar de a doua fabrică?
(c) Dacă administratorul depozitului are pierderi de 1400 de RON de pe urma pieselor cu defecte,
ce sume de bani ar trebui să solicite de la cele două fabrici pentru a-şi acopere pierderile?
R: Notăm cu F1 evenimentul ca o piesă aleasă din depozit să fi fost făcută de prima fabrică, cu
F2 evenimentul ca o piesă aleasă din depozit să fi fost făcută de a doua fabrică şi cu A evenimentul
ca piesa aleasă să fie defectă. Din ipoteză, avem că:

P(F1 ) = 0.4, P(F2 ) = 0.6, P(A|F1 ) = 0.1, P(A|F2 ) = 0.05.

(a) Probabilitatea ca piesa aleasă aleator din depozit să fie cu defecte este

P(A) = 0.4 · 0.1 + 0.6 · 0.05 = 0.07.

3.1 Definiţii 53

Aşadar, şansele sunt de 7%.

(b) Avem de aflat probabilitatea evenimentului B1 |A. Aceasta este (conform formulei lui Bayes):

P(F1 ) · P(A|F1 ) 0.4 · 0.1 3

P(F1 /A) = = = ≈ 0.4286.
P(F1 ) · P(A|F1 ) + P(F2 ) · P(A|F2 ) 0.4 · 0.1 + 0.6 · 0.05 7

P(F2 ) · P(A|F2 ) 0.6 · 0.05 4

P(F2 /A) = = = ≈ 0.5714.
P(B1 ) · P(A|F1 ) + P(F2 ) · P(A|F2 ) 0.4 · 0.1 + 0.6 · 0.05 7
(c) Administratorul depozitului va solicita un procent din suma pierdută, egal cu şansele de la
punctul anterior. Astfel, va solicita 37 · 1400 RON = 600 RON primei firme şi 47 · 1400 RON =
800 RON celei de-a doua firme.
Exerciţiu 3.1.5 S-a estimat statistic faptul că doar 70% dintre femeile care apelează la un test de
sarcină sunt cu adevărat însărcinate. Un anumit test de sarcină are o acurateţe de 90% în a indica
prezenţa unei sarcini în cazul în care aceasta este cu adevărat prezentă (rezultat pozitiv valid), şi
dă un rezultat pozitiv când sarcina nu este prezentă (rezultat pozitiv fals) în 6% dintre cazuri.
(a) Care este probabilitatea ca, pentru o femeie care face testul respectiv, rezultatul să indice
prezenţa unei sarcini?
(b) Dacă pentru o femeie, aleasă la întâmplare, rezultatul testului este pozitiv, care este probabi-
litatea ca ea să nu fie însărcinată?
R: (a) Fie A evenimentul ca rezultatul testului să fie pozitiv şi B evenimentul ca femeia
să fie însărcinată. Atunci P(A| B) este probabilitatea evenimentului ca rezultatul testului să fie
pozitiv valid şi P(A| B) este probabilitatea obţinerii unui rezultat pozitiv fals. Atunci, din datele
problemei avem că:

P(A| B) = 0.9; P(A| B) = 0.06; P(B) = 0.7 şi P(B) = 0.3.

Folosind formula probabilitatilor totale, obţinem:

P(A) = P(A| B) · P(B) + P(A| B) · P(B)

= 0.9 × 0.7 + 0.06 × 0.3
= 0.648.

(b) Folosind formula lui Bayes, obţinem:

P(B) · P(A| B) 0.06 · 0.3

P(B| A) = = = 0.0278.
P(A| B) · P(B) + P(A| B) · P(B) 0.648
54 Capitolul 3. Probabilităţi condiţionate

Propoziţie 3.1.4 (probabilitatea de intersecţie a n evenimente)

· · · Bn ) > 0, atunci:
T T T
Dacă B1 , B2 , . . . , Bn sunt evenimente astfel încât P(B1 B2
\ \ \
P(B1 B2 ··· Bn ) = P(B1 ) · PB1 (B2 ) · PB1 T B2 (B3 ) · . . . · PB1 T··· T Bn−1 (Bn ). (3.1.4)

În particular, pentru n = 3, avem:

\ \
P(B1 B2 B3 ) = P(B1 ) · PB1 (B2 ) · PB1 T B2 (B3 ).

Exerciţiu 3.1.6 Într-un coş sunt 10 mere, 6 roşii şi 4 verzi. Extragem, pe rând, două mere, fără
revenire. Care este probabilitatea ca primul măr să fie roşu şi al doilea verde?
R: Fie R evenimentul ca primul măr să fie roşu şi V evenimentul ca al doilea măr să fie verde.
Atunci,
6 4 4
P(R ∩V ) = P(R) · PR (V ) = · = .
10 9 15

Exerciţiu 3.1.7 O urnă conţine 5 bile albe şi 3 bile negre. Se extrag succesiv 3 bile, fără
întoarcerea bilei extrase. Care este probabilitatea ca prima bilă să fie albă şi celelalte două să fie
negre?
R: Notăm cu Ai evenimentul ca la extragerea i să vedem o bilă albă, i = 1, 2, 3. Atunci,
evenimentul cerut este A1 ∩ A2 ∩ A3 , a cărui probabilitate este:
5 3 2 5
P(A1 ∩ A2 ∩ A3 ) = P(A1 ) · PA1 (A2 ) · PA1 ∩A2 (A3 ) = · · = .
8 7 6 56

3.2 Noţiunea de independenţă a evenimentelor

Fie (Ω, F , P) un câmp de probabilitate şi A, B ∈ F două evenimente arbitrare.
Dacă anumite informaţii despre evenimentul B au influenţat în vreun fel realizarea evenimentului
A, atunci vom spune că A şi B sunt evenimente dependente. De exemplu, evenimentele A =
mâine plouă şi B = mâine mergem la plajă sunt dependente.
Să presupunem că evenimentul B satisface relaţia P(B) > 0. Vom spune că evenimentele A şi
B sunt independente dacă probabilitatea lui A este independentă de realizarea evenimentului B,
adică probabilitatea condiţionată

P(A| B) = P(A), (3.2.5)

3.2 Noţiunea de independenţă a evenimentelor 55

echivalent cu T
P(A B)
= P(A).
P(B)
Putem rescrie ultima egalitate sub forma simetrică:
\
P(A B) = P(A) · P(B). (3.2.6)

Deoarece în relaţia (3.2.6) nu mai este nevoie de condiţie suplimentara pentru P(B), este prefera-
bil să definim independenţă a două evenimente arbitrare astfel:
Definiţie 3.2.1

1. Două evenimente, A şi B, se numesc independente dacă P(A B) = P(A) · P(B).

2. Spunem că evenimentele A1 , A2 , . . . , An sunt independente două câte două dacă oricare
două evenimente din mulţime sunt independente.
3. Evenimentele A1 , A2 , . . . , An se numesc independente în ansamblu dacă oricum am alege
evenimente din aceasta mulţime, probabilitatea ca acestea să se realizeze simultan este
egală cu produsul probabilităţilor fiecărui eveniment în parte.
Matematic, scriem astfel:
∀k ≥ 2, ∀n1 , n2 , . . . , nk ∈ {1, 2, . . . , n}, ni distincte, are loc:
\ \ \
P(An1 An2 · · · Ank ) = P(An1 ) · P(An2 ) · . . . · P(Ank )
4. În general, evenimentele (Ai )i∈I ⊂ F , (I ⊂ N), se numesc independente dacă evenimentele
din orice submultime finita sunt independente.
Observaţie 3.2.1 Independenţa două câte două a evenimentelor nu implică independenţa în
ansamblu. Să exemplificăm considerând următorul experiment.
Considerăm aruncarea a două monede ideale. Fie A evenimentul ca "faţa ce apare la prima
monedă este stema", B evenimentul ca "faţa ce apare la a doua monedă este stema", iar C
evenimentul ca "doar la o monedă din cele două a apărut faţa cu stema". Se observă cu uşurinţă
că evenimentele A, B şi C sunt independente două câte două, deoarece:
\ 1 \ 1 \ 1
P(A C) = P(A) · P(C) = ; P(B C) = P(B) · P(C) = ; P(A B) = P(A) · P(B) = .
4 4 4
Totodată, mai observăm că oricare două dintre ele determina în mod unic pe al treilea. Aşadar,
independenţa a două câte două nu implică independenţa celor trei evenimente în ansamblu, fapt
observat şi din relaţia
\ \ 1
0 = P(A B C) 6= P(A) · P(B) · P(C) = .
8
Exerciţiu 3.2.1 Se aruncă două zaruri ideale. Fie A evenimentul în care suma celor numerele
este 7 şi B evenimentul că primul zar arată 3. Sunt aceste două evenimente independente?
R: Evenimentul total Ω este format din mulţimea tuturor perechilor posibile, care sunt în
număr de 36. Evenimentul A este

A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.

Evenimentul B este

B = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}.
56 Capitolul 3. Probabilităţi condiţionate

Evenimentul A ∩ B este A ∩ B = {(3, 4)}. Atunci, avem că

1 1 6 1 1
P(A) = = , P(B) = = , P(A ∩ B) = .
36 6 36 6 36
Observăm că P(A ∩ B) = P(A) · P(B), deci evenimentele A şi B sunt independente.
Exerciţiu 3.2.2 Se aruncă două zaruri ideale. Fie E evenimentul în care suma celor numerele
este 6 şi F evenimentul că primul zar arată 3. Sunt aceste două evenimente independente?
R: Evenimentul total Ω este format din mulţimea tuturor perechilor posibile, care sunt în
număr de 36. Evenimentul E este

E = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}.

Evenimentul F este

F = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}.

Evenimentul E ∩ F este E ∩ F = {(3, 3)}. Atunci, avem că

5 6 1 1
P(E) = , P(F) = = , P(E ∩ F) = .
36 36 6 36
Observăm că P(E ∩ F) 6= P(E) · P(F), deci evenimentele E şi F nu sunt independente.
Exerciţiu 3.2.3 Se aruncă o monedă de 3 ori. Care este probabilitatea obţinerii stemei la fiecare
aruncare?
R: Notăm cu Ai evenimentul observării stemei la aruncarea i, i = 1, 2, 3. Aceste trei eveni-
mente sunt independente. Evenimentul a cărui probabilitate se cere este A1 ∩ A2 ∩ A3 , care are
probabilitatea
1 1 1 1
P(A1 ∩ A2 ∩ A3 ) = P(A1 ) · P(A2 ) · P(A3 ) = · · = .
2 2 2 8

3.3 Probabilitatea ca o măsură a convingerii (Bayes)

Am văzut mai sus cum poate fi definită probabilitatea ca un eveniment aleator legat de un anumit
experiment aleator, presupunând că experimentul poate fi continuat la infinit în aceleaşi condiţii.
Totuşi, pentru multe dintre experimentele aleatoare, chiar dacă ele se pot repeta la infinit (cel
puţin teoretic), condiţiile de desfăşurare se schimbă de la o probă la alta. În astfel de situaţii,
cum am putea defini probabilitatea?
Spre exemplu, auzim deseori expresii de genul: probabilitatea ca el să ia examenul este foarte
mică, sau Cei doi jucători de tenis au şanse egale (50 − 50) de a câştiga meciul, sau şansele ca
mâine să plouă sunt de 75%, probabilitatea ca Ion să trăiască mai mult de 90 de ani este mare
etc.
Aceste experimente aleatoare nu pot fi repetate la infinit, în aceleaşi condiţii. Ce înţelegem,
totuşi, prin probabilitate? În fiecare dintre aceste cazuri, probabilitatea/şansa este văzută ca
fiind o măsură a convingerilor personale că evenimentul aleator corespunzător se va realiza.
Probabilistul român M. Iosifescu2 spunea că probabilitatea subiectivă este ”traducerea bunului
simţ în cifre”. Nu există o formulă teoretică pentru probabilitatea subiectivă, doarece aceasta
reflectă opinia personală a unei persoane care evaluează şansa de realizare a evenimentului,
bazându-se pe flerul sau experienţa sa.

2 Marius Iosifescu (1936−), este un matematician academician român

3.4 Exerciţii rezolvate 57

Exemplu 3.3.1 Săptămâna trecută a început campionatul naţional de fotbal. Înainte de primul
meci, Tudor avea o favorită la start, şi anume, echipa Juventus. Notăm cu C evenimentul ca
această echipă să câştige campionatul. El credea că probabilitatea acestui eveniment este P(C).
Totuşi, Juventus a pierdut primul meci. Probabilitatea ca acest eveniment să se fi întâmplat era
P(E) (aici, E reprezintă evenimentul ca echipa Juventus să piardă primul meci din campionat).
Folosind formula lui Bayes, probabilitatea condiţionată P(C/E), adică Juventus să câştige
campionatul condiţionată de pierderea primului meci, este

P(E ∩C) P(E/C)P(C)

P(C/E) = = .
P(E) P(E)

Probabilitatea P(C) se numeşte probabilitate subiectivă (sau a priori), înainte de experiment, şi
este bazată pe convingerea personală (intuiţie). După ce un experiment aleator a fost efectuat,
această probabilitate va fi ajustată pe baza informaţiei dobândite. Vom obţine astfel P(C/E),
numită probabilitate a posteriori (convingerea că Juventus va câştiga campionatul, ţinând cont
de informaţia că a pierdut primul meci). În mod similar, putem calcula probabilitatea ca Juventus
să piardă campionatul, condiţionată de pierderea primului meci, este

P(E ∩C) P(E/C)P(C)

P(C/E) = = .
P(E) P(E)

3.4 Exerciţii rezolvate

Exerciţiu 3.4.1 Se aruncă de două ori o monedă ideală. Aflaţi probabilitatea pentru fiecare dintre
evenimentele următoare:
1. apare stema la ambele aruncări.
2. apare stema la a doua aruncare, ştiind că la prima aruncare a apărut stema.
3. apare cel puţin o stemă.
R: 1. Cele două aruncări sunt efectuate în mod independent.
1 1
P(A1 ) = · = 0.25.
2 2
2. P(A2 ) = P(A2 /A1 ) = 0.5. 3. P(A3 ) = 0.75.
Exerciţiu 3.4.2 La un examen oral participa un numar de studenti. Pentru a fi examinat, fiecare
student va trebui sa extraga un bilet. In sala sunt insirate pe catedra n bilete de examen. Dintre
acestea, m sunt usoare si restul sunt grele (acest fapt este admis tacit de catre toti studentii).
Studentii intra la examen si extrag, pe rand, cate un bilet. Dintre primii doi studenti care extrag
bilete, care are sansa mai mare de a extrage un subiect usor?
R: Şansele sunt egale. Notăm cu A = evenimentul ca primul student să tragă un bilet uşor şi
B = evenimentul ca al doilea student să tragă un bilet uşor. Vom calcula P(A) şi P(B). Fireşte,
probabilitatea lui B va depinde de realizarea sau nerealizarea lui A, deci vor apărea probabilităţi
condiţionate. Avem:
m
P(A) =
n
şi
m−1 m m n−m m
P(B) = PA (B) · P(A) + PA (B) · P(A) = · + · = = P(A).
n−1 n n−1 n n
58 Capitolul 3. Probabilităţi condiţionate

Exerciţiu 3.4.3 (1) Familia Petrescu are doi copii. Copilul mai în vârsta este o fată. Care este
probabilitatea ca ambii copii să fie fete?
(2) Familia Petrescu are doi copii. Cineva s-a intâlnit cu unul dintre copii; este o fată. Care este
probabilitatea ca ambii copii să fie fete?
R: (a) Cazuri echiprobabile pentru cei doi copii ai familiei: {FF, BF}.
1
Pa = .
2
(b) Cazuri echiprobabile pentru cei doi copii ai familiei: {FF, FB, BF}.
1
Pb = .
3
Altă soluţie: Notăm cu A = evenimentul ca ambii copii sa fie fete; B1 = evenimentul ca al
doilea copil sa fie fata si B2 = evenimentul ca macar unul dintre copii sa fie fata. Cei doi copii ai
familiei pot fi dupa cum urmeaza: {FF, FB, BF, BB}.

P(A B1 ) PA (B1 )P(A) 1 · 14

T
1
(a) PB1 (A) = = = 2 = .
P(B1 ) P(B1 ) 4
2
P(A B2 ) PA (B2 )P(A) 1 · 14
T
1
(b) PB2 (A) = = = 3 = .
P(B2 ) P(B2 ) 4
3

Exerciţiu 3.4.4 Pentru o familie cu 4 copii, care eveniment vi se pare mai probabil:
[1] câte doi de acelaşi sex sau [2] trei copii de un sex şi unul de altul?
(presupunem şanse egale de naştere a unei fete sau a unui băiat)
R: Spaţiul de selecţie este:
{FFFF, FFFB, FFBF, FBFF, BFFF, FFBB, FBFB, BFFB,
BBFF, BFBF, FBBF, FBBB, BBFB, BFBB, BBBF, BBBB}
Probabilitatea de a avea câte doi de acelaşi sex este
6 C2
P1 = = 0.375 (= 44 )
16 2
Probabilitatea de a avea trei copii de un sex şi unul de altul este
8 C41 +C43
P2 = = 0.5 (= )
16 24

Exerciţiu 3.4.5 O urnă conţine 10 bile: 4 roşii şi 6 albastre. O a doua urnă conţine 16 bile
roşii şi un număr necunoscut de bile albastre. Câte o singură bilă este extrasă din fiecare urnă.
Probabilitatea ca ambele bile extrase să aibă aceeaşi culoare este 0.44. Câte bile albastre sunt în
a doua urnă?
R: Extragerile din cele două urne se fac independent. Avem că:
Ä [ ä
0.44 = P {I = red, II = red} {I = blue, II = blue}
= P({I = red}) × P({II = red}) + P({I = blue}) × P({II = blue})
4 16 6 b 3b + 32
= × + × = ,
10 16 + b 10 16 + b 5b + 80
de unde b = 4.
3.4 Exerciţii rezolvate 59

Exerciţiu 3.4.6 S-a determinat statistic că incidenţa unei anumite boli rare într-o ţară este de
doar 1 caz la 10000 de adulţi. Pentru această boală rară există un test medical. Dacă un adult are
boala, atunci testul va indica acest fapt (test pozitiv) în 99% din cazuri. De asemenea, în 2% din
cazuri, testul va fi pozitiv chiar dacă individul nu are boala (false positive). Un cetăţean adult
este selectat aleator şi este testat pentru această boală rară. Testul este pozitiv. Care sunt şansele
ca cetăţeanul să sufere de această boală?
R: Notăm cu A evenimentul ca cetăţeanul să aibă boala şi cu B evenimentul ca rezultatul testului
să fie pozitiv. Atunci, din datele problemei, avem că
P(A) = 0.0001, P(A) = 0.9999, P(B/A) = 0.99, P(B/A) = 0.02.
Atunci, P(B) = P(A) · P(B/A) + P(A) · P(B/A) = 0.030096. Folosind formula lui Bayes,
P(A) · P(B/A) 9.9 · 10−5
P(A/B) = = ≈ 0.0049.
P(B) 0.027099
Deoarece probabilitatea este de 0.0049, şansele ca un cetăţean testat pozitiv să aibă într-adevăr
boala sunt mai mici de 5 la mie!
Q: Cum explicaţi rezultatul, deşi testul pare a fi de încredere? De câte ori a crescut probabilita-
tea a posteriori faţă de cea a priori, după ce rezultatul testului a fost anunţat?
Exerciţiu 3.4.7 Trei vanatori ochesc cu puşca o aceeasi vulpe. Fiecare vânător trage câte un foc
asupra vulpii. Fiecare dintre ei poate nimeri sau nu vulpea.
(a) Scrieţi spaţiul de selecţie Ω asociat experimentului aleator.
Ştim ca probabilităţile că fiecare dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2.
(b) Care este probabilitatea ca vulpea sa scape neatinsa?
Dupa trageri, se constata ca vulpea a fost nimerita o singura data.
(c) Care este probabilitatea ca primul vanator sa o fi nimerit?
R: (a) Notăm cu S evenimentul ca un vanator atinge tinta (succes) si cu E evenimentul sa nu o
atinga (eşec). Atunci, spaţiul de selectie este:
Ω = {SSS, SSE, SES, SEE, ESS, ESE, EES , EEE}.
(b) Notăm cu pi , qi , i = 1, 2, 3, probabilităţile de succes (respectiv, eşec) pentru fiecare vânător.
De asemenea, fie Vi (i = 0, 1) evenimentul ca vulpea să fi fost atinsă de i ori. Folosind schema
lui Poisson, găsim că
2 3 1 6
P(V0 ) = q1 · q2 · q3 = · · =
3 4 2 24
1 3 1 1 1 1 1 3 1 11
P(V1 ) = p1 q2 q3 + q1 p2 q3 + q1 q2 p3 = · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
6
Aşadar, probabilitatea ca vulpea sa scape neatinsa este P(V0 ) = 24 = 0.25.
!! Evenimentele elementare din Ω nu sunt echiprobabile, deci nu putem spune că P(V0 ) =
P(EEE) = 1/8!
(c) Notam cu A1 evenimentul ca primul vanator sa nimereasca vulpea. Avem de calculat
probabilitatea conditionata P(A1 /V1 ). Folosind formula (Bayes), avem ca:
P(A1 ) · P(V1 /A1 )
P(A1 /V1 ) =
P(V1 )
1/3 · 3/4 · 1/2 3
= = .
1/3 · 3/4 · 1/2 + 2/3 · 1/4 · 1/2 + 2/3 · 3/4 · 1/2 11
60 Capitolul 3. Probabilităţi condiţionate

Aici, V1 /A1 este evenimentul ca vulpea să fi fost nimerită o singură dată, ştiind că a nimerit-o
primul vânător, care este echivalent cu evenimentul că nici al doilea şi nici al treilea vânător nu
au nimerit-o. Atunci, P(V1 /A1 ) = P(A2 ∩ A3 ) = q2 q3 .

Exerciţiu 3.4.8 Trei întreprinderi trimit acelaşi tip de piese într-un depozit central, în proporţie
de 50%, 30%, respectiv, 20%. Cele trei întreprinderi au rebuturi în proporţie de, respectiv,
1%, 3%, 2%. Valoarea pieselor ce s-au dovedit a fi rebuturi este de 3600 RON. Cum ar trebui
împărţită această sumă între cele 3 întreprinderi?
R: Vom cere fiecarei intreprinderi despagubiri in cuantumuri proportionale cu ponderile de
rebuturi din depozit aduse de fiecare dintre ele. Notăm cu:
• A−evenimentul ca o piesă aleasă la întâmplare din depozitul central să fie rebut.
• Ai −evenimentul ca, alegând la întâmplare o piesă din depozit, aceasta să aparţină firmei i.
Pentru a determina cum împărţim cei 3600 între cele 3 firme, va trebui să determină probabilităţile
condiţionate P(A1 | A), P(A2 | A), P(A2 | A), care reprezintă ponderile de rebuturi produse de
fiecare firmă, condiţionate de apariţia unui rebut la o alegere la întâmplare din depozit.
Din datele problemei avem ca:
P(A1 ) = 0.5, P(A2 ) = 0.3, P(A3 ) = 0.2, P(A|A1 ) = 0.01, P(A|A2 ) = 0.03, P(A|A3 ) = 0.02.
Folosind formula probabilitatilor totale, gasim ca:
P(A) = P(A1 )P(A|A1 ) + P(A2 )P(A|A2 ) + P(A3 )P(A|A3 )
= 0.5 · 0.01 + 0.3 · 0.03 + 0.2 · 0.02 = 0.018.
Folosind formula lui Bayes, gasim ca:
P(A1 )P(A|A1 ) 5 P(A2 )P(A|A2 ) 1
P(A1 | A) = = , P(A2 | A) = = ,
P(A) 18 P(A) 2
P(A3 )P(A|A3 ) 2
P(A3 | A) = = .
P(A) 9
În consecinţă, pierderile vor trebui să fie împărţite astfel:
5 1 2
× 3600 = 1000 (firma 1); × 3600 = 1800 (firma 2); × 3600 = 800 (firma 3).
18 2 9

Exerciţiu 3.4.9 Doua persoane joaca un joc. Ele arunca succesiv o moneda. Jocul este castigat
de acea persoana care obtine prima, la aruncarea sa, fata cu stema. Sa se calculeze probabilitatea
de castig pentru fiecare dintre jucatori, stiind ca pentru fiecare dintre ei probabilitatea de a obtine
fata cu stema este 0.5.
R: Notăm cu A1 − evenimentul ca primul jucator sa castige; A2 − evenimentul ca al doilea
jucator sa castige. Fie P(A1 ) = p si P(A2 ) = q. Atunci, p + q = 1. Mai notam cu S evenimentul
ca primul sa obtina stema la prima aruncare. Avem ca: P(S) = P(S) = 0.5, P(A1 /S) = 1,
P(A1 /S) = q (daca primul nu da stema la prima aruncare, atunci rolurile celor doi jucatori se
inverseaza). Folosind formula probabilitatilor totale, obtinem:
1 1
p = P(A1 ) = P(S)P(A1 /S) + P(S)P(A1 /S) = + q.
2 2
Rezolvand sistemul
1 1
p + q = 1, + q = p,
2 2
gasim ca p = 23 si q = 13 .
3.5 Exerciţii propuse 61

3.5 Exerciţii propuse

Exerciţiu 3.5.1 Doi studenţi aruncă fiecare câte o săgeată la ţintă. Primul nimereşte ţinta cu
probabilitatea 3/4 şi al doilea nimereşte ţinta cu probabilitatea 5/6. Care este probabilitatea ca
ţinta să fie atinsă?
Exerciţiu 3.5.2 Sase vanatori au vazut o vulpe si au tras asupra ei simultan. Presupunem ca
fiecare vanator are aceeasi sansa de a tinti vulpea, egala cu 1/3. Scrieti campul de probabilitate
si determinati probabilitatea ca vulpea sa fi fost atinsa.
Exerciţiu 3.5.3 (1) Familia Petrescu are doi copii. Unul dintre copii este o fată. Care este
probabilitatea ca ambii copii să fie fete?
(2) Familia Petrescu are doi copii. Unul dintre copii este o fată, născută în luna Mai. Care este
probabilitatea ca ambii copii să fie fete?
Exerciţiu 3.5.4 În Exerciţiul 3.4.3, considerati cazul in care nu avem convingerea ca probabilita-
tile de a fi fata sau baiat sunt egale. De exemplu, considerati cazul in care sansa ca o fata sa se
nasca in familia Petrescu este de 60% si nu de 50%.
Exerciţiu 3.5.5 În anumite familii, părinţii continuă să aibă copii pâna au cel puţin câte un copil
de fiecare sex. Să presupunem că probabilitatea de a avea un copil, indiferent de sex, este 0.5.
Pentru astfel de familii, care este probabilitatea de a avea 4 copii?
Exerciţiu 3.5.6 A şi B sunt două evenimente posibile. Arătaţi că, dacă PA (B) = P(B), atunci şi
PB (A) = P(A). Interpretaţi rezultatul.
Exerciţiu 3.5.7 Dacă P(A) = 0.25 şi P(B/A) = 0.5, aflaţi P(A ∩ B).
Exerciţiu 3.5.8 Fie A şi B două evenimente independente. Arătaţi că şi următoarele perechi de
evenimente sunt, de asemenea, independente: A şi B, A şi B, A şi B.
Exerciţiu 3.5.9 Într-un buzunar se află 10 monede, dintre care una are două steme, restul fiind
corecte. Alegem la întâmplare o monedă din buzunar şi o aruncăm de 5 ori. De fiecare dată a
apărut stema. Care sunt şansele ca ea să fie moneda măsluită?
Exerciţiu 3.5.10 O monedă ideală este aruncată de 10 ori. Care este probabilitatea să nu apară
două steme consecutive? Dar probabilitatea evenimentului ca feţe de acelaşi tip să nu apară
consecutiv?
Exerciţiu 3.5.11 In Asia, 10% dintre barbati sunt analfabeti si 15% dintre femei sunt analfabete.
Populatia Asiei este impartita astfel: 40% barbati si 60% femei. Se alege aleator o persoana din
Asia.
(a) Care este probabilitatea ca acea persoana sa fie analfabeta?
(b) Dacă persoana aleasă este analfabeta, care este probabilitatea sa fie barbat?
Exerciţiu 3.5.12 Considerăm evenimentele A şi B astfel încât P(A) = 0.4 şi probabilitatea ca
niciunul dintre ele să nu se realizeze este 0.3. Aflaţi probabilitatea lui B dacă:
• A şi B sunt incompatibile.
• A şi B sunt independente.
Exerciţiu 3.5.13 Două persoane aruncă o monedă ideală, pe rând, fiecare de n ori. Aflaţi
probabilitatea ca ele să obţină acelaşi număr de steme.
Exerciţiu 3.5.14 Se aruncă o monedă corectă de mai multe ori, până apare una dintre secvenţele
SS sau SB. În medie, SB apare înaintea secvenţei SS, deşi, la aruncarea de două ori a unei monede
corecte, ambele secvenţe au probabilitatea 1/4 de a apărea.
Exerciţiu 3.5.15 A, B, C sunt evenimente astfel încât

P(A ∩ B ∩C) = 0.1, P(A) = 0.5 şi P(B/A) = 0.4.

Determinaţi probabilitatea P(C/A ∩ B).

62 Capitolul 3. Probabilităţi condiţionate

Exerciţiu 3.5.16 O cutie opacă conţine două monede: una corectă şi una cu două steme. Scoatem
la întâmplare o monedă din cutie şi o aruncăm de n ori, obţinând de fiecare dată stema. Care sunt
şansele să fi scos moneda măsluită? Cunoscând doar rezultatele aruncărilor, vom şti vreodată cu
siguranţă ce monedă am scos?
Exerciţiu 3.5.17 Sultanul îl prinde pe Ali-Baba şi doreşte să îl pedepsească. Totuşi, se gândeşte
să-i mai dea o şansă, spunându-i: ”Ali, ai 10 bile albe şi 10 bile negre. Aşază bilele cum doreşti
în cele două urne, astfel încât nicio urnă să nu fie goală. Apoi, eu voi alege, la întâmplare, o urnă,
din care voi extrage o bilă. Dacă bila este albă, scapi nepedepsit. Altfel, vei muri.” Ajutaţi-l pe
Ali să-şi maximizeze şansele de supravieţuire.
Exerciţiu 3.5.18 La un spectacol TV aveti de ales una dintre cele 3 usi din fata. In spatele unei
usi se afla o masina, iar in spatele a celorlalte doua usi se afla cate o capra. Alegeti o usa din cele
3, insa gazda emisiunii, care stie ce se afla dincolo de usi, deschila o usa din cele ramasa si iti
arata ca se afla o capra. Totodata, gazda te intreaba daca vrei sa schimbi usa deja aleasa. O vei
face? De ce?
Exerciţiu 3.5.19 Aruncă două monede corecte legat la ochi. Cineva ît, i spune că ai aruncat cel
put, in o stemă. Care este probabilitatea ca ambele aruncări să fie steme?
4. Variabile aleatoare

. Two random variables were talking in a bar.

. They thought they were being discrete but they were continuously giggling.

4.1 Introducere
În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare reală. Se
numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece valorile
observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea numerică
este un număr real. Deoarece aceste variabile sunt legate de nişte experimente aleatoare, vom
asocia probabilităţi tuturor valorilor lor posibile. Aceste probabilităţi descriu, de fapt, şansele ca
fiecare valoare posibilă să fie observată.
Aşadar, din punct de vedere euristic, o variabilă aleatoare reală este o funcţie ce atribuie valori
reale unor probe dintr-un spaţiu de selecţie Ω al unui experiment aleator. În viaţă de zi cu zi
întâlnim numeroase astfel de funcţii, e.g., numerele ce apar la extragerea loto, numărul clienţilor
deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a unei persoane într-o
staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de clasa a IV-a la un
test de matematică etc.
Variabilele aleatoare le vom nota cu litere de la sfârşitul alfabetului, X, Y, Z sau ξ , η, ζ etc.

Exemplu 4.1.1 Un exemplu simplu de variabilă aleatoare reală este următorul. Considerăm
experimentul aleator al aruncării unei monede. Acest experiment poate avea doar două rezultate
posibile, notate S (stema) şi B (banul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui
experiment aleator îi putem ataşa funcţia (variabila aleatoare reală) X, care asociază feţei S
valoarea 1 şi feţei B valoarea 0. Matematic, scriem astfel: X : Ω → R, X(S) = 1, X(B) = 0.
Astfel, valorile 1 şi 0 pentru X vor indica faţa apărută la aruncarea monedei. O astfel de variabilă
64 Capitolul 4. Variabile aleatoare

aleatoare se numeşte variabilă aleatoare Bernoulli şi poate fi ataşată oricărui eveniment aleator
ce are doar două rezultate posibile, numite generic succes şi eşec.

Variabilele aleatoare pot fi: discrete, continue sau mixte. Variabilele aleatoare discrete sunt cele
care pot lua o mulţime finită sau cel mult numărabilă de valori. O variabilă aleatoare se numeşte
variabilă aleatoare continuă (sau de tip continuu) dacă mulţimea tuturor valorilor sale este
totalitatea numerelor dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune
disjunctă de astfel de intervale, cu precizarea că pentru orice posibilă valoare c, P(X = c) = 0. O
variabilă aleatoare mixtă este o combinaţie de două sau mai multe variabile aleatoare dicrete sau
continue. Variabilele anterioare mixte sunt mai puţin întâlnite decât celelalte două.
Exemple de variabile aleatoare discrete: numărul feţei apărute la aruncarea unui zar, numărul
de apariţii ale unui tramvai într-o staţie într-un anumit interval, numărul de insuccese apărute
până la primul succes etc. Din clasa variabilelor aleatoare de tip continuu amintim: timpul de
aşteptare la un ghişeu până la servire, preţul unui activ financiar într-o perioadă bine determinată.
Un exemplu de variabilă aleatoare mixtă: dacă timpul de aşteptare la un ghişeu este mai mare de
5 minute, firma te răsplăteşte cu 5 RON.

4.2 Variabile aleatoare discrete

Pentru a specifica o variabilă aleatoare discretă, va trebui să enumerăm toate valorile posibile pe
care aceasta le poate lua, împreună cu probabilităţile aferente. Suma tuturor acestor probabilităţi
va fi întotdeauna egală cu 1, care este probabilitatea lui Ω (spaţiul selecţiilor). Când se face
referire la repartiţia unei variabilă aleatoare discrete, se înţelege modul în care probabilitatea
totală 1 este distribuită între toate posibilele valori ale variabilei aleatoare. Presupunem că
variabila aleatoare poate lua valorile x1 , x2 , . . . , xn , . . . Pentru o scriere compactă, adeseori unei
variabilă aleatoare discrete i se atribuie una dintre următoarele reprezentări:

tabloul de repartiţie tabelul de repartiţie

Å ã
x1 x2 x3 ... xn ... xk x1 x2 x3 . . . xn ...
X: (4.2.1)
p1 p2 p3 ... pn ... pk p1 p2 p3 . . . pn ...

unde i ∈ J ⊂ N, pi = P({X = xi }) (probabilitatea ca variabila X să ia valoarea xi ) şi ∑ pi = 1.

i∈J
În cuvinte, pi este probabilitatea ca variabilă aleatoare X să ia valoarea xi . Toate probabilităţile
sunt pozitive (pi > 0) şi suma tututor probabilităţilor corespunzătoare valorilor unei variabilă
aleatoare discrete este egală cu 1.

Dacă variabila aleatoare X poate lua un număr finit de valori, x1 , x2 , . . . , xn , atunci scriem

tabloul de repartiţie tabelul de repartiţie

Å ã
x1 x2 . . . xn xk x1 x2 x3 . . . xn
X: (4.2.2)
p1 p2 . . . pn pk p1 p2 p3 . . . pn

unde pi = P({X = xi }), i = 1, 2, . . . , n.

4.2 Variabile aleatoare discrete 65

Exemplu 4.2.1 Urmărim timpul de funcţionare a unui anumit tip de baterie şi ne interesează să
vedem dacă bateria a funcţionat mai mult de 1 an, cât are perioada de garanţie. Atunci, putem
considera o variabilă aleatoare X care să indice dacă bateria a funcţionat mai mult de 1 an.
Matematic, putem scrie această variabilă astfel:
®
1, dacă bateria a funcţionat mai mult de 1 an
X=
0, dacă bateria a funcţionat mai puţin de 1 an

O astfel de variabilă aleatoare discretă se numeţe variabilă aleatoare indicator.

Exemplu 4.2.2 Presupunem că X este variabila aleatoare ce reprezintă faţa ce apare la aruncarea
unei monede ideale. Această variabilă aleatoare ia valorile S şi B, cu ponderile asociate toate
egale cu 1/2. Această variabilă o mai putem reprezenta în una din următoarele forme:
tabloul de repartiţie tabelul de repartiţie

S B S B
Å ã
xk
X:
1/2 1/2 pk 1/2 1/2

Exemplu 4.2.3 Presupunem că X este variabila aleatoare ce reprezintă numărul de puncte ce
apare la aruncarea unui zar ideal. Această variabilă aleatoare ia valorile 1, 2, 3, 4, 5, 6, cu ponde-
rile asociate toate egale cu 1/6. Această variabilă o mai putem reprezenta în una din următoarele
forme:
tabloul de repartiţie tabelul de repartiţie
Å ã
1 2 3 4 5 6 xk 1 2 3 4 5 6
X:
1/6 1/6 1/6 1/6 1/6 1/6 pk 1/6 1/6 1/6 1/6 1/6 1/6

Exemplu 4.2.4 (repartiţia Poisson1 ) Pentru un λ > 0, considerăm variabila aleatoare X care
are ca valori toate numerele naturale, cu ponderile respective:

λk
P(X = k) = e−λ , ∀k ∈ N.
k!
Vom spune astfel că variabila aleatoare X urmează repartiţia Poisson de parametru λ . Matematic,
scriem X ∼ P(λ ). Valorile sale reprezintă numărul evenimentelor spontane (cu intensitatea λ )
realizate într-un anumit interval de timp. Această variabilă aleatoare o putem reprezenta în una
dintre următoarele forme:
tabloul de repartiţie tabelul de repartiţie
Ç å
0 1 2 ··· k ··· xk 0 1 2 ··· n ···
X: 2 k 2 k
e−λ e−λ 1!
λ
e−λ λ2! ··· e−λ λk! ··· pk e−λ e−λ 1!
λ
e−λ λ2! ··· e−λ λk! ···

1 Siméon-Denis Poisson (1781 − 1840), matematician şi fizician francez, student al lui Laplace
66 Capitolul 4. Variabile aleatoare

4.2.1 Operaţii cu variabile aleatoare discrete

Suma şi produsul cu o constantă

Dacă c ∈ R∗ este o constantă şi X este o variabilă aleatoare ca în (4.2.2), atunci c + X şi cX sunt
tot variabile aleatoare, ce au tablourile de repartiţie

Å ã Å ã
c + x1 c + x2 c + x3 . . . c + xn c · x1 c · x2 c · x3 . . . c · xn
c+X : cX :
p1 p2 p3 ... pn p1 p2 p3 ... pn

Exemplu 4.2.5 Notăm cu X este variabila aleatoare ce reprezintă numărul apărut la aruncarea
unui zar ideal Dacă la toate numerele de pe feţele unui zar se adaugă valoarea 10, atunci variabila
aleatoare ce reprezintă numărul apărut va fi Y = X + 10, cu tabloul de repartiţie
Å ã
11 12 13 14 15 16
X + 10 :
1/6 1/6 1/6 1/6 1/6 1/6
Dacă toate numerele de pe feţele unui zar se dublează, atunci variabila aleatoare ce reprezintă
numărul apărut va fi Z = 2 · X, cu tabloul de repartiţie
Å ã
2 4 6 8 10 12
2·X :
1/6 1/6 1/6 1/6 1/6 1/6
Adunarea variabilelor aleatoare

Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie

Å ã Å ã
x1 x2 x3 . . . xm y1 y2 y3 . . . yn
X: Y:
p1 p2 p3 . . . pm q1 q2 q3 . . . qn

atunci X +Y = Y + X este tot o variabilă aleatoare, ce are tabloul de repartiţie

Å ã
x1 + y1 x1 + y2 . . . xi + y j . . . xm + yn
X +Y :
r11 r12 ... ri j ... rmn

Aici, ri j este probabilitatea realizării simultane a evenimentelor {X = xi } şi {Y = y j }.

În cuvinte, tabloul variabilei X +Y va conţine toate sumele posibile realizate cu elementele lui X
şi Y . Dacă o valoare de tipul xi + y j se repetă, atunci ea va fi scrisă o singură dată în tabloul lui
X +Y , iar probabilităţile aferente se vor aduna.
Exemplu 4.2.6 Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie
Å ã Å ã
−1 0 0 1 2
X: Y:
1/2 1/2 1/2 1/4 1/4
atunci variabila aleatoare X +Y va avea tabloul de repartiţie
Å ã
−1 + 0 −1 + 1 −1 + 2 0 + 0 0+1 0+2
X +Y :
1/4 1/8 1/8 1/4 1/8 1/8
4.2 Variabile aleatoare discrete 67

Scriind doar o dată valorile care se repetă şi adunând probabilităţile aferente, găsim că
Å ã
−1 0 1 2
X +Y :
2/8 3/8 2/8 1/8

Produsul variabilelor aleatoare

Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie

Å ã Å ã
x1 x2 x3 . . . xm y1 y2 y3 . . . yn
X: Y:
p1 p2 p3 . . . pm q1 q2 q3 . . . qn

atunci X ·Y = Y · X este tot o variabilă aleatoare, ce are tabloul de repartiţie

Å ã
x1 · y1 x1 · y2 . . . xi · y j . . . xm · yn
X ·Y :
r11 r12 ... ri j ... rmn

Aici, ri j este probabilitatea realizării simultane a evenimentelor {X = xi } şi {Y = y j }.

În cuvinte, tabloul variabilei X ·Y va conţine toate produsele posibile realizate cu elementele lui
X şi Y . Dacă o valoare de tipul xi · y j se repetă, atunci ea va fi scrisă o singură dată în tabloul lui
X ·Y , iar probabilităţile aferente se vor aduna.
Exemplu 4.2.7 Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie
Å ã Å ã
−1 0 0 1 2
X: Y:
1/2 1/2 1/2 1/4 1/4
atunci variabila aleatoare X ·Y va avea tabloul de repartiţie
Å ã
−1 · 0 −1 · 1 −1 · 2 0 · 0 0 · 1 0 · 2
X ·Y :
1/4 1/8 1/8 1/4 1/8 1/8
Scriind doar o dată valorile care se repetă şi adunând probabilităţile aferente, găsim că
Å ã
−2 −1 0
X ·Y :
1/8 1/8 6/8

Ridicarea la putere a unei variabile aleatoare

Dacă X este o variabilă aleatoare ce are tabloul de repartiţie

Å ã
x1 x2 x3 . . . xn
X:
p1 p2 p3 . . . pn
şi p este un număr real, atunci definim puterea variabilei aleatoare X, notată prin X p , o variabilă
aleatoare ce are tabloul de repartiţie
Å p
x1 x2p x3p . . . xnp
ã
p
X :
p1 p2 p3 . . . pn
La fel, dacă o valoare de tipul xip se repetă, atunci ea va fi scrisă o singură dată în tabloul lui X p ,
iar probabilităţile aferente se vor aduna.
68 Capitolul 4. Variabile aleatoare

Exemplu 4.2.8 Dacă X este variabila aleatoare ce are tabloul de repartiţie

Å ã
−2 −1 0 1 2
X:
1/5 1/5 1/5 1/5 1/5

atunci variabila aleatoare X 4 va avea tabloul de repartiţie

(−2)4 (−1)4 04 14 24
Å ã
4
X :
1/5 1/5 1/5 1/5 1/5

Scriind doar o dată valorile care se repetă şi adunând probabilităţile aferente, găsim că
Å ã
4 0 1 16
X :
1/5 2/5 2/5

Definiţie 4.2.1 Dacă X este o variabilă aleatoare discretă de forma (4.2.2), atunci definim
funcţia de probabilitate (de frecvenţă) (en., probability mass function) ataşată variabilei aleatoare
discrete X ca fiind o funcţie f : R → [0, 1], definită prin

f (xi ) = pi , i = 1, 2, 3, . . . , n.

În cuvinte, pentru fiecare posibilă valoare a unei variabilă aleatoare discrete, funcţia de probabili-
tate ataşează probabilitatea cu care X ia această valoare. Funcţia f are proprietatea că

n
f (xi ) ≥ 0 şi ∑ f (xi) = 1.
i=1

Exemplu 4.2.9 Reamintim că, pentru experimentul aruncării unui zar ideal, variabila aleatoare
(discretă) ataşată este
Å ã
1 2 3 4 5 6
X:
1/6 1/6 1/6 1/6 1/6 1/6

În Figura 4.1 de mai jos am reprezentat grafic funcţia de probabilitate pentru variabila aleatoare
X ce afişează numărul apărut la aruncarea unui zar ideal. Această funcţie este

f : {1, 2, 3, 4, 5, 6} → [0, 1], definită prin:



 1/6, dacă apare faţa 1

1/6, dacă apare faţa 2





1/6, dacă apare faţa 3
f (x) =
 1/6, dacă apare faţa 4
Figura 4.1: Graficul funcţiei de probabilitate





 1/6, dacă apare faţa 5 corespunzătoare aruncării unui zar

1/6, dacă apare faţa 6

După cum vom vedea în continuare, funcţia de probabilitate este pentru o variabilă aleatoare
discretă ceea ce o densitate de repartiţie este pentru o variabilă aleatoare continuă.
4.3 Variabile aleatoare de tip continuu 69

4.3 Variabile aleatoare de tip continuu

O variabilă aleatoare se numeşte de tip continuu dacă variabila ia o mulţime infinită nenumărabilă
de valori, de obicei valorile unui interval sau toate valorile reale.
Graficul unei distribuţii de probabilitate de tip continuu este
o curbă. Probabilitatea este reprezentată de aria de sub curbă.
Funcţia care defineşte curba se numeşte densitate de probabi-
litate (scriem prescurtat pdf). Folosim simbolul f (x) pentru
a nota densitatea de probabilitate.
Zona de sub curbă este reprezentată de o funcţie diferită,
numită funcţia de repartiţie (prescurtată ca cdf), pe care
o vom nota cu F(x). Funcţia de repartiţie este utilizată
în avalua probabilitatea ca fiind o arie (aria subgraficului
funcţiei f (x)).

Figura 4.2: (a) repartiţia uniformă pe intervalul [0, 1] (b) repartiţia normală standard

Pentru ca o funcţie reală să poată fi o densitate de repartiţie a unei variabile aleatoare, ea trebuie
sa satisfacă următoarele condiţii:
Z ∞
[1] f (x) ≥ 0, [2] f (x) dx = 1.
−∞

Exemplu 4.3.1 Funcţia f : R → R definită prin

ß
1 , x ∈ [0, 1]
f (x) = (4.3.3)
0 ,x∈ 6 [0, 1]
este o densitatea de repartiţie ce corespunde unei variabile aleatoare uniform continue pe interva-
lul [0, 1] (vezi Figura 4.2 (a)).
Exemplu 4.3.2 (repartiţia normală standard) Spunem că o variabilă aleatoare X urmează o
repartiţie normalăstandard, scris sub forma X ∼ N (0, 1), dacă densitatea de repartiţie a lui X
este (reprezentarea grafică este în Figura 4.2 (b)):
1 x2
f (x) = √ e− 2 , x ∈ R. (4.3.4)
2π
Această repartiţie se mai numeşte şi repartiţia gaussiană.

În practică, repartiţia unei variabilă aleatoare discrete va fi reprezentată de un tablou (tabel) de

repartiţie, iar repartiţia unei variabilă aleatoare continue va fi reprezentată de densitatea sa de
repartiţie.
70 Capitolul 4. Variabile aleatoare

Funcţia de probabilitate sau densitatea de repartiţie poate depinde de unul sau mai mulţi parametri
reali.
Considerăm un câmp de probabilitate (Ω, F , P) şi fie X o variabilă aleatoare reală definită pe
acest câmp. În continuare, vom introduce diverse caracteristici (numerice şi funcţionale) pentru
variabilele aleatoare.

4.4 Independenţa variabilelor aleatoare

Conceptul de independenţă a variabilă aleatoare sau a evenimentelor este foarte important din
punctul de vedere al calculului probabilităţilor evenimentelor compuse din evenimente mai
simple.

Definiţie 4.4.1 (i) Spunem că două variabilele aleatoare X şi Y sunt independente dacă pentru
orice a, b ∈ R, evenimentele {X ≤ a} şi {Y ≤ b} sunt independente, adică:

P({X ≤ a} ∩ {X ≤ b}) = P(X ≤ a) · P(Y ≤ b).

(ii) Spunem că variabilele aleatoare {Xi }ni=1 sunt independente dacă pentru orice set de numere
reale a1 , a2 , . . . , an , are loc:

P ({X1 ≤ a1 } ∩ {X2 ≤ a2 } ∩ · · · ∩ {Xn ≤ an }) = P(X1 ≤ a1 ) · P(X2 ≤ a2 ) · . . . · P(Xn ≤ an ).

Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie

Å ã Å ã
x1 x2 x3 . . . xm y1 y2 y3 . . . yn
X: Y:
p1 p2 p3 . . . pm q1 q2 q3 . . . qn

atunci variabilele aleatoare X +Y şi X ·Y vor fi:

Å ã
x1 + y1 x1 + y2 . . . xi + y j . . . xm + yn
X +Y :
p1 · q1 p1 · q2 . . . pi · q j . . . pm · qn
Å ã
x1 · y1 x1 · y2 ... xi · y j ... xm · yn
X ·Y :
p1 · q1 p1 · q2 ... pi · q j ... pm · qn
Exemplu 4.4.1 Să considerăm aruncarea unui zar. Aruncăm zarul de două ori şi notăm cu X1 ,
respectiv, X2 , variabilă aleatoare ce reprezintă numărul de puncte apărute la fiecare aruncare.
Evident, valorile acestor variabilă aleatoare sunt din mulţimea {1, 2, 3, 4, 5, 6}. Aşadar,
Xi : Ω → {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:
1
P ({X1 = i} ∩ {X2 = j}) = P ({X1 = i, X2 = j}) =
36
= P({X1 = i}) · P({X2 = j}), ∀i, j ∈ {1, 2, 3, 4, 5, 6},
această însemnând că variabilele aleatoare X1 şi X2 sunt independente stochastic (aruncările au
fost efectuate independent una de cealaltă).
4.5 Caracteristici numerice ale unei variabile aleatoare 71

4.5 Caracteristici numerice ale unei variabile aleatoare

4.5.1 Media (sau valoarea aşteptată)
(en., expected value; fr., espérance; ger., Erwartungswert)

Definiţie 4.5.1 Dacă X este o variabilă aleatoare discretă având tabelul de repartiţie (4.2.2) şi
funcţia de probabilitate f , atunci media acestei variabilă aleatoare se defineşte prin:

E(X) = p1 x1 + p2 x2 + p3 x3 + . . . + pn xn . (4.5.5)

Definiţie 4.5.2 Dacă X este o variabilă aleatoare de tip continuu, cu densitatea de repartiţie
f : R → R, atunci media (teoretică) acestei variabilă aleatoare, dacă există (!) (nu toate variabilele
aleatoare de tip continuu admit medie), se defineşte astfel:
Z ∞
E(X) = x f (x)dx. (4.5.6)
−∞

Proprietăţi 4.5.1

1. E(c) = c, ∀c ∈ R. În particular, E(E(X)) = E(X).

2. Dacă X = Y şi E(X), E(Y ) există, atunci E(X) = E(Y ).
3. Dacă X ≥ 0 atunci E(X) ≥ 0.
4. Dacă X ≤ Y şi E(X), E(Y ) există, atunci E(X) ≤ E(Y ).
5. E(aX + bY ) = aE(X) + bE(Y ), ∀a, b ∈ R, ∀X, Y v.a. ce admit medie.
6. |E(X)| ≤ E(|X|), pentru orice v.a. X.
Definiţie 4.5.3 Fie X este o variabilă aleatoare discretă având tabelul de repartiţie (4.2.2) şi
funcţia de probabilitate f . Atunci, pentru orice funcţie continuă h(x), media variabilă aleatoare
h(X) (dacă există) se defineşte prin:

E(h(X)) = p1 h(x1 ) + p2 h(x2 ) + p3 h(x3 ) + . . . + pn h(xn ).

Definiţie 4.5.4 Dacă X este o variabilă aleatoare de tip continuu, cu densitatea de repartiţie
f : R → R. Atunci, pentru orice funcţie continuă h(x), media variabilă aleatoare h(X) (dacă
există) se defineşte prin: Z ∞
E(h(X)) = h(x) f (x)dx.
−∞

4.5.2 Dispersia (varianţa)

Dacă X este o variabilă aleatoare care admite medie. Variabila aleatoare X = X − E(X) (numită
abaterea lui X de la media sa), atunci E(X) = 0. Aşadar, nu putem măsură gradul de împrăştiere
a valorilor lui X în jurul mediei sale doar calculând X − E(X). Avem nevoie de o altă măsură.
Aceasta este dispersia variabilei aleatoare.

Definiţie 4.5.5 Dacă X este o variabilă aleatoare discretă având tabelul de repartiţie (4.2.2), cu
media E(X) = m, definim dispersia lui X (notată Var(X) sau Var(X)) ca fiind:

Var(X) = E[(X −m)2 ] = p1 (x1 −m)2 + p2 (x2 −m)2 + p3 (x3 −m)2 +. . .+ pn (xn −m)2 . (4.5.7)
72 Capitolul 4. Variabile aleatoare

Definiţie 4.5.6 Fie X : Ω → R o variabilă aleatoare de tip continuu pentru care există E(X) =
m ∈ R. Definim dispersia lui X (sau varianţa lui X) cantitatea
Z ∞
2
Var(X) = E[(X − m) ] = (x − m)2 f (x) dx. (4.5.8)
−∞

Notaţiile consacrate pentru dispersie sunt Var(X), σX2 sau, simplu, σ 2 , dacă nu este pericol de
confuzie. Alte formule pentru dispersie:
 Ç å2
2

∑ xi pi − ∑ xi pi , în cazul discret



2 2
Var(X) = E[X ] − [E(X)] = Z ∞
i∈J
Åi∈J
Z ∞ ã2

2
x f (x) dx − x f (x) dx , în cazul continuu



−∞ −∞

Proprietăţi 4.5.2

1. Dispersia este întotdeauna ne-negativă, adică Var(X) ≥ 0, pentru orice v.a. X

2. Dispersia unei constante este 0, adică Var(c) = 0, ∀c ∈ R.
3. Dispersia produsului dintre o constantă şi o variabile aleatoare este egală cu produsul
dintre pătratul constantei şi dispersia variabilei aleatoare, adică Var(aX) = a2Var(X).
4. Dacă două variabile aleatoare diferă printr-o constantă, atunci ele au dispersii egale,
adică Var(X + a) = Var(X), ∀a ∈ R.
5. Dacă X1 , X2 , . . . , Xn sunt variabile aleatoare independente, ce admit dispersii, atunci
dispersia sumei lor va fi egală cu suma dispersiilor, adică

Var(X1 + X2 + . . . + Xn ) = Var(X1 ) +Var(X2 ) + . . . +Var(Xn ).

Definiţie 4.5.7 √Numimpabatere standard (sau deviaţie standard, sau deviaţie medie pătratică)
cantitatea σ = σ2 = Var(X).

4.5.3 Standardizarea unei variabile aleatoare

Fie variabila aleatoare X, de medie m şi dispersie σ 2 .

X −m
Definiţie 4.5.8 Variabila aleatoare Y = se numeşte variabila aleatoare standardizată
σ
(sau normată).

Proprietăţi: E(Y ) = 0, Var(Y ) = 1.

4.5.4 Momente
Pentru o variabilă aleatoare X (discretă sau continuă), ce admite medie, momentele sunt valorile
aşteptate ale puterilor variabilei aleatoare X sau X − µ.
4.5 Caracteristici numerice ale unei variabile aleatoare 73

Pentru o variabilă aleatoare X discretă, cu E(X) = m şi pi = P(Ai ), i = 1, 2, . . . , n, momentele

sunt valorile aşteptate ale puterilor variabilă aleatoare X sau X − µ. Definim astfel:

αk (X) = p1 x1k + p2 x2k + p3 x3k + . . . + pn xnk (momente iniţiale de ordin k);

µk (X) = p1 (x1 − m) + p2 (x2 − m) + p3 (x3 − m) + . . . + pn (xn − m)k
k k k

(momente iniţiale centrate de ordin k);

Pentru o v.a. X de tip continuu ce admite medie m = E(X) < ∞, definim momentele:
Z ∞
αk (X) = xk f (x) dx (momente iniţiale de ordin k);
Z −∞
∞
µk (X) = (x − m)k f (x) dx (momente iniţiale centrate de ordin k);
−∞

Momente speciale:

• α1 (X) = E(X) = m;

• µ2 (X) = Var(X) = σ 2 ;

µ3 (X)
• γ1 = este coeficientul de asimetrie (en., skewness);
σ3
O repartiţie este simetrică dacă γ1 = 0. Vom spune că asimetria este pozitivă (sau la
dreapta) dacă γ1 > 0 şi negativă (sau la stânga) dacă γ1 < 0.

µ4 (X)
• K= − 3 este excesul (coeficientul de aplatizare sau boltire) (en., kurtosis).
σ4
Este al patrulea moment standardizat şi apoi translatat cu −3. Termenul (−3) apare pentru
că indicele kurtosis al distribuţiei normale să fie egal cu 0.
Indică dacă repartiţia unei variabile are valori extreme (outliers). Termenul (−3) apare
pentru că indicele kurtosis al distribuţiei normale să fie egal cu 0. Vom avea o repartiţie
mezocurtică pentru K = 0, leptocurtică pentru K > 0 sau platocurtică pentru K < 0.

4.5.5 Cuantile
Fie X o variabilă aleatoare cu funcţia de repartiţie F(x) = P(X ≤ x).

Definiţie 4.5.9 Pentru α ∈ (0, 1), definim cuantila de ordin α valoarea xα ∈ R astfel încât:

xα = min{x ∈ R; F(x) ≥ α}. (4.5.9)

Dacă X este o variabilă aleatoare de tip continuu şi F(x) este strict crescătoare pe R, atunci xα
este unica valoare pentru care

F(xα ) = α (echivalent cu xα = F −1 (α)). (4.5.10)

74 Capitolul 4. Variabile aleatoare

Observaţie 4.5.1 (1) Cuantilele sunt măsuri de poziţie, ce măsoară locaţia unei anumite valori
faţă de restul valorilor. Ele sunt unice doar dacă variabila aleatoare este continuă şi F(x) este
strict crescătoare.
(2) În cazul în care X este o variabilă aleatoare discretă, este posibil să avem mai mult de o
cuantilă de ordin α pentru X. În acest caz, există o infinitate de soluţii, şi anume valorile dintr-un
interval (vezi Figura 4.4, unde toate valorile din intervalul [x1 , x2 ] sunt α−cuantile).
(3) Aşa cum se poate observa din Figura 4.3, valoarea xα pentru o repartiţie continuă este acel
număr real pentru care aria haşurată este chiar α.

Figura 4.4: Cuantile de ordin α pentru o

Figura 4.3: Cuantila de ordin α pentru o repartiţie discretă
repartiţie continuă
(4) Cazuri particulare de cuantile:
• pentru a face o împărţire a subgraficului funcţiei de densitate f (x) în două arii egale (adică,
α = 1/2) folosim mediana. Astfel, F(Me) = 0.5. Mediana (notata Me) este valoarea care
imparte repartitia in doua parti in care variabila X ia valori cu probabilitati egale. Scriem
asta astfel:
P(X ≤ Me) = P(X ≥ Me) = 0.5.
Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media
pentru tendinta centrala a valorilor variabilei.
• pentru a face o împărţire a subgraficului funcţiei de densitate f (x) în patru arii egale
(adică, α = i/4, i ∈ {1, 2, 3}), folosim cuartilele. Prima cuartila, Q1 , este acea valoare
pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.25. Scriem asta astfel:
P(X ≤ Q1 ) = 0.25. Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia,
Q3 , este acea valoare pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.75.
Scriem asta astfel: P(X ≤ Q3 ) = 0.75.
• pentru a face o împărţire a subgraficului funcţiei de densitate f (x) în zece arii egale (adică,
α = j/10, j ∈ {1, 2, . . . , 9}), folosim decilele. Prima decila este acea valoare pentru care
probabilitatea ca X sa ia o valoare la stanga ei este 0.1.
• pentru a face o împărţire a subgraficului funcţiei de densitate f (x) în o sută de arii egale
(adică, α = j/100, j ∈ {1, 2, . . . , 99}). folosim centilele. Prima centila este acea valoare
pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.01.
(5) Dacă X ∼ N (0, 1), atunci cuantilele de ordin α le vom nota prin zα .

4.5.6 Modul
Este acea valoare x∗ pentru care f (x∗ ) (densitatea de repartiţie sau funcţia de probabilitate) este
maximă. O repartiţie poate să nu aibă niciun mod, sau poate avea mai multe. Spre exemplu,
4.6 Funcţia de repartiţie 75

repartiţia uniform discretă (spre exemplu, v.a. ce reprezintă punctele apărute la aruncarea unui
zar ideal) nu are niciun mod, iar repartiţia normală este unimodală.

4.6 Funcţia de repartiţie

Numim funcţie de repartiţie ataşată v.a. reale X o funcţie F : R → [0, 1], definită prin

F(x) = P({X ≤ x}), pentru orice x ∈ R.

Termenul din engleză pentru funcţia de repartiţie este cumulative distribution function (cdf).

Proprietăţi ale funcţiei de repartiţie:

• este crescătoare (F(x) ≤ F(y), ∀x, y ∈ R, x ≤ y);
• este continuă la dreapta (lim F(y) = F(x), ∀x ∈ R);
y&x
• lim F(x) = 0 şi lim F(x) = 1.
x→−∞ x→∞
În cazul unei variabile aleatoare discrete, cu tabelul de repartiţie dat de (4.2.1), funcţia de
repartiţie este:
F(x) = ∑ pi , (4.6.11)
{i; xi ≤x}

adică suma tuturor probabilităţilor corespunzătoare valorilor lui X care nu-l depăşesc pe x.
Exemplu 4.6.1 Considerăm variabila aleatoare ce are următorul tablou de repartiţie:
Å ã
1 2 3 4 5
X:
0.04 0.16 0.2 0.25 0.35
Funcţia de repartiţie a lui X este F : R −→ [0, 1], definită prin:



0, dacă x < 1,

0.04, dacă 1 ≤ x < 2,





0.04 + 0.16 = 0.2, dacă 2 ≤ x < 3,
F(x) =


0.04 + 0.16 + 0.2 = 0.4, dacă 3 ≤ x < 4,
0.04 + 0.16 + 0.2 + 0.25 = 0.65, dacă 4 ≤ x < 5,





0.65 + 0.35 = 1, dacă x ≥ 5.


Dacă X variabilă aleatoare discretă, atunci pentru orice două numere reale a şi b (a ≤ b), vom
avea:
P(a ≤ X ≤ b) = F(b) − F(a−), P(a < X ≤ b) = F(b) − F(a),
P(a ≤ X < b) = F(b−) − F(a−), P(a < X < b) = F(b−) − F(a).
Dacă X este o variabilă aleatoare continuă şi f este densitatea sa de repartiţie, atunci funcţia de
repartiţie este dată de formula:
Z x
F(x) = f (t) dt, x ∈ R. (4.6.12)
−∞
76 Capitolul 4. Variabile aleatoare

Dacă X variabilă aleatoare continuă, atunci pentru orice două numere reale a şi b (a ≤ b), vom
avea:
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b) = F(b) − F(a).
Observaţie 4.6.1 Deseori în calcule probabilistice, avem de calculat evenimentul P(X > x),
pentru un x ∈ R dat. Numim funcţie de repartiţie complementară, funcţia Fc : R → [0, 1], dată
prin F(x) = P(X > x) = 1 − F(x), ∀x ∈ R.

Regula celor 3 sigma

Fie X o variabilă aleatoare care ia valori nenegative şi pentru care media µ = E(X) < ∞. Atunci,
pentru orice a > 0 are loc inegalitatea:
σ2
P(|X − µ| ≥ a) ≤ pentru orice a > 0. (Cebîşev2 )
a2
Dacă în inegalitatea lui Cebîşev luăm a = kσ , unde k ∈ N, atunci obţinem:
1
P(|X − µ| ≥ kσ ) ≤ 2 ,
k
sau, echivalent:
1
P(|X − µ| < kσ ) ≥ 1 − 2 .
k
În cazul particular k = 3, obţinem regula celor 3σ :
1
P(|X − µ| ≥ 3σ ) ≤ ≈ 0.1.
9
sau
8
P(µ − 3σ < X < µ + 3σ ) ≥ , (4.6.13)
9
semnificând că o mare parte din valorile posibile ale variabilei aleatoare X se află în intervalul
[µ − 3σ , µ + 3σ ].
Teorema 4.6.1 Dacă X şi Y sunt variabile aleatoare independente şi g, h sunt două funcţii,
atunci şi variabilele aleatoare g(X) şi h(Y ) sunt independente.
În plus, dacă există mediile E(|g(X)|) şi E(|h(Y )|), atunci există şi E(|g(X) · h(Y )|) şi, în plus,
E(g(X) · h(Y )) = E(g(X)) · E(h(Y )).
Rezultatul poate fi generalizat la mai multe variabile aleatoare independente.
În particular, dacă funcţiile din rezultatul anterior sunt funcţiile identice, atunci obţinem:
Teorema 4.6.2 Dacă X1 , X2 , . . . , Xn sunt variabile aleatoare reale independente astfel încât
E(|Xk |) < ∞, ∀k = 1, 2, . . . , n,
atunci E(|X1 · X2 · . . . · Xn |) < ∞ şi:
E(X1 · X2 · . . . · Xn ) = E(X1 ) · E(X2 ) · . . . · E(Xn ). (4.6.14)
Teorema 4.6.3 Dacă X1 , X2 , . . . , Xn sunt variabile aleatoare reale independente astfel încât
Var(Xk ) < ∞, ∀k = 1, 2, . . . , n,
atunci Var(X1 + X2 + . . . + Xn ) < ∞ şi:
Var(X1 + X2 + . . . + Xn ) = Var(X1 ) +Var(X2 ) + . . . +Var(Xn ). (4.6.15)
2 Pafnuty Lvovich Chebyshev (1821 − 1894), matematician rus
4.6 Funcţia de repartiţie 77

4.6.1 Repartiţii discrete

În paranteză, am notat numele cu care repartiţia poate fi apelată în M ATLAB.

(1) Repartiµia uniform discret , U (n) (unid)

Scriem că X ∼ U (n), dacă valorile lui X sunt {1, 2, . . . , n}, cu probabilităţile asociate
1
P(X = k) = , k = 1, 2, . . . , n.
n
n+1 n2 − 1
Media şi dispersia sunt: E(X) = , Var(X) = .
2 12
D.p.d.v. practic, repartiţia uniformă reprezintă observarea unui rezultat elementar în urma unui
experiment aleator cu un număr finit de cazuri posibile echiprobabile. Spre exemplu:
• faţa care apare la aruncarea unei monede ideale este o v.a. repartizată U (2);
• numărul de puncte care apar la aruncarea unui zar ideal este o v.a. repartizată U (6).

(2) Repartiµia Bernoulli3 , B(1, p) (bino)

O variabilă aleatoare Bernoulli (scriem X ∼ B(1, p)) poate lua doar două valori, care sunt
formalizate matematic prin X = 1 (succes) sau X = 0 (insucces), cu probabilităţile P(X = 1) = p
şi P(X = 0) = 1 − p. Uneori, se foloseşte notaţia q = 1 − p.
Media şi dispersia sunt: E(X) = p, Var(X) = p(1 − p).
D.p.d.v. practic, o variabilă B(1, p) reprezintă numărul de succese obţinute într-o singură probă
a unui experiment de tip Bernoulli (are două variante de realizare: succes sau eşec). Spre
exemplu, numărul de steme apărute la aruncarea unei unei monede corecte poate fi modelat ca
fiind o v.a. B(1, 0.5).

(3) Repartiµia binomial , B(n, p): (bino)

Este un model matematic pentru schema bilei revenite (schema extragerilor cu repetiţie). Scriem
că X ∼ B(n, p) (n > 0, p ∈ (0, 1)), dacă valorile posibile ale lui X sunt {0, 1, . . . , n}, cu
probabilităţile asociate

P(X = k) = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n.

n
Dacă (Xk )k=1,n ∼ B(1, p) sunt independente stochastic, atunci X = ∑ Xk ∼ B(n, p).
k=1
n n
Media şi dispersia sunt: E(X) = ∑ E(Xk ) = np, Var(X) = ∑ Var(Xk ) = np(1 − p).
k=1 k=0
D.p.d.v. practic, o variabilă B(n, p) reprezintă numărul de succese obţinute în n repetiţii inde-
pendente ale unui experiment de tip Bernoulii (are două variante de realizare: succes sau eşec).
Spre exemplu, numărul de steme apărute în 15 aruncări ale unei monede corecte poate fi modelat
ca o v.a. binomială B(15, 0.5).

(4) Repartiµia hipergeometric , H (n, a, b) (hyge)

3 Jacob Bernoulli (1654 − 1705), matematician elveţian

78 Capitolul 4. Variabile aleatoare

Este un model matematic pentru schema bilei nerevenite (schema extragerilor fără repetiţie).
Scriem că X ∼ H (n, a, b) (n, a, b > 0) dacă

CakCbn−k
P(X = k) = n , pentru orice k ce satisface max(0, n − b) ≤ k ≤ min(a, n).
Ca+b

Observaţie 4.6.2 (i) Dacă X ∼ H (1, a, b), atunci X ∼ B(1, p), cu p = a+b
a
.
n
a+b−n
Media şi dispersia sunt: E(X) = ∑ E(Xk ) = np, Var(X) = np(1 − p) .
k=0 a+b−1
n
În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între Var(X) şi ∑ Var(Xk ),
k=0
deoarece (Xk )k nu sunt independente stochastic.
a+b−n a+b−n n
(ii) Pentru N = a + b n, putem face aproximarea ≈ = 1 − , de unde
a+b−1 a+b N
n
Var(X) ≈ np(1 − p) 1 − . (4.6.16)
N
Observăm că repartiţiile binomială şi hipergeometrică au aceeaşi medie, însă dispersiile diferă
prin termenul N−n N−1 . În cazul în care numărul de bile este mult mai mare decât numărul de
n
extrageri (N n), atunci acest termen devine aproximativ 1 − N . În plus, dacă N este foarte
mare, atunci trecând N → ∞ în (4.6.16), găsim că şi dispersiile celor două repartiţii coincid. Cu
alte cuvinte, când numărul de bile din urnă este foarte mare, nu mai contează dacă extragerea
bilelor se face cu repetiţie sau nu. Acest fapt îl vom utiliza în Teoria selecţiei, când extragerile se
fac dintr-o colectivitate de volum foarte mare.
Aplicaţii: la testul Fisher exact (test de concordanţă) sau la Texas hold’em poker.

(5) Repartiµia Poisson4 , P(λ ) (poiss)

Valorile sale reprezintă numărul evenimentelor spontane (cu intensitatea λ ) realizate într-un
anumit interval de timp. Pentru un λ > 0, spunem că X ∼ P(λ ) (legea evenimentelor rare) dacă
X ia valori naturale, cu probabilităţile
λk
P(X = k) = e−λ , V k ∈ N.
k!
Media şi dispersia sunt: E(X) = λ , Var(X) = λ .

(6) Repartiµia geometric , G eo(p) (geo)

Valorile sale reprezintă numărul de insuccese înregistrate până la obţinerea primului succes,
într-un număr de probe independente. Probabilitatea de avea succes la o singură probă este p,
aceeaşi pentru toate probele.
Spunem că X ∼ G eo(p), (p ∈ (0, 1)) dacă X ia valori în N, cu probabilităţile

P(X = k) = p(1 − p)k , pentru orice k ∈ N, unde p ≥ 0.

1− p 1− p
Media şi dispersia sunt: E(X) = ; Var(X) = 2 .
p p
4 Siméon-Denis Poisson (1781 − 1840), matematician şi fizician francez, student al lui Laplace
4.6 Funcţia de repartiţie 79

Observaţie 4.6.3 (1) Dacă X ∼ G eo(p), atunci variabila aleatoare Y = X + 1 reprezintă

aşteptarea până la primul succes (rangul probei la care avem primul succes).
(2) Repartiţia geometrică satisface aşa-numita proprietate a lipsei de memorie, i.e.,

P(X > x + y| X > x) = P(X > y), ∀x, y ≥ 0.

Este unica distribuţie discretă cu această proprietate. Printre distribuţiile de tip continuu, doar
distribuţia exponenţială satisface această proprietate.

(7) Repartiµia binomial cu exponent negativ, BN (m, p) (nbin)

Valorile sale reprezintă numărul de insuccese obţinute înainte de a se realiza succesul de rang m.
În cazul particular m = 1, obţinem repartiţia geometrică.
Pentru m ≥ 1, p ∈ (0, 1), spunem că X ∼ BN (m, p) dacă X ia valorile {m, m + 1, m + 2, . . .},
cu probabilităţile asociate
m−1
P(X = k) = Cm+k−1 pm (1 − p)k , ∀k ≥ m, p ≥ 0.

Observaţie 4.6.4 Dacă (Xk )k=1,n ∼ G eo(p) sunt v.a. independente stochastic, atunci X =
n
∑ Xk ∼ BN (m, p).
k=1
Media şi dispersia sunt:
n n
m(1 − p) m(1 − p)
E(X) = ∑ E(Xk ) = , Var(X) = ∑ Var(Xk ) = .
k=1 p k=1 p2

(8) Repartiµia degenerat , D(c)

Variabila aleatoare X are o repartiţie degenerată de valoare c ∈ R dacă X = c a.s., echivalent cu

P(X = c) = 1. Repartiţia degenerată poate fi văzută ca un caz limită a unei repartiţii continue a
cărei dispersie tinde la 0, astfel că densitatea de probabilitate devine funcţia δc a lui Dirac5 ,
®
+∞, x = c
δc (x) =
0, x 6= c.

Funcţia sa de repartiţie este funcţia Heaviside6 translatată.

4.6.2 Repartiţii continue

(1) Repartiµia uniform , U (a, b) (unif)

Spunem că variabila aleatoare de tip continuu X urmează o repartiţie uniformă, scriem X ∼
U (a, b) (a < b), dacă funcţia sa de densitate este
ß 1
, dacă x ∈ (a, b),
f (x; a, b) = b−a
0 , altfel.
5 Paul Adrien Maurice Dirac(1902 − 1984) a fost un fizician britanic
6 Oliver Heaviside (1850 − 1925) a fost un om de ştiinţă britanic, autodidact
80 Capitolul 4. Variabile aleatoare

a+b (b − a)2
Media şi dispersia sunt: E(X) = , Var(X) = .
2 12
Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), astfel încât orice valoare are
aceeaşi şansă de a fi aleasă, urmează o repartiţie U (0, 1).

(2) Repartiµia normal , N (µ, σ ) (norm)

Spunem că X ∼ N (µ, σ ), dacă X are densitatea:

1 (x−µ)2
−
f (x; µ, σ ) = √ e 2σ 2 , x ∈ R.
σ 2π
Media şi dispersia sunt: E(X) = µ şi Var(X) = σ 2 .
Se mai numeşte şi repartiţia gaussiană. În cazul µ = 0 şi σ 2 = 1, densitatea de repartiţie devine:
1 x2
f (x) = √ e− 2 , x ∈ R. (4.6.17)
2π
În acest caz spunem că X urmează repartiţia normală standard, N (0, 1).

Graficul densităţii de repartiţie pentru repartiţia normală este clopotul lui Gauss (vezi Figura
4.5). Din grafic (pentru σ = 1), se observă că majoritatea valorilor nenule ale repartiţiei normale
standard se află în intervalul (µ − 3σ , µ + 3σ ) = (−3, 3).

Dacă X ∼ N (0, 1), atunci X = σ X + µ ∼ N (µ, σ ). În

mod similar, dacă X ∼ N (µ, σ ), atunci X = X−µ σ ∼
N (0, 1). Pentru o v.a. N (0, 1) funcţia de repartiţie este
tabelată (valorile ei se găsesc în tabele) şi are o notaţie
specială, Θ(x). Ea e definită prin:
Z x
1 y2
Θ(x) = √ e− 2 dy.
2π −∞

Funcţia de repartiţie a lui X ∼ N (µ, σ ) este dată prin

x−µ Figura 4.5: Clopotul lui Gauss pentru
F(x) = Θ( ), x ∈ R. X ∼ N (0, σ ), (σ = 1, 2, 3)
σ

(3) Repartiµia log-normal , logN (µ, σ ) (logn)

Repartiţia log-normală este foarte utilă în Matematicile Financiare, reprezentând o repartiţie

de preţuri viitoare pentru un activ financiar. Dacă X ∼ N (µ, σ ), atunci Y = eX este o v.a.
nenegativă, având densitatea de repartiţie
(ln x−µ)2
(
1 −
√ e 2σ 2 , dacă x > 0
f (x; µ, σ ) = xσ 2π
0 , dacă x ≤ 0

Aşadar, Y ∼ logN (µ, σ ) dacă lnY ∼ N (µ, σ ).

4.6 Funcţia de repartiţie 81
2 /2 2 2
Media şi dispersia sunt: E(X) = eµ+σ , Var(X) = e2µ+σ (eσ − 1).

(4) Repartiµia exponenµial , exp(λ ) (exp)

Valorile sale sunt timpi realizaţi între două valori spontane repartizate P(λ ). Spunem că
X ∼ exp(λ ) (λ > 0) dacă are densitatea de repartiţie

λ e−λ x ,
ß
dacă x > 0,
f (x; λ ) =
0 , dacă x ≤ 0
1 1
Media şi dispersia sunt: E(X) = şi Var(X) = 2 .
λ λ
Repartiţia exponenţială satisface aşa-numita proprietate a lipsei de memorie, i.e.,

P(X > x + y| X > x) = P(X > y), ∀x, y ≥ 0.

Este unica distribuţie continuă cu această proprietate. Dintre repartiţiile discrete, doar repartiţia
geometrică mai satisface această proprietate.

(5) Repartiµia Gamma, Γ(a, λ ) (gam)

O v.a. X este repartizată X ∼ Γ(a, λ ), unde a, λ > 0, dacă densitatea sa de repartiţie este:
( a
λ
Γ(a) xa−1 e−λ x , dacă x > 0,
f (x; a, λ ) =
0 , dacă x ≤ 0.

Aici, Γ este funcţia lui Euler,

Z ∞
Γ : (0, ∞) → (0, ∞), Γ(a) = xa−1 e−x dx.
0

a a
Media şi dispersia sunt: E(X) = , Var(X) = .
λ λ2
Observaţie 4.6.5 (i) Dacă n = 1, atunci Γ(1, λ ) ≡ exp(λ ).
(ii) Dacă v.a. {Xk }k=1,n ∼ exp(λ ) sunt independente stochastic, atunci suma lor este variabila
n
aleatoare ∑ Xk ∼ Γ(n, λ ).
k=1
(6) Repartiµia Weibull7 , W bl(k, λ ) (wbl)

Această repartiţie este asemănătoare cu repartiţia exponenţială (această obţinându-se în cazul

particular k = 1) şi poate modela repartiţia mărimii particulelor. Când k = 3.4, distribuţia Weibull
este asemănătoare cu cea normală. Când k → ∞, această repartiţie se apropie de funcţia lui Dirac.
Vom spune că X ∼ W bl(k, λ ) (k > 0, λ > 0) dacă are densitatea de repartiţie
® k
k x k−1 −( λx )

f (x; k, λ ) = λ λ e , dacă x ≥ 0
0 , dacă x < 0.
7 Ernst Hjalmar Waloddi Weibull (1887 − 1979), matematician şi inginer suedez
82 Capitolul 4. Variabile aleatoare

În practică, distribuţia Weibull este utilizată în analiza fiabilităţii, modelând numărul de defecţiuni
în timp ale unui sistem/dipozitiv.
Media şi varianţa sunt:
1 2
Å ã ñ Å ã Å Å ãã ô
1 2 2
E(X) = λ Γ 1 + , Var(X) = λ Γ 1 + − Γ 1+ .
k k k

(7) Repartiµia χ 2 , χ 2 (n) (chi2)

Vom spune că X ∼ χ 2 (n) (se citeşte repartiţia hi-pătrat cu n grade de libertate) dacă densitatea
sa de repartiţie este:

 1 n x 2n −1 e− 2x , dacă x > 0,
n
f (x; n) = Γ( 2 )2 2
0 , dacă x ≤ 0.

unde Γ este funcţia lui Euler. Graficul acestei repartiţii (pentru diverse valori ale lui n) este
reprezentat în Figura 4.6.
Media şi dispersia sunt: E(χ 2 ) = n, Var(χ 2 ) = 2n.

(a) Repartiţia χ 2 (n) este, de fapt, repartiţia Γ( 2n , 12 ).

(b) Dacă v.a. independente Xk ∼ N (0, 1), pentru
k = 1, 2, . . . , n, atunci

X12 + X22 + · · · + Xn2 ∼ χ 2 (n).

În cuvinte, suma pătratelor a n erori distribuite nor-

mal standard urmează o repartiţie χ 2 (n). În particular,
dacă X ∼ N (0, 1), atunci X 2 ∼ χ 2 (1).
(c) Este foarte utilizată în testarea ipotezelor statis-
tice (e.g., teste de concordanţă). Figura 4.6: Repartiţia χ 2 (n) pentru
patru valori ale lui n.

(8) Repartiµia Student (W. S. Gosset8 ), t(n) (t)

Spunem că X ∼ t(n) (cu n grade de libertate) dacă densitatea de repartiţie este:
å− n+1
Γ n+1
Ç
2 x2 2
f (x; n) = √ 1+ , x ∈ R.
nπ Γ 2n

n
n
Media şi dispersia sunt: E(X) = 0, Var(X) = .
n−2
Această repartiţie este foarte utilizată în testarea ipotezelor statistice (test pentru media unei
populaţii statistice).

(9) Repartiµia Fisher9 , F (m, n) (f)

8 William Sealy Gosset (1876 − 1937), statistician britanic, care a publicat sub pseudonimul Student
9 Sir Ronald Aylmer Fisher (1890 − 1962), statistician, eugenist, biolog şi genetician britanic
4.7 Teoreme limită 83

Spunem că X ∼ F (m, n) (cu m, n grade de libertate) dacă densitatea de repartiţie este:
 m
 ( mn ) 2 Γ( m+n
2 ) 2 −1
m m+n
m − 2
Γ( m2 )Γ( 2n )
x 1 + n x , dacă x > 0;
f (x) =
0 , dacă x ≤ 0.


n 2n2 (n + m − 2)
Media şi dispersia sunt: E(X) = , Var(X) = .
n−2 m(n − 2)2 (n − 4)
Această repartiţie este foarte utilizată în testarea ipotezelor statistice (test pentru compararea
dispersiilor unor populaţii statistice).

(10) Repartiµia Cauchy10 , C (λ , µ) (fără corespondent în M ATLAB)

Spunem că X ∼ C (λ , µ) dacă densitatea de repartiţie este:

λ
f (x; λ , µ) = , x ∈ R.
π[(x − µ)2 + λ 2 ]

NU admite medie, dispersie sau momente!!!

. Q: What’s the question the Cauchy distribution hates the most?

. A: Got a moment?

4.7 Teoreme limită

Fie (Ω, F , P) un câmp de probabilitate legat de un experiment aleator şi X : Ω → R o variabilă
aleatoare ce înregistrează rezultatele posibile ale unui anumit experiment aleator. Putem modela
repetiţia acestui experiment prin introducerea unui şir de variabile aleatoare, (Xn )n∈N : Ω → R.
Ne-am dori ca acest şir să deţină aceeaşi informaţie (din punct de vedere probabilistic) ca şi X.
În acest scop, introducem noţiunea de variabile aleatoare identic repartizate.
Definiţie 4.7.1 Variabilele aleatoare X1 , X2 , . . . , Xn , . . . se numesc identic repartizate dacă toate
au o aceeaşi repartiţie. Matematic, scriem că funcţiile corespunzătoare de repartiţie satisfac şirul
de egalităţi:

FX1 (x) = FX2 (x) = . . . = FXn (x) = . . . , ∀x ∈ R. (4.7.18)

Dacă, în plus, presupunem că variabilele aleatoare din şirul de mai sus sunt independente
stochastic, atunci putem privi acest şir de variabile aleatoare ca un model pentru repetiţii
independente ale experimentului în aceleasi condiţii. Deşi avem de-a face cu un şir de funcţii
ce iau valori întâmplătoare, suma unui număr suficient de mare de variabile aleatoare îşi pierde
caracterul aleator.
n
Teoremele limită clasice descriu comportarea asimptotică pentru Sn = ∑ Xk , potrivit normalizată.
k=1
În Teoria Probabilităţilor există mai multe rezultate care stabilesc condiţiile în care una sau
cealaltă dintre legile anterioare au loc. Rezultatele matematice ce au la bază comportamentul
asimptotic al şirului {Sn }n se numesc legea slabă a numerelor mari, legea tare a numerelor mari
10 Augustin Louis Cauchy (1789 − 1857), matematician francez
84 Capitolul 4. Variabile aleatoare

şi teorema limită centrală. Prezentăm în continuare doar cele mai importante dintre ele, şi anume:
teoremele lui Bernoulli şi Hincin, pentru legea slabă, şi teorema lui Kolmogorov pentru legea
tare.
Teorema 4.7.1 (Teorema lui Bernoulli)
Să considerăm un experiment aleator şi un eveniment A asociat experimentului, pentru care
probabilitatea de realizare a sa este P(A) = p. Notăm cu νN este numărul de realizări ale lui A în
N experimente independente.
Atunci, şirul frecvenţelor relative, νNN , se apropie foarte mult de probabilitatea p în următorul
sens: dacă se efectuează o selecţie de volum mare N şi se obţin νN cazuri favorabile, atunci, cu o
probabilitate apropiată de 1, putem afirma că probabilitatea evenimentului cercetat este egală cu
frecvenţa relativă.
Teorema 4.7.2 (Hincin11 ) (legea slabă a numerelor mari)
Dacă Xn , n ≥ 1 sunt variabile aleatoare de medie µ, au dispersii finite, sunt independente două
câte două şi identic repartizate, atunci, pentru un n mare, putem scrie că media aritmetică
1 n
∑ Xi ≈ µ
n i=1
cu o probabilitate apropiată de 1.

Observaţie 4.7.1 1. Teorema ne spune că, deşi variabilele aleatoare independente pot lua valori
depărtate de mediile lor, media aritmetică a unui număr suficient de mare de astfel de variabile
aleatoare ia valori în vecinătatea lui µ, cu o probabilitate apropiată de 1.
2. De asemenea, acest rezultat poate fi interpretat în Statistică după cum urmează. Variabilele
Xk corespund unor observaţii independente asupra unei mărimi. Pentru orice un eşantion suficient
de mare de observaţii, valoarea medie a acestor observaţii se va afla, cu o probabilitate mare,
arbitrar de aproape de valoarea aşteptată µ. De fapt, toate aceste medii (pentru un n suficient de
mare) se vor afla, cu o probabilitate mare, într-un interval de forma (µ − ε, µ + ε).
3. Mai menţionăm şi faptul că teorema de mai sus are loc şi în cazul în care variabilele aleatoare
i.i.d. sunt doar cu medii finite, nu neapărat independente.
Teorema 4.7.3 (Kolmogorov) (legea tare a numerelor mari)
Dacă variabilele aleatoare (Xn )n∈N∗ sunt independente, identic repartizate, toate având aceeaşi
medie µ finită, atunci, pentru un n suficient de mare,

1 n
∑ Xi = µ,
n i=1

eventual, excluzând un număr finit sau numărabil de cazuri.

Observaţie 4.7.2 1. În cuvinte, LTNM spune că, pentru un număr foarte mare de observaţii,
valoarea medie a acestor observaţii va fi aproape sigur egală cu valoarea teoretică aşteptată, µ.
2. Pe de altă parte, LSNM spune că, cu o probabilitate mare, valoarea medie a observaţiilor
se va afla foarte aproape de µ, însă nu exclude situaţia în care această medie este departe de µ
într-o infinitate de alte cazuri.

Teorema 4.7.4 (TLC) (teorema limită centrală)

Considerăm şirul de variabilele aleatoare (Xn )n∈N , independente şi identic repartizate, cu µ =
n
E(X1 ) şi σ 2 = Var(X1 ) finite. Notăm cu Sn = ∑ Xk . Atunci, pentru n suficient de mare, suma
k=1

11 Aleksandr Yakovlevich Khinchin (1894 − 1959), matematician rus

4.7 Teoreme limită 85

Sn − nµ
standardizată, Sn = √ , este o variabilă aleatoare de repartiţie N (0, 1).
σ n
Matematic, scriem că:
Sn − nµ
Sn := √ ∼ N (0, 1).
σ n

Observaţie 4.7.3 (a) În mod echivalent, mai putem spune că distribuţia variabilei aleatoare
1 n σ
X = ∑ Xk este aproximativ normală N (µ, √ ).
n k=1 n
(b) O consecinţă a teoremei limită centrală este că putem calcula probabilităţi legate de variabile
aleatoare ce au repartiţii oarecare folosind tabelele de la repartiţia normală. Astfel, vom avea:
Sn − nµ
Å ã
lim P a ≤ √ ≤ b = Θ(b) − Θ(a), (4.7.19)
n→∞ σ n
unde funcţia Θ este funcţia lui Laplace (func stia de rapartiţie pentru o normală standard) şi este
tabelată (vezi Tabelul 11.2).
(c) TLC ne permite să aproximăm sume de variabile aleatoare identic repartizate, avînd orice
tip de repartiţii (atât timp cât variaţia lor e finită), cu o variabilă aleatoare normală. Un exemplu
ar fi aproximarea repartiţiei normale cu repartiţia binomială când numărul de încercări e foarte
mare (vezi teorema lui de Moivre-Laplace de mai jos).

Se pune problema: Cât de mare ar trebui să fie n, în practică, pentru că teorema limită centrală
să fie aplicabilă?

Dacă variabilele aleatoare {Xk }k sunt deja normal repartizate, atunci aproximarea sumei standar-
dizate cu o variabilă normală este, de fapt, o egalitate, fiind adevarată pentru orice n ∈ N∗ . Dacă
{Xk }k nu sunt normal repartizate, atunci un număr n astfel încât n ≥ 30 ar fi suficient pentru
aproximarea cu repartiţia normală deşi, dacă repartiţia lui Xk este simetrică, aproximarea ar putea
fi bună şi pentru un număr n mai mic de 30.

Teorema 4.7.5 (de Moivre12 - Laplace)

Fie X1 , X2 , . . . , Xn , . . . un şir de variabile aleatoare independente stochastic, identic repartizate
B(1, p) şi fie Sn = X1 + X2 + · · · + Xn . Atunci, pentru orice −∞ < a < b < ∞, avem:
Ç å
Sn − np
lim P a ≤ √ ≤ b = Θ(b) − Θ(a). (q = 1 − p) (4.7.20)
n→∞ npq
Observaţie 4.7.4 (1) Aşadar, dacă parametrul n este suficient de mare, atunci o repartiţie
binomială poate fi aproximată cu una normală, cu media np şi dispersia npq. În practică,
• aproximarea este una suficient de bună dacă np ≥ 5 şi n(1 − p) ≥ 5;
• această aproximare poate fi îmbunătăţită dacă aplicăm factori de corecţie.
Pentru n şi p îndeplinind condiţiile de mai sus, şi folosind TLC, putem aproxima funcţia de
repartiţie a repartiţiei binomiale prin:
Ç å
k − np
P(X ≤ k) ≈ Θ √ . (4.7.21)
npq
12 Abraham de Moivre (1667 − 1754), matematician francez
86 Capitolul 4. Variabile aleatoare

(2) În general, dacă dorim să aproximăm o repartiţie discretă (ce are media µ şi dispersia σ 2 )
cu una normală, atunci scriem:

k + 12 − µ
Ç å
P(X ≤ k) ≈ Θ (4.7.22)
σ

şi

k + 12 − µ k − 21 − µ
Ç å Ç å
P(X = k) ≈ Θ −Θ , (4.7.23)
σ σ

unde valori funcţiei Θ se găsesc în Tabelul 11.2.

Justificare grafică a teoremei limită centrală

Exerciţiu 4.7.1 În Figura 4.7 am reprezentat grafic (cu bare) funcţiile de probabilitate pentru
repartiţiile binomială şi Poisson, atunci când numărul de extrageri în schema binomială este un
număr mare. Observăm că pentru un număr n suficient de mare, cele două grafice se suprapun.

Figura 4.7: B(n, p) şi P(np) pentru n = 100, p = 0.15

În practică, proprietatea de normalitate este satisfăcută pentru

n ≥ 30, p ≤ 0.1, λ = n p ≤ 0.1.

Din Figura 4.7, observăm că graficul are forma clopotului lui Gauss, justificând grafic faptul
că funcţiile de probabilitate pentru binomială (albastru) şi Poisson (roşu) tind la densitatea de
repartiţie pentru repartiţia normală.
Exerciţiu 4.7.2 Graficele din Figura 4.8 reprezintă un set de date repartizate exponenţial cu
media 2 (stânga) şi mediile lor (dreapta), care sunt repartizate normal.
4.8 Exerciţii rezolvate 87

Figura 4.8: Date repartizate exp(2) (stânga) şi mediile lor (dreapta)

4.8 Exerciţii rezolvate

Exerciţiu 4.8.1 Considerăm experimentul aleator ce constă în aruncarea a două monede ideale.
De asemenea, considerăm X variabila aleatoare ce reprezintă numărul de steme apărute.
Scrieţi repartiţia lui X, apoi calculaţi media sa, deviaţia standard, modul.
R:
X 0 1 2
p(x) 14 12 14
Media sa este: E(X) = 14 · 0 + 21 · 1 + 14 · 2 = 1.
Dispersia lui X este Var(X) = σ 2 = 41 · (0 − 1)2 + 12 · (1 − 1)2 + 14 · (2 − 1)2 = 12 .
√
Deviaţia standard este σ = σ 2 = √12 .
Se observă că 1 este valoarea cea mai probabilă, deci Mo(X) = 1.
Exerciţiu 4.8.2 Considerăm variabila aleatoare X ce are tabelul de repartiţie următor:

X 1 2 3 4 5
p(x) 7a 5a 4a 3a a

unde a este un număr real necunoscut. Aflaţi valoarea lui a, media şi modul pentru variabila
aleatoare X.
R: Reamintim că toate probabilităţile trebuie să fie între 0 şi 1 şi suma probabilităţilor trebuie să
1
fie egală cu 1. Astfel, vom avea că 7a + 5a + 4a + 3a + a = 1, de unde a = 20 .
7 5 4 3 1
Media lui X este E(X) = 20 · 1 + 20 · 2 + 20 · 3 + 20 · 4 + 20 · 5 = 2.3.
Se observă că modul variabilei este Mo(X) = 1.
Exerciţiu 4.8.3 Considerăm variabila aleatoare X ce are tabelul de repartiţie următor:

X 2 3 5 7 11
1 1 1
p(x) 6 3 4 a b

unde a şi b sunt numere reale necunoscute. Media variabilei aleatoare X este 14 3 . Aflaţi valorile a
şi b.
R: Deoarece suma probabilităţilor trebuie să fie egală cu 1, găsim că a + b = 41 . Media variabilei
X este E(X) = 14 1 1 1 25
3 = 6 · 2 + 3 · 3 + 4 · 5 + 7a + 11b, de unde 7a + 11b = 12 . Din aceste două
ecuaţii, găsim că a = 16 şi b = 12
1
.
88 Capitolul 4. Variabile aleatoare

Exerciţiu 4.8.4 O pisică dintr-o anumită rasă poate avea între 1 şi 4 pui la naştere. Notăm cu
X xariabila aleatoare X ce reprezintă numărul de pui pe care îi poate avea la naştere, care are
tabelul de repartiţie următor:
X 1 2 3 4
p(x) 0.18 0.51 0.27 0.04
(a) Aflaţi numărul mediu de pui nou-născuţi şi deviaţia standard pentru o pisică din această rasă.
(b) Preţul unei pisici din această rasă este o variabilă aleatoare P = 250 · X + 2500 (exprimat în
RON). Aflaţi preţul mediu şi deviaţia standard a preţului unei pisici din această rasă.
R: (a) Numărul mediu de pui nou-născuţi per pisică este
E(X) = 0.18 · 1 + 0.51 · 2 + 0.27 · 3 + 0.04 · 4 = 2.17.
Dispersia lui X este

σX2 = 0.18 · (1 − 2.17)2 + 0.51 · (2 − 2.17)2 + 0.27 · (3 − 2.17)2 + 0.04 · (4 − 2.17)2 ≈ 0.5811.
√
Deviaţia standard a lui X este σX = 0.5811 ≈ 0.7623.
(b) Folosim formulele E(aX + b) = a · E(X) + b şi Var(aX + b) = a2 ·Var(X). Astfel:

mP = E(P) = 250 · E(X) + 2500 = 250 · 2.17 + 2500 = 3042.50 (RON)

şi
σP2 = Var(P) = 2502 ·Var(X) ≈ 62500 · 0.5811 = 36318.75,
√
de unde σX ≈ 36318.75 ≈ 190.57 (RON).
Exerciţiu 4.8.5 Mircea participa la un joc în care se arunca un zar ideal. Daca apare o fata mai
mare decat 1, atunci va castiga suma egala cu dublu numarului de puncte aparute. Daca apare
fata cu 1, atunci are posibilitatea sa arunce o moneda ideala. Daca apare stema, atunci castiga 10,
altfel nu castiga nimic.
(a) Scrieţi repartiţia câştigului.
(b) Calculaţi câştigul mediu.
(c) Dacă Mircea a plătit 7.5 pentru a participa la acest joc, care sunt şansele ca el să câştige la
un singur joc?
R: (a) Notam cu C variabila aleatoare ce reprezinta castigul. Atunci, repartitia sa este:
Å ã
0 4 6 8 10 12
C: 1 1 1 1 1 1 ,
12 6 6 6 4 6

Într-adevăr, daca apare una dintre fetele 2, 3, 4, 5, 6,

atunci C va fi, respectiv, 4, 6, 8, 10, 12. Probabilitatile
asociate acestor valori sunt toate egale cu 1/6.
Daca apare fata 1, atunci castigul poate fi 0 sau 10, cu
probabilitatile egale cu 61 · 12 = 12
1
.
Asadar, castigul 10 poate aparea de doua ori: odata cu
probabilitatea 16 a doua oara cu probabilitatea 12 1
. In
1 1 1
concluzie, probabilitatea P(C = 10) = 6 + 12 = 4 .
(b) Câştigul mediu este
1 1 1 1 1 1
E(C) = · 0 + · 4 + · 6 + · 8 + · 10 + · 12 = 7.5.
12 6 6 6 4 6
4.8 Exerciţii rezolvate 89

(c) Mircea va câştiga la un singur joc dacă va obţine o sumă mai mare decât suma pe care a
plătit-o la intrarea în joc. Astfel, probabilitatea de a câştiga este
1 1 1 7
P(C > 7.5) = P(C = 8) + P(C = 10) + P(C = 12) = + + = ≈ 0.5833,
6 4 6 12
deci şansele de câştig sunt de circa 58.33%.
Exerciţiu 4.8.6 Se aruncă două zaruri ideale distincte.
(a) Scrieţi repartiţia variabilei aleatoare S2 ce reprezinta suma fetelor obţinute.
(b) Calculaţi media variabilei aleatoare S2 . Care este valoarea cea mai probabilă a sa?
(c) Reprezentaţi grafic funcţia de probabilitate a lui S2 (graficul frecvenţelor).
(d) Care este probabilitatea ca suma fetelor obtinute sa fie cel putin 7?
R: (a) Tabloul de repartiţie pentru S2 este:
Å ã
2 3 4 5 6 7 8 9 10 11 12
S2 : 1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36

(b) Media lui S2 este 7, care este şi cea mai probabilă valoarea a sa (modul).

E(S2 ) = 7
1 2 3 4 5 6 5 4 3 2 1
= · 2 + · 3 + · 4 + · 5 + · 6 + · 7 + · 8 + · 9 + · 10 + · 11 + · 12
36 36 36 36 36 36 36 36 36 36 36

Figura 4.9: Funcţia de frecvenţe pentru S2

(d) Probabilitatea cerută este:

15 21 7
P(S2 ≥ 7) = 1 − P(S2 < 7) = 1 − P(S2 ≤ 6) = 1 − = = .
36 36 12

Exerciţiu 4.8.7 Considerăm un eveniment aleator care are probabilitatea p ∈ (0, 1) de realizare
într-o singură probă (de exemplu, probabilitatea de a trece un examen). Notăm cu X numărul
de eşecuri înregistrate până obţinem pentru prima oară un succes. Scrieţi repartiţia variabilei
aleatoare X.
R: Valorile posibile ale variabilei X sunt toate numerele naturale. Spre exemplu, X = 0 daca
nu am avut niciun esec (examenul a fost trecut din prima), X = 1 daca am avut un esec din
90 Capitolul 4. Variabile aleatoare

prima incercare si succes la a doua, s.a.m.d., X = n daca am avut n esecuri consecutive si la a

(n + 1) − a incercare avem succes. Daca notez cu q = 1 − p, atunci

P(X = k) = q · q · q · . . . · q ·p = qk p, pentru orice k ∈ N.

| {z }
k ori

Tabelul de repartitie al variabilei este astfel:

X 0 1 2 ··· n ···
pn p qp q2 p · · · qn p ···

∞ ∞
1
Se observa cu usurinta ca ∑ qn p = p ∑ qn = p 1 − q = 1. Vom spune că variabila X urmeaza
n=0 n=0
repartitia geometrica de parametru p. Scriem X ∼ G eo(p). Ca o observatie, variabila Y = X + 1
reprezinta numarul de incercari pana la reusita.
Exerciţiu 4.8.8 Care este probabilitatea de apariţie pentru prima oară a feţei la aruncarea
unui zar ideal din cel puţin 3 aruncări? Dar în exact 3 aruncări?
R: Notăm cu X variabilă aleatoare variabilă aleatoare ale cărei valori reprezintă numărul de
eşecuri avute până la primul succes. Aceasta urmează repartiţia geometrică G eo(1/6). În
consecinţă, numărul de aruncări necesare obţinerii feţei pentru prima dată este Y = X + 1.
Probabilitatea de a obţine pentru prima oară această faţă din cel puţin 3 aruncări este totuna cu
probabilitatea de a avea cel puţin 2 eşecuri până la apariţia acestei feţe. Aşadar, avem:

P1 = P(Y ≥ 3) = P(X ≥ 2) = 1 − P(X < 2) = 1 − P(X ≤ 1) = 1 − 0.3056 = 0.6944.

Probabilitatea de a obţine pentru prima oară faţa cu şase puncte din exact 3 aruncări este:

P2 = P(Y = 3) = P(X = 2) = 0.1157.

Exerciţiu 4.8.9 În drumul Mariei de acasă până la serviciu se află două semafoare. Notăm cu
X1 variabilă aleatoare ce reprezintă numărul de semafoare pe care Maria le prinde pe roşu, şi
presupunem că repartiţia lui X1 este următoarea:

x 0 1 2
p(x) 0.2 0.5 0.3

De asemenea, fie X2 numărul de semafoare pe care Maria le prinde pe roşu pe drumul de

întoarcere spre casă. Presupunem că X1 şi X2 sunt independente şi identic repartizate.
(a) Determinaţi repartiţia, media şi dispersia variabilei aleatoare X = X1 + X2 .
(b) Scrieţi funcţia de repartiţie a lui X.
(c) Care e probabilitatea ca Maria să prindă cel puţin 2 semafoare pe roşu de acasă la serviciu
şi retur?
R: (a) Repartiţia lui X este:

x 0 1 2 3 4
p(x) 0.04 0.2 0.37 0.3 0.09
4.8 Exerciţii rezolvate 91

E(X) = E(X1 ) + E(X2 ) = 2(0 × 0.2 + 1 × 0.5 + 2.3) = 2.2.

Folosind independenţa dintre X1 şi X2 , avem:
Var(X) = Var(X1 ) +Var(X2 ) = 2[(0 − 1.1)2 × 0.2 + (1 − 1.1)2 × 0.5 + (2 − 1.1)2 × 0.3] = 0.98.
(b) Prin definiţie, funcţia de repartiţie a lui X este F : R −→ [0, 1], definită prin:


 0, dacă x < 0,

0.04, dacă 0 ≤ x < 1,





0.24, dacă 1 ≤ x < 2,
F(x) = P(X ≤ x) =


 0.61, dacă 2 ≤ x < 3,
dacă 3 ≤ x < 4,



 0.91,

1, dacă x ≥ 4.


(c) P(X ≥ 2) = 0.37 + 0.3 + 0.09 = 0.76. Altfel, folosind funcţia de repartiţie,
P(X ≥ 2) = 1 − P(X < 2) = 1 − P(X ≤ 1) = 1 − F(1) = 1 − 0.24 = 0.76.

Exerciţiu 4.8.10 Trei vanatori ochesc cu pusca o aceeasi vulpe. Fiecare vânător trage câte un
foc asupra vulpii. Fiecare dintre ei poate nimeri sau nu vulpea. Ştim ca probabilităţile că fiecare
dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2. Fie V variabila aleatoare ce reprezintă
numărul de ori în care vulpea a fost nimerită. Determinaţi repartiţia variabilei aleatoare V .
R: Variabila V poate avea doar valorile: 0− vulpea nu este atinsa, 1− vulpea este atinsa o
singura data, 2− vulpea este atinsa de 2 ori sau 3− vulpea este atinsa de 3 ori. Pentru i = 1, 2, 3,
notam cu Vi variabila aleatoare ce reprezinta numarul de ori în care vanatorul i atinge vulpea.
Repartitiile pentru fiecare Vi sunt:
Å ã Å ã Å ã
0 1 0 1 0 1
V1 : 2 1 V2 : 3 1 V3 : 1 1
3 3 4 4 2 2
Deoarece vanatorii trag independent unul de celalalt, avem ca V1 , V2 , V3 sunt variabile aleatoare
independente. Atunci V = V1 +V2 +V3 are repartiţia:
Å ã
0 1 2 3
V: 6 11 6 1
24 24 24 24
Într-adevăr, pentru fiecare eveniment {V = i} se calculează probabilitatea astfel:
P(V = 0) = P ({V1 = 0} ∩ {V2 = 0} ∩ {V3 = 0})
2 3 1 6
= P(V1 = 0) · P(V2 = 0) · P(V3 = 0) = · · =
3 4 2 24
P(V = 1) = P ({V1 = 1} ∩ {V2 = 0} ∩ {V3 = 0}) + P ({V1 = 0} ∩ {V2 = 1} ∩ {V3 = 0}) +
+P ({V1 = 0} ∩ {V2 = 0} ∩ {V3 = 1})
1 3 1 1 1 1 1 3 1 11
= · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
P(V = 2) = P ({V1 = 1} ∩ {V2 = 1} ∩ {V3 = 0}) + P ({V1 = 1} ∩ {V2 = 0} ∩ {V3 = 1}) +
+P ({V1 = 0} ∩ {V2 = 1} ∩ {V3 = 1})
1 1 1 1 3 1 2 1 1 6
= · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
P(V = 3) = P ({V1 = 1} ∩ {V2 = 1} ∩ {V3 = 1}) =
1 1 1 1
= P(V1 = 1) · P(V2 = 1) · P(V3 = 1) = · · =
3 4 2 24
92 Capitolul 4. Variabile aleatoare

Exerciţiu 4.8.11 Cineva a înregistrat zilnic timpul între două sosiri succesive ale tramvaiului
într-o anumită staţie şi a găsit că, în medie, acesta este de 20 de minute. Se ştie că acest timp este
distribuit exponenţial. Dacă o persoană a ajuns în staţie exact când tramvaiul pleca, aflaţi care
sunt şansele ca ea să aştepte cel puţin 15 minute până vine următorul tramvai.
R: Notăm cu T timpul de aşteptare în staţie între două sosiri succesive ale tramvaiului şi cu FT
funcţia sa de repartiţie. Ştim că T ∼ exp(λ ), unde λ = 20. Aşadar, avem de calculat P(T ≥ 15),
care este:
Z ∞
P(T ≥ 15) = 1 − P(T < 15) = 1 − FT (15) = 15e−15x dx ≈ 0.4724,
0

ceea ce implică 47.24% şanse.

4.9 Exerciţii propuse

Exerciţiu 4.9.1 Scrieţi spaţiul de selecţie Ω asociat experimentului aleator ce constă în aruncarea
a două zaruri ideale identice.
(a) Calculaţi probabilitatea de a obţine o dubă.
(b) Care este probabilitatea de a obţine 3 duble din 5 aruncări a unei perechi de zaruri ideale
identice?
Exerciţiu 4.9.2 Considerăm variabila aleatoare care reprezintă suma numerelor ce apar la
aruncarea a două zaruri ideale (distincte). Determinaţi repartiţia acestei variabile aleatoare.
Exerciţiu 4.9.3 Tudor are 2 monede în buzunar. Una dintre ele este corectă, iar cealaltă monedă
are două steme. El scoate la întâmplare o monedă din buzunar (fără să se uite ce monedă a scos)
şi o aruncă.
(a) Care este probabilitatea apariţiei unei steme?
(b) Dacă la aruncare a apărut faţa cu stema, care este probabilitatea ca moneda scoasă să fi fost
cea corectă?
Notăm cu X variabila aleatoare ce reprezintă numărul de steme apărute în urma aruncării
simultane a celor două monede.
(c) Scrieţi tabloul de repartiţie pentru X.
Exerciţiu 4.9.4 Două zaruri ideale sunt aruncate în mod independent unul de celălalt. Notăm cu
M maximum dintre valorile apărute.
Determinaţi tipul variabilă aleatoare M şi tabloul său de repartiţie.
Exerciţiu 4.9.5 Scrieţi spaţiul de selecţie Ω asociat experimentului aleator ce constă în aruncarea
unei monede ideale de trei ori. Calculaţi probabilitatea de a obţine aceeaşi faţă de trei ori.
Exerciţiu 4.9.6 O pereche de zaruri ideale (distincte) este aruncată de 200 de ori. Notăm cu X
suma punctelor obţinute.
(a) Scrieţi repartiţia lui X.
(b) Care este probabilitatea să obţinem o sumă de 7 în cel puţin 20% dintre cazuri?
Exerciţiu 4.9.7 Se aruncă o monedă ideală până se obţine pentru prima oară faţa cu stema. Notăm
cu X numărul de eşecuri până obţinem pentru prima oară stema. Scrieţi repartiţia variabilei
aleatoare X.
Exerciţiu 4.9.8 Se aruncă un zar ideal până se obţine pentru prima oară faţa cu 6 puncte. Notăm
cu Y numărul de eşecuri până obţinem pentru prima oară faţa cu 6. Scrieţi repartiţia variabilei
aleatoare Y .
Exerciţiu 4.9.9 Se aruncă două zaruri ideale până se obţine pentru prima oară o dublă. Notăm
cu Z numărul de eşecuri până obţinem pentru prima oară o dublă. Scrieţi repartiţia variabilei
4.9 Exerciţii propuse 93

aleatoare Z.
Exerciţiu 4.9.10 Persoana A arunca 2 zaruri si persoana B arunca 3 zaruri. Fiecare aduna
punctele obtinute. Sa se calculeze probabilitatea evenimentului ca A si B sa obtina aceeasi suma.
Exerciţiu 4.9.11 Se arunca doua zaruri. Care este probabilitatea ca numerele obtinute sa fie
solutiile ecuatiei λ 2 − 4λ + 3 = 0.
Exerciţiu 4.9.12 Consideram variabila aleatoare care reprezinta numarul ce apare la aruncarea
unui zar ideal. Determinati functia de repartitie asociata si reprezentati-o grafic.
Exerciţiu 4.9.13 X este o variabila aleatoare uniformă U (−2, 5).
(i) Determinati functia de repartitie asociata si reprezentati-o grafic.
(ii) Se alege aleator, după repartiţia U (−2, 5), un număr din intervalul (−1, 1). Care este
probabilitatea ca el să fie pozitiv?
Exerciţiu 4.9.14 (a) Folosiţi tabelele de cuantile pentru a găsi următoarele:

2
(a) z0.975 (b) t0.975, 12 (c) χ0.9, 5 (d) f0.95, 12, 10 .

(b) Găsiţi valorile de mai sus folosind definiţia şi integrând densităţile de repartiţie corespunză-
toare.
Exerciţiu 4.9.15 Temperatura T (0C) dintr-un anumit proces chimic are repartiţia U (−5, 5).
Calculaţi P(T < 0); P(−2.5 < T < 2.5); P(−2 ≤ T ≤ 3).
Exerciţiu 4.9.16 Temperatura de topire a unui anumit material este o variabilă aleatoare cu
media de 120 oC şi deviaţia standard de 2 oC. Determinaţi temperatura medie şi deviaţia standard
în o F, ştiind că o F = 1.8 oC + 32.
Exerciţiu 4.9.17 Notăm cu Sn suma numerelor ce apar în n aruncări independente ale unui zar
ideal.
(a) Calculaţi probabilitatea P = P(S2 ≥ 6).
(b) Calculaţi probabilitatea obţinerii unui număr par.
Exerciţiu 4.9.18 O companie de asigurări oferă angajaţilor săi diverse poliţe de asigurare. Pentru
un asigurat ales aleator, notăm cu X numărul de luni scurs între două plăţi succesive. Funcţia de
repartiţie a lui X este:


 0 , x < 1;

0.3 , 1 ≤ x < 3;





0.4 , 3 ≤ x < 4;
F(x) =


 0.45 , 4 ≤ x < 6;
0.65 , 6 ≤ x < 12;





1 , 12 ≤ x.


(a) Determinaţi funcţia de probabilitate a lui X.

(b) Calculaţi P(3 ≤ X ≤ 6) şi P(4 ≤ X).
Exerciţiu 4.9.19 Variabila aleatoare discretă X are tabloul de distribuţie:

−2 0 2
Å ã
X: 1 1 1 .
4 2 4

Găsiţi şi reprezentaţi grafic funcţia de repartiţie FX (x). Calculaţi F( 12 ).

Exerciţiu 4.9.20 Pentru evaluarea rezultatelor obtinute la teza de Matematica de catre elevii unei
anumite scoli, se face un sondaj de volum 35 printre elevii scolii, iar notele lor sunt sumarizate
in Tabelul 4.1.
94 Capitolul 4. Variabile aleatoare

note 4 5 6 7 8 9 10
frecventa 3 6 7 8 5 4 2

Tabela 4.1: Medii generale şi frecvenţe

(i) Sa se scrie si sa se reprezinte grafic functia de repartitie asociată.

(ii) Notam cu X variabila aleatoare ce are acest tabel de repartiţie. Utilizand selectia de mai sus,
sa se aproximeze probabilitatea P(6 ≤ X ≤ 8).
Exerciţiu 4.9.21 Un anumit comerciant vinde trei tipuri de congelatoare: de 160 litri, de 190 litri
şi de 230 litri. Fie X variabila aleatoare care reprezintă alegerea unui client ales la întâmplare, ce
are tabelul de repartiţie:
x 160 190 230
p(x) 0.2 0.5 0.3

(a) Calculaţi E(X), Var(X).

(b) Dacă preţul unui frigider se calculează după formula P = 7X − 9.5, calculaţi valoarea
aşteptată a preţului plătit de următorul client care cumpără un congelator.
(c) Calculaţi Var(P).
(d) Presupunem că, deşi capacitatea afişată este X, capacitatea reală a unui congelator este
h(X) = X − 0.01X 2 . Care este valoarea medie a capacităţii reale pentru un congelator cumpărat
de următorul client?
5. Elemente de Statistică descriptivă

Statistica descriptivă este acea ramură a Statisticii care se preocupă de descrierea datelor statistice,
prin gruparea, reprezentarea grafică şi calcularea unor măsuri empirice ale formei sau tendinţei
datelor. Este primul pas pe care îl face un statistician ce urmăreşte sa extragă informatii dintr-un
set de date.
Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru o mai
buna observare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului), datele sunt
asezate in tabele de frecvente. Aceste tabele pot contine, pe langa clasele construite, frecvente
absolute, frecvente relative, frecvente cumulate, frontierele claselor, valorile de mijloc. Uneori
doar un singur tip de frecvente este suficient pentru a continua analiza datelor. Un exemplu de
tabel de frecvente este Tabelul 5.4.
Exista mai multe optiuni pentru reprezentarea grafica a datelor, in functie de tipul de date pe care
le avem. Spre exemplu, pentru date discrete sunt preferate reprezentarile cu bare sau cu sectoare
de disc. Dupa caz, mai pot fi folosite reprezentari cu puncte sau stem&leaf. Pentru date continue
se folosesc histograme sau sectoare de disc.

5.1 Elemente introductive de Statistică

5.1.1 Scurt istoric
Statistica este o ramură a ştiinţelor ce se preocupă de procesul de colectare de date şi informaţii,
de organizarea şi interpretarea lor, în vederea explicării unor fenomene reale. În Economie
şi Business, informaţiile extrase din datele statistice vor fi utile în evaluarea afacerilor sau a
mediului economic în care activează, ajutându-i astfel în luarea deciziilor. În general, prin date
(sau date statistice) înţelegem o mulţime de numere sau caractere ce au o anumită însemnătate
pentru utilizator. Utilizatorul este interesat în a extrage informaţii legate de mulţimea de date
pe care o are la îndemână. Datele statistice pot fi legate între ele sau nu. Suntem interesaţi de
studiul acestor date, cu scopul de a înţelege anumite relaţii între diverse trăsături ce măsoară
datele culese. De regulă, oamenii au anumite intuiţii despre realitatea ce ne înconjoară, pe care
le doresc a fi confirmate într-un mod cât mai exact. De exemplu, dacă într-o anumită zonă a ţării
96 Capitolul 5. Elemente de Statistică descriptivă

rata şomajului este ridicată, este de aşteptat ca în acea zonă calitatea vieţii persoanelor de acolo să
nu fie la standarde ridicate. Totuşi, ne-am dori să fim cât mai precişi în evaluarea legăturii dintre
rata somajului şi calitatea vieţii, de aceea ne-am dori să construim un model matematic ce să ne
confirme intuiţia. Un alt gen de problemă: ardem de nerăbdare să aflăm cine va fi noul preşedinte,
imediat ce secţiile de votare au închis porţile (exit-pole). Chestionarea tuturor persoanelor ce au
votat, colectarea şi unificarea tuturor datelor într-un timp record nu este o măsură deloc practică.
În ambele probleme menţionate, observaţiile şi culegerea de date au devenit prima treaptă spre
înţelegerea fenomenului studiat. De cele mai multe ori, realitatea nu poate fi complet descrisă de
un astfel de model, dar scopul este de a oferi o aproximare cât mai fidelă şi cu costuri limitate. În
ambele situaţii menţionate apar erori în aproximare, erori care ţin de întâmplare. De aceea, ne-am
dori să putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la colecţiile
de date obţinute dintr-o colectivitate, Statistica introduce metode de predicţie şi prognoză pentru
descrierea şi analiza proprietăţilor întregii colectivităţi. Aria de aplicabilitate a Statisticii este
foarte mare: ştiinţe exacte sau sociale, umanistică sau afaceri etc. O disciplină strâns legată de
Statistică este Econometria. Aceasta ramură a Economiei se preocupă de aplicaţii ale teoriilor
economice, ale Matematicii şi Statisticii în estimarea şi testarea unor parametri economici, sau
în prezicerea unor fenomene economice.
Statistica a apărut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaţiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai
bune administrări. Datorită originii sale, Statistica este considerată de unii ca fiind o ştiinţă de
sine stătătoare, ce utilizează aparatul matematic, şi nu este privită ca o subramură a Matematicii.
Dar nu numai originile sale au fost motivele pentru care Statistica tinde să devină o ştiinţă
separată de Teoria Probabilităţilor. Datorită revoluţiei computerelor, Statistica a evoluat foarte
mult în direcţia computaţională, pe când Teoria Probabilităţilor foarte puţin. Aşa cum David
Williams scria în [19], "Teoria Probabilităţilor şi Statistica au fost odată căsătorite; apoi s-au
separat; în cele din urmă au divorţat. Acum abia că se mai întâlnesc".
Din punct de vedere etimologic, cuvântului statistică îşi are originile în expresia latină statisticum
collegium (însemnând consiliul statului) şi cuvântul italian statista, însemnând om de stat sau
politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecţii şi clasificări de date.
Metodele statistice sunt astăzi aplicate într-o gamă largă de discipline. Amintim aici doar câteva
exemple:
• în Agricultură, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a fi
folosite pe un anumit teren arabil;
• în Economie, pentru studiul rentabilităţii unor noi produse introduse pe piaţă, pentru
corelarea cererii cu ofertă, sau pentru a analiza cum se schimbă standardele de viaţă;
• în Contabilitate, pentru realizarea operaţiunilor de audit pentru clienţi;
• în Biologie, pentru clasificarea din punct de vedere ştiinţific a unor specii de plante sau
pentru selectarea unor noi specii;
• în Ştiinţele educaţiei, pentru a găsi cel mai eficient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naţionale asupra diverselor caregorii de persoane ce lucrează în
învăţământ;
• în Meteorologie, pentru a prognoza vremea într-un anumit ţinut pentru o perioadă de timp,
sau pentru a studia efectele încălzirii globale;
• în Medicină, pentru testarea unor noi medicamente sau vaccinuri;
• în Psihologie, în vederea stabilirii gradului de corelaţie între timiditate şi singurătate;
5.1 Elemente introductive de Statistică 97

• în Politologie, pentru a verifica dacă un anumit partid politic mai are sprijinul populaţiei;
• în Ştiinţele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
• etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identifica mai întâi
care este colectivitatea asupra căreia se doreşte studiul. Această colectivitate (sau populaţie)
poate fi populaţia unei ţări, sau numai elevii dintr-o şcoală, sau totalitatea produselor agricole
cultivate într-un anumit ţinut, sau toate bunurile produse într-o uzină. Dacă se doreşte studiul
unei trăsături comune a tuturor membrilor colectivităţii, este de multe ori aproape imposibil
de a observa această trăsătură la fiecare membru în parte, de aceea este mult mai practic de a
strânge date doar despre o submulţime a întregii populaţii şi de a căuta metode eficiente de a
extrapola aceste observaţii la toată colectivitatea. Există o ramură a statisticii ce se ocupă cu
descrierea acestei colecţii de date, numită Statistică descriptivă. Această descriere a trăsăturilor
unei colectivităţi poate fi făcută atât numeric (media, dispersia, mediana, cuantile, tendinţe etc),
cât şi grafic (prin puncte, bare, histograme etc). De asemenea, datele culese pot fi procesate
într-un anumit fel, încât să putem trage concluzii foarte precise despre anumite trăsături ale
întregii colectivităţi. Această ramură a Statisticii, care trage concluzii despre caracteristici ale
întregii colectivităţi, studiind doar o parte din ea, se numeşte Statistică inferenţială. În contul
Statisticii inferenţiale putem trece şi următoarele: luarea de decizii asupra unor ipoteze statistice,
descrierea gradului de corelare între diverse tipuri de date, estimarea caracteristicilor numerice
ale unor trăsături comune întregii colectivităţi, descrierea legăturii între diverse caracteristici etc.
Statistica Matematică este o subramură a Matematicii ce se preocupă de baza teoretică abstractă
a Statisticii. Din datele culese pe cale experimentală, Statistica Matematică va căuta să extragă
informaţii şi să le interpreteze. Un cercetător într-un domeniul teoretic al Statisticii, cum este şi
Statistica Matematică, va căuta să îmbunătăţească metodele teoretice existente sau să introducă
altele noi. Aceasta va utiliza noţiuni din Teoria probabilităţilor, dar şi noţiuni din alte ramuri ale
Matematicii, cum ar fi: Algebra liniară, Analiza matematică, Teoria optimizării. De asemenea,
partea computaţională este deosebit de utilă în studiul Statisticii moderne, fără de care cercetarea
ar fi îngreunată sau, uneori, chiar imposibil de realizat.

5.1.2 Modelare statistică

De obicei, punctul de plecare este o problemă din viaţa reală, e.g., care partid are o susţinere mai
bună din partea populaţiei unei ţări, dacă un anumit medicament este relevant pentru boală pentru
care a fost creat, dacă este vreo corelaţie între numărul de ore de lumina pe zi şi depresie. Apoi,
trebuie să decidem de ce tipuri date avem nevoie să colectăm, pentru a putea da un răspuns la
întrebarea ridicată şi cum le putem colecta. Modurile de colectare a datele pot fi diverse: putem
face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este
nevoie de o metodă bine stabilită de colectare a datelor şi să construim un model statistic potrivit
pentru analiza acestora. În general, datele (observaţiile) culese pot fi potrivite într-un model
statistic prin care

Data observată = f (x, θ ) + eroare de aproximare, (5.1.1)

unde f este o funcţie ce verifică anumite proprietăţi şi este caracteristică modelului, x este
vectorul ce conţine variabilele măsurate şi θ e un parametru (sau un vector de parametri), care
poate fi determinat sau nedeterminat. Termenul de eroare apare deseori în pratică, deoarece
unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, şi
eventual revizuit, astfel încât să se potrivească într-o măsură cât mai precisă datelor culese.
98 Capitolul 5. Elemente de Statistică descriptivă

5.1.3 Populaţie statistică

O populaţie (colectivitate) statistică este o mulţime de elemente ce posedă o trasatură comună ce
urmează a fi studiată. Aceasta poate fi finită sau infinită, reală sau imaginară. In acest material
vom nota populatia statistica cu Ω. Din punct de vedere matematic, Ω este o multime nevida.
Elementele ce constituie o colectivitate statistică se vor numi unităţi statistice sau indivizi. Vom
nota cu ω o unitate statistică. Dacă populaţia este finită, atunci numărul N al unităţilor statistice
ce o compun (i.e., |Ω|) îl vom numi volumul colectivităţii (sau volumul populaţiei).
Caracteristica (variabila) unei populaţii statistice este o anumită proprietate urmărită la indivizii
ei în procesul prelucrării statistice şi care constituie obiectul măsurării. Spre exemplu, inaltimea
barbatilor dintr-o anumita tara, rata infiltrarii apei in solul urban, media la Bacalaureat, altitudinea,
culoarea frunzelor, nationalitatea participantilor la un congres international etc. Din punct de
vedere matematic, caracteristica este reprezentata printr-o variabila aleatoare definita pe Ω.
Spre exemplu, daca populatia statistica este mulţimea tuturor studenţilor dintr-o universitate
înrolaţi în anul întâi de master, atunci o caracteristica a sa ar fi media la licenţă obţinută de
fiecare dintre aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul
[6, 10], iar aceasta variabila poate lua orice valoare din acest interval. Caracteristicile pot fi:
cantitative (sau măsurabile sau numerice) (e.g., 2, 3, 5.75, 1/3, . . . ) sau calitative (categoriale
sau atribute) (e.g., albastru, foarte bine, german etc). La rândul lor, variabilele cantitative pot fi
discrete (numărul de sosiri ale unui tramvai în staţie) sau continue (timpul de aşteptare între două
sosiri ale tramvaiului în staţie). Caracteristicile pot depinde de unul sau mai multi parametri,
parametrii fiind astfel caracteristici numerice ale colectivităţii. În Statistică, se obisnuieste
a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . ., si valorile lor cu litere mici,
x, y, z, . . ..
Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem acces
la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a fi explicate
sau estimate pe baza datelor. Spre exemplu, pentru variabilele cantitative ale populatiei, putem
avea: parametri care sa descrie tendinta centrala a populatiei (e.g., media, mediana, momente),
parametri care sa descrie dispersia datelor (e.g., dispersia, deviatia standard, coeficient de varia-
tie), parametri de pozitie (e.g., cuantile), parametri ce descriu forma (e.g., skewness, kurtosis).
Pentru date bidimensionale, datele pot fi descrise de parametrii ce descriu legatura intre variabile:
corelatia sau coeficientul de corelatie. Pentru date calitative (categoriale), cei mai des utilizati
parametri sunt: π− proportia din populatie ce are caracteristica de interes (e.g., numarul de
fumatori din tara), cote (sanse teoretica pentru observarea caracteristicii de interes la intreaga
populatie) (e.g., exista 70% sanse sa ploua maine).

5.1.4 Variabile
În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare (prescurtat,
v.a.). Se numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece
valorile observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea
numerică este un număr real. Aşadar, din punct de vedere euristic, o variabilă aleatoare este o
cantitate ce poate avea orice valoare dintr-o multime data, fiecarei valori atribuindu-se o anumita
pondere (frecventa relativa). În viaţă de zi cu zi întâlnim numeroase astfel de funcţii, e.g.,
numerele ce apar la extragerea loto, rezultatul masurarii fertilitatii solului in diverse locatii,
numărul clienţilor deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a
unei persoane într-o staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de
clasa a IV-a la un test de matematică etc. De regula, variabilele aleatoare sunt notate cu litere de
5.1 Elemente introductive de Statistică 99

la sfârşitul alfabetului, X, Y, Z sau ξ , η, ζ etc.

După cum am văzut în cursurile anterioare, variabilele aleatoare (prescurtat v.a.) pot fi discrete
sau continue. Variabilele aleatoare discrete sunt cele care pot lua o mulţime finită sau cel mult
numărabilă (adica, o multime care poate fi numarata) de valori. O variabilă aleatoare se numeşte
variabilă aleatoare continuă (sau de tip continuu) dacă mulţimea tuturor valorilor sale este
totalitatea numerelor dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune
disjunctă de astfel de intervale, cu precizarea că pentru orice posibilă valoare c, P(X = c) = 0.
Pentru a specifica o v.a. discretă, va trebui să enumerăm toate valorile posibile pe care aceasta
le poate lua, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor probabilităţi
va fi întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur. Când se
face referire la repartiţia unei v.a. discrete, se înţelege modul în care probabilitatea totală 1 este
distribuită între toate posibilele valori ale variabilei aleatoare.
O variabila aleatoare continua poate lua orice valoare intr-un interval, sau chiar din R. Deoarece
in aceste multimi exista o infinitate de valori, nu mai putem defini o variabila aleatoare continua
la fel ca in cazul discret, precizandu-i fiecare valoare pe care o ia si ponderea corespunzatoare. In
schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta ia valori si
o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie de
densitate a repartitiei, sau simplu, densitate de repartiţie (en., probability density function).
O repartiţie poate depinde de unul sau mai mulţi parametri reali. Spre exemplu, repartitia normala
are doi parametri, µ si σ .

5.1.5 Date statistice

Vom numi date (sau date statistice) informaţiile obţinute în urma observaţiei valorilor unei
caracteristici a unei populatii statistice. In cazul mentionat mai sus, datele sunt mediile la licenţă
observate. Există mai multe tipuri de date statistice, după cum caracteristica (sau variabila)
observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă (are o
valoare numerica). Putem avea:
• date calitative (se mai numesc şi categoriale). Datele calitative pot fi de două feluri:
– nominale. Acestea pot fi organizate pe niveluri distincte (categorii), fără a considera o
anumită ordine între ele. De exemplu: culoarea părului, naţionalitatea unei persoane,
afilierea politică, genul unei persoane etc.
– ordinale. Valorile ordinale fac referinţă la ordinea lor. De cele mai multe ori, această
grupare şi ordonare în categorii este naturală, deşi de multe ori nu se cunosc distanţele
între categorii. De exemplu: schimbarea stării unui pacient după un anumit tratament
(aceasta poate fi: îmbunătăţire semnificativă, îmbunătăţire moderată, nicio schimbare,
înrăutăţire moderată, înrăutăţire semnificativă). Alte exemple: răspunsurile la sondaj
de opinie (total dezacord, dezacord, de acord, total de acord), evaluări ale filmelor (1
stea, 2 stele etc.).
Există situaţii când datele calitative (sau categoriale) pot fi exprimate numeric. Spre
exemplu, se pot atribui coduri numerice unor date calitative, ce permit prelucrarea lor cu
ajutorul metodelor statistice. De exemplu, atribuirea numerică a calificativelor oferite de
către studenţi profesorilor, de la dezacord total (1), până la acord total (5).
• date cantitative (sau numerice). Aceste date reprezintă rezultatele unor numărări sau
măsurători. Datele cantitative pot fi comparate între ele pe o axă numerică. Ele pot fi, la
rândul lor:
– date de tip discret, dacă sunt obţinute în urma observării unei caracteristici discrete
(o variabila aleatoare discretă, sau o variabila ale carei posibile valori sunt in numar
100 Capitolul 5. Elemente de Statistică descriptivă

finit sau cel mult numărabil). Exemple: numărul de studenţi care vin la un curs,
numărul de copii care îi are o mamă, nota la examenul de Statistică etc.
– date continue, dacă această caracteristică este continuă (o variabilă aleatoare de tip
continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe
axa reala). Exemple: media de la licenţă, atunci datele rezultate vor fi cantitative şi
continue, timpul de funcţionare e continuă a unei baterii, înălţimea unei persoane etc.
• Mai putem vorbi de date univariate, bivariate sau multivariate, atunci când datele statistice
sunt observaţii asupra unei variabile, a două variabile sau a mai multor variabile, respectiv.
• Spunem că avem date temporale sau spaţiale, după cum variabila studiată este dependentă
de timp (se obţin serii de timpi) sau de spaţiu (e.g., aciditatea solului în diverse locaţii).
Un alt mod de a caracteriza datele cantitative este următorul:
• date de tip interval. Datele de tip interval pot fi organizate în intervale de lungime egală,
semnificând diferent, e egale în caracteristica măsurată, dar fără a avea un zero semnificativ
(un punct „zero adevărat”), ci doar un zero arbitrar. Datele de tip interval sunt ordonate,
pot fi atât continue cât şi discrete. Le putem aduna şi scădea, dar nu le putem înmulţi
sau împărţi. Punctul cheie al unei scale de tip interval este cuvântul „interval”, care
înseamnă „spat, iu dintre”. Astfel, scalele de tip interval nu ne spun doar despre ordine, ci
s, i despre valoarea dintre fiecare element. Datele de tip interval pot arăta init, ial ca nişte
date ordinale (de exemplu, temperatură scăzută, medie sau ridicată), dar nivelurile sunt de
natură cantitativă s, i diferent, ele dintre niveluri au o semnificat, ie consistentă.
Un exemplu de date de tip interval: ora observată la un ceas analogic, de 12 ore. Ceasul are
intervale egale, iar timpul necesar pentru ca orarul să treacă de la 1 la 2 este acelas, i cu timpul
necesar pentru a trece de la 9 la 10. Ora 0 nu semnifică lipsa unei măsurători, deci 0 nu semnifică
absenţa mărimii. Pe această scală, valorile se pot aduna sau scădea, dar nu se pot înmulţi sau
împărţi. Spre exemplu, ora 10 nu este dublul orei 5.
Alte exemple de date de tip interval: date calendaristice, anul naşterii, coeficientul IQ al unei
persoane, temperatura în grade Celsius etc.

• date de tip raport. Datele de tip raport reprezintă cea mai complexă scală de măsurare
a datelor, precum s, i cea mai preferată scară de măsurare. Au toate proprietăt, ile datelor
de tip interval, dar posedă şi un zero natural, ceea ce înseamnă că există un punct în care
măsura respectivă, oricare ar fi ea, nu există. De aceea, putem înmult, i s, i împărt, i, precum
s, i aduna sau scădea datele de tip raport. Exemple de date de tip raport: date obţinute ca
observaţii ale unor variabile precum înălt, imea, masa corporală, durata, vârsta etc. Toate
aceste variabile pot avea o valoare de zero care reprezintă nimicul (absenţa valorii). Un
exemplu real de date de tip raport este venitul: banii câs, tigat, i într-o perioadă de timp. Se
poate câs, tiga fie 0 RON într-o lună, fie orice altă sumă de RON mai mare decât zero.
În mod esent, ial, datele de tip interval pot fi negative sau pozitive, în timp ce datele de tip raport
pot fi doar pozitive.
5.1 Elemente introductive de Statistică 101

5.1.6 Eşantionare (selecţie)

In general, volumul colectivitatii poate fi foarte mare sau chiar infinit, astfel ca efectuarea
unui recensământ (i.e., observarea caracteristicii de interes pentru toate elementele ce compun
colectivitatea) este fie foarte costisitoare sau imposibila. Pentru a efectua o analiza a caracteristicii
de interes sau chiar a repartitiei datelor observate, este suficienta analiza unei selectii de volum
suficient de mare formata din observatii ale caracteristicii, urmand ca aceasta analiza sa fie
extrapolata (folosind metode statistice specifice) pentru întreaga populaţie.
O selecţie (sau eşantion) este o colectivitate parţială de elemente extrase (la întâmplare sau nu)
din colectivitatea generală, în scopul cercetării lor din punctul de vedere al unei caracteristici.
Dacă extragerea se face la întâmplare, atunci spunem că am facut o selecţie întâmplătoare.
Numărul indivizilor din selecţia aleasă se va numi volumul selecţiei. Dacă se face o enumerare
sau o listare a fiecărui element component al unei populaţii statistice, atunci spunem că am
facut un recensământ. Selecţia ar trebui să fie reprezentativă pentru populaţia din care face
parte. Numim o selecţie repetată (sau cu repetiţie) o selecţie în urma căreia individul ales a fost
reintrodus din nou în colectivitate. Altfel, avem o selecţie nerepetată. Selecţia nerepetată nu
prezintă interes dacă volumul colectivităţii este finit, deoarece în acest caz probabilitatea ca un
alt individ să fie ales într-o extragere nu este aceeaşi pentru toţi indivizii colectivităţii. Pe de
altă parte, dacă volumul întregii populaţii statistice este mult mai mare decât cel al eşantionului
extras, atunci putem presupune că selecţia efectuată este repetată, chiar dacă în mod practic ea
este nerepetată. Spre exemplu, dacă dorim să facem o prognoză pentru a vedea cine va fi noul
preşedinte în urma alegerilor din toamnă, eşantionul ales (de altfel, unul foarte mic comparativ
cu volumul populaţiei cu drept de vot) se face, în general, fără repetiţie, dar îl putem considera a
fi o selecţie repetată, în vederea aplicării testelor statistice.
Selecţiile aleatoare se pot realiza prin diverse metode, în funcţie de următorii factori: disponibili-
tatea informaţiilor necesare, costul operaţiunii, nivelul de precizie al informaţiilor etc. Mai jos
prezentăm câteva metode de selecţie.
• selecţie simplă de un volum dat, prin care toţi indivizii ce compun populaţia au aceeaşi
şansă de a fi aleşi. Această metodă mininimizează riscul de a fi părtinitor sau favorabil
unuia dintre indivizi. Totuşi, această metodă are neajunsul că, în anumite cazuri, nu reflectă
componenţa întregii populaţii. Se aplică doar pentru colectivităţi omogene din punctul de
vedere al trăsăturii studiate.
• selecţie sistematică, ce presupune aranjarea populaţiei studiate după o anumită schemă
ordonată şi selectând apoi elementele la intervale regulate. (e.g., alegerea a fiecărui al
10-lea număr dintr-o carte de telefon, primul număr fiind ales la întâmplare (simplu) dintre
primele 10 din listă).
• selecţie stratificată, în care populaţia este separată în categorii, iar alegerea se face la
întâmplare din fiecare categorie. Acest tip de selecţie face ca fiecare grup ce compune
populaţia să poata fi reprezentat în selecţie. Alegerea poate fi facută şi în funcţie de
mărimea fiecărui grup ce compune colectivitatea totală (e.g., aleg din fiecare judeţ un
anumit număr de persoane, proporţional cu numărul de persoane din fiecare judeţ).
• selecţie ciorchine, care este un eşantion stratificat construit prin selectarea de indivizi din
anumite straturi (nu din toate).
• selecţia de tip experienţă, care ţine cont de elementul temporal în selecţie. (e.g., diverşi
timpi de pe o encefalogramă).
• selecţie de convenienţă: de exemplu, alegem dintre persoanele care trec prin faţa universi-
tăţii.
• selecţie de judecată: cine face selecţia decide cine ramâne sau nu în selecţie.
102 Capitolul 5. Elemente de Statistică descriptivă

• selecţie de cotă: selecţia ar trebui să fie o copie a întregii populaţii, dar la o scară mult
mai mică. Aşadar, putem selecta proporţional cu numărul persoanelor din fiecare rasă,
de fiecare gen, origine etnică etc) (e.g., persoanele din Parlament ar trebui să fie o copie
reprezentativă a persoanelor întregii ţări, într-o scară mult mai mică).
Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii
necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc
statistici. Prin intermediul statisticilor putem trage concluzii despre populaţia Ω, din care a
provenit eşantionul observat. Teoria probabilităţilor ne oferă procedee de determinare a repartiţiei
asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiţia exactă
este acea repartiţie ce poate fi determinată pentru orice volum al selecţiei. În general, dacă se
lucrează cu selecţii de volum redus (n < 30), atunci repartiţia exactă ar trebui să fie cunoscută
a priori, dacă se doreşte luarea de decizii prin inferenţă. Repartiţia asimptotică este repartiţia
limită a statisticii când n → ∞, iar utilizarea acesteia conduce la rezultate bune doar pentru
n ≥ 30.
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din
acestea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie
cat mai fidel si sugestiv acele date (prin grafice sau indicatori statistici), sa estimeze anumiti
parametri de interes (e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa
verifice prin inferenta ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii
sau chiar la forma acesteia.
Etapele unei analize statistice:
• Verificarea datelor pentru erori sau date lipsă. Sunt cazuri în care datele statistice sunt
înregistrate greşit (e.g., lipseşte virgula sau nu este la locul potrivit, unele date au o altă
unitate de măsură sau lipsesc unele valori).
• Organizarea şi gruparea datelor. Aceasta se face folosind tabele de frecvenţe. Gruparea
datelor nu este unică şi se pot încerca diverse grupări, alegându-se cea mai potrivită
specificului datelor. Este la latitudinea statisticianului de a le organiza, în funcţie de
specificul lor, de informaţiile pe care doreşte să le extragă.
• Reprezentarea datelor folosind diagrame/grafice potrivite. Datele de tip interval şi raport
pot fi reprezentate prin histograme sau prin sectoare de disc, iar cele de tip categorial pot
fi reprezentate prin bare sau prin sectoare de disc. Un grafic potrivit poate sugera multe
informaţii despre date. Pentru datele statistice cantitative se poate reprezenta şi diagrama
box-and-whiskers plot, reprezentând sinteza celor cinci statistici importante: valoarea
minimă, prima cuartilă, mediana (a doua cuartilă), a treia cuartilă şi valoarea maximă a
datelor. Această diagramă poate indica (dacă este cazul!) existenţa unor valori care ies din
tiparul majorităţii valorilor (numite outliers).
• Calculul unor indicatori statistici pentru date. Spre exemplu, se pot calcula: media,
dispersia, mediana, skewness, coeficientul de variaţie etc. Aceşti indicatori se doresc a fi
reprezentanţi numerici ai datelor statistice.
• Luarea de decizii pe baza datelor. Aceasta se poate face în urma unor teste statistice. Exem-
ple de teste statistice: test pentru verificarea normalităţii datelor, test pentru verificarea
mediei datelor, test pentru semnificaţia coeficientului de corelaţie etc.

5.2 Organizarea şi descrierea datelor statistice

Presupunem că avem o colectivitate statistică, căreia i se urmăreşte o anumită caracteristică (sau
variabila). Spre exemplu, colectivitatea este mulţimea tuturor studenţilor dintr-o universitate
5.2 Organizarea şi descrierea datelor statistice 103

înrolaţi în anul întâi de master, iar caracteristica este media la licenţă obţinută de fiecare dintre
aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul [6, 10], iar
aceasta variabila poate lua orice valoare din acest interval.
Vom numi date (sau date statistice) informaţiile obţinute în urma observarii valorilor acestei
caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenţă observate. În general,
datele pot fi calitative (se mai numesc şi categoriale) sau cantitative, după cum caracteristica (sau
variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă
(are o valoare numerica). Totodata, aceste date pot fi date de tip discret, dacă sunt obţinute în
urma observării unei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale
carei posibile valori sunt in numar finit sau cel mult numarabil), sau date continue, dacă această
caracteristică este continuă (o variabilă aleatoare de tip continuu, sau o variabila ce poate lua
orice valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele
vor fi cantitative şi continue.
În Statistică se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . ., si
valorile lor cu litere mici, x, y, z, . . .. Daca in exemplul de mai sus notam cu Z variabila medie la
licenta, atunci un anume z observat va fi media la licenta pentru un student din colectivitate ales
aleator.
Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea
şi reprezentarea grafica a datelor, dar şi în calcularea anumitor caracteristici numerice pentru
acestea. Datele înainte de prelucrare, adică exact aşa cum au fost culese, se numesc date
negrupate. Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 5.1,
reprezentând timpi (în min.sec) de aşteptare pentru primii 100 de clienţi care au aşteptat la un
ghişeu până au fost serviţi.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88
5.36 1.32
Tabela 5.1: Date statistice negrupate

De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urmăreşte a se grupa datele, pentru o mai uşoară gestionare. Imaginaţi-vă că enumerăm toate
voturile unei selecţii întâmplătoare de 15000 de votanţi, abia ieşiţi de la vot. Mai degrabă, ar fi
mai util şi practic să grupăm datele după numele candidaţilor, precizând numărul de voturi ce l-a
primit fiecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase
de interes.

5.2.1 Gruparea datelor

Datele prezentate sub formă de tabel (sau tablou) de frecvenţe se numesc date grupate. Datele
de selecţie obţinute pot fi date discrete sau date continue, după cum caracteristicile studiate sunt
variabile aleatoare discrete sau, respectiv, continue.

1. Date de tip discret: Dacă datele de selecţie sunt discrete (e.g., {z1 , z2 , . . . , zn }), este
posibil ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt
104 Capitolul 5. Elemente de Statistică descriptivă

nota frecvenţa absolută frecvenţa cumulată frecvenţa relativă frecvenţa relativă cumulată
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 - 100% -

Tabela 5.2: Tabel cu frecvenţe pentru date discrete.

z01 , z02 , . . . , z0r , r ≤ n. Atunci, putem grupa datele într-un aşa-numit tabel de frecvenţe (vezi
exemplul din Tabelul 5.2). Alternativ, putem organiza datele negrupate într-un tabel de frecvenţe,
după cum urmează:

data z01 z02 ... z0r

(5.2.2)
frecventa f1 f2 ... fr

unde fi este frecvenţa apariţiei valorii z0i , (i = 1, 2, . . . , r), şi se va numi distribuţia empirică de
selecţie a lui Z. Aceste frecvenţe pot fi absolute sau de relative. Un tabel de frecvenţe (sau o
distribuţie de frecvenţe) conţine cel puţin două coloane: o coloană ce reprezintă datele observate
(grupate în clase) şi o coloană de frecvenţe. În prima coloană apar clasele, adică toate valorile
distincte observate. Datele din această coloană nu se repetă. Prin frecvenţa absolută a clasei
înţelegem numărul de elemente ce aparţine fiecărei clase în parte. De asemenea, un tabel de
frecvenţe mai poate conţine frecvenţe relative sau cumulate. O frecvenţă relativă se obţine prin
împărţirea frecvenţei absolute a unei categorii la suma tuturor frecvenţelor din tabel. Astfel,
suma tuturor frecvenţelor relative este egală cu 100%. Frecvenţa (absolută) cumulată a unei
clase se obţine prin cumularea tuturor frecvenţelor absolute până la (inclusiv) clasa respectivă.
Frecvenţa relativă cumulată a unei clase se obţine prin cumularea tuturor frecvenţelor relative
până la (inclusiv) clasa respectivă.
Aşadar, elementele unui tabel de frecvenţe pot fi: clasele (ce conţin valori pentru variabile),
frecvenţe absolute, frecvenţe relative sau cumulate. Într-un tabel, nu este obligatoriu să apară
toate coloanele cu frecvenţe sau ele să apară în această ordine.
În Tabelul 5.2, sunt prezentate notele studenţilor din anul al III-lea la examenul de Statistică.
Acesta este exemplu de tabel ce reprezentă o caracteristică discretă.
2. Date de tip continuu: Dacă datele statistice sunt realizări ale unei variabile Z de tip
continuu, atunci se obişnuieste să se facă o grupare a datelor de selecţie în clase. Datele de tip
continuu pot fi grupate într-un tablou de distribuţie sau sub forma unui tabel de distribuţie, dupa
cum urmeaza:
5.2 Organizarea şi descrierea datelor statistice 105

clasa frecvenţa valoare medie

[a0 , a1 ) f1 z01
[a1 , a2 ) f2 z02
.. .. ..
data [a0 , a1 ) [a1 , a2 ) ... [ar−1 , ar ) . . .
frecventa f1 f2 ... fr [ar−1 , ar ) fr z0r

Tabela 5.3: Tabel cu frecvenţe pentru date de

tip continuu.
În particular, putem grupa datele de tip continuu din Tabelul 5.1 în tabloul de distribuţie următor:

data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)

frecventa 14 17 21 18 16 14

Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum doreste
utilizatorul. Uneori, tabelul de distribuţie pentru o caracteristică de tip continuu mai poate fi scris
şi sub forma unui tabel ca in (5.2.2), unde
ai−1 + ai
• z0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
• fi este frecvenţa apariţiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r), ∑ fi = n.
i=1
Pentru definirea claselor unui tabel de frecvenţe, nu există o regulă precisă. Fiecare utilizator
de date îşi poate crea propriul tabel de frecvenţe. Scopul final este ca acest tabel să scoată în
evidenţă caracteristicele datelor, cum ar fi: existenţa unor grupe (clase) naturale, variabilitatea
datelor într-un anumit grup (clasă), informaţii legate de existenţa unor anumite date statistice care
nu au fost observate in selecţia dată etc. În general, aceste caracteristici nu ar putea fi observate
privind direct setul de date negrupate. Totuşi, pentru crearea tabelelor de frecvenţe, se recomandă
următorii paşi:
1. Determinarea numărului de clase (disjuncte). Este recomandat ca numărul claselor să fie
între 5 şi 20. Dacă volumul datelor este mic (e.g., n < 30), se recomandă constituirea a 5
sau 6 clase. De asemenea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezentată de
cel puţin 5 valori (pentru un număr mic de clase). Dacă numărul claselor este mai mare,
putem avea şi mai puţine date într-o clasă, dar nu mai puţin de 3. O clasă cu prea puţine
valori (0, 1 sau 2) poate să nu fie reprezentativă.
2. Determinarea lăţimii claselor. Dacă este posibil, ar fi bine dacă toate clasele ar avea aceeaşi
lăţime. Acest pas depinde, în mare măsură, de alegerea din pasul anterior.
3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât fiecare
dată statistică să aparţine unei singure clase.
În practică, un tabel de frecvenţe se realizează prin încercări, până avem convingerea că gruparea
făcută poate surprinde cât mai fidel datele observate.
Aşadar, dacă ne este dată o înşiruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat în tabele sau tablouri de frecvenţe. Invers (avem tabelul sau tabloul de
repartiţie şi vrem să enumerăm datele) nu este posibil, decât doar în cazul unei caracteristici de
tip discret. De exemplu, dacă ni se dă Tabelul 5.4, ce reprezintă rata somajului într-o anumită
regiune a ţării pe categorii de vârste, nu am putea şti cu exactitate vârsta exactă a persoanelor
care au fost selecţionate pentru studiu.
Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clasă, valoarea obţinută prin media valorilor extreme ale clasei. În
106 Capitolul 5. Elemente de Statistică descriptivă

vârsta frecvenţa frecvenţa relativă frecvenţa cumulată vârsta medie

[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -

Tabela 5.4: Tabel cu frecvenţe pentru rata somajului.

cazul Tabelului 5.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenţa cumulată
a unei clase este suma frecvenţelor tuturor claselor cu valori mai mici.

5.3 Reprezentarea datelor statistice

Un tabel de frecvenţe sau o distribuţie de frecvenţe (absolute sau relative) sunt de cele mai multe
ori baza unor reprezentări grafice, pentru o mai bună vizualizare a datelor. Aceste reprezentări
pot fi făcute în diferite moduri, dintre care amintim pe cele mai uzuale.

5.3.1 Reprezentare prin puncte

Reprezentarea prin puncte (en., dot plot) este folosită, de regula, pentru selecţii de date de tip
discret de dimensiuni mici, sau avem un număr relativ mic de valori distincte ale datelor.
Datele sunt reprezentate prin puncte aşezate
unul peste celalalt, reprezentând numărul de
apariţii ale unei valori pentru caracteristica dată.
Un astfel de grafic este reprezentat în Figura 5.1.
Aceste reprezentări sunt utile atunci când dorim
să aflăm informaţii despre amplitudinea datelor,
existenţa unor valori extreme, sau se doreşte
scoaterea în evidenţă a anumitor pâlcuri de date
(en., clusters) sau chiar lipsa unor date (goluri).
Au avantajul de a conserva valoarea numerică a
datelor reprezentate.
Figura 5.1: Reprezentarea cu puncte.

5.3.2 Reprezentarea stem-and-leaf

Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Următorul
set de date negrupate reprezinta punctajele (din 100 de puncte) obţinute de cei 20 de elevi ai unui
an de studiu la o testare semestrială:
50 34 55 41 59 61 62 64 68 18 68 73 75 77
44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 5.3 reprezintă aceste date sub forma stem-and-leaf (ramură-frunză). Se observă că acest
tabel arată atât cum sunt repartizate datele, cât şi forma repartiţiei lor. Aşadar, 7|5 semnifică un
punctaj de 75. Pentru un volum prea mare de date, această reprezentare nu este cea mai bună
metodă de vizualizare a datelor. În secţiunile următoare vom prezenta şi alte metode utile.
5.3 Reprezentarea datelor statistice 107
stem leaf
10
9 26
8 1568
7 357779
6 122488
5 0359
4 148
3 49
2
1 8
0

Figura 5.2: Reprezentarea datelor discrete. Figura 5.3: Tabel stem-and-leaf repre-
zentând punctajele studenţilor.

5.3.3 Reprezentarea cu bare (bar charts)

Este utilă pentru reprezentarea variabilelor discrete cu un număr mic de valori diferite. Barele
sunt dreptunghiuri ce reprezintă frecvenţele, nefiind unite între ele. Fiecare dreptunghi reprezintă
o singură valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regulă, pe orizontală
iar frecvenţele pe verticală. Figura 5.41 reprezintă datele din tabelul cu note. Se poate schimba
orientarea categoriilor şi a claselor; în acest caz barele vor apărea pe orizontală (Figura 5.42 ).

Figura 5.4: Reprezentări cu bare verticale sau orizontale

Figura 5.5 contine o reprezentare de date folosind bare 3D.

108 Capitolul 5. Elemente de Statistică descriptivă

Figura 5.5: Exemple de reprezentări compuse prin bare 3D

Figura 5.6 contine o compunere de două reprezentări cu bare, reprezentând vârstele bărbaţilor şi
femeilor dintr-un eşantion, cu scopul de a le compara.

Figura 5.6: Vârstele bărbaţilor şi femeilor ce au participat la un studiu

5.3.4 Histograme
O histogramă este o reprezentare aproximativă a distribut, iei datelor numerice intermediul unor
dreptunghiuri, ale căror lăt, imi reprezintă intervalele claselor s, i ale căror arii sunt proport, ionale
cu frecvent, ele corespunzătoare.
Cuvântul "histogramă" a fost introdus pentru prima oară de Karl Pearson1 în 1895. Acesta
derivă din cuvintele greceşti histos (gr., ridicat în sus) şi gramma (gr., desen, înregistrare). O
histogramă este o formă pictorială a unui tabel de frecvenţe, foarte utilă pentru selecţii mari de
date de tip continuu. Se aseamănă cu reprezentarea prin bare, cu următoarele două diferenţe: nu
există spaţii între bare (deşi, pot apărea bare de înalţime zero ce arată a fi spaţiu liber) şi ariile
barelor sunt proporţionale cu frecvenţele corespunzătoare. Numărul de dreptunghiuri este egal
cu numărul de clase, lăţimea dreptunghiului este intervalul clasei, iar înălţimea este aşa încât aria
fiecărui dreptunghi reprezintă frecvenţa. Aşadar, în general, dreptunghiurile unei histograme se
ating pentru a indica faptul că variabila reprezentată grafic este continuă. Aria totală a tuturor
dreptunghiurilor este egală cu numărul total de observaţii. Dacă barele unei histograme au toate
1 Karl Pearson (1857 − 1936), statistician, avocat şi eugenist britanic
5.3 Reprezentarea datelor statistice 109

Înălţimea (în cm) frecvenţa

[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 25) 10
[25, 30) 2

Tabela 5.5: Tabel cu înălţimile plantelor

Tabela 5.6: Histograme pentru datele din Tabelul 5.5

aceeaşi lăţime, atunci înălţimile lor sunt proporţionale cu frecvenţele. Înălţimile barelor unei
histogramei se mai numesc şi densităţi de frecvenţă. În cazul în care lăţimile barelor nu sunt
toate egale, atunci înălţimile lor satisfac:

frecvenţa
înălţimea = a · , a = factor de proporţionalitate.
lăţimea clasei

O histogramă este utilizată pentru date de tip continuu, unde clasele reprezintă intervale de
date, în timp ce o diagramă cu bare este un grafic de variabile de tip discret sau categorial. Se
recomandă ca diagramele cu bare să aibă goluri între dreptunghiuri pentru a se observa diferenţa.
În multe cazuri, cuvintele folosite pentru a descrie o histogramă sunt: „simetrică”, „deformată la
stânga” sau „deformată la dreapta”, „unimodală”, „bimodală” sau „multimodală ”. O idee bună
ar fi reprezentarea datelor utilizând mai multe lăt, imi diferite ale claselor, pentru a afla mai multe
despre date.
Să presupunem că am fi grupat datele din Tabelul 5.5 într-o altă manieră, în care clasele nu sunt
echidistante (vezi Tabelul 5.7). În Tabelul 5.7, datele din ultimele două clase au fost cumulate
într-o singură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă din Tabelul 5.5
nu avea suficiente date. Histograma ce reprezintă datele din Tabelul 5.7 este cea din Figura 5.8.
Conform cu regula proporţionalităţii ariilor cu frecvenţele, se poate observa că primele patru bare
au înălţimi egale cu frecvenţele corespunzătoare, pe când înălţimea ultimei bare este jumătate
din valoarea frecvenţei corespunzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte.
În general, pentru a construi o histogramă, vom avea în vedere următoarele:
− datele vor fi împărţite (unde este posibil) în clase de lungimi egale. Uneori aceste divizări sunt
naturale, alteori va trebui să le fabricăm.
− numărul de clase este, în general, între 5 şi 20. Cu cât avem mai multe date, cu atât vom folosi
mai multe clase.
110 Capitolul 5. Elemente de Statistică descriptivă

− în general, nu există o regulă exactă pentru a deter-

mina numărul de clase. Două dintre regulile cele mai
uzuale de stabilire a numărului de clase k sunt:
• numărul
√ de clase approximativ egal cu
numărul
√ de date. Spre exemplu, putem alege
k = [ n] + 1.
• (regula lui Sturges) numărul de clase k este astfel
încât k = 1 + 3.322 log10 , ori n = dlog2 ne + 1.
Metoda lui Sturges este optimă pentru un număr
de date n situat între 30 şi 200.
Figura 5.7: Histogramă 3D
− determinaţi lăţimea minimă a claselor după formula
valoarea maximă observată − valoarea minimă observată
h= .
k
Este o practică obis, nuită să rotunjit, i lăt, imea minimă a clasei până la o zecimală convenabilă,
pentru a face incrementele de-a lungul axei orizontale mai lizibile.
− determinaţi clasele şi apoi înregistraţi numărul de date din fiecare clasă (frecvenţe absolute).
− figura ce conţine histograma va avea clasele pe orizontală şi frecvenţele pe verticală.

Înălţimea (în cm) frecvenţa

[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 30) 12

Tabela 5.7: Tabel cu înălţimile plantelor

Tabela 5.8: Histograme pentru datele din Tabelul 5.7

înălţimea (în cm) frontierele lăţimea frecvenţa densitatea de frecvenţă

[18, 25) 17.5 − 25.5 8 34 4.25
[25, 35) 24.5 − 35.5 11 76 6.91
[35, 45) 34.5 − 45.5 11 124 11.27
[45, 55) 44.5 − 55.5 11 87 7.91
[55, 65) 54.5 − 65.5 11 64 5.82

Tabela 5.9: Tabel cu frontierele claselor.

Observaţie 5.3.1 (1) Dacă lungimea unei clase este infinită, atunci se obişnuieşte ca lăţimea
ultimului interval să fie luată drept dublul lăţimii intervalului precedent.
(2) În multe situaţii, capetele intervalelor claselor sunt nişte aproximări, iar în locul acestora vom
5.3 Reprezentarea datelor statistice 111

putea utiliza alte valori. Spre exemplu, să considerăm clasa [15, 20). Această clasă reprezintă
clasa acelor plante ce au înălţimea cuprinsă între 15cm şi 20cm. Deoarece valorile înălţimilor
sunt valori reale, valorile 15 şi 20 sunt, de fapt, aproximările acestor valori la cel mai apropiat
întreg. Aşadar, este posibil ca această clasă să conţină acele plante ce au înălţimile situate
între 14.5cm (inclusiv) şi 20.5cm (exclusiv). Am putea face referire la aceste valori ca fiind
valorile reale ale clasei, numite frontierele clasei. În cazul în care am determinat frontierele
clasei, lăţimea unei clase se defineşte ca fiind diferenţa între frontierele ce-i corespund. În
concluzie, în cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, lăţimea 6 şi frecvenţa 17
6.
Pentru exemplificare, în Tabelul 5.9 am prezentat frontierele claselor, lăţimile lor şi densităţile
de frecvenţă pentru datele din Tabelul 5.4.

5.3.5 Reprezentare prin sectoare de disc (pie charts)

Se poate reprezenta distribuţia unei caracteristici şi folosind sectoare de disc (diagrame circulare)
(en., pie charts), fiecare sector de disc reprezentând câte o frecvenţă relativă. Această variantă
este utilă în special la reprezentarea datelor calitative. Există şi posibilitatea de a reprezenta
datele prin sectoare 3 dimensionale. În Figura 5.9 am reprezentat datele din Tabelul 5.4.

Figura 5.9: Reprezentare pe disc 3D

Figura 5.8: Reprezentarea pe disc a frecvenţelor
relative ale notelor din tabelul cu note

5.3.6 Poligonul frecvenţelor

Un poligon de frecvenţă este similar cu o reprezentare

cu bare, dar în loc să folosească barele, se creează
un poligon prin trasarea frecvenţelor şi conectarea
acestor puncte cu o serie de segmente.

Figura 5.10: Exemplu de poligon al

frecvenţelor
112 Capitolul 5. Elemente de Statistică descriptivă

5.3.7 Ogive

Pentru frecventele cumulate pot fi folosite ogive. O

ogivă reprezintă graficul unei frecvenţe cumulate
(absolută sau relativă).

Figura 5.11: Ogivă pentru frecvenţele

absolute cumulate din Tabelul 5.2

5.3.8 Diagrama Q-Q sau diagrama P-P

Q-Q plot (diagrama cuantila-cuantila) si P-P plot
(diagrama probabilitate-probabilitate) sunt utilizate
in a determina apropierea dintre doua seturi de date
(repartitii). Daca datele provin dintr-o acceasi repar-
titie, atunci ele se aliniaza dupa o dreapta desenata
in figura. Diagrama Q-Q este bazata pe rangurile
valorilor, iar diagrama P-P este bazata pe functiile
de repartitie empirice.
Figura 5.12: Exemplu de diagrama Q-Q plot

5.3.9 Diagrama scatter plot

Dacă (xk , yk ), k ∈ {1, 2, . . . , n} este un set de date
bidimensionale, ce reprezintă observaţii asupra vec-
torului aleator (X, Y ), atunci o măsură a legăturii
dintre variabilele X şi Y este coeficientul de corela-
ţie empiric introdus de K. Pearson. Primul pas în
analiza regresională este vizualizarea datelor. Pen-
tru aceasta se foloseşte reprezentarea scatter plot.

Figura 5.13: Exemplu de scatter plot

În concluzie, exista mai multe optiuni pentru reprezentarea grafica a datelor, in functie de
tipul de date pe care le avem. Spre exemplu, pentru date discrete şi categoriale sunt preferate
reprezentarile cu bare sau cu sectoare de disc. Dupa caz, mai pot fi folosite reprezentari cu puncte
sau stem&leaf. Pentru date continue se folosesc histograme sau sectoare de disc.
5.4 Măsuri descriptive ale datelor statistice 113

5.4 Măsuri descriptive ale datelor statistice

Să considerăm o populaţie statistică de volum N şi o caracteristică a sa, X, ce are funcţia de
repartiţie F. Asupra acestei caracteristici facem n observaţii, în urma cărora culegem un set
de date statistice. După cum am văzut anterior, datele statistice pot fi prezentate într-o formă
grupată (descrise prin tabele de frecvenţe) sau pot fi negrupate, exact aşa cum au fost culese
în urma observărilor. Pentru analiza acestora, pot fi utilizate diverse tehnici de organizare
şi reprezentare grafică a datelor statistice însă, de cele mai multe ori, aceste metode nu sunt
suficiente pentru o analiză detaliată. Suntem interesaţi în a atribui acestor date anumite valori
numerice reprezentative. Pot fi definite mai multe tipuri de astfel de valori numerice, e.g.,
măsuri ale tendinţei centrale (media, modul, mediana), măsuri ale dispersiei (dispersia, deviaţia
standard), măsuri de poziţie (cuantile, distanţa intercuantilică) etc. În acest capitol, vom introduce
diverse măsuri descriptive numerice, atât pentru datele grupate, cât şi pentru cele negrupate.
Înainte de a introduce indicatorii statistici specifici datelor, facem unele precizări. Există anumite
tipuri de date pentru care unii dintre indicatorii de mai jos nu sunt utilizaţi în practică. Spre
exemplu, pentru datele norminale (date grupate în categorii, fără o anumită ordine între ele) nu
putem calcula media (şi alţi indicatori care derivă din ea, e.g., dispersia, deviaţia standard etc) sau
mediana. Pentru datele statistice ordinale (date grupate în categorii, între care este considerată
o ordine) nu putem calcula media, deoarece distanţele dintre clase nu sunt cunoscute. Pentru
datele statistice de tip continuu putem calcula atât media, cât şi mediana şi modul.

5.4.1 Date negrupate

Considerăm un set de date statistice negrupate, x1 , x2 , . . . , xn (xi ∈ R, i = 1, 2 . . . , n, n ≤ N), ce
corespund unor observaţii făcute asupra variabilei X. Pe baza acestor observatii, definim urmă-
toarele măsuri descriptive ale datelor, in scopul de a estima parametrii reali ai caracteristicilor
populatiei. Deoarece ele se bazeaza doar pe observatiile culese, aceste masuri se mai numesc si
masuri empirice.

• Valoarea medie
Este o măsură a tendinţei centrale a datelor. Pentru o selecţie {x1 , x2 , . . . , xn }, definim:

1 n
x̄ = ∑ xi ,
n i=1

ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru media
teoretica, µ = EX, daca aceasta exista.

• Pentru fiecare i, cantitatea di = xi − x se numeşte deviaţia valorii xi de la medie. Aceasta

nu poate fi definită ca o măsură a gradului de împrăştiere a datelor, deoarece
n
∑ (xi − x) = 0.
i=1

• Momentele
Pentru k ∈ N∗ , momentele iniţiale de ordin k se definesc astfel:

1 n k
ak = ∑ xi .
n i=1
114 Capitolul 5. Elemente de Statistică descriptivă

Pentru fiecare k ∈ N∗ , momentele centrate de ordin k se definesc astfel:

1 n
mk = ∑ (xi − x)k .
n i=1

• Dispersia
Aceasta este o măsură a gradului de împrăştiere a datelor în jurul valorii medii. Pentru o
selecţie {x1 , x2 , . . . , xn }, definim dispersia astfel:
n
Ç n
å
1 1
s2 = ∑ (xi − x̄)2 = [ ∑ xi2 − n(x̄)2 ] .
n − 1 i=1 n − 1 i=1

• Deviaţia standard
Este tot o măsură a împrăştierii datelor în jurul valorii medii. Pentru o selecţie {x1 , x2 , . . . , xn },
definim deviaţia standard:
s
1 n
s= ∑ (xi − x̄)2.
n − 1 i=1
• Coeficientul de variaţie (sau de dispersie)
Acest coeficient (de obicei, exprimat în procente) este util atunci când comparăm două
repartiţii având unităţi de măsură diferite. Nu este folosit atunci când x sau µ este foarte
mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de variatie a datelor
este mai mare pentru populatie ce are media mai mica.
s
cv = , coeficient de variaţie,
x
• Amplitudinea (plaja de valori, range)
Pentru un set de date, amplitudinea (en., range) este definită ca fiind diferenţa dintre
valoarea cea mai mare şi valoarea cea mai mică a datelor, i.e., xmax − xmin .
• Scorul z
Este numărul deviaţiilor standard pe care o anumită observaţie, x, le are sub sau deasupra
mediei. Pentru o selecţie {x1 , x2 , . . . , xn }, scorul X este definit astfel:

xi − x̄
zi = .
s
• Corelaţia (covarianţa)
Dacă avem n perechi de observaţii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), definim corelaţia (cova-
rianţa):

1 n
cov(x, y) = ∑ (xi − x̄)(yi − ȳ).
n − 1 i=1
(5.4.3)

• Coeficientul de corelaţie

cov(x, y)
r= , coeficient de corelaţie,
sx sy
• Funcţia de repartiţie empirică
5.4 Măsuri descriptive ale datelor statistice 115

Se numeşte funcţie de repartiţie empirică asociată unei variabile aleatoare X şi unei
selecţii {x1 , x2 , . . . , xn }, funcţia Fn∗ : R −→ [0, 1], definită prin
numărul valorilor ≤ x
Fn∗ (x) = . (5.4.4)
n
Propoziţia de mai jos arată că funcţia de
repartiţie empirică aproximează funcţia de
repartiţie teoretică (vezi Figura 5.14).

Propoziţie 5.4.1 Fie Ω o colectivitate statistică

şi X o caracteristică a sa, ce se doreşte a fi stu-
diată. Notez cu F(x) funcţia de repartiţie (teore-
tica) a lui X. Pentru o selecţie de valori ale lui X,
{x1 , x2 , . . . , xn }, construim funcţia de repartiţie
empirică, Fn∗ (x). Atunci: Figura 5.14: Funcţia de repartiţie empirică
şi funcţia de repartiţie teoretică pentru distri-
a.s.
Fn∗ (x) −→ F(x), când n → ∞, ∀x ∈ R. buţia normală.

• Coeficientul de asimetrie (en., skewness) este al treilea moment standardizat, care se

defineşte prin

1 n 3
m3 n ∑i=1 (xi − x)
γ1 = 3 = î ó3/2 .
s 1 n
(x − x)2
∑
n−1 i=1 i

Figura 5.15: Clasificarea după coeficientul skewness

O repartiţie este simetrică dacă γ1 = 0. Vom spune că asimetria este pozitivă (sau la
dreapta) dacă γ1 > 0 şi negativă (sau la stânga) dacă γ1 < 0.

• Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis) se defineşte prin

1 n 4
m4 n ∑i=1 (xi − x)
K= =Ä ä2 .
s4 1 n 2
n−1 ∑i=1 (xi − x)

Figura 5.16: Clasificarea după coeficientul kurtosis

Este o măsură care ne indică dacă distribuţia datelor are valori extreme. Kurtosis este al pa-
trulea moment standardizat. Vom avea o repartiţie mezocurtică pentru K = 3, leptocurtică
pentru K > 3 sau platocurtică pentru K < 3. În unele cazuri, în definiţie apare termenul
−3 (adică, k = ms44 − 3), pentru a compara cu valoarea lui k a repartiţiei normale standard.
În acest caz, indicatorul poartă numele de exces.
116 Capitolul 5. Elemente de Statistică descriptivă

• Cuantile
Cuantilele (de ordin q) sunt valori ale unei variabile aleatoare care separă repartiţia ordonată
în q părţi egale.
Pentru q = 2, cuantila xq se numeşte mediană, notată prin x0.5 sau me.
Presupunem că observaţiile sunt ordonate, x1 < x2 < · · · < xn . Pentru această ordine,
definim valoarea mediană:

®
x(n+1)/2 , dacă n = impar;
x0.5 =
(xn/2 + xn/2+1 )/2 , dacă n = par;

Pentru q = 4, cuantilele se numesc cuartile (sunt în număr de 3). Prima cuartilă, notată
x0.25 sau q1 , se numeşte cuartila inferioară, a doua cuartilă este mediana, iar ultima
cuartilă, notată x0.75 sau q3 , se numeşte cuartila superioară. Diferenţa iqr = q3 − q1 se
numeşte distanţa intercuartilică.
Pentru q = 10 se numesc decile (sunt în număr de 9), pentru q = 100 se numesc percentile
(sau centile sunt în număr de 99), pentru q = 1000 se numesc permile (sunt în număr de
999). Sunt măsuri de poziţie, ce măsoară locaţia unei anumite observaţii faţă de restul
datelor.

• Modul
Modul (sau valoarea modală) este acea valoare x∗ din setul de date care apare cel mai
des. Un set de date poate avea mai multe module. Dacă apar două astfel de valori, atunci
vom spune că setul de date este bimodal, pentru trei astfel de valori avem un set de date
trimodal etc. În cazul în care toate valorile au aceeaşi frecvenţă de apariţie, atunci spunem
că nu există mod. De exemplu, setul de date

1 3 5 6 3 2 1 4 4 6 2 5

nu admite valoare modală. Nu există un simbol care să noteze distinctiv modul unui set de
date.

• Valori extreme (sau aberante, en. outliers)

Valorile extreme sunt valori statistice observate care sunt îndepărtate de marea majoritate a
celorlalte observaţii. Ele pot apărea din cauza unor măsurători defectuoase sau în urma
unor erori de măsurare. De cele mai multe ori, ele vor fi excluse din analiza statistică.
Însă, sunt cazuri în care ele nu trebuie excluse, e.g., atunci când studiem dacă un anumit
parametru depăşeşte sau nu o valoare critică. Din punct de vedere matematic, valorile
extreme sunt valorile care se află în afara intervalului

[q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )]

5.4 Măsuri descriptive ale datelor statistice 117

• Sinteza prin cele cinci valori statistice

(five number summary)

Reprezintă cinci măsuri statistice empirice ca-

racteristice unui set de date statistice. Acestea sunt
(în ordine crescătoare): cea mai mică valoare obser-
vată (min{xi }), prima cuartilă (q1 ), mediana (me), a
i
treia cuartilă (q3 ) şi cea mai mare valoare observată
(max{xi }). Aceste cinci numere pot fi reprezentate
i
grafic într-o diagramă numită box-and-whisker plot,
ca în diagrama din Figura 5.17.
Figura 5.17: Diagrama box-and-
whisker plot explicată
În figurile de mai jos sunt desenate astfel de diagrame. Datele din Tabelul 5.4 sunt
reprezentate în prima figură de mai jos prin două diagrame box-and-whiskers. În prima
diagramă (numerotată cu 1) am generat uniform datele din tabel, păstrând clasele; în a
doua diagramă am folosit reprezentarea datelor din acelaşi tabel prin centrele claselor.
Reprezentările sunt cele clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin
puncte în diagrama box-and-whisker plot.
vârsta f. abs. f. rel. f. cum. mijlocul clasei
[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -

Tabela 5.10: Tabel cu frecvenţe.

Figura 5.18: Box-and-whisker plot pentru datele din Tabelul 5.4

118 Capitolul 5. Elemente de Statistică descriptivă

În Figura 5.19, am reprezentat cu box-and-

whisker un set de date discrete ce conţine
două valori aberante. Aici dreptunghiul a
fost crestat (notched box-and whisker plot);
lungimea crestăturii oferind un interval de
încredere pentru mediană. Valorile aberante
sunt reprezentate in figura prin puncte in afara
range-ului datelor.
Figura 5.19: Box-and-whisker plot pentru un set de
date discrete

. Q: What did the box-and-whisker plot say to the outlier?

. A: "Don’t you dare get close to my whisker!!"

5.4.2 Date grupate

Considerăm un set de date statistice grupate (de volum n), ce reprezinta observaţii asupra
variabilei X. Pentru o selecţie cu valorile de mijloc {x1 , x2 , . . . , xr } şi frecvenţele absolute
r
corespunzătoare, { f1 , f2 , . . . , fr }, cu ∑ fi = n, definim:
i=1

1 r
x̄ f = ∑ xi fi,
media (empirică) de selecţie, (sau, media ponderată)
n i=1
Ç r å
2 1 r 2 1 2 2
sf = ∑ fi(xi − x̄ f ) = n − 1 ∑ xi fi − n x̄ f , dispersia (varianţa) empirică,
n − 1 i=1 i=1
»
2
s f = s f , deviaţia empirică standard.

Formule similare se pot da şi pentru măsurile descriptive ale întregii populaţii.
mediana pentru un set de date grupate este acea valoare ce separă toate datele în două părţi egale.
Se determină mai întâi clasa ce conţine mediana (numită clasă mediană), apoi presupunem că
în interiorul fiecărei clase datele sunt uniform distribuite. O formulă după care se calculează
mediana este:
n
− Fme
me = l + 2 c,
fme
unde: l este limita inferioară a clasei mediane, n este volumul selecţiei, Fme este suma frecvenţelor
până la (exclusiv) clasa mediană, fme este frecvenţa clasei mediane şi c este lăţimea clasei
mediane. Similar, formulele pentru cuartile sunt:
n 3n
4 − Fq1 4 − Fq3
q1 = l1 + c1 şi q3 = l3 + c3 ,
fq1 fq3

unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, c1 şi
c3 sunt lăţimile claselor lui q1 (respectiv, q3 ), Fq este suma frecvenţelor până la (exclusiv) clasa
ce contine cuartila, iar fq este frecvenţa clasei unde se gaseste cuartila.
5.5 Transformări de date 119

Pentru a afla modul unui set de date grupate, determinăm mai întâi clasa ce conţine această
valoare (clasă modală), iar modul va fi calculat după formula:

d1
mo = l + c,
d1 + d2

unde d1 şi d2 sunt frecvenţa clasei modale minus frecvenţa clasei anterioare şi, respectiv, frecvenţa
clasei modale minus frecvenţa clasei posterioare, l este limita inferioară a clasei modale şi c este
lăţimea clasei modale.

5.5 Transformări de date

Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine
valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate
(folosind functiile ln sau log10 , daca valorile sunt toate pozitive), radacina patrata a valorilor,
transformarea Box-Cox, transformarea logit, radacini de ordin superior etc. In Tabelul 5.11 am
sugerat tipul de transformare ce poate fi utilizat in functie de coeficientul de skewness γ1 .

În ce condiţii. . . skewness formula

date aproape simetrice −0.5 < γ1 < 0.5 nicio transformare
√
skewness moderat pozitiv, date nenegative 0.5 ≤ γ1 < 1 yi =
√ xi
skewness moderat pozitiv, exista date < 0 0.5 ≤ γ1 < 1 yi = √xi +C
skewness moderat negativ −1 < γ1 ≤ 0.5 yi = C − xi
skewness mare negativ γ1 ≤ −1 yi = ln(C − xi )
skewness mare pozitiv, date pozitive γ1 ≥ 1 yi = ln xi
skewness mare pozitiv, exista date ≤ 0 γ1 ≥ 1 yi = ln(xi +C)

Tabela 5.11: Exemple de transformari de date statistice

Aici, C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce face
transformarea este definita. În loc de funcţia ln se poate folosi şi logaritmul în altă bază, e.g.,
funcţia log10 .
De exemplu, presupunem ca datele observate sunt x1 , x2 , . . . , xn si acestea nu sunt toate pozitive,
cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor;
aceasta este xmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea 1
la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate
sunt echivalente cu folosirea directa a formulei ln(1 + xi ) (adunand valoarea 1, am facut toate
argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y1 , y2 , . . . , yn ,
unde yi = ln(1 + xi ). Un exemplu este cel din Figura 5.20. Se observa ca datele logaritmate sunt
aproape normale. O analiza statistica poate fi condusa pentru datele yi , urmand ca, eventual, la
final sa aplicam transformarea inversa xi = eyi − 1 pentru a transforma rezultatele pentru datele
initiale.
120 Capitolul 5. Elemente de Statistică descriptivă

Figura 5.20: Datele intiale si datele logaritmate

Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a
determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii statistici
atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul
5.12.
Indicatorul datele originale datele tranformate
xi yi = ln(1 + xi )
Minimum −0.8464 −1.8734
Maximum 14.1107 2.7154
media 6.02142 1.51
Cuartila q1 3.1152 0.6532
mediana 6.5200 1.2512
Cuartila q3 8.7548 1.5785
Deviatia standard 5.2511 0.7524
Dispersia 27.5741 0.5661
Skewness 6.2322 0.0233
Kurtosis 78.6077 2.9786
Numarul de observatii 100 100
2
χ pentru testul de normalitate (7 grade de libertate) − 7.1445

Tabela 5.12: Exemplu de indicatori pentru datele originale si pentru datele transformate
5.6 Exerciţii rezolvate 121

5.6 Exerciţii rezolvate

Exerciţiu 5.6.1 Următorul set de date negrupate reprezintă vârstele (în ani, ajustaţi până la cel
mai apropiat întreg) a 20 de persoane participante la o serbare:

20 10 7 19 25 12 15 7 10 8 14 16 15 7 8 13 6 5 7 12

(a) Construiţi un tabel de frecvenţe adecvat datelor.

(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
√ √
R: (a) Alegem numărul de clase k = [ n] + 1 = [ 20] + 1 = 5.
Cea mai mică valoare a datelor este 5, cea mai mare valoare a datelor este 25. Amplitudinea
datelor este A = 25 − 5 = 20. Lăţimea unei clase va fi
valoarea maximă − valoarea minimă 25 − 5
l= = = 4.
k 5
Vârsta Frecv. abs. Tally Densitatea
8
[5, 9) 8 4 =2
5
[9, 14) 5 4 = 1.25
4
[14, 17) 4 4 =1
2
[17, 21) 2 4 = 0.5
1
[21, 25) 1 4 = 0.25
Total 20 - -

(b) Pentru că datele sunt discrete de tip raport, le putem reprezenta folosind histograme sau
sectoare de disc (pie charts).

Figura 5.21: Reprezentarea cu histograme Figura 5.22: Sectoare de disc 3D

Exerciţiu 5.6.2 Următorul set de date grupate reprezintă punctajele (maximum este 100 de
puncte) obţinute de 80 de studenţi la testul de Statistică:
Punctajul Frecv. abs.
1 − 50 21
51 − 60 8
61 − 70 15
71 − 80 22
81 − 100 14
Total 80
122 Capitolul 5. Elemente de Statistică descriptivă

(a) Desenaţi un grafic potrivit pentru a reprezenta datele.

(b) Estimaţi numărul de studenţi care au obţinut punctaje între 26 şi 75.
R: (a) Datele sunt discrete, de tip interval şi le vom reprezenta prin histograme. Calculăm
densităţile de frecvenţă după formula:
frecvenţa clasei
densitatea = .
numărul de valori din clasă
Pentru că datele sunt discrete de tip interval, le putem reprezenta folosind histograme sau sectoare
de disc (pie charts). Valorile roşii din reprezentarea cu histograme sunt ariile dreptunghiurilor
corespunzătoare, care sunt frecvenţele absolute ale claselor.

Figura 5.24: Sectoare de disc

Figura 5.23: Reprezentarea cu histograme

(b) Numărul de studenţi care au obţinut punctaje între 26 şi 75 este aproximativ egal cu aria
haşurată din histograma de mai jos, care este: (50 − 26) · 0.42 + 8 + 15 + 11 ≈ 44.

Exerciţiu 5.6.3 Următorul set de date negrupate reprezintă numărul de pets (animale de casă) pe
care fiecare dintre cei 25 de studenţi aleşi în eşantion le au.
0 0 1 2 0 0 1 0 3 4 1 0 7 1 0 1 2 3 2 1 0 0 0 1 4
(a) Construiţi un tabel de frecvenţe adecvat datelor.
(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
5.6 Exerciţii rezolvate 123

R: (a) Reprezentăm datele cu bare (date de tip categorial ordinal). Numărul de clase k = 6.

Nr. pets Frecv. abs. Tally

0 10
1 7
2 3
3 2
4 2
7 1
Total 25 -

(b) Graficul cu bare (3D) este cel de mai jos.

Exerciţiu 5.6.4 Următorul set de date reprezintă preţurile (în mii de euro) a 20 de case, vândute
într-o anumită regiune a unui oraş:

113 60.5 340.5 130 79 475.5 90 100 175.5 100

111.5 525 50 122.5 125.5 75 150 89 100 70

(a) Determinaţi amplitudinea, media, mediana, modul, deviatia standard, cuartilele şi distanţa
intercuartilică pentru aceste date. Care valoare este cea mai reprezentativă?
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
(c) Calculaţi coeficientii de asimetrie si de aplatizare.

R: Rearanjăm datele în ordine crescătoare:

50 60.5 70 75 79 89 90 100 100 100 111.5

113.5 122.5 125.5 130 150 175.5 340.5 475.5 525
124 Capitolul 5. Elemente de Statistică descriptivă

Amplitudinea este 525 − 50 = 475, media lor este

100 + 111.5
154.15, mediana este = 105.75,
2
modul este 100, cuartila inferioară este
79 + 89
q1 = = 84, q2 = me, cuartila supe-
2
130 + 150
rioară este q3 = = 140 şi distanţa
2
intercuartilică este d = q3 − q1 = 56.
mediana este valoarea cea mai reprezentativă în
acest caz, deoarece cele mai mari trei preţuri,
anume 340.5, 475.5, 525, măresc media şi o fac
mai puţin reprezentativă pentru celelalte date. În
cazul în care setul de date nu este simetric, valoarea
mediană este cea mai reprezentativă valoare a
datelor.
Figura 5.25: box-and-whisker plot pentru
datele din Exerciţiul 5.6.4
s
1 n
Deviatia standard este s = ∑ (xi − x̄)2 = 133.3141. Folosind formulele, gasim ca γ1 =
n − 1 i=1
1.9598 (asimetrie la dreapta) si K = 5.4684 (boltire pronuntata). Valorile aberante sunt cele ce
se afla in afara intervalului

[q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )] = [0, 224].

Se observa ca valorile 340.5, 475.5 şi 525 sunt valori aberante, reprezentate prin puncte in figura.

Exerciţiu 5.6.5 Considerăm datele din Tabelul 5.5.

(a) Determinaţi amplitudinea, media, mediana, modul, dispersia si distanta intercuartilică pentru
aceste date.
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?

R: Amplitudinea este a = 30. Folosind centrele claselor, media este

∑(x · f ) 1
x̄ = = (2.5 · 5 + 7.5 · 13 + 12.5 · 23 + 17.5 · 17 + 22.5 · 10 + 27.5 · 2) = 13.9286.
n 70
Dispersia este:
1
s2 = ( (x2 · f ) − n · x̄2 )
n−1 ∑
1
= (2.52 · 5 + 7.52 · 13 + 12.52 · 23 + 17.52 · 17 + 22.52 · 10 + 27.52 · 2 − 70 · 13.92862 )
69
= 37.06.

Clasa mediană este clasa [10, 15). Deoarece în clasele anterioare ([0, 5) şi [5, 10)) se află deja
5 + 13 = 18 date mai mici decât mediana, pentru a afla valoarea mediană a plantelor (i.e., acea
valoare care este mai mare decât alte 35 de valori la stanga ei şi mai mică decât alte 35 de plante
de la dreapta sa), va trebui să determinăm acea valoare din clasa mediană ce este mai mare decât
alte 17 valori din această clasă. Aşadar, avem nevoie de a determina o fracţie 17
23 dintre valorile
5.6 Exerciţii rezolvate 125

clasei mediane. În concluzie, valoarea mediană este

35 − 18
me = 10 + × 5 = 13.6957.
23

10
Clasa modală este [10, 15), iar modul este mo = 10 + 10+6 × 5 = 13.125.
n
− Fq1
Calculăm acum prima cuartilă dupa formula q1 = l1 + 4 × c. Clasa in care se gaseste
fq1
prima cuartila este [5, 10) (o valoare din acest interval va avea la stanga sa 70/4 dintre valorile
observate). Avem: Fq1 = 5, fq1 = 13, c = 5, de unde q1 = 9.8077.
Similar, clasa in care se gaseste a treia cuartila este [15, 20) (o valoare din acest interval va avea
la dreapta sa 70/4 dintre valori. Avem: Fq3 = 41, fq3 = 10, c = 5, de unde q3 = 18.3824.

Exerciţiu 5.6.6 O companie de asigurări a înregistrat numărul de accidente pe săptămână ce au

avut loc într-un anumit sat, în decurs de un an (52 de săptămâni). Acestea sunt, în ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

(a) Construiţi un tabel de frecvenţe care să conţină numărul de accidente, frecvenţele absolute şi
relative.
(b) Găsiţi media empirică, mediana şi deviaţia standard empirică.
(c) Reprezentaţi prin bare rezultatele din tabelul de frecvenţe.
(d) Găsiţi şi reprezentaţi grafic funcţia de repartiţie empirică a numărului de accidente.

R: (a) Tabelul de frecvenţe este Tabelul 5.13. (b) Avem:

numărul 0 1 2 3 4
frecv. abs. 7 9 14 12 10
frecv. rel. 0.1346 0.1731 0.2692 0.2308 0.1923

Tabela 5.13: Tabel de frecvenţe pentru Exerciţiu 5.6.6

Ã
52
1 1 52
x= ∑ xi = 2.1731,
52 i=1
s= ∑ (xi − x̄)2 = 1.3094,
51 i=1
me = 2.

(c) Reprezentarea prin bare a numărului de accidente şi graficul lui Fn∗ (x) sunt reprezentate în
Figura 5.26.
126 Capitolul 5. Elemente de Statistică descriptivă

(d) Funcţia de repartiţie empirică este:



 0, dacă x < 0;
7

52 , dacă x ∈ [0, 1);




 16 , dacă x ∈ [1, 2);

Fn∗ (x) = 5230


 52 , dacă x ∈ [2, 3);
42
, dacă x ∈ [3, 4);


 52



1, dacă x ≥ 4.

Figura 5.26: Reprezentarea numărului de accidente

Exerciţiu 5.6.7 Se consideră următorul set de date:

173 140 205 192 197 225 158 260 170 185 208 189 190 167 225 190 184 195
(a) Determinaţi amplitudinea, media, modul şi deviaţia standard pentru această selecţie.
(b) Reprezentaţi diagrama box-and-whisker plot pentru date.
R: (a) Avem n = 19 observaţii. Amplitudinea datelor este A = xmax − xmin = 260 − 140 = 120.
Valoarea medie este
1 19
x = ∑ xi = 191.8333.
n i=1
Modurile datelor sunt 190 şi 225. Dispersia datelor este

1 19
s2 = ∑ (xi − x)2 = 748.2647.
n − 1 i=1
√
Deviaţia standard a datelor este s = s2 = 27.3544.
(b) Grupăm datele crescător:

140; 158; 167; 170; 173; 184; 185; 189; 190; 190; 192; 195; 197; 205; 208; 225; 225; 260

Mediana (valoarea de mijloc a) datelor este Me = 190.

Prima cuartilă este Q1 = 173, iar ultima cuartilă este
Q3 = 205. Distanţa intercuartilică este IQR = Q3 − Q1 = 32.
Valorile extreme (outliers) se vor afla în afara intervalului

[173 − 1.5 · 32, 205 + 1.5 · 32] = [125, 253].

Se observă că doar valoarea 260 se află în afara acestui

interval.

Figura 5.27: Reprezentarea box-

and-whiskers plot
5.6 Exerciţii rezolvate 127

Exerciţiu 5.6.8 Ana a început să lucreze la un magazin de calculatoare. Şeful ei i-a cerut să t, ină
o evident, ă a numărului de vânzări pe care le-a făcut în fiecare lună. Următorul set de date este o
listă a vânzărilor sale din ultimele 12 luni:
34, 47, 1, 15, 57, 24, 20, 11, 19, 50, 28, 37.
La fel ca Ana, Cristian lucrează la un magazin de calculatoare. De asemenea, a înregistrat
numărul de vânzări pe care le-a făcut în fiecare lună. În ultimele 12 luni, el a vândut următoarele
numere de computere:
51, 17, 25, 39, 7, 49, 62, 41, 20, 6, 43, 13.
1. Determinaţi sinteza celor cinci valori pentru vânzările efectuate de fiecare dintre cei doi.
2. Desenaţi diagramele box-and-whiskers plot pentru vânzările fiecăruia.
3. Descriet, i pe scurt comparat, iile dintre vânzările lor.

R: 1. Sinteza celor cinci valori pentru Ana

este 1, 17, 26, 42, 57, iar pentru Cristian este
6, 15, 32, 46, 62.

Figura 5.28: Reprezentările

box-and-whiskers plot
3. Cea mai mare s, i cea mai scăzută vânzare ale lui Cristian sunt ambele mai mari decât vânzările
corespunzătoare ale Anei, iar cifra mediană a vânzărilor lui Cristian este mai mare decât cea a
Anei. De asemenea, intervalul intercuartil al lui Cristian este mai mare decât cel al Anei. Aceste
rezultate sugerează că Cristian vinde în mod constant mai multe computere decât face Ana.
Exerciţiu 5.6.9 Folosind diagramele box-and-whiskers plot de mai jos, determinat, i procentul de
băiet, i s, i apoi procentul de fete care au 168 cm sau mai put, in.

R: Se observă că 168 se află la prima cuartilă în diagrama ce reprezintă înălţimile fetelor şi
la mediană în diagrama ce reprezintă înălţimile băieţilor. Aşadar 25% dintre băieţi şi jumătate
dintre fete sunt mai scunzi de 168 cm.
128 Capitolul 5. Elemente de Statistică descriptivă

5.7 Exerciţii propuse

Exerciţiu 5.7.1 Pentru un set de 5 valori, media empirică este x = 50 şi dispersia empirică este
s2 = 4. Dacă trei dintre valori sunt 48, 51, 52, determinaţi şi celelalte două valori.
Exerciţiu 5.7.2 Se consideră următoarea selecţie de note obţinute de elevii unei şcoli la teza de
Matematică.
5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7
6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6
(a) Determinaţi media, deviaţia standard şi mediana pentru această selecţie.
(b) Grupaţi datele şi scrieţi funcţia de repartiţie empirică.
(c) Reprezentaţi un box-and-whisker plot pentru date.
Exerciţiu 5.7.3 Pentru evaluarea rezultatelor obţinute la proba de Matematică a examenului de
Bacalaureat de către elevii unei şcoli, s-a făcut un sondaj de volum 30 printre elevii şcolii, notele
fiind următoarele:
3.72 7.45 4.65 6.95 5.00 4.30 8.93 7.14 8.24 6.67
9.33 9.05 5.86 6.75 7.20 7.28 6.65 5.90 7.75 4.33
7.18 8.00 5.50 7.70 4.12 8.40 7.00 6.90 5.00 7.80
(a) Descrieţi datele folosind o reprezentare stem & leaf.
(b) Calculaţi media, dispersia şi mediana pentru selecţia considerată, precizând formulele
folosite.
(c) Determinaţi cele cinci măsuri statistice din five number summary
(d) Reprezentaţi un box-and-whisker plot pentru date.
(e) Ionel a obţinut nota 8.45 la examen. Determinaţi scorul său.
Exerciţiu 5.7.4 Tabelul de mai jos conţine notele la Matematică a 10 elevi dintr-o anumită şcoală
obţinute la: testul de simulare a examenului de Bacalaureat (T) şi la examenul Bacalaureat (B).
T 6.15 5.75 8.45 8.90 7.83 6.50 10 4.50 9.25 7.65
B 7.23 6.00 7.76 9.63 6.90 6.33 9.90 3.24 8.67 7.90

(a) Reprezentaţi cele două seturi de date prin câte un box-and-whisker plot, în aceeaşi figură.
(b) Reprezentaţi datele din tabel printr-o diagramă scatter.
(c) Calculaţi coeficientul de corelaţie empirică între T şi B şi comentaţi rezultatul.

Exerciţiu 5.7.5 Tabelul alăturat conţine repartiţia pe grupe de vârstă

şi gen a unei selecţii aleatoare de 385 de şomeri dintr-o anumită regiune vârsta frecvenţa
a ţării. [18, 25) 34
(a) Calculaţi vârsta medie si deviaţia standard pentru selecţia dată. [25, 35) 76
(b) Aflaţi mediana, modul şi quartilele pentru selecţia dată. [35, 45) 124
(c) Reprezentaţi datele prin bare şi sectoare de disc. [45, 55) 87
(d) Construiţi diagrama box-and-whiskers pentru acest set de date. [55, 65) 64

Exerciţiu 5.7.6 Considerăm diagrama stem-and-leaf din Figura 5.3. Răspundeţi la următoarele
cerinţe:
(a) Aflaţi cuartilele şi distanţa interquartilică;
(b) Există valori extreme pentru acest set de date?
(c) Construiţi diagrama box-and-whiskers pentru acest set de date;
5.7 Exerciţii propuse 129

(d) Care este valoarea maximă cu care putem înlocui cea mai mică observaţie fără a afecta
valoarea primei cuartile?
Exerciţiu 5.7.7
O companie foloseşte două maşini pentru a produce
batoane de ciocolată. Pentru a controla calibrarea
maşinilor, au fost alese aleator câte 30 de batoane de
ciocolată produse de fiecare maşină. Datele rezultate în
urma cântăririi acestor batoane sunt reprezentate grafic
în diagrama alăturată. Comparaţi şi comentaţi datele din
cele două eşantioane.

Nr. de goluri pe meci Nr. de meciuri

Exerciţiu 5.7.8 Tabelul 5.14 conţine distribuţia 0 8
numărului de goluri înscrise într-un meci la campi- 1 13
onatul mondial de fotbal din 2006. 2 18
(a) Determinaţi cuartilele pentru aceste date. 3 11
(b) Desenaţi o diagrama box-and-whisker pentru 4 10
date. 5 2
(c) Care este probabilitatea ca, într-un meci ales 6 2
aleator, numărul de goluri marcate să fie mai mic
decât ultima cuartilă? Tabela 5.14: Tabel cu numărul de goluri
pe meci la FIFA WC 2006
Exerciţiu 5.7.9 Un grup de persoane au participat la un studiu
Vârsta Frecvenţa
statistic. Vârstele participanţilor sunt înregistrate în tabelul alăturat.
[18, 25) 10
(a) Valoarea mediană este 42. Determinaţi valoarea lui x.
[25, 35) 39
(b) Desenaţi o diagrama box-and-whisker pentru date.
[35, 45) x
(c) Aflaţi vârsta medie a participanţilor la studiu ce au cel puţin 45
[45, 55) 53
de ani.
[55, 65) 21
(d) Construiţi coloanele cu frecvenţe relative şi frecvenţe cumulate.
[65, 75) 7
(e) Reprezentaţi datele cu histograme.
Exerciţiu 5.7.10 Graficul alăturat reprezintă
punctajele a 150 de studenţi la un anumit test.

(a) Aflaţi procentul de studenţi care au luat

punctaj de trecere (cel puţin 50) la test.

(b) Care este procentajul celor care sau luat un

punctaj de cel puţin 75 la test?

Exerciţiu 5.7.11 Tabelul de mai jos conţine notele a 12 studenţi la probele de Matematică şi
Informatică de la Bacalaureat.
Mate 6.20 9.10 4.30 3.10 5.70 6.30 8.15 3.70 4.30 1.50 7.85 7.65
In f o 6.50 5.70 5.50 3.70 6.20 7.05 7.30 4.90 6.55 4.12 6.45 7.25
(a) Folosiţi box-and-whisker plot pentru a reprezenta datele. Pe baza acestor diagrame,
130 Capitolul 5. Elemente de Statistică descriptivă

comparaţi datele.
(b) Construiţi diagrama scatter şi pe baza ei comentaţi legătura dintre cele două seturi de date.

Exerciţiu 5.7.12 Un vânzător ţine evidenţa numărului de clienţi care intră în magazinul său în
timpul unei zile lucrătoare. Iată rezultatele pentru 30 de zile.
14, 23, 10, 7, 14, 23, 35, 16, 27, 32, 11, 26, 24, 8, 27, 8, 17, 9, 18, 29, 21, 12, 38, 22, 19, 28, 30, 21, 19, 35

(a) Completaţi tabelul de frecvenţe.

(b) Care este procentajul zilelor în care au intrat
mai mult de 20 clienţi.
(c) Reprezentaţi grafic datele din tabel printr-o
figură adecvată.
(d) Reprezentaţi datele printr-o diagramă stem&
leaf.

Exerciţiu 5.7.13 Diagrama alăturată ilustrează sporturile

preferate de elevii dintr-o şcoală. Fiecare elev a ales un
singur sport preferat.

(a) Care este valoarea modală?

(b) Care este procentul elevilor care preferă alte sporturi?

Dacă 306 de elevi preferă fotbal, atunci:

(c) câţi elevi preferă volei?

(d) câţi elevi sunt în şcoală? Figura 5.30: Sporturi preferate de elevii
unei şcoli
Exerciţiu 5.7.14 Diagrama alăturată ilustrează
timpul mediu pe care în fac de acasă până la
şcoală elevii dintr-o anumită şcoală cu două
cicluri de studiu, primar şi gimnazial.

(a) Câţi elevi ajung la şoală în 30 de minute

sau mai mult?
(b) Estimaţi numărul de elevi din ciclul
gimnazial.
(c) Comparaţi graficele pentru cele două
cicluri de studiu, făcând comentarii utile.
Figura 5.31: Timp mediu de a ajunge la şcoală

Exerciţiu 5.7.15 Se consideră următoarea selecţie de note obţinute de elevii unei şcoli la teza de
Matematică.

5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7,
6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6.
5.7 Exerciţii propuse 131

(a) Calculaţi media, deviaţia standard şi mediana pentru această selecţie.
(b) Grupaţi datele şi scrieţi funcţia de repartiţie empirică;
(c) Reprezentaţi datele printr-o diagramă/grafic adecvat.
Exerciţiu 5.7.16 Construiţi un tabel de frecvenţe cu 5 clase din următorul set de date:
5 10 7 19 25 12 15 7 6 8 17 17 22 21 7 7 24 5 6 5
Reprezentaţi datele din tabel cu bare, în aceeaşi figură cu poligonul frecvenţelor.
Exerciţiu 5.7.17 Construiţi o diagramă stem&leaf din următorul set de date:
35 22 7 39 45 12 15 27 46 18 17 27 22 21 27 37 34 35 6 15

Exerciţiu 5.7.18 Următoarea listă indică numărul de camere, cu excepţia băii şi a bucătăriei, din
50 de locuinţe. Construiţi un tabel de frecvenţe şi desenaţi un grafic cu bare pentru a reprezenta
aceste date.
2 6 4 3 3 4 4 7 5 4 5 3 7 5 5 4 4 5 6 2 5 4 4 8 6
6 3 4 4 5 8 6 5 5 3 3 3 7 5 4 4 5 4 1 6 2 3 3 6 4

Exerciţiu 5.7.19 Datele de mai jos reprezintă înălţimile a 40 de copii dintr-o şcoală. Construiţi
un tabel de frecvenţe şi desenaţi un grafic cu un număr optim de histograme pentru a reprezenta
aceste date. Estimaţi numărul de copii ce au înălţimea peste 50 cm.
113 92 60 77 103 88 91 93 57 73 65 68 72
79 83 86 79 98 62 69 77 82 78 84 68 90 79
71 74 82 84 90 100 96 80 84 93 69 75 80

Exerciţiu 5.7.20 Într-o şcoală, 2/5 dintre elevi studiază engleza, 1/4 dintre elevi studiază limba
germană, 1/5 dintre elevi studiază franceza şi restul elevilor studiază alte limbi. Desenaţi o
diagramă circulară exactă pentru a ilustra aceste informaţii.
Exerciţiu 5.7.21 Histogramele din figurile de mai jos reprezinta punctaje (din 100) la trei
examene diferite pentru un grup de 150 de studenţi. Punctajul de promovare pentru fiecare
examen este de 50.
132 Capitolul 5. Elemente de Statistică descriptivă

• Pentru fiecare examen, decideţi dacă procentul celor care au trecut examenul a fost de:
aproximativ 50%, cu mult peste 50% sau cu mult sub 50%?
• Determinaţi procentul de studenţi care au promovat examenul pentru fiecare figură.
• Ce procent de studenţi a obt, inut 65 de puncte sau mai mult la fiecare dintre aceste examene?
Exerciţiu 5.7.22 Pentru fiecare dintre histogramele de mai jos, estimaţi media, mediana şi
cuartilele. Construiţi diagramele box-and-whiskers plot corespunzătoare.

Exerciţiu 5.7.23 Într-un studiu al product, iei de lapte la oaie (care a fost utilizat la fabricarea
brânzei), un cercetător a măsurat product, ia de lapte pe 3 luni, pentru fiecare dintre cele 11 oi.
Rezultatele (în litri) au fost următoarele:
56.5 89.8 110.1 65.6 63.7 82.6 75.1 91.5 102.9 44.4 108.1

1. Determinat, i mediana s, i quartilele.

2. Determinat, i dacă există valori extreme.
3. Construit, i diagrama boxplot a datelor.
Exerciţiu 5.7.24 Următoarea histogramă reprezintă un set de date care sunt reprezentate într-unul
dintre cele patru boxplot alăturate. Care boxplot se potrives, te cu histograma?
6. Noţiuni din Teoria selecţiei statistice

6.1 Introducere
Definiţie 6.1.1 Numim colectivitate statistică (sau populaţie) o mulţime nevidă Ω de elemente
care este cercetată din punct de vedere al uneia sau mai multor caracteristici. Elementele
colectivităţii le vom numi indivizi (sau unităţi statistice). Vom nota cu ω o unitate statistică.
Dacă populaţia este finită, atunci numărul N al unităţilor statistice ce o compun (i.e., card(Ω)= N)
îl vom numi volumul colectivităţii (sau volumul populaţiei).
Considerăm o populaţie (colectivitate statistică) Ω. Studiem populaţia Ω din punctul de vedere
al unei caracteristici a sale, X. Această caracteristică este o anumită proprietate urmărită la
indivizii ei în procesul prelucrării statistice şi o vom asimila cu o variabilă aleatoare definită pe
Ω. Problema esenţială a Statisticii Matematice este de a stabili legea de probabilitate pe care
o urmează caracteristica X. Pentru a găsi această lege (repartiţie), avem nevoie mai întâi de
un număr reprezentativ de observaţii asupra colectivităţii Ω. Pe baza acestor observaţii, vom
determina prin inferenţă o lege care să reprezinte variabila X.
Definiţie 6.1.2 Vom numi selecţie (sau eşantion, sondaj) o subcolectivitate a colectivităţii
cercetate Ω. Numărul elementelor selecţiei poartă numele de volumul selecţiei (eşantionului).
Selecţiile pot fi repetate sau nerepetate. O selecţie se numeşte repetată (sau bernoulliană) dacă
după examinarea individului acesta se reintroduce în colectivitate; în caz contrar avem o selecţie
nerepetată. În practică, volumul colectivităţii Ω este mult mai mare decât volumul selecţiei. În
aceste cazuri, selecţia nerepetată poate fi considerată ca fiind selecţie repetată. Selecţiile pe care
le vom considera în continuare sunt numai selecţii repetate din colectivitatea statistică.

Definiţie 6.1.3 Vom numi statistică (sau funcţie de selecţie) variabila aleatoare

Sn (X) = g(X1 , X2 , . . . , Xn ),

unde g este o funcţie g : Rn → R.

Ca o observaţie, numele de "statistică" este folosit în literatura de specialitate atât pentru
variabila aleatoare de mai sus, cât şi pentru valoarea ei, înţelesul exact desprinzându-se din
134 Capitolul 6. Noţiuni din Teoria selecţiei statistice

context. Repartiţia unei statistici se mai numeşte şi repartiţia (distribuţia) de selecţie.

Notaţie 6.1.1 În literatură, pentru o statistică se foloseşte una dintre următoarele notaţii:

Sn (X), S(X, ω (n) ), S(X, n), S(X1 , X2 , . . . , Xn ), S(X).

(sau cu alte litere specifice, în loc de S).

Valoarea numerică
Sn (x) = g(x1 , x2 , . . . , xn )
se numeşte valoarea funcţiei de selecţie pentru un ω (n) fixat.
Observaţie 6.1.1 Aşadar, o statistică este o funcţie de variabilele aleatoare de selecţie. Prin
intermeniul statisticilor putem trage concluzii despre populaţia Ω, din care a provenit eşantionul
ω (n) . Teoria probabilităţilor ne oferă procedee de determinare atât a repartiţiei exacte a lui Sn (X),
cât şi a repartiţiei asimptotice a lui Sn (X). Repartiţia exactă este acea repartiţie ce poate fi
determinată pentru orice volum al selecţiei. În general, dacă se lucrează cu selecţii de volum
redus (n < 30), atunci repartiţia exactă ar trebui să fie cunoscută a priori, dacă se doreşte luarea
de decizii prin inferenţă. Repartiţia asimptotică este repartiţia limită a Sn (X) când n → ∞, iar
utilizarea acesteia conduce la rezultate bune doar pentru n ≥ 30.
De cele mai multe ori, o funcţie de selecţie (statistică) este utilizată în următoarele cazuri:
• în probleme de estimare punctuală a parametrilor;
• în obţinerea intervalelor de încredere pentru un parametru necunoscut;
• ca o statistică test pentru verificarea ipotezelor statistice.

6.1.1 Statistici uzuale

Fie (Ω, F ) o colectivitate statistică şi X o caracteristică cercetată a sa. Să notăm cu f (x) şi F(x)
densitatea de repartiţie (sau funcţia de probabilitate), respectiv, funcţia de repartiţie pentru X.
Acestea pot fi cunoscute sau necunoscute a priori şi le vom numi funcţii teoretice (densitate de
repartiţie teoretică, funcţie de probabilitate teoretică sau funcţie de repartiţie teoretică). Dacă se
cunoaşte f (x), atunci putem determina µ = E(X) şi σ 2 = Var(X), dacă acestea există, şi le vom
numi medie teoretică şi dispersie teoretică.
În cazul în care una sau mai multe caracteristici teoretice corespunzătoare lui X nu ne sunt a
priori cunoscute, vom căuta să le determinăm prin inferenţă, adică prin extragerea unor selecţii
de date din colectivitate, calculând caracteristicile respective pentru selecţiile considerate şi apoi
extrapolând (în anumite condiţii şi după anumite criterii) la întreaga colectivitate.

Să considerăm ω (n) o selecţie repetată de volum n din colectivitatea dată şi Xi , i = 1, n,
variabilele aleatoare de selecţie. Cu ajutorul acestora, putem construi diverse funcţii de selecţie.

1. Media de selecţie

Definiţie 6.1.4 Numim medie de selecţie (repetată de volum n), statistica

1 n
X(ω (n) ) = ∑ Xi(ω (n)), ω (n) ∈ Ω(n) . (6.1.1)
n i=1

Pentru un ω (n) fixat, să notăm cu {x1 , x2 , . . . , xn } valorile de selecţie corespunzătoare variabilelor
aleatoare de selecţie {X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selecţie pentru un ω (n) fixat
6.1 Introducere 135

este:
1 n
x= ∑ xi (media empirică).
n i=1
Propoziţie 6.1.1 Media de selecţie satisface următoarele proprietăţi:

σ2
1. E(X) = µ, Var(X) = ,
n
1 n a.s.
2. ∑ Xi −→ µ, când n → ∞.
n i=1

Observaţie 6.1.2 (1) În capitolele următoare vom scrie relaţia (6.1.1) sub forma restrânsă:

1 n
X= ∑ Xi.
n i=1

Pentru simplitatea formulelor, de acum înainte vom face abstraţie de dependenţa de ω (n) în
formule, care se va subînţelege.
(2) Propoziţia 6.3.2 precizează care este repartiţia mediei de selecţie pentru variabile aleatoare
de selecţie dintr-o colectivitate normală, iar Propoziţia 6.3.4 precizează care este repartiţia
asimptotică a mediei de selecţie pentru variabile de selecţie într-o colectivitate oarecare.
(3) Valoarea
σ
σX = √
n
se mai numeşte şi eroarea standard a mediei de selecţie. Dacă selecţia se face dintr-o populaţie
de volum comparabil cu cel al populaţiei (n > 0.05N), atunci ipoteza de selecţie fără repetiţie nu
va mai fi validă. În acest caz, un termen de corecţie se aplică pentru eroarea standard şi scriem:
…
σ N −n
σX = √ .
n N −1
»
Atunci când n N, atunci N−n N−1 ≈ 1 şi obţinem formula anterioară.

2. Dispersia de selecţie

Definiţie 6.1.5 Numim dispersie de selecţie (repetată de volum n), statistica

1 n
Var(X, ω (n) ) = ∑ [Xi(ω (n)) − X(ω (n))]2.
n i=1

Pentru simplitate, o vom nota cu Var(X) (sau Var), iar valoarea acesteia pentru un ω (n) fixat
este:
1 n
d 2 (x) = ∑ [xi − x]2 (dispersia empirică)
n i=1

De cele mai multe ori, în locul lui Var(X) se utilizează statistica S2 (X), definită prin:

2 1 n
S (X) = ∑ [Xi − X]2 .
n − 1 i=1
136 Capitolul 6. Noţiuni din Teoria selecţiei statistice

Aceasta se mai numeşte şi dispersie de selecţie modificată, iar valoarea ei pentru un ω (n) fixat
este:
2 2 1 n
s = S (x) = ∑ [xi − x]2 (dispersia empirică modificată)
n − 1 i=1
Propoziţia 6.3.11 precizează care este repartiţia statisticii S2 .
În continuare, dacă nu este dubiu în ce priveşte caracteristica X, vom folosi notaţia simplificată
S2 în loc de S2 (X).
Propoziţie 6.1.2 Dispersiile de selecţie verifică următoarele relaţii:

n−1 2
E(Var(X)) = σ , E(S2 ) = σ 2 ,
n
a.s. a.s.
Var(X) −→ σ 2 , S2 −→ σ 2 , când n → ∞.
√
Observaţie 6.1.3 (i) Statistica S = S2 se numeşte deviaţie standard √ de selecţie. Valoarea sa
pentru o selecţie dată este deviaţie standard empirică, dată de s = s2 .
(ii) După cum vom vedea în capitolul următor, primele două relaţii arată că statistica S2 (X)
este un estimator nedeplasat pentru dispersia teoretică, pe când Var(X) este estimator deplasat.
Aşadar, se poate spune că, pentru selecţii de volum mic, statistica S2 oferă o aproximare mai
bună pentru dispersie decât oferă statistica Var, de aceea S2 este mai des utilizat în practică.
Totuşi, dacă volumul selecţiei este mare, atunci diferenţele dintre valorile celor două statistici
sunt mici.
(iii) Dacă media teoretică a colectivităţii este cunoscută a priori, E(X) = µ ∈ R, atunci dispersia
de selecţie Var(X) devine:
n
e 2 (X) = 1 ∑ [Xi − µ]2 .
D
n i=1
Propoziţia 6.3.8 precizează care este repartiţia acestei statistici.

6.2 Statistici de ordine

Definiţie 6.2.1 Dacă variabilele aleatoare din selecţia {X1 , X2 , . . . , Xn } le rearanjăm în ordinea
mărimii lor şi scriem
X(1) ≤ X(2) ≤ · · · ≤ X(n) ,
atunci vom numi variabila aleatoare X(i) statistica de ordine de ordin i, pentru orice i = 1, 2, . . . , n.
Pentru o selecţie dată, valoarea statisticii de ordine de ordin i o vom nota prin x(i) , pentru orice
i = 1, 2, . . . , n.
Statistica X(1) se numeşte prima statistică de ordine şi reprezintă minimumul selecţiei, i.e.,

X(1) = min{X1 , X2 , . . . , Xn }.

Statistica X(n) se numeşte ultima statistică de ordine şi reprezintă maximumul selecţiei, i.e.,

X(n) = max{X1 , X2 , . . . , Xn }.

De exemplu, dacă avem valorile de selecţie

x1 = 8, x2 = 7, x3 = 9, x4 = 5, x5 = 3,
6.2 Statistici de ordine 137

atunci
x(1) = 3, x(2) = 5, x(3) = 7, x(4) = 8, x(5) = 9.
Dacă n = 2m + 1, atunci X(m) = X( n+1 ) , adică mediana de selecţie este o statistică de ordine
2
în acest caz. Dacă n = 2m, atunci avem două valori de mijloc, X(m) şi X(m+1) . Deoarece
Me = 12 (X(m) + X(m+1) ), mediana de selecţie nu este statistică de ordine pentru n par.
Definim amplitudinea (range) selecţiei ca fiind statistica A = X(n) − X(1) . Statisticile X(n) − Me
şi Me − X(1) se numesc deviaţiile extreme ale selecţiei.
Ca o observaţie importantă, deşi variabilele aleatoare de selecţie sunt independente, totuşi
statisticile de ordine sunt dependente.
Să presupunem că F(x) este funcţia de repartiţie a selecţiei date şi f (x) densitatea de repartiţie.
Următoarea propoziţie stabileşte funcţiile de repartiţie pentru statisticile de ordine.
Propoziţie 6.2.1 Pentru un k = 1, 2, . . . , n fixat, funcţia de repartiţie pentru X(k) este:
n
FX(k) (x) = ∑ Cnj F(x) j [1 − F(x)]n− j , pentru orice x ∈ R.
j=k

În particular, pentru k = 1, obţinem că funcţia de repartiţie a celui mai mic element al selecţiei:
FX(1) (x) = 1 − [1 − F(x)]n , pentru orice x ∈ R.
Astfel, densitatea de repartiţie asociată este:
fX(1) (x) = FX0 (1) (x) = n[1 − F(x)]n−1 f (x), pentru orice x ∈ R.

Funcţia de repartiţie a celui mai mare element al selecţiei este:

FX(n) (x) = [F(x)]n , pentru orice x ∈ R,
iar densitatea de repartiţie asociată este:
fX(n) (x) = FX0 (n) (x) = n[F(x)]n−1 f (x), pentru orice x ∈ R.

Exemplu 6.2.1 La finala de 100m viteză masculin din cadrul campionatelor mondiale de
atletism în aer liber, timpii de sosire ai celor 8 sportivi calificaţi sunt variabile aleatoare
independente stochastic, identic repartizate U (9.5s, 10.5s). Calculaţi următoarele probabilităţi:
(1) Probabilitatea ca recordul mondial de 9.58s să cadă;
(2) Probabilitatea ca toţi candidaţii să termine cursa cu timpi de sosire până în 10s.
(3) Probabilitatea ca măcar trei atleţi să termine cursa sub 9.7s.

0,
 dacă x ≤ 9.5
R: Deoarece T ∼ U (9.5s, 10.5s), avem că F(x) = x − 9.5, dacă 9.5 < x < 10.5

1, dacă x ≥ 10.5

Atunci:
P1 = P(T(1) ≤ 9.58) = FT(1) (9.58) = 1 − [1 − F(9.58)]8 = 1 − 0.928 ≈ 0.4868.

P2 = P(T(8) ≤ 10) = FT(8) (10) = [F(10)]8 = 0.58 ≈ 0.004.

8
P3 = P(T(3) ≤ 9.7) = FT(3) (9.7) = ∑ C8j F(9.7) j [1 − F(9.7)]8− j ≈ 0.4049.
j=3
138 Capitolul 6. Noţiuni din Teoria selecţiei statistice

6.3 Selecţii aleatoare dintr-o colectivitate normală

Să considerăm Ω o colectivitate statistică şi X o caracteristică a sa, ce urmează a fi studiată
din punct de vedere statistic. Fie {X1 , X2 , . . . , Xn } variabile aleatoare de selecţie repetată de
volum n. În cele mai multe cazuri practice, X urmează o repartiţie normală (gaussiană). De
regulă, dacă volumul populaţiei este mic (n < 30), atunci considerăm doar populaţii normale,
iar pentru n ≥ 30, datorită rezultatului teoremei limită centrală, putem considera orice tip de
repartiţie pentru colectivitate. Mai jos, prezentăm câteva rezultate utile referitoare la selecţia
dintr-o colectivitate gaussiană.
Propoziţie 6.3.1 Dacă ξi ∼ N (µi , σi ) sunt variabile aleatoare independente stochastic şi ai ∈ R,
n
i = 1, 2, . . . , n, atunci variabila aleatoare ξ = ∑ ai ξi satisface proprietatea:
i=1
s !
n n
ξ ∼N ∑ ai µi, ∑ a2i σi2 .
i=1 i=1

Propoziţie 6.3.2 (repartiţia mediei de selecţie pentru o selecţie gaussiană) Dacă X ∼ N (µ, σ )
şi Xi , i = 1, n, sunt variabilele aleatoare de selecţie, atunci statistica X satisface:
Å ã
σ
X ∼ N µ, √ , n = 1, 2, . . .
n

O consecinţă directă a acestei propoziţii este următoarea:

Propoziţie 6.3.3 Dacă Xi ∼ N (µ, σ ), i = 1, 2, . . . , n, sunt variabile aleatoare de selecţie, atunci

X −µ
Z = σ ∼ N (0, 1).
√
n

Propoziţie 6.3.4 (repartiţia mediei de selecţie pentru o selecţie oarecare) Dacă

{X1 , X2 , . . . , Xn }, variabile aleatoare de selecţie repetată de volum n, ce urmează o repartiţie dată,
atunci pentru un volum n suficient de mare, statistica X satisface:
Å ã
σ
X ∼ N µ, √ , n ≥ 30.
n

Observaţie 6.3.1 Când selecţia se face fără revenire dintr-o populaţie de volum mai mic decât
30 şi X nu este neapărat normal repartizată, atunci putem spune doar că
…
σ N −n
E(X) = µ şi Var(X) = √ ,
n N −1

fără a putea preciza care este repartiţia lui X. Aici N este volumul populaţiei şi n > 0.05N.
6.3 Selecţii aleatoare dintr-o colectivitate normală 139

Propoziţie 6.3.5 Fie ξi ∼ N (µi , σi ) variabile aleatoare independente stochastic şi ai ∈ R, i =

1, 2, . . . , n. Pentru fiecare caracteristică ξi considerăm câte o selecţie repetată de volum ni , şi
notăm cu ξi media de selecţie corespunzătoare fiecărei selecţii. Atunci statistica Y = a1 ξ1 +
a2 ξ2 + . . . + an ξn satisface proprietatea:
s !
n n 2
Y ∼N 2 σi
∑ ai µi, a
∑ i ni .
i=1 i=1

Următoarea propoziţie este un caz particular al Propoziţiei 6.3.5.

Propoziţie 6.3.6 (repartiţia diferenţei mediilor de selecţie pentru colectivităţi gaussiene)

Con-
siderăm o selecţie de volum n1 dintr-o populaţie normală N (µ1 , σ1 ) şi o selecţie de volum
n2 dintr-o colectivitate N (µ2 , σ2 ), cele două selecţii fiind alese independent una de cealaltă.
Notăm cu X1 şi, respectiv, X2 mediile de selecţie corespunzătoare selecţiilor alese. Atunci
!
σ12 σ22
X1 − X2 ∼ N µ1 − µ2 , + .
n1 n2

Observaţie 6.3.2 (1) Concluzia propoziţiei anterioare se mai poate scrie astfel:

(X1 − X2 ) − (µ1 − µ2 )
Z = q 2 ∼ N (0, 1).
σ1 σ22
n1 + n2

(2) Să presupunem că avem două populaţii statistice normale, Ω1 şi Ω2 , iar X este o caracteris-
tică comună a celor două populaţii, ce urmează a fi studiată. (De exemplu, populaţiile statistice
să fie mulţimea pieselor produse de două strunguri într-o zi de lucru, iar caracteristica comună
să fie masa lor). Să mai presupunem că deviaţiile standard ale caracteristicilor considerate sunt
cunoscute (i.e., deviaţiile sunt date deja în cartea tehnică a celor două strunguri). Pentru fiecare
dintre cele două colectivităţi, considerăm câte o selecţie repetată, de volume n1 , respectiv, n2
(adică, vom selecta n1 dintre piesele produse de strungul întâi şi n2 piese produse de cel de-al
doilea strung). Să notăm cu X1 , respectiv, X2 mediile de selecţie corespunzătoare. Propoziţia
anterioară precizează care este repartiţia diferenţei standardizate ale celor două medii de selecţie.
Aceasta ne va fi deosebit de utilă, spre exemplu, în verificarea ipotezei că masele medii ale
pieselor produse de cele două strunguri coincid.
Propoziţie 6.3.7 Dacă X ∼ N (0, 1) , atunci variabila aleatoare

n
H 2 = ∑ Xk2 ∼ χ 2 (n).
i=1

Observaţie 6.3.3 O consecinţă imediată a acestei propoziţii este că, dacă X ∼ N (0, 1), atunci
v.a. X 2 ∼ χ 2 (1). Următoarea propoziţie este tot o consecinţă directă a Propoziţiei 6.3.7.
140 Capitolul 6. Noţiuni din Teoria selecţiei statistice

Propoziţie 6.3.8 (repartiţia dispersiei de selecţie când media colectivităţii este cunoscută)
Dacă X ∼ N (µ, σ ) , atunci variabila aleatoare

1 n
H2 = ∑ (Xi − µ)2 ∼ χ 2(n).
σ 2 i=1

Lema 6.3.9 Dacă X şi Y sunt variabile aleatoare independente stochastic, astfel încât X ∼ χ 2 (n)
şi X +Y ∼ χ 2 (n + m), atunci Y ∼ χ 2 (m).
Lema 6.3.10 Fie X caracteristica unei colectivităţi statistice N (µ, σ ), X media de selecţie de
volum n şi S2 dispersia de selecţie. Atunci, statisticile
√
X −µ n n−1 2 1 n
σ = (X − µ) şi 2
S = 2 ∑ i
(X − X)2 sunt independente stochastic.
√ σ σ σ
n i=1

Propoziţie 6.3.11 Fie X ∼ N (µ, σ ) caracteristica unei populaţii statistice. Atunci statistica

1 n
χ2 = ∑ (Xi − X)2 ∼ χ 2(n − 1).
σ 2 i=1

Observaţie 6.3.4 Din Propoziţia 6.3.11, deducem repartiţia dispersiei de selecţie S2 :

n−1 2
2
S ∼ χ 2 (n − 1). (6.3.2)
σ

Lema 6.3.12 Dacă X şi Y sunt variabile aleatoare independente stochastic, cu X ∼ N (0, 1) şi
Y ∼ χ 2 (n), atunci statistica
X
T = » ∼ t (n).
Y
n

Propoziţie 6.3.13 Dacă X ∼ N (µ, σ ) este caracteristica unei colectivităţi statistice, atunci

X −µ
t= S
∼ t(n − 1).
√
n−1
(t(n − 1) este repartiţia Student cu n − 1 grade de libertate, S este deviaţia stantard de selecţie)

Observaţie 6.3.5 Aceasta propoziţie va fi folosită pentru verificarea ipotezelor statistice, în

problema testării mediei teoretice când dispersia teoretică este necunoscută a priori.
Propoziţie 6.3.14 Dacă variabilele aleatoare {X0 , X1 , . . . , Xn } sunt independente stochastic,
identic repartizate N (0, 1), atunci variabila aleatoare
X0
T=q ∼ t (n).
X12 +X22 + ... +Xn2
n
6.3 Selecţii aleatoare dintr-o colectivitate normală 141

Propoziţie 6.3.15 (repartiţia diferenţei mediilor de selecţie când dispersiile sunt necunoscute,
egale) Considerăm o selecţie de volum n1 dintr-o populaţie normală N (µ1 , σ1 ) şi o selecţie
de volum n2 dintr-o colectivitate N (µ2 , σ2 ), cele două selecţii fiind alese independent una de
cealaltă. Notăm cu X1 , X2 şi S12 = SX2 1 , S22 = SX2 2 mediile de selecţie şi dispersiile de selecţie
corespunzătoare selecţiilor alese. În plus, presupunem că σ12 = σ22 = σ 2 . Atunci
s
(X1 − X2 ) − (µ1 − µ2 ) n1 + n2 − 2
T=» 1 1
∼ t(n1 + n2 − 2).
2
(n1 − 1)S + (n2 − 1)S 2
n1 + n2
1 2

Propoziţie 6.3.16 (repartiţia diferenţei mediilor de selecţie când dispersiile sunt necunoscute şi
diferite) Considerăm o selecţie de volum n1 dintr-o populaţie normală N (µ1 , σ1 ) şi o selecţie
de volum n2 dintr-o colectivitate N (µ2 , σ2 ), cele două selecţii fiind alese independent una de
cealaltă. Notăm cu X1 , X2 şi S12 = SX2 1 , S22 = SX2 2 mediile de selecţie şi dispersiile de selecţie
corespunzătoare selecţiilor alese. Presupunem că σ12 6= σ22 . Atunci

(X1 − X2 ) − (µ1 − µ2 )
T= ∼ t(N). (6.3.3)
S12 S22
+
n1 n2

unde
Ç å2
s21 s22
+
n1 n2 Ä ä
N = Ç å2 Ç å2 −2 s21 = s2 (x1 ), s22 = s2 (x2 ) (6.3.4)
s21 1 s22 1
+
n1 n1 − 1 n2 n2 − 1

Observaţie 6.3.6 În practică se foloseşte un test statistic pentru testarea egalităţii dispersiilor
necunoscute ale celor două caracteristici.
Propoziţie 6.3.17 Dacă X ∼ χ 2 (m) şi Y ∼ χ 2 (n) sunt variabile aleatoare independente, atunci
variabila aleatoare
n X
F= ∼ F (m, n).
mY
Propoziţie 6.3.18 Dacă {X1 , X2 , . . . , Xm+n } sunt variabile aleatoare independente, identic repar-
tizate N (0, 1), atunci variabila aleatoare

n X12 + X22 + . . . + Xm2

F= 2 2 2
∼ F (m, n).
m Xm+1 + Xm+2 + . . . + Xm+n

Propoziţie 6.3.19 (repartiţia raportului dispersiilor pentru colectivităţi gaussiene) Fie X1 ∼

N (µ1 , σ1 ) şi X2 ∼ N (µ2 , σ2 ) caracteristicile a două populaţii statistice, Ω1 şi Ω2 . Din fiecare
142 Capitolul 6. Noţiuni din Teoria selecţiei statistice

populaţie extragem câte o selecţie repetată, de volume n1 , respectiv, n2 , şi considerăm S12 = SX2 1
şi S22 = SX2 2 dispersiile de selecţie corespunzătoare celor două selecţii repetate. Atunci

σ22 S12
F= ∼ F (n1 − 1, n2 − 1).
σ12 S22

Propoziţie 6.3.20 (repartiţia raportului dispersiilor pentru colectivităţi gaussiene) Suntem în

condiţiile Propoziţiei 6.3.19, cu menţiunea că mediile teoretice µ1 şi µ2 sunt cunoscute a priori.
Atunci
σ22 d12
∼ F (n1 , n2 ),
σ12 d22
unde d12 şi d22 sunt date de:
n1 n2
1 1
χ12 = 2 ∑ (X1 i − µ1) 2 2
∼ χ (n1 ), χ22 = 2 ∑ (X2 j − µ2)2 ∼ χ 2 (n2 ).
σ1 i=1 σ2 j=1

6.4 Exerciţii rezolvate

Exerciţiu 6.4.1 Folosiţi tabelele potrivite pentru a găsi următoarele cuantile:
2
(a) z0.5 (b) z0.975 (c) z0.25 (d) χ0.9, 5 (e) t0.975, 12

R: Reamintim, zα este cuantila de ordin α, adică acea valoarea pentru care aria sub-graficului
de la −∞ până la zα este egală cu α (vezi Figura 4.3). Pentru punctele (a), (b) & (c) utilizăm
Tabelul 9.1 din Anexă. Găsim că

z0.5 = 0; z0.975 = 1.96 z0.25 = −z0.75 = −0.6745.

2
(d) Utilizăm Tabelul 9.3 din Anexă. Găsim că χ0.9, 5 = 9.24.
(e) Utilizăm Tabelul 9.4 din Anexă. Găsim că t0.975, 12 = 2.179.

Exerciţiu 6.4.2 Dacă Z ∼ N (0, 1), calculaţi:

P(Z ≤ 1.35); P(0 ≤ Z ≤ 1); P(1 ≤ Z); P(|Z| > 1.5).

R: Utilizăm Tabelul 9.2 din Anexă. Găsim că

P(Z ≤ 1.35) = 0.9115;

P(0 ≤ Z ≤ 1) = P(Z ≤ 1) − P(Z ≤ 0) = 0.8413 − 0.5 = 0.3413;
P(1 ≤ Z) = 1 − P(Z < 1) = 1 − 0.8413 = 0.1587;
P(|Z| > 1.5) = P(Z > 1.5) + P(Z < −1.5) = 2P(Z > 1.5)
= 2(1 − P(Z < 1.5)) = 2(1 − 0.9332) = 0.1336.

Exerciţiu 6.4.3 Nota la examenul de Statistică este o variabilă aleatoare normală, de medie 7.25
şi deviaţie standard 0.8.
6.4 Exerciţii rezolvate 143

(a) Care este procentul de note care sunt mai mici de 8?

(b) Care este procentul de note de trecere (cel puţin 5)?
(c) Care este procentul de note aflate între 6 şi 8?
R: Folosim valorile din Tabelul 9.2 din Anexă.
8 − 7.25
(a) Valoarea standardizată corespunzătoare notei 8 este = 0.9375. Procentul de note
0.8
sub 8 este pa = 100 · P(Z < 0.9375) ≈ 82.6.
5 − 7.25
(b) Valoarea standardizată corespunzătoare notei 5 este = −2.81. Procentul de note
0.8
peste 5 este
pb = 100 · P(Z > −2.81) = 100 · [1 − P(Z < 2.81)] ≈ 99.75.
6 − 7.25
(c) Valoarea standardizată corespunzătoare notei 6 este = −1.56. Procentul de note
0.8
între 6 şi 8 este

pc = 100 · [P(Z < 0.9375) − P(Z > −1.56)] = 100 · [P(Z < 0.9375) − 1 + P(Z < 1.56)]
≈ 82.6 − 100 + 94.06 = 76.65.

Exerciţiu 6.4.4 Datele de mai jos reprezintă sperant, a de viat, ă în 12 t, ări din America de Sud:

61, 64, 65, 66, 70, 71, 72, 73, 74, 74, 75, 75

Media acestor date este 70, iar deviaţia standard este 4.81. (Nu trebuie să verificat, i acest lucru.)
Fără a face niciun calcul, care valoare din date a avut cea mai mare contribut, ie la deviaţia
standard? Adică, dacă am putea elimina unul dintre punctele de date, ce valoare din date ar trebui
să eliminăm, dacă scopul nostru este să facem deviaţia standard a celor 11 puncte rămase cât mai
mică posibil? De ce?
R: Deoarece media datelor este 70, cea mai mare contribuţie la valoarea deviaţiei standard o va
avea valoarea cea mai îndepărtată de medie. Astfel, valoarea 61 are cea mai mare contribuţie
la valoarea deviaţiei standard. Fără valoarea 61, deviaţia standard de la noua medie scade la
s = 4.07.

Exerciţiu 6.4.5 Diametrul arborilor pentru o anumită specie de arbori este o variabilă aleatoare
distribuită normal cu media de 20 cm s, i abaterea standard de 5 cm.
(a) Care este probabilitatea ca diametrul unui copac ales aleatoriu să fie între 16 cm s, i 23 cm?
(b) Pentru un eşantion de 25 de arbori din această specie, care este probabilitatea ca media
celor 25 diametre să fie între 16 cm s, i 23 cm?
X − 20
R: (a) Ştim că X ∼ N (20 cm, 5 cm), echivalent cu Z := ∼ N (0 cm, 1 cm). Valorile
5
standardizate pentru 16 cm şi 23 cm sunt:

16 − 20 23 − 20
z1 = = −0.8 şi z2 = = 0.6.
5 5
Probabilitatea căutată este (folosind Tabelul 9.2 din Anexă):

P(−0.8 < Z < 0.6) = P(Z < 0.6) − P(Z < −0.8) = P(Z < 0.6) − (1 − P(Z < 0.8))
= 0.7257 − (1 − 0.7881) = 0.5138,

adică 51.38% şanse.

144 Capitolul 6. Noţiuni din Teoria selecţiei statistice

(b) Media unui eşantion de n = 25 arbori urmează repartiţia normală de medie µX = 20 cm şi
5 = 1 cm. Matematic, scriem că X ∼ N (20 cm, 1 cm), echivalent cu
deviaţie standard σX = 5 cm
X − 20
W := ∼ N (0 cm, 1 cm). Valorile standardizate pentru 16 cm şi 23 cm sunt:
1
16 − 20 23 − 20
w1 = = −4 şi w2 = = 3.
1 1
Probabilitatea căutată este (folosind Tabelul 9.2 din Anexă):
P(−4 < W < 3) = P(Z < 3) − P(Z < −4) = P(Z < 3) − (1 − P(Z < 4))
= 0.9987 − (1 − 0.9999) = 0.9986,
adică 99.86% şanse.
Exerciţiu 6.4.6 Înălt, imile femeilor de 18-24 de ani dintr-o anumită t, ară urmează o distribut, ie
normală cu o medie de 164 cm. (Să presupunem că măsurătorile sunt făcute la cel mai apropiat
cm.) În plus, 68% din înălt, imi sunt între 159 cm s, i 169 cm.
(a) Care este deviat, ia standard a înălt, imii?
(b) În ce range se vor afla 95% dintre înălţimile femeilor din această ţară?
(c) Pentru un eşantion de 100 de femei din această ţară, care este probabilitatea ca media
înălţimilor lor să fie între 163 cm s, i 165 cm?
R: (a) Fie H variabila aleatoare ce reprezintă înălţimea unei femei din această ţară. Informaţii
din ipoteză se scriu astfel:

µH = 164 cm şi P(159 < H < 168) = 0.68.

Deoarece ştim că 68% dintre valorile unei normale se află la cel mult o deviaţie standard de
media 164 cm, găsim că σH = 5cm.
(b) 95% dintre înălţimile femeilor din aceastăţară se vor afla la cel mult 2 deviaţii standard de
medie, adică în intervalul [164 − 10, 164 + 10] = [154, 174].
(c) Media eşantionului este µH = 164 cm şi deviaţia standard a eşantionului este σH = √5 100 cm
=
0.5 cm. Probabilitatea cerută va fi egală cu:
163 − 164 165 − 164
Å ã
P(163 < H < 165) = P <Z< = P(−2 < Z < 2)
0.5 0.5
= P(Z < 2) − P(Z < −2) = P(Z < 2) − (1 − P(Z < 2))
= 2 · 0.9772 − 1 = 0.9544.

Exerciţiu 6.4.7 Cantitatea de apă consumată de Ana în fiecare zi se presupune a fi o v.a. normală
cu media 2 l şi deviaţia standard 0.3 l, independentă de zi. Ana a cumpărat azi un bax de 6 sticle
a câte 2.5 litri de apă fiecare. Presupunând că Ana bea doar din apa cumpărată azi, care este
probabilitatea ca ea să mai aibă apă din acest stoc şi după o săptămână (7 zile, inclusiv cea de
azi)?
R: Notez cu X variabila aleatoare ce reprezintă cantitatea de apă consumată de Ana zilnic.
Informaţiile din ipoteză se scriu astfel:

Xi ∼ N (2 ml, 0.3 ml), i = 1, 2, . . . , 7,

unde Xi sunt variabile aleatoare independente. Cantitatea de apă consumată de Ana √ în 7 zile este
o variabilă aleatoare X = X1 + X2 + . . . + X7 ce urmează distribuţia N (7 · 2 l, 7 · 0.3 l), adică
6.4 Exerciţii rezolvate 145

N (14 l, 0.7937 l).

Baxul conţine 6 · 2.5 l = 15 l de apă. Ana va mai avea apă peste 7 zile dacă va consuma mai puţin
de 15 litri. Probabilitatea ca acest fapt să aibă loc este (vezi Tabelul 9.2 din Anexă)
X − 14 15 − 14
Å ã
P(X < 15) = P < = P(Z < 1.26) = 0.8962,
0.7937 0.7937
adică 89.62% şanse.
Exerciţiu 6.4.8 Presupunem că masa medie a unor batoane de ciocolată produse de o maşină este
o caracteristică X ∼ N (100, 0.65). În vederea verificării parametrilor maşinii, dintre batoanele
primite într-un depozit s-au ales la întâmplare 1000 de bucăţi.
(i) Calculaţi media şi deviaţia standard ale mediei de selecţie, X.
(ii) Calculaţi P(98 < X < 102).
(iii) Un baton este declarat rebut dacă masa sa este sub 98 de grame sau peste 102 de grame.
Calculaţi procentul de rebuturi avute. √
R: (i) Ştim că media de selecţie X urmează repartiţia N (100, 0.65/ 1000). Aşadar,
µX = 100, σX ≈ 0.02.
(ii) Probabilitatea P1 = P(98 < X < 102) este
P1 = P(X < 102) − P(X ≤ 98) = FX (102) − FX (98)
Ç å Ç å
X − 100 102 − 100 X − 100 98 − 100
= P √ < √ −P √ < √
0.65/ 1000 0.65/ 1000 0.65/ 1000 0.65/ 1000
Ç å Ç å
2 −2
= Θ √ −Θ √
0.65/ 1000 0.65/ 1000
≈ Θ(97.301) − Θ(−97.301) ≈ 1.
(iii) Probabilitatea de a avea un rebut este:
Ä [ ä
P2 = P {X < 98} {X > 102}
= P(X < 98) + P(X > 102)
= FX (98) + 1 − FX (102)
−2
Å ã Å ã
2
= Θ +1−Θ ≈ 0.002091,
0.65 0.65
de unde, procentul de rebuturi este
r = P2 · 100% ≈ 0.2091%,
adică aproximativ 2 rebuturi la 1000 de batoane.
Exerciţiu 6.4.9 Samponul marca FAIRHAIR se vinde acum în supermarket în trei mărimi
(volume): 250ml, 500ml şi 1 litru. Treizeci la sută dintre cumpărătorii acestui produs cumpără
flaconul de 250ml, 50% pe cel de 500ml, iar restul pe cel de 1 litru. Notăm cu X volumul unui
flacon de FAIRHAIR. Fie X1 şi X2 volumele flacoanelor cumpărate de doi dintre clienţi, aleşi la
întâmplare.
(a) Determinaţi repartiţia pentru X. Calculaţi media E(X) şi comparaţi-o cu µ = E(X).
(b) Calculaţi Var(X) şi comparaţi-o cu σ 2 = Var(X).
(c) Calculaţi probabilitatea P(X ≥ 500).
(d) Care ar trebui să fie volumul minim de cumpărători pentru ca media de selecţie să satisfacă
relaţia P(X ≥ 500) > 0.75?
R: Fie v.a. X ce reprezintă volumul ales de un cumpărător. Atunci distribuţia lui X este:
146 Capitolul 6. Noţiuni din Teoria selecţiei statistice

x 250 500 1000

.
p(x) 0.3 0.5 0.2
Deoarece X1 şi X2 sunt variabile aleatoare de selecţie, ele√sunt independente si au aceeaşi
repartiţie ca X. Avem că µ = E(X) = 525 şi σ = D(X) = 25 109.
(a) Media de selecţie este X = (X1 + X2 )/2. Repartiţia sa este:
x 250 375 500 625 750 1000
.
p(x) 0.09 0.3 0.25 0.12 0.2 0.04
Media este µX = E(X)
… = E(X) = µ = 525.
σ 109
(b) σX = √ = 25 < σ.
2 2
(c) P(X ≥ 500) = 0.25 + 0.12 + 0.2 + 0.04 = 0.61. Å ã
σ
(d) Presupunem că n este mare. Atunci, conform teoremei limită centrală, X ∼ N µ, √ ,
n
X −µ
de unde găsim că σ ∼ N (0, 1). Aşadar,
√
n
!
X −µ 500 − µ
0.75 < P(X ≥ 500) = 1 − P(X ≤ 500) = 1 − P σ ≤ σ
√ √
n n
!
500 − µ
Å … ã
n
= 1−Θ σ = 1−Θ − ,
√ 109
n
de unde
Å … ã …
n n
Θ − < 0.25 şi − < Θ−1 (0.25) = z0.25 = −0.6745,
109 109
de unde n > 109 · z20.25 ≈ 50.
Exerciţiu 6.4.10 Notăm cu P1 , P2 , . . . , P9 preţurile oferite de 9 ofertanţi la o licitaţie publică
pentru vinderea unui anumit tablou. Presupunem că acestea sunt variabile aleatoare reparti-
zate uniform U (1000, 2000). Obiectul se va vinde celui care vine cu oferta cea mai mare.
Determinaţi valoarea aşteptată a preţului obţinut pentru acest tablou.
R: Deoarece P ∼ U (1000, 2000), atunci

® 1 0,
 dacă x ≤ 1000
f (x) = 1000 , dacă 1000 < x < 2000 şi
F(x) = x−1000 , dacă 1000 < x < 2000
0, dacă x ∈
6 (1000, 2000)  1000
1, dacă x ≥ 2000

Funcţia de repartiţie a statisticii de ordine M = P(9) = max{P1 , P2 , . . . , P9 } este
FP(9) (x) = [F(x)]9 , x ∈ R.
Densitatea de repartiţie a statisticii de ordine M este
fP(9) (x) = FP0(9) (x) = 9[F(x)]8 f (x), x ∈ R.
Preţul de vânzare aşteptat este media variabilei aleatoare M,
Z∞ 2000
x − 1000 8
Å ã
9
Z
E(M) = x fY (x)dx = x dx = 1900.
1000 1000
−∞ 1000
6.5 Exerciţii propuse 147

Exerciţiu 6.4.11 Becurile produse de un manufacturier A au timpul mediu de funcţionare de

1400 ore, cu deviaţia standard de 200 ore, în timp ce timpul mediu de funcţionare al becurilor
produse de un manufacturier B au timpul mediu de funcţionare de 1200 ore, cu deviaţia standard
de 100 ore. Se face o selecţie de 125 becuri din fiecare tip şi se testează becurile alese.
(a) Pentru selecţiile date, care este probabilitatea ca becurile produse de A să aibă un timp
mediu de viaţă mai mare cu 250 de ore decât timpul mediu de funcţionare al becurilor produse
de B?
(b) Care este probabilitatea ca timpul mediu de funcţionare al becurilor selectate din tipul A să
fie cuprins între 1375 de ore şi 1425 de ore?
(c) Presupunem că timpul mediu de funcţionare al becurilor produse de A este o v.a. normală.
Alegem la întâmplare un bec de tipul A. Care este probabilitatea ca timpul său mediu de
funcţionare să fie cuprins între 1375 de ore şi 1425 de ore?
R: Notăm cu T1 şi T2 cele două timpuri de funcţionare. Avem că

µT1 = 1400, σT1 = 200 şi µT2 = 1200, σT2 = 100.

Pentru o selecţie de volum n = 125 (vom considera că selecţia este repetată, deoarece volumul
selecţiei este mult mai mic decât numărul becurilor produse de fiecare manufacturier), avem că:

200 100
T1 ∼ N (1400, √ ) şi T2 ∼ N (1200, √ ).
5 5 5 5

Diferenţa mediilor de selecţie este o v.a. repartizată astfel:

T1 − T2 ∼ N (200, 20).

P(T1 − T2 > 250) = 1 − FT1 −T2 (250)

250 − 200
Å ã
= 1−Θ ≈ 0.0062.
20
(b) Probabilitatea cerută este:

P(1375 ≤ T1 ≤ 1425) = FT1 (1425) − FT1 (1375)

1425 − 1400 1375 − 1400
Å ã Å ã
= Θ √ −Θ √ ≈ 0.8377.
8 5 8 5
(c) Probabilitatea cerută este:

P(1375 ≤ T1 ≤ 1425) = FT1 (1425) − FT1 (1375)

1425 − 1400 1375 − 1400
Å ã Å ã
= Θ −Θ ≈ 0.0995.
200 200

6.5 Exerciţii propuse

Exerciţiu 6.5.1 Considerăm εi ∼ N (0, 1), i = 1, 2, . . . , 10, un set de măsurători independente.
Calculaţi probabilitatea ca suma pătratelor erorilor să fie mai mare decât 11.
148 Capitolul 6. Noţiuni din Teoria selecţiei statistice

Exerciţiu 6.5.2 Masa unui bagaj ce trece pe la serviciul de check-in al aeroportului din Iaşi
pentru cursa de Viena este o v.a. cu media 21 kg şi deviaţia standard 3.5 kg pentru pasagerii de la
clasa economic şi o v.a. cu media 12 kg şi deviaţia standard 4.5 kg pentru pasagerii de la clasa
business. Presupunem că aceste valori sunt ale unor variabile aleatoare independente de la un
pasager la altul, indiferent de clasă.
(a) Dacă într-o anumită cursă se află 16 pasageri la clasa business şi 81 pasageri la clasa
economic, care este valoarea aşteptată şi deviaţia standard a masei totale de bagaje ale pasagerilor
din acel avion?
(b) Care este probabilitatea ca masa totală de bagaje ale celor 97 de pasageri pentru această
cursă să nu depăşească 2000 kg?
(c) Se aleg la întâmplare bagajele a 6 pasageri de la clasa economic şi a 10 pasageri de la clasa
business şi se cântăresc. Care este probabilitatea ca diferenţa maselor bagajelor dintre cele două
clase să fie mai mică de 20 kg?
Exerciţiu 6.5.3 Batoanele de ciocolată produse de o anumită firmă cântăresc fiecare 50 g, cu
deviaţia standard 0.02 g. Se aleg la întâmplare două loturi de batoane de ciocolată, fiecare având
100 de bucăţi. Care este probabilitatea ca masele totale ale celor două loturi să nu difere prin
mai mult de 5 g?
Exerciţiu 6.5.4 Presupunem că timpul de aşteptare a autobuzului în staţie este o v.a. repartizată
U (0, 10) pentru orele dimineţii, iar timpul de aşteptare a autobuzului în staţie la orele serii este
o v.a. repartizată U (0, 8). Toţi timpii sunt independenţi între ei.
(a) Dacă într-o anumită săptămână luaţi autobuzul în fiecare zi (5 zile lucrătoare), care este
timpul total mediu pe care vă aşteptaţi să-l petreceţi în staţia de autobuz în întreaga săptămână?
(b) Care este abaterea standard a timpului total petrecut în staţia de autobuz în întreaga săp-
tămână?
(c) Determinaţi valoarea medie şi abaterea standard a diferenţei dintre timpul total petrecut
dimineaţa şi timpul total petrecut seara în staţia de autobuz în întreaga săptămână?
7. Estimatori

Presupunem ca X este variabila de interes a unei colectivitati statistice si ca, in urma unor
masuratori, am obtinut rezultatele x1 , x2 , . . . , xn . Deoarece in urma acestor masuratori pot aparea
erori, in Statistica se considera ca aceste date sunt realizarile unor variabile X1 , X2 , . . . , Xn . Se
presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate
copii independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare
de selectie. Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de
exemplu media µ sau deviatia standard σ ale lui X.
O functie f (X1 , X2 , . . . , Xn ) ce depinde de variabilele de selectie se va numi generic statistică.
In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f (x1 , x2 , . . . , xn ), se
numeste tot statistică. Exemple de statistici:
1. Media selectiei:
1 n
X = ∑ xi .
n i=1

1 n
O valoare observata pentru X este x = ∑ xi.
n i=1
(∗ ) Daca variabilele de selectie Xi au media µ si deviatia standard σ , atunci media mediei
selectiei este tot µ si deviatia sa standard este √σn . Scriem asta astfel:

σ
µX = µ si σX = √ .
n

(∗∗ ) In cazul in care variabilele Xi sunt normale N (µ, σ ), atunci media selectiei este tot
o variabila normala, X ∼ N (µ, √σn ).
(∗∗∗ ) Daca numarul variabilelor de selectie este suficient de mare, atunci variabila x este
normala, fara ca Xi sa fie neaparat normale. Acest fapt este o consecinta a teoremei limita
centrala.
150 Capitolul 7. Estimatori

2. Dispersia selecţiei,
1 n
S2 = ∑ [Xi − X]2
n − 1 i=1

2 1 n
S2
O valoare observata pentru este s = ∑ [xi − x]2 .
n − 1 i=1
√ √
3. Deviatia standard a selecţiei, S = S . O valoare observata pentru S este s = s2 .
2

7.1 Estimatori punctuali

Consideram acum un parametru generic al populatiei, notat cu θ , pe care dorim sa-l estimam.
• Prin estimator punctual (sau, simplu, estimator) pentru parametrul θ intelegem o statistica
(independenta de θ ) care se apropie de θ atunci cand volumul selectiei este suficient de
mare. Un estimator pentru parametrul θ este notat simbolic prin θb. Valoarea unui astfel
de estimator intr-o masurare se va numi estimatie. Pentru simplitate, atunci cand nu este
pericol de confuzie, vom nota estimatorul si estimatia tot cu θb. De remarcat faptul ca
estimatorul este o variabila aleatoare si estimatia este un numar real.
Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot fi
exacte. Apar astfel erori de aproximare. Ne-am dori să ştim în ce sens şi cât de bine un estimator
aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati
care sa cuantifice erorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea
medie patratica si eroarea standard.
• Un estimator θ̂ se numeste estimator nedeplasat (en., unbiased estimator) pentru para-
metrul θ dacă media estimatorului este chiar valoarea parametrului pe care estimeaza.
Matematic, scriem astfel:
E(θ̂ ) = θ .
• Altfel, spunem că θ̂ este un estimator deplasat pentru θ , iar deplasarea (distorsiunea) se
defineşte prin:
b(θ̂ , θ ) = E(θ̂ ) − θ .
Cantitatea b(θ̂ , θ ) este o măsură a erorii pe care o facem în estimarea lui θ prin θ̂ .
• O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea
standard (en., standard error), notata aici prin σ (θ̂ ) sau σθ̂ . Spre exemplu, daca estimatorul
θ̂ este X, atunci
σ
σX = √ ,
n
unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σX va tinde
la 0 daca n creste nemarginit. Astfel, daca numarul de masuratori creste, media acestor
masuratori se apropie mult de valoarea parametrului µ.
• Numim eroare medie pătratică a unui estimator θ̂ pentru θ (en., mean squared error)
cantitatea î ó2
MSE(θ̂ , θ ) = E θ̂ − θ .

Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si

valoarea parametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia
estimatorului, σθ̂2 .
7.1 Estimatori punctuali 151

• Un estimator nedeplasat θ̂ pentru θ se numeşte estimator nedeplasat uniform de dispersie

minimă (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dacă pentru
orice valori ale parametrului θ si pentru orice alt estimator nedeplasat pentru θ , notat cu
θ̂ ∗ , estimatorul θ̂ are varianta minima. Matematic, scriem astfel:

σθ̂2 ≤ σθ̂2∗ , pentru orice valoarea a lui θ .

• Pentru un anumit parametru pot exista mai mulţi estimatori nedeplasati. Dintre acestia, cel
mai bun estimator va fi acela care are varianta minima.

7.1.1 Exemple de estimatori punctuali

Presupunem ca X este variabila de interes a unei populatii statistice, pentru care dorim sa estimam
anumiti parametri, e.g., media µ, varianta (dispersia) σ 2 , deviatia standard σ etc. Plecand de
la o multime de valori observate pentru X, şi anume x1 , x2 , . . . , xn , putem construi urmatorii
estimatori:
1 n
1. Un estimator pentru media µ este media selectiei Xb = X = ∑ Xi .
n i=1
O estimatie pentru µ este xb.
Concret, daca dorim sa determinam concentratia medie de azotati din sol intr-o anumita
regiune, vom stabili mai intai locatiile x1 , x2 , . . . , xn de unde vom culege probe, urmand
ca apoi sa le culegem efectiv si, pe baza valorilor obtinute, facem media acestora. Astfel,
fiecare variabila Xi = Z(Xi ) reprezinta concentratia in locatia xi , care este o variabila
1 n
aleatoare. Valoarea masurata in aceasta locatie este xi = z(xi ). Estimatorul X = ∑ Xi
n i=1
este media concentratiilor din locatiile stabilite (este criteriul dupa care se estimeaza
1 n
media), iar estimatia x = ∑ xi este valoarea medie a concentratiilor masurate.
n i=1
1 n
2. Dispersia selecţiei, S2 = ∑ [Xi − X]2, este estimator pentru dispersia teoretică σ 2.
n − 1 i=1
√
3. Deviatia standard a selectiei, S = S2 este estimator pentru deviatia standard teoretică σ .
σ s
4. Un estimator pentru eroarea standard σX = √ este sX = √ .
n n
5. Presupunem acum ca avem doua variabile de interes, X si Y . Am vazut anterior ca legatura
dintre aceste variabile poate fi descrisa de covarianta, cov(X, Y ) = E [(X − µX )(Y − µY )].
Pentru a construi un estimator pentru covarianta este avem nevoie de n perechi de observaţii.
Presupunem ca acestea sunt {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}. O estimatie pentru cov(X,Y )
este covarianta (sau corelatia) empirica,

1 n
cove = ∑ (xi − x)(yi − y),
n − 1 i=1

unde
1 n 1 n
x = ∑ xi şi y = ∑ yi .
n i=1 n i=1
152 Capitolul 7. Estimatori

7.2 Estimarea parametrilor prin intervale de încredere

O singură populaţie

După cum am văzut anterior, putem determina estimaţii punctuale pentru parametrii unei populatii
însă, o estimaţie punctuală, nu precizează cât de aproape se găseşte estimaţia θ̂ (x1 , x2 , . . . , xn )
faţă de valoarea reală a parametrului θ . De exemplu, dacă dorim să estimăm valoarea medie a
pH din sol, atunci putem găsi un estimator punctual (e.g., media de selecţie) care să ne indice că
aceasta este de 8.1. Ideal ar fi dacă această informaţie ar fi prezentată sub forma: pH mediu din
sol este 8 ± 0.2.
Putem obţine astfel de informaţii dacă vom construi un interval în care, cu o probabilitate destul
de mare, să găsim valoarea reală a lui θ .
Dorim să determinam un interval (aleator) care să acopere cu o probabilitate mare (e.g., 0.95,
0.98, 0.99 etc) valoarea posibilă a parametrului necunoscut.
Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval
de încredere (en., confidence interval) pentru parametrul θ cu probabilitatea de încredere 1 − α,
un interval aleator (θ , θ ), astfel încât

P(θ < θ < θ ) = 1 − α, (7.2.1)

unde θ (X1 , X2 , . . . , Xn ) şi θ (X1 , X2 , . . . , Xn ) sunt statistici.

Pentru o observaţie fixată, capetele intervalului (aleator) de încredere vor fi statistici. De exemplu,
pentru datele observate, x1 , x2 , . . . , xn , intervalul

θ (x1 , x2 , . . . , xn ), θ (x1 , x2 , . . . , xn )

se numeşte valoare a intervalului de încredere pentru θ . Pentru simplitate însă, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât şi pentru valoarea
acestuia, înţelesul desprinzându-se din context.
Valoarea α se numeşte nivel de semnificaţie sau probabilitate de risc.
Observaţie 7.2.1 Relaţia (7.2.1) se citeşte astfel:
“probabilitatea cu care intervalul (θ , θ ) acoperă valoare lui θ este 1 − α”.
Exprimarea “probabilitatea cu care θ se află în intervalul (θ , θ ) este 1 − α” este greşită,
deoarece θ este o constantă, intervalul aleator variază.

Cu cât α este mai mic (de regulă, α = 0.01 sau 0.02 sau 0.05), cu atât şansa (care este (1 − α) ·
100%) ca valoarea reală a parametrului θ să se găsească în intervalul găsit este mai mare.
Intervalul de încredere pentru valoarea reală a unui parametru nu este unic. Dacă ni se dau
condiţii suplimentare (e.g., fixarea unui capăt), atunci putem obţine intervale infinite la un capăt
şi finite la celălalt capăt.
În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale.
Vom nota cu (generic) prin xα cuantila de ordin α pentru repartitia variabilei X. Cuantilele xα
pot fi gasite in tabele specifice repartitiei cautate, sau pot fi calculate folosind un soft specializat.
Daca variabila X urmeaza o repartitie normala N (0, 1), atunci cuantilele corespunzatoare le
vom nota prin zα si le vom gasi in Tabelul 11.1.
Daca variabila X urmeaza o repartitie Student t(n), atunci cuantilele corespunzatoare le vom
nota prin tα, n si le vom gasi in Tabelul 11.4.
Daca variabila X urmeaza o repartitie χ2 (n), atunci cuantilele corespunzatoare le vom nota prin
χα,2 si le vom gasi in Tabelul 11.3.
n
7.2 Estimarea parametrilor prin intervale de încredere 153

7.2.1 Intervale de încredere pentru medie

Distingem aici doua cazuri: (1) cand volumul selectiei este suficient de mare (de multe ori,
aceasta inseamna peste 40 de observatii), sau (2) cand volumul selectiei este mic. Dupa cum am
vazut anterior, pentru estimarea punctuala a mediei pe baza unei selectii folosim:
1 n
x= ∑ xi.
n i=1
(1) daca n ≥ 40, atunci un interval de incredere pentru medie la nivelul de semnificatie α este
Å ã
s s
x − z1− α2 √ , x + z1− α2 √ , (7.2.2)
n n
unde z1− α2 este cuantila de ordin 1 − α2 pentru repartitia N (0, 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05, atunci din Tabelul 11.1 gasim ca z0.975 = 1.96.
Intervalul de încredere (7.2.2) se mai poate scrie şi astfel:
s
x ± z1− α2 √ .
n
(2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnificatie
α este
Å ã
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ . (7.2.3)
n n
Aici, s este o estimatie pentru deviatia standard,
s
1 n
s= ∑ (xi − x)2
n − 1 i=1
si t1− α2 , n−1 este cuantila de ordin 1 − α2 pentru repartitia t(n − 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul
11.4 gasim ca t0.975, 34 = 2.032.
Intervalul de încredere (7.2.2) se mai poate scrie şi astfel:
s
x ± t1− α2 ; n−1 √ .
n
Observaţie 7.2.2 • Când volumul n este mare, atunci va fi o diferenţă foarte mică între
valorile z1− α2 şi t1− α2 ; n−1 , de aceea am putea folosi z1− α2 în locul valorii t1− α2 ; n−1 .
• Intervalele de încredere de mai sus sunt valide pentru selecţia (repetată sau nerepetată)
dintr-o populaţie infinită, sau pentru selecţii repetate dintr-o populaţie finită. În cazul
selecţiilor nerepetate din colectivităţi finite, în estimarea intervalelor de încredere vom ţine
cont şi de volumul N al populaţiei. Spre exemplu, dacă selecţia de volum n se face dintr-o
populaţie finită de volum N şi n ≥ 0.05N, atunci un inteval de încredere centrat pentru
media populaţiei este:
Ç … … å
s N −n s N −n
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ . (7.2.4)
n N −1 n N −1
»
Factorul N−n N−1 va fi aproximativ egal cu 1 atunci cand N este infinit sau N n, obtinandu-
se astfel intervalul (7.2.3). Formula (7.2.4) nu este practica in Geostatistica, deoarece un
camp aleator are o multime infinita de puncte, asadar selectia de masuratori se face dintr-o
populatie de volum N = ∞.
154 Capitolul 7. Estimatori

• Este posibil ca σ sa fie un parametru cunoscut pentru X, caz in care pentru intervalul de
incredere pentru medie se foloseste formula (7.2.2) cu σ inlocuindu-l pe s.
Exemplu 7.2.1 O maşină de îngheţată umple cupe cu îngheţată. Se doreşte ca îngheţată din cupe
să aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g
de îngheţată. Presupunem că masa conţinutului din cupă este o variabilă aleatoare repartizată
normal. Pentru a verifica dacă maşina este ajustată bine, se aleg la întâmplare 30 de înghetate
şi se cântăreşte conţinutul fiecăreia. Obţinem astfel o selecţie repetată de volum 30 după cum
urmează:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253

Se cere să se scrie un interval de încredere pentru µ, cu nivelul de incredere de 0.99.

R: După cum am văzut mai sus, un interval de încredere pentru µ este (deoarece N este
necunoscut, il presupunem mult mai mare decat n):
Å ã
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ .
n n

Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1− α2 ; n−1 = t0.995, 29 = 2.7564, media
valorilor este x = 250.0667 si deviatia standard este s = 2.9704. Astfel, obţinem intervalul de
încredere pentru µ: (248.572, 251.561).

7.2.2 Interval de încredere pentru dispersie

Dupa cum am vazut anterior, pentru estimarea punctuală a lui σ 2 se foloseste

1 n
s2 = ∑ [xi − x]2 .
n − 1 i=1

Un interval pentru σ 2 la nivelul de semnificatie α este:

!
(n − 1) s2 (n − 1) s2
2
, . (7.2.5)
χ1− α
; n−1
χ 2α ; n−1
2 2

Intervale de încredere pentru deviaţia standard se obţin prin extragerea rădăcinii pătrate din
capetele de la intervalele de încredere pentru dispersie.
Exemplu 7.2.2 Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a con-
ţinutului de nicotină pentru un anumit tip de ţigări, stiind ca pentru o selecţie de 25 de bucăţi,
deviaţia standard a conţinutului de nicotină este de 1.6mg.
R: Observam ca s = 1.6mg. Din tabele, găsim ca:
2 2
χ0.975; 24 = 39.3641; χ0.025; 24 = 12.4012.

Intervalul de încredere pentru dispersie este:

(σ 2 , σ 2 ) = (1.5608, 4.9544).

Pentru variaţia standard, intervalul de încredere este:

√ √
( 1.5608 mg, 4.9544 mg) = (1.25mg, 2.22mg).
7.2 Estimarea parametrilor prin intervale de încredere 155

7.2.3 Interval de încredere pentru proportie

Pentru o populaţie statistică, prin proporţie a populaţiei vom înţelege procentul din întreaga
colectivitate ce satisface o anumită proprietate (sau are o anumită caracteristică) (e.g., proporţia
de studenţi integralişti dintr-o anumită facultate). Pe de altă parte, prin proporţie de selecţie
înţelegem procentajul din valorile de selecţie ce satisfac o anumită proprietate (e.g., proporţia de
studenţi integralişti dintr-o selecţie aleatoare de 40 de studenţi ai unei facultăţi). Proporţia unei
populaţii este un parametru (pe care îl vom nota cu p), iar proporţia de selecţie este o statistică
(pe care o notăm aici prin p).
Fie X o caracteristică binomială a unei colectivităţi, cu probabilitatea de succes p (e.g., numărul
de steme apărute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim să construim un
interval de încredere pentru proporţia populaţiei, p. Pentru aceasta, avem nevoie de selecţii de
volum mare din această colectivitate. Un estimator potrivit pentru p este proporţia de selecţie,
adică
x
pb = p = .
n
În cazul unui set de date de tip Bernoulli (cu doar două posibile valori), pentru a putea calcula
intervalul de încredere pentru proporţia reală a populaţiei, este de dorit ca: n ≥ 30, n pb > 5
şi n (1 − pb) > 5. Semnificaţia ultimelor două inegalităţi este că ambele clase ale distribuţiei
Bernoulli sunt semnificative (au, în medie, cel puţin 5 valori).
Media proporţiei de selecţie pb este µ pb = p şi deviaţia standard a proporţiei de selecţie pb este
»
σ pb = p(1−p) n . Dacă ne bazăm doar pe date, atunci deviaţia standard a proporţiei de selecţie pb
»
poate fi aproximată prin s pb = p(1− n .
pb)
b

Vom spune că volumul n este suficient de mare pentru a putea face aproximarea distribuţiei lui pb
cu una normală dacă intervalul
" #
p (1 − p) p (1 − p)
µ pb − 3σ pb, µ pb + 3σ pb = p − 3 , p+3
n n

se află inclus în totalitate în intervalul [0, 1].

În practică, p nu este cunoscut, aşa că relaţia precedentă este verificată pentru p înlocuit cu pb,
adică verificăm: " #
pb(1 − pb) pb(1 − pb)
pb − 3 , pb + 3 ⊂ [0, 1].
n n
Dacă volumul eşantionului este suficient de mare, atunci putem presupune că (conform teoremei
limită centrală) distribuţia asimptotică a lui pb este
!
p(1 − p) pb − p
pb ∼ N p, ⇐⇒ ∼ N (0, 1).
n σ pb

Pe baza acestui rezultat, putem lua decizii referitoare la proporţia reală p plecând de la estimatorul
pb.
Bazat pe o selectie de volum n, un interval de încredere pentru p la nivelul de semnificatie α,
este de forma:
!
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 . (7.2.6)
n n
156 Capitolul 7. Estimatori

Acest interval de încredere este valabil pentru selecţie dintr-o populaţie infinită (sau n N,
de regulă n < 0.05N) sau pentru selecţia cu repetiţie dintr-o populaţie finită. Dacă selecţia se
realizează fără repetiţie dintr-o populaţie finită (cu N astfel înât n ≥ 0.05N), atunci intervalul de
încredere este:
… … !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 . (7.2.7)
n N −1 n N −1

Deoarece p nu este a priori cunoscut, p a fost înlocuit sub radical cu estimatorul său. Valoarea

pb(1 − pb)
E = z1− α2 (7.2.8)
n
este eroarea care se face prin estimarea lui p prin intervalul de încredere dat de (7.2.6).
Observaţie 7.2.3 Folosind formula (7.2.8), se poate determina volumul minim al eşantionului
pentru care se obţine estimarea proporţiei p printr-un interval de încredere cu o eroare maximă
E (ceea ce este echivalent cu faptul că lungimea intervalului este E ).
Dacă am ghici proporţia populaţiei, p, atunci găsim următoarea estimare a volumului selecţiei:
¢ Å z α ã2 •
1− 2
n = p(1 − p) , (7.2.9)
E

unde d x e este cel mai apropiat întreg mai mare sau egal cu x.
Dacă p nu poate fi ghicit, atunci folosim faptul că p(1 − p) este maxim pentru p = 0.5 şi estimăm
pe n prin
1 z1− α2 2
¢ Å ã •
n= .
4 E
Exemplu 7.2.3 Dintr-o selecţie de 200 de elevi ai unei şcoli cu 1276 de elevi, 65% afirmă că
deţin cel puţin un telefon mobil. Să se găsească un interval de încredere pentru procentul de copii
din respectiva şcoală ce deţin cel puţin un telefon mobil, la nivelul de semnificaţie α = 0.05.
R: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N, găsim că un interval de
încredere la nivelul de semnificaţie 0.05 este
!
0.65 (1 − 0.65) 1276 − 200 0.65 (1 − 0.65) 1276 − 200
0.65 − 1.96 , 0.65 + 1.96
200 1276 − 1 200 1276 − 1
= (58.93%, 71.07%).

Exemplu 7.2.4 Într-un institut politehnic, s-a determinat că dintr-o selecţie aleatoare de 100 de
studenţi înscrişi, doar 67 au terminat studiile, obţinând o diplomă. Găsiţi un interval de încredere
care, cu o confidenţă de 90%, să determine procentul de studenţi absolvenţi dintre toţi studenţii
ce au fost înscrişi.
67
R: Mai întâi, observăm că α = 0.1, n > 30, pb = 100 = 0.67, n pb = 67 > 5 şi n(1 − pb) = 33 > 5.
Deoarece nu ni se dă vreo informaţie despre N (numărul total de studenţi înscrişi), putem
presupune că n < 0.05N. Cuantila teoretica este z0.95 = 1.6449. Găsim că intervalul de încredere
căutat este:
!
0.67 (1 − 0.67) 0.67 (1 − 0.67)
0.67 − 1.6449 , 0.67 + 1.6449 = (57.78%, 76.22%).
100 100
7.3 Exerciţii rezolvate 157

7.3 Exerciţii rezolvate

Exerciţiu 7.3.1 Un ziar local susţine că un anumit partid are o susţinere de 38% din partea
populaţiei. Un număr de 2500 de persoane, alese aleator, sunt întrebate dacă vor vota acest partid
la următoarele alegeri.
(a) Verificaţi dacă volumul eşantionului ales este suficient de mare pentru a putea aproxima
proporţia de votanţi cu ajutorul proporţiei eşantionului.
(b) Care sunt şansele ca, după ce vor fi intervievate cele 2500 de persoane, proporţia de votanţi
pentru respectivul partid să fie la mai puţin de 2 procente de proporţia reală.
R: (a) Avem că:
p (1 − p)
µ pb = p = 0.38 şi σ pb = = 0.0097.
n
Se verifică faptul că volumul eşantionului este suficient de mare, deoarece

µ pb − 3σ pb, µ pb + 3σ pb = [0.3509, 0.4091] ⊂ [0, 1].
(b) Avem de calculat probabilitatea ca 0.38 − 0.02 ≤ pb ≤ 0.38 + 0.02. Aceasta este
0.36 − 0.38 pb − 0.38 0.40 − 0.38
Å ã
P(0.36 ≤ pb ≤ 0.40) = P ≤ ≤
0.0097 0.0097 0.0097
= P(−2.0619 ≤ Z ≤ 2.0619)
= Θ(2.0619) − Θ(−2.0619) =
= 2Θ(2.0619) − 1 = 2 · 0.9804 − 1
= 0.9608.

Exerciţiu 7.3.2 Un primar susţine că 90% din populaţia oraşului s-a vaccinat complet împotriva
COVID. Pentru a verifica afirmaţia primarului, se ia un eşantion aleator de 121 de locuitori ai
oraşului. Dintre aceştia, doar 102 erau vaccinaţi complet.
(a) Determinaţi procentul de selecţie (de persoane vaccinate din eşantion).
(b) Verificaţi dacă volumul eşantionului este suficient de mare pentru a putea presupune
normalitatea proporţiei de selecţie. Se va utiliza p = 0.9, care corespunde afirmaţiei
primarului.
(c) Presupunând că primarul are dreptate, care sunt şansele ca dintr-un eşantion de 121 să
observăm cel mult 102 persoane complet vaccinate?
(d) Comentaţi rezultatul de la (c).
R: (a) Procentul de selecţie este pb = 102 121 ≈ 0.84.
(b) Se verifică faptul că volumul eşantionului este suficient de mare, deoarece
" #
p (1 − p) p (1 − p)
µ pb − 3σ pb, µ pb + 3σ pb = p − 3 , p+3
n n
ñ … … ô
0.9 · 0.1 0.9 · 0.1
= 0.9 − 3 , 0.9 + 3
121 121
= [0.8182, 0.9818] ⊂ [0, 1].
»
(c) Media lui pb este 0.9 şi deviaţia standard a lui pb este p (1− pb)
= 0.0273. Deoarece eşantionul
b
n
este suficient de mare, deducem că
pb − 0.9
pb ∼ N (0.9, 0.0273) ⇔ Z := ∼ N (0, 1) .
0.0273
158 Capitolul 7. Estimatori

Probabilitatea cerută este probabilitatea ca proporţia de selecţie să fie mai mică sau egală cu
102
121 ≈ 0.84. Vom scrie că
pb − 0.9 0.84 − 0.9
Å ã
P( pb ≤ 0.84) = P ≤
0.0273 0.0273
= P(Z ≤ −2.20) = Θ(−2.20) = 1 − Θ(2.20) = 1 − 0.9861 = 0.0139.
Aşadar, şansele sunt de doar 1.39% de a observa acest rezultat.
(d) Deoarece şansele sunt doar de 1.39%, înseamnă că este foarte improbabil ca primarul să
spună adevărul şi să fi observat doar 102 persoane complet vaccinate dintr-un eşantion de 121.
În consecinţă, primarul minte.
Exerciţiu 7.3.3 Într-un depozit se află piese de acelaşi tip. La un control de calitate, dintr-un lot
de 250 de piese alese aleator, 10 piese aveau defecte.
(a) Verificaţi dacă volumul eşantionului este suficient de mare pentru a folosi aproximarea
normală a proporţiei de selecţie.
(b) Determinaţi un interval de încredere cu α = 0.1 pentru numărul de piese defecte din
depozit.
(c) Aceeaşi cerinţă ca la punctul (b), în cazul în care în depozit s-ar afla doar 400 de piese.
10
R: (a) Proporţia de selecţie este pb = 250 = 0.04. Media proporţiei de selecţie este µ pb ≈ pb = 0.04
»
şi aproximarea dispersiei proporţiei de selecţie este s pb = p(1− pb)
= 0.0124. Se poate verifica
b
n
faptul că
µ pb − 3s pb, µ pb + 3s pb = [0.0028, 0.0772] ⊂ [0, 1].
Aşadar, putem folosi aproximarea normală a proporţiei de selecţie.
(b) Cuantila z1− α2 = z0.95 = 1.6449. Deoarece volumul populaţiei este necunoscut, poate fi
presupus a fi semnificativ mai mare decât cel al eşantionului. Intervalul de încredere căutat este
dat de formula (7.2.6) şi este:
!
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 = (0.0196, 0.0604),
n n
adică 1.96% − 6.04%.
(c) Deoarece volumul eşantionului (n = 250) şi al populaţiei (N = 400) sunt comparabile,
intervalul de încredere este dat de formula (7.2.7) şi este:
… … !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 = (0.0275, 0.0525),
n N −1 n N −1
adică 2.75% − 5.25%. Acest interval este mai scurt (mai strâns în jurul valorii reale a lui p) decât
în cazul precedent. Informaţia în plus referitoare la volumul populaţiei a dat un rezultat mai bun.
Exerciţiu 7.3.4 (1) Un studiu susţine că 37% dintre elevii de liceu din ţară fumează. Cât de
mare ar trebui să fie volumul unei selecţii dintre elevii de liceu pentru a estima procentul real de
elevi ce fumează, cu o eroare de estimare maximă de 0.5%. Se va alege α = 0.1.
(2) Aceeaşi cerinţă ca la (1), folosind informaţia că între 35% şi 40% dintre elevii de liceu din
ţară fumează.
(3) Aceeaşi cerinţă ca la (1), fără vreo altă informaţie suplimentară.
R: (1) Folosim formula (7.2.9), pentru pb = 0.37. Cuantila este z0.95 = 1.6449. Găsim că o
estimaţie pentru n este:
1.6449 2
Å ã
n = 0.37(1 − 0.37) = 25228.
0.005
7.3 Exerciţii rezolvate 159

(2) Folosim formula (7.2.9), pentru p = 0.4 (se alege valoarea 40%, cea mai apropiată de 50%).
Găsim că o estimaţie pentru n este:
Å ã2
1.6449
n = 0.4(1 − 0.4) = 25975.
0.005
(3) Fără nicio informaţie suplimentară, considerăm că şansele sunt 50% − 50%. Folosim formula
(7.2.9), pentru p = 0.5. Găsim că o estimaţie pentru n este:
Å ã2
1.6449
n = 0.5(1 − 0.5) = 27057.
0.005

Exerciţiu 7.3.5 Într-o şcoală sunt 200 de elevi de

clasa a XII-a care au susţinut teză la Matematică. note 4 5 6 7 8 9 10
Tabelul alăturat conţine o selecţie aleatoare de 36 frecvenţa 5 6 7 8 5 3 2
de note la această teză.
(a) Determinaţi un interval de încredere, cu încrederea de 90%, pentru proporţia de elevi din
şcoală nu au luat notă de trecere (cel puţin nota 5) la teza la Matematică.
(b) Determinaţi un interval de încredere, cu încrederea de 90%, pentru media notelor obţinute
la teza la Matematică.
R: (a) Un estimator punctual pentru proporţia de elevi din şcoală nu au luat notă de trecere la
5
teza la Matematică este pb = 36 . Aici, N = 200, n = 36, z1− α2 = z0.95 = 1.6449.
Intervalul de încredere este:
… … !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 = (0.0528, 0.2250),
n N −1 n N −1

adică, între 5.28% şi 22.5%.

(b) Media de selecţie este

4 · 5 + 5 · 6 + 6 · 7 + 7 · 8 + 8 · 5 + 9 · 3 + 10 · 2
x= = 6.53,
36
iar dispersia de selecţie este
…
1
s = [5(4 − 6.53)2 + 6(5 − 6.53)2 + 7(6 − 6.53)2 + 8(7 − 6.53)2 + 5(8 − 6.53)2 + 3(9 − 6.53)2 + 2(10 − 6.53)2 ]
35
= 1.72.

Intervalul de încredere pentru media notelor la teză este:

Ç … … å
s N −n s N −n
x − z1− α2 √ , x + z1− α2 √ = (6.1019, 6.9581).
n N −1 n N −1

Exerciţiu 7.3.6 Pentru femeile cu vârsta între 18 şi 24 ani, presiunea sistolică (în mm Hg) este
distribuită N (µ, 13.1).
Valoarea medie a presiunii sistolice pentru un grup de nouă femei cu vârste între 18 şi 24 ani,
alese aleator, este 120.5 mm Hg. Determinaţi un interval de încredere pentru µ (α = 0.1).
160 Capitolul 7. Estimatori

R: Volumul de date este mic (n = 9), dar datele sunt normal distribuite. Avem că: x = 120.5,
σ = 13.1, z1− α2 = z0.05 = 1.6449. Intervalul de încredere este
Å ã Å ã
σ σ 13.1 13.1
x − z1− α2 √ , x + z1− α2 √ = 120.5 − 1.6449 √ , 120.5 + 1.6449 √
n n 9 9
= (113.32, 127.68).

Exerciţiu 7.3.7 O fabrică produce batoane de ciocolată cântărind 100g fiecare. Pentru a se
estima abaterea masei de la această valoare, s-a făcut o selecţie de 35 de batoane, obţinându-se
valorile:

100.12; 99.92; 100.1; 99.89; 100.07; 99.88; 100.11; 99.90; 99.97; 100.2;
99.89; 100.15; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89;
99.76; 100.1; 99.24; 98.19; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89;
100.12; 98.63; 99.03; 100.3; 98.68.

Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a masei batoanelor produse
de respectiva fabrică.
R: Mai întâi, calculăm d 2 (x). Avem:

2 1 35
d (x) = ∑ [xi − 100]2 = 0.3.
35 i=1
Din tabele, sau utilizând M ATLAB, găsim cuantilele:
2 2
χ0.975; 35 = 53.2033; χ0.025; 35 = 20.5694.

Intervalul de încredere pentru dispersie este:

(σ 2 , σ 2 ) = (0.20, 0.51).
Pentru variaţia standard, intervalul de încredere este:
√ √
(σ , σ ) = ( 0.2, 0.51) = (0.44, 0.71).

Exerciţiu 7.3.8 Următoarele valori reprezintă cinci observaţii asupra unei variabile normale:
3.14, 3.43, 3.21, 2.97, 3.05. Estimaţi prin intervale de încredere media şi deviaţia standard a
acestei variabile (α = 0.1).
R: Vom avea: n = 5, t0.95,4 = 2.1318, x ≈ 3.16, s ≈ 0.1761. Intervalul de încredere pentru
medie este Å ã
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ = (2.9921, 3.3279).
n n
Intervalul de încredere pentru dispersie este:
!
n − 1 n − 1
(σ 2 , σ 2 ) = 2
s2 , 2 s2 = (0.0131, 0.1745).
χ1− α ; n−1 χ α ; n−1
2 2

Intervalul de încredere pentru deviaţia standard este:

√ √
(σ , σ ) = ( 0.0131, 0.1745) = (0.1143, 0.4177).
7.4 Exerciţii propuse 161

7.4 Exerciţii propuse

Exerciţiu 7.4.1 Pentru eşantionul
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948
598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
estimaţi punctual şi prin intervale de încredere media şi dispersia populaţiei din care provine
această selecţie.
Exerciţiu 7.4.2 La un control de calitate se verifică masa tabletelor de ciocolată produse de
o anumită maşină. Pentru a se realiza acest control s-a efectuat o selecţie de 50 tablete şi s-a
obţinut că masa X al ciocolatelor are următoarele dimensiuni (în grame):

Masa 99.98 99.99 100.00 100.01 100.02

Frecvenţa 9 10 13 11 7
Să se determine:
(a) un interval de încredere 95% pentru masa medie a tabletelor produse;
(b) un interval de încredere 95% pentru dispersia valorilor masei faţă de medie.
Exerciţiu 7.4.3 Un angajat la Serviciu Forţelor de Muncă doreşte să facă un sondaj prin care
să determine procentul de persoane dintr-o regiune a ţării ce lucrează la negru. El doreşte să
fie 98% sigur că rezultatul găsit estimează procentul real cu o eroare de cel mult 2%. Dintr-un
sondaj recent, la care au participat 1500 de persoane angajate, 273 au declarat că nu li s-au făcut
carte de muncă.
(a) Cât de mare ar trebui să fie volumul selecţiei pentru a realiza estimarea dorită?
(b) Dacă nu ar avea acces la acel sondajul recent, cât de mare ar trebui să fie volumul selecţiei
pentru a realiza estimarea dorită?
Exerciţiu 7.4.4 Un studiu recent arată că dintre 120 de accidente rutiere ce s-au soldat cu victime,
56 era datorate consumului de alcool. Găsiţi un interval de încredere care să estimeze cu o
probabilitate de risc α = 0.05 procentul real al accidentelor rutiere cauzate de consumul de
alcool.
Exerciţiu 7.4.5 În urma aruncării unei monede de 4050 de ori, s-a observat că faţa cu stema a
apărut de 2052 ori. Determinaţi un interval de încredere pentru probabilitatea de apariţie a feţei
cu stema la aruncarea respectivei monede. Se va lua nivelul de semnificaţie α = 0.05.
Exerciţiu 7.4.6 Cât de mare ar trebui să fie volumul selecţiei, pentru a estima proporţia de
fumători din ţară cu o eroare de cel mult 2% şi o încredere de 0.95?
Exerciţiu 7.4.7 Andrei şi Maria primesc copii ale aceluiaşi text pentru corectare. Ei corectează
textul în mod independent. Andrei găseşte 20 de erori, iar Maria găseşte 15 erori, dintre care 10
au fost găsite şi de Andrei. Estimaţi numărul de erori din text care nu au fost detectate nici de
niciunul dintre cei doi.
8. Teste statistice

Testarea ipotezelor statistice este o metodă prin care se iau decizii statistice, utilizând datele
experimentale culese. Testele prezentate mai jos au la bază noţiuni din teoria probabilităţilor.
Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental,
să se putem valida anumite estimări de parametri ai unei repartiţii sau chiar putem prezice forma
legii de repartiţie a caracteristicii considerate.
Presupunem că Z este variabila de interes a unei populaţii statistice şi că legea sa de probabilitate
este dată de depinde de un parametru θ . In general, o repartitie poate depinde de mai multi
parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, să presupunem
că (zk )k=1, n sunt datele observate relativ la caracteristica Z.
• Numim ipoteză statistică o presupunere relativă la valorile parametului θ sau chiar
referitoare la tipul legii caracteristicii.
• O ipoteză neparametrică este o presupunere relativă la repartitia lui Z. De exemplu, o
ipoteză de genul Z ∼ Normală.
• Numim ipoteză parametrică o presupunere făcută asupra valorii parametrilor unei repartiţii.
Dacă mulţimea la care se presupune că aparţine parametrul necunoscut este formată dintr-
un singur element, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză
parametrică compusă.
• O ipoteză nulă este acea ipoteză pe care o intuim a fi cea mai apropiată de realitate şi o
presupunem a priori a fi adevărată. Cu alte cuvinte, ipoteza nulă este ceea ce doreşti să
crezi, în cazul în care nu există suficiente evidenţe care să sugereze contrariul. Un exemplu
de ipoteză nulă este următoarul: "presupus nevinovat, până se găsesc dovezi care să ateste
o vină". O ipoteză alternativă este orice altă ipoteză admisibilă cu care poate fi confruntată
ipoteza nulă.
• A testa o ipoteză statistică (en., statistical inference) înseamnă a lua una dintre deciziile:
− ipoteza nulă se respinge (caz in care ipoteza alternativa este admisa)
− ipoteza nulă se admite (sau, nu sunt motive pentru respingerea ei)
• În Statistică, un rezultat se numeşte semnificativ din punct de vedere statistic dacă este
improbabil ca el să se fi realizat datorită şansei. Între două valori există o diferenţă
164 Capitolul 8. Teste statistice

semnificativă dacă există suficiente dovezi statistice pentru a dovedi diferenţa, şi nu
datorită faptului că diferenţa ar fi mare.
• Numim nivel de semnificaţie probabilitatea de a respinge ipoteza nulă când, de fapt, aceasta
este adevărată. În general, nivelul de semnificaţie este o valoare pozitiva apropiata de 0,
e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic,
valoarea implicita pentru α este 0.05.
• În urma unui test statistic pot aparea două tipuri de erori:
1. eroarea de speţa (I) sau riscul furnizorului (en., false positive) − este eroarea care se
poate comite respingând o ipoteză (în realitate) adevărată. Se mai numeşte şi risc de
genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnificaţie α, adică:

α = P(H0 se respinge | H0 este adevărată).

2. eroarea de speţa a (II)-a sau riscul beneficiarului (en., false negative) − este eroarea
care se poate comite acceptând o ipoteză (în realitate) falsă. Se mai numeşte şi risc
de genul al (II)-lea. Probabilitatea acestei erori este

β = P(H0 se admite | H0 este falsă).

Gravitatea comiterii celor două erori depinde de problema studiată. De exemplu, riscul de
genul (I) este mai grav decât riscul de genul al (II)-lea dacă verificăm calitatea unui articol
de îmbracăminte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dacă
verificăm concentraţia unui medicament.
• Denumim valoare P sau P−valoare sau nivel de semnificaţie observat (en., P-value)
probabilitatea de a obţine un rezultat cel puţin la fel de extrem ca cel observat, presupunând
că ipoteza nulă este adevărată. Valoarea P este cea mai mică valoare a nivelului de
semnificaţie α pentru care ipoteza (H0 ) ar fi respinsă, bazându-ne pe observaţiile culese.
Dacă Pv ≤ α, atunci respingem ipoteza nulă la nivelul de semnificaţie α, iar dacă Pv > α,
atunci admitem (H0 ). Cu cât Pv este mai mică, cu atât mai mari şanse ca ipoteza nulă să fie
respinsă. De exemplu, dacă valoarea P este Pv = 0.045 atunci, bazându-ne pe observaţiile
culese, vom respinge ipoteza (H0 ) la un nivel de semnificaţie α = 0.05 sau α = 0.1, dar
nu o putem respinge la un nivel de semnificaţie α = 0.02. Dacă ne raportăm la P−valoare,
decizia într-un test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât
nivelul de semnificaţie α, atunci ipoteza nulă este respinsă, iar dacă P−value este mai
mare decât α, atunci ipoteza nulă nu poate fi respinsă.
Un exemplu simplu de test este testul de sarcină. Acest test este, de fapt, o procedură statistică
ce ne dă dreptul să decidem dacă există sau nu suficiente evidenţe să concluzionăm că o sarcină
este prezentă. Ipoteza nulă ar fi lipsa sarcinii. Majoritatea oamenilor în acest caz vor cădea de
acord cum că un false negative este mai grav decât un false positive.
Să presupunem că suntem într-o sală de judecată şi că judecătorul trebuie să decidă dacă un
inculpat este sau nu vinovat. Are astfel de testat următoarele ipoteze:
®
(H0 ) inculpatul este nevinovat;
(H1 ) inculpatul este vinovat.

Posibilele stări reale (asupra cărora nu avem control) sunt:

[1] inculpatul este nevinovat (H0 este adevărată şi H1 este falsă);
[2] inculpatul este vinovat (H0 este falsă şi H1 este adevărată)
Deciziile posibile (asupra cărora avem control − putem lua o decizie corectă sau una falsă) sunt:
8.1 Tipuri de teste statistice 165

[i] H0 se respinge (dovezi suficiente pentru a încrimina inculpatul);

[ii] H0 nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);
În realitate, avem următoarele posibilităţi, sumarizate în Tabelul 8.1:

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 [1]&[i] [2]&[i]
Acceptă H0 [1]&[ii] [2]&[ii]

Tabela 8.1: Posibilităţi decizionale.

Interpretările datelor din Tabelul 8.1 se găsesc în Tabelul 8.2.

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 închide o persoana nevinovată închide o persoana vinovată
Accepta H0 eliberează o persoana nevinovată eliberează o persoana vinovată

Tabela 8.2: Decizii posibile.

Erorile posibile ce pot aparea sunt cele din Tabelul 8.3.

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 α judecată corectă
Accepta H0 judecată corectă β

Tabela 8.3: Erori decizionale.

8.1 Tipuri de teste statistice

Tipul unui test statistic este determinat de ipoteza alternativă (H1 ). Astfel, putem avea:
• test unilateral stânga, atunci când ipoteza alternativă este θ < θ0 ;
• test unilateral dreapta, atunci când ipoteza alternativă este θ > θ0 ;
• test bilateral, atunci când ipoteza alternativă este θ 6= θ0 .
Pentru a lua decizii statistice se poate utiliza metoda intervalelor de încredere pentru parametri.

8.1.1 Testul t pentru medie

Testul t pentru medie se foloseşte pentru selecţii normale de volum mic, de regulă n < 30, când
dispersia populaţiei este necunoscută a priori.
Fie caracteristica Z ce urmează legea normală N (µ, σ ) cu µ necunoscut şi σ > 0 necunoscut.
Vrem să verificăm ipoteza nulă
(H0 ) : µ = µ0
166 Capitolul 8. Teste statistice

versus ipoteza alternativă

(H1 ) : µ 6= µ0 ,
cu probabilitatea de risc α.
Metoda I: Etapele testului sunt urmatoarele:
• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s = ∑ (zi − z)2 .
n − 1 i=1
• Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe
care o testam:
z − µ0
T0 = s . (8.1.1)
√
n
• Calculam cuantila de ordin 1 − α2 pentru repartitia t(n − 1), notata aici prin t1− α2 ; n−1 Este un
prag teoretic ce poate fi determinat din tabelele pentru repartitia Student sau calculat cu un soft
matematic (e.g., M ATLAB).
• Decizia testului se ia astfel:
– dacă |T0 | < t1− α2 ; n−1 (adica |T0 | este suficient de mic), atunci admitem (H0 ).
– dacă |T0 | ≥ t1− α2 ; n−1 , atunci respingem (H0 ).

Metoda a II-a: O altă modalitate de testare a unei ipoteze statistice parametrice este prin
intermediul P−valorii, Pv . Reamintim, P−valoarea este probabilitatea de a obţine un rezultat
cel puţin la fel de extrem ca cel observat, presupunând că ipoteza nulă este adevărată. Aceasta
valoare este afisata de orice soft statistic folosit in testarea ipotezelor. Utilizând P−valoarea,
testarea se face astfel:
Ipoteza nulă va fi respinsă dacă Pv < α şi va fi admisă dacă Pv ≥ α. Aşadar, cu cât Pv este mai
mic, cu atât mai multe dovezi de respingere a ipotezei nule.
Exemplu 8.1.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un
anumit oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate
in urma sondajului sunt grupate in Tabelul 5.2. Dorim să testăm, la nivelul de semnificaţie
α = 0.05, dacă media tuturor notelor la teza de Matematică a elevilor din oras este µ = 6.5.
R: Aşadar, avem de testat
(H0 ) µ = 6.5 vs. (H1 ) µ 6= 6.5.
Media si deviatia standard a notelor din tabel sunt:
z = 6.3667, s = 1.8570.
Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:
z − µ0
t0 = s = −0.6812, t1− α2 ; n−1 = t0.975; 89 = 1.9870.
√
n
Deoarece |t0 | < t0.975; 89 , luam decizia ca ipoteza (H0 ) este admisa la acest nivel de semnificatie.

Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata
de un soft statistic, valoarea ei fiind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
8.1 Tipuri de teste statistice 167

8.1.2 Test pentru dispersie

Pentru variabila Z ca mai sus dorim sa testam ipoteza:

(H0 ) : σ 2 = σ02 vs. ipoteza alternativă (H1 ) : σ 2 6= σ02 ,

cu probabilitatea de risc α. Etapele testului sunt urmatoarele:

• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s = ∑ (zi − z)2 .
n − 1 i=1

• Calculam statistica
n−1 2
χ02 = s , (8.1.2)
σ2
• Determinam cuantilele de ordine α/2 si 1 − α/2 pentru repartitia χ 2 (n − 1) (se pot obtine din
tabele pentru repartitia χ 2 ).
• Decizia testului se
Ä va lua astfel: ä
2
– dacă χ02 ∈ χ 2α ; n−1 , χ1− α , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
Ä 2 2 ; n−1 ä

– dacă χ02 ∈
6 χ 2α ; n−1 , χ1−
2
α , atunci respingem (H0 ) (i.e., σ 2 6= σ02 ).
2 2 ; n−1
Exemplu 8.1.2 Se cercetează caracteristica Z, ce reprezintă diametrul pieselor (în mm) produse
de un strung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecţie
de piese de volum n = 11 şi obţinem distribuţia empirică:
Å ã
10.50 10.55 10.60 10.65
.
2 3 5 1

Să se testeze (cu α = 0.1) ipoteza nulă

(H0 ) : σ 2 = 0.003,

versus ipoteza alternativă

(H1 ) : σ 2 6= 0.003.
R: Calculam mai intai s2 si apoi valoarea statisticii test. Obtinem s2 = 0.0022 si, astfel,
10
χ02 = 0.003 · 0.0022 = 7.2727. Cuantilele sunt:

χ 2α ; n−1 = 3.9403; 2
χ1− α
; n−1 = 18.3070.
2 2

Astfel, intervalul teoretic de referinta este

Ä ä
2
χ02 ∈ χ 2α ; n−1 , χ1− α
; n−1 = (3.9403, 18.3070).
2 2

Cum valoarea χ02 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu poate fi
respinsa. (o acceptam).

Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata
de un soft statistic, valoarea ei fiind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
168 Capitolul 8. Teste statistice

8.1.3 Test pentru proporţie

Fie X o caracteristică binomială a unei colectivităţi, cu probabilitatea de succes p. Pe baza unor
selecţii ale populaţiei, dorim să testăm următoarea ipoteză asupra lui p:
(H0 ) : p = p0 vs. (H1 ) : p 6= p0 .
De asemenea, putem considera şi ipoteze alternative unilaterale:
(H1 )s : p < p0 sau (H1 )d : p > p0 .
Pentru a putea testa acestă ipoteză, ne vom folosi de rezultatele din cursul precedent. Să
presupunem că volumul populaţiei (N) este mult mai mare posibil infinit) decât volumul n al
selecţiilor considerate. Fixăm un nivel de semnificaţie α. Vom construi testul pentru proporţia
populaţiei pe baza intervalului de încredere (7.2.6).
Testul poate fi folosit doar dacă următoarele condiţii sunt satisfăcute:
n ≥ 40, np ≥ 5, n(1 − p) ≥ 5.
Etapele testului sunt:
• Pe baza selecţiei, calculăm proporţia de selecţie pb, care este o estimare a proporţiei
populaţiei, p;
• Calculăm valoarea
pb − p0
P0 = ;
p0 (1 − p0 )
n
• Calculăm cuantila z1− α2 ;
• Dacă
|P0 | ≤ z1− α2 ,
atunci admitem ipoteza nulă la acest nivel de semnificaţie. Altfel, o respingem.
Observaţie 8.1.1 Dacă ipoteza alternativă este (H1 )s , atunci vom respinge ipoteza nulă dacă
P0 < −z1−α , iar dacă ipoteza alternativă este (H1 )d , atunci vom respinge ipoteza nulă dacă
P0 > z1−α .
Exerciţiu 8.1.1 Într-un sondaj naţional de opinie, 5000 de persoane au fost rugate să răspundă la
o întrebare legată de apartenenţa religioasă. La întrebarea "Sunteţi creştini?", răspunsul a fost
afirmativ în 4893 dintre cazuri. Rezultatul acestui sondaj este utilizat în estimarea procentului de
creştini din ţară. Să notăm cu p acest procent.
(a) La nivelul de semnificaţie α = 0.05, testaţi dacă p este de 95% sau mai mare.
(b) Un soft matematic a calculat valoarea Pv . Dacă Pv = 0.0001, care ar fi decizia testului?
R: (a) Avem de testat ipoteza
(H0 ) : p = 0.95 vs. (H1 ) : p > 0.95.
4893
Procentul de selecţie este pb = 5000 = 0.9786, cuantila este z1−α = 1.6449 şi valoarea statisticii
este
0.9786 − 0.95
P0 = = 9.2791 ∈ [1.6449, ∞),
0.95 (1 − 0.95)
5000
aşadar ipoteza nulă este respinsă la acest nivel de semnificaţie. Admitem că p > 0.95.
(b) Aceeaşi concluzie poate fi dedusă şi pe baza P−valorii. Deoarece Pv = 0.001 < α = 0.05,
deducem că ipoteza nulă va fi respinsă.
8.1 Tipuri de teste statistice 169

8.1.4 Testul χ 2 de concordanţă

Testele de concordanţă (en., goodness-of-fit tests) realizează concordanţa între repartiţia empirică
(repartiţia datelor observate) şi repartiţia teoretică a unei variabile. Două dintre cele mai des
utilizate teste de concordanţă sunt testul χ 2 de concordanţă şi testul Kolmogorov-Smirnov.

Testul χ 2 de concordanţă poate fi utilizat ca un criteriu de verificare a ipotezei potrivit căreia

un ansamblu de observaţii urmează o repartiţie dată. Se aplică la verificarea normalităţii, a
exponenţialităţii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit şi
testul χ 2 al lui Pearson sau testul χ 2 al celei mai bune potriviri (en., goodness of fit test). Acest
test poate fi aplicat pentru orice tip de date pentru care funcţia de repartiţie empirică poate fi
calculată. Pentru acest test, ipoteza nulă este:

(H0 ) : Funcţia de repartiţie a lui Z este F(z).

Ipoteza alternativă este negaţia ipotezei nule.

Etapele testului sunt urmatoarele:
1. Stabilim pragul de risc α. Facem masuratorile asupra variabilei Z : z1 , z2 , . . . , zn .
2. Pe baza masuratorilor intuim natura repartitiei lui Z (si, implicit, forma functiei de repartitie a lui
Z). Aceasta functie poate depinde de unul sau mai multi parametri, notati generic cu θ . Formulăm
ipotezele statistice:
(H0 ) funcţia de repartiţie teoretică a variabilei aleatoare Z este F(z; θ1 , θ2 , . . . , θ p )
(H1 ) ipoteza nulă nu este adevărată.
3. Dacă θ1 , θ2 , . . . , θk (k ≤ p) nu sunt parametri cunoscuţi, atunci determinăm estimările
θ̂1 , θ̂2 , . . . , θ̂k pentru aceştia. Altfel, sărim peste acest pas;
4. Grupam datele in clase si scriem distribuţia empirică de selecţie (tabloul de frecvenţe),

clasa Oi n
Å ã
, unde ∑ ni = n, ni ≥ 5;
ni i=1, n i=1

5. Se calculează probabilitatea pi , ca un element luat la întâmplare să se afle în clasa Oi . Dacă

Oi = [ai−1 , ai ), atunci
k
(ni − n pi )2
6. Se calculează statistica χ20 = ∑ , care reprezinta discrepanta dintre valorile observate
i=1 n pi
si cele teoretice;
7. Determinăm valoarea χ ∗ , care este
® 2
∗ χ1−α; k−1 , în cazul in care nu avem de estimat parametrii repartitiei,
χ = 2
χ1−α; k−p−1 , în cazul in care am estimat p parametri pentru repartitie,
2 2
unde χα; n este cuantila de ordin α pentru repartiţia χ (n);
2 ∗
8. Dacă χ0 < χ , atunci acceptăm (H0 ), altfel o respingem.
Exemplu 8.1.3 În urma unui recensământ, s-a determinat că proporţiile persoanelor din România
ce aparţin uneia dintre cele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%.
S-au testat aleator 450 de persoane din România, obţinându-se următoarele rezultate:
Verificaţi, la nivelul de risc α = 0.05, Grupa sanguină O A B AB
compatibilitatea datelor cu rezultatul teoretic.
Frecvenţa 136 201 82 31
R: Ipotezele statistice sunt:

(H0 ) : Rezultatul observat este compatibil cu cel teoretic,

170 Capitolul 8. Teste statistice

(H1 ) : Există diferenţe semnificative între rezultatul teoretic şi observaţii.

Dacă ipoteza nulă ar fi adevărată, atunci valorile aşteptate pentru cele patru grupe sanguine (din
450 de persoane) ar fi: O : 153.5, A : 184.5, B : 85, AB : 27.
Calculez valoarea statisticii χ2 pentru observaţiile date. Ponderile pi sunt: p1 = 0.34, p2 =
0.41, p3 = 0.19, p4 = 0.06. Folosind formula, gasim ca:
(136 − 450 · 0.34)2 (201 − 450 · 0.41)2 (82 − 450 · 0.19)2 (31 − 450 · 0.06)2
χ20 = + + +
450 · 0.34 450 · 0.41 450 · 0.19 450 · 0.06
(136 − 153.5) 2 (201 − 184.5) 2 (82 − 85)2 (31 − 27)2
= + + +
153.5 184.5 85 27
= 4.1004.
Aici n = 4, p = 0. Valoarea teoretica a statisticii de referinta este χ ∗ = χ0.95;
2
3 = 7.8147. Deo-
2 ∗
arece χ0 < χ , atunci acceptăm (H0 ) la acest nivel de semnificaţie. Asadar, observatiile sunt
compatibile cu cele teoretice.

8.2 Exerciţii rezolvate

Exerciţiu 8.2.1 Se aleg la întâmplare 10 înregistrări ale vitezelor vehiculelor ce trec prin dreptul
radarului fix aşezat în faţa universităţii. Acestea sunt (în km/h):

48 44 55 45 47 41 39 49 55 52

Presupunem că eşantionul ales face parte dintr-o populaţie normală.

(a) Găsiţi un interval de încredere de 98% pentru viteza medie a vehiculelor ce trec prin dreptul
radarului.
(b) Testaţi ipoteza că viteza medie cu care se circulă prin faţa acestui radar este de 45km/h sau
nu, considerându-se un nivel de semnificaţie α = 0.02;
(c) Testaţi ipoteza că dispersia valorilor vitezei este de 25 sau alta, considerându-se un nivel de
semnificaţie α = 0.02.
R: (a) Folosim intervalul de încredere pentru eşantioane mici. Înlocuind x = 47.5, s = 5.4620,
t1− α2 ; n−1 = t0.99, 9 = 2.821, găsim intervalul de încredere
Å ã
s s
(µ, µ) = x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ = (42.627, 52.373).
n n
(b) Ipoteza nulă este (H0 ) : µ = 45, iar ipoteza alternativă este (H1 ) : µ 6= 45. Folosim testul
t bilateral. Deoarece
47.5 − 45
t0 = 5.4620
= 1.4474 < 2.821 = t0.99, 9 ,
√
10

acceptăm ipoteza nulă la nivelul de semnificaţie α = 0.02.

Altfel, deoarece valoarea testată pentru medie se află în intervalul de încredere de mai sus,
acceptăm ipoteza nulă (nu avem motive să o respingem).
(c) Ipoteza nulă este (H0 ) : σ 2 = 25, iar ipoteza alternativă este (H1 ) : σ 2 6= 25. Folosim
testul pentru dispersie bazat pe statistica (8.1.2). Intervalul de încredere pentru σ 2 este
Ä ä Ä ä
χ 2α ; n−1 , χ1−
2
α
; n−1 = χ 2
0.1; 9 , χ 2
0.99; 9 ) = (4.17, 21.67).
2 2
8.2 Exerciţii rezolvate 171
9
Cum valoarea statisticii test, χ02 = 25 · 5.46202 = 10.74, se află în intervalul de încredere pentru
σ 2 , deducem că ipoteza nulă este admisă.

Exerciţiu 8.2.2 La un examen naţional, se contabilizează nota x obţinută de fiecare examinat

în parte. Pentru o analiza statistică, se aleg la întâmplare 200 de candidaţi. S-a găsit că suma
200 200
notelor alese este ∑ xi = 1345.37 şi suma pătratelor acestor note este ∑ xi2 = 10128.65. Se cer:
i=1 i=1
(a) Găsiţi un interval de încredere pentru media µ a tuturor notelor participanţilor la examen, la
nivelul de semnificaţie α = 0.05.
(b) Testaţi ipoteza nulă (H0 ) : µ = 6.75, vs. ipoteza alternativă (H1 ) : µ 6= 6.75, la nivelul
α = 0.05. Argumentaţi statistica folosită în testare.
200
1
R: Din datele problemei, găsim că x = 200 ∑ xi = 6.7268, iar
i=1

1 200 2 10128.65
s2 = ∑ xi − x2 = − 6.72682 = 5.6479.
n − 1 i=1 199

Astfel, s = 2.3765. Deoarece dispersia nu este cunoscută a priori şi eşantionul este suficient de
mare, folosim intervalul de încredere pentru eşantioane mari. Folosind t1− α2 ; n−1 = t0.975, 199 ≈
z0.975 = 1.96, găsim intervalul de încredere
Å ã
s s
(µ, µ) = x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ = (6.3974, 7.0562).
n n
(b) Folosim testul t bilateral (dispersia nu este cunoscută priori, iar n = 200 este suficient de
mare). Deoarece
6.7268 − 6.75
t0 = 2.3765
= −0.1381 şi |t0 | = 0.1381 < 1.96,
√
200

acceptăm ipoteza nulă la nivelul de semnificaţie α = 0.05.

Altfel, deoarece valoarea testată pentru medie se află în intervalul de încredere de mai sus,
acceptăm ipoteza nulă (nu avem motive să o respingem).
Exerciţiu 8.2.3 În industria farmaceutică, variabilitatea masei medicamentelor este critică.
Eşantionul de mai jos reprezintă masa (în grame) a 15 tablete de acelaşi tip.
5.6; 5.52; 5.45; 5.41; 5.47; 5.55; 5.41; 5.58; 5.6; 5.4; 5.54; 5.47; 5.5; 5.53; 5.59

(a) Determinaţi un interval de încredere pentru dispersie (α = 0.05).

(b) Presupunem că acest eşantion provine dintr-o populaţie normală. Testaţi ipoteza că dispersia
masei pentru acest tip de medicament, pentru întreaga populaţie, este de 0.004 g2 .
R: (a) Pentru acest eşantion, s2 = 0.005. Un interval de încredere pentru σ 2 este
! Å
n−1 2 n−1 2
ã
14 14
2
s , 2 s = · 0.005, · 0.005 = (0.0027, 0.0124).
χ1− α
, n−1
χ α , n−1 26.12 5.63
2 2

(b) Ipotezele testate sunt:

(H0 ) : σ 2 = 0.004 vs. (H1 )d : σ 2 6= 0.004.

Deoarece 0.04 se aflăîn intervalul de în redere de mai sus, acceptăm ipoteza nulă.
172 Capitolul 8. Teste statistice

8.3 Exerciţii propuse

Exerciţiu 8.3.1 Se aruncă o monedă de 250 de ori, obţinându-se 140 de apariţii ale stemei. La
un nivel de semnificaţie α = 0.05, să se decidă dacă avem suficiente dovezi de a afirma că acestă
monedă este falsă.
Exerciţiu 8.3.2 Caracteristica X reprezintă cheltuielile lunare pentru convorbirile telefonice ale
unei familii. În urma unui sondaj la care au participat 100 de familii, am obţinut datele (repartiţia
de frecvenţe):
Å ã
[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300)
6 11 13 18 20 14 11 7

(a) Să se verifice, cu nivelul de semnificaţie α = 0.02, ipoteza că media acestor cheltuieli lunare
pentru o singură familie este de 140 RON, ştiind că abaterea standard este 35 RON.
(b) Să se verifice aceeaşi ipoteză, în cazul în care abaterea standard nu este cunoscută a priori.
Exerciţiu 8.3.3 Pentru o selecţie dată, de volum n = 196, am obţinut x = 0.25 şi s = 4. Nu
cunoaştem nici valoarea medie şi nici dispersia variabilei aleatoare ce caracterizează populaţia.
Verificaţi la nivelul de semnificaţie α = 0.05 ipoteza µ = 0, cu alternativa µ 6= 0.
Exerciţiu 8.3.4 Un patron susţine că firma sa nu face discriminare sexuală la angajare (i.e., atât
bărbaţii, cât şi femeile au aceeaşi şansă de a se angaja în respectiva firmă). Se aleg aleator 500
de angajaţi şi se observă că 271 sunt bărbaţi. Testaţi la nivelul de semnificaţie 0.05 dacă patronul
firmei spune adevărul sau nu.
Exerciţiu 8.3.5 O selecţie de volum n = 50 este folosită pentru a verifica următoarea ipoteză

(H0 ) : µ = 15 vs. (H1 ) : µ 6= 15,

la nivelul de semnificaţie α = 0.05. Valorile estimate pentru medie, respectiv deviaţia standard
sunt: x = 17.5 şi s = 4.5. Care este rezultatul testării?
Exerciţiu 8.3.6 Urmărim preţul X al aceluiaşi articol în 20 de magazine, alese la întâmplare.
Acestea sunt:

9.6 9.9 10.3 10.0 10.5 9.7 9.9 10.2 10.0 10.4
9.9 9.8 10.1 10.4 9.9 10.2 10.3 10.1 10.0 9.7

Considerăm că preţul acestui articol urmează o repartiţie gaussiană.

(i) Se poate admite ipoteza E(X) = 10.0, la nivelul de semnificaţie α = 0.05?
(ii) Se poate admite ipoteza Var(X) = 0.2, la nivelul de semnificaţie α = 0.05?
Exerciţiu 8.3.7 Unui grup format din 12 copii de 5 ani li s-a cerut să facă fiecare câte un puzzle
simplu. După ce l-au terminat, au fost rugaţi să-l refacă, urmărindu-se dacă timpii de lucru s-au
îmbunătăţit semnificativ. Timpii de lucru (în secunde) pentru ambele încercări sunt notaţi în
tabelul de mai jos:

Copil C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12

prima încercare 321 339 180 123 289 285 259 124 283 180 254 184
a doua încercare 204 184 85 91 175 305 148 116 194 195 221 184

Presupunem că timpii de lucru sunt caracteristici normale. Formulaţi un test statistic potrivit, în
urma căruia să decideţi dacă timpii de lucru pentru a doua încercare s-au îmbunătăţit semnificativ.
8.3 Exerciţii propuse 173

Exerciţiu 8.3.8
Tabelul alăturat conţine repartiţia pe grupe de vârstă a unei selecţii
aleatoare de 385 de şomeri dintr-o anumită regiune a ţării. vârsta frecvenţa
(a) Calculaţi vârsta medie si deviaţia standard pentru selecţia dată. [18, 25) 34
(b) Estimaţi printr-un interval de încredere vârsta medie a şomerilor [25, 35) 76
din acea regiune (α = 0.1). [35, 45) 124
(c) Testaţi ipoteza că vârsta medie a şomerilor este 42 de ani [45, 55) 87
(α = 0.1). [55, 65) 64

Exerciţiu 8.3.9 Într-o şcoală sunt 200 de elevi de clasa a XII-a care au susţinut teză la Matema-
tică. Tabelul următor conţine o selecţie aleatoare de 36 de note la această teză:
note 4 5 6 7 8 9 10
frecvenţa 5 6 7 8 5 3 2
(a) Estimaţi printr-un interval de încredere procentul notelor de trecere obţinute de elevii de
clasa a XII-a din acea şcoală (α = 0.06).
(b) Testaţi ipoteza că 15% dintre elevii din şcoală nu au luat notă de trecere (α = 0.06).
Exerciţiu 8.3.10 O selecţie de 700 de salarii pe oră din România arată că media salariului pe oră
este x = 13.72 RON şi s = 9.3. Putem decide, pe baza acestui sondaj, că media salariului pe oră
este, de fapt, µ > 12.43 RON, valoare stabilită de guvernul român? Se va folosi α = 0.05.
9. Corelaţie

9.1 Introducere
În acest capitol vom discuta măsuri şi tehnici de determinare a legăturii între două sau mai multe
variabile aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [15], [16], [?].
Primele metode utilizate în studiul relaţiilor dintre două sau mai multe variabile au apărut de
la începutul secolului al XIX-lea, în lucrările lui Legendre1 şi Gauss2 , în ce priveşte metoda
celor mai mici pătrate pentru aproximarea orbitelor astrelor în jurul Soarelui. Un alt mare om
de ştiinţă al timpului, Francis Galton3 , a studiat gradul de asemănare între copii şi părinţi, atât
la oameni, cât şi la plante, observând că înălţimea medie a descendenţilor este legată liniar de
înălţimea ascendenţilor. Este primul care a utilizat conceptele de corelaţie şi regresie ( (lat.)
regressio - întoarcere). Astfel, a descoperit că din părinţi a căror înălţime este mai mică decât
media colectivităţii provin (în general) copii cu o înălţime superioară lor şi, vice-versa, din
părinţi cu înălţimi peste media colectivităţii provin (în general) copii cu o înălţime inferioară
lor. Astfel, a concluzionat că înălţimea copiilor ce provin din părinţi înalţi tinde să "regreseze"
spre înălţimea medie a populaţiei. Din lucrările lui Galton s-a inspirat un student de-al său, Karl
Pearson, care a continuat ideile lui Galton şi a introdus coeficientul (empiric) de corelaţie ce îi
poartă numele. Acest coeficient a fost prima măsură importantă introdusă care cuantifică tăria
legăturii dintre două variabile ale unei populaţii statistice.
Un ingredient fundamental în studiul acestor două concepte este diagrama prin puncte, numită
diagrama scatter plot. În probleme de regresie în care apare o singură variabila răspuns (variabila
care este prezisă) şi o singură variabilă predictor (variabila pe baza căreia facem predicţia),
diagrama scatter plot (răspuns vs. predictor) este punctul de plecare pentru studiul regresiei.
O diagramă scatter plot ar trebui reprezentată pentru orice problemă de analiză regresională,
deoarece aceasta ne va da o primă idee despre ce tip de regresie vom folosi. Un exemplu de astfel
de diagramă este reprezentat în Figura 9.1, în care am reprezentat coeficientul de inteligenţă (IQ)
1 Adrien-Marie Legendre (1752 − 1833), matematician francez
2 Johann Carl Friedrich Gauss (1777 − 1855), matematician şi fizician german
3 Sir Francis Galton (1822 − 1911), om de ştiinţă britanic
176 Capitolul 9. Corelaţie

a 200 de perechi soţ-soţie. Fiecare cruciuliţă din diagramă reprezintă IQ-ul pentru o pereche
soţ-soţie.

Figura 9.1: Scatter plot pentru IQ în familie.

9.2 Corelaţie şi coeficient de corelaţie

Corelaţia este un termen statistic folosit pentru a defini interdependenţa sau legătura între două
sau mai multe variabile aleatoare. Totodată, corelaţia este şi o metodă statistică de descriere şi
analiză a legăturilor de tip statistic între două sau mai multe variabile.
Dacă X, Y sunt două variabile aleatoare ce admit medie, atunci corelaţia sau covarianţa
(teoretică) dintre X şi Y se defineşte prin:
cov(X, Y ) = E [(X − E(X)) · (Y − E(Y ))] = E(X ·Y ) − E(X) · E(Y ).
Observaţie 9.2.1 (i) Din punct de vedere teoretic, dacă X şi Y sunt variabile aleatoare indepen-
dente, atunci cov(X, Y ) = 0.
Reciproca nu este, în general, adevărată. De exemplu, dacă X ∼ U (−1, 1) şi Y = X 2 , atunci
cov(X, Y ) = E(X ·Y ) − E(X) · E(Y ) = E(X 3 ) − E(X) · E(X 2 )
Z 1 ÅZ 1 ã ÅZ 1 ã
3 2
= x dx − x dx x dx = 0,
−1 −1 −1
însă X şi Y= X2 sunt dependente.
(ii) În cazul în care X şi Y sunt, în plus, variabile aleatoare normal repartizate, atunci independenţa
variabilelor aleatoare X şi Y este echivalentă cu necorelarea lor (i.e., cov(X, Y ) = 0).
O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine printr-o
linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare. Putem avea o
corelaţie pozitivă, însemnând că X şi Y cresc sau descresc împreună, sau o corelaţie negativă,
însemnând că X şi Y se modifică în direcţii opuse.
O măsură a corelaţiei dintre două variabile este coeficientul de corelaţie. Acesta este foarte
utilizat în ştiinţe ca fiind o măsură a dependenţei liniare între două variabile. Din punct de vedere
teoretic, definim coeficientul de corelaţie a două variabile aleatoare X şi Y prin:
cov(X, Y )
ρX,Y = = cov(X, Y ),
σX · σY
unde X şi Y sunt variabilele aleatoare standardizate iar
» »
σX = E (X − X)2 şi σY = E (Y −Y )2
sunt deviaţiile standard teoretice corespunzătoare variabilelor X, respectiv Y .
9.2 Corelaţie şi coeficient de corelaţie 177

Propoziţie 9.2.1 Proprietăţi ale coeficientului de corelaţie:

(a) Coeficientul de corelaţie este simetric, i.e., ρX,Y = ρY,X .
(b) Dacă X şi Y sunt independente, atunci
ρX,Y = 0.
(c) − 1 ≤ ρX,Y ≤ 1, pentru orice v.a. X şi Y .
(d) Dacă Y = aX + b (a, b ∈ R, a 6= 0), atunci
®
+1, dacă a > 0;
ρX,Y =
−1, dacă a < 0.
(e) Dacă a, b, c, d ∈ R, a, c > 0, atunci ρaX+b,cY+d = ρX,Y .
Magnitudinea (valoarea absolută) coeficientului de corelaţie ρX,Y determină tăria relaţiei liniare
dintre variabilele aleatoare X şi Y . Dacă ρX,Y = 1, atunci X şi Y sunt perfect pozitiv corelate,
iar dacă ρX,Y = −1, variabilele X şi Y vor fi perfect negativ corelate. Dacă reprezentăm grafic
perechile ordonate (x, y), ele se vor afla pe o dreaptă de pantă pozitivă, dacă ρX,Y = 1, şi negativă
pentru ρX,Y = −1.
Corelarea nu implică o cauzalitate. Cu alte cuvinte, doar faptul că variabilele X şi Y sunt corelate
nu implică faptul că X ar cauza pe Y sau invers.
În practică, pentru a stabili dacă există sau nu vreo legătura între două variabile aleatoare, se fac
observaţii asupra acestora, urmând apoi a cuantifica relaţia dintre observaţii.
Fie (xk , yk ), k ∈ {1, 2, . . . , n} un set de date bidimensionale, ce reprezintă observaţii asupra
vectorului aleator (X, Y ). O măsură a legăturii dintre {xk }k şi {yk }k este coeficientul de corelaţie
empiric introdus de K. Pearson (în literatura de specialitate mai este cunoscut şi sub denumirea
de coeficientul r):
n
∑ (xk − x)(yk − y)
k=1
r = s s (9.2.1)
n n
∑ (xk − x)2 ∑ (yk − y)2
k=1 k=1
cove (x, y)
= , (9.2.2)
sx · sy
unde
s s
n n n
1 1 1
cove (x, y) =
n−1 ∑ (xk − x)(yk − y), sx = n−1 ∑ (xk − x)2, sy = n−1 ∑ (yk − y)2
k=1 k=1 k=1

sunt covarianţa (corelaţia) empirică şi deviaţiile standard empirice pentru X şi Y .
Spre exemplu, pentru selecţiile

x = [0.49 -0.45 0.39 0.05 -0.49 0.24 0.72 0.15 0.13 -1.01];
y = [1.31 1.20 -2.58 -2.09 0.39 -0.86 -1.23 2.64 -0.90 -1.22];

coeficientul r al lui Pearson este

r = −0.0905.
Asemeni coeficientului de corelaţie teoretic, ρX,Y , coeficientul r al lui Pearson ia valori doar în intervalul
[−1, 1]. Cazurile limită pentru r sunt r = 1 sau r = −1, cazuri în care putem trage concluzia că variabilele
178 Capitolul 9. Corelaţie

X şi Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 9.2). Pentru valori ale lui r între
−1 şi 1, nu putem vorbi de gradul de corelare între X şi Y fără a efectua un test statistic asupra valorii
coeficientulul teoretic de corelaţie, ρ. De multe ori însă, putem afirma ca avem o corelaţie pozitivă dacă
r este apropiat de valoarea 1 (e.g., r = 0.85, caz în care norul de date are panta ascendentă) şi avem o
corelaţie negativă dacă r este apropiat de valoarea −1 (e.g., r = −0.98, caz în care norul de date are panta
descendentă).
Rezultatul r = −0.0905 de mai sus ar putea sugera faptul că cele două selecţii sunt observaţii obţinute din
două variabile aleatoare necorelate (i.e., ρ = 0), fapt ce va trebui confirmat folosind un test statistic în
care testăm ipoteza nulă ρ = 0, cu ipoteza alternativă ρ 6= 0.

Figura 9.2: Scatter plots şi coeficienţi de corelaţie.

9.2.1 Test statistic pentru coeficientul de corelaţie

Presupunem că avem un set de date bidimensionale (xk , yk ), k ∈ {1, 2, . . . , n} asupra variabilelor aleatoare
normale X, Y , şi am calculat r, obţinând o valoare r0 apropiată de 0. Plecând doar de la acestă informaţie,
nu putem extrapola şi decide gradul de corelare între X şi Y . Pentru aceasta, vom construi un test statistic,
care va decide dacă valoarea reală a lui ρ (coeficientul teoretic de corelaţie) este 0 sau semnificativ diferită
de 0.
Considerăm ipoteza nulă

(H0 ) ρX,Y = 0 (variabilele aleatoare nu sunt corelate)

vs. ipoteza alternativă

(H1 ) ρX,Y 6= 0 (variabilele aleatoare sunt corelate)

Alegem un nivel de semnificaţie α << 1 (e.g., α = 0.05) şi considerăm statistica

n−2
T =r ∼ t(n − 2).
1 − r2

Calculez valoarea statisticii T pentru r = r0 (o notăm cu T0 ) şi, de asemenea, calculăm cuantila t1− α2 ; n−2 ,
de ordin 1 − α2 a repartiţiei t cu (n − 2) grade de libertate.
Decizia finală este următoarea:
|T0 | < t1− α2 ; n−2 , atunci ipoteza (H0 ) este acceptată;
|T0 | ≥ t1− α2 ; n−2 , atunci ipoteza (H0 ) este respinsă.
9.2 Corelaţie şi coeficient de corelaţie 179

Observaţie 9.2.2 (i) Coeficientul lui Pearson, r, este un număr adimensional ce stabileşte doar dacă
există o legătura liniară între două seturi de date statistice. Totodată, în definirea acestui coeficient se
presupune că datele statistice urmează o repartiţie normală. De multe ori, în practică, doar coeficientul r
sigur nu poate fi edificator asupra tăriei legăturii între două seturi de date statistice, ba chiar poate genera
informaţii false în cazul în care cele două seturi date nu depind liniar unul de celălalt. De aceea, şi alţi
coeficienţi pentru determinarea corelaţiei sunt luaţi în consideraţie, cum ar fi:
• r2 , coeficientul de determinare (notat în Statistică prin R2 ), care stabileşte care este procentul din
variaţia uneia dintre datele statistice ce determina (sau explică) pe celelalte date. De exemplu, un
coeficient de determinare R2 = 0.42 semnifică faptul că variabila independentă explică doar 42%
din variaţia variabilei dependente. În Statistică, acest coeficient este definit în mai multe moduri,
unele nu tocmai într-un mod echivalent;
• coeficientul lui Spearman4 , coeficientul lui Kendall5 etc. (acestea nu presupun că datele statistice
sunt normale)
(ii) Se poate testa, de asemenea, ipoteza nulă

(H0 ) : ρX,Y = ρ0 , cu ρ0 6= 0,

însă aceasta nu este foarte des întâlnită în practică.

În acest sens, se poate utiliza statistica

1+r 1 + ρ0
Å ã Å Å ã ã
1 1 1
Z = ln ∼ N ln ,√ .
2 1−r 2 1 − ρ0 n−3

(iii) Corelaţia a două variabile aleatoare nu implică o cauzalitate. Cu alte cuvinte, există o corelaţie între
vârstă şi înălţime la copii, însă niciuna dintre aceastea nu o cauzează pe cealaltă. Corelaţia poate fi luată
în evidenţă pentru o posibilă relaţie cauzală, însă nu este determinantă şi nu poate preciza relaţia cauzală,
dacă această există.
(iv) Volumul selecţiei este un factor foarte important în testarea ipotezei că două variabile aleatoare
sunt necorelate. Spre exemplu, o relaţie poate fi puternică (având un r nu foarte aproape de 0), însă nu
semnificativă, dacă valoarea lui n nu este suficient de mare. Invers, o relaţie poate fi slabă (un r aproape
de 0), dar semnificativă. Exemplul (9.2.1) poate fi edificator.
Exemplu 9.2.1 Să presupunem că dorim să stabilim dacă există vreo legătura între vârstă unei persoane
şi coeficientul său de inteligenţă. Pe baza a două seturi de datele asupra acestor caracteristici, de volum
n = 10, găsim un coeficient de corelaţie empiric r = 0.62. Se cere:
(a) Este această legătură puternică?
(b) Este această legătură semnificativă?
R: (a) Calculăm coeficientul de determinare, R2 , şi găsim R2 = 0.3844. Asta semnifică faptul că doar
38.44% din variaţia coeficientului de inteligenţă este explicată de vârstă.
(b) Aplicăm testul pentru coeficientul de corelaţie la un nivel de semnificaţie α = 0.05. Ipoteza nulă este

(H0 ) Nu există o corelaţie semnificativă între vârstă şi IQ.

»
8
Statistica considerată va avea 8 grade de libertate, T0 = 0.62 1−0.3844 = 2.2351 < 2.3060 = t0.975; 8 , de
unde concluzionăm că ipoteza nulă ρ = 0 este admisă (i.e., nu sunt dovezi suficiente pentru ca ipoteza să
poate fi respinsă la acest nivel de semnificaţie).
(v) Se poate testa şi ipoteza că doi coeficienţi de corelaţie ce corespund fiecare la câte două selecţii diferă
semnificativ unul de celălalt. Presupunem că avem de testat ipoteza

(H0 ) : ρ1 = ρ2 ,
4 Charles Edward Spearman (1863 − 1945), psiholog britanic
5 Sir Maurice George Kendall (1907 − 1983), statistician britanic
180 Capitolul 9. Corelaţie

vs. ipoteza alternativă

(H1 ) : ρ1 6= ρ2 .
Presupunem că volumele selecţiilor folosite în testare sunt n1 şi n2 şi că r1 , r2 sunt coeficienţii de corelaţie
empirici calculaţi. Pentru a testa ipoteza de mai sus, se foloseşte faptul că variabilele

1 + ri
Å ã
1
Zi = ln , i = 1, 2.
2 1 − ri
Ä Ä ä ä
au o distribuţie asimptotică normală N 12 ln 1+ρ i √1
1−ρi , n−3 . Atunci, distribuţia asimptotică a statisticii
Z = Z1 − Z2 este Ç å
1 1
Z ∼ N µZ1 − µZ2 , + ,
n1 − 3 n2 − 3
Ä ä
cu µZi = 12 ln 1+ρ
1−ρi , i = 1, 2. Statistica test va fi
i

Z1 − Z2 − (µZ1 − µZ2 )
Z= » ∼ N (0, 1) ,
1 1
n1 −3 + n2 −3

Dacă |z| ≤ z1− α2 , acceptăm ipoteza (H0 ), altfel o respingem.

9.3 Coeficientul de corelaţie Spearman

În cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes, coefi-
cientul de corelaţie Pearson nu mai poate fi calculat. De asemenea, dacă datele nu satisfac ipoteza de
normalitate, folosirea coeficientului Pearson in testarea corelaţiei dintre valori poate fi pusă sub semnul
întrebării. O alternativă neparametrică a coeficientului Pearson este coeficientul de corelaţie Spearman,
sau coeficientul de corelaţie a rangurilor. Acest coeficient poate fi calculat atât pentru date calitative, cât şi
pentru date cantitative. Pentru a calcula acest coeficient, fiecărui atribut sau fiecărei valori a caracteristicii
i se desemnează un rang. Coeficientul de corelaţie Spearman este coeficientul de corelaţie Pearson
pentru aceste ranguri. Coeficientul lui Spearman este utilizat în depistarea (dacă este cazul) a unei relaţii
monotone între două variabile (fie ea liniară sau nu). Acest coeficient este mai puţin senzitiv la valorile
extreme (outliers) ale seturilor de date, în sensul că valori foarte mari sau foarte mici comparativ cu altele
nu influenţează valoarea coeficientului Spearman.
În general, dacă {(xi , yi )}ni=1 este un set de date bidimensionale, ale căror ranguri corespunzătoare sunt
(xi∗ , y∗i )ni=1 , atunci coeficientul de corelaţie Spearman (notat aici cu rS ) este
n
∑ (xk∗ − x∗ )(y∗k − y∗ )
k=1
rS = s s . (9.3.3)
n n
∑ (xk∗ − x∗ )2 (y∗k − y∗ )2
∑
k=1 k=1

La fel ca şi coeficientul lui Pearson, coeficientul Spearman ia valori reale în intervalul [−1, 1]; valoarea 1
însemnând corelaţie pozitivă perfectă a rangurilor, iar valoarea −1 însemnând corelaţie negativă perfectă
a rangurilor.
În cazul în care avem n perechi de observaţii şi nu există valori egale pentru rangurile aceleiaşi variabile,
atunci formula alternativă pentru calcului lui rS este:
n
6 ∑ di2
i=1
rS = 1 − , (9.3.4)
n(n2 − 1)
9.3 Coeficientul de corelaţie Spearman 181

unde di = xi∗ − y∗i , i.e., diferenţa dintre rangurile corespunzătoare pentru poziţia i. Vezi exemplele (9.3.1)
şi (9.3.2).
Se poate, de asemenea, testa semnificatia valorii obtinute, rS . Testul este acelasi ca in cazul semnificatiei
coeficientului Pearson, cu deosebirea ca r este inlocuit cu rS .

Exemplu 9.3.1 Doi degustători de vinuri (denumiţi D1 şi D2) au fost rugaţi să testeze 9 soiuri de vin şi
să le claseze în ordinea preferinţelor. Să notăm mostrele testate cu A, B, C, D, E, F şi G. Preferinţele
acestora sunt cele din Tabelul 9.1, în ordinea descrescătoare a preferinţelor. Tabelul 9.2 conţine rangurile
preferinţelor celor doi degustători, iar Figura 9.3 reprezintă grafic rangurile (diagrama scatter plot).
Mostra rang D1 rang D2
A 3 5
B 2 1
C 5 3
Mostra A B C D E F G H I
D 8 7
D1 E B A G C H F D I
E 1 2
D2 B E C G A H D I F
F 7 9
Tabela 9.1: Preferinţele degustătorilor de vin. G 4 4
H 6 6
I 9 8

Tabela 9.2: Tabel cu rangurile preferinţelor.

Din diagrama scatter plot se observă o corelaţie pozitivă între ranguri, ceea ce implică o oarecare
concordanţă între preferinţele celor doi degustători. Coeficientul de corelaţie Spearman va atribui o
valoare numerică acestei concordanţe, aceasta fiind rS = 0.8667.

Figura 9.3: Scatter plot pentru ranguri.

Există cazuri (în special pentru date cantitative) când valorile caracteristicii se repetă, aşa încât pentru
valori egale desemnăm acelaşi rang. În aceste cazuri nu mai putem utiliza formula (9.3.4) pentru calculul
coeficientului Spearman, ci va trebui să utilizăm formula (9.3.3) (vezi exemplul următor).

Exemplu 9.3.2 Datele din Tabelul 9.3 reprezintă numărul de accidente rutiere (A) şi numărul de decese
(D) înregistrate într-un anumit oraş, în primele 6 luni ale anului. Rangurile corespunzătoare valorilor sunt
prezentate în Tabelul 9.4. Datele au fost introduse în tabel în ordinea inversă a numărului de accidente. De
notat că, deoarece numărul de decese înregistrate în luna Mai este egal cu numărul de decese din Aprilie,
rangul pentru fiecare dintre cele două luni este media celor două poziţii în care s-ar afla. Folosind formula
(9.3.3), calculăm coeficientul de corelaţie Spearman. Acesta este rS = 0.8117.
182 Capitolul 9. Corelaţie

Luna A rang A D rang D

Ian. 27 6 8 6
Feb. 24 5 6 5
Luna Ian. Feb. Mar. Apr. Mai Iun. 2+3
Mai 17 4 3 = 2.5
A 27 24 15 11 17 12 2
Mar. 15 3 5 4
D 8 6 5 3 3 2
Iun. 12 2 2 1
2+3
Tabela 9.3: Evenimente rutiere în primele 6 luni. Apr. 11 1 3 2 = 2.5

Tabela 9.4: Tabel cu rangurile pentru

accidente.

9.4 Exerciţii rezolvate

Exerciţiu 9.4.1 Datele din tabelul următor reprezintă o selecţie de observaţii asupra variabilei X.

X 0 −1 3 1 2 −2
Y 2 0

(a) Dacă pentru variabilele X şi Y coeficientul de corelaţie Spearman este −1, completaţi în tabel (dacă
este posibil) un set de valori pentru Y .
(b) Aceeaşi cerinţă în cazul în care coeficientul de corelaţie Pearson este −1.

R: (a) Coeficientul Spearman √ este −1 dacă cele două seturi de date sunt de monotonii inverse. Putem
alege, spre exemplu, Y = [π, 19, −2.5, −1, 0, 10]. Alegerea nu este unică.
(b) Coeficientul Pearson este −1 dacă toate datele se află pe o aceeaşi dreaptă. Dreapta ce trece prin
punctele (−1, 2) şi (2, 0) este
2
y = (2 − x).
3
Astfel, valorile lui Y sunt unic determinate: Y = [4/3, 2, −2/3, 2/3, 0, 8/3].

Exerciţiu 9.4.2 (a) Determinaţi coeficientul de corelaţie Pearson pentru

setul alăturat de date, reprezentate prin punctele albastre (fără punctul P).
(b) Determinaţi coeficientul de corelaţie Pearson pentru datele din figură,
incluzând punctul P(103 , 103 ). Cum explicaţi fenomenul observat?
(c) Aceleaşi cerinţe ca la (a) şi (b), dar pentru coeficientul Spearman.

R: (a) Cele 9 date sunt:

{(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)}

Coeficientul de corelaţie Pearson pentru cele 9 puncte este 0.

(b) Coeficientul de corelaţie Pearson pentru cele 10 puncte este ≈ 1.
(c) Rangurile asociate celor 9 date sunt:

rx = [2, 2, 2, 5, 5, 5, 8, 8, 8]; ry = [2, 5, 8, 2, 5, 8, 2, 5, 8];

Coeficientul de corelaţie Spearman pentru cele 9 puncte este 0, iar pentru cele 10 puncte este 0.2941.
Rangurile asociate celor 10 date sunt:

rx = [2, 2, 2, 5, 5, 5, 8, 8, 8, 7]; ry = [2, 5, 8, 2, 5, 8, 2, 5, 8, 7];

Coeficientul de corelaţie Pearson este foarte senzitiv la valorile extreme din date, pe când cpeficientul de
corelaţie Spearman este mai puţin senzitiv la valori extreme.
9.5 Exerciţii propuse 183

9.5 Exerciţii propuse

Exerciţiu 9.5.1 Tabelul de mai jos conţine calificativele obţinute de un elev de clasa I la o selectie de 9
teste din clasa I, care au fost reluate la inceputul clasei a doua a-II-a.
Discipline A B C D E F G H I
clasa I S FB FB B B FB S B FB
clasa a II-a B I B FB FB B B S B
(a) Calculaţi coeficientul de corelaţie Spearman şi semnificaţia lui pentru calificativele obţinute în clasa I
şi cele din clasa a II-a.
(b) La nivelul de semnificaţie α = 0.05, testaţi ipoteza că rezultatele elevului s-au îmbunătăţit în clasa a
II-a
Exerciţiu 9.5.2 Se măsoară viteza unei maşini în primele 10 secunde după ce a început să accelereze.
Datele sunt înregistrate în tabelul de mai jos.

t 0 1 2 3 4 5 6 7 8 9 10
v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Folosind un test statistic, verificaţi dacă t (timp) şi v (viteză) sunt liniar corelate (α = 0.04).
Exerciţiu 9.5.3 S-a realizat un studiu pentru a afla dacă există vreo relaţie între masa corporală (M) şi
presiunea sanguină (P) la oameni. Următorul set de date a fost obţinut dintr-un studiu clinic, alegând 10
persoane la întâmplare.

M 78 86 72 82 80 86 84 89 68 71
P 140 160 134 144 180 176 174 178 128 132

(a) Calculaţi indicele de corelaţie Pearson şi determinaţi semnificaţia acestuia (α = 0.05).
(b) Calculaţi indicele de corelaţie Spearman dintre M şi P.
Exerciţiu 9.5.4 Tabelul de mai jos conţine mediile obţinute de un elev de clasa a V-a la toate disciplinele
şcolare, pentru fiecare dintre cele două semestre.

Discipline A B C D E F G H I J
semestrul I 6 9 7 8 8 9 9 9 7 10
semestrul al II-a 7 9 8 9 8 9 8 10 8 10

(a) Calculaţi coeficientul de corelaţie Pearson şi testaţi semnificaţia valorii obţinute. (α = 0.04)
(b) Calculaţi coeficientul de corelaţie Spearman.

Exerciţiu 9.5.5 Un număr de studenţi ce au frecventat un Di f icultatea−→

1 2 3 4 5
anumit curs au fost solicitaţi să îşi exprime părerea în legătură Utilitatea ↓
cu dificultatea şi atractivitatea noţiunilor prezentate. Pentru 1 0 0 3 4 6
fiecare variabilă, ei au avut de ales numere întregi dintr-o scară 2 0 0 4 4 7
de la 1 la 5, unde 1 reprezintă clasa cea mai de jos de dificul- 3 0 4 5 6 5
tate (respectiv atractivitate) iar 5 nivelul maxim. Datele sunt 4 3 5 4 1 0
prezentate în tabelul de frecvenţe alăturat. 5 5 3 1 1 0
Sunt cele două opinii corelate? Calculaţi coeficientul de corelaţie Pearson. Este semnificativ? (α = 0.05)

Exerciţiu 9.5.6 Pentru datele de mai jos

X 0 1 2 3 4 5 6 7 8 9 10
Y −0.2 1.2 4.21 9.15 15.6 24.3 35.9 48.31 62.95 80 95
determinaţi coeficienţii de corelaţie Pearson şi Spearman. Care dintre ei este semnificativ la nivelul
α = 0.04?
10. Regresie

10.1 Introducere
Regresia este o metodă statistică utilizată pentru descrierea naturii relaţiei între variabile. De fapt, regresia
stabileşte modul prin care o variabilă depinde de altă variabilă, sau de alte variabile. Analiza regresională
cuprinde tehnici de modelare şi analiză a relaţiei dintre o variabilă dependentă (variabila răspuns) şi una
sau mai multe variabile independente. De asemenea, răspunde la întrebări legate de predicţia valorilor
viitoare ale variabilei răspuns pornind de la o variabilă dată sau mai multe. În unele cazuri se poate preciza
care dintre variabilele de plecare sunt importante în prezicerea variabilei răspuns. Se numeşte variabilă
independentă o variabilă ce poate fi manipulată (numită şi variabilă predictor, stimul sau comandată), iar o
variabilă dependentă (sau variabila prezisă) este variabila pe care dorim să o prezicem, adică o variabilă al
cărei rezultat depinde de observaţiile făcute asupra variabilelor independente. Să luăm exemplul unei cutii
negre (black box) (vezi Figura 10.1). În aceasta cutie intră (sunt înregistrate) informaţiile x1 , x2 , . . . , xm ,
care sunt prelucrate (în timpul prelucrării apar anumiţi parametri, β1 , β2 , . . . , βk ), iar rezultatul final este
înregistrat într-o singură variabila răspuns, y.
Spre exemplu, dorim să stabilim o relaţie între valoarea pensiei (y) în funcţie de numărul de ani lucraţi
(x1 ) şi salariul avut de-alungul carierei (x2 ). Variabilele independente sunt măsurate exact, fără erori.
În timpul prelucrării datelor sau după aceasta pot apăra distorsiuni în sistem, de care putem ţine cont
dacă introducem un parametru ce să cuantifice eroarea ce poate apărea la observarea variabilei y. Se
stabileşte astfel o legătură între o variabilă dependentă, y, şi una sau mai multe variabile independente,
x1 , x2 , . . . , xm , care, în cele mai multe cazuri, are forma matematică generală

y = f (x1 , x2 , . . . , xm ; β1 , β2 , . . . , βk ) + ε, (10.1.1)

unde β1 , β2 , . . . , βk sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi ε este
o perturbaţie aleatoare. În cele mai multe aplicaţii, ε este o eroare de măsură, considerată a fi modelată
printr-o variabilă aleatoare normală de medie zero. Funcţia f se numeşte funcţie de regresie. Dacă aceasta
nu este cunoscută a priori, atunci poate fi greu de determinat iar utilizatorul analizei regresionale va trebui
să o intuiască sau să o aproximeze utilizând metode de tip trial and error (prin încercări). Dacă avem doar
o variabila independentă (un singur x), atunci spunem că avem o regresie simplă. Regresia multiplă face
referire la situaţia în care avem multe variabile independente.
186 Capitolul 10. Regresie

Figura 10.1: Black box.

Dacă observarea variabilei dependente s-ar face fără vreo eroare, atunci relaţia (10.1.1) ar deveni (cazul
ideal):

y = f (x1 , x2 , . . . .., xm ; β1 , β2 , . . . , βk ). (10.1.2)

Forma vectorială a dependenţei (10.1.1) este:

y = f (x; β) + ε. (10.1.3)

Pentru a o analiză completă a regresiei (10.1.1), va trebui sa intuim forma funcţiei f şi apoi să determinăm
(aproximăm) valorile parametrilor de regresie. În acest scop, un experimentalist va face un număr suficient
de observaţii (experimente statistice), în urma cărora va aproxima aceste valori. Dacă notăm cu n numărul
de experimente efectuate, atunci le putem contabiliza pe acestea în următorul sistem de ecuaţii stochastice:

yi = f (x, β) + εi , i = 1, 2, . . . , n. (10.1.4)

În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate N (0, σ ), independente stochastic
două câte două (σ > 0). Astfel, sistemul (10.1.4) cu n ecuaţii stochastice algebrice are necunoscutele
{β j } j şi σ .
În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie aproximaţi
(n < k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă n = k, atunci problema
se reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz posibil, n > k, atunci avem un
sistem cu valori nedeterminate.
În funcţie de forma funcţiei de regresie f , putem avea:
• regresie liniară simplă, în cazul în care avem doar o variabilă independentă şi

f (x; β) = β0 + β1 x.

• regresie liniară multiplă, dacă

f (x; β) = β0 + β1 x1 + β2 x2 + · · · + βm xm .

• regresie pătratică multiplă (cu două variabile), dacă

f (x; β) = β0 + β1 x1 + β2 x2 + β11 x12 + β12 x1 x2 + β22 x22 .

• regresie polinomială, dacă

f (x; β) = β0 + β1 x + β2 x2 + β3 x3 + · · · + βk xk .

Vom avea regresie pătratică pentru k = 2, regresie cubică pentru k = 3 etc.

• regresie exponenţială, când
f (x; β) = β0 eβ1 x .
• regresie logaritmică, dacă
f (x; β) = β0 · logβ1 x.
10.2 Regresie liniară simplă 187

• şi altele.
De remarcat faptul că primele patru modele sunt liniare în parametri, pe când ultimele două nu sunt liniare
în parametri. Modelele determinate de aceste funcţii se vor numi modele de regresie (curbe, suprafeţe etc).
În cadrul analizei regresionale, se cunosc datele de intrare, {xi }i , şi căutăm să estimăm parametrii de
regresie {β j } j şi deviaţia standard a erorilor, σ . Dacă funcţia de regresie f este cunoscută (intuită),
atunci metode statistice folosite pentru estimarea necunoscutelor sunt: metoda verosimilităţii maxime,
metoda celor mai mici pătrate şi metoda lui Bayes. Dacă f este necunoscută, metode ce duc la estimarea
necunoscutelor sunt: metoda celor mai mici pătrate sau metoda minimax.

10.2 Regresie liniară simplă

Este cel mai simplu tip de regresie, în care avem o singură variabilă independentă, x, şi variabila dependentă
y. Să presupunem că ni se dă familia de date bidimensionale {(xi , yi )}i=1, n . Reprezentăm grafic aceste
date într-un sistem x0y (de exemplu, vezi Figura 10.2 (a)) şi observăm o dependenţă aproape liniară a lui
y de x. Dacă valoarea coeficientului de corelaţie liniară, r, este aproape de 1 sau −1 (indicând o corelaţie
liniară strânsă), atunci se pune problema stabilirii unei relaţii numerice exacte între x şi y de forma

y = β0 + β1 x. (10.2.5)

O astfel de dreaptă o vom numi dreapta de regresie a lui y în raport cu x. Pentru un set de date
bidimensionale ca mai sus, putem reprezenta această dreaptă ca în Figura 10.2 (b).

Figura 10.2: Aproximarea unui nor de date prin dreapta de regresie.

Exemplu 10.2.1 Te hotărăşti să cumperi maşina favorită, ce se vinde acum la preţul de 12500 EUR. La
semnarea contractului de vânzare-cumpărare, plăteşti suma iniţială de 15000 RON şi apoi rate lunare de
650 RON, timp de 5 ani. Dacă notăm cu X numărul lunilor până la ultima rată şi cu Y suma totală plătită pe
maşină, atunci între X şi Y există relaţia:

Y = 15000 + 650 X.

În acest exemplu, relaţia între X şi Y este una perfect liniară. O relaţie perfect liniară între datele
bidimensionale {(xi , yi )}i=1, n reprezentate în Figura 10.2 ar însemna că toate acestea s-ar afla pe dreapta
de regresie, ceea ce nu se întâmplă. De cele mai multe ori, datele reale nu urmează o astfel de relaţie
perfectă (spre exemplu, rata lunară poate fi una variabilă, în funcţie de rata de schimb EUR-RON), caz în
care parametrii din dependenţa liniară trebuie să fie estimaţi.
188 Capitolul 10. Regresie

Aşadar, va trebui să ţinem cont şi de eventualele perturbaţii din sistem. Putem presupune astfel că
dependenţa lui y de x este de forma

y = β0 + β1 x + ε, (10.2.6)

cu ε o variabilă aleatoare repartizată N (0, σ ).

Plecând de la {xi , yi }i , ţelul nostru este să găsim o dreaptă ce se apropie cel mai mult (într-un sens bine
precizat) de aceste date statistice. Cu alte cuvinte, va trebui să estimăm valorile parametrilor de regresie
β0 şi β1 . Procedăm după cum urmează.
Înlocuind datele bidimensionale în (10.2.6), avem următorul sistem:

yi = β0 + β1 xi + εi , i = 1, n, (10.2.7)

unde
εi ∼ N (0, σ ), ∀i şi εi sunt independente stochastic.
Deoarece
εi = yi − (β0 + β1 xi ), i = 1, n,
putem interpreta εi ca fiind erorile de aproximare a valorilor observate (yi ) cu cele prezise de dreapta de
regresie (adică de valorile β0 + β1 xi ).
Ţinând cont că εi ∼ N (0, σ ) şi β0 , β1 sunt valori deterministe, din (10.2.7) rezultă că:

yi ∼ N (β0 + β1 xi , σ ), pentru fiecare i,

de unde, probabilitatea ca într-o singură măsurătoare a xi să obţinem răspunsul yi este

Ç å
1 (yi − β0 − β1 xi )2
Pi = √ exp − .
σ 2π 2σ 2

Deoarece {εi }i sunt independente stochastic, probabilitatea ca în cele n observaţii independente să obţinem
vectorul de valori (y1 , y2 , , . . . , yn ) este (funcţia de verosimilitate):
n
Ç n å
1 (yi − β0 − β1 xi )2
L (β0 , β1 , σ ) = ∏ Pi = n exp − ∑ .
i=1 σ (2π)n/2 i=1 2σ 2

Avem de estimat următoarele cantităţi: β0 , β1 şi σ . Pentru aceasta, vom folosi metoda verosimilităţii
maxime. Urmărim să găsim acele valori ale parametrilor β0 , β1 şi σ care maximizează funcţia de
verosimilitate. Aşadar, problema de maximizare este următoarea:

max L (β0 , β1 , σ ).
β0 , β1 , σ

Condiţiile de extrem (impuse pentru ln L) sunt:

∂ ln L 1 n
∂ β0
= ∑ (yi − β0 − β1 xi )
σ 2 i=1
= 0;

∂ ln L 1 n
∂ β1
= ∑ xi (yi − β0 − β1 xi )
σ 2 i=1
= 0;

∂ ln L n 1 n
= − + 2 ∑ (yi − β0 − β1 xi )2 = 0.
∂σ σ σ i=1

Rezolvând primele două ecuaţii în raport cu β0 şi β1 , obţinem estimaţiile:

sxy
β“1 = 2 şi β“0 = y − β“1 x, (10.2.8)
sx
10.2 Regresie liniară simplă 189

unde,

1 n 1 n 1 n 1 n
x= ∑ xi , y= ∑ yi , s2x = ∑ (xi − x)2 , sxy = ∑ (xi − x)(yi − y).
n i=1 n i=1 n − 1 i=1 n − 1 i=1

Astfel, găsim că dreapta de regresie a lui y în raport cu x este aproximată de dreapta:
sxy
y = y − β“1 x + 2 x, (10.2.9)
sx
sau, altfel scrisă,
sxy
y = y+ (x − x). (10.2.10)
s2x

Figura 10.3: Aproximarea dreptei de regresie.

Din ultima condiţie de extrem, găsim că o estimaţie pentru dispersia σ 2 este:

1 n
σ̂ 2 = ∑ (yi − β“0 − β“1 xi )2 . (10.2.11)
n i=1

Însă, estimaţia pentru σ 2 dată prin formula (10.2.11) este una deplasată. În practică, în locul acestei
estimaţii se utilizează următoarea estimaţie nedeplasată:

1 n
c2 =
σ ∑ (yi − β“0 − β“1 xi )2 .
n − 2 i=1
(10.2.12)

Observaţie 10.2.1 (1) Terminologie:

• dreapta de regresie, y = β0 + β1 x, este dreapta ce determină dependenţa liniară a lui y de valorile
lui x, pentru întreaga populaţie de date (dacă acasta există);
• aproximarea dreptei de regresie (en., fitting line), y = β“0 + β“1 x, este dreapta care se apropie cel
mai mult (în sensul metodei celor mai mici pătrate) de datele experimentale (de selecţie) {xi , yi }i .
Această dreaptă este o aproximare a dreptei de regresie;
• Valorile yi se numesc valori observate, iar valorile ybi = β“0 + β“1 xi , i = 1, n se numesc valori
prezise (i = 1, n);
εi = yi − ybi se numesc reziduuri. Un reziduu măsoară deviaţia unui punct observat de la
• valorile b
valoarea prezisă de aproximarea dreptei de regresie (fitting line);
190 Capitolul 10. Regresie
n
• suma pătratelor erorilor, ∑ bεi2 , se notează de obicei prin SSE (sum of squared errors);
i=1
SSE
• eroarea medie pătratică sau reziduală este , notată MSE (mean squared error);
n−2
• rădăcina pătrată a MSE se numeşte eroarea standard a regresiei;
• se poate demonstra că
SSE c2
σ
= (n − 2) ∼ χ 2 (n − 2).
σ2 σ2
cu autorul acestei relaţii se pot găsi intervale de încredere pentru valoarea reală a lui σ 2 .
În formula (10.2.12), (n − 2) reprezintă numărul gradelor de libertate ale variabilei SSE.
(2) Estimaţia dispersiei este o măsură a gradului de împrăştiere a punctelor (x, y) în jurul dreptei de
regresie. Mai subliniem faptul că valorile din formulele (10.2.8) şi (10.2.12) sunt doar estimaţii ale
parametrilor necunoscuţi, şi nu valorile lor exacte. Formula pentru β“1 mai poate fi scrisă sub forma:
sy
β“1 = rxy .
sx
(3) Dacă deviaţia standard σ ar fi cunoscută a priori, atunci putem estima parametrii β0 şi β1 în următorul
mod. Estimăm aceşti doi parametri prin acele valori ce realizează minimumul sumei pătratelor erorilor
SSE. Vom avea astfel problema de minimizare (metoda celor mai mici pătrate):
n
min ∑ (yi − β0 − β1 xi )2 .
β0 , β1 i=1

n
Notând cu F(β0 , β1 ) = ∑ (yi − β0 − β1 xi )2 , condiţiile de extrem sunt:
i=1
n
∂F
= −2 ∑ (yi − β0 − β1 xi ) = 0;
∂ β0 i=1
n
∂F
= −2 ∑ xi (yi − β0 − β1 xi ) = 0.
∂ β1 i=1

Rezolvând acest sistem de ecuaţii algebrice în raport cu β0 şi β1 , găsim soluţiile β“0 şi, respectiv, β“1 de
mai sus. Aceasta dovedeşte că, în cazul în care erorile sunt identic normal repartizate şi independente
stochastic, metoda verosimilităţii maxime este, în fapt, totuna cu metoda celor mai mici pătrate.

10.2.1 Caracteristici ale parametrilor de regresie

Estimaţiile pentru parametrii de regresie β0 şi β1 depind de observaţiile folosite. Pentru a decide dacă
valorile calculate pe baza datelor experimentale {xi , yi }i pot fi considerate valorile potrivite pentru întreaga
populaţie, se vor utiliza testări statistice. Mai jos, vom construi teste statistice cu privire la testarea valorilor
ambilor parametri, β0 şi β1 , însă cel mai uzual test este testul pentru verificarea valorii pantei dreptei de
regresie, β1 .
Mai întâi, vom calcula media şi dispersia pentru fiecare dintre β“1 şi β“0 .
Avem succesiv, á n ë
Å
sxy
ã ∑ (xi − x)(yi − y)
i=1
E(β“1 ) = E 2 =E n .
sx
∑ (xi − x)2
i=1
Aici, xi sunt valori deterministe, iar yi variabile aleatoare. Deoarece
1 n
y = β0 + β1 x + ∑ εi ,
n i=1
10.2 Regresie liniară simplă 191

obţinem că E(y) = β0 + β1 x. Însă,

E(yi − y) = β0 + β1 xi − (β0 + β1 x) = β1 (x1 − x), ∀i.

Aşadar,
n n
∑ (xi − x)E[yi − y] β1 ∑ (xi − x)2
i=1 i=1
E(β“1 ) = n = n = β1 .
2 2
∑ (xi − x) ∑ (xi − x)
i=1 i=1

Pentru β“0 avem:

E(β“0 ) = E(y) − x E(β“1 ) = β0 + β1 x − xβ1 = β0 .
Prin urmare, atât β“0 , cât şi β“1 , sunt estimatori nedeplasaţi pentru β0 şi, respectiv, β1 .
Ä ä Ä ä n
Calculăm acum dispersiile Var β“1 şi Var β“0 . Deoarece (xi − x)y = 0, avem: ∑
i=1
á n ë n

Ä ä ∑ (xi − x)yi ∑ (xi − x)2Var(yi ) σ 2 s2x σ2

i=1
Var β“1 = Var n = i=1 å2 = = . (10.2.13)
s4x s2x
Ç n
2
∑ (xi − x) ∑ (xi − x) 2
i=1 i=1

Utilizând următoarea proprietate,

Var(X +Y ) = Var(X) + 2 cov(X, Y ) +Var(Y ),

putem scrie:
Ä ä Ä ä
Var β“0 = Var(y − β“1 x) = Var(y) − 2 x cov(y, β“1 ) + x2Var β“1 . (10.2.14)

Dar, Ç å
1 n 1 2 σ2
Var(y) = Var ∑ εi = n σ =
n i=1 n2 n
şi
à í
n

Ä ä 1 n
∑ (xi − x)(β0 + β1 xi + εi )
i=1
cov y, β“1 = cov ∑ εi , b
n i=1
∑ (xi − x)2
i=1
á n ë

1 n
∑ (xi − x)εi
i=1
= cov ∑ εi , n
n i=1
∑ (xi − x)2
i=1

Ç n n
å
1
= n cov ∑ εi , ∑ (xi − x)εi
2 i=1 i=1
n ∑ (xi − x)
i=1
n
∑ (xi − x)σ 2
i=1
= n = 0.
2
n ∑ (xi − x)
i=1
192 Capitolul 10. Regresie

Înlocuind în (10.2.14), găsim că

Ç å
Ä ä σ2 σ2 1 x2
Var β“0 = x2 2 + = σ2 + . (10.2.15)
sx n n s2x

c2
Ţinând cont că estimatorii β“0 şi β“1 sunt nedeplasaţi, de relaţiile (10.2.15) şi (10.2.13), şi de estimatorul σ
2
pentru σ , se poate demonstra că:

β“0 − β0
q 2
∼ t(n − 2) (10.2.16)
b 1n + xs2
σ
x

şi

β“1 − β1
σ
b
∼ t(n − 2). (10.2.17)
sx

Aici, am notat prin σ

b cantitatea
s
1 n Ä ä2
b=
σ ∑ yi − β“0 − β“1 xi .
n − 2 i=1

Putem folosi aceste statistici pentru a determina intervale de încredere pentru β0 şi β1 . Un interval de
încredere pentru β0 la nivelul de semnificaţie α este
" #
1 x 2 1 x 2
β“0 − t1− α2 ; n−2 σ
b + , β“0 + t1− α2 ; n−2 σb + . (10.2.18)
n s2x n s2x

Un interval de încredere pentru β1 la nivelul de semnificaţie α este

ï ò
σ
b σ
b
β1 − t1− α2 ; n−2 , β1 + t1− α2 ; n−2
“ “ . (10.2.19)
sx sx

Observaţie 10.2.2 (1) În general, dispersia σ 2 a erorilor de regresie nu este cunoscută a priori. În
cazul în care aceasta este cunoscută, atunci în loc de (10.2.16) şi (10.2.17) am avea:

β“0 − β0 β“1 − β1
q 2
∼ N (0, 1) şi σ ∼ N (0, 1). (10.2.20)
σ 1n + xs2 sx
x

În acest caz, intervalele de încredere pentru β0 şi β1 vor fi similare cu cele din relaţiile (10.2.18) şi
(10.2.19), cu diferenţa că t1− α2 ; n−2 este înlocuit prin z1− α2 . Oricum, pentru n suficient de mare, valorile
t1− α2 ; n−2 şi z1− α2 sunt foarte apropiate.
(2) Coeficientul de determinare R2 (= r2 ) se poate calcula şi folosind următoarea formulă:

s2y/x
R2 = 1 − , (10.2.21)
s2y

unde
1 n 1 n
s2y/x = ∑ (yi − β“0 − β“1 xi )2 , s2y = ∑ (yi − y)2 .
n − 1 i=1 n − 1 i=1
În analiza regresională, coeficientul R2 este folosit pentru a determina cât de bine poate fi construită o
valoare prezisă pe baza valorilor independente.
10.2 Regresie liniară simplă 193

10.2.2 Validarea parametrilor

Test statistic pentru β1

Mai jos prezentăm testul ce verifică dacă β1 ia o valoare dată β10 sau nu, la un nivel de semnificaţie α.
Dispersia erorilor de regresie este necunoscută.
Testăm
(H0 ) : β1 = β10 versus (H1 ) : β1 6= β10 .
Considerăm statistica
β“1 − β1
T= σ
b
,
sx
care urmează repartiţia t(n − 2). Etapele testului sunt următoarele:
• Calculăm valoarea critică
β“1 − β10
T0 = σ
b
.
sx
• Calculăm cuantila de ordin 1 − pentru repartiţia t cu (n − 2) grade de libertate, t1− α2 ; n−2 ;
α
2
• Dacă
|T0 | < t1− α2 ; n−2 , atunci acceptăm ipoteza (H0 );
Dacă
|T0 | ≥ t1− α2 ; n−2 , atunci acceptăm ipoteza (H1 );
Observaţie 10.2.3 (1) O ipoteză alternativă poate fi considerată şi una dintre următoarele:
(H1 )s : β1 < β10 , (H1 )d : β1 > β10 .
(2) Dacă β10 = 0, atunci ipoteza alternativă β1 6= 0 este ipoteza că între x şi y există o dependenţă liniară.

Test statistic pentru β0

Mai jos prezentăm testul ce verifică dacă β0 ia o valoare dată β0∗ sau nu, la un nivel de semnificaţie α.
Dispersia erorilor de regresie este necunoscută.
Testăm
(H0 ) : β0 = β0∗ versus (H1 ) : β0 6= β0∗ .
Considerăm statistica
β“0 − β0
T= q 2
∼ t(n − 2),
b 1n + xs2
σ
x

care urmează repartiţia t(n − 2). Etapele testului sunt următoarele:

• Calculăm valoarea critică
β“0 − β ∗
T0 = q 0 2 ∼ t(n − 2).
σb 1n + xs2
x

• Calculăm cuantila de ordin 1 − pentru repartiţia t cu (n − 2) grade de libertate, t1− α2 ; n−2 ;

α
2
• Dacă
|T0 | < t1− α2 ; n−2 , atunci acceptăm ipoteza (H0 );
Dacă
|T0 | ≥ t1− α2 ; n−2 , atunci acceptăm ipoteza (H1 );
Observaţie 10.2.4 De asemenea, teste unilaterale pot fi considerate şi în cazul testării valorii lui β0 .
În cazul în care σ 2 este cunoscut a priori atunci, graţie relaţiilor (10.2.20), putem utiliza testul Z pentru
testarea ipotezelor de mai sus, atât pentru β0 , cât şi pentru β1 .
194 Capitolul 10. Regresie

10.3 Predicţie prin regresie

[Pe scurt, predicţia prin regresie este precum ai conduce maşina legat la ochi, ghidat de un copilot care
priveşte doar în lunetă]

În anumite cazuri, putem folosi regresia în predicţia unor valori ale variabilei dependente. De exemplu,
putem prezice temperatura într-un anumit oraş plecând de la observaţiile temperaturilor din oraşele
învecinate. Regresia poate fi utilizată pentru predicţie după cum urmează. Să presupunem ca datele pe
care le deţinem, {(xi , yi }i=1, n , pot fi modelate de o dreaptă de regresie de forma (10.2.5). Dată fiind o
valoarea x p ce nu se află printre valorile xi , dar este o valoare cuprinsă între valorile extreme ale variabilei
independente, xmin şi xmax , dorim să prezicem valoarea răspuns,

y p = β0 + β1 x p + ε p .

Dacă β“0 şi β“1 sunt estimaţiile pentru parametrii de regresie β0 , respectiv, β1 , atunci valoarea prezisă
pentru y p pentru un x p observat va fi o valoare ybp de pe dreapta de regresie, dată de formula:

ybp = β“0 + β“1 x p . (10.3.22)

Un interval de încredere pentru y pentru un x p dat, la nivelul de senificaţie α (x p ∈ [xmin , xmax ]) este:
ñ ô
1 (x p − x)2 1 (x p − x)2
ybp − t1− α2 ; n−2 σ
b 1+ + , ybp + t1− α2 ; n−2 σ
b 1+ + . (10.3.23)
n s2x n s2x

Observaţie 10.3.1 (1) De notat faptul că este foarte important ca x p să fie o valoare cuprinsă între xmin
şi xmax . Dacă se foloseşte formula (10.3.22) şi pentru valori ale lui x în afara range-ului valorilor predictor
pentru x, atunci erorile de de aproximarea a lui y cu ybp pot fi foarte mari. De exemplu, dacă în Figura 10.4
(a) am folosi doar primele 9 puncte pentru a construi un model de regresie, atunci acesta poate fi utilizat
doar pentru predicţia valorilor variabilei y pentru orice x în acest range, i.e. x ∈ [0, 10]. Dacă, folosind
dreapta de regresie găsită anterior, am încerca o predicţie pentru x = 19, atunci am găsi că yb(19) ≈ 10, pe
când valoarea observată este y(19) ≈ 6.5, ceea ce determină o eroare foarte mare de aproximare. Mai
mult, dacă ţinem cont şi de următoarele valori observate (vezi Figura 10.4(b)), atunci curba de regresie
pare să nu fie o dreaptă.

Figura 10.4: Predicţie prin extrapolare.

10.4 Exerciţii rezolvate 195

Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale variabilelor independente
ce ies din range se utilizează termenul de prognoză (en., forecasting). Aceasta este folosită des în analiza
seriitor de timp.
(2) Valoarea prezisă ybp nu este una stabilită cu exactitate, ci este doar o medie aşteptată a valorilor
lui y pentru un x p dat. În cazul în care R2 = 1 (coeficientul de determinare), atunci valoarea pentru y
va fi prezisă fără eroare, deoarece toate punctele se află pe dreapta de regresie. În general, punctele
bidimensionale (x, y) se află împrăştiate în jurul dreptei de regresie.
(3) Valoarea ybp este determinată doar pe baza selecţiei date, de aceea, pentru a verifica dacă această valoare
poate fi extrapolată la întreaga populaţie este nevoie de inferenţă statistică (test statistic). Prezentăm, în
continuare, un test ce compară valoarea ybp cu o constantă dată.
Testăm
(H0 ) ybp = y0 versus (H1 ) ybp 6= y0 .
Etapele testului sunt următoarele:
• Estimăm ybp utilizând formula (10.3.22).
• Considerăm statistica
ybp − y
T= q 2
∼ t(n − 2);
σb 1 + 1n + (x ps−x)
2
x

ybp − y0
• Calculez valoarea T0 = q ;
1 (x p −x)2
σ 1 + n + s2
b
x
• Dacă
|T0 | < t1− α2 ; n−2 , atunci acceptăm ipoteza (H0 );
Dacă
|T0 | ≥ t1− α2 ; n−2 , atunci acceptăm ipoteza (H1 );
(4) În concluzie, regresia este o unealtă dibace pentru predicţie. Economiştii care o utilizează pot prezice
cu succes chiar 10 dintre ultimele 2 recesiuni!
Observaţie 10.3.2 Până acum am văzut cum putem estima valoarea lui y folosind pe x. În unele cazuri,
putem inversa rolurile lui x şi y, şi putem vorbi astfel de regresie a lui x în raport cu y. De exemplu,
în Exerciţiul 10.4.1 am putea estima notele la Probabilităţi în funcţie de notele la Statistică. Formulele
obţinute pentru dreapta de regresie a lui x în raport cu y sunt cele găsite anterior pentru dreapta de regresie
a lui y în raport cu x, în care rolurile lui x şi y sunt inversate.

10.4 Exerciţii rezolvate

Exerciţiu 10.4.1 Dorim să determinăm dacă există vreo corelaţie între punctajele la examenul de
Probabilităţi şi cele de la Statistică obţinute de studenţii unui an de studiu. În acest sens, au fost observate
notele obţinute de 10 studenţi la aceste două discipline şi au fost trecute în Tabelul 10.1 de mai jos. Se
cere:
(a) Stabiliţi dacă există o legătură puternică între aceste note (r şi R2 );
(b) Determinaţi dreapta de regresie a notelor de la Statistică în raport cu notele la Probabilităţi şi
desenaţi-o în acelaşi sistem de axe ca şi notele obţinute (scatter plot).
(c) Testaţi dacă există sau nu vreo corelaţie între notele de la Statistică şi Probabilităţi (α = 0.05).

Student A B C D E F G H I J
Probabilităţi 82 36 72 58 70 48 44 94 60 40
Statistică 84 42 50 64 68 54 46 80 60 32

Tabela 10.1: Notele la Statistică şi Probabilităţi.

196 Capitolul 10. Regresie

R: (a) Calculăm r cu formula lui Pearson. Obţinem:

cove (x, y)
r= = 0.8677.
sx · sy
Coeficientul de determinare este R2 = r2 = 0.7528, deci o tărie a legăturii nu foarte bună.
(b) Folosind formulele pentru coeficienţii de regresie, găsim că

β“0 = 10.3816 şi β“1 = 0.7553.

Aproximarea dreptei de regresie va fi y = 0.7528 x + 12.5297 (dreapta desenată cu roşu în Figura 10.5).
(c) Ipotezele de verificat sunt
(H0 ) : P şi S nu sunt corelate vs. (H1 ) : P şi S sunt corelate
echivalentu cu
(H0 ) : ρ =0 vs. (H0 ) : ρ 6= 0.
Folosind testul pentru coeficientul de corelaţie ρ, găsim că
T0 = 4.9361, t0.975,8 = 2.3060,
de unde deducem că ipoteza nulă este respinsă, deci P şi S sunt corelate (adică, valoarea observată pentru
r este semnificativă).

Figura 10.5: Notele şi dreapta de regresie.

Exerciţiu 10.4.2 Considerăm şirul de date:

x = 0.3 0.8 1.2 1.6 2.1 2.4 2.7

y = 3.52 4.53 5.58 6.62 8.27 10.18 11.80

Să se studieze existenţa unei dependenţe între x şi y de forma y = a eb x .

R: Calculăm ln y. Obţinem:

ln y = 1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681

Se observă că r = 0.9988 ≈ 1 (coeficientul de corelaţie între x şi ln y), de unde bănuim că e posibil să avem
o regresie liniară între variabilele x şi ln y. Estimăm coeficienţii de regresie ai lui ln y faţă de x şi găsim:
βˆ0 = 1.1074, βˆ1 = 0.4980. Aşadar, ln y = 0.4980 x + 1.1074, de unde y = e1.1074 e0.4980 x ≈ 3 ex/2 . În
Figura 10.6 am reprezentat grafic datele observate şi aproximările lor.
10.4 Exerciţii rezolvate 197

Figura 10.6: Aproximarea datelor din Exerciţiul 10.4.2

Exerciţiu 10.4.3 Tabelul de mai jos conţine calificativele obţinute de doi elevi de clasa I la cele 9
discipline şcolare.
Discipline A B C D E F G H I
elev I B FB FB B B FB S I FB
elev II S I B FB FB B B S B
(FB = "foarte bine", B = "bine", S = "suficient", I = "insuficient".)
Dorim să stabilim o posibilă legătură între cele două seturi de calificative. Calculaţi un coeficient de
corelaţie potrivit la nivelul de semnificaţie α = 0.05. Comentaţi rezultatul obţinut.
R: Variabilele pentru care avem valorile din tabel sunt de tip calitativ. Pentru a calcula un coeficient de
corelaţie între cele două seturi, avem două variante: ori (I) calculăm coeficientul de corelaţie Pearson
pentru valorile numerice atribuite datelor, sau (II) calculăm coeficientul de corelaţie Spearman.
(I) Atribuim valori numerice datelor, astfel: I = 1, S = 2, B = 3, FB = 4. Datele devin
Discipline A B C D E F G H I
elev I 3 4 4 3 3 4 2 1 4
elev II 2 1 3 4 4 3 3 2 3
Coeficientul de corelaţie Pearson pentru aceste seturi de date este rP = 0.0271. Pentru a testa semnificaţia
sa, folosim testul pentru coeficientul de corelaţie Pearson. Ipotezele de verificat sunt

(H0 ) : rP nu este semnificativ vs. (H1 ) : rP este semnificativ

echivalent cu
(H0 ) : ρ =0 vs. (H0 ) : ρ 6= 0.
Folosind testul pentru coeficientul de corelaţie ρ, găsim că

T0 = 0.0718, t0.975,7 = 2.3646,

de unde deducem că ipoteza nulă este admisă, deci valoarea observată pentru rP nu este semnificativă
statistic.
(II) Pentru a determina coeficientul de corelaţie Spearman, determinăm mai întâi rangurile observaţiilor
în fiecare set. Acestea sunt (ordonăm crescător începând cu I şi terminând cu FB. Pentru valori egale,
rangul atribuit este media rangurilor valorilor egale):

Discipline A B C D E F G H I
elev I 4 7.5 7.5 4 4 7.5 2 1 7.5
elev II 2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5
198 Capitolul 10. Regresie

Calculăm coeficientul de corelaţie Pearson pentru valorile numerice şi obţinem rS = −0.0421. Acesta
este coeficientul de corelaţie Spearman. Pentru a testa semnificaţia sa, folosim testul pentru coeficientul
de corelaţie Pearson. Ipotezele de verificat sunt
(H0 ) : rS nu este semnificativ vs. (H1 ) : rS este semnificativ
echivalent cu
(H0 ) : ρS = 0 vs. (H0 ) : ρS 6= 0.
Folosind testul pentru coeficientul de corelaţie ρ, găsim că
T0 = −0.1114, t0.975,7 = 2.3646,
de unde deducem că ipoteza nulă este admisă, deci valoarea observată pentru r nu este semnificativă
statistic.
În concluzie, calificativele obţinute de cei doi elevi nu sunt corelate.

10.5 Exerciţii propuse

Exerciţiu 10.5.1 Datele din tabelul următor reprezintă o selecţie de observaţii asupra variabilei X.
X 0 1 2 5 7 9 10 11 12 15 20
Y 21 1
Completaţi în tabel un set de valori pentru Y în cazul în care:
(a) coeficientul de corelaţie Spearman este −1,
(b) coeficientul de corelaţie Pearson este −1.

Exerciţiu 10.5.2 Un student ia cu împrumut o carte de la bibliotecă şi observă că pagina de interes este
ruptă pe alocuri. Totuşi, poate citi textul din Figura 10.7. Se cere să se reconstruiască pasajul de text
(i.e., determinaţi y şi dreapta de regresie a lui x faţă de y). De asemenea, calculaţi coeficientul empiric de
corelaţie r şi comentaţi asupra aproximării datelor de seleţie prin dreptele de selecţie.

Figura 10.7: Fragment incomplet dintr-un text

Exerciţiu 10.5.3 Tabelul 10.2 conţine calificativele obţinute de un elev de clasa I la cele 9 discipline, în
fiecare dintre cele două semestre. Să se găsească o măsură a legăturii dintre cele două seturi de calificative
(e.g., coeficientul de corelaţie Spearman).
Discipline A B C D E F G H I
Sem. I FB FB B FB B B B S FB
Sem. II B B B FB FB S B S FB

Tabela 10.2: Calificative din anul I de studiu

Exerciţiu 10.5.4 Se dau următoarele date:
(a) Testaţi dacă ρ = 0 (coeficientul de corelaţie teoretic).
(b) Este faptul că x şi y sunt legate prin relaţia y = x2 în contradicţie cu rezultatul de la punctul (a) (datele
sunt perfect necorelate)?
(c) Calculaţi coeficientul de corelaţie Spearman.
10.5 Exerciţii propuse 199

x −3 −2 −1 0 1 2
y 9 4 1 0 1 4

Exerciţiu 10.5.5 Suntem interesaţi în determinarea unei legături între înălţime şi mărimea la pantof.
Datele din tabelul de mai jos reprezintă observaţii asupra înălţimilor (H) şi a mărimilor la pantof (M)
pentru 10 bărbaţi, aleşi la întâmplare.
H 1.75 1.70 1.80 1.65 1.83 1.73 1.86 1.65 1.68 1.82
M 43 41.5 44 40.5 44.5 41 44.5 39.5 40 43.5
(a) Calculaţi coeficientul de corelaţie Pearson dintre înălţime şi mărimea la pantof. Ce procent din valorile
lui M sunt determinate de valorile lui H
(b) Determinaţi o aproximare pentru dreapta de regresie a lui M faţă de H.
(c) Obţineţi o predicţie a mărimii la pantof pentru un bărbat cu înălţimea 1.78.
3
(d) La nivelul de semnificaţie α = 0.05, testaţi ipoteza că panta dreptei de regresie este .
4
Exerciţiu 10.5.6 Fie şirul de date:

u = 1.0 1.5 2.0 2.5 3.0 3.5 4.0

v = 1.5 4.5 7.5 12.5 17.5 24.5 32.5

Să se studieze existenţa unei dependenţe între u şi v de forma v = a u2 + b.

Exerciţiu 10.5.7 În tabelul următor, se dau câte 5 valori pentru două variabile x şi y, unde y este variabila
independentă. Determinaţi o dreapta de regresie potrivită pentru a calcula
(i) valoarea lui x când y = 2.5;
(ii) valoarea lui y când x = 50;
(iii) Putem prezice valoarea lui y pentru x = 75?

x 46 55 41 58 53
y 1.7 2.1 1.5 2.9 1.9

Exerciţiu 10.5.8 Se măsoară viteza unei maşini, v, în primele 10 secunde după aceasta a început să
accelereze. Aceste date sunt înregistrate în Tabelul 10.8.
t 0 1 2 3 4 5 6 7 8 9 10
v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Figura 10.8: Viteza unei maşini în primele 10 secunde după plecarea de pe loc
Se cere:
(a) Desenaţi diagrama scatter plot;
(b) Determinaţi dreapta de regresie a lui v faţă de t;
(c) Calculaţi coeficientul de corelaţie empirică şi comentaţi asupra validităţii aproximării datelor cu
dreapta de regresie.
Exerciţiu 10.5.9 Dreapta de regresie a variabilei y faţă de variabila x este y = 2 x − 6. Determinaţi
condiţiile în care dreapta de regresie a lui x faţă de y este x = 0.5 y + 3.
Exerciţiu 10.5.10 Tabelul 10.3 conţine numărul de absenţe (A) la Statistică şi notele corespunzătoare
(N) a 15 studenţi.
A 3 1 4 12 11 3 5 2 9 6 4 6 7 6 14
N 9.00 9.50 8.75 4.75 5.50 8.50 6.75 8.25 5.50 6.75 8.00 7.75 6.00 7.00 3.50

Tabela 10.3: Tabel cu absenţe şi note la Statistică.

200 Capitolul 10. Regresie

(a) Calculaţi coeficientul de corelaţie Pearson. Care este semnificaţia acestei valori referitor la relaţia
dintre absenţe şi note?
(b) Determinaţi dreapta de regresie a lui N faţă de A şi desenaţi-o în acelaşi sistem de axe cu datele din
tabel.
(c) Testaţi, la un nivel de semnificaţie α = 0.05, dacă există dovezi suficiente pentru a afirma că între
numărul de absenţe şi notele obţinute există o corelaţie.
Exerciţiu 10.5.11 În Tabelul 10.4 datele reprezintă înălţimile (H) şi masele corporale (M) a 10 fete
dintr-o clasă a unui liceu.
H 179.6 166.8 163.1 180.0 158.4 166.5 165.8 168.1 175.9 160.7
M 61.2 48.2 46 64.4 46.3 54.7 51.4 55.3 65.3 47.9

Tabela 10.4: Înalţimea şi masa corporală a 10 eleve dintr-o clasă.

Suntem interesaţi în prezicerea masei corporale, ştiind înalţimea unei eleve.
(a) Desenaţi diagrama scatter plot a lui H versus M. Bazându-vă pe această diagramă, consideraţi că
metoda regresiei liniare este potrivită în acest caz?
(b) Calculaţi estimaţii ale parametrilor (β0 şi β1 ) de regresie liniară şi reprezentaţi grafic dreapta de
regresie liniară.
(c) Obţineţi o estimare nedeplasată pentru σ 2 .
(d) Testaţi ipoteza nulă (H0 ) : β1 = 0.9.
11. Anexa

Tabela 11.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul afiseaza cuantila zα pentru care
P(X ≤ zα ) = α, unde X ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα .
202 Capitolul 11. Anexa

1 x − t2
Z
Tabela 11.2: Tabel cu valori ale funcţiei lui Laplace, Θ(x) = e 2 dt, x ∈ R.
2π −∞
Pentru a calcula Θ în valori negative, folosim faptul că Θ(−x) = 1 − Θ(x), ∀x > 0
Pentru x < −3, Θ(x) ≈ 0, iar pentru x > 3, Θ(x) ≈ 1.
Fournit les quantiles xp tels que
P(X≤xp )= p
pour X ∼ χ2n
203

n/p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995
n
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
1
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,2
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,3
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2

Tabela 11.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul afişează cuantila χα,
2
n
2 ) = α, unde X ∼ χ 2 (n).
pentru care P(X ≤ χα, n
t-distribution quantiles
204 Capitolul 11. Anexa

df 0.900 0.950 0.975 0.990 0.995 0.999

1 3.078 6.314 12.706 31.821 63.657 318.309
2 1.886 2.920 4.303 6.965 9.925 22.327
3 1.638 2.353 3.182 4.541 5.841 10.215
4 1.533 2.132 2.776 3.747 4.604 7.173
5 1.476 2.015 2.571 3.365 4.032 5.893
6 1.440 1.943 2.447 3.143 3.707 5.208
7 1.415 1.895 2.365 2.998 3.499 4.785
8 1.397 1.860 2.306 2.896 3.355 4.501
9 1.383 1.833 2.262 2.821 3.250 4.297
10 1.372 1.812 2.228 2.764 3.169 4.144
11 1.363 1.796 2.201 2.718 3.106 4.025
12 1.356 1.782 2.179 2.681 3.055 3.930
13 1.350 1.771 2.160 2.650 3.012 3.852
14 1.345 1.761 2.145 2.624 2.977 3.787
15 1.341 1.753 2.131 2.602 2.947 3.733
16 1.337 1.746 2.120 2.583 2.921 3.686
17 1.333 1.740 2.110 2.567 2.898 3.646
18 1.330 1.734 2.101 2.552 2.878 3.610
19 1.328 1.729 2.093 2.539 2.861 3.579
20 1.325 1.725 2.086 2.528 2.845 3.552
21 1.323 1.721 2.080 2.518 2.831 3.527
22 1.321 1.717 2.074 2.508 2.819 3.505
23 1.319 1.714 2.069 2.500 2.807 3.485
24 1.318 1.711 2.064 2.492 2.797 3.467
25 1.316 1.708 2.060 2.485 2.787 3.450
26 1.315 1.706 2.056 2.479 2.779 3.435
27 1.314 1.703 2.052 2.473 2.771 3.421
28 1.313 1.701 2.048 2.467 2.763 3.408
29 1.311 1.699 2.045 2.462 2.756 3.396
30 1.310 1.697 2.042 2.457 2.750 3.385
31 1.309 1.696 2.040 2.453 2.744 3.375
32 1.309 1.694 2.037 2.449 2.738 3.365
33 1.308 1.692 2.035 2.445 2.733 3.356
34 1.307 1.691 2.032 2.441 2.728 3.348
35 1.306 1.690 2.030 2.438 2.724 3.340
36 1.306 1.688 2.028 2.434 2.719 3.333
37 1.305 1.687 2.026 2.431 2.715 3.326
38 1.304 1.686 2.024 2.429 2.712 3.319
39 1.304 1.685 2.023 2.426 2.708 3.313
40 1.303 1.684 2.021 2.423 2.704 3.307
∞ 1.282 1.645 1.960 2.326 2.576 3.090
Tabela 11.4: Cuantile pentru repartiţia t(n). Pentru un α şi un n ≥ 1, tabelul afişează cuantila tα, n
pentru care P(X ≤ tα, n ) = α, unde X ∼ t(n). Pentru 0 < α < 1, n ≥ 1, avem că tα, n = −t1−α, n .
205

Tabela 11.5: Cuantile pentru repartitia F (m, n). Pentru un α si un n, tabelul afişează cuantila fα,m, n
pentru care P(X ≤ fα, m, n ) = α, unde X ∼ F (m, n). De asemenea, fα,m, n = 1
f1−α,n, m .
Bibliografie

[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[2] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[3] Gheorghe Ciucu, Virgil Craiu, Teoria estimaţiei şi verificarea ipotezelor statistice, Editura Didactică
şi Pedagogică, Bucureşti, 1968.

[4] Virgil Craiu, Teoria probabilităţilor cu exemple şi probleme, Editura Fundaţiei "Romania de Mâine",
Bucureşti, 1997.

[5] G. Ciucu, V. Craiu, I. Săcuiu, Probleme de teoria probabilităţilor, Ediţia a II-a, Editura Tehnică,
Bucureşti, 1974.

[6] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.

[7] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),
second edition, Springer, 2012.

[8] I. Florescu, C.Tudor, Handbook of Probability, Wiley Handbooks in Applied Statistics, Wiley, 2013.

[9] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, Prentice
Hall, 6th edition, 2004.

[10] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mică enciclopedie de
statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985.

[11] Gheorghe Mihoc, N. Micu, Matematică, elemente de teoria probabilităţilor, Manual pentru clasa a
XII-a, EDP Bucureşti , 1988.

[12] Octavian Petruş, Probabilităţi şi Statistica matematică - Computer Applications, Iaşi, 2000.

[13] Sheldon M. Ross, A First Course in Probability, Eighth Edition, Pearson, 2010.

[14] M.R. Spiegel, L.J. Stephens, Schaum’s Outline of Statistics, McGraw-Hill, 2007.
208 BIBLIOGRAFIE

[15] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum’s Outline Series, 2nd ed.,
The McGraw-Hill Companies, Inc., 1998.

[16] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econometrics, Schaum’s
Outline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002.

[17] Iulian Stoleriu, Statistică prin M ATLAB. MatrixRom, Bucureşti, 2010.

[18] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Mathematics and its
Applications), Springer Verlag, 1987.

[19] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge University
Press, 2001.
Glosar

alegere aleatoare uniformă, 28 cuartile, 74

amplitudinea, 114, 137
aranjamente, 11 date continue, 100, 103
date discrete, 99, 103
box-and-whisker plot, 117 date interval, 100
date raport, 100
câmp clasic de probabilitate, 19 decile, 74
caracteristică, 98 densităţi de frecvenţă, 109
cauzalitate, 177, 179 deplasarea unui estimator, 150
caz favorabil, 20 deranjamente, 11
centile, 74 deviaţie standard de selecţie, 136
clasă mediană, 118 deviaţie standard empirică, 136
clopotul lui Gauss, 80 deviaţia standard, 114
coeficient de aplatizare, 73, 115 diagrama cuantilă-cuantilă, 112
coeficient de asimetrie, 73, 115 diagrama probabilitate-probabilitate, 112
coeficient de corelaţie, 114 dispersia, 114
coeficient de corelaţie empirică, 177 dispersia de selecţie, 135
coeficient de corelaţie teoretic, 176 dispersia empirică, 135, 136
coeficientul de corelaţie Spearman, 180 dispersia teoretică, 134
coeficientul de corelaţie empiric, 112 dispersia teoretică, 71
coeficientul de determinare, 179 dispersie de selecţie modificată, 136
coeficientul de variaţie , 114 distribuţie empirică de selecţie, 104
colectivitate normală, 138
colectivitate statistică, 98 eşantion, 133
combinări, 12 echiprobabile, 22
combinări cu repetiţie, 12 eroare în medie pătratică, 150
corelaţia, 114, 176 eroarea standard, 135
corelaţia empirică, 177 estimator nedeplasat, 150
corelaţia teoretică, 176 eveniment P− nul, 28
corelatie, 175 eveniment aleator, 20
cuantile, 73 eveniment aleator compus, 20
210 GLOSAR

eveniment aleator elementar, 20 predicţie, 194

eveniment contrar, 20 principiul aditivităţii, 7
eveniment imposibil, 20 principiul includerii-excluderii, 8
eveniment sigur, 20 principiul multiplicării, 9
evenimente dependente, 54 probă, 20
evenimente echiprobabile, 21 probabilitate, 22
evenimente incompatibile, 21 probabilitate de risc, 152
evenimente independente, 54 probabilitate subiectivă, 57
experienţă aleatoare, 19 prognoză, 195
extrapolare, 194
recensământ, 101
frecvenţă cumulată, 106 regresie, 185
frecvenţa absolută, 26, 104 regresie liniară simplă, 187
frecvenţa cumulată, 104 regula celor 3σ , 76
frecvenţa relativă cumulată, 104 repartiţia mediei de selecţie, 138
frecvenţa relativă, 104 repartiţia normală standard, 69
frontierele unei clase, 111 repartiţia χ 2 , 82
funcţia de probabilitate (de frecvenţă), 68 repartiţia normală standard, 80
funcţie de repartiţie, 134 riscul beneficiarului, 164
funcţie de repartiţie (cumulată), 75 riscul furnizorului, 164
funcţie de repartiţie complementară, 76
funcţie de repartiţie empirică, 115 scatter plot, 175
schema bilei nerevenite, 35
histogramă, 108 schema bilei revenite, 32
schema lui Poisson, 36
inegalitatea lui Cebîşev, 76 schema multinomială, 34
interval de încredere, 152 selecţie, 101
ipoteză statistică, 163 skewness, 73, 115
spaţiu de selecţie, 19
kurtosis, 73, 115 Statistică, 96
lipsă de memorie, 79, 81 statistică, 133, 134
statistica, 134
media, 113 statistici de ordine, 136
media de selecţie, 134 stem-and-leaf, 106
media empirică, 135
tabel de frecvenţe, 104
media teoretică, 134
teorema limită centrală, 84, 86
media teoretică, 71
test bilateral, 165
mediana, 74
test de concordanţă, 169
metoda Monte Carlo, 29
test statistic, 165
modul, 74
test unilateral dreapta, 165
momente, 113
test unilateral stânga, 165
momentele unei variabilă aleatoare , 72
UMVUE, 151
nivel de semnificaţie, 152, 164
variabilă aleatoare independente, 70
ogivă, 112
variabilă predictor , 175
P-valoare, 164 variabilă răspuns, 175
partiţie, 7 variabilă aleatoare, 63, 98
permutări, 9 variabila aleatoare standardizată, 72
permutări cu repetiţie, 10 variabile aleatoare identic repartizate, 83
populaţie statistică, 98

S-ar putea să vă placă și

Carte MS - I. Meghea PDF
Încă nu există evaluări
Carte MS - I. Meghea PDF
243 pagini
Probabilitati Si Statistica
0% (1)
Probabilitati Si Statistica
327 pagini
Modelare Si Simulare Anul III Profilul Aia (Prof. Romica Trandafir, Iuliana Iatan)
Încă nu există evaluări
Modelare Si Simulare Anul III Profilul Aia (Prof. Romica Trandafir, Iuliana Iatan)
11 pagini
Retele Bayesiene
0% (1)
Retele Bayesiene
11 pagini
Tehnologii de Elaborare A Proiectelor: Ovidiu Gheorghies Adriana Gheorghies
Încă nu există evaluări
Tehnologii de Elaborare A Proiectelor: Ovidiu Gheorghies Adriana Gheorghies
81 pagini
Proiectarea Algoritmilor
Încă nu există evaluări
Proiectarea Algoritmilor
167 pagini
Bazele Statisticii Teoria Probabilitatil
Încă nu există evaluări
Bazele Statisticii Teoria Probabilitatil
126 pagini
Laborator NR 4 PIVI Intro Matlab Si Scilab
Încă nu există evaluări
Laborator NR 4 PIVI Intro Matlab Si Scilab
8 pagini
Elemente de Logică Fuzzy
Încă nu există evaluări
Elemente de Logică Fuzzy
83 pagini
Calcul Variational PDF
Încă nu există evaluări
Calcul Variational PDF
136 pagini
Seminar TP
Încă nu există evaluări
Seminar TP
217 pagini
Culegere Sded PDF
Încă nu există evaluări
Culegere Sded PDF
127 pagini
Probabilitati Oprina Simion
Încă nu există evaluări
Probabilitati Oprina Simion
128 pagini
Laborator 2 - TS PDF
Încă nu există evaluări
Laborator 2 - TS PDF
2 pagini
Carte Statistica Probleme Aft 2015 PDF
Încă nu există evaluări
Carte Statistica Probleme Aft 2015 PDF
223 pagini
Carte - Metode de Calcul Numeric in Automatic A
Încă nu există evaluări
Carte - Metode de Calcul Numeric in Automatic A
177 pagini
IndrumarLaboratorInteligentaArtificiala PDF
Încă nu există evaluări
IndrumarLaboratorInteligentaArtificiala PDF
36 pagini
SICA13 - Fuzzy
Încă nu există evaluări
SICA13 - Fuzzy
33 pagini
Carte Matlab 2008
100% (2)
Carte Matlab 2008
170 pagini
Lanturi Markov Si Sisteme de Asteptare
100% (1)
Lanturi Markov Si Sisteme de Asteptare
87 pagini
Limbaje Formale Curs
Încă nu există evaluări
Limbaje Formale Curs
55 pagini
Modelarea Sistemelor Dinamice Cu Evenimente Discrete
100% (1)
Modelarea Sistemelor Dinamice Cu Evenimente Discrete
28 pagini
Algoritmi Genetici
Încă nu există evaluări
Algoritmi Genetici
19 pagini
Alg Graf 1 - Curs ID UI1 Si UI2 PDF
Încă nu există evaluări
Alg Graf 1 - Curs ID UI1 Si UI2 PDF
75 pagini
Grafuri Planare
Încă nu există evaluări
Grafuri Planare
65 pagini
Defuzificarea
Încă nu există evaluări
Defuzificarea
12 pagini
Cap 07 Logica Fuzzy
Încă nu există evaluări
Cap 07 Logica Fuzzy
26 pagini
C9 Definire SDED - Limbaje Si Automate
Încă nu există evaluări
C9 Definire SDED - Limbaje Si Automate
18 pagini
Indrumar
Încă nu există evaluări
Indrumar
194 pagini
Programa Curs Logica Si Teoria Multimilor
Încă nu există evaluări
Programa Curs Logica Si Teoria Multimilor
5 pagini
Tratarea Imaginilor
Încă nu există evaluări
Tratarea Imaginilor
101 pagini
Indrumar Laborator MSF PDF
Încă nu există evaluări
Indrumar Laborator MSF PDF
61 pagini
Clasificator Bayes
Încă nu există evaluări
Clasificator Bayes
8 pagini
Teoria Probabilitatilor Si Statistica
Încă nu există evaluări
Teoria Probabilitatilor Si Statistica
223 pagini
Siateme Fuzzy Si Retele Neuronale
Încă nu există evaluări
Siateme Fuzzy Si Retele Neuronale
104 pagini
Prezentare Introducere
Încă nu există evaluări
Prezentare Introducere
21 pagini
Sisteme Multiagent
Încă nu există evaluări
Sisteme Multiagent
501 pagini
Statistica Universitara, Facultatea CSIE
Încă nu există evaluări
Statistica Universitara, Facultatea CSIE
111 pagini
Fcie Note de Curs
100% (1)
Fcie Note de Curs
122 pagini
Metoda de Selectionare Bazata Pe Fuzzy Logic
Încă nu există evaluări
Metoda de Selectionare Bazata Pe Fuzzy Logic
27 pagini
Probabilitati - Statistica (Note de Curs-Seminar)
Încă nu există evaluări
Probabilitati - Statistica (Note de Curs-Seminar)
184 pagini
Geostatistica 2022
Încă nu există evaluări
Geostatistica 2022
136 pagini
Statistica Prin Matlab
67% (3)
Statistica Prin Matlab
206 pagini
Mstat4 PDF
Încă nu există evaluări
Mstat4 PDF
340 pagini
Probabilitati
100% (1)
Probabilitati
111 pagini
Iulian STOLERIU Geostatistcă 2019
Încă nu există evaluări
Iulian STOLERIU Geostatistcă 2019
126 pagini
Curs - Statistica Matematica - UTCB
Încă nu există evaluări
Curs - Statistica Matematica - UTCB
132 pagini
Curs Proba Stat 2021
Încă nu există evaluări
Curs Proba Stat 2021
119 pagini
Curs PSM PDF
Încă nu există evaluări
Curs PSM PDF
166 pagini
Carte FinalF
Încă nu există evaluări
Carte FinalF
291 pagini
Prelucrarea Statistic A A Semnalelor
Încă nu există evaluări
Prelucrarea Statistic A A Semnalelor
179 pagini
Curs Matematica Aplicata
Încă nu există evaluări
Curs Matematica Aplicata
163 pagini
673-9
Încă nu există evaluări
673-9
150 pagini
Matematica Si Statistica-1
Încă nu există evaluări
Matematica Si Statistica-1
2 pagini
Matematica in Economie ID Semestru 1
Încă nu există evaluări
Matematica in Economie ID Semestru 1
93 pagini
Curs Biostat
100% (1)
Curs Biostat
30 pagini
Statistical Package For Social Sciences Spss Teorie Si Aplicatii - Cuprins
Încă nu există evaluări
Statistical Package For Social Sciences Spss Teorie Si Aplicatii - Cuprins
9 pagini
Matematica/ Probabilitati Si Statistica
86% (7)
Matematica/ Probabilitati Si Statistica
302 pagini
Curs1 Statistica - Populatii, Estimatori, Parametri
Încă nu există evaluări
Curs1 Statistica - Populatii, Estimatori, Parametri
9 pagini
MA Curs 1 Statistica
Încă nu există evaluări
MA Curs 1 Statistica
8 pagini