0% au considerat acest document util (0 voturi)
44 vizualizări210 pagini

PSM2022

Încărcat de

nadiaiulya
Drepturi de autor
© © All Rights Reserved
Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.
Formate disponibile
Descărcați ca PDF, TXT sau citiți online pe Scribd
0% au considerat acest document util (0 voturi)
44 vizualizări210 pagini

PSM2022

Încărcat de

nadiaiulya
Drepturi de autor
© © All Rights Reserved
Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.
Formate disponibile
Descărcați ca PDF, TXT sau citiți online pe Scribd
Sunteți pe pagina 1/ 210

Teoria Probabilităţilor şi Statistică Matematică

Note de curs

Iulian Stoleriu
Copyright © 2021 Iulian Stoleriu
Cuprins

1 Elemente de combinatorică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Noţiuni şi exemple 7
1.2 Exerciţii rezolvate 15
1.3 Exerciţii propuse 17

2 Probabilităţi. Definiţii. Proprietăţi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19


2.1 Experimente şi evenimente aleatoare 19
2.2 Probabilitatea definită clasic 22
2.3 Alte modalităţi de a defini probabilitatea 26
2.3.1 Probabilitatea definită frecvenţial (sau statistic) . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.2 Probabilitate geometrică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3 Metoda Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Scheme probabilistice 31
2.4.1 Schema bilei revenite (schema binomială) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.2 Schema bilei nerevenite (schema hipergeometrică) . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4.3 Schema lui Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5 Exerciţii rezolvate 38
2.6 Exerciţii propuse 42

3 Probabilităţi condiţionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1 Definiţii 49
3.2 Noţiunea de independenţă a evenimentelor 54
3.3 Probabilitatea ca o măsură a convingerii (Bayes) 56
3.4 Exerciţii rezolvate 57
3.5 Exerciţii propuse 61

4 Variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1 Introducere 63
4.2 Variabile aleatoare discrete 64
4.2.1 Operaţii cu variabile aleatoare discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3 Variabile aleatoare de tip continuu 69
4.4 Independenţa variabilelor aleatoare 70
4.5 Caracteristici numerice ale unei variabile aleatoare 71
4.5.1 Media (sau valoarea aşteptată) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.2 Dispersia (varianţa) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.3 Standardizarea unei variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5.4 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5.5 Cuantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.6 Modul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 Funcţia de repartiţie 75
4.6.1 Repartiţii discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.6.2 Repartiţii continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.7 Teoreme limită 83
4.8 Exerciţii rezolvate 87
4.9 Exerciţii propuse 92

5 Elemente de Statistică descriptivă . . . . . . . . . . . . . . . . . . . . . . . . . . . 95


5.1 Elemente introductive de Statistică 95
5.1.1 Scurt istoric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.2 Modelare statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1.3 Populaţie statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.1.4 Variabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.1.5 Date statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.1.6 Eşantionare (selecţie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2 Organizarea şi descrierea datelor statistice 102
5.2.1 Gruparea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.3 Reprezentarea datelor statistice 106
5.3.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.3.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.3.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.3.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3.6 Poligonul frecvenţelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3.7 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.8 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.9 Diagrama scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.4 Măsuri descriptive ale datelor statistice 113
5.4.1 Date negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.4.2 Date grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.5 Transformări de date 119
5.6 Exerciţii rezolvate 121
5.7 Exerciţii propuse 128

6 Noţiuni din Teoria selecţiei statistice . . . . . . . . . . . . . . . . . . . . . . . 133


6.1 Introducere 133
6.1.1 Statistici uzuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.2 Statistici de ordine 136
6.3 Selecţii aleatoare dintr-o colectivitate normală 138
6.4 Exerciţii rezolvate 142
6.5 Exerciţii propuse 147

7 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
7.1 Estimatori punctuali 150
7.1.1 Exemple de estimatori punctuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
7.2 Estimarea parametrilor prin intervale de încredere 152
7.2.1 Intervale de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.2.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.2.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7.3 Exerciţii rezolvate 157
7.4 Exerciţii propuse 161

8 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163


8.1 Tipuri de teste statistice 165
8.1.1 Testul t pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
8.1.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.1.3 Test pentru proporţie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
8.1.4 Testul χ 2 de concordanţă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.2 Exerciţii rezolvate 170
8.3 Exerciţii propuse 172

9 Corelaţie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.1 Introducere 175
9.2 Corelaţie şi coeficient de corelaţie 176
9.2.1 Test statistic pentru coeficientul de corelaţie . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
9.3 Coeficientul de corelaţie Spearman 180
9.4 Exerciţii rezolvate 182
9.5 Exerciţii propuse 183
6

10 Regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.1 Introducere 185
10.2 Regresie liniară simplă 187
10.2.1 Caracteristici ale parametrilor de regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
10.2.2 Validarea parametrilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
10.3 Predicţie prin regresie 194
10.4 Exerciţii rezolvate 195
10.5 Exerciţii propuse 198

11 Anexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
1. Elemente de combinatorică

1.1 Noţiuni şi exemple


Combinatorica este o ramură a Matematicii care se preocupă de probleme de selecţie, de aranjare
şi de numărare a elementelor unei mulţimi finite. Metodele combinatorice sunt folosite în calculul
probabilităţilor, în Statistică, în Teoria grafurilor, în Criptografie, în Genetică, în proiectarea
experimentelor medicale etc.
În cele ce urmează, pentru o mulţime A, vom nota prin |A| numărul de elemente. Numărul de
elemente ale unei mulţimi se mai numeşte şi cardinalul mulţimii. Vom prezenta mai jos câteva
reguli elementare de numărare din Combinatorică.

1. Principiul aditivităţii (sau regula sumei)


(1) Dacă A şi B sunt două mulţimi disjuncte, astfel încât |A| = m, |B| =
n (m, n ∈ N), atunci numărul de elemente din reuniunea A ∪ B este |A ∪ B| =
m + n.
(2) Fie A1 , A2 , . . . , An submulţimi ale unei mulţimi finite A, astfel încât
A = A1 ∪ A2 ∪ . . . ∪ An şi Ai ∩ A j = ∅, ∀i 6= j (în acest caz, vom spune că
mulţimile {Ai }ni=1 formează o partiţie a mulţimii A). Atunci,

|A| = |A1 ∪ A2 ∪ . . . ∪ An | = |A1 | + |A2 | + . . . + |An |.

n
[
În continuare, vom utiliza următoarea notaţie prescurtată: Ai = A1 ∪ A2 ∪ . . . ∪ An .
i=1
Enunţul (1) se traduce astfel: dacă mulţimea A are m elemente şi mulţimea B are n elemente,
atunci mulţimea A ∪ B va avea m + n elemente. Enunţul (2) se interpretează similar.
Exemplu 1.1.1 La un adăpost de animale, există 11 posibilităţi de a alege un câine, 9 posibilităţi
de a alege o pisică şi 5 posibilităţi de a alege o pasăre. În câte moduri îţi poţi alege un pet de la
acest adăpost? . R: 11+9+5 = 25.
Exemplu 1.1.2 Pe o foaie dintr-un caiet de Matematică desenaţi un pătrat cu latura 4. Câte
pătrate distincte, formate de aliniamentul caietului, pot fi observate în interiorul acestui pătrat,
inclusiv pătratul desenat?
8 Capitolul 1. Elemente de combinatorică

R: Pentru fiecare i ∈ {1, 2, 3, 4}, notam cu Ai mulţimea tuturor pătratelor de latură egală cu i.
Atunci, |A1 | = 42 = 16, |A2 | = 32 = 9, |A3 | = 22 = 4, |A4 | = 12 = 1 şi

|A1 ∪ A2 ∪ A3 ∪ A4 | = 16 + 9 + 4 + 1 = 30.

Exemplu 1.1.3
(a) Câte pătrate cu varfurile in nodurile retelei alaturate putem construi?
. R: 50
(b) Aceeasi cerinta ca la punctul (a), dar pentru o retea cu n × n puncte.
R: N = (n − 1)2 · 1 + (n − 2)2 · 2 + (n − 3)2 · 3 + . . . + 12 · (n − 1), unde n
este numarul de noduri din reţea. Aici, (n − k)2 = nr. pătratelor de latură k.
Pentru fiecare pătrat de latură k există alte k − 1 pătrate înscrise în el, plus
pătratul însuşi.

2. Principiul includerii-excluderii

(1) Fie A şi B două mulţimi astfel încât |A ∩ B| 6= ∅, atunci

|A ∪ B| = |A| + |B| − |A ∩ B|.

(2) În general, dacă A1 , A2 , . . . , An sunt mulţimi finite de elemente, nu neapărat disjuncte, atunci
cardinalul reuniunii lor este:
n n
Ai ∩ A j ∩ Ak − . . . + (−1)n−1 |A1 ∩ · · · ∩ An |
[
Ai = ∑ |Ai | − ∑ Ai ∩ A j + ∑
i=1 i=1 1≤i< j≤n 1≤i< j<k≤n

În particular, pentru n = 3, avem:

|A ∪ B ∪C| = |A| + |B| + |C| − |A ∩ B| − |A ∩C| − |B ∩C| + |A ∩ B ∩C|.

Exemplu 1.1.4 Un coş conţine trei tipuri de fructe (mere, pere, gutui). Care este numărul minim
de fructe din coş astfel încât el să conţină ori cel puţin 9 mere, ori cel puţin 7 pere, ori cel puţin 5
gutui? (există fructe la discreţie şi ordinea fructelor în coş nu este importantă)
. R: N = 9 + 7 + 5 − 1 − 1 − 1 + 1 = 19.
Exemplu 1.1.5 Câte numere întregi dintre 1 şi 100 sunt divizibile cu 2 sau 3?
R: Utilizăm principiul includerii-excluderii. Dacă N este mulţimea numerelor întregi căutate,
N este mulţimea complementară lui N şi Dk este mulţimea numerelor naturale până la 100,
1.1 Noţiuni şi exemple 9

divizibile cu k (k = 2, 3), atunci căutăm cardinalul mulţimiii |D2 ∪ D3 |. Acesta este:


ï ò ï ò ï ò
100 100 100
|D2 ∪ D3 | = |D2 | + |D3 | − |D2 ∩ D3 | = + − = 50 + 33 − 16 = 67.
2 3 6

3. Principiul multiplicării (sau regula produsului)


Fie A1 , A2 , . . . , An mulţimi finite, cu |Ai | = mi , i = 1, 2, . . . , n.
Atunci cardinalul produsului cartezian A1 × A2 × . . . × An este:

|A1 × A2 × . . . × An | = |A1 | · |A2 | · . . . · |An |.

Traducerea în limba română pentru cazul k = 2:

• Dacă există m modalităţi de a face ceva şi există n modalităţi de a face altceva, atunci există
m · n modalităţi de a afectua ambele acţiuni.
• În general, dacă există mi (i = 1, 2, , . . . , n) modalităţi de a alege obiectul xi , atunci există
m1 · m2 · . . . · mn modalităţi de a alege toate obiectele m1 , m2 , . . . , mn .

Exemplu 1.1.6 La o pizzeria, se poate comanda pizza cu blat subţire sau gros. De asemenea,
există 17 alegeri posibile de topping. În câte moduri îşi poate comanda cineva o pizza de la
această unitate? R: 2 · 17 = 34
Exemplu 1.1.7 Într-o clasa de elevi sunt 10 fete şi 15 baieti. In câte moduri poate fi aleasa o
pereche baiat-fata pentru a reprezenta clasa la o adunare? R: 10 · 15 = 150
Exemplu 1.1.8 Dacă există doar 3 drumuri carea leaga orasul Iasi de Vaslui şi 4 drumuri care
leaga Vaslui de Galati, determinati câte rute posibile leaga orasul Iasi de Galati, trecand prin
Vaslui. R: 3 · 4 = 12
Exemplu 1.1.9 Şase prieteni vor să se aşeze pe acelaşi rând la cinema. Dacă sunt disponibile
doar şase locuri, în câte moduri se pot aşeza? R: 6 · 5 · 4 · 3 · 2 · 1 = 6! = 720
Exemplu 1.1.10 Dacă A = {a1 , a2 , . . . , an }, atunci cardinalul mulţimii părţilor lui A, inclusiv ∅
(mulţimea vidă) şi A, este |P(A)| = 2n .
R: Mulţimea părţilor conţine sau nu fiecare element din A. Aşadar, pentru fiecare element al lui
A există două posibilităţi: el aparţine lui P(A) sau nu aparţine. Altfel spus, fiecare element din
A poate fi ales în 2 moduri. Cum avem n elemente în A, în total vor fi 2n elemente în P(A).

4. Permutări

Fie A = {x1 , x2 , . . . , xn } o mulţime finită de elemente distincte.

Un n−tuplu ordonat format cu elementele lui A, fără repetiţie, se numeşte


permutare a elementelor lui A. Numărul tuturor permutărilor mulţimii A se
notează cu Pn şi este dat de Pn = n!

Numărul permutărilor posibile ale n obiecte distincte aşezate în cerc, fără repetiţie, (numite
permutări circulare) este Pn−1 = (n − 1)!
10 Capitolul 1. Elemente de combinatorică

Fie A o mulţime cu n elemente (nu neapărat distincte) şi fie k ∈ Z, k ≥ 2. Vom numi partiţie
ordonată a mulţimii A în k submulţimi k-tuplul (A1 , A2 , . . . , Ak ) astfel încât
k
[
A= Ai şi Ai ∩ A j = ∅, ∀i 6= j.
i=1

k
Presupunem că |Ai | = ni , cu ∑ ni = n.
i=1

Numărul de partiţii (numite permutări cu repetiţie) posibile ale unei mulţimi cu n elemente este
n!
Pnn1 ,n2 ,...,nk =
n1 !n2 ! · . . . · nk !

!! Acest număr se mai numeşte şi coeficient multinomial şi este coeficientul lui x n1 n2 nk
1 · x2 · . . . · xk
din dezvoltarea lui (x1 + x2 + . . . + xk )n .

Exemplu 1.1.11 În câte moduri pot fi aranjate 7 persoane in linie, pe un singur rand? P7 = 7!
Exemplu 1.1.12 (i) Câte numere de patru cifre pot fi formate cu elementele multimii {1, 2, 3, 4},
astfel încât fiecare cifra apare doar o singura data?
(ii) Dar cu elementele multimii {0, 2, 3, 4}, astfel încât fiecare cifra sa apara doar o singura
data?
R: (i) P(4) = 4! = 24 numere. (ii) Dintre toate permutarile posibile (P(4) = 4! = 24) vom
scadea acele ‘‘numere’’ care incep cu cifra 0, care sunt in numar de P(3) = 3! = 6. Astfel, vom
avea 4! − 3! = 18 numere.
Exemplu 1.1.13 În câte moduri putem aranja n obiecte în p cutii distincte, astfel încât prima
cutie conţine n1 obiecte, a doua cutie conţine n2 obiecte, ş.a.m.d., ultima cutie conţine n p obiecte,
unde n1 + n2 + . . . + n p = n.
R: Acesta este numărul permutărilor cu repetiţie, şi anume:
n!
.
n1 ! n2 ! . . . , n p !

Altfel, putem raţiona după cum urmează: există Cnn1 posibilităţi de a aranja obiectele în prima
cutie; de îndată ce primele n1 obiecte au fost aranjate în prima cutie, cele n − n1 obiecte rămase
n2
pot fi aranjate în Cn−n 1
moduri în a două cutie, apoi cele n − n1 − n2 obiecte rămase pot fi aranjate
n3
în Cn−n1 −n2 moduri în a treia cutie etc. Folosind principiul multiplicării, găsim că numărul total
de aranjamente este

n2 n3 n! (n − n1 )! (n − n1 − n2 )! nk !
Cnn1 ·Cn−n ·Cn−n1 −n2
· . . . ·Cnnkk = · · ·...·
1
n1 !(n − n1 )! n2 !(n − n1 − n2 )! n3 !(n − n1 − n2 − n3 )! nk !
n!
=
n1 !n2 ! · · · nk !
1.1 Noţiuni şi exemple 11

5. Aranjamente

Pentru 1 ≤ k ≤ n, numărul de k-tupluri ordonate, cu repetiţie, formate


cu elementele mulţimii A (cu n elemente) este nk . Menţionăm că într-un
astfel de k-tuplu ordonat elementele mulţimii A pot fi repetate. Aceste
k-tupluri reprezintă secvenţe ordonate cu k elemente, posibil cu repetiţie
a elementelor, formate din elementele lui A. Ele se mai numesc şi
aranjamente cu repetiţie.

Exemplu 1.1.14 Dacă A = {a, b, c}, atunci cele 32 = 9 cupluri (2-tupluri) ordonate formate cu
elementele din A sunt: (a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c).
Exemplu 1.1.15 Considerăm mulţimea {A, B, C, D, E}. Atunci, există 53 = 125 triplete (3-
tupluri) ordonate formate cu literele acestei mulţimi.

Pentru 0 ≤ k ≤ n, se numeşte aranjament de n elemente luate câte k elemente orice secvenţă


ordonată formată din k elemente distincte A. Numărul tuturor aranjamentelor de n luate câte k
se noteaza prin Akn şi este dat de formula

n!
Akn = n · (n − 1) · . . . · (n − k + 1) =
(n − k)!

În particular, pentru k = n, găsim că Ann = Pn = n!.


Exemplu 1.1.16 Dacă A = {a, b, c}, atunci există A23 = 6 cupluri (2-tupluri) ordonate formate
cu elemente distincte din A: {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.
Exemplu 1.1.17 Zece alergatori doresc sa participe la o cursa de atletism, dar pista are doar 8
culoare. In câte moduri putem aseza 8 dintre cei 10 alergatori pe culoare, câte unul pe culoar?
A810 = 1814400.
!! Numărul Akn mai poate fi privit ca fiind numărul de k-tupluri ordonate formate cu elementele
unei mulţimi cu n elemente în cazul în care repetiţia elementelor nu este permisă.

6. Deranjamente

Fie A = {x1 , x2 , . . . , xn } o mulţime finită de elemente distincte.

Se numeşte deranjament al elementelor mulţimii A o permutare a ele-


mentelor acestei mulţimi astfel încât niciun element al său nu apare în
pozitia originală. Numărul tuturor deranjamentelor ale unei mulţimi
cu n elemente se notează prin Dn = !n (numerele de Montmorta sau
subfactorial) şi este dat de
n
(−1)i
ï ò
n! 1
!n = n! ∑ = + , n = 1, 2 . . .
i=0 i! e 2

a Pierre Rémond de Montmort, 1678 − 1719, a fost un matematician francez


12 Capitolul 1. Elemente de combinatorică

!! Primele 10 deranjamente (începând cu !0 = 1) sunt, în ordine:


1, 0, 1, 2, 9, 44, 265, 1854, 14833, 133496, 1334961.
Exemplu 1.1.18 O maşina automată introduce la întâmplare scrisori în plicuri. Determinaţi
probabilitatea ca, din 100 de scrisori introduse, niciuna să nu fi fost introdusă în plicul corect.
. R: p = D100!
100
≈ 0.3679
Exemplu 1.1.19 La o serata dansanta participa 5 perechi sot-sotie. La un anumit dans se stinge
becul şi fiecare barbat alege la intamplare câte o partenera. In câte moduri diferite pot fi formate
perechile astfel încât sa nu fie nicio concordanta sot-sotie? R: ! 5 = 44.

7. Combinări
Pentru 0 ≤ k ≤ n, se numeşte combinare de n elemente luate câte k
elemente orice submulţime a mulţimii A formată din k elemente (dis-
tincte), fără să conteze ordinea elementelor în mulţime. Numărul tuturor
combinărilor de n luate câte k se notează prin Cnk şi este dat de formula

n!
Cnk = .
k!(n − k)!

Exemplu 1.1.20 Dacă A = {a, b, c}, atunci există C32 = 3 submulţimi formate cu elementele
din A, şi anume: {a, b}, {b, c}, {c, a}.
!! Numărul Cnk se mai numeşte şi coeficient binomial, deoarece este coeficientul termenului
ak bn−k din dezvoltarea binomului lui Newton (a + b)n .
De remarcat faptul că:
• Akn este numărul de k-tupluri ordonate formate cu elemente distincte ale mulţimii A;
• Cnk este numărul de submulţimi cu k elemente ale mulţimii A, în care repetarea unui acelaşi
element k
Ç å din A nu este permisă. De notat faptul că, în literatura matematică, Cn mai este notat şi
n
.
k
Exemplu 1.1.21 O echipă de 5 persoane ce trebuie să conţină 3 bărbaţi şi 2 femei este aleasă
dintre 8 bărbaţi şi 7 femei. Câte echipe diferite pot fi selectate? R: C83 ·C72 .

Fie A = {x1 , x2 , . . . , xn } o mulţime finită de elemente distincte.

Pentru k ≥ 1, se numeşte combinare cu repetiţie a unei mulţimi cu n ∈ N elemente luate câte k


elemente o secvenţă formată din k elemente ale mulţimii A, posibil cu repetiţie, fără să conteze
ordinea. Numărul tuturor combinărilor cu repetiţie (neordonate!) ale unei mulţimi cu n elemente
k
luate câte k se notează prin Cn şi este dat de formula

k k (n − 1 + k)!
Cn = Cn+k−1 = .
k!(n − 1)!

Exemplu 1.1.22 Dacă A = {a1 , a2 , . . . , a5 } sunt aromele de îngheţată de care dispune o anumită
tonetă, atunci un exemplu de combinare cu repetiţie formată din 7 cupe de îngheţată este o
secvenţă de forma < a1 , a1 , a1 , a3 , a4 , a4 , a5 >.
1.1 Noţiuni şi exemple 13

Putem justifica formula de mai sus printr-un exemplu, după cum urmează.
Presupunem că avem mulţimea S = {a, b, c, d, e} şi dorim să determinăm numărul combinărilor
de câte 7 elemente cu repetiţie. Aşadar, n = 5, k = 7. Un exemplu de astfel de element este:
A = {a, a, a, b, d, e, e}. Pentru a calcula câte astfel de mulţimi putem forma, partiţionăm dreapta
reală prin bare, astfel încât să avem 5 regiuni, corespunzătoare elementelor din S. Pentru fiecare
element din A punem câte un ∗ în regiunea corespunzătoare elementului din S. Obţinem astfel
şirul următor de steluţe şi bare:

∗ | |{z} | |{z}
∗ ∗} | |{z}
∗|{z ∗ | |{z}
∗∗
3a 1b 0c 1d 2e

În general, numărul de combinări cu repetiţie căutat este, de fapt, numărul de moduri (fără
repetiţie) de a alege k poziţii distincte dintr-o mulţime cu n + k − 1 elemente (steluţe şi bare),
k
adică Cn+k−1 .
Sau, alternativ, este numărul de moduri de a pune n − 1 bare (separatoare) în cele n + k − 1 spaţii
libere.
Eventual, în loc de steluţe şi bare se pot considera 0 şi 1, obţinând şirul 00010110100.
Exemplu 1.1.23 Presupunem ca mulţimea A este A = {a, b, c}. Pentru aceasta mulţime există 3
submulţimi ale sale formate din câte două elemente distincte, şi anume: {a, b}, {a, c}, {b, c}.
În cazul în care cerinţa ca elementele să fie distincte este îndepărtată, atunci putem crea mai
multe ”submulţimi” distincte formate din câte 2 elemente fiecare. Acestea sunt:

{a, a}, {a, b}, {a, c}, {b, b}, {b, c}, {c, c}.

Acestea sunt combinări cu repetiţie ale mulţimii A luate câte 2 elemente.


ÇÇ åå
k n
De notat faptul că, în literatura matematică, Cn mai este notat şi .
k
Exemplu 1.1.24 În câte moduri putem pune 7 mingi identice în 5 coşuri?
7
R: C5+7−1 7 = C4
= C11 11
Formule utile
n n
Cnk Akn
Cnk = Cnn−k , ∑ 2k = 2n , Cnk = , (a + b)n = ∑ Cnk ak bn−k .
k=0 Pk k=0

Observaţie 1.1.1
Problemele de numărare nu sunt întotdeauna uşoare.
Pentru a le rezolva este necesară tehnică şi multă
experienţă, deoarece unele probleme pot fi foarte
dificile. Din fericire, multe probleme de numărare pot
fi aduse, prin similaritate, la tehnica extragerii bilelor
dintr-o urnă (vezi Figura 1.1).
Figura 1.1: O urnă cu n bile

Considerăm o urnă ce conţine n bile diferite, numerotate 1, 2, . . . , n, din care extragem k bile.
Această extragere poate fi făcută în mai multe moduri posibile, în funcţie de:
• ordine. Putem extrage bilele pe rând, una câte una, sau toate odată. În primul caz, putem
nota ordinea în care sunt extrase bilele, pe când în al doilea caz nu o putem nota. Totuşi,
putem presupune că şi în al doilea caz bilele au fost extrase pe rând, una câte una, însă nu
s-a notat ordinea.
14 Capitolul 1. Elemente de combinatorică

• revenire. De îndată ce o bilă a fost extrasă, ea poate fi pusă înapoi în urnă (după ce,
eventual, s-a notat numărul ei), sau poate fi lăsată în afara urnei. Dacă bila este repusă în
urmă, spunem că avem o extragere cu revenire, iar dacă este lăsată afară, avem o extragere
fără revenire.

Avem astfel 4 experimente posibile asociate extragerii bilelor dintr-o urnă:

(a) Extragere ordonată, cu revenire. Numărul extragerilor ordonate, cu revenire, a k bile din
cele n din urnă este nk (aranjamente cu repetiţie).
(b) Extragere ordonată, fără revenire. Numărul extragerilor ordonate, fără revenire, a k bile
din cele n din urnă este Akn (aranjamente).
(c) Extragere neordonată, fără revenire. Numărul extragerilor neordonate, fără revenire, a k
bile din cele n din urnă este Cnk (combinări).
(d) Extragere neordonată, cu revenire. Numărul extragerilor neordonate, cu revenire, a k bile
k
din cele n din urnă este Cn (combinări cu repetiţie).

Măiestria rezolvitorului de probleme de combinatorică constă în a încadra problemele de combi-


natorică, aparent fără legătură cu urna, într-unul dintre cele patru cazuri de mai sus.

Exemplu 1.1.25 Un test grilă conţine 20 de întrebări, fiecare întrebare având 4 răspunsuri
posibile, cu un singur răspuns corect. În câte moduri distincte poate fi completat testul?
R: Fiecare întrebare are 4 variante: (a), (b), (c) sau (d). Astfel, urna are 4 de bile. Se extrag 20
de bile (pentru fiecare întrebare, alegem unul dintre cele 4 răspunsuri posibile), cu revenire, iar
ordinea extragerii contează. 420 = 1099511627776.
Exemplu 1.1.26 Opt cai participă la o cursă de hipism. În câte moduri putem plasa pariurile pe
câştigători? (primul, al doilea şi al treilea)
R: Urna are 8 bile (caii). Se extrag 3 bile (locurile), fără revenire, iar ordinea extragerii contează.
Primul loc poate fi ocupat de oricare din cei 8 cai, al doilea loc de oricare dintre cei 7 cai rămaşi,
al treilea loc de oricare dintre cei 6 cai rămaşi. A38 = 336.
Exemplu 1.1.27 Ana are o colecţie de 20 de rochii. Ea doreşte să ia 4 rochii cu ea în vacanţă. În
câte moduri o poate face?
R: Urna are 20 de bile (rochii). Se extrag 4 bile (rochii), fără revenire, fără a conta ordinea.
4 = 4845.
C20
Exemplu 1.1.28 Câte configuraţii posibile putem obţine aruncând 4 zaruri identice?
4
R: Urna are 6 bile (feţele unui zar). Se extrag 4 bile, cu revenire, fără a conta ordinea. C6 =
C94 = 126.
1.2 Exerciţii rezolvate 15

1.2 Exerciţii rezolvate


Exerciţiu 1.2.1
Determinaţi câte patrate cu varfurile in nodurile reţelei din figura alaturata
pot fi construite.

R: Din numărul găsit la Exemplul 1.1.3 scădem numărul pătratelor care au


vârfurile in nodurile lipsă. Vom găsi N = 50 − 7 = 43 pătrate.
Exerciţiu 1.2.2 La un examen pentru permis de conducere, 60% dintre candidaţi au trecut de
proba teoretică, 55% au trecut de proba practică, iar 45% le-au trecut pe ambele. Dacă 123 de
candidaţi au picat ambele probe, aflaţi numărul total de candidaţi.
R: Notăm cu: N numărul total de candidaţi, cu T mulţimea candidaţilor care au trecut proba
teoretică şi cu P mulţimea candidaţilor care au trecut de proba practică.
Atunci: |T | = 0.6N, |P| = 0.55N şi |T ∩ N| = 0.45N. De aici, găsim că

|T ∪ P| = |T | + |P| − |T ∩ N| = 0.6N + 0.55N − 0.45N = 0.7N.

Numărul celor care au picat ambele probe este

|T ∩ P| = |T ∪ P| = N − |T ∪ P| = N − 0.7N = 0.3N = 123.

Astfel, N = 410.
Exemplu 1.2.1 Câte numere întregi dintre 1 şi 1000 nu sunt divizibile cu 2, 3 sau 5?
R: Utilizăm principiul includerii-excluderii. Dacă N este mulţimea numerelor întregi căutate,
N este mulţimea complementară lui N şi Dk este mulţimea numerelor naturale până la 1000,
divizibile cu k (k = 2, 3, 5), atunci

|N| = 1000−|N| = 1000−[|D2 |+|D3 |+|D5 |−|D2 ∩D3 |−|D2 ∩D5 |−|D3 ∩D5 |+|D2 ∩D3 ∩D5 |].

:
ï ò ï ò ï ò ï ò ï ò ï ò ï ò
1000 1000 1000 1000 1000 1000 1000
|N| = 1000 − − − + + + − = 266.
2 3 5 6 10 15 30

Exerciţiu 1.2.3 Exista 7 trasee pentru un alpinist de a urca de la baza unui munte pana in varf.
(a) Câte trasee diferite poate urma un alpinist in drumul sau de la baza pana in varf şi retur?
. R: 7 · 7 = 49
(b) Câte dintre aceste trasee au calea de intoarcere diferita de calea dupa care a urcat?
. R: 7 · 6 = 42
Exerciţiu 1.2.4 (1) Câte numere diferite de patru cifre putem forma cu cifrele de la 0 la 7?
. R: 7 · 83
(2) Câte numere diferite de patru cifre putem forma cu cifrele de la 0 la 5, fara cifre repetate?
. R: 5 · 5 · 4 · 3
Exerciţiu 1.2.5 Intr-o sala de ceremonii sunt 10 aparate de aer conditionat. Pentru ca evenimen-
tele de aici sa se desfasoare in conditii bune, este necesar ca macar un aparat sa fie in functiune
in orice moment. In câte moduri poate fi acest lucru programat?
. R: 210 − 1. Fiecare aparat din cele 10 poate fi ON sau OFF.
Exemplu 1.2.2 Determinaţi numarul anagramelor cuvantului ITALIA astfel încât literele de
acelasi fel sa nu fie consecutive.
R: N = 6!/(2! · 2!) − |A I| = 180 − |A| − |I| + |A I| = 180 − 5!/2! − 5!/2! + 4! = 84
S T
.
16 Capitolul 1. Elemente de combinatorică

Exerciţiu 1.2.6 Determinaţi numarul parolelor de 8 caractere ce pot fi formate tinand cont de
urmatoarele restrictii:
(a) toate caracterele sunt literele alfabetului englez (sunt 26 de litere), scrise cu litere mici.
. R: 268
(b) toate caracterele sunt literele alfabetului englez, scrise cu litere mici şi distincte.
. R: 26!/18!
(c) toate caracterele sunt literele alfabetului englez, cu litere mici, distincte, in ordine alfabetica.
. R: C26 8

(d) toate caracterele sunt litere şi cifre, care alterneaza şi nu se pot repeta.
. R: 2 · (26 · 25 · 24 · 23) · (10 · 9 · 8 · 7)
(e) caracterele pot fi doar literele A, B, C, D, in numere egale de fiecare.
Exerciţiu 1.2.7 (a) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând
cu 7 locuri?
(b) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând cu 7 locuri,
astfel încât toate cele trei femei să fie mereu aşezate împreună?
(c) În câte moduri pot fi aşezate 3 femei şi 4 bărbaţi împreună, pe un acelaşi rând cu 7 locuri,
astfel încât niciuna dintre cele trei femei sa nu fie alaturi de o alta femeie?
(d) Calculaţi suma numerelor obţinute la (a) şi (b). Este egală cu 7!? De ce?
R: (a) În 7! moduri.
(b) Considerăm cele 3 femei ca fiind un grup unitar. Avem 5 grupuri unitare, şi anume: acest
grup de femei şi cei patru bărbaţi (fiecare bărbat este considerat ca fiind un grup unitar). Putem
permuta în linie aceste grupuri unitare în 5! moduri. În interiorul grupului de femei, ele pot
fi permutate în 3! moduri. Folosind principiul multiplicării, putem permuta cele 3 femei şi 4
bărbaţi în 3! · 5! = 720 moduri.
(c) Aşezăm mai întâi bărbaţii în linie (în 4! moduri), apoi aşezăm femeile. Prima femeie poate fi
aşezată la stânga sau la dreapta oricărui bărbat, adică în 5 moduri. A două femeie poate fi aşezată
în unul din cele 4 locuri rămase disponibile, iar a treia în unul cele 3 locuri rămase disponibile.
În total, 4! · 5 · 4 · 3 = 1440 moduri.
(d) Nu, pentru aceste două cazuri, (a) şi (b), nu acoperă toate cazurile posibile, adică 7!. Există
posibilitatea de a aşeza două femei alăturat şi a treia în altă parte, caz neacoperit mai sus.
Exerciţiu 1.2.8 10 baieţi şi 7 fete sunt aşejaţi pe un rând cu 17 locuri. În câte moduri pot fi
aşezaţi aşa încât baieţii să fie aşezaţi împreună şi fetele împreună? R: 10! · 7! · 2!
Exerciţiu 1.2.9 O echipă de 5 persoane ce trebuie să conţină 3 bărbaţi şi 2 femei este aleasă
dintre 8 bărbaţi şi 7 femei. Câte echipe diferite pot fi selectate? R: C83 ·C72 = 1176
Exerciţiu 1.2.10 În câte moduri pot fi aranjate cele 8 litere din cuvantul TRIANGLE pe un rând
astfel încât să nu conţina măcar una dintre secvenţele GIA şi NT?
R: Utilizăm principiul includerii-excluderii. Obţinem: 8! − 6! − 7! + 5! = 34680 cazuri.
Exerciţiu 1.2.11 Mircea are 5 batoane de ciocolată distincte pe care doreşte să le pună în 3
buzunare, astfel încât fiecare buzunar conţine măcar un baton. În câte moduri o poate face?
R: Utilizăm principiul includerii-excluderii. Obţinem: 35 − 3 · 25 + 3 = 150. Sunt 35 cazuri
posibile fără a avea vreo restricţie, din care scoatem numărulul cazurilor în care cele 5 batoane
sunt puse în doar două buzunare, i.e., C31 25 , şi adunăm numărul cazurilor în care punem toate
batoanele într-un singur buzunar, i.e., C32 cazuri.
Exerciţiu 1.2.12 La o serată dansantă participă 5 perechi soţ-soţie. La un anumit dans se stinge
becul şi fiecare barbat alege la întâmplare câte o parteneră. În câte moduri diferite pot fi formate
perechile astfel încât sa nu fie nicio concordanţă soţ-soţie? R: D5 =! 5 = 44
Exerciţiu 1.2.13 Într-o clasă sunt 30 de elevi, 19 baieţi şi 11 fete. În câte moduri putem alege o
1.3 Exerciţii propuse 17

echipă de 7 elevi în care să existe măcar un baiat şi o fată?


R: C30 7 −C7 −C7 = 1985082
19 11
Exerciţiu 1.2.14 (a) Determinaţi numărul de anagrame ce se pot forma cu literele cuvântului
11!
MISSISSIPPI. R: = 34650
4! · 4! · 2! · 1!
(b) Determinaţi numărul de permutări distincte care pot fi obţinute din literelor cuvântului
10!
STATISTICS. R: = 50400
3! · 3! · 3! · 1!
Exerciţiu 1.2.15 Centrul unui oraş de formă dreptun-
ghiulară are o reţea de străzi (segmentele unitate) şi
intersecţii (punctele) formată din (m + 1) × (n + 1)
linii.
În câte moduri se poate ajunge cu maşina din punctul
A până în punctul B circulând doar spre Est (spre
dreapta) şi spre Nord (în sus)?

R: Presupunem că punctele din figură au coordonatele A(0, 0), B(m, n). Orice traiectorie care
uneşte cele două puncte este complet determinată de numărul de blocuri verticale (un block
este intervalul dintre două străzi orizontale învecinate) pe care le are de parcurs maşina. Notăm
cu v0 , v1 , . . . , vm străzile verticale. Teoretic, pe fiecare dintre aceste m + 1 străzi, maşina poate
parcurge maxim n blocuri până la destinaţie. Pentru fiecare i = 0, m, notăm cu bi numărul de
blocuri parcurse de maşină pe strada i. Spre exemplu, drumul din figura de mai sus corespunde
configuraţiei (0, 0, 0, 2, 1, 0, 0, 1, 0, 3, 0, 0, 3, 0, 0). Astfel, numărul de drumuri distincte pe
care le poate parcurge maşina de la A la B este egal cu numărul de soluţii naturale pe care le
poate avea următoarea ecuaţie:
v0 + v1 + · · · + vm = n.
n
Astfel, răspunsul este Cm+n drumuri distincte leagă punctul A de punctul B.
10 = 1961256 drumuri diferite.
În cazul reţelei din figură, m = 14, n = 10, deci C24

1.3 Exerciţii propuse


Exerciţiu 1.3.1 Câte submulţimi de două elemente distincte putem extrage din mulţimea A =
{1, 2, 3, 4, 5}? Dar submulţimi de două elemente posibil egale?
Exerciţiu 1.3.2 Câte numere cu 4 cifre distincte se pot crea cu numerele din mulţimea A =
{1, 2, 3, 4, 5}? Dar numere cu 4 cifre nu neapărat distincte?
Exerciţiu 1.3.3 O monedă ideală este aruncată de 3 ori. Care sunt toate rezultatele posibile?
Exerciţiu 1.3.4 O monedă ideală şi un zar ideal sunt aruncate împreună. Care sunt toate
rezultatele posibile?
Exerciţiu 1.3.5 Două zaruri ideale sunt aruncate o singură dată. Care sunt toate rezultatele
posibile?
Exerciţiu 1.3.6 În câte moduri pot fi aleşi patru studenţi dintr-un grup de 7?
Exerciţiu 1.3.7 Câte plăcuţe de maşină pot fi confecţionate care să conţină 3 litere şi 3 cifre,
prima cifră fiind diferită de 0? (e.g., ABC 123 ).
Exerciţiu 1.3.8 (a) În câte moduri putem monta 5 becuri de culori diferite în serie? (b) Câte
cazuri posibile se pot obţine la aruncarea simultană a 4 monede ideale?
Exerciţiu 1.3.9 Şapte prieteni se întâlnesc şi îşi strâng (fiecare cu fiecare) mâinile. Calculaţi
numărul total de strângeri de mâini. R: 21
18 Capitolul 1. Elemente de combinatorică

Exerciţiu 1.3.10 La o serată dansantă sunt 10 baieţi şi 13 fete. În câte moduri se pot forma două
perechi fată-băiat? R: 3510
Exerciţiu 1.3.11 (a) Calculaţi numărul de permutări ale literelor din cuvântul NUMBER.R: 720
(b) Câte dintre permutările de la (a) încep şi se termină cu o vocală? R: 48
Exerciţiu 1.3.12 O companie îşi alege conducerea printre membrii consiliului de administraţie.
Există 10 de membri în consiliul de administraţie.
(a) În câte moduri se pot alege un preşedinte, un vicepreşedinte şi un secretar? R: A310 = 720
(b) În câte moduri se pot fi aleşi 3 membri care să reprezinte consiliul la un congres? R: C10 3

Exerciţiu 1.3.13 La o degustate de vinuri, sunt degustare 20 de soiuri diferite, apoi sunt clasificate.
În câte moduri diferite se pot alege primele 3 locuri? R: A320 = 6840
Exerciţiu 1.3.14 Câte pătrate distincte pot fi observate pe o tablă de şah? Generalizaţi rezultatul
n
pentru o tablă de tipul n × n. R: 204, ∑ k2 = n(n + 1)(2n + 1)/6
k=1
Exerciţiu 1.3.15 La un turneu de şah participă 10 jucători. Dacă fiecare jucător joacă cu fiecare,
câte jocuri vor fi în total? R: C102 = 45

Exerciţiu 1.3.16 În câte moduri putem rearanja literele cuântului REARRANGE pentru a obţine
cuvinte noi? R: 15120
Exerciţiu 1.3.17 Dintre cei 30 de elevi dintr-o clasă, 21 de elevi studiază Engleza, 15 studiază
Franceza şi 11 studiază Germana. Mai mult, 10 elevi studiază Engleza şi Franceza, 7 elevi
studiază Engleza şi Germana şi 5 elevi studiază Franceza şi Germana. Ştiind că doar 3 elevi ai
clasei studiază toate cele trei limbi, să se determine câţi elevi din clasa nu studiază niciuna dintre
aceste limbi.
Exerciţiu 1.3.18 În câte moduri pot fi rearanjaţi 5 studenţi pe 5 locuri într-un rând astfel încât
unul dintre ei să rămână mereu pe acelaşi loc? R: 4! = 24
Exerciţiu 1.3.19 Determinaţi numărul de permutări ale mulţimii {1, 2, 3, 4, 5, 6, 7, 8} astfel
încât exact trei elemente rămân pe aceeaşi pozitie. R: 2464
Exerciţiu 1.3.20 Câte permutări ale literelor ABCDEFGH conţin secvenţa ABC? R: 6! = 720
Exerciţiu 1.3.21 Un antrenor de fotbal doreşte să formeze 3 echipe a câte 5 jucători fiecare
dintr-un grup de 15 fotbalişti disponibili. Determinaţi în câte moduri o poate face dacă:
(a) echipele au câte un nume; R: 756756
(b) echipele nu au nume. R: 126126
Exerciţiu 1.3.22 Un magazin vinde 5 tipuri diferite de ciocolată. În câte moduri distincte putem
alege 13 ciocolate din acest magazin? . 13
R: C13+5−1 = C1713

Exerciţiu 1.3.23 În câte moduri pot fi oferite 10 mere identice la 7 copii? R: C10+7−1 10 = C1610

Exerciţiu 1.3.24 Câte anagrame diferite pot fi folosind literele cuvântului ABRACADABRA?
. R: 83160

Exerciţiu 1.3.25 Câte paralelipipede dreptunghice (de diverse mărimi)


se pot desprinde din paralelipipedul dreptunghic alăturat?

. R: 1260
2. Probabilităţi. Definiţii. Proprietăţi

2.1 Experimente şi evenimente aleatoare


Aleatór, -oáre (adj.)]− Din fr. aléatoire, lat. aleatorius. Care depinde de o împrejurare viitoare
şi nesigură, care este supus întâmplării; întâmplător; stochastic.
Numim experienţă aleatoare (sau experiment aleator) orice act cu rezultat incert, care poate fi
repetat în anumite condiţii date. Vom spune că un experiment este aleator atunci când informa-
ţiile noastre despre rezultatul experimentului sunt limitate, neştiind cu siguranţă ce se va întâmpla.

Exemplu 2.1.1 Să considerăm experienţa ce constă în aruncarea unei monede. Ne interesează
rezultatul aruncării, adică faţa care va apărea în sus după ce moneda va fi în repaus. În lipsa
tuturor informaţiilor necesare legate de efectuarea experimentului, există o incertitudine în ce
priveşte rezultatul. Înainte de efectuarea experimentului, nu putem şti cu siguranţă care faţă va
apărea. Dacă am avea mai multe informaţii despre materialul din care este făcută moneda, despre
forţa cu care este aruncată, despre orientarea iniţială a monedei, despre impactul dintre deget şi
monedă, despre rezistenţa/turbulenţele aerului, despre caracteristicile suprafeţei pe care va cădea,
şi aşa mai departe, am putea spune cu siguranţă pe ce parte va cădea moneda. E clar că nu le
putem şti pe toate, aşadar va trebui să facem unele anticipări legate de rezultatul experimentului.
Un astfel de eveniment cu rezultat incert (neştiut înainte de efectuarea experimentului) se nu-
meşte eveniment aleator (sau, rareori, stochastic).

Opusul noţiunii de experiment aleator este experimentul determinist, semnificând un experiment


ale cărui rezultate sunt complet determinate de condiţiile în care acesta se desfăşoară. Rezultatul
unui experiment aleator depinde de anumite circumstanţe întâmplătoare ce pot apărea. Alte
exemple de experienţe aleatoare: extragerea LOTO, aruncarea zarului, observarea duratei de
viaţă a unui individ, observarea vremii de mâine, observarea numărului de apeluri telefonice
recepţionate de o centrală telefonică într-un interval, rezultatul unui meci de fotbal etc. Mulţimea
tuturor rezultatelor posibile legate de un anumit experiment aleator se numeşte spaţiul de selecţie
asociat experimentului. Această mulţime o vom nota cu Ω şi poate fi finită sau infinită.
20 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Exemplu 2.1.2 [1] Dacă experimentul aleator este aruncarea unui zar ideal (un zar în care
fiecare faţă are aceeaşi şansă de apariţie), atunci spaţiul de selecţie va fi Ω = {1, 2, 3, 4, 5, 6}.
[2] Dacă experimentul aleator este determinarea numărului de clienţi ce intră într-o anumită
bancă într-o zi de lucru, atunci spaţiul de selecţie este Ω = {0, 1, 2, 3, 4, . . .} = N.
[3] Dacă experimentul aleator este determinarea timpului de funcţionare continuă a unui set
format din patru baterii de un anumit tip, atunci spaţiul de selecţie este

Ω = {(t1 , t2 , t3 , t4 ), ti ≥ 0, i = 1, 2, 3, 4} = R4+ .

[4] Dacă experimentul aleator este determinarea numărului de zile ploioase dintr-un anumit an
(care nu este bisect), atunci spaţiul de selecţie este Ω = {0, 1, 2, 3, 4, . . . , 365}.

Punerea în aplicare a unui experiment aleator se numeşte probă.


Vom numi eveniment aleator orice colecţie de rezultate posibile asociate experimentului aleator.
Exemple de evenimente aleatoare ce pot apărea în cazul unui zar ideal: apariţia unui număr par,
apariţia feţei cu 6 puncte, apariţia unui număr mai mic de 5 etc.

Din punct de vedere matematic, dacă Ω este o mulţime finită, atunci mulţimea tuturor eveni-
mentelor aleatoare legate de un experiment aleator (adică, legate de spaţiul de selecţie Ω) este o
submulţime a mulţimii părţilor lui Ω, P(Ω). În acest material vom nota această submulţime cu
F . Elementele din F sunt evenimente care pot fi observate atunci când experimentul aleator este
efectuat. Cu alte cuvinte, F este informaţia pe care o primim după desfăşurarea experimentului
aleator. După efectuarea experimentului, putem observa dacă un anumit eveniment A aparţine
sau nu lui F .
Reamintim că, dacă Ω are n elemente, atunci P(Ω) va avea 2n elemente.

Exemplu 2.1.3 Dacă Ω = {a, b, c}. Atunci, mulţimea P(Ω) este:

P(Ω) = {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, Ω}.

Vom numi eveniment aleator elementar (sau eveniment aleator simplu) un eveniment aleator
care are un singur rezultat posibil. De exemplu, apariţia feţei cu 3 puncte la aruncarea unui zar
ideal. Mulţimea Ω este astfel mulţimea tuturor evenimentelor elementare asociate experienţei
aleatoare. Un eveniment aleator cu mai mult de un rezultat posibil se va numi eveniment aleator
compus.
Un exemplu de eveniment compus este apariţia unui număr impar la aruncarea unui zar ideal.
Acest eveniment este compus din trei evenimente elementare, ce corespund feţelor cu 1, 3 sau 5
puncte.
Alt exemplu de eveniment aleator: apariţia unei duble (6, 6) la aruncarea a două zaruri este
un eveniment aleator elementar, iar obţinerea unei duble la aruncarea a două zaruri este un
eveniment aleator compus.
Vom numi eveniment sigur (sau eveniment cert), acel eveniment care se realizează la fiecare
efectuare a experienţei aleatoare. Astfel, evenimentul sigur este întreg spaţiu de selecţie, Ω.
Prin eveniment imposibil înţelegem acel eveniment ce nu se realizează în nicio probă. Evenimen-
tul imposibil asociat unei experienţe aleatoare se notează prin ∅.
Se numeşte caz favorabil pentru evenimentul aleator un caz în care respectivul eveniment se
realizează măcar într-o proba a sa.
Evenimentele aleatoare (adică elementele din F ) le vom nota cu A, B, C, . . . .
Prin A (uneori prin Ac ) vom nota evenimentul complementar (sau evenimentul contrar) lui A,
2.1 Experimente şi evenimente aleatoare 21

care se realizează doar atunci când A nu se realizează. Avem: Ac = Ω \ A. Spre exemplu, dacă
experienţa aleatoare este aruncarea unui zar şi evenimentul aleatoar A este apariţia unei feţe cu
un număr par de puncte, A = {2, 4, 6}, atunci evenimentul contrar A este evenimentul apariţiei
unui număr impar, i.e., A = {1, 3, 5}. Avem că A A = Ω.
S

Următoarele relaţii sunt folosite în calculul probabilistic: A = A, Ω = ∅, ∅ = Ω.

Operaţii cu evenimente

Presupunem că A şi B sunt două evenimente legate de o experienţă aleatoare.


S
• Se defineşte A B (citit A sau B) evenimentul care se realizează ori de câte ori se realizează
S
cel puţin unul dintre evenimentele A şi B. Evenimentul A B se mai numeşte şi disjuncţia
inclusivă a evenimentelor A şi B.
T
• Se defineşte A B (citit A şi B) evenimentul care se realizează ori de câte ori se reali-
T
zează simultan evenimentele A şi B. Evenimentul A B se mai numeşte şi conjuncţia
evenimentelor A şi B.
• Se defineşte A \ B = A ∩ B (citit A minus B) evenimentul care se realizează ori de câte ori
se realizează A, dar nu se realizează B.
• Se defineşte A∆B = (A B) (A B) (citit A diferenta simetrica B) evenimentul care se
T S T

realizează ori de câte ori se realizează exact unul dintre evenimentele A şi B.

Relaţii între evenimente

• Notăm prin A ⊂ B (citit A implică B) şi spunem că realizarea lui A implică realizarea lui B.
• Spunem că A = B (citit A coincide cu B) dacă A ⊂ B şi B ⊂ A.
• Spunem că A şi B sunt evenimente incompatibile dacă în nicio probă ele nu se pot realiza
simultan. Scriem astfel: A B = ∅.
T

• Spunem că A şi B sunt evenimente compatibile dacă ele se pot realiza simultan în măcar o
probă a experimentului aleator. Scriem astfel: A B 6= ∅.
T

• Spunem că A şi B sunt evenimente echiprobabile dacă ele au aceeaşi sansă de realizare.
Spre exemplu, la aruncarea unei monede ideale, orice faţa are aceeaşi şansă de apariţie.
Exemple de evenimente echiprobabile:
– aruncarea unei monede ideale este un experiment cu 2 evenimente echiprobabile:
apariţia feţei sau apariţia stemei.
– aruncarea unui zar ideal este un experiment cu 6 evenimente echiprobabile: apariţia
fiecăreia dintre cele 6 feţe.
– aruncarea a două zaruri ideale este un experiment cu 36 evenimente echiprobabile.
22 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

• Relaţiile lui de Morgan1 :

A∪B = A∩B şi A ∩ B = A ∪ B.

În cuvinte, aceste relaţii se reţin astfel: complementara reuniunii a două evenimente este
intersecţia complementarelor evenimentelor şi, respectiv, complementara intersecţiei a
două evenimente este reuniunea complementarelor evenimentelor.
Aceste relaţii se pot extinde similar şi pentru mai mult de două evenimente, astfel:

A1 ∪ A2 ∪ . . . ∪ An = A1 ∩ A2 ∩ . . . ∩ An şi A1 ∩ A2 ∩ . . . ∩ An = A1 ∪ A2 ∪ . . . ∪ An .

Simbolul Limbajul mulţimilor Limbajul evenimentelor


Ω mulţimea totală eveniment sigur
∅ mulţimea vidă eveniment imposibil
A⊂Ω A este o submulţime a lui Ω A este un eveniment
A∪B A reunit cu B A sau B
A∩B A intersectat cu B A şi B
A⊂B A submulţime a lui B A implică B
A complementara lui A evenimentul contrar lui A
A∩B = ∅ A şi B disjuncte A şi B incompatibile
A ∩ B 6= ∅ A şi B se intersectează A şi B compatibile

Pentru a putea cuantifica şansele de realizare a unui eveniment aleator, s-a introdus noţiunea
de probabilitate. Presupunem că pentru un anume experiment aleator, am construit mulţimea
tuturor evenimentelor elementare, Ω. Atunci, fiecărui eveniment A în putem asocia un număr
P(A), numit probabilitatea realizării evenimentului A (sau, simplu, probabilitatea lui A), fiind o
măsură precisă a şanselor ca A să se realizeze.
În literatura de specialitate, probabilitatea este definită în mai multe moduri, depinzând de
situaţie: cu definiţia clasică (apare pentru prima oară în lucrările lui P. S. Laplace2 ), folosind o
abordare statistică (cu frecvenţe relative), probabilitatea bayesiană (introdusă de Thomas Bayes3 )
sau utilizând definiţia axiomatică (Kolmogorov).
Pentru început, ne vom preocupa de probabilitatea definită clasic şi aplicaţiile sale.

2.2 Probabilitatea definită clasic


Considerăm un eveniment A legat de o anumită experienţă aleatoare. Dorim să evaluăm şansele
ca acest eveniment să se realizeze. Pentru a cuantifica aceste şanse, vom defini probabilitatea de
realizare a evenimentului A.
Probabilitatea clasică este definită doar când următoarele condiţii sunt toate îndeplinite:
1. experienţa aleatoare poate fi repetată de un număr nedeterminat de ori, în aceleaşi condiţii;
2. există doar un număr finit de cazuri posibile. Notăm |Ω| = n < ∞.
3. toate evenimentele elementare sunt incompatibile două câte două (oricare două cazuri posi-
bile nu se pot realiza simultan) şi toate au aceeaşi şansă de a se realiza (sunt echiprobabile).

1 AugustusDe Morgan (1806 − 1871) a fost un matematician şi logician britanic


2 Pierre-Simon,
marquis de Laplace (1749 − 1827), matematician şi astronom francez
3 Thomas Bayes (1701 − 1761), preot, statistician şi filosof britanic
2.2 Probabilitatea definită clasic 23

Considerăm o experienţa aleatoare pentru care spaţiul evenimentelor elementare (spaţiul de


selecţie) este o mulţime nevida finită Ω. Fie Ω = {ω1 , ω2 , . . . , ωn }. De asemenea, presupunem
că orice eveniment elementar ωi din Ω are aceeaşi sansa de a se realiza. Un eveniment aleator
legat de experienţa aleatoare considerată va fi o colecţie de evenimente elementare din Ω.
Presupunem că A = {ωi1 , ωi2 , . . . , ωik } este un astfel de eveniment aleator. Definim următoarea
funcţie: P : P(Ω) → [0, 1], care atribuie fiecărui eveniment A din P(Ω) valoarea P(A), numită
probabilitatea lui A, ce reprezintă şansa realizării evenimentului A. Probabilitatea de realizare a
unui eveniment A este definită aici prin

numărul cazurilor favorabile realizării evenimentului A k


P(A) = = .
numărul cazurilor egal posibile n

Tripletul (Ω, P(Ω), P) se va numi câmp de probabilitate finit (în sens Laplace).
k
Ţinând cont de definiţia evenimentului contrar, dacă P(A) = , atunci
n
n−k k
P(A) = = 1 − = 1 − P(A).
n n
Etape pentru calculul probabilităţii unui eveniment într-un câmp de probabilitate Laplace

1. Determinarea experimentului aleator care are ca posibil rezultat evenimentul A;


2. Stabilirea mulţimii Ω şi verificarea faptului că toate evenimentele elementare sunt echipro-
babile. Se calculează apoi cardinalul lui Ω, |Ω|;
3. Dacă |Ω| < ∞ şi A ∈ P(Ω), se trece la determinarea cardinalului lui A, notat prin |A|;
|A|
4. Probabilitatea realizării evenimentului A va fi P(A) = .
|Ω|

Proprietăţi 2.2.1 1. 0 ≤ P(A) ≤ 1, ∀A ∈ P(Ω).


2. P(Ω) = 1.
3. Dacă A ∩ B = ∅, atunci P(A ∪ B) = P(A) + P(B).
4. Dacă A1 , A2 , . . . , An sunt evenimente incompatibile, două câte două, atunci

P(A1 ∪ A2 ∪ . . . ∪ An ) = P(A1 ) + P(A2 ) + . . . + P(An ).

5. P(A ∪ B) = P(A) + P(B) − P(A ∩ B), ∀A, B ∈ P(Ω).


6. P(A \ B) = P(A) − P(A ∩ B).
7. Dacă B ⊂ A, atunci P(A \ B) = P(A) − P(B).
8. Dacă B ⊂ A, atunci P(B) ≤ P(A).
9. P(A) = 1 − P(A), ∀A ∈ P(Ω).
10. P(∅) = 0.
11. Pentru orice ∀A, B, C ∈ P(Ω), avem:

P(A ∪ B ∪C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩C) − P(B ∩C) + P(A ∩ B ∩C).

12. Dacă Ω = {ω1 , ω2 , . . . , ωn } este finită, compusă din evenimentele elementare ωi , atunci

P(ω1 ) + P(ω2 ) + . . . + P(ωn ) = 1.


24 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Se observă de aici că, dacă A = {ωn1 , ωn2 , . . . , ωnk } ⊂ Ω şi evenimentele elementare
{ωi }ni=1 sunt echiprobabile (adică, P ({ωi }) = n1 , ∀i = 1, 2, . . . , n), atunci

|A| k
P(A) = = .
|Ω| n
Exemplu 2.2.1 Se aruncă un zar ideal. Care este probabilitatea apariţiei unui număr par?
R: Mulţimea Ω a tuturor cazurilor are 6 elemente (feţele zarului). Evenimente elementare:

ω1 = apariţia feţei 1, ω2 = apariţia feţei 2, ω3 = apariţia feţei 3,


ω4 = apariţia feţei 4, ω5 = apariţia feţei 5, ω6 = apariţia feţei 6.

Deoarece zarul este ideal, toate feţele au aceeaşi şansă de apariţie (evenimente echiprobabile).
Notăm cu A evenimentul apariţiei unui număr par la aruncarea unui zar ideal. Atunci, există
3 cazuri favorabile lui A, şi anume feţele numerotate cu 2, 4, 6. Probabilitatea căutată va fi
|A| 3
P(A) = = = 0.5.
|Ω| 6
Exemplu 2.2.2 Într-o şcoală britanică, evaluarea elevilor se face folosind literele alfabetului. De
regulă, sunt folosite primele 7 litere ale alfabetului. Un elev a primit calificativ de trecere dacă
obţine unul dintre calificativele A, B, C. Care este probabilitatea ca un elev ales aleator să obţină
calificativ de trecere?
R: Aşadar, mulţimea tuturor cazurilor posibile este Ω = {A, B, C, D, E, F, G}. Oricare notă
are aceeaşi şansă de a fi atribuită (evenimente elementare echiprobabile). Cazurile favorabile
realizării evenimentului dorit sunt A, B, C. Astfel, probabilitatea ca un elev ales aleator să aibă
3
calificativ de trecere este P = .
7
Exemplu 2.2.3 O monedă ideală este aruncată de 3 ori. Se cere probabilitatea de a obţine două
steme. Dar cel puţin două steme?
R: Mulţimea tuturor cazurilor posibile este

Ω = {SSS, SSB, SBS, SBB, BSS, BSB, BBS, BBB}.

Cazurile favorabile realizării evenimentului A (obţinerea a două steme) sunt

A = {SSB, SBS, BSS}.

Astfel, probabilitatea evenimentului A este P(A) = 83 = 0.375.


Cazurile favorabile realizării evenimentului B (obţinerea a cel puţin două steme) sunt

B = {SSS, SSB, SBS, BSS}.

Astfel, probabilitatea evenimentului B este P(B) = 84 = 0.5.


Exemplu 2.2.4 Care este probabilitatea obţinerii sumei 7 la o singură aruncare a unei perechi de
zaruri ideale?
R: Identificăm experimentul aleator ca fiind aruncarea a două zaruri ideale. Mulţimea cazu-
rilor echiprobabile este Ω = {(i, j); i, j = 1, 2, 3, 4, 5, 6}, care are 36 de elemente. Mulţimea
cazurilor favorabile este formată din 6 elemente, şi anume:

A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
6
Probabilitatea apariţiei sumei 7 este P = 36 = 16 .
2.2 Probabilitatea definită clasic 25

Exemplu 2.2.5 Din 100 de mere, 10 sunt stricate. Care este probabilitatea ca, luând la întâmplare
3 mere, să luăm şi mere stricate?
3 moduri de alege 3 mere dintr-o mulţime de 100. Toate aceste moduri au aceeaşi
R: Există C100
probabilitate. Notăm cu A evenimentul de a avea şi mere stricate printre cele 3 extrase. Cu
alte cuvinte, din cele 3 mere extrase există cel puţin un măr stricat. Este mai uşor de calculat
probabilitatea evenimentului contrar, A = evenimentul ca toate cele 3 mere ales să fie bune
3 . Atunci
(niciun măr nu este stricat). Cazurile favorabile evenimentului cerut sunt în număr de C90

|A| C3 90 · 89 · 88
P(A) = 1 − P(A) = 1 − = 1 − 390 = 1 − ≈ 0.7265.
|Ω| C100 100 · 99 · 98

Exemplu 2.2.6 Se aruncă un zar ideal de 3 ori. Calculaţi probabilitatea de a obţine numere
diferite în toate cele 3 aruncări.
R: Mulţimea cazurilor egal posibile este

Ω = {(a, b, c), a, b, c = 1, 2, 3, 4, 5, 6}.

Cardinalul lui Ω este |Ω| = 63 = 216. Mulţimea cazurilor favorabile este

A = {(a, b, c) ∈ Ω, a 6= b 6= c 6= a}.

|A| 6 · 5 · 4 5
Cardinalul lui A este |A| = 6 · 5 · 4 = 120. Probabilitatea căutată este P(A) = = = .
|Ω| 63 9
Observaţie 2.2.1 De remarcat faptul că probabilitatea nu poate fi definită întotdeauna în acest
fel. Dacă măcar una dintre cerinţele 1.− 3. nu este satisfăcută, atunci definiţia de mai sus nu are
sens. Câteva exemple:
• Considerăm experimentul aleator ce constă în alegerea la întâmplare a un punct din pătratul
[0, 1] × [0, 1], astfel încât toate punctele din acest pătrat au aceeaşi şansă de a fi alese. Se
cere să se calculeze probabilitatea ca punctul astfel ales să se situeze deasupra primei
bisectoare. În acest caz, atât numărul cazurilor posibile, cât şi numărul cazurilor favorabile
este infinit, făcând definiţia clasică a probabilităţii inutilizabilă.
• Experienţa aleatoare constă în aruncarea unui zar neomogen. În acest caz, nu toate feţele
zarului au aceeaşi şansă de apariţie, iar definiţia de mai sus nu poate fi utilizată.
• Un biscuit ce are una dintre feţe unse cu unt are şanse mai mari de a cădea cu faţa unsă în
jos când este scăpat. Pentru a estima care este probabilitatea să cadă cu o anumită faţă în
jos, nu putem utiliza definiţia de mai sus (evenimentele elementare nu sunt echiprobabile).
• În cazul în care dorim să pariem pe rezultatul unui anumit meci de fotbal, nu putem
determina probabilităţile de victorie/egal/înfrângere folosind definiţia clasică, deoarece
experienţa (meciul) nu poate fi repetată în aceleaşi condiţii de mai multe ori.

Alte exemple în care probabilitatea clasica nu poate fi utilizata: probabilitatea ca o anumită


persoană să trăiască mai mult de 80 de ani, probabilitatea ca o anumită cometă să atingă
Pământul în traiectoria sa, probabilitatea ca echipa României să câştige cupa mondială la fotbal,
probabilitatea ca un anumit boxer să câştige meciul pentru centura IBF, probabilitatea ca un
automobil să sufere avarii în decursul unui an, probabilitatea producerii unui cutremur major în
acest an etc.
26 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

2.3 Alte modalităţi de a defini probabilitatea


După cum am văzut anterior, probabilitatea de realizare a unui anumit eveniment nu poate fi
definită întotdeauna folosind abordarea clasică (i.e., numărul cazurilor favorabile împărţit la
numărul cazurilor egal posibile). Există foarte multe situaţii în care această definiţie nu mai este
aplicabilă. Spre exemplu: în cazul în care spaţiul Ω (spaţiul tuturor evenimentelor elementare)
are cardinal infinit, sau în cazul în care evenimentele elementare nu sunt echiprobabile, sau în
cazul în care experimentul aleatoare nu poate fi repetat în aceleaşi condiţii sau chiar deloc. În
continuare vom introduce două noi moduri de definire a probabilităţii.

2.3.1 Probabilitatea definită frecvenţial (sau statistic)


Probabilitatea frecvenţială (definită statistic) exprimă probabilitatea cu ajutorul frecvenţelor de
realizare a unui eveniment într-un număr mare de experimente aleatoare realizate în aceleaşi
condiţii. Pentru a putea evalua această probabilitate, este necesară repetarea în aceleaşi condiţii a
experimentului legat de evenimentul aleator ce se doreşte a fi cuantificat.

Să considerăm un experiment aleator (e.g., aruncarea unui zar) al cărui rezultat posibil este
evenimentul aleator A (e.g., apariţia feţei cu 6 puncte). Presupunem că acest experiment aleator
îl putem efectua de un număr infinit de ori în condiţii identice, astfel încât rezultatul unei probe
să nu influenţeze rezultatul alteia (probe independente). Să notăm cu νn (A) frecvenţa absolută
νn (A)
de realizare a lui A în n ∈ N∗ probe independente. Raportul fn (A) = se va numi frecvenţă
n
relativă de realizare a lui A în n probe independente. Acest raport are următoarele proprietăţi:

1◦ . 0 ≤ fn (A) ≤ 1, pentru orice eveniment A;


2◦ . fn (Ω) = 1;
3◦ . fn (A) = 1 − fn (A), pentru orice eveniment A;
4◦ . fn (A ∪ B) = fn (A) + fn (B), dacă A ∩ B = ∅.

Mai mult, şirul frecvenţelor relative { fn (A)}n∈N are limită şi această este definită ca fiind
probabilitatea de realizare a evenimentului A, notată P(A). Aşadar, în cazul definiţiei statistice
a probabilităţii, probabilitatea de realizare a evenimentului A este definită prin limita şirului
frecvenţelor relative de producere a respectivului eveniment când numărul de probe tinde la
infinit. Matematic, scriem astfel:

P(A) = lim fn (A). (2.3.1)


n→∞

Practic, dacă numărul n de experimente este foarte mare, atunci P(A) = fn (A). Faptul că acest
şir are o limită şi este P(A) a fost dovedit de Jacob Bernoulli4 şi publicat în 1713. Vom reveni
asupra acestui rezultat (numit de Bernoulli teorema de aur) într-un curs viitor, când vom discuta
de legile numerelor mari.

4 Jacob Bernoulli (aka James sau Jacques) (1654 − 1705), matematician de origine elveţiană
2.3 Alte modalităţi de a defini probabilitatea 27

Exemplu 2.3.1 Dorim să determinăm probabilitatea de apariţie a stemei la aruncarea unei mo-
nede pe care o bănuim a fi măsluită. În acest caz, nu putem utiliza definiţia clasică a probabilităţii,
deoarece evenimentele elementare nu sunt echiprobabile. Să notăm cu A evenimentul apariţiei
stemei dintr-o singură aruncare a monedei. Pentru a determina experimental P(A), se aruncă
moneda de un număr suficient de mare de ori (fie acest număr n) şi observăm frecvenţa absolută
de apariţie a stemei în cele N aruncări (sa o notăm cu νn ). Dacă n este foarte mare (tinde la
νn (A)
infinit), atunci frecvenţa relativă fn (A) = va fi foarte apropiată de P(A). Matematic,
n
scriem ca în relatia (2.3.1).
În acest sens, Figura 2.1 (a) este o justificare grafica a convergentei sirului frecventelor relative
la probabilitatea teoretica P(A) = 21 în cazul unei monede ideale (şansele de apariţie a fiecărei
feţe sunt egale).

În mod similar, se poate determina experimental probabilitatea de apariţie a feţei cu 6 puncte la


aruncarea unui zar ideal. Figura (b) este o justificare grafică a faptului că această probabilitate se
apropie foarte mult de 16 când n este foarte mare.

Figura 2.1: Simularea aruncării unei monede corecte (a) şi a unui zar corect (b)

Exemplu 2.3.2 Dorim să determinăm probabilitatea ca un bărbat dintr-un anumit oraş, ales
aleatoar, să aibă peste 1.75 cm înălţime. Pentru aceasta, alegem un eşantion aleator (o selecţie
aleatoare) de n bărbaţi din acel oraş şi observăm frecvenţa absolută νn a bărbaţilor din selecţie
care au proprietatea cerută. Pentru un n suficient de mare, probabilitatea cerută va fi aproximată
νn
prin p ≈ .
n
Totuşi, după cum vom vedea mai târziu, există metode mai precise de a determina această
probabilitate. Ele au la bază noţiunea de variabilă aleatoare de tip continuu.

2.3.2 Probabilitate geometrică


În anumite situaţii, se poate rezolva o problema de teoria probabilitatilor folosind geometria, în
special, calcul de lungimi de segmente, arii, volume. Probabilitatea geometrică a fost introdusă
ca extensie a probabilităţii clasice, pentru situaţii în care numărul cazurilor egal posibile nu este
numărabil. În definiţia probabilităţii definite geometric, în locul numărului cazurilor egal posibile
28 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

sau numărul cazurilor favorabile, se vor considera măsuri potrivite pentru mulţimile cazurilor
posibile, respectiv, favorabile.

Exemplu 2.3.3 Să presupunem că dispunem de un procedeu prin care putem alege la întâmplare
un număr dintr-un interval [a, b]. În plus, vom presupune că acest procedeu ne asigură că nu
există porţiuni privilegiate ale intervalului [a, b], i.e., oricare ar fi două subintervale de aceeaşi
lungime, este la fel de probabil ca numărul să aparţină oricăruia dintre aceste intervale. Mai mult,
dacă am folosi de foarte multe ori acest procedeu, alegând astfel foarte multe numere din acest
interval, vom observa că acestea vor fi repartizate aproximativ uniform în [a, b], i.e., nu vor există
valori în vecinătatea cărora numărul ales să cadă mai des, ori de câte ori efectuăm experimentul.
Din aceste observaţii, putem deduce că probabilitatea ca un număr ales aleator să aparţină unui
subinterval al lui [a, b] este dependentă de lungimea acelui subinterval şi nu de poziţia sa în
interiorul lui [a, b]. Mai mult, aceasta este chiar proporţională cu lungimea subintervalului. Vom
numi experimentul de alegere descris mai sus ca fiind alegerea aleatoare uniformă a unui număr
din intervalul [a, b]. Se poate observa analogia cu experienţa alegerii dintr-un număr finit de
cazuri egal posibile.
Aşadar, folosind procedeul de alegere aleatoare uniformă a unui număr din intervalul [a, b], ne
punem întrebarea:
Dacă alegem aleator, în mod uniform, un număr real între a şi b, care sunt şansele (echivalent
cu a afla probabilitatea) ca acest număr să aparţină intervalului [c, d] ⊂ [a, b]? Să notăm cu
A evenimentul a cărui probabilitate dorim să o evaluăm. Considerăm că intervalul [a, b] este
mulţimea tuturor cazurilor egal posibile şi [c, d] ⊂ [a, b] este mulţimea cazurilor favorabile
realizării evenimentului. Atunci, probabilitatea evenimentului A se defineşte prin

lungimea ([c, d]) d − c


P(A) = = .
lungimea ([a, b]) b − a

În particular, dacă c = d, atunci probabilitatea ca numărul ales aleator dintr-un interval să coin-
cidă cu un număr fixat (dinainte stabilit) este zero, deoarece lungimea segmentului [c, c] este 0.
Astfel, întrezărim posibilitatea teoretică ca un eveniment să aibă probabilitatea nulă, fară ca el să
fie evenimentul imposibil ∅. Evenimentul A 6= ∅ se va numi eveniment P− nul.
Pe de altă parte, P(A) = 1 (probabilitatea ca numărul ales aleator să nu fie cel dinainte stabilit). Se
observă că A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Totuşi, deşi teoretic
este imposibil, din punct de vedere practic este posibil ca, din mai multe probe independente ale
experimentului, să dăm peste numărul dinainte stabilit.

În mod cu totul analog cazului 1-dimensional, dacă se alege la întâmplare şi în mod uniform un
punct dintr-un domeniu planar D, astfel ca să nu existe puncte sau porţiuni privilegiate în acest
D0
domeniu, atunci probabilitatea ca punctul să cadă în subdomeniul D 0 ⊂ D este aria
aria D .
În trei dimensiuni, o probabilitate similară este raportul dintre volumul mulţimii cazurilor favora-
bile şi volumul mulţimii cazurilor egal posibile.

În general, dacă Ω este mulţimea cazurilor egal posibile şi F este mulţimea cazurilor favorabile,
atunci probabilitatea ca, alegând la întâmplare un element din Ω, acesta să se afle în F este
definită prin
2.3 Alte modalităţi de a defini probabilitatea 29

măs(F)
P= .
măs(Ω)

După cum am văzut mai sus, în cazurile practice, prin măsură putem înţelege lungime, arie sau
volum.

Exemplu 2.3.4 (problema întâlnirii) Doi prieteni îşi propun să se întâlneasca între orele 1
p.m. şi 2 p.m.. Ambii ajung aleator în intervalul stabilit, iar cel care ajunge primul la punctul de
întâlnire aşteaptă un sfert de oră, după care, dacă celălalt nu a ajuns în acest timp, pleacă. Care
este probabilitatea ca cei doi prieteni să se întâlnească?
R: Notez cu t şi s timpii de sosire ai celor doi prieteni.
Condiţia de întâlnire este: |t − s| ≤ 14 . Mulţimea cazurilor
egal posibile Ω este formată din toate punctele interioare
pătratului albastru ([1, 2] × [1, 2]). Matematic, scriem Ω
astfel:
Ω = {(t, s) ∈ R × R; 1 ≤ t, s ≤ 2}.
Mulţimea cazurilor favorabile formată din mulţimea tuturor
punctelor din zona haşurată. Matematic o scriem astfel:
1
F = {(t, s) ∈ Ω; |t − s| ≤ }.
4

Probabilitatea ca prietenii să se întâlnească este


2
aria(F) 1 − 43 7
P= = = = 0.4375.
aria(Ω) 1 16

2.3.3 Metoda Monte Carlo


Metoda Monte Carlo este o metodă de simulare statistică, ce produce soluţii aproximative pentru
o mare varietate de probleme matematice prin efectuarea de experimente statistice pe un compu-
ter. Se poate aplica atât problemelor deterministe, cât şi celor probabilistice şi este folositoare în
obţinerea de soluţii numerice pentru probleme care sunt prea dificile în a fi rezolvate analitic.
Este o metodă folosită de secole, dar a căpătat statutul de metodă numerică din anii 1940. În
1946, S. Ulam5 a devenit primul matematician care a dat un nume acestui procedeu, iar numele
vine de la cazinoul Monte Carlo din principatul Monaco, unde se practică foarte mult jocurile de
noroc, în special datorită jocului de ruletă (ruleta = un generator simplu de numere aleatoare).
De asemenea, Nicholas Metropolis6 a adus contribuţii importante metodei.
Are la bază generarea de numere aleatoare convenabile şi observarea faptului că o parte dintre
acestea verifică o proprietate sau anumite proprietăţi. În general, orice metodă care are la bază
generarea de numere aleatoare în vederea determinării rezultatului unui calcul este numită o
metodă Monte Carlo. Orice eveniment fizic care poate fi văzut ca un proces stochastic este un
5 Stanislaw Marcin Ulam (1909 − 1984), matematician de origine poloneză, născut în Lvov, Ucraina
6 Nicholas Constantine Metropolis (1915 − 1999), fizician grec
30 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

candidat în a fi modelat prin metoda MC.

Exemplu 2.3.5 (aproximarea lui π folosind jocul de darts)


În ce constă jocul? Să presupunem că suntem la nivelul începător. Avem de aruncat o săgeată
ascuţită, ce poate penetra cu uşurinţă lemnul, spre o tablă pătrată din lemn, de latură l, în interiorul
căreia se află desenat un cerc circumscris pătratului. Dacă săgeata se înfinge în interiorul discului
atunci aţi câştigat un punct, dacă nu, atunci nu câştigaţi nimic. Repetăm jocul de un număr n de
ori şi contabilizăm la sfârşit numărul de puncte acumulate, să zicem că acest număr este νn .
Să presupunem că sunteţi un jucător slab de darts (asta implică faptul că orice punct de pe tablă
are aceeaşi şansă de a fi ţintit), dar nu aşa de slab încât să nu nimeriţi tabla. Cu alte cuvinte,
presupunem că de fiecare dată când aruncaţi săgeata, ea se înfinge în tablă.
Să notăm cu A evenimentul ca săgeata să se înfingă chiar în interiorul discului. În cazul în care
numărul de aruncări n e foarte mare, atunci probabilitatea evenimentului A, P(A), este bine
νn
aproximată de frecvenţa relativă, adică .
n

Pe de altă parte,
aria disc π
P(A) = = .
aria perete 4
Aşadar, putem aproxima π prin
νn
π '4 (pentru n foarte mare).
n

Figura 2.2: Simulări la darts.


2.4 Scheme probabilistice 31

2.4 Scheme probabilistice


În Teoria Probabilitatilor, schemele probabilistice sunt nişte modele mentale idealizate de calcul
al unor probabilităţi într-un câmp finit de probabilitate. Aceste modele implică o urnă (eventual
mai multe urne) ce conţine bile albe şi negre (în modele mai complexe, bile de mai multe culori).
Din urnă se extrag bile, cu sau fără revenire, şi se doreşte determinarea probabilităţii de a fi scos
un anumit număr de bile colorate. Cu alte cuvinte, se doreşte a determina distribuţia bilelor
extrase (câte sunt de fiecare culoare).

În continuare vom discuta schemele clasice de probabilitate asociate extragerii de bile dintr-o
urnă. În practică, există multe experimente aleatoare care pot fi asemănate extragerilor de bile
dintr-o urnă. Spre exemplu, să luăm experimentul aleator ce constă în tragerea cu o armă asupra
unei ţinte cu scopul de a o nimeri. Există două rezultate posibile asociate acestui experiment:
trăgătorul atinge ţinta sau nu o atinge. Să mai presupunem că un anumit trăgător are şanse 60%
să nimerească ţinta. Dorim să determinăm probabilitatea următorului eveniment aleator (notat cu
A): trăgătorul nimereşte ţinta de cel puţin două ori din trei trageri.

Putem asemăna acest experiment aleator cu experimentul aleator ce constă în extragerea unei bile
dintr-o urnă idealizată ce conţine bile albe şi negre. Presupunem că bila albă este corespondentul
reuşitei ţintaşului din primul experiment. Atunci compoziţia urnei este de 60% bile albe şi
40% bile negre. Corespondentul evenimentului cel puţin două reusite din trei încercări va fi
evenimentul extragerea a cel puţin două bile albe din trei extrageri cu revenire a bilei extrase în
urnă. Se cere revenirea fiecarei bile extrase în urnă pentru a nu schimba configuraţia iniţială a
urnei şi, astfel, de a păstra la fiecare extragere aceleaşi şanse de a extrage o bilă albă din urnă.

După cum vom vedea mai jos, schemele cu urne pot fi aplicate cu uşurinţă şi la calculul
probabilităţilor unor evenimente care nu sunt neapărat legate de urne şi bile. Extragerea unei bile
din urna poate fi făcută:
• cu revenire a bilei extrase înapoi în urna şi, astfel, compoziţia iniţială a urnei rămâne
neschimbată după fiecare extragere
• fără revenire a bilei extrase înapoi în urna şi, astfel, compoziţia iniţială a urnei va fi
schimbată la fiecare extragere.
În practică, extragerea cu revenire este folosită atunci când experimentul aleator investigat se
efectuează în aceleaşi condiţii la fiecare probă (e.g., aruncarea unei monede, aruncarea succesivă
a unei perechi de zaruri), iar extragerea fără revenire este utilizată atunci când, după fiecare
extragere, distribuţia iniţială a cazurilor posibile se modifică (e.g., extragerea numerelor la LOTO,
extragerea la întâmplare a unor monede din buzunar, fără să le mai punem la loc).

Posibile întrebări legate de probleme cu urne:


• Dacă ştim compoziţia iniţială a urnei, care este distribuţia de bile extrase (cu revenire sau
fără revenire) dupa un număr n de extrageri?
• Ştiind distribuţia iniţială a urnei, care este probabilitatea extragerii succesive a unei anumite
secvenţe de culori? Sau, care este probabilitatea de a extrage o bila de o anumită culoare
la prima extragere? Dar la extragerea de rang k, pentru prima oară?
32 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

2.4.1 Schema bilei revenite (schema binomială)

O urnă conţine a bile albe şi b bile negre. Din această urnă se extrag cu revenire n ∈ N∗ bile.
Bilele de aceeaşi culoare sunt toate la fel. Atunci, probabilitatea ca din cele n bile extrase, să
avem k bile albe şi n − k bile negre este

Pk/n = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n, (2.4.2)


a
unde p = este probabilitatea ca la o singură extragere să obţinem o bilă albă.
a+b

Se observă că această probabilitate este, de fapt, coeficientul lui xk din dezvoltarea polinomului
(p x + q)n . Schema binomială se mai numeşte schema lui Bernoulli7 şi se poate enunţa în mod
echivalent astfel:

Considerăm A1 , A2 , . . . , An un set de evenimente pentru care realizare niciunuia nu este influ-


enţată de realizarea sau nerealizarea celuilalt şi, în plus, toate cele n evenimente au aceeaşi
probabilitate de realizare (i.e., pi = p, qi = q, i = 1, 2, . . . , n). Atunci, probabilitatea să se
realizeze exact k evenimente din cele n este

Pk/n = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n.

În limbajul cu urnă şi bile, evenimentul Ai din enunţul anterior ar fi evenimentul apariţiei unei
bile albe la extragerea i, pentru orice i = 1, 2, . . . , n.

Practic, această schemă poate fi folosită atunci când un experiment aleator se poate efectua de un
număr infinit de ori, în aceleaşi condiţii, şi urmărim să evaluăm şansele ca un eveniment aleator
(legat de acest experiment aleator) să se realizeze de un număr de ori. Mai precis, presupunem
că A este un eveniment legat de o experienţă aleatoare care se repetă în aceleaşi condiţii de n ori.
Dacă probabilitatea ca A să se realizeze într-o singură probă este P(A) = p, atunci probabilitatea
ca A să se realizeze de exact k ori din cele n probe este Cnk pk qn−k . Astfel, schema bilei revenite de-
termină probabilitatea (şansele) de a obţine k succese din n încercări efectuate în aceleaşi condiţii.

Exemple de evenimente pentru care putem folosi formalismul oferit de schema bilei revenite:
• evenimentul ca un sportiv să înscrie un număr k de coşuri la aruncarea de un număr fix (n)
de ori (în aceleaşi condiţii) cu mingea de baschet;
• evenimentul ca un arcaş să nimerească ţinta de k ori din n încercări;
• evenimentul apariţiei a k steme din n aruncări ale unei monede;
• evenimentul apariţiei a k duble din n aruncări ale unei perechi de zaruri;
• şi altele.

Exerciţiu 2.4.1 O monedă ideală este aruncată de 10 ori. Care este probabilitatea de a obţine:
(a) nicio faţă cu banul; (b) 4 steme; (c) cel mult 4 steme; (d) măcar 4 steme?
7 Jacob Bernoulli (1655 - 1705) a fost un matematician născut în Basel
2.4 Scheme probabilistice 33

R: Asemănăm experimentul aleator de aruncare a unei monede cu extragerea cu revenire a unei


bile dintr-o urnă ce conţine doar bile albe şi negre, în proporţii egale. Deoarece sunt şanse egale
de a scoate o bilă albă sau neagră la o singură extragere, avem că p = 21 .
(a) Şansele de obţine nicio faţă cu banul sunt egale cu şansele evenimentului de a nu obţine
nicio stemă. Acestea sunt egale cu
Å ã0 Å ã10−0
0 1 1 1
P = C10 · · = ≈ 0.0009766, deci, sunt aproximativ 1 la mie şanse.
2 2 1024
(b) Se cere probabilitatea evenimentului de a scoate exact 4 bile albe din 10 extrageri cu
revenire. Folosind schema bilei revenite, putem scrie:
Å ã4 Å ã10−4
4 1 1 10! 1
P = C10 · · ≈ · = 0.2051, deci, sunt 20.51% şanse.
2 2 6! · 4! 1024
(c) Se cere probabilitatea evenimentului de a scoate cel mult 4 bile albe din 10 extrageri cu
revenire. Folosind schema bilei revenite, putem scrie:
4 Å ãk Å ã10−k Ä ä Å 1 ã10
k 1 1 0 1 2 3 4
P = ∑ C10 · · = C10 +C10 +C10 +C10 +C10 ≈ 0.3770.
k=0 2 2 2
(d) Se cere probabilitatea evenimentului de a scoate cel puţin 4 bile albe din 10 extrageri cu
revenire.
Metoda 1: Folosind schema bilei revenite, putem scrie:
10 Å ãk Å ã10−k Ä ä Å 1 ã10
k 1 1 4 5 6 7 8 9 10
P = ∑ C10 · · = C10 +C10 +C10 +C10 +C10 +C10 +C10 ≈ 0.8281.
k=4 2 2 2
Metoda 2: Putem calcula această probabilitate şi altfel, folosind probabilitatea evenimentului
contrar. Vom scrie că probabilitatea evenimentului cerut este egală cu 1 minus probabilitatea de
a obţine cel mult 3 steme:
3 Å ãk Å ã10−k ä Å 1 ã10
k 1 1 Ä
0 1 2 3
P = 1− ∑ C10 · = 1− C10 +C10 +C10 +C10 · ≈ 1−0.1717 = 0.8281.
k=0 2 2 2

Observaţie 2.4.1 Se poate observa faptul că la schema bilei revenite nu este obligatoriu să
precizăm numărul bilelor albe şi negre din urnă. Este suficient să precizăm compoziţia iniţială a
a b
urnei cu ajutorul proporţiilor (probabilităţilor) p = şi q = 1 − p = .
a+b a+b
Aici, p şi q sunt probabilitatea de a extrage o bilă albă, respectiv, neagră la o singură extragere.

Exerciţiu 2.4.2 Se aruncă două zaruri de 5 ori. Care este probabilitatea să apară de două ori o
dublă?
R: Experimentul aleator este aruncarea simultană a două zaruri. Acest experiment se poate
repeta (teoretic) la infinit. Notăm cu A evenimentul apariţiei unei duble. Probabilitatea lui A este
P(A) = p = 16 , deoarece avem 6 cazuri favorabile (cele 6 perechi) din 36 de cazuri egal posibile.
Evenimentul a cărui probabilitate se cere este apariţia a două duble din 5 aruncări, notat A2/5 .
Pentru a calcula probabilitatea acestui eveniment folosim schema binomială cu n = 5, k = 2 şi
p = 61 , q = 1 − p = 56 . Vom avea
Å ã2 Å ã3
 2 2 5−2 1 5
P A2/5 = C5 p q = 10 · · ≈ 0.1608.
6 6
34 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Exerciţiu 2.4.3 În faţa unui oponent de acelaşi calibru la tenis de masă, care eveniment este
mai probabil: să câştigi 3 partide din 5, sau să câştigi 4 partide din 7? Justificaţi răspunsul.
R: Experimentul aleator este o partidă de tenis de masă, care se repetă în aceleaşi condiţii de
mai multe ori, în mod independent de partidele jucate anterior. Evenimentul aleator este legat de
numărul de partide câştigate de unul dintre jucători. Deoarece cei doi oponenţi sunt de acelaşi
calibru, probabilitatea ca într-o singură partidă unul să câştige împotriva celuilalt este p = 12 ,
adică sunt şanse 50% − 50% pentru fiecare dintre ei de a câştiga o partidă.
Suntem în cazul schemei binomiale. Putem formaliza astfel: jucătorul J1 este reprezentat de bila
albă şi jucătorul J2 este reprezentat de bila neagră.
5
Probabilitatea ca J1 să câştige 3 din 5 este P3/5 = C53 21 = 0.31250, iar probabilitatea ca J1 să
7
câştige 4 din 7 este P4/7 = C74 12 = 0.27344 < P1 . Desigur, probabilităţile sunt aceleaşi dacă
privim din perspectiva jucătorului J2 .
Aşadar, este mai probabil ca un jucător de tenis să câştige 3 partide din 5 decât 4 din 7.

Observaţie 2.4.2
Ce se întâmplă dacă se vor juca din ce în ce mai
multe partide între ecei doi?
Pentru un n ≥ 1, probabilitatea de a câştiga n + 1
partide din 2n + 1 jucate este

n+1 1
Pn = C2n+1 .
22n+1
Se observă din figura alăturată că această proba-
bilitate se apropie de 0 pentru un n mare.
În cuvinte, cu cât vor fi jucate mai multe partide între cei doi, şansele fiecăruia de a câştiga
jumătate plus una dintre partide se apropie de zero, adică sunt din ce în ce mai multe şanse ca
meciul să se termine la egalitate. Acest fapt este aşteptat, deoarece ei sunt la fel de buni.

Schema multinomială

O urnă conţine bile de m culori, repartizate astfel încât proporţia bilelor de culoarea i este pi , pentru i = 1, 2, . . . , m,.
Bilele de aceeaşi culoare sunt echivalente. Din această urnă se extrag cu revenire n bile. Atunci, probabilitatea ca
m
din cele n bile extrase să avem xi bile de culoarea i (i = 1, 2, . . . , m, xi ∈ N, ∑ xi = n) este
i=1

n!
P= px1 px2 · . . . · pxmm (2.4.3)
x1 !x2 ! · . . . · xm ! 1 2

În cazul în care m = 2, obţinem schema binomială (unde k = x1 , n − k = x2 ).

Exerciţiu 2.4.4 În campionatul scoţian de fotbal, două echipe de fotbal (Celtic şi Rangers) pot juca între ele 8
meciuri într-un sezon. Ştiind că Celtic care 50% şanse de a câştiga un meci direct şi Rangers are doar 30% şanse de
victorie, determinaţi probabilitatea ca Celtic să câştige cel puţin 5 meciuri directe şi să nu piardă niciunul.
R: Folosim schema multinomială cu 3 culori: victorie, egal şi înfrangere.
Pentru echipa Celtic, avem: p1 = 0.5, p2 = 0.2, p3 = 0.3, respectiv. Atunci, probabilitatea cerută este:
8! 8! 8! 8!
P = p5 p3 p0 + p6 p2 p0 + p7 p1 p0 + p8 p0 p0
5!3!0! 1 2 3 6!2!0! 1 2 3 7!1!0! 1 2 3 8!0!0! 1 2 3
1 1 1 1 1 1 1
= 56 · · + 28 · · +8· · + 28 · = 0.1534.
32 125 64 25 128 5 256
2.4 Scheme probabilistice 35

2.4.2 Schema bilei nerevenite (schema hipergeometrică)

O urnă conţine a bile albe şi b bile negre. Din această urnă se extrag fără revenire n bile
(n ≤ a + b). Atunci, probabilitatea ca din cele n bile extrase, să avem k bile albe şi n − k bile
negre este

CakCbn−k
Pk,n = n , pentru orice k ce satisface max(0, n − b) ≤ k ≤ min(a, n). (2.4.4)
Ca+b

Exerciţiu 2.4.5 O urnă conţine 6 bile albe şi 4 bile negre. Scoatem din urnă trei bile
(a) cu revenire;
(b) fără revenire.
Care este probabilitatea ca două bile să fie albe şi una neagră?
R: (a) Dacă extragerea se face cu revenire, atunci folosim schema binomială. Probabilitatea
6
ca la o singură extragere să scoatem o bilă albă este p = 10 = 0.6. Probabilitatea de a ascoate o
bilă neagră este q = 1 − p = 0.4. Atunci, probabilitatea de a scoate două bile albe este
Pa = C32 · p2 · q1 = 3 · 0.62 · 0.41 = 0.432.
(b) Dacă extragerile se fac fără revenire, atunci folosim schema hipergeometrică. Vom găsi că
C2 ·C1
probabilitatea cerută este Pb = 6 3 4 = 0.5.
C10
Exerciţiu 2.4.6 Într-un lot de 100 de articole se află 5 ce au defecţiuni. Alegem 3 articole. Care
este probabilitateaca:
(a) exact un articol să aibă defecţiuni?
(b) să nu fi ales niciun articol cu defecţiuni?
R: Probabilităţile cerute sunt:
2 ·C1
C95 5 4465 · 5
(a) Pa = 3
= = 0.1381.
C100 161700
3 ·C0
C95 5 138415 · 1
(b) Pb = 3
= = 0.8560.
C100 161700
Exerciţiu 2.4.7 La jocul LOTTO 6 /49 , se extrag aleator 6 bile dintr-o urnă cu bile numerotate de
la 1 la 49. Dacă Tudor a jucat numerele 4 , 7 , 8 , 12 , 19 , 22 , care sunt şansele ca Tudor
să fi nimerit
(a) niciun număr;
(b) exact 3 numere;
(c) cel puţin 3 numere;
(d) toate cele 6 numere?
R: Extragerile se fac fără revenire, deci vom aplica schema hipergeometrică. Pentru a utiliza
formalismul din această schemă, considerăm că bilele cu numerele jucate de Tudor sunt bilele
albe din urnă, celelalte 43 de bile fiind bile negre.
C60 ·C43
6
(b) P = 6
≈ 0.4360, deci, sunt cca. 43.60% şanse.
C49
C63 ·C43
3
(b) P = 6
≈ 0.0177, deci, sunt cca. 1.77% şanse.
C49
36 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi
3
C63 ·C43 2
C64 ·C43 1
C65 ·C43 0
C66 ·C43
(c) P = 6
+ 6
+ 6
+ 6
≈ 0.0187.
C49 C49 C49 C49
0
C66 ·C43
(d) P = 6
≈ 0.0000000715.
C49

Generalizare: Schema hipergeometrică cu mai multe culori

În urnă sunt N bile de m culori (m ≥ 2): a1 de culoarea c1 , a2 de culoarea c2 , . . . , am de culoarea cm (a1 + a2 + . . . +


am = N). Extragem n bile (deodata, sau una câte una, fără revenire). Notăm cu Bαa11,a,α22,...,a
,...,αm
m evenimentul obţinerii
a α1 bile de culoarea c1 , α2 bile de culoarea c2 , . . . , αm bile de culoarea cm (α1 + α2 + . . . + αm = n). Atunci,
probabilitatea acestui eveniment este:

 Caα11 Caα22 . . .Caαmm


P Baα11,a,α22,...,a
,...,αm
m
= α1 +α2 +...+αm .
Ca1 +a2 +...+am

Exerciţiu 2.4.8 Un cofraj conţine conţine 10 ouă vopsite în trei culori: 5 roşii, 3 galbene şi 2 albastre. Luăm la
întâmplare 3 ouă din cofraj, fără revenire. Care este probabilitatea să avem unul de fiecare culoare?

R: Folosim schema hipergeometrică cu mai multe culori. Avem: N = 10, n = 3, a1 = 5, a2 = 3, a3 = 2. Probabi-


litatea evenimentului cerut este:
Ä ä C1C1C1
P B1,1,1
5,3,2 =
5 3 2
3
= 0.25.
C10

2.4.3 Schema lui Poisson

Avem n urne, U1 , U2 , . . . , Un , care conţin bile albe şi bile negre. Ştim că probabilitatea de a
extrage o bila albă din urna Ui este pi şi că probabilitatea de a extrage o bilă neagră din urna
Ui este qi = 1 − pi , pentru orice i = 1, 2, . . . , n. Din fiecare urnă se extrage câte o bilă. Atunci,
probabilitatea de a obţine exact k bile albe şi n − k bile negre este coeficientul termenului xk din
dezvoltarea polinomului P(x) = (p1 x + q1 ) · (p2 x + q2 ) · . . . · (pn x + qn ).

Observaţie 2.4.3 Dacă urnele ar fi identice (toate având aceeaşi compoziţie), regăsim schema
binomială. Schema poate fi privită într-un cadru mai general, fără a considera bile şi urne:

Presupunem că A1 , A2 , . . . , An , sunt n evenimente independente (rezultatele oricărui eveniment


sau grup de evenimente nu sunt influenţate de celelalte evenimente) ale unui experiment aleator.
Notăm cu pi = P(Ai ), probabilitatea realizării evenimentului Ai , pentru orice i. Atunci, probabili-
tatea realizării a exact k evenimente din cele n este coeficientul lui xk din dezvoltarea polinomului
P(x) = (p1 x + q1 ) · (p2 x + q2 ) · . . . · (pn x + qn ).

Exerciţiu 2.4.9 Într-un atelier sunt trei strunguri. Primul strung dă rebuturi în proporţie de 0.9%,
al doilea în proportie de 1.1%, iar rebuturile date de al treilea strung sunt în proporţie de 0.8%.
Se ia la întâmplare câte o piesa produsă de la fiecare strung. Se cere probabilitatea ca două dintre
piese să fie bune şi doar una rebut.
2.4 Scheme probabilistice 37

R: Avem: n = 3, q1 = 0.009, q2 = 0.011, q3 = 0.008, p1 = 0.991, p2 = 0.989, p3 = 0.992.


Probabilitatea cerută este coeficientul lui x2 al polinomului

P(x) = (0.991x + 0.009)(0.989x + 0.011)(0.992x + 0.008),

adică: 0.991 · 0.989 · 0.008 + 0.991 · 0.992 · 0.011 + 0.992 · 0.989 · 0.009 = 0.0275.

Exerciţiu 2.4.10 Trei vânători ochesc cu puşca o aceeaşi vulpe. Ştim că probabilităţile ca fiecare
dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2. Cei trei trag fiecare câte un foc asupra
vulpii. Care sunt şansele ca vulpea să scape neatinsă?
R: Notăm cu A evenimentul ca vulpea să scape neatinsă. Folosim schema lui Poisson cu
p1 = 31 , p2 = 14 , p3 = 21 , de unde q1 = 23 , q2 = 34 , q3 = 12 . Vulpea scapă neatinsă dacă vor fi 0
reuşite din cele 3 trageri. Astfel,
 probabilitatea
 1 evenimentului A va fi coeficientul lui x0 (termenul
1 2 1 3 1

liber) din dezvoltarea 3 x + 3 · 4 x + 4 · 2 x + 2 , care este:

2 3 1 1
P(A) = q1 · q2 · q3 = · · = = 0.25.
3 4 2 4
Aşadar, şansele ca vulpea să scape neatinsă sunt de 0.25 · 100% = 25%.

Exerciţiu 2.4.11 Trei semnale sunt recepţionate corect cu probabilitaţile 0.8, 0.75, 0.9. Să se
determine cu ce probabilitate exact două dintre semnale sunt recepţionate corect.
R: Folosim schema lui Poisson. Avem că:

p1 = 0.8, p2 = 0.75, p3 = 0.9, q1 = 0.2, q2 = 0.25, q3 = 0.1.

Probabilitatea căutată este coeficientul lui x2 din polinomul (0.8x + 0.2)(0.75x + 0.25)(0.9x +
0.1), adică

P(A) = 0.8 · 0.75 · 0.1 + 0.8 · 0.25 · 0.9 + 0.2 · 0.75 · 0.9 = 0.375.
38 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

2.5 Exerciţii rezolvate


Exerciţiu 2.5.1 O urnă conţine 4 bile albe şi 6 bile negre, iar o altă urnă conţine 3 bile albe şi 2
bile negre. Din fiecare urnă se extrage câte o bilă. Considerăm următoarele două evenimente:
A = bila extrasă din prima urnă este albă;
B = bila extrasă din a doua urnă este albă.
Să se spună în cuvinte şi să se calculeze următoarele probabilităţi:
P(A), P(A ∩ B), P(A ∪ B), P(A \ B), P(A ∩ B).
R: Probabilităţile asociate evenimentelor A şi B sunt
4 3
P(A) = = 0.4 şi P(B) = = 0.6.
10 5
De asemenea, vom avea că probabilitatea evenimentului contrar lui A, adică probabilitatea de a
extrage o bilă neagră din prima urnă, este P(A) = 1 − P(A) = 0.6.
Evenimentul A ∩ B este evenimentul ca prima bilă extrasă să fie albă şi a doua bilă extrasă să
fie albă. Astfel, P(A ∩ B) este probabilitatea evenimentului ca ambele bile extrase să fie albe.
Mulţimea cazurilor echiprobabile asociate acestui eveniment are cardinalul 10 · 5 = 50. Cu alte
cuvinte, există 50 de cazuri egal posibile. Dintre acestea, favorabile evenimentului A ∩ B sunt
doar 4 · 3 = 12 cazuri. Aşadar, prima probabilitate este
4·3 6
P(A ∩ B) = = = 0.24.
10 · 5 25
Evenimentul A ∪ B este evenimentul de a scoate măcar o bilă albă din cele două extrageri. Pentru
a calcula P(A ∪ B), probabilitatea de a extrage măcar o bilă albă din cele două extrageri, folosim
formula P(A ∪ B) = P(A) + P(B) − P(A ∩ B), deci
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0.4 + 0.6 − 0.24 = 0.76.
De asemenea, probabilitatea de a extrage o bilă albă din prima urnă şi una neagră din a doua
urnă este P(A \ B) = P(A ∩ B), deoarece A \ B = A ∩ B. Se calculează astfel:
P(A \ B) = P(A) − P(A ∩ B) = 0.4 − 0.24 = 0.16.

Exerciţiu 2.5.2 Care e probabilitatea de a ghici toate cele 6 numere, jucând o variantă simplă la
LOTTO 6 /49 ?
6 . Există un singur caz favorabil. Astfel, probabilitatea
R: Numărul cazurilor egal posibile: C49
căutată este
1
P = 6 ≈ 0.0000000715.
C49

Exerciţiu 2.5.3 Dintr-un pachet de 36 cărţi se extrag trei la întâmplare. Care este probabilitatea
ca cel puţin o carte să fie as?
R: Mulţimea tuturor cazurilor favorabile este mulţimea tuturor combinaţiilor de 3 cărţi ce pot fi
extrase din totalul de 36. Astfel cardinalul ei este |Ω| = C36 3 . Dacă A este evenimentul a cărui

probabilitate se cere, atunci va fi mai uşor de calculat cardinalul evenimentului complementar, A.


Acesta este |A| = C32 3 , deoarece sunt 32 de cărţi care nu sunt as şi extragem 3 dintre ele. Astfel,

probabilitatea lui A va fi:


3
C32
P(A) = 1 − P(A) = 1 − 3
≈ 0.3053.
C36
2.5 Exerciţii rezolvate 39

Exerciţiu 2.5.4 Dintre cei 426 de studenţi la Matematică, 214 ascultă muzică rock, 172 ascultă
atât muzică rock cât şi muzică pop, iar la 16 studenţi nu le place niciunul dintre aceste două
genuri muzicale. Alegând întâmplare un student de la Matematică, care este probabilitatea să îi
placă doar muzica pop?
R: Fie R = evenimentul ca un student ales la întâmplare să fie rocker şi P = evenimentul ca
un student ales la întâmplare să fie... popper.
Atunci, P(R) = 214426 , P(P R) = 426 , P(P R) = 426 . Se cere P(P R).
T 172 T 16 T

Dar:
16
= P(P R) = P(P R) = 1 − P(P R)
\ [ [
426
= 1 − [P(P) + P(R) − P(P R)],
\

368
de unde P(P) = 426 .
Atunci, P(P R) = P(P) − P(P R) = 196
≈ 0.46.
T T
426
Altă variantă, cu mulţimi (vezi poza).
Exerciţiu 2.5.5 Cinci bărbaţi şi trei femei sunt aşezaţi aleator pe scaune la o masă rotundă cu 8
locuri. Care este probabilitatea ca nicio femeie să nu şadă langă o altă femeie?

R: Aşezăm mai întâi cei 5 bărbaţi în 4! moduri. Apoi femeile,


astfel: prima femeie poate ocupa 5 poziţii, a două 4 poziţii şi a treia
3 poziţii. În total, 4! × 5 × 4 × 3 poziţii favorabile. Probabilitatea
va fi:
4! × 5 × 4 × 3 2
P= = ≈ 0.2857.
7! 7

Exerciţiu 2.5.6 Un număr de 8 persoane (A, B, . . . , H) sunt distribuite aleator la o masă rotundă
cu 8 locuri.
(i) Care este probabilitatea ca A şi B sa fie aşezate alăturat?
(ii) Care este probabilitatea ca A şi B sa nu fie aşezate alăturat?

2!6! 2 2 5
R: (i) = , (ii) 1 − =
7! 7 7 7
Exerciţiu 2.5.7 Un grup de 10 persoane, format din 5 perechi soţ-soţie, sunt aşezate aleator în
linie de un fotograf. Care este probabilitatea ca fiecare femeie să stea lângă soţul ei?

5! · (2!)5
R: ≈ 0.0011
10!
Exerciţiu 2.5.8 (problema zilei de naştere) Dacă într-o clasă sunt 23 de elevi, care este probabili-
tatea ca cel puţin doi dintre ei serbează o aceeaşi zi de naştere? (presupunem că anul are n = 365
de zile şi ignorăm anii bisecţi).
40 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

R: Deoarece evenimentul A se referă la cel puţin doi


elevi, este mai comod să considerăm evenimentul con-
trar, A, care este evenimentul ca oricare doi elevi să
nu serbeze ziua de naştere în aceeaşi zi. Într-un an
sunt 365 de zile. Numărul de moduri în care putem
atribui fiecărui elev o zi de naştere este 36523 (fiecărui
elev îi putem atribui orice zi de naştere dintre cele 365.
Deoarece nu există doi elevi cu o aceeaşi zi de naştere,
înseamnă că avem de ales 23 de zile de naştere diferite
din cele 365 şi ordinea lor contează. Aşadar, cardinalul
lui A este |A| = A23 365 . Figura 2.3: Probabilitatea în funcţie de numă-
rul de elevi din clasă
Găsim că probabilitatea evenimentului contrar este

A23
365
P(A) = ≈ 0.4927,
36523

de unde probabilitatea căutată este P(A) ≈ 0.5073.


Exerciţiu 2.5.9 (Fra Luca Pacioli8 , 1494) Doi sportivi joacă un meci compus din mai multe
jocuri. Meciul este câştigat de cel care ajunge primul la 6 jocuri câştigate. Din anumite motive,
meciul se întrerupe la scorul de 5 : 3. Cum trebuie împărţită miza de 1000 RON pusă în joc?
(Presupunem că sportivii sunt la fel de buni la acest joc).
R:
• Miza ar trebui să fie împărţită proporţional cu şansele fiecărui sportiv de a ajunge primul
la 6 jocuri câştigate.
• Meciul ar mai fi putut continua cu maximum 3 jocuri.
• Există 8 rezultate teoretice (unele superflue) pentru cele 3 jocuri rămase.
• Convenţie: 1 / 0 − succes / insucces pentru primul jucător.
• Spaţiul de selecţie asociat este:
Ω = {111, 110, 101, 011, 100, 010, 001, 000}
7
• Probabilitatea ca primul sportiv să câştige este .
8
• Miza ar trebui împărţită astfel în raport de 7 : 1, i.e. 875 RON : 125 RON.
Exerciţiu 2.5.10 Alegem aleator trei vârfuri ale unui cub, astfel încât toate vârfurile au aceeaşi
şansă de a fi alese. Care este probabilitatea ca ele să fie vârfurile unui triunghi isoscel (inclusiv
echilateral)?
R: Experimentul aleator este alegerea la întâmplare a trei puncte din 9 disponibile, astfel încât
niciun punct să nu fie favorizat. Cazuri egal posibile: |Ω| = C83 = 56. Cazuri favorabile: |A| = 32.
Probabilitatea este
32 4
P(A) = = .
56 7

Exerciţiu 2.5.11 Alegem la întâmplare un număr natural dintre 1 şi 1000, inclusiv, astfel încât
toate numerele au şanse egale de a fi alese. Care este probabilitatea ca acest număr să nu fie
divizibil nici cu 12, nici cu 15?
8 Fra Luca Bartolomeo de Pacioli (1446 − 1517) a fost un matematician şi călugăr franciscan italian, colaborator

al lui Leonardo da Vinci


2.5 Exerciţii rezolvate 41

R: Notez cu D evenimentul ca un număr ales aleator din mulţime să fie divizibil cu 12 şi cu C
evenimentul ca un număr ales aleator din mulţime să fie divizibil cu 15. Dacă un număr ales
aleator nu este divizibil nici cu 12 şi nici cu 15, atunci el se va afla în D ∩C. Dar, folosind regula
lui de Morgan, 
P D ∩C = P(D ∪C) = 1 − P(D ∪C).
Utilizând principiul includerii-excluderii, avem că
P(D ∪C) = P(D) + P(C) − P(D ∩C),
de unde
[ 1000 1000 1000
12 ] + [ 15 ] − [ 60 ]
P = 1− = 0.867.
1000

Exerciţiu 2.5.12 În sertarul lui Gigel se află 6 perechi diferite de şosete. Gigel ia la întâmplare,
pe întuneric, 5 şosete. Care este probabilitatea de a nimeri exact o pereche?
R: Cazuri posibile: C12 5 = 792. Cazuri favorabile: C1 ·C3 · 23 = 480. Pentru uşurinţa justificării,
6 5
presupunem că perechile sunt colorate diferit. Sunt C61 moduri de a alege o pereche, sunt C53
moduri de a alege celelalte 3 culori din cele 5 rămase disponibile şi sunt câte 2 moduri de a alege
o şosetă de fiecare culoare aleasă. Găsim că probabilitatea este
480
P= ≈ 0.6061.
792

Exerciţiu 2.5.13 La jocul de poker, un jucător primeşte la întâmplare 5 cărţi dintr-un pachet de
52 de cărţi. Care este probabilitatea de a primi exact o pereche?
R: Putem alege 5 cărţi aleator în C52 5 moduri. Într-un pachet de 52 de cărţi, sunt 13 valori

(semne) diferite, de câte 4 culori fiecare. Alegem un semn în C13 1 = 13 moduri. După ce am ales

semnul, putem alege două culori cu acest semn în C42 = 6 moduri. Restul de 3 cărţi pot fi alese în
3 = 220 moduri, dintre cele 12 semne rămase. Fiecare carte dintre aceste 3 poate avea orice
C12
culoare. Avem 43 = 16 posibilităţi. Aşadar, probabilitatea dorită este
1 ·C2 ·C3 · 43
C13 4 12 1098240
5
= ≈ 0.4226.
C52 2598960

Exerciţiu 2.5.14 Determinaţi care eveniment este mai probabil: obţinerea a cel puţin unei feţe
de 6 puncte la aruncarea de 4 ori a unui zar ideal sau obţinerea a cel puţin unei duble (6, 6) în
urma aruncării de 24 de ori a două zaruri ideale (problema cavalerului de Mére9 ).
R: Notăm cu E1 = {1, 2, 3, 4, 5, 6}. Pentru experimentul aruncării unui singur zar de 4 ori,
spaţiul selecţiilor este Ω1 = E1 × E1 × E1 × E1 . Cardinalul acestei mulţimi este |Ω1 | = 64 .
Notăm cu E2 = {(i, j); i, j = 1, 2, 3, 4, 5, 6}. Pentru experimentul aruncării a două zaruri de 24
de ori, spaţiul selecţiilor este Ω2 = E2 × E2 × · · · × E2 , de 24 de ori. Cardinalul acestei mulţimi
este |Ω2 | = 3624 .
În ambele cazuri, spaţiul selectiilor este finit şi evenimenele elementare sunt echiprobabile.
Pentru a determina cardinalul evenimentului A1 = obţinerea a cel puţin unei feţe de 6 puncte la
aruncarea de 4 ori a unui zar ideal, este mai uşor de a examina complementara acestui eveniment.
Aceasta este A1 = {1, 2, 3, 4, 5}4 , cu |A1 | = 54 . Găsim că probabilitatea lui A1 este
Å ã4
5
P(A1 ) = 1 − P(A1 ) = 1 − ≈ 0.5177.
6
9 Antoine Gombaud, aka Chevalier de Méré (1607 − 1684), scriitor francez
42 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Pentru a determina cardinalul evenimentului A2 = obţinerea a cel puţin unei duble (6, 6) în
urma aruncării de 24 de ori a două zaruri ideale, este mai uşor de a examina complementara
acestui eveniment. Aceasta este A2 = (E2 \ (6, 6)) × (E2 \ (6, 6)) × · · · × (E2 \ (6, 6)) (de 24 de
ori), cu |A2 | = 3524 . Găsim că probabilitatea lui A2 este
Å ã24
35
P(A2 ) = 1 − P(A2 ) = 1 − ≈ 0.4914.
36

Exerciţiu 2.5.15 Aruncăm un zar ideal de 12 ori.


(i) Care este probabilitatea de a obţine fiecare număr de exact 2 ori?
(ii) Care este probabilitatea ca faţa 2 să apară de 3 ori şi faţa 3 de 2 ori?
R:
12!
2 ·C2 ·C2 ·C2 ·C2 ·C2
C12
(i) 10 8 6 4 2 2! 2! 2! = 12! ≈ 0.0034383,
= 2! 2! 2!12
6 12 6 26 612
3 ·C2 · 47
C12 9
(ii) ≈ 0.059612.
612

2.6 Exerciţii propuse


Exerciţiu 2.6.1 Ana s, i Bianca au aplicat fiecare pentru mai multe locuri de muncă la o universitate
locală. Fie A evenimentul că Ana este angajată s, i fie B evenimentul ca Bianca să fie angajată.
Exprimat, i în termeni de A s, i B evenimentele:
(a) Ana este angajată, dar nu Bianca.
(b) Cel put, in una dintre ele este angajată.
(c) Exact una dintre ele este angajată.
Exerciţiu 2.6.2 Să presupunem că 55% dintre persoanele de la o adunare consumă regulat cafea,
45% consumă în mod regulat ceai s, i 70% consumă în mod regulat cel put, in unul dintre aceste
două produse.
(a) Care este probabilitatea ca un adult selectat aleatoriu să consume în mod regulat atât cafea,
cât s, i ceai?
(b) Care este probabilitatea ca un adult selectat aleatoriu să nu consume în mod regulat niciunul
dintre aceste două produse?
Exerciţiu 2.6.3 Într-un anumit sat, 60% dintre toate gospodăriile beneficiază de servicii de
internet de la o companie locală de cablu, 80% primesc servicii de televiziune de la compania
respectivă, iar 50% primesc ambele servicii de la companie. Dacă o gospodărie este selectată
aleatoriu, care este probabilitatea ca
(a) aceasta să primească cel put, in unul dintre aceste două servicii de la compania locală?
(b) aceasta să primească exact unul dintre servicii de la companie?
Exerciţiu 2.6.4 Care sunt toate cazurile posibile ce pot apărea la aruncarea a 4 monede?
Exerciţiu 2.6.5 Se aruncă simultan o monedă şi un zar. Care este probabilitatea ca moneda să
arate stema şi zarul faţa cu 6 puncte?
Exerciţiu 2.6.6 Se aruncă două zaruri ideale.
• Denumiţi două evenimente incompatibile legate de acest experiment aleator.
• Aflaţi probabilitatea de a obţine suma 6.
• Aflaţi probabilitatea de a obţine cel puţin suma 4.
2.6 Exerciţii propuse 43

Exerciţiu 2.6.7 Grupele sanguine pentru un grup de 200 de persoane sunt distribuite astfel: 50
au grupa A, 65 au grupa B, 70 au grupa O şi 15 au grupa AB. Dacă o persoană din acest grup este
selectată la întâmplare, care este probabilitatea ca această persoană să aibă grupa de sânge O?
Exerciţiu 2.6.8 Dacă A şi B sunt două evenimente incompatibile astfel încât P(A) = 0.6 şi
P(B) = 0.2, aflaţi probabilitatea ca măcar unul dintre ele să se realizeze.
Exerciţiu 2.6.9 Probabilitatea ca un student să ia notă de trecere la ambele examene la Probabili-
tăţi şi Statistică este 0.75 iar probabilitatea să nu ia niciunul este 0.1. Dacă probabilitatea de a lua
examenul de Probabilităţi este de 0.8, care este probabilitatea de a lua examenul de Statistică?
Exerciţiu 2.6.10 A şi B sunt două evenimente astfel încât P(A) = 0.6, P(B) = 0.4 şi P(A ∩ B) =
0.1. Aflaţi probabilităţile P(A sau B) şi P(nici A şi nici B).
Exerciţiu 2.6.11 Considerăm tipul de vin (roşu sau alb) cumpărat de fiecare dintre cei cinci
client, i diferit, i ai unui anumit magazin.
(a) Dacă probabilitatea ca cel mult unul dintre aces, ti client, i să cumpere vin ros, u este 0.428, care
este probabilitatea ca cel put, in doi să cumpere vin ros, u?
(b) Dacă P(tot, i cinci cumpără vin ros, u) = 0.116 s, i P(tot, i cinci cumpără vin alb) = 0.005, care
este probabilitatea ca cel put, in unul din fiecare tip de vin să fie cumpărat?
Exerciţiu 2.6.12 Să presupunem că pentru două evenimente A şi B avem că P(A) = 0.80,
P(A ∪ B) = 0.9 şi P(A \ B) = 0.50. Calculat, i: (a) P(A ∩ B); (b) P(A ∪ B) (c) P(B).
Exerciţiu 2.6.13 (i) Câte anagrame diferite pot fi folosind literele cuvântului ABRACADABRA?
. R: 83160
(ii) Toate literele din acest cuvânt sunt puse într-o căciulă, după care extragem pe rând câte o
literă şi le aşezăm în ordinea ieşirii. Care este probabilitatea să obţinem cuvântul ABRACADABRA?
Exerciţiu 2.6.14 Aruncăm o monedă de două ori. Care este probabilitatea de a obţine două
steme consecutive? Dar nicio stemă?
Exerciţiu 2.6.15 Aruncăm o monedă de cinci ori. Care este probabilitatea de a obţine cel puţin o
stemă?
Exerciţiu 2.6.16 Se aruncă două zaruri. Care este probabilitatea ca numărul arătat de primul zar
să fie mai mare decât numărul arătat de al doilea zar?
Exerciţiu 2.6.17 Aruncăm o monedă de trei ori. Care este probabilitatea ca la a două aruncare
să nu fi apărut banul?
Exerciţiu 2.6.18 Scrieţi spaţiul de selecţie pentru experimentul aleator “o monedă este aruncată
de 4 ori”.
Exerciţiu 2.6.19 Aruncăm un zar ideal. Fie A evenimentul ca un număr par să apară şi B
evenimentul ca un număr prim să apară.
• Sunt evenimentele A şi B incompatibile?
• Calculaţi probabiliăţile: P(A ∪ B), P(A ∩ B), P(A \ B), P(A ∩ B).
Exerciţiu 2.6.20 Aruncăm un zar ideal. Care este probabilitatea de a obţine un număr prim sau
par?
Exerciţiu 2.6.21 Spunem că un număr de telefon format cu 6 cifre este valid, dacă prima cifră
este 2, iar a doua cifră nu poate fi 0.
(a) Câte astfel de numere de telefon valide se pot forma?
(b) Formăm la întâmplare un număr de telefon cu 6 cifre. Care este probabilitatea ca el să fie
valid?
Exerciţiu 2.6.22 Un zar are feţele colorate diferit, după cum urmează: feţele 1 şi 2 în roşu, feţele
3 şi 4 în alb şi feţele 5 şi 6 în albastru. Se consideră evenimentele:
• A = apariţia unei feţe de culoare roşie;
• B = apariţia unei feţe de culoare albă;
44 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

• C = apariţia unei feţe de culoare albastră;


• D = apariţia unei feţe cu număr par;
• E = apariţia unei feţe cu număr impar.
Determinaţi următoarele probabilităţi:
P(A), P(A ∪C), P(A ∩C), P(B ∩ E), P(A ∪ B ∩ D), P(B ∩ E), P(B ∩C).
Exerciţiu 2.6.23 Într-o urnă sunt: 4 bile roşii, 6 bile albastre şi 5 bile galbene. Dacă scoatem la
întâmplare o bilă din urnă, care este probabilitatea de a extrage:
(a) o bilă roşie;
(b) o bilă care să nu fie albastră;
(c) o bilă roşie sau galbenă.
Exerciţiu 2.6.24 Calculaţi probabilitatea ca, alegând la întâmplare unul dintre numerele naturale
de 2 cifre, acesta să fie:
(a) format doar din cifre impare.
(b) pătrat perfect.
(c) număr prim.
(d) să conţină cifra 1.
Exerciţiu 2.6.25 Determinaţi probabilitatea ca, alegând la întâmplare un număr din mult, imea
{1, 2, 3, . . . , 30}, acesta să fie divizibil cu 7.
Exerciţiu 2.6.26 Scrieti câmpul de probabilitate pentru experimentul aleator ce consta în arunca-
rea unei monede ideale.
Exerciţiu 2.6.27 În două urne se află bile bile colorate astfel:
U1 : 7 albe, 10 negre, 5 roşii, U2 : 10 albe, 4 negre, 7 roşii.
Din fiecare urnă se extrage la întâmplare câte o bilă. Care este probabilitatea ca ambele bile să
fie de aceeaşi culoare?
Exerciţiu 2.6.28 Scrieti spaţiul de selecţie pentru experimentul aleator ce consta în aruncarea
unei monede ideale până apare pentru prima oară stema.
Exerciţiu 2.6.29 (i) Scrieţi câmpul de probabilitate pentru experimentul aleator ce constă în
aruncarea a trei monede ideale.
(ii) Scrieţi câmpul de probabilitate pentru experimentul aleator ce constă în aruncarea de 3 ori a
unei monede ideale.
(iii) Determinaţi probabilitatea ca la aruncarea a 3 monede ideale să obţinem cel puţin o stemă.
Exerciţiu 2.6.30 Considerăm următorul joc:
• jucătorul X aruncă 2 zaruri. El va câştiga jocul dacă obţine cel puţin o faţa de 1;
• jucătorul Y aruncă 4 zaruri şi va câştiga jocul dacă obţine cel puţin de două ori faţa 1.
Determinaţi care dintre ei au şanse mai mari de a câştiga jocul?
Exerciţiu 2.6.31 Alegem la întâmplare, în mod uniform, un număr natural dintre 1 şi 1000,
inclusiv. Care este probabilitatea ca acest număr sa nu fie divizibil 2, 3 sau 5? R: 0.266
Exerciţiu 2.6.32 Patru barbati şi patru femei sunt asezati aleator pe scaune la o masa rotunda cu
8 locuri.
4
(i) Calculaţi probabilitatea ca toate femeile sa fie alaturate. R: 35
1
(ii) Calculaţi probabilitatea ca niciun barbat sa nu sada langa un alt barbat. R: 35
Exerciţiu 2.6.33 Care este probabilitatea de apariţie pentru prima oară a feţei cu 6 puncte la
aruncarea unui zar ideal în cel mult 3 aruncări? Dar în exact 3 aruncări?
Exerciţiu 2.6.34 Un grup de 5 perechi soţ-soţie este aranjat la întâmplare de un fotograf. Care
este probabilitatea ca fiecare soţie să fi fost aşezată lângă soţul ei? Dar probabilitatea ca măcar o
soţie să nu fi fost aşezată lângă soţul ei?
2.6 Exerciţii propuse 45

Exerciţiu 2.6.35 În anumite familii, părinţii continuă să aibă copii pâna au cel puţin câte un
copil de fiecare sex. Să presupunem că probabilitatea de a avea un copil, indiferent de sex, este
0.5. Pentru astfel de familii, care este probabilitatea de a avea 4 copii?
Exerciţiu 2.6.36 Două persoane joacă un joc care este câştigat de cel care ajunge primul la trei
victorii. Dacă, din anumite motive, jocul se întrerupe la scorul de 2 : 1, cum trebuie împărţită
miza de 100 RON pusă în joc? (miza e împărţită proporţional cu şansele fiecărui jucător de a
ajunge la trei victorii) R: 75 şi 25
Exerciţiu 2.6.37 Se aruncă două zaruri. Care este probabilitatea ca la primul zar sa apara faţa cu
3 puncte, stiind ca suma punctelor aparute este 7? R: 1/6.
Exerciţiu 2.6.38 Amestecăm un pachet de cărţi de joc.
(i) Care este probabilitatea ca prima carte din pachet să fie un as? R: 4·51!
52!
(ii) Care este probabilitatea ca, pentru toate cărţile din pachet, cărţile de aceeaşi culoare să fie
4
ordonate una dupa cealaltă? R: 4!·(13!)
52!
(iii) Care este probabilitatea ca toate inimile să fie grupate una după cealaltă? R: 40!·13!
52!
Exerciţiu 2.6.39 O pereche de zaruri ideale este aruncată de 200 de ori. Care este probabilitatea
să obţinem o sumă de 7 în cel puţin 20% dintre cazuri?
Exerciţiu 2.6.40 Un cofraj conţine 10 ouă, dintre care două sunt sparte. Dacă se aleg 5 ouă la
întâmplare, care este probabilitatea ca dintre cele cinci: (a) niciunul să nu fie spart; (b) un ou
să fie spart.
Exerciţiu 2.6.41 La o tombola se vând 500 bilete, dintre care doar 5 sunt câştigătoare. O
persoană cumpară 10 bilete. Care este probabilitatea să nu se găsească nici un bilet câştigator?
Exerciţiu 2.6.42 Dacă într-o clasă sunt n = 30 de elevi, care este probabilitatea ca cel puţin unul
dintre ei să serbeze ziua de naştere în aceeaşi zi cu tine? (ignorăm anii bisecţi).
Exerciţiu 2.6.43 Un grup de 10 baieţi şi 10 fete este împărţit la întâmplare în două grupuri egale.
Să se determine probabilitatea ca fiecare grup să aibă acelaşi număr de baieţi şi de fete.
Exerciţiu 2.6.44 Două numere sunt generate aleator, astfel încât 0 < x < 3 şi 1 ≤ y ≤ 7 (uniform
în intervalele considerate). Care este probabilitatea ca suma lor să fie cel mult 5?
Exerciţiu 2.6.45 Două numere sunt generate aleator, astfel încât 0 < x < 1 şi 0 ≤ y ≤ 1 (uniform
în intervalele considerate).
x 1
(i) Care este probabilitatea ca raportul lor să fie între 2 şi 3? R: 12 ≈ 0.8333
y
(ii) Care este probabilitatea ca produsul lor să fie cel mult 0.5? R: ln 2+1
2 ≈ 0.8466
Exerciţiu 2.6.46 În problema întâlnirii, timpul de aşteptare se măreşte de la 15 minute la 20
minute. Care este probabilitatea ca cei doi prieteni să se întâlnească?
Exerciţiu 2.6.47 Dacă un ceas se opreşte la întâmplare, care este probabilitatea ca limba care
indică orele să se oprească între 7 şi 10?
Exerciţiu 2.6.48 La un joc de darts, jucătorii aruncă darts
spre panoul alăturat. Presupunem că întotdeauna nimeresc
panoul şi orice punct de pe panou are aceeaşi şansă de a fi
atins. Calculaţi:
• probabilitatea de a nimeri zona verde;
• probabilitatea de a nimeri zona roşie;
• probabilitatea de a nu nimeri niciun disc colorat.

Exerciţiu 2.6.49 Doi prieteni doresc să joace darts, fiecare alegându-
şi o tablă dintre modelele de tablă de darts din figura alăturată. Care
are cea mai mare şansă de câştig?
46 Capitolul 2. Probabilităţi. Definiţii. Proprietăţi

Exerciţiu 2.6.50 Ana, Bogdan şi Ciprian aleg fiecare câte un număr aleator între 0 şi 1, astfel
încât orice punct din interior are aceeaşi şansă de a fi ales. Care este probabilitatea ca suma
pătratelor numerelor alese să nu fie mai mare de 1?
Exerciţiu 2.6.51 Se aleg la întâmplare trei numere între 0 şi 1, astfel încât orice punct din interior
are aceeaşi şansă de a fi ales. Care este probabilitatea ca pătratul unui număr să fie mai mare
decât suma pătratelor celorlalte două numere?
Exerciţiu 2.6.52 Se alege aleator, în mod uniform, un număr x ce aparţin intervalului [−5, 5].
Care este probabilitatea evenimentului ca |x| > 2?
Exerciţiu 2.6.53 La un seminar participă 8 studenţi. Care este probabilitatea ca cel puţin doi
dintre ei să fie în aceeaşi zodie?
Exerciţiu 2.6.54 Evenimentele incompatibile A şi B sunt astfel încât P(A) = 0.2 şi P(B) = 0.4.
• Care este probabilitatea ca B să se realizeze şi A nu?
• Care este probabilitatea ca niciunul dintre ele să nu se realizeze?
Exerciţiu 2.6.55 Se aruncă două zaruri ideale. Care este probabilitatea ca primul zar să arate un
numă strict mai mare decât al doilea?
Exerciţiu 2.6.56 Păcală îl ademeneşte pe Tândală la un joc de barbut. Păcală a confecţionat
următoarele trei zaruri, pentru care numărul de puncte de pe fiecare faţă sunt modificate:

zarul 1: 5 7 8 9 10 18
zarul 2: 2 3 4 15 16 17
zarul 3: 1 6 11 12 13 14

Pentru fiecare zar, toate feţele au aceeaşi şansă de apariţie. Fiecare jucător alege un zar şi îl
păstrează pentru restul competiţiei. Un joc constă în aruncarea zarului ales, iar cel care obţine un
număr mai mare de puncte va câştiga jocul. Un astfel de joc poate fi repetat de mai multe ori, în
condiţii identice şi independente.
Păcală, politicos fiind, îl invită pe Tândală să fie primul care îşi alege zarul. Arătaţi că, orice
zar ar alege Tândală, Păcală are posibilitatea de a alege un zar mai bun dintre cele rămase şi să
câştige jocul.
Exerciţiu 2.6.57 Într-un sertar sunt 3 pachete a câte 20 de ţigări. În primul pachet este o ţigară
ruptă, în al doilea pachet sunt două ţigări rupte, iar în al treilea pachet sunt 3 ţigări rupte. Din
fiecare pachet luăm la întâmplare câte o ţigară. Care este probabilitatea ca
(a) niciuna să nu fie ruptă;
(b) toate trei să fie rupte;
(c) doar una să fie ruptă.
Exerciţiu 2.6.58 Se aruncă două zaruri de 5 ori. Care este probabilitatea să obţinem de două ori
suma 7?
Exerciţiu 2.6.59 Se aruncă o monedă de 6 ori. Care este probabilitatea să obţinem exact 3
steme?
Exerciţiu 2.6.60 Un profesor pregăteşte pentru examenul oral 18 de bilete, dintre care 7 sunt
de Algebră, 6 sunt de Geometrie şi 5 sunt de Analiză. Toate biletele sunt puse într-o cutie. Un
student extrage 3 bilete deodată. Care este probabilitatea ca:
(a) să aibă câte un bilet din fiecare disciplină;
(b) toate biletele să fie de Algebră;
(c) cel puţin un bilet este de Analiză.
Exerciţiu 2.6.61 Presupunem că într-o familie există şanse egale de a se naşte un băiat sau o fată.
Într-o familie cu 6 copii, care sunt şansele ca toţii copiii să fie fete? Dar să fie 3 fete şi 3 băieţi?
Exerciţiu 2.6.62 Un procent de 35% dintre locuitorii din Iaşi au fost la vot la ultimele alegeri.
2.6 Exerciţii propuse 47

Dacă întrebăm la întâmplare 5 oameni cu drept de vot, care sunt şansele ca măcar 3 dintre ei să fi
votat la ultimele alegeri?
Exerciţiu 2.6.63 Un jucător de fotbal este cotat cu şanse de 75% să marcheze gol de la 11 metri.
Care este probabilitatea ca, din următoarele 3 lovituri 11 metri pe care le va bate, să marcheze
doar de 2 ori?
Exerciţiu 2.6.64 Se aruncă un zar de 10 ori. Care este probabilitatea ca exact de 2 ori sa apară
faţa cu un punct şi exact de 3 ori să apară faţa cu două puncte?
Exerciţiu 2.6.65 Într-un lot de 100 de articole se află 80 corespunzătoare, 15 ce au defecţiuni
remediabile şi 5 rebuturi. Alegem 6 articole. Care este probabilitatea 3 să fie bune, 2 cu defecţiuni
remediabile şi unul să fie rebut ?
Exerciţiu 2.6.66 Se aruncă o monedă de 6 ori care este probabilitatea de a obţine un număr egal
de steme şi feţe cu banul?
Exerciţiu 2.6.67 Se aruncă un zar de 3 ori. Care sunt şansele ca niciun 6 să nu fi apărut?
Exerciţiu 2.6.68 Un producător de coşuri ştie că 10% dintre coşurile pe care le produce au
defecte. Dacă produce 10 coşuri pe zi, care este probabilitatea ca cel mult două dintre ele să fie
defecte?
Exerciţiu 2.6.69 Un coş conţine 7 mere roşii şi 3 mere verzi.
(a) Se alege la întâmplare un măr, fără a-l vedea. Care este probabilitatea ca el să fie roşu?
(b) Se aleg la întâmplare 3 mere. Care este probabilitatea ca măcar unul să fie verde?
Exerciţiu 2.6.70 Trei studenţi aruncă pe rând cu mingea la coşul de baschet. Şansele fiecăruia
de a înscrie sunt 0.5, 0.7, respectiv 0.9. Care este probabilitatea ca toţi trei să fi înscris?
3. Probabilităţi condiţionate

3.1 Definiţii
De multe ori in practica se pot intalni evenimente conditionate de alte evenimente. Aceasta
inseamna ca realizarea unui eveniment poate fi influentata de realizarea sau nerealizarea unui alt
eveniment.
Exemplu 3.1.1 Considerăm evenimentul A = echipa X a castigat ultimele trei meciuri in
campionat şi evenimentul B = echipa X castiga campionatul. Ne-ar putea interesa probabilitatea
evenimentului conditionat B|A = evenimentul ca echipa X sa castige campionatul stiind ca a
castigat ultimele trei meciuri. B|A se citeste evenimentul B conditionat de A.
Exemplu 3.1.2 Într-un depozit au fost aduse piese produse de 2 maşini diferite. Există şanse
ca oricare dintre cele două maşini să producă piese cu defecte. Alegem o piesă la întâmplare
din depozit. Ne-ar interesa să evaluăm şansele ca piesa aleasă să aibă defecte sau nu, ştiind
că ea poate fi produsă de oricare dintre cele două maşini. Pentru a evalua aceste şanse, facem
următoarele notaţii:
• A = evenimentul ca piesa aleasă să aibă defecte,
• B1 = evenimentul ca piesa aleasă să fi fost produsă de maşina 1,
• B2 = evenimentul ca piesa aleasă să fi fost produsă de maşina 2.
Astfel, am fi interesaţi să evaluăm probabilităţile următoarelor evenimente:
• evenimentul ca piesa să fie cu defecte ştiind că a fost produsă de maşina 1. Acest eveniment
va fi notat prin A|B1 , iar probabilitatea acestui eveniment se notează prin P(A|B1 ) sau
PB1 (A).
• evenimentul ca piesa să fie cu defecte ştiind că a fost produsă de maşina 2. Acest eveniment
va fi notat prin A|B2 , iar probabilitatea acestui eveniment se notează prin P(A|B2 ) sau
PB2 (A).
De asemenea, se poate schimba ordinea de condiţionare şi să evaluăm probabilităţile evenimente-
lor următoare:
• evenimentul ca piesa să fi fost produsă de maşina 1, ştiind că ea este cu defecte, eveniment
notat prin B1 |A. Notăm probabilitatea acestui eveniment prin P(B1 |A) sau PA (B1 ).
50 Capitolul 3. Probabilităţi condiţionate

• evenimentul ca piesa să fi fost produsă de maşina 2, ştiind că ea este cu defecte, eveniment
notat prin B2 |A. Notăm probabilitatea acestui eveniment prin P(B2 |A) sau PA (B2 ).

Considerăm două evenimente aleatoare A şi B, cu P(B) > 0. Relaţia P(B) > 0 indică faptul
că evenimentul B nu este imposibil. Avem nevoie de această condiţie deoarece nu am putea
condiţiona de un eveniment imposibil.

Definiţie 3.1.1 Definim probabilitatea evenimentului A condiţionată de realizarea evenimentului


B, notată P(A|B) sau PB (A), prin
T
P(A B)
P(A|B) = . (3.1.1)
P(B)

Exerciţiu 3.1.1 Se aruncă un zar ideal. Considerăm evenimentele:


A = evenimentul ca numărul apărut este par şi B = evenimentul ca numărul apărut este cel puţin 3.

Aflaţi probabilitatea
1. evenimentului A condiţionat de B (apare un număr par, ştiind că a apărut un număr cel
puţin egal cu 3);
2. evenimentului B condiţionat de A (apare un număr cel puţin egal cu 3, ştiind că a apărut
un număr par);
3. evenimentului A condiţionat de B (apare un număr par, ştiind că nu a apărut un număr
cel puţin egal cu 3).
R: Avem că A = {2, 4, 6}, B = {3, 4, 5, 6} şi A ∩ B = B A = {4, 6}. Atunci:
T

T
P(A B) 2/6 1
1. P(A|B) = = = .
P(B) 4/6 2
T
P(B A) 2/6 2
2. P(B|A) = = = .
P(A) 3/6 3
De asemenea, B = {1, 2} şi A B = {2}. Atunci:
T

T
P(A B) 1/6 1
3. P(A|B) = = = .
P(B) 2/6 2
Proprietăţi ale probabilităţilor condiţionate:
Proprietăţi 3.1.1 1. P(A ∩ B) = P(A|B) · P(B) = P(B|A) · P(A), ∀A, B evenimente de pro-
babilitate nenulă.
2. P(A|B) = 1 − P(A|B), ∀A, B evenimente, cu P(B) 6= 0.

Propoziţie 3.1.2 (formula probabilităţilor totale)


Fie B1 , B2 , . . . , Bn evenimente astfel încât B1 ∪ B2 ∪ . . . ∪ Bn = Ω (reuniunea lor acoperă toate
cazurile posibile) şi P(Bi ) > 0, i = 1, 2 . . . , n (nu sunt imposibile). Atunci

P(A) = P(B1 ) · P(A|B1 ) + P(B2 ) · P(A|B2 ) + . . . + P(Bn ) · P(A|Bn ). (3.1.2)


3.1 Definiţii 51

• În cuvinte, dacă evenimentele B1 , B2 , . . . , Bn pot avea o influenţă asupra lui A, atunci în


calculul probabilităţii lui A vom ţine cont de aceste evenimente, considerând probabilităţile
condiţionate ale lui A de fiecare dintre aceste evenimente, după formula de mai sus.
• În particular, dacă evenimentul A poate fi influenţat doar de evenimentul B, în calcularea
probabilităţii lui A, adică P(A), va trebui să ţinem cont de probabilităţile condiţionate ale lui A
de B şi de B, adică de evenimentele A|B şi A|B (deoarece B ∪ B = Ω). Formula (3.1.2) devine:
P(A) = P(B) · P(A|B) + P(B) · P(A|B).
Exerciţiu 3.1.2 Doua urne contin doar bile albe si negre. Urna U1 contine 3 bile albe si 4 negre,
urna U2 contine 5 bile albe si 3 negre. Extragem aleator o bila din urna U1 si o introducem in
urna U2 . Apoi, din urna U2 extragem la intamplare o bila. Care este probabilitatea ca ultima bila
extrasa sa fie alba?
R: Notăm cu A1 evenimentul ca bila extrasă din urna întâi să fie albă şi cu A2 evenimentul ca
bila extrasă din urna a doua să fie albă. Atunci:
3
P(A1 ) =
7
şi, ţinând cont că bila extrasă din prima urnă poate fi albă sau nu,
3 6 4 5 38
P(A2 ) = P(A1 ) · P(A2 /A1 ) + P(A1 ) · P(A2 /A1 ) = · + · = .
| {z } | {z } | {z } | {z } 7 9 7 9 63
prima bilă e albă a doua bilă e albă, prima bilă e neagră a doua bilă e albă,
ştiind că prima e albă ştiind că prima e neagră

Propoziţie 3.1.3 (formula lui Bayes1 )


Fie B1 , B2 , . . . , Bn evenimente astfel încât B1 ∪ B2 ∪ . . . ∪ Bn = Ω (reuniunea lor acoperă toate
cazurile posibile) şi P(Bi ) > 0, i = 1, 2 . . . , n, P(A) > 0 (adică, aceste evenimente nu sunt
imposibile). Atunci, pentru fiecare i = 1, 2, . . . , n, probabilitatea realizarii evenimentului Bi ,
condiţionată de realizarea evenimentului A este:

P(Bi ) · P(A|Bi )
P(Bi |A) = . (3.1.3)
P(A)

• Conform Propoziţiei 3.1.2, probabilitatea evenimentului A este


P(A) = P(B1 )·P(A|B1 )+P(B2 )·P(A|B2 )+. . .+P(Bn )·P(A|Bn ).
• În particular, dacă evenimentul A poate fi influenţat doar de evenimentul B, atunci B ∪ B = Ω
şi formula lui Bayes devine:
P(B) · P(A|B)
P(B|A) = .
P(B) · P(A|B) + P(B) · P(A|B)
Exerciţiu 3.1.3 Un pacient suspect de SARS-CoV2 face testul rapid. Testul rapid are o sensibilitate
de 80% (adică, 80% dintre persoanele bolnave sunt corect indicate de test a fi pozitive (true
positives) şi o specificitate de 70% (adică, 70% dintre persoanele sănătoase sunt corect indicate
de test a fi negative (true negatives). Presupunem că, în toată ţara, doar 15% sunt infectaţi cu
SARS-CoV2.
(a) Care sunt şansele ca, pentru o persoană care face testul, rezultatul testului să fie pozitiv?
(b) Dacă pacientul testează pozitiv în urma testului rapid, care sunt şansele ca pacientul să fie cu
adevărat infectat cu SARS-CoV2?
52 Capitolul 3. Probabilităţi condiţionate

R: Notăm cu A evenimentul ca pacientul să fie cu adevărat infectat cu SARS-CoV2 şi cu B


evenimentul ca rezultatul testului pentru acest pacient să fie pozitiv. Din datele problemei,

P(A) = 0.15, P(B|A) = 0.8, P(B|A) = 0.7.

Atunci, P(A) = 1 − 0.15 = 0.85 şi P(B|A) = 1 − P(B|A) = 0.3.


(a) P(B) = P(A) · P(B|A) + P(A) · P(B|A) = 0.15 · 0.8 + 0.85 · 0.3 = 0.375, adică 37.5% şanse
ca rezultatul testului să fie pozitiv.
(b) Avem de determinat P(A|B). Conform formulei lui Bayes,
P(A) · P(B|A) P(A) · P(B|A) 0.15 · 0.8
P(A|B) = = = = 0.32,
P(B) P(A) · P(B|A) + P(A) · P(B|A) 0.15 · 0.8 + 0.85 · 0.3
adică 32% şanse ca pacientul să fie cu adevărat infectat cu SARS-CoV2.

Observaţie 3.1.1 În practică, sunt întâlniţi următorii termeni: sensibilitate şi specificitate.
Sensibilitatea măsoară proport, ia testelor pozitive dintre toate probele cu adevărat pozitive. Cu
alte cuvinte, sensibilitatea unui test este capacitatea sa de a identifica corect persoanele cu boala
(adevăratele pozitive = true positives).
Specificitatea măsoară proport, ia testelor negative dintre toate es, antioanele cu adevărat negative.
Cu alte cuvinte, specificitatea unui test este capacitatea sa de a indica corect persoanele fără
boală (adevăratele negative = true negatives).
În problema anterioară, sensibilitatea este de 80% şi specificitatea este de 70%.
Exerciţiu 3.1.4 Într-un depozit au fost aduse piese produse de 2 fabrici diferite, astfel încât 40%
dintre piese sunt produse de prima fabrică şi restul de a doua fabrică. Există şanse ca oricare
dintre cele două fabrici să producă piese cu defecte. Şansele ca piesele produse de cele două
fabrici să fie cu defecte sunt de 10% şi, respectiv, de 5%. Alegem o piesă la întâmplare din
depozit şi observăm că este cu defecte.
(a) Care sunt şansele ca, alegând la întâmplare o piesă din depozit, aceasta să fie cu defecte?
(b) Care este probabilitatea să fi fost făcută de prima fabrică? Dar de a doua fabrică?
(c) Dacă administratorul depozitului are pierderi de 1400 de RON de pe urma pieselor cu defecte,
ce sume de bani ar trebui să solicite de la cele două fabrici pentru a-şi acopere pierderile?
R: Notăm cu F1 evenimentul ca o piesă aleasă din depozit să fi fost făcută de prima fabrică, cu
F2 evenimentul ca o piesă aleasă din depozit să fi fost făcută de a doua fabrică şi cu A evenimentul
ca piesa aleasă să fie defectă. Din ipoteză, avem că:

P(F1 ) = 0.4, P(F2 ) = 0.6, P(A|F1 ) = 0.1, P(A|F2 ) = 0.05.

(a) Probabilitatea ca piesa aleasă aleator din depozit să fie cu defecte este

P(A) = 0.4 · 0.1 + 0.6 · 0.05 = 0.07.


3.1 Definiţii 53

Aşadar, şansele sunt de 7%.


(b) Avem de aflat probabilitatea evenimentului B1 |A. Aceasta este (conform formulei lui Bayes):

P(F1 ) · P(A|F1 ) 0.4 · 0.1 3


P(F1 /A) = = = ≈ 0.4286.
P(F1 ) · P(A|F1 ) + P(F2 ) · P(A|F2 ) 0.4 · 0.1 + 0.6 · 0.05 7

P(F2 ) · P(A|F2 ) 0.6 · 0.05 4


P(F2 /A) = = = ≈ 0.5714.
P(B1 ) · P(A|F1 ) + P(F2 ) · P(A|F2 ) 0.4 · 0.1 + 0.6 · 0.05 7
(c) Administratorul depozitului va solicita un procent din suma pierdută, egal cu şansele de la
punctul anterior. Astfel, va solicita 37 · 1400 RON = 600 RON primei firme şi 47 · 1400 RON =
800 RON celei de-a doua firme.
Exerciţiu 3.1.5 S-a estimat statistic faptul că doar 70% dintre femeile care apelează la un test de
sarcină sunt cu adevărat însărcinate. Un anumit test de sarcină are o acurateţe de 90% în a indica
prezenţa unei sarcini în cazul în care aceasta este cu adevărat prezentă (rezultat pozitiv valid), şi
dă un rezultat pozitiv când sarcina nu este prezentă (rezultat pozitiv fals) în 6% dintre cazuri.
(a) Care este probabilitatea ca, pentru o femeie care face testul respectiv, rezultatul să indice
prezenţa unei sarcini?
(b) Dacă pentru o femeie, aleasă la întâmplare, rezultatul testului este pozitiv, care este probabi-
litatea ca ea să nu fie însărcinată?
R: (a) Fie A evenimentul ca rezultatul testului să fie pozitiv şi B evenimentul ca femeia
să fie însărcinată. Atunci P(A| B) este probabilitatea evenimentului ca rezultatul testului să fie
pozitiv valid şi P(A| B) este probabilitatea obţinerii unui rezultat pozitiv fals. Atunci, din datele
problemei avem că:

P(A| B) = 0.9; P(A| B) = 0.06; P(B) = 0.7 şi P(B) = 0.3.

Folosind formula probabilitatilor totale, obţinem:

P(A) = P(A| B) · P(B) + P(A| B) · P(B)


= 0.9 × 0.7 + 0.06 × 0.3
= 0.648.

(b) Folosind formula lui Bayes, obţinem:

P(B) · P(A| B) 0.06 · 0.3


P(B| A) = = = 0.0278.
P(A| B) · P(B) + P(A| B) · P(B) 0.648
54 Capitolul 3. Probabilităţi condiţionate

Propoziţie 3.1.4 (probabilitatea de intersecţie a n evenimente)


· · · Bn ) > 0, atunci:
T T T
Dacă B1 , B2 , . . . , Bn sunt evenimente astfel încât P(B1 B2
\ \ \
P(B1 B2 ··· Bn ) = P(B1 ) · PB1 (B2 ) · PB1 T B2 (B3 ) · . . . · PB1 T··· T Bn−1 (Bn ). (3.1.4)

În particular, pentru n = 3, avem:


\ \
P(B1 B2 B3 ) = P(B1 ) · PB1 (B2 ) · PB1 T B2 (B3 ).

Exerciţiu 3.1.6 Într-un coş sunt 10 mere, 6 roşii şi 4 verzi. Extragem, pe rând, două mere, fără
revenire. Care este probabilitatea ca primul măr să fie roşu şi al doilea verde?
R: Fie R evenimentul ca primul măr să fie roşu şi V evenimentul ca al doilea măr să fie verde.
Atunci,
6 4 4
P(R ∩V ) = P(R) · PR (V ) = · = .
10 9 15

Exerciţiu 3.1.7 O urnă conţine 5 bile albe şi 3 bile negre. Se extrag succesiv 3 bile, fără
întoarcerea bilei extrase. Care este probabilitatea ca prima bilă să fie albă şi celelalte două să fie
negre?
R: Notăm cu Ai evenimentul ca la extragerea i să vedem o bilă albă, i = 1, 2, 3. Atunci,
evenimentul cerut este A1 ∩ A2 ∩ A3 , a cărui probabilitate este:
5 3 2 5
P(A1 ∩ A2 ∩ A3 ) = P(A1 ) · PA1 (A2 ) · PA1 ∩A2 (A3 ) = · · = .
8 7 6 56

3.2 Noţiunea de independenţă a evenimentelor


Fie (Ω, F , P) un câmp de probabilitate şi A, B ∈ F două evenimente arbitrare.
Dacă anumite informaţii despre evenimentul B au influenţat în vreun fel realizarea evenimentului
A, atunci vom spune că A şi B sunt evenimente dependente. De exemplu, evenimentele A =
mâine plouă şi B = mâine mergem la plajă sunt dependente.
Să presupunem că evenimentul B satisface relaţia P(B) > 0. Vom spune că evenimentele A şi
B sunt independente dacă probabilitatea lui A este independentă de realizarea evenimentului B,
adică probabilitatea condiţionată

P(A| B) = P(A), (3.2.5)


3.2 Noţiunea de independenţă a evenimentelor 55

echivalent cu T
P(A B)
= P(A).
P(B)
Putem rescrie ultima egalitate sub forma simetrică:
\
P(A B) = P(A) · P(B). (3.2.6)

Deoarece în relaţia (3.2.6) nu mai este nevoie de condiţie suplimentara pentru P(B), este prefera-
bil să definim independenţă a două evenimente arbitrare astfel:
Definiţie 3.2.1

1. Două evenimente, A şi B, se numesc independente dacă P(A B) = P(A) · P(B).


T

2. Spunem că evenimentele A1 , A2 , . . . , An sunt independente două câte două dacă oricare
două evenimente din mulţime sunt independente.
3. Evenimentele A1 , A2 , . . . , An se numesc independente în ansamblu dacă oricum am alege
evenimente din aceasta mulţime, probabilitatea ca acestea să se realizeze simultan este
egală cu produsul probabilităţilor fiecărui eveniment în parte.
Matematic, scriem astfel:
∀k ≥ 2, ∀n1 , n2 , . . . , nk ∈ {1, 2, . . . , n}, ni distincte, are loc:
\ \ \
P(An1 An2 · · · Ank ) = P(An1 ) · P(An2 ) · . . . · P(Ank )
4. În general, evenimentele (Ai )i∈I ⊂ F , (I ⊂ N), se numesc independente dacă evenimentele
din orice submultime finita sunt independente.
Observaţie 3.2.1 Independenţa două câte două a evenimentelor nu implică independenţa în
ansamblu. Să exemplificăm considerând următorul experiment.
Considerăm aruncarea a două monede ideale. Fie A evenimentul ca "faţa ce apare la prima
monedă este stema", B evenimentul ca "faţa ce apare la a doua monedă este stema", iar C
evenimentul ca "doar la o monedă din cele două a apărut faţa cu stema". Se observă cu uşurinţă
că evenimentele A, B şi C sunt independente două câte două, deoarece:
\ 1 \ 1 \ 1
P(A C) = P(A) · P(C) = ; P(B C) = P(B) · P(C) = ; P(A B) = P(A) · P(B) = .
4 4 4
Totodată, mai observăm că oricare două dintre ele determina în mod unic pe al treilea. Aşadar,
independenţa a două câte două nu implică independenţa celor trei evenimente în ansamblu, fapt
observat şi din relaţia
\ \ 1
0 = P(A B C) 6= P(A) · P(B) · P(C) = .
8
Exerciţiu 3.2.1 Se aruncă două zaruri ideale. Fie A evenimentul în care suma celor numerele
este 7 şi B evenimentul că primul zar arată 3. Sunt aceste două evenimente independente?
R: Evenimentul total Ω este format din mulţimea tuturor perechilor posibile, care sunt în
număr de 36. Evenimentul A este

A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.

Evenimentul B este

B = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}.
56 Capitolul 3. Probabilităţi condiţionate

Evenimentul A ∩ B este A ∩ B = {(3, 4)}. Atunci, avem că


1 1 6 1 1
P(A) = = , P(B) = = , P(A ∩ B) = .
36 6 36 6 36
Observăm că P(A ∩ B) = P(A) · P(B), deci evenimentele A şi B sunt independente.
Exerciţiu 3.2.2 Se aruncă două zaruri ideale. Fie E evenimentul în care suma celor numerele
este 6 şi F evenimentul că primul zar arată 3. Sunt aceste două evenimente independente?
R: Evenimentul total Ω este format din mulţimea tuturor perechilor posibile, care sunt în
număr de 36. Evenimentul E este

E = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}.

Evenimentul F este

F = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}.

Evenimentul E ∩ F este E ∩ F = {(3, 3)}. Atunci, avem că


5 6 1 1
P(E) = , P(F) = = , P(E ∩ F) = .
36 36 6 36
Observăm că P(E ∩ F) 6= P(E) · P(F), deci evenimentele E şi F nu sunt independente.
Exerciţiu 3.2.3 Se aruncă o monedă de 3 ori. Care este probabilitatea obţinerii stemei la fiecare
aruncare?
R: Notăm cu Ai evenimentul observării stemei la aruncarea i, i = 1, 2, 3. Aceste trei eveni-
mente sunt independente. Evenimentul a cărui probabilitate se cere este A1 ∩ A2 ∩ A3 , care are
probabilitatea
1 1 1 1
P(A1 ∩ A2 ∩ A3 ) = P(A1 ) · P(A2 ) · P(A3 ) = · · = .
2 2 2 8

3.3 Probabilitatea ca o măsură a convingerii (Bayes)


Am văzut mai sus cum poate fi definită probabilitatea ca un eveniment aleator legat de un anumit
experiment aleator, presupunând că experimentul poate fi continuat la infinit în aceleaşi condiţii.
Totuşi, pentru multe dintre experimentele aleatoare, chiar dacă ele se pot repeta la infinit (cel
puţin teoretic), condiţiile de desfăşurare se schimbă de la o probă la alta. În astfel de situaţii,
cum am putea defini probabilitatea?
Spre exemplu, auzim deseori expresii de genul: probabilitatea ca el să ia examenul este foarte
mică, sau Cei doi jucători de tenis au şanse egale (50 − 50) de a câştiga meciul, sau şansele ca
mâine să plouă sunt de 75%, probabilitatea ca Ion să trăiască mai mult de 90 de ani este mare
etc.
Aceste experimente aleatoare nu pot fi repetate la infinit, în aceleaşi condiţii. Ce înţelegem,
totuşi, prin probabilitate? În fiecare dintre aceste cazuri, probabilitatea/şansa este văzută ca
fiind o măsură a convingerilor personale că evenimentul aleator corespunzător se va realiza.
Probabilistul român M. Iosifescu2 spunea că probabilitatea subiectivă este ”traducerea bunului
simţ în cifre”. Nu există o formulă teoretică pentru probabilitatea subiectivă, doarece aceasta
reflectă opinia personală a unei persoane care evaluează şansa de realizare a evenimentului,
bazându-se pe flerul sau experienţa sa.

2 Marius Iosifescu (1936−), este un matematician academician român


3.4 Exerciţii rezolvate 57

Exemplu 3.3.1 Săptămâna trecută a început campionatul naţional de fotbal. Înainte de primul
meci, Tudor avea o favorită la start, şi anume, echipa Juventus. Notăm cu C evenimentul ca
această echipă să câştige campionatul. El credea că probabilitatea acestui eveniment este P(C).
Totuşi, Juventus a pierdut primul meci. Probabilitatea ca acest eveniment să se fi întâmplat era
P(E) (aici, E reprezintă evenimentul ca echipa Juventus să piardă primul meci din campionat).
Folosind formula lui Bayes, probabilitatea condiţionată P(C/E), adică Juventus să câştige
campionatul condiţionată de pierderea primului meci, este

P(E ∩C) P(E/C)P(C)


P(C/E) = = .
P(E) P(E)

Probabilitatea P(C) se numeşte probabilitate subiectivă (sau a priori), înainte de experiment, şi
este bazată pe convingerea personală (intuiţie). După ce un experiment aleator a fost efectuat,
această probabilitate va fi ajustată pe baza informaţiei dobândite. Vom obţine astfel P(C/E),
numită probabilitate a posteriori (convingerea că Juventus va câştiga campionatul, ţinând cont
de informaţia că a pierdut primul meci). În mod similar, putem calcula probabilitatea ca Juventus
să piardă campionatul, condiţionată de pierderea primului meci, este

P(E ∩C) P(E/C)P(C)


P(C/E) = = .
P(E) P(E)

3.4 Exerciţii rezolvate


Exerciţiu 3.4.1 Se aruncă de două ori o monedă ideală. Aflaţi probabilitatea pentru fiecare dintre
evenimentele următoare:
1. apare stema la ambele aruncări.
2. apare stema la a doua aruncare, ştiind că la prima aruncare a apărut stema.
3. apare cel puţin o stemă.
R: 1. Cele două aruncări sunt efectuate în mod independent.
1 1
P(A1 ) = · = 0.25.
2 2
2. P(A2 ) = P(A2 /A1 ) = 0.5. 3. P(A3 ) = 0.75.
Exerciţiu 3.4.2 La un examen oral participa un numar de studenti. Pentru a fi examinat, fiecare
student va trebui sa extraga un bilet. In sala sunt insirate pe catedra n bilete de examen. Dintre
acestea, m sunt usoare si restul sunt grele (acest fapt este admis tacit de catre toti studentii).
Studentii intra la examen si extrag, pe rand, cate un bilet. Dintre primii doi studenti care extrag
bilete, care are sansa mai mare de a extrage un subiect usor?
R: Şansele sunt egale. Notăm cu A = evenimentul ca primul student să tragă un bilet uşor şi
B = evenimentul ca al doilea student să tragă un bilet uşor. Vom calcula P(A) şi P(B). Fireşte,
probabilitatea lui B va depinde de realizarea sau nerealizarea lui A, deci vor apărea probabilităţi
condiţionate. Avem:
m
P(A) =
n
şi
m−1 m m n−m m
P(B) = PA (B) · P(A) + PA (B) · P(A) = · + · = = P(A).
n−1 n n−1 n n
58 Capitolul 3. Probabilităţi condiţionate

Exerciţiu 3.4.3 (1) Familia Petrescu are doi copii. Copilul mai în vârsta este o fată. Care este
probabilitatea ca ambii copii să fie fete?
(2) Familia Petrescu are doi copii. Cineva s-a intâlnit cu unul dintre copii; este o fată. Care este
probabilitatea ca ambii copii să fie fete?
R: (a) Cazuri echiprobabile pentru cei doi copii ai familiei: {FF, BF}.
1
Pa = .
2
(b) Cazuri echiprobabile pentru cei doi copii ai familiei: {FF, FB, BF}.
1
Pb = .
3
Altă soluţie: Notăm cu A = evenimentul ca ambii copii sa fie fete; B1 = evenimentul ca al
doilea copil sa fie fata si B2 = evenimentul ca macar unul dintre copii sa fie fata. Cei doi copii ai
familiei pot fi dupa cum urmeaza: {FF, FB, BF, BB}.

P(A B1 ) PA (B1 )P(A) 1 · 14


T
1
(a) PB1 (A) = = = 2 = .
P(B1 ) P(B1 ) 4
2
P(A B2 ) PA (B2 )P(A) 1 · 14
T
1
(b) PB2 (A) = = = 3 = .
P(B2 ) P(B2 ) 4
3

Exerciţiu 3.4.4 Pentru o familie cu 4 copii, care eveniment vi se pare mai probabil:
[1] câte doi de acelaşi sex sau [2] trei copii de un sex şi unul de altul?
(presupunem şanse egale de naştere a unei fete sau a unui băiat)
R: Spaţiul de selecţie este:
{FFFF, FFFB, FFBF, FBFF, BFFF, FFBB, FBFB, BFFB,
BBFF, BFBF, FBBF, FBBB, BBFB, BFBB, BBBF, BBBB}
Probabilitatea de a avea câte doi de acelaşi sex este
6 C2
P1 = = 0.375 (= 44 )
16 2
Probabilitatea de a avea trei copii de un sex şi unul de altul este
8 C41 +C43
P2 = = 0.5 (= )
16 24

Exerciţiu 3.4.5 O urnă conţine 10 bile: 4 roşii şi 6 albastre. O a doua urnă conţine 16 bile
roşii şi un număr necunoscut de bile albastre. Câte o singură bilă este extrasă din fiecare urnă.
Probabilitatea ca ambele bile extrase să aibă aceeaşi culoare este 0.44. Câte bile albastre sunt în
a doua urnă?
R: Extragerile din cele două urne se fac independent. Avem că:
Ä [ ä
0.44 = P {I = red, II = red} {I = blue, II = blue}
= P({I = red}) × P({II = red}) + P({I = blue}) × P({II = blue})
4 16 6 b 3b + 32
= × + × = ,
10 16 + b 10 16 + b 5b + 80
de unde b = 4.
3.4 Exerciţii rezolvate 59

Exerciţiu 3.4.6 S-a determinat statistic că incidenţa unei anumite boli rare într-o ţară este de
doar 1 caz la 10000 de adulţi. Pentru această boală rară există un test medical. Dacă un adult are
boala, atunci testul va indica acest fapt (test pozitiv) în 99% din cazuri. De asemenea, în 2% din
cazuri, testul va fi pozitiv chiar dacă individul nu are boala (false positive). Un cetăţean adult
este selectat aleator şi este testat pentru această boală rară. Testul este pozitiv. Care sunt şansele
ca cetăţeanul să sufere de această boală?
R: Notăm cu A evenimentul ca cetăţeanul să aibă boala şi cu B evenimentul ca rezultatul testului
să fie pozitiv. Atunci, din datele problemei, avem că
P(A) = 0.0001, P(A) = 0.9999, P(B/A) = 0.99, P(B/A) = 0.02.
Atunci, P(B) = P(A) · P(B/A) + P(A) · P(B/A) = 0.030096. Folosind formula lui Bayes,
P(A) · P(B/A) 9.9 · 10−5
P(A/B) = = ≈ 0.0049.
P(B) 0.027099
Deoarece probabilitatea este de 0.0049, şansele ca un cetăţean testat pozitiv să aibă într-adevăr
boala sunt mai mici de 5 la mie!
Q: Cum explicaţi rezultatul, deşi testul pare a fi de încredere? De câte ori a crescut probabilita-
tea a posteriori faţă de cea a priori, după ce rezultatul testului a fost anunţat?
Exerciţiu 3.4.7 Trei vanatori ochesc cu puşca o aceeasi vulpe. Fiecare vânător trage câte un foc
asupra vulpii. Fiecare dintre ei poate nimeri sau nu vulpea.
(a) Scrieţi spaţiul de selecţie Ω asociat experimentului aleator.
Ştim ca probabilităţile că fiecare dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2.
(b) Care este probabilitatea ca vulpea sa scape neatinsa?
Dupa trageri, se constata ca vulpea a fost nimerita o singura data.
(c) Care este probabilitatea ca primul vanator sa o fi nimerit?
R: (a) Notăm cu S evenimentul ca un vanator atinge tinta (succes) si cu E evenimentul sa nu o
atinga (eşec). Atunci, spaţiul de selectie este:
Ω = {SSS, SSE, SES, SEE, ESS, ESE, EES , EEE}.
(b) Notăm cu pi , qi , i = 1, 2, 3, probabilităţile de succes (respectiv, eşec) pentru fiecare vânător.
De asemenea, fie Vi (i = 0, 1) evenimentul ca vulpea să fi fost atinsă de i ori. Folosind schema
lui Poisson, găsim că
2 3 1 6
P(V0 ) = q1 · q2 · q3 = · · =
3 4 2 24
1 3 1 1 1 1 1 3 1 11
P(V1 ) = p1 q2 q3 + q1 p2 q3 + q1 q2 p3 = · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
6
Aşadar, probabilitatea ca vulpea sa scape neatinsa este P(V0 ) = 24 = 0.25.
!! Evenimentele elementare din Ω nu sunt echiprobabile, deci nu putem spune că P(V0 ) =
P(EEE) = 1/8!
(c) Notam cu A1 evenimentul ca primul vanator sa nimereasca vulpea. Avem de calculat
probabilitatea conditionata P(A1 /V1 ). Folosind formula (Bayes), avem ca:
P(A1 ) · P(V1 /A1 )
P(A1 /V1 ) =
P(V1 )
1/3 · 3/4 · 1/2 3
= = .
1/3 · 3/4 · 1/2 + 2/3 · 1/4 · 1/2 + 2/3 · 3/4 · 1/2 11
60 Capitolul 3. Probabilităţi condiţionate

Aici, V1 /A1 este evenimentul ca vulpea să fi fost nimerită o singură dată, ştiind că a nimerit-o
primul vânător, care este echivalent cu evenimentul că nici al doilea şi nici al treilea vânător nu
au nimerit-o. Atunci, P(V1 /A1 ) = P(A2 ∩ A3 ) = q2 q3 .

Exerciţiu 3.4.8 Trei întreprinderi trimit acelaşi tip de piese într-un depozit central, în proporţie
de 50%, 30%, respectiv, 20%. Cele trei întreprinderi au rebuturi în proporţie de, respectiv,
1%, 3%, 2%. Valoarea pieselor ce s-au dovedit a fi rebuturi este de 3600 RON. Cum ar trebui
împărţită această sumă între cele 3 întreprinderi?
R: Vom cere fiecarei intreprinderi despagubiri in cuantumuri proportionale cu ponderile de
rebuturi din depozit aduse de fiecare dintre ele. Notăm cu:
• A−evenimentul ca o piesă aleasă la întâmplare din depozitul central să fie rebut.
• Ai −evenimentul ca, alegând la întâmplare o piesă din depozit, aceasta să aparţină firmei i.
Pentru a determina cum împărţim cei 3600 între cele 3 firme, va trebui să determină probabilităţile
condiţionate P(A1 | A), P(A2 | A), P(A2 | A), care reprezintă ponderile de rebuturi produse de
fiecare firmă, condiţionate de apariţia unui rebut la o alegere la întâmplare din depozit.
Din datele problemei avem ca:
P(A1 ) = 0.5, P(A2 ) = 0.3, P(A3 ) = 0.2, P(A|A1 ) = 0.01, P(A|A2 ) = 0.03, P(A|A3 ) = 0.02.
Folosind formula probabilitatilor totale, gasim ca:
P(A) = P(A1 )P(A|A1 ) + P(A2 )P(A|A2 ) + P(A3 )P(A|A3 )
= 0.5 · 0.01 + 0.3 · 0.03 + 0.2 · 0.02 = 0.018.
Folosind formula lui Bayes, gasim ca:
P(A1 )P(A|A1 ) 5 P(A2 )P(A|A2 ) 1
P(A1 | A) = = , P(A2 | A) = = ,
P(A) 18 P(A) 2
P(A3 )P(A|A3 ) 2
P(A3 | A) = = .
P(A) 9
În consecinţă, pierderile vor trebui să fie împărţite astfel:
5 1 2
× 3600 = 1000 (firma 1); × 3600 = 1800 (firma 2); × 3600 = 800 (firma 3).
18 2 9

Exerciţiu 3.4.9 Doua persoane joaca un joc. Ele arunca succesiv o moneda. Jocul este castigat
de acea persoana care obtine prima, la aruncarea sa, fata cu stema. Sa se calculeze probabilitatea
de castig pentru fiecare dintre jucatori, stiind ca pentru fiecare dintre ei probabilitatea de a obtine
fata cu stema este 0.5.
R: Notăm cu A1 − evenimentul ca primul jucator sa castige; A2 − evenimentul ca al doilea
jucator sa castige. Fie P(A1 ) = p si P(A2 ) = q. Atunci, p + q = 1. Mai notam cu S evenimentul
ca primul sa obtina stema la prima aruncare. Avem ca: P(S) = P(S) = 0.5, P(A1 /S) = 1,
P(A1 /S) = q (daca primul nu da stema la prima aruncare, atunci rolurile celor doi jucatori se
inverseaza). Folosind formula probabilitatilor totale, obtinem:
1 1
p = P(A1 ) = P(S)P(A1 /S) + P(S)P(A1 /S) = + q.
2 2
Rezolvand sistemul
1 1
p + q = 1, + q = p,
2 2
gasim ca p = 23 si q = 13 .
3.5 Exerciţii propuse 61

3.5 Exerciţii propuse


Exerciţiu 3.5.1 Doi studenţi aruncă fiecare câte o săgeată la ţintă. Primul nimereşte ţinta cu
probabilitatea 3/4 şi al doilea nimereşte ţinta cu probabilitatea 5/6. Care este probabilitatea ca
ţinta să fie atinsă?
Exerciţiu 3.5.2 Sase vanatori au vazut o vulpe si au tras asupra ei simultan. Presupunem ca
fiecare vanator are aceeasi sansa de a tinti vulpea, egala cu 1/3. Scrieti campul de probabilitate
si determinati probabilitatea ca vulpea sa fi fost atinsa.
Exerciţiu 3.5.3 (1) Familia Petrescu are doi copii. Unul dintre copii este o fată. Care este
probabilitatea ca ambii copii să fie fete?
(2) Familia Petrescu are doi copii. Unul dintre copii este o fată, născută în luna Mai. Care este
probabilitatea ca ambii copii să fie fete?
Exerciţiu 3.5.4 În Exerciţiul 3.4.3, considerati cazul in care nu avem convingerea ca probabilita-
tile de a fi fata sau baiat sunt egale. De exemplu, considerati cazul in care sansa ca o fata sa se
nasca in familia Petrescu este de 60% si nu de 50%.
Exerciţiu 3.5.5 În anumite familii, părinţii continuă să aibă copii pâna au cel puţin câte un copil
de fiecare sex. Să presupunem că probabilitatea de a avea un copil, indiferent de sex, este 0.5.
Pentru astfel de familii, care este probabilitatea de a avea 4 copii?
Exerciţiu 3.5.6 A şi B sunt două evenimente posibile. Arătaţi că, dacă PA (B) = P(B), atunci şi
PB (A) = P(A). Interpretaţi rezultatul.
Exerciţiu 3.5.7 Dacă P(A) = 0.25 şi P(B/A) = 0.5, aflaţi P(A ∩ B).
Exerciţiu 3.5.8 Fie A şi B două evenimente independente. Arătaţi că şi următoarele perechi de
evenimente sunt, de asemenea, independente: A şi B, A şi B, A şi B.
Exerciţiu 3.5.9 Într-un buzunar se află 10 monede, dintre care una are două steme, restul fiind
corecte. Alegem la întâmplare o monedă din buzunar şi o aruncăm de 5 ori. De fiecare dată a
apărut stema. Care sunt şansele ca ea să fie moneda măsluită?
Exerciţiu 3.5.10 O monedă ideală este aruncată de 10 ori. Care este probabilitatea să nu apară
două steme consecutive? Dar probabilitatea evenimentului ca feţe de acelaşi tip să nu apară
consecutiv?
Exerciţiu 3.5.11 In Asia, 10% dintre barbati sunt analfabeti si 15% dintre femei sunt analfabete.
Populatia Asiei este impartita astfel: 40% barbati si 60% femei. Se alege aleator o persoana din
Asia.
(a) Care este probabilitatea ca acea persoana sa fie analfabeta?
(b) Dacă persoana aleasă este analfabeta, care este probabilitatea sa fie barbat?
Exerciţiu 3.5.12 Considerăm evenimentele A şi B astfel încât P(A) = 0.4 şi probabilitatea ca
niciunul dintre ele să nu se realizeze este 0.3. Aflaţi probabilitatea lui B dacă:
• A şi B sunt incompatibile.
• A şi B sunt independente.
Exerciţiu 3.5.13 Două persoane aruncă o monedă ideală, pe rând, fiecare de n ori. Aflaţi
probabilitatea ca ele să obţină acelaşi număr de steme.
Exerciţiu 3.5.14 Se aruncă o monedă corectă de mai multe ori, până apare una dintre secvenţele
SS sau SB. În medie, SB apare înaintea secvenţei SS, deşi, la aruncarea de două ori a unei monede
corecte, ambele secvenţe au probabilitatea 1/4 de a apărea.
Exerciţiu 3.5.15 A, B, C sunt evenimente astfel încât

P(A ∩ B ∩C) = 0.1, P(A) = 0.5 şi P(B/A) = 0.4.

Determinaţi probabilitatea P(C/A ∩ B).


62 Capitolul 3. Probabilităţi condiţionate

Exerciţiu 3.5.16 O cutie opacă conţine două monede: una corectă şi una cu două steme. Scoatem
la întâmplare o monedă din cutie şi o aruncăm de n ori, obţinând de fiecare dată stema. Care sunt
şansele să fi scos moneda măsluită? Cunoscând doar rezultatele aruncărilor, vom şti vreodată cu
siguranţă ce monedă am scos?
Exerciţiu 3.5.17 Sultanul îl prinde pe Ali-Baba şi doreşte să îl pedepsească. Totuşi, se gândeşte
să-i mai dea o şansă, spunându-i: ”Ali, ai 10 bile albe şi 10 bile negre. Aşază bilele cum doreşti
în cele două urne, astfel încât nicio urnă să nu fie goală. Apoi, eu voi alege, la întâmplare, o urnă,
din care voi extrage o bilă. Dacă bila este albă, scapi nepedepsit. Altfel, vei muri.” Ajutaţi-l pe
Ali să-şi maximizeze şansele de supravieţuire.
Exerciţiu 3.5.18 La un spectacol TV aveti de ales una dintre cele 3 usi din fata. In spatele unei
usi se afla o masina, iar in spatele a celorlalte doua usi se afla cate o capra. Alegeti o usa din cele
3, insa gazda emisiunii, care stie ce se afla dincolo de usi, deschila o usa din cele ramasa si iti
arata ca se afla o capra. Totodata, gazda te intreaba daca vrei sa schimbi usa deja aleasa. O vei
face? De ce?
Exerciţiu 3.5.19 Aruncă două monede corecte legat la ochi. Cineva ît, i spune că ai aruncat cel
put, in o stemă. Care este probabilitatea ca ambele aruncări să fie steme?
4. Variabile aleatoare

. Two random variables were talking in a bar.


. They thought they were being discrete but they were continuously giggling.

4.1 Introducere
În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare reală. Se
numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece valorile
observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea numerică
este un număr real. Deoarece aceste variabile sunt legate de nişte experimente aleatoare, vom
asocia probabilităţi tuturor valorilor lor posibile. Aceste probabilităţi descriu, de fapt, şansele ca
fiecare valoare posibilă să fie observată.
Aşadar, din punct de vedere euristic, o variabilă aleatoare reală este o funcţie ce atribuie valori
reale unor probe dintr-un spaţiu de selecţie Ω al unui experiment aleator. În viaţă de zi cu zi
întâlnim numeroase astfel de funcţii, e.g., numerele ce apar la extragerea loto, numărul clienţilor
deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a unei persoane într-o
staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de clasa a IV-a la un
test de matematică etc.
Variabilele aleatoare le vom nota cu litere de la sfârşitul alfabetului, X, Y, Z sau ξ , η, ζ etc.

Exemplu 4.1.1 Un exemplu simplu de variabilă aleatoare reală este următorul. Considerăm
experimentul aleator al aruncării unei monede. Acest experiment poate avea doar două rezultate
posibile, notate S (stema) şi B (banul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui
experiment aleator îi putem ataşa funcţia (variabila aleatoare reală) X, care asociază feţei S
valoarea 1 şi feţei B valoarea 0. Matematic, scriem astfel: X : Ω → R, X(S) = 1, X(B) = 0.
Astfel, valorile 1 şi 0 pentru X vor indica faţa apărută la aruncarea monedei. O astfel de variabilă
64 Capitolul 4. Variabile aleatoare

aleatoare se numeşte variabilă aleatoare Bernoulli şi poate fi ataşată oricărui eveniment aleator
ce are doar două rezultate posibile, numite generic succes şi eşec.

Variabilele aleatoare pot fi: discrete, continue sau mixte. Variabilele aleatoare discrete sunt cele
care pot lua o mulţime finită sau cel mult numărabilă de valori. O variabilă aleatoare se numeşte
variabilă aleatoare continuă (sau de tip continuu) dacă mulţimea tuturor valorilor sale este
totalitatea numerelor dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune
disjunctă de astfel de intervale, cu precizarea că pentru orice posibilă valoare c, P(X = c) = 0. O
variabilă aleatoare mixtă este o combinaţie de două sau mai multe variabile aleatoare dicrete sau
continue. Variabilele anterioare mixte sunt mai puţin întâlnite decât celelalte două.
Exemple de variabile aleatoare discrete: numărul feţei apărute la aruncarea unui zar, numărul
de apariţii ale unui tramvai într-o staţie într-un anumit interval, numărul de insuccese apărute
până la primul succes etc. Din clasa variabilelor aleatoare de tip continuu amintim: timpul de
aşteptare la un ghişeu până la servire, preţul unui activ financiar într-o perioadă bine determinată.
Un exemplu de variabilă aleatoare mixtă: dacă timpul de aşteptare la un ghişeu este mai mare de
5 minute, firma te răsplăteşte cu 5 RON.

4.2 Variabile aleatoare discrete


Pentru a specifica o variabilă aleatoare discretă, va trebui să enumerăm toate valorile posibile pe
care aceasta le poate lua, împreună cu probabilităţile aferente. Suma tuturor acestor probabilităţi
va fi întotdeauna egală cu 1, care este probabilitatea lui Ω (spaţiul selecţiilor). Când se face
referire la repartiţia unei variabilă aleatoare discrete, se înţelege modul în care probabilitatea
totală 1 este distribuită între toate posibilele valori ale variabilei aleatoare. Presupunem că
variabila aleatoare poate lua valorile x1 , x2 , . . . , xn , . . . Pentru o scriere compactă, adeseori unei
variabilă aleatoare discrete i se atribuie una dintre următoarele reprezentări:

tabloul de repartiţie tabelul de repartiţie


Å ã
x1 x2 x3 ... xn ... xk x1 x2 x3 . . . xn ...
X: (4.2.1)
p1 p2 p3 ... pn ... pk p1 p2 p3 . . . pn ...

unde i ∈ J ⊂ N, pi = P({X = xi }) (probabilitatea ca variabila X să ia valoarea xi ) şi ∑ pi = 1.


i∈J
În cuvinte, pi este probabilitatea ca variabilă aleatoare X să ia valoarea xi . Toate probabilităţile
sunt pozitive (pi > 0) şi suma tututor probabilităţilor corespunzătoare valorilor unei variabilă
aleatoare discrete este egală cu 1.

Dacă variabila aleatoare X poate lua un număr finit de valori, x1 , x2 , . . . , xn , atunci scriem

tabloul de repartiţie tabelul de repartiţie


Å ã
x1 x2 . . . xn xk x1 x2 x3 . . . xn
X: (4.2.2)
p1 p2 . . . pn pk p1 p2 p3 . . . pn

unde pi = P({X = xi }), i = 1, 2, . . . , n.


4.2 Variabile aleatoare discrete 65

Exemplu 4.2.1 Urmărim timpul de funcţionare a unui anumit tip de baterie şi ne interesează să
vedem dacă bateria a funcţionat mai mult de 1 an, cât are perioada de garanţie. Atunci, putem
considera o variabilă aleatoare X care să indice dacă bateria a funcţionat mai mult de 1 an.
Matematic, putem scrie această variabilă astfel:
®
1, dacă bateria a funcţionat mai mult de 1 an
X=
0, dacă bateria a funcţionat mai puţin de 1 an

O astfel de variabilă aleatoare discretă se numeţe variabilă aleatoare indicator.


Exemplu 4.2.2 Presupunem că X este variabila aleatoare ce reprezintă faţa ce apare la aruncarea
unei monede ideale. Această variabilă aleatoare ia valorile S şi B, cu ponderile asociate toate
egale cu 1/2. Această variabilă o mai putem reprezenta în una din următoarele forme:
tabloul de repartiţie tabelul de repartiţie

S B S B
Å ã
xk
X:
1/2 1/2 pk 1/2 1/2

Exemplu 4.2.3 Presupunem că X este variabila aleatoare ce reprezintă numărul de puncte ce
apare la aruncarea unui zar ideal. Această variabilă aleatoare ia valorile 1, 2, 3, 4, 5, 6, cu ponde-
rile asociate toate egale cu 1/6. Această variabilă o mai putem reprezenta în una din următoarele
forme:
tabloul de repartiţie tabelul de repartiţie
Å ã
1 2 3 4 5 6 xk 1 2 3 4 5 6
X:
1/6 1/6 1/6 1/6 1/6 1/6 pk 1/6 1/6 1/6 1/6 1/6 1/6

Exemplu 4.2.4 (repartiţia Poisson1 ) Pentru un λ > 0, considerăm variabila aleatoare X care
are ca valori toate numerele naturale, cu ponderile respective:

λk
P(X = k) = e−λ , ∀k ∈ N.
k!
Vom spune astfel că variabila aleatoare X urmează repartiţia Poisson de parametru λ . Matematic,
scriem X ∼ P(λ ). Valorile sale reprezintă numărul evenimentelor spontane (cu intensitatea λ )
realizate într-un anumit interval de timp. Această variabilă aleatoare o putem reprezenta în una
dintre următoarele forme:
tabloul de repartiţie tabelul de repartiţie
Ç å
0 1 2 ··· k ··· xk 0 1 2 ··· n ···
X: 2 k 2 k
e−λ e−λ 1!
λ
e−λ λ2! ··· e−λ λk! ··· pk e−λ e−λ 1!
λ
e−λ λ2! ··· e−λ λk! ···

1 Siméon-Denis Poisson (1781 − 1840), matematician şi fizician francez, student al lui Laplace
66 Capitolul 4. Variabile aleatoare

4.2.1 Operaţii cu variabile aleatoare discrete


Suma şi produsul cu o constantă

Dacă c ∈ R∗ este o constantă şi X este o variabilă aleatoare ca în (4.2.2), atunci c + X şi cX sunt
tot variabile aleatoare, ce au tablourile de repartiţie

Å ã Å ã
c + x1 c + x2 c + x3 . . . c + xn c · x1 c · x2 c · x3 . . . c · xn
c+X : cX :
p1 p2 p3 ... pn p1 p2 p3 ... pn

Exemplu 4.2.5 Notăm cu X este variabila aleatoare ce reprezintă numărul apărut la aruncarea
unui zar ideal Dacă la toate numerele de pe feţele unui zar se adaugă valoarea 10, atunci variabila
aleatoare ce reprezintă numărul apărut va fi Y = X + 10, cu tabloul de repartiţie
Å ã
11 12 13 14 15 16
X + 10 :
1/6 1/6 1/6 1/6 1/6 1/6
Dacă toate numerele de pe feţele unui zar se dublează, atunci variabila aleatoare ce reprezintă
numărul apărut va fi Z = 2 · X, cu tabloul de repartiţie
Å ã
2 4 6 8 10 12
2·X :
1/6 1/6 1/6 1/6 1/6 1/6
Adunarea variabilelor aleatoare

Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie


Å ã Å ã
x1 x2 x3 . . . xm y1 y2 y3 . . . yn
X: Y:
p1 p2 p3 . . . pm q1 q2 q3 . . . qn

atunci X +Y = Y + X este tot o variabilă aleatoare, ce are tabloul de repartiţie

Å ã
x1 + y1 x1 + y2 . . . xi + y j . . . xm + yn
X +Y :
r11 r12 ... ri j ... rmn

Aici, ri j este probabilitatea realizării simultane a evenimentelor {X = xi } şi {Y = y j }.


În cuvinte, tabloul variabilei X +Y va conţine toate sumele posibile realizate cu elementele lui X
şi Y . Dacă o valoare de tipul xi + y j se repetă, atunci ea va fi scrisă o singură dată în tabloul lui
X +Y , iar probabilităţile aferente se vor aduna.
Exemplu 4.2.6 Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie
Å ã Å ã
−1 0 0 1 2
X: Y:
1/2 1/2 1/2 1/4 1/4
atunci variabila aleatoare X +Y va avea tabloul de repartiţie
Å ã
−1 + 0 −1 + 1 −1 + 2 0 + 0 0+1 0+2
X +Y :
1/4 1/8 1/8 1/4 1/8 1/8
4.2 Variabile aleatoare discrete 67

Scriind doar o dată valorile care se repetă şi adunând probabilităţile aferente, găsim că
Å ã
−1 0 1 2
X +Y :
2/8 3/8 2/8 1/8

Produsul variabilelor aleatoare

Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie


Å ã Å ã
x1 x2 x3 . . . xm y1 y2 y3 . . . yn
X: Y:
p1 p2 p3 . . . pm q1 q2 q3 . . . qn

atunci X ·Y = Y · X este tot o variabilă aleatoare, ce are tabloul de repartiţie

Å ã
x1 · y1 x1 · y2 . . . xi · y j . . . xm · yn
X ·Y :
r11 r12 ... ri j ... rmn

Aici, ri j este probabilitatea realizării simultane a evenimentelor {X = xi } şi {Y = y j }.


În cuvinte, tabloul variabilei X ·Y va conţine toate produsele posibile realizate cu elementele lui
X şi Y . Dacă o valoare de tipul xi · y j se repetă, atunci ea va fi scrisă o singură dată în tabloul lui
X ·Y , iar probabilităţile aferente se vor aduna.
Exemplu 4.2.7 Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie
Å ã Å ã
−1 0 0 1 2
X: Y:
1/2 1/2 1/2 1/4 1/4
atunci variabila aleatoare X ·Y va avea tabloul de repartiţie
Å ã
−1 · 0 −1 · 1 −1 · 2 0 · 0 0 · 1 0 · 2
X ·Y :
1/4 1/8 1/8 1/4 1/8 1/8
Scriind doar o dată valorile care se repetă şi adunând probabilităţile aferente, găsim că
Å ã
−2 −1 0
X ·Y :
1/8 1/8 6/8

Ridicarea la putere a unei variabile aleatoare

Dacă X este o variabilă aleatoare ce are tabloul de repartiţie


Å ã
x1 x2 x3 . . . xn
X:
p1 p2 p3 . . . pn
şi p este un număr real, atunci definim puterea variabilei aleatoare X, notată prin X p , o variabilă
aleatoare ce are tabloul de repartiţie
Å p
x1 x2p x3p . . . xnp
ã
p
X :
p1 p2 p3 . . . pn
La fel, dacă o valoare de tipul xip se repetă, atunci ea va fi scrisă o singură dată în tabloul lui X p ,
iar probabilităţile aferente se vor aduna.
68 Capitolul 4. Variabile aleatoare

Exemplu 4.2.8 Dacă X este variabila aleatoare ce are tabloul de repartiţie


Å ã
−2 −1 0 1 2
X:
1/5 1/5 1/5 1/5 1/5

atunci variabila aleatoare X 4 va avea tabloul de repartiţie

(−2)4 (−1)4 04 14 24
Å ã
4
X :
1/5 1/5 1/5 1/5 1/5

Scriind doar o dată valorile care se repetă şi adunând probabilităţile aferente, găsim că
Å ã
4 0 1 16
X :
1/5 2/5 2/5

Definiţie 4.2.1 Dacă X este o variabilă aleatoare discretă de forma (4.2.2), atunci definim
funcţia de probabilitate (de frecvenţă) (en., probability mass function) ataşată variabilei aleatoare
discrete X ca fiind o funcţie f : R → [0, 1], definită prin

f (xi ) = pi , i = 1, 2, 3, . . . , n.

În cuvinte, pentru fiecare posibilă valoare a unei variabilă aleatoare discrete, funcţia de probabili-
tate ataşează probabilitatea cu care X ia această valoare. Funcţia f are proprietatea că

n
f (xi ) ≥ 0 şi ∑ f (xi) = 1.
i=1

Exemplu 4.2.9 Reamintim că, pentru experimentul aruncării unui zar ideal, variabila aleatoare
(discretă) ataşată este
Å ã
1 2 3 4 5 6
X:
1/6 1/6 1/6 1/6 1/6 1/6

În Figura 4.1 de mai jos am reprezentat grafic funcţia de probabilitate pentru variabila aleatoare
X ce afişează numărul apărut la aruncarea unui zar ideal. Această funcţie este

f : {1, 2, 3, 4, 5, 6} → [0, 1], definită prin:




 1/6, dacă apare faţa 1

1/6, dacă apare faţa 2





1/6, dacă apare faţa 3
f (x) =
 1/6, dacă apare faţa 4
Figura 4.1: Graficul funcţiei de probabilitate





 1/6, dacă apare faţa 5 corespunzătoare aruncării unui zar

1/6, dacă apare faţa 6

După cum vom vedea în continuare, funcţia de probabilitate este pentru o variabilă aleatoare
discretă ceea ce o densitate de repartiţie este pentru o variabilă aleatoare continuă.
4.3 Variabile aleatoare de tip continuu 69

4.3 Variabile aleatoare de tip continuu


O variabilă aleatoare se numeşte de tip continuu dacă variabila ia o mulţime infinită nenumărabilă
de valori, de obicei valorile unui interval sau toate valorile reale.
Graficul unei distribuţii de probabilitate de tip continuu este
o curbă. Probabilitatea este reprezentată de aria de sub curbă.
Funcţia care defineşte curba se numeşte densitate de probabi-
litate (scriem prescurtat pdf). Folosim simbolul f (x) pentru
a nota densitatea de probabilitate.
Zona de sub curbă este reprezentată de o funcţie diferită,
numită funcţia de repartiţie (prescurtată ca cdf), pe care
o vom nota cu F(x). Funcţia de repartiţie este utilizată
în avalua probabilitatea ca fiind o arie (aria subgraficului
funcţiei f (x)).

Figura 4.2: (a) repartiţia uniformă pe intervalul [0, 1] (b) repartiţia normală standard

Pentru ca o funcţie reală să poată fi o densitate de repartiţie a unei variabile aleatoare, ea trebuie
sa satisfacă următoarele condiţii:
Z ∞
[1] f (x) ≥ 0, [2] f (x) dx = 1.
−∞

Exemplu 4.3.1 Funcţia f : R → R definită prin


ß
1 , x ∈ [0, 1]
f (x) = (4.3.3)
0 ,x∈ 6 [0, 1]
este o densitatea de repartiţie ce corespunde unei variabile aleatoare uniform continue pe interva-
lul [0, 1] (vezi Figura 4.2 (a)).
Exemplu 4.3.2 (repartiţia normală standard) Spunem că o variabilă aleatoare X urmează o
repartiţie normalăstandard, scris sub forma X ∼ N (0, 1), dacă densitatea de repartiţie a lui X
este (reprezentarea grafică este în Figura 4.2 (b)):
1 x2
f (x) = √ e− 2 , x ∈ R. (4.3.4)

Această repartiţie se mai numeşte şi repartiţia gaussiană.

În practică, repartiţia unei variabilă aleatoare discrete va fi reprezentată de un tablou (tabel) de


repartiţie, iar repartiţia unei variabilă aleatoare continue va fi reprezentată de densitatea sa de
repartiţie.
70 Capitolul 4. Variabile aleatoare

Funcţia de probabilitate sau densitatea de repartiţie poate depinde de unul sau mai mulţi parametri
reali.
Considerăm un câmp de probabilitate (Ω, F , P) şi fie X o variabilă aleatoare reală definită pe
acest câmp. În continuare, vom introduce diverse caracteristici (numerice şi funcţionale) pentru
variabilele aleatoare.

4.4 Independenţa variabilelor aleatoare


Conceptul de independenţă a variabilă aleatoare sau a evenimentelor este foarte important din
punctul de vedere al calculului probabilităţilor evenimentelor compuse din evenimente mai
simple.

Definiţie 4.4.1 (i) Spunem că două variabilele aleatoare X şi Y sunt independente dacă pentru
orice a, b ∈ R, evenimentele {X ≤ a} şi {Y ≤ b} sunt independente, adică:

P({X ≤ a} ∩ {X ≤ b}) = P(X ≤ a) · P(Y ≤ b).

(ii) Spunem că variabilele aleatoare {Xi }ni=1 sunt independente dacă pentru orice set de numere
reale a1 , a2 , . . . , an , are loc:

P ({X1 ≤ a1 } ∩ {X2 ≤ a2 } ∩ · · · ∩ {Xn ≤ an }) = P(X1 ≤ a1 ) · P(X2 ≤ a2 ) · . . . · P(Xn ≤ an ).

Dacă X şi Y sunt variabile aleatoare ce au tablourile de repartiţie


Å ã Å ã
x1 x2 x3 . . . xm y1 y2 y3 . . . yn
X: Y:
p1 p2 p3 . . . pm q1 q2 q3 . . . qn

atunci variabilele aleatoare X +Y şi X ·Y vor fi:

Å ã
x1 + y1 x1 + y2 . . . xi + y j . . . xm + yn
X +Y :
p1 · q1 p1 · q2 . . . pi · q j . . . pm · qn
Å ã
x1 · y1 x1 · y2 ... xi · y j ... xm · yn
X ·Y :
p1 · q1 p1 · q2 ... pi · q j ... pm · qn
Exemplu 4.4.1 Să considerăm aruncarea unui zar. Aruncăm zarul de două ori şi notăm cu X1 ,
respectiv, X2 , variabilă aleatoare ce reprezintă numărul de puncte apărute la fiecare aruncare.
Evident, valorile acestor variabilă aleatoare sunt din mulţimea {1, 2, 3, 4, 5, 6}. Aşadar,
Xi : Ω → {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:
1
P ({X1 = i} ∩ {X2 = j}) = P ({X1 = i, X2 = j}) =
36
= P({X1 = i}) · P({X2 = j}), ∀i, j ∈ {1, 2, 3, 4, 5, 6},
această însemnând că variabilele aleatoare X1 şi X2 sunt independente stochastic (aruncările au
fost efectuate independent una de cealaltă).
4.5 Caracteristici numerice ale unei variabile aleatoare 71

4.5 Caracteristici numerice ale unei variabile aleatoare


4.5.1 Media (sau valoarea aşteptată)
(en., expected value; fr., espérance; ger., Erwartungswert)

Definiţie 4.5.1 Dacă X este o variabilă aleatoare discretă având tabelul de repartiţie (4.2.2) şi
funcţia de probabilitate f , atunci media acestei variabilă aleatoare se defineşte prin:

E(X) = p1 x1 + p2 x2 + p3 x3 + . . . + pn xn . (4.5.5)

Definiţie 4.5.2 Dacă X este o variabilă aleatoare de tip continuu, cu densitatea de repartiţie
f : R → R, atunci media (teoretică) acestei variabilă aleatoare, dacă există (!) (nu toate variabilele
aleatoare de tip continuu admit medie), se defineşte astfel:
Z ∞
E(X) = x f (x)dx. (4.5.6)
−∞

Proprietăţi 4.5.1

1. E(c) = c, ∀c ∈ R. În particular, E(E(X)) = E(X).


2. Dacă X = Y şi E(X), E(Y ) există, atunci E(X) = E(Y ).
3. Dacă X ≥ 0 atunci E(X) ≥ 0.
4. Dacă X ≤ Y şi E(X), E(Y ) există, atunci E(X) ≤ E(Y ).
5. E(aX + bY ) = aE(X) + bE(Y ), ∀a, b ∈ R, ∀X, Y v.a. ce admit medie.
6. |E(X)| ≤ E(|X|), pentru orice v.a. X.
Definiţie 4.5.3 Fie X este o variabilă aleatoare discretă având tabelul de repartiţie (4.2.2) şi
funcţia de probabilitate f . Atunci, pentru orice funcţie continuă h(x), media variabilă aleatoare
h(X) (dacă există) se defineşte prin:

E(h(X)) = p1 h(x1 ) + p2 h(x2 ) + p3 h(x3 ) + . . . + pn h(xn ).

Definiţie 4.5.4 Dacă X este o variabilă aleatoare de tip continuu, cu densitatea de repartiţie
f : R → R. Atunci, pentru orice funcţie continuă h(x), media variabilă aleatoare h(X) (dacă
există) se defineşte prin: Z ∞
E(h(X)) = h(x) f (x)dx.
−∞

4.5.2 Dispersia (varianţa)


Dacă X este o variabilă aleatoare care admite medie. Variabila aleatoare X = X − E(X) (numită
abaterea lui X de la media sa), atunci E(X) = 0. Aşadar, nu putem măsură gradul de împrăştiere
a valorilor lui X în jurul mediei sale doar calculând X − E(X). Avem nevoie de o altă măsură.
Aceasta este dispersia variabilei aleatoare.

Definiţie 4.5.5 Dacă X este o variabilă aleatoare discretă având tabelul de repartiţie (4.2.2), cu
media E(X) = m, definim dispersia lui X (notată Var(X) sau Var(X)) ca fiind:

Var(X) = E[(X −m)2 ] = p1 (x1 −m)2 + p2 (x2 −m)2 + p3 (x3 −m)2 +. . .+ pn (xn −m)2 . (4.5.7)
72 Capitolul 4. Variabile aleatoare

Definiţie 4.5.6 Fie X : Ω → R o variabilă aleatoare de tip continuu pentru care există E(X) =
m ∈ R. Definim dispersia lui X (sau varianţa lui X) cantitatea
Z ∞
2
Var(X) = E[(X − m) ] = (x − m)2 f (x) dx. (4.5.8)
−∞

Notaţiile consacrate pentru dispersie sunt Var(X), σX2 sau, simplu, σ 2 , dacă nu este pericol de
confuzie. Alte formule pentru dispersie:
 Ç å2
2

∑ xi pi − ∑ xi pi , în cazul discret



2 2
Var(X) = E[X ] − [E(X)] = Z ∞
i∈J
Åi∈J
Z ∞ ã2

2
x f (x) dx − x f (x) dx , în cazul continuu



−∞ −∞

Proprietăţi 4.5.2

1. Dispersia este întotdeauna ne-negativă, adică Var(X) ≥ 0, pentru orice v.a. X


2. Dispersia unei constante este 0, adică Var(c) = 0, ∀c ∈ R.
3. Dispersia produsului dintre o constantă şi o variabile aleatoare este egală cu produsul
dintre pătratul constantei şi dispersia variabilei aleatoare, adică Var(aX) = a2Var(X).
4. Dacă două variabile aleatoare diferă printr-o constantă, atunci ele au dispersii egale,
adică Var(X + a) = Var(X), ∀a ∈ R.
5. Dacă X1 , X2 , . . . , Xn sunt variabile aleatoare independente, ce admit dispersii, atunci
dispersia sumei lor va fi egală cu suma dispersiilor, adică

Var(X1 + X2 + . . . + Xn ) = Var(X1 ) +Var(X2 ) + . . . +Var(Xn ).

Definiţie 4.5.7 √Numimpabatere standard (sau deviaţie standard, sau deviaţie medie pătratică)
cantitatea σ = σ2 = Var(X).

4.5.3 Standardizarea unei variabile aleatoare


Fie variabila aleatoare X, de medie m şi dispersie σ 2 .

X −m
Definiţie 4.5.8 Variabila aleatoare Y = se numeşte variabila aleatoare standardizată
σ
(sau normată).

Proprietăţi: E(Y ) = 0, Var(Y ) = 1.

4.5.4 Momente
Pentru o variabilă aleatoare X (discretă sau continuă), ce admite medie, momentele sunt valorile
aşteptate ale puterilor variabilei aleatoare X sau X − µ.
4.5 Caracteristici numerice ale unei variabile aleatoare 73

Pentru o variabilă aleatoare X discretă, cu E(X) = m şi pi = P(Ai ), i = 1, 2, . . . , n, momentele


sunt valorile aşteptate ale puterilor variabilă aleatoare X sau X − µ. Definim astfel:

αk (X) = p1 x1k + p2 x2k + p3 x3k + . . . + pn xnk (momente iniţiale de ordin k);


µk (X) = p1 (x1 − m) + p2 (x2 − m) + p3 (x3 − m) + . . . + pn (xn − m)k
k k k

(momente iniţiale centrate de ordin k);

Pentru o v.a. X de tip continuu ce admite medie m = E(X) < ∞, definim momentele:
Z ∞
αk (X) = xk f (x) dx (momente iniţiale de ordin k);
Z −∞

µk (X) = (x − m)k f (x) dx (momente iniţiale centrate de ordin k);
−∞

Momente speciale:

• α1 (X) = E(X) = m;

• µ2 (X) = Var(X) = σ 2 ;

µ3 (X)
• γ1 = este coeficientul de asimetrie (en., skewness);
σ3
O repartiţie este simetrică dacă γ1 = 0. Vom spune că asimetria este pozitivă (sau la
dreapta) dacă γ1 > 0 şi negativă (sau la stânga) dacă γ1 < 0.

µ4 (X)
• K= − 3 este excesul (coeficientul de aplatizare sau boltire) (en., kurtosis).
σ4
Este al patrulea moment standardizat şi apoi translatat cu −3. Termenul (−3) apare pentru
că indicele kurtosis al distribuţiei normale să fie egal cu 0.
Indică dacă repartiţia unei variabile are valori extreme (outliers). Termenul (−3) apare
pentru că indicele kurtosis al distribuţiei normale să fie egal cu 0. Vom avea o repartiţie
mezocurtică pentru K = 0, leptocurtică pentru K > 0 sau platocurtică pentru K < 0.

4.5.5 Cuantile
Fie X o variabilă aleatoare cu funcţia de repartiţie F(x) = P(X ≤ x).

Definiţie 4.5.9 Pentru α ∈ (0, 1), definim cuantila de ordin α valoarea xα ∈ R astfel încât:

xα = min{x ∈ R; F(x) ≥ α}. (4.5.9)

Dacă X este o variabilă aleatoare de tip continuu şi F(x) este strict crescătoare pe R, atunci xα
este unica valoare pentru care

F(xα ) = α (echivalent cu xα = F −1 (α)). (4.5.10)


74 Capitolul 4. Variabile aleatoare

Observaţie 4.5.1 (1) Cuantilele sunt măsuri de poziţie, ce măsoară locaţia unei anumite valori
faţă de restul valorilor. Ele sunt unice doar dacă variabila aleatoare este continuă şi F(x) este
strict crescătoare.
(2) În cazul în care X este o variabilă aleatoare discretă, este posibil să avem mai mult de o
cuantilă de ordin α pentru X. În acest caz, există o infinitate de soluţii, şi anume valorile dintr-un
interval (vezi Figura 4.4, unde toate valorile din intervalul [x1 , x2 ] sunt α−cuantile).
(3) Aşa cum se poate observa din Figura 4.3, valoarea xα pentru o repartiţie continuă este acel
număr real pentru care aria haşurată este chiar α.

Figura 4.4: Cuantile de ordin α pentru o


Figura 4.3: Cuantila de ordin α pentru o repartiţie discretă
repartiţie continuă
(4) Cazuri particulare de cuantile:
• pentru a face o împărţire a subgraficului funcţiei de densitate f (x) în două arii egale (adică,
α = 1/2) folosim mediana. Astfel, F(Me) = 0.5. Mediana (notata Me) este valoarea care
imparte repartitia in doua parti in care variabila X ia valori cu probabilitati egale. Scriem
asta astfel:
P(X ≤ Me) = P(X ≥ Me) = 0.5.
Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media
pentru tendinta centrala a valorilor variabilei.
• pentru a face o împărţire a subgraficului funcţiei de densitate f (x) în patru arii egale
(adică, α = i/4, i ∈ {1, 2, 3}), folosim cuartilele. Prima cuartila, Q1 , este acea valoare
pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.25. Scriem asta astfel:
P(X ≤ Q1 ) = 0.25. Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia,
Q3 , este acea valoare pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.75.
Scriem asta astfel: P(X ≤ Q3 ) = 0.75.
• pentru a face o împărţire a subgraficului funcţiei de densitate f (x) în zece arii egale (adică,
α = j/10, j ∈ {1, 2, . . . , 9}), folosim decilele. Prima decila este acea valoare pentru care
probabilitatea ca X sa ia o valoare la stanga ei este 0.1.
• pentru a face o împărţire a subgraficului funcţiei de densitate f (x) în o sută de arii egale
(adică, α = j/100, j ∈ {1, 2, . . . , 99}). folosim centilele. Prima centila este acea valoare
pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.01.
(5) Dacă X ∼ N (0, 1), atunci cuantilele de ordin α le vom nota prin zα .

4.5.6 Modul
Este acea valoare x∗ pentru care f (x∗ ) (densitatea de repartiţie sau funcţia de probabilitate) este
maximă. O repartiţie poate să nu aibă niciun mod, sau poate avea mai multe. Spre exemplu,
4.6 Funcţia de repartiţie 75

repartiţia uniform discretă (spre exemplu, v.a. ce reprezintă punctele apărute la aruncarea unui
zar ideal) nu are niciun mod, iar repartiţia normală este unimodală.

4.6 Funcţia de repartiţie

Numim funcţie de repartiţie ataşată v.a. reale X o funcţie F : R → [0, 1], definită prin

F(x) = P({X ≤ x}), pentru orice x ∈ R.

Termenul din engleză pentru funcţia de repartiţie este cumulative distribution function (cdf).

Proprietăţi ale funcţiei de repartiţie:


• este crescătoare (F(x) ≤ F(y), ∀x, y ∈ R, x ≤ y);
• este continuă la dreapta (lim F(y) = F(x), ∀x ∈ R);
y&x
• lim F(x) = 0 şi lim F(x) = 1.
x→−∞ x→∞
În cazul unei variabile aleatoare discrete, cu tabelul de repartiţie dat de (4.2.1), funcţia de
repartiţie este:
F(x) = ∑ pi , (4.6.11)
{i; xi ≤x}

adică suma tuturor probabilităţilor corespunzătoare valorilor lui X care nu-l depăşesc pe x.
Exemplu 4.6.1 Considerăm variabila aleatoare ce are următorul tablou de repartiţie:
Å ã
1 2 3 4 5
X:
0.04 0.16 0.2 0.25 0.35
Funcţia de repartiţie a lui X este F : R −→ [0, 1], definită prin:



0, dacă x < 1,

0.04, dacă 1 ≤ x < 2,





0.04 + 0.16 = 0.2, dacă 2 ≤ x < 3,
F(x) =


0.04 + 0.16 + 0.2 = 0.4, dacă 3 ≤ x < 4,
0.04 + 0.16 + 0.2 + 0.25 = 0.65, dacă 4 ≤ x < 5,





0.65 + 0.35 = 1, dacă x ≥ 5.

Dacă X variabilă aleatoare discretă, atunci pentru orice două numere reale a şi b (a ≤ b), vom
avea:
P(a ≤ X ≤ b) = F(b) − F(a−), P(a < X ≤ b) = F(b) − F(a),
P(a ≤ X < b) = F(b−) − F(a−), P(a < X < b) = F(b−) − F(a).
Dacă X este o variabilă aleatoare continuă şi f este densitatea sa de repartiţie, atunci funcţia de
repartiţie este dată de formula:
Z x
F(x) = f (t) dt, x ∈ R. (4.6.12)
−∞
76 Capitolul 4. Variabile aleatoare

Dacă X variabilă aleatoare continuă, atunci pentru orice două numere reale a şi b (a ≤ b), vom
avea:
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b) = F(b) − F(a).
Observaţie 4.6.1 Deseori în calcule probabilistice, avem de calculat evenimentul P(X > x),
pentru un x ∈ R dat. Numim funcţie de repartiţie complementară, funcţia Fc : R → [0, 1], dată
prin F(x) = P(X > x) = 1 − F(x), ∀x ∈ R.

Regula celor 3 sigma

Fie X o variabilă aleatoare care ia valori nenegative şi pentru care media µ = E(X) < ∞. Atunci,
pentru orice a > 0 are loc inegalitatea:
σ2
P(|X − µ| ≥ a) ≤ pentru orice a > 0. (Cebîşev2 )
a2
Dacă în inegalitatea lui Cebîşev luăm a = kσ , unde k ∈ N, atunci obţinem:
1
P(|X − µ| ≥ kσ ) ≤ 2 ,
k
sau, echivalent:
1
P(|X − µ| < kσ ) ≥ 1 − 2 .
k
În cazul particular k = 3, obţinem regula celor 3σ :
1
P(|X − µ| ≥ 3σ ) ≤ ≈ 0.1.
9
sau
8
P(µ − 3σ < X < µ + 3σ ) ≥ , (4.6.13)
9
semnificând că o mare parte din valorile posibile ale variabilei aleatoare X se află în intervalul
[µ − 3σ , µ + 3σ ].
Teorema 4.6.1 Dacă X şi Y sunt variabile aleatoare independente şi g, h sunt două funcţii,
atunci şi variabilele aleatoare g(X) şi h(Y ) sunt independente.
În plus, dacă există mediile E(|g(X)|) şi E(|h(Y )|), atunci există şi E(|g(X) · h(Y )|) şi, în plus,
E(g(X) · h(Y )) = E(g(X)) · E(h(Y )).
Rezultatul poate fi generalizat la mai multe variabile aleatoare independente.
În particular, dacă funcţiile din rezultatul anterior sunt funcţiile identice, atunci obţinem:
Teorema 4.6.2 Dacă X1 , X2 , . . . , Xn sunt variabile aleatoare reale independente astfel încât
E(|Xk |) < ∞, ∀k = 1, 2, . . . , n,
atunci E(|X1 · X2 · . . . · Xn |) < ∞ şi:
E(X1 · X2 · . . . · Xn ) = E(X1 ) · E(X2 ) · . . . · E(Xn ). (4.6.14)
Teorema 4.6.3 Dacă X1 , X2 , . . . , Xn sunt variabile aleatoare reale independente astfel încât
Var(Xk ) < ∞, ∀k = 1, 2, . . . , n,
atunci Var(X1 + X2 + . . . + Xn ) < ∞ şi:
Var(X1 + X2 + . . . + Xn ) = Var(X1 ) +Var(X2 ) + . . . +Var(Xn ). (4.6.15)
2 Pafnuty Lvovich Chebyshev (1821 − 1894), matematician rus
4.6 Funcţia de repartiţie 77

4.6.1 Repartiţii discrete


În paranteză, am notat numele cu care repartiţia poate fi apelată în M ATLAB.

(1) Repartiµia uniform discret , U (n) (unid)

Scriem că X ∼ U (n), dacă valorile lui X sunt {1, 2, . . . , n}, cu probabilităţile asociate
1
P(X = k) = , k = 1, 2, . . . , n.
n
n+1 n2 − 1
Media şi dispersia sunt: E(X) = , Var(X) = .
2 12
D.p.d.v. practic, repartiţia uniformă reprezintă observarea unui rezultat elementar în urma unui
experiment aleator cu un număr finit de cazuri posibile echiprobabile. Spre exemplu:
• faţa care apare la aruncarea unei monede ideale este o v.a. repartizată U (2);
• numărul de puncte care apar la aruncarea unui zar ideal este o v.a. repartizată U (6).

(2) Repartiµia Bernoulli3 , B(1, p) (bino)

O variabilă aleatoare Bernoulli (scriem X ∼ B(1, p)) poate lua doar două valori, care sunt
formalizate matematic prin X = 1 (succes) sau X = 0 (insucces), cu probabilităţile P(X = 1) = p
şi P(X = 0) = 1 − p. Uneori, se foloseşte notaţia q = 1 − p.
Media şi dispersia sunt: E(X) = p, Var(X) = p(1 − p).
D.p.d.v. practic, o variabilă B(1, p) reprezintă numărul de succese obţinute într-o singură probă
a unui experiment de tip Bernoulli (are două variante de realizare: succes sau eşec). Spre
exemplu, numărul de steme apărute la aruncarea unei unei monede corecte poate fi modelat ca
fiind o v.a. B(1, 0.5).

(3) Repartiµia binomial , B(n, p): (bino)

Este un model matematic pentru schema bilei revenite (schema extragerilor cu repetiţie). Scriem
că X ∼ B(n, p) (n > 0, p ∈ (0, 1)), dacă valorile posibile ale lui X sunt {0, 1, . . . , n}, cu
probabilităţile asociate

P(X = k) = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n.


n
Dacă (Xk )k=1,n ∼ B(1, p) sunt independente stochastic, atunci X = ∑ Xk ∼ B(n, p).
k=1
n n
Media şi dispersia sunt: E(X) = ∑ E(Xk ) = np, Var(X) = ∑ Var(Xk ) = np(1 − p).
k=1 k=0
D.p.d.v. practic, o variabilă B(n, p) reprezintă numărul de succese obţinute în n repetiţii inde-
pendente ale unui experiment de tip Bernoulii (are două variante de realizare: succes sau eşec).
Spre exemplu, numărul de steme apărute în 15 aruncări ale unei monede corecte poate fi modelat
ca o v.a. binomială B(15, 0.5).

(4) Repartiµia hipergeometric , H (n, a, b) (hyge)

3 Jacob Bernoulli (1654 − 1705), matematician elveţian


78 Capitolul 4. Variabile aleatoare

Este un model matematic pentru schema bilei nerevenite (schema extragerilor fără repetiţie).
Scriem că X ∼ H (n, a, b) (n, a, b > 0) dacă

CakCbn−k
P(X = k) = n , pentru orice k ce satisface max(0, n − b) ≤ k ≤ min(a, n).
Ca+b

Observaţie 4.6.2 (i) Dacă X ∼ H (1, a, b), atunci X ∼ B(1, p), cu p = a+b
a
.
n
a+b−n
Media şi dispersia sunt: E(X) = ∑ E(Xk ) = np, Var(X) = np(1 − p) .
k=0 a+b−1
n
În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între Var(X) şi ∑ Var(Xk ),
k=0
deoarece (Xk )k nu sunt independente stochastic.
a+b−n a+b−n n
(ii) Pentru N = a + b  n, putem face aproximarea ≈ = 1 − , de unde
a+b−1 a+b N
 n
Var(X) ≈ np(1 − p) 1 − . (4.6.16)
N
Observăm că repartiţiile binomială şi hipergeometrică au aceeaşi medie, însă dispersiile diferă
prin termenul N−n N−1 . În cazul în care numărul de bile este mult  mai mare decât numărul de
n
extrageri (N  n), atunci acest termen devine aproximativ 1 − N . În plus, dacă N este foarte
mare, atunci trecând N → ∞ în (4.6.16), găsim că şi dispersiile celor două repartiţii coincid. Cu
alte cuvinte, când numărul de bile din urnă este foarte mare, nu mai contează dacă extragerea
bilelor se face cu repetiţie sau nu. Acest fapt îl vom utiliza în Teoria selecţiei, când extragerile se
fac dintr-o colectivitate de volum foarte mare.
Aplicaţii: la testul Fisher exact (test de concordanţă) sau la Texas hold’em poker.

(5) Repartiµia Poisson4 , P(λ ) (poiss)

Valorile sale reprezintă numărul evenimentelor spontane (cu intensitatea λ ) realizate într-un
anumit interval de timp. Pentru un λ > 0, spunem că X ∼ P(λ ) (legea evenimentelor rare) dacă
X ia valori naturale, cu probabilităţile
λk
P(X = k) = e−λ , V k ∈ N.
k!
Media şi dispersia sunt: E(X) = λ , Var(X) = λ .

(6) Repartiµia geometric , G eo(p) (geo)

Valorile sale reprezintă numărul de insuccese înregistrate până la obţinerea primului succes,
într-un număr de probe independente. Probabilitatea de avea succes la o singură probă este p,
aceeaşi pentru toate probele.
Spunem că X ∼ G eo(p), (p ∈ (0, 1)) dacă X ia valori în N, cu probabilităţile

P(X = k) = p(1 − p)k , pentru orice k ∈ N, unde p ≥ 0.


1− p 1− p
Media şi dispersia sunt: E(X) = ; Var(X) = 2 .
p p
4 Siméon-Denis Poisson (1781 − 1840), matematician şi fizician francez, student al lui Laplace
4.6 Funcţia de repartiţie 79

Observaţie 4.6.3 (1) Dacă X ∼ G eo(p), atunci variabila aleatoare Y = X + 1 reprezintă


aşteptarea până la primul succes (rangul probei la care avem primul succes).
(2) Repartiţia geometrică satisface aşa-numita proprietate a lipsei de memorie, i.e.,

P(X > x + y| X > x) = P(X > y), ∀x, y ≥ 0.

Este unica distribuţie discretă cu această proprietate. Printre distribuţiile de tip continuu, doar
distribuţia exponenţială satisface această proprietate.

(7) Repartiµia binomial cu exponent negativ, BN (m, p) (nbin)

Valorile sale reprezintă numărul de insuccese obţinute înainte de a se realiza succesul de rang m.
În cazul particular m = 1, obţinem repartiţia geometrică.
Pentru m ≥ 1, p ∈ (0, 1), spunem că X ∼ BN (m, p) dacă X ia valorile {m, m + 1, m + 2, . . .},
cu probabilităţile asociate
m−1
P(X = k) = Cm+k−1 pm (1 − p)k , ∀k ≥ m, p ≥ 0.

Observaţie 4.6.4 Dacă (Xk )k=1,n ∼ G eo(p) sunt v.a. independente stochastic, atunci X =
n
∑ Xk ∼ BN (m, p).
k=1
Media şi dispersia sunt:
n n
m(1 − p) m(1 − p)
E(X) = ∑ E(Xk ) = , Var(X) = ∑ Var(Xk ) = .
k=1 p k=1 p2

(8) Repartiµia degenerat , D(c)

Variabila aleatoare X are o repartiţie degenerată de valoare c ∈ R dacă X = c a.s., echivalent cu


P(X = c) = 1. Repartiţia degenerată poate fi văzută ca un caz limită a unei repartiţii continue a
cărei dispersie tinde la 0, astfel că densitatea de probabilitate devine funcţia δc a lui Dirac5 ,
®
+∞, x = c
δc (x) =
0, x 6= c.

Funcţia sa de repartiţie este funcţia Heaviside6 translatată.

4.6.2 Repartiţii continue

(1) Repartiµia uniform , U (a, b) (unif)

Spunem că variabila aleatoare de tip continuu X urmează o repartiţie uniformă, scriem X ∼
U (a, b) (a < b), dacă funcţia sa de densitate este
ß 1
, dacă x ∈ (a, b),
f (x; a, b) = b−a
0 , altfel.
5 Paul Adrien Maurice Dirac(1902 − 1984) a fost un fizician britanic
6 Oliver Heaviside (1850 − 1925) a fost un om de ştiinţă britanic, autodidact
80 Capitolul 4. Variabile aleatoare

a+b (b − a)2
Media şi dispersia sunt: E(X) = , Var(X) = .
2 12
Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), astfel încât orice valoare are
aceeaşi şansă de a fi aleasă, urmează o repartiţie U (0, 1).

(2) Repartiµia normal , N (µ, σ ) (norm)

Spunem că X ∼ N (µ, σ ), dacă X are densitatea:

1 (x−µ)2

f (x; µ, σ ) = √ e 2σ 2 , x ∈ R.
σ 2π
Media şi dispersia sunt: E(X) = µ şi Var(X) = σ 2 .
Se mai numeşte şi repartiţia gaussiană. În cazul µ = 0 şi σ 2 = 1, densitatea de repartiţie devine:
1 x2
f (x) = √ e− 2 , x ∈ R. (4.6.17)

În acest caz spunem că X urmează repartiţia normală standard, N (0, 1).

Graficul densităţii de repartiţie pentru repartiţia normală este clopotul lui Gauss (vezi Figura
4.5). Din grafic (pentru σ = 1), se observă că majoritatea valorilor nenule ale repartiţiei normale
standard se află în intervalul (µ − 3σ , µ + 3σ ) = (−3, 3).

Dacă X ∼ N (0, 1), atunci X = σ X + µ ∼ N (µ, σ ). În


mod similar, dacă X ∼ N (µ, σ ), atunci X = X−µ σ ∼
N (0, 1). Pentru o v.a. N (0, 1) funcţia de repartiţie este
tabelată (valorile ei se găsesc în tabele) şi are o notaţie
specială, Θ(x). Ea e definită prin:
Z x
1 y2
Θ(x) = √ e− 2 dy.
2π −∞

Funcţia de repartiţie a lui X ∼ N (µ, σ ) este dată prin


x−µ Figura 4.5: Clopotul lui Gauss pentru
F(x) = Θ( ), x ∈ R. X ∼ N (0, σ ), (σ = 1, 2, 3)
σ

(3) Repartiµia log-normal , logN (µ, σ ) (logn)

Repartiţia log-normală este foarte utilă în Matematicile Financiare, reprezentând o repartiţie


de preţuri viitoare pentru un activ financiar. Dacă X ∼ N (µ, σ ), atunci Y = eX este o v.a.
nenegativă, având densitatea de repartiţie
(ln x−µ)2
(
1 −
√ e 2σ 2 , dacă x > 0
f (x; µ, σ ) = xσ 2π
0 , dacă x ≤ 0

Aşadar, Y ∼ logN (µ, σ ) dacă lnY ∼ N (µ, σ ).


4.6 Funcţia de repartiţie 81
2 /2 2 2
Media şi dispersia sunt: E(X) = eµ+σ , Var(X) = e2µ+σ (eσ − 1).

(4) Repartiµia exponenµial , exp(λ ) (exp)

Valorile sale sunt timpi realizaţi între două valori spontane repartizate P(λ ). Spunem că
X ∼ exp(λ ) (λ > 0) dacă are densitatea de repartiţie

λ e−λ x ,
ß
dacă x > 0,
f (x; λ ) =
0 , dacă x ≤ 0
1 1
Media şi dispersia sunt: E(X) = şi Var(X) = 2 .
λ λ
Repartiţia exponenţială satisface aşa-numita proprietate a lipsei de memorie, i.e.,

P(X > x + y| X > x) = P(X > y), ∀x, y ≥ 0.

Este unica distribuţie continuă cu această proprietate. Dintre repartiţiile discrete, doar repartiţia
geometrică mai satisface această proprietate.

(5) Repartiµia Gamma, Γ(a, λ ) (gam)

O v.a. X este repartizată X ∼ Γ(a, λ ), unde a, λ > 0, dacă densitatea sa de repartiţie este:
( a
λ
Γ(a) xa−1 e−λ x , dacă x > 0,
f (x; a, λ ) =
0 , dacă x ≤ 0.

Aici, Γ este funcţia lui Euler,


Z ∞
Γ : (0, ∞) → (0, ∞), Γ(a) = xa−1 e−x dx.
0

a a
Media şi dispersia sunt: E(X) = , Var(X) = .
λ λ2
Observaţie 4.6.5 (i) Dacă n = 1, atunci Γ(1, λ ) ≡ exp(λ ).
(ii) Dacă v.a. {Xk }k=1,n ∼ exp(λ ) sunt independente stochastic, atunci suma lor este variabila
n
aleatoare ∑ Xk ∼ Γ(n, λ ).
k=1
(6) Repartiµia Weibull7 , W bl(k, λ ) (wbl)

Această repartiţie este asemănătoare cu repartiţia exponenţială (această obţinându-se în cazul


particular k = 1) şi poate modela repartiţia mărimii particulelor. Când k = 3.4, distribuţia Weibull
este asemănătoare cu cea normală. Când k → ∞, această repartiţie se apropie de funcţia lui Dirac.
Vom spune că X ∼ W bl(k, λ ) (k > 0, λ > 0) dacă are densitatea de repartiţie
® k
k x k−1 −( λx )

f (x; k, λ ) = λ λ e , dacă x ≥ 0
0 , dacă x < 0.
7 Ernst Hjalmar Waloddi Weibull (1887 − 1979), matematician şi inginer suedez
82 Capitolul 4. Variabile aleatoare

În practică, distribuţia Weibull este utilizată în analiza fiabilităţii, modelând numărul de defecţiuni
în timp ale unui sistem/dipozitiv.
Media şi varianţa sunt:
1 2
Å ã ñ Å ã Å Å ãã ô
1 2 2
E(X) = λ Γ 1 + , Var(X) = λ Γ 1 + − Γ 1+ .
k k k

(7) Repartiµia χ 2 , χ 2 (n) (chi2)

Vom spune că X ∼ χ 2 (n) (se citeşte repartiţia hi-pătrat cu n grade de libertate) dacă densitatea
sa de repartiţie este:

 1 n x 2n −1 e− 2x , dacă x > 0,
n
f (x; n) = Γ( 2 )2 2
0 , dacă x ≤ 0.

unde Γ este funcţia lui Euler. Graficul acestei repartiţii (pentru diverse valori ale lui n) este
reprezentat în Figura 4.6.
Media şi dispersia sunt: E(χ 2 ) = n, Var(χ 2 ) = 2n.

(a) Repartiţia χ 2 (n) este, de fapt, repartiţia Γ( 2n , 12 ).


(b) Dacă v.a. independente Xk ∼ N (0, 1), pentru
k = 1, 2, . . . , n, atunci

X12 + X22 + · · · + Xn2 ∼ χ 2 (n).

În cuvinte, suma pătratelor a n erori distribuite nor-


mal standard urmează o repartiţie χ 2 (n). În particular,
dacă X ∼ N (0, 1), atunci X 2 ∼ χ 2 (1).
(c) Este foarte utilizată în testarea ipotezelor statis-
tice (e.g., teste de concordanţă). Figura 4.6: Repartiţia χ 2 (n) pentru
patru valori ale lui n.

(8) Repartiµia Student (W. S. Gosset8 ), t(n) (t)

Spunem că X ∼ t(n) (cu n grade de libertate) dacă densitatea de repartiţie este:
å− n+1
Γ n+1
 Ç
2 x2 2
f (x; n) = √ 1+ , x ∈ R.
nπ Γ 2n

n
n
Media şi dispersia sunt: E(X) = 0, Var(X) = .
n−2
Această repartiţie este foarte utilizată în testarea ipotezelor statistice (test pentru media unei
populaţii statistice).

(9) Repartiµia Fisher9 , F (m, n) (f)

8 William Sealy Gosset (1876 − 1937), statistician britanic, care a publicat sub pseudonimul Student
9 Sir Ronald Aylmer Fisher (1890 − 1962), statistician, eugenist, biolog şi genetician britanic
4.7 Teoreme limită 83

Spunem că X ∼ F (m, n) (cu m, n grade de libertate) dacă densitatea de repartiţie este:
 m
 ( mn ) 2 Γ( m+n
2 ) 2 −1
m  m+n
m − 2
Γ( m2 )Γ( 2n )
x 1 + n x , dacă x > 0;
f (x) =
0 , dacă x ≤ 0.

n 2n2 (n + m − 2)
Media şi dispersia sunt: E(X) = , Var(X) = .
n−2 m(n − 2)2 (n − 4)
Această repartiţie este foarte utilizată în testarea ipotezelor statistice (test pentru compararea
dispersiilor unor populaţii statistice).

(10) Repartiµia Cauchy10 , C (λ , µ) (fără corespondent în M ATLAB)

Spunem că X ∼ C (λ , µ) dacă densitatea de repartiţie este:

λ
f (x; λ , µ) = , x ∈ R.
π[(x − µ)2 + λ 2 ]

NU admite medie, dispersie sau momente!!!

. Q: What’s the question the Cauchy distribution hates the most?


. A: Got a moment?

4.7 Teoreme limită


Fie (Ω, F , P) un câmp de probabilitate legat de un experiment aleator şi X : Ω → R o variabilă
aleatoare ce înregistrează rezultatele posibile ale unui anumit experiment aleator. Putem modela
repetiţia acestui experiment prin introducerea unui şir de variabile aleatoare, (Xn )n∈N : Ω → R.
Ne-am dori ca acest şir să deţină aceeaşi informaţie (din punct de vedere probabilistic) ca şi X.
În acest scop, introducem noţiunea de variabile aleatoare identic repartizate.
Definiţie 4.7.1 Variabilele aleatoare X1 , X2 , . . . , Xn , . . . se numesc identic repartizate dacă toate
au o aceeaşi repartiţie. Matematic, scriem că funcţiile corespunzătoare de repartiţie satisfac şirul
de egalităţi:

FX1 (x) = FX2 (x) = . . . = FXn (x) = . . . , ∀x ∈ R. (4.7.18)

Dacă, în plus, presupunem că variabilele aleatoare din şirul de mai sus sunt independente
stochastic, atunci putem privi acest şir de variabile aleatoare ca un model pentru repetiţii
independente ale experimentului în aceleasi condiţii. Deşi avem de-a face cu un şir de funcţii
ce iau valori întâmplătoare, suma unui număr suficient de mare de variabile aleatoare îşi pierde
caracterul aleator.
n
Teoremele limită clasice descriu comportarea asimptotică pentru Sn = ∑ Xk , potrivit normalizată.
k=1
În Teoria Probabilităţilor există mai multe rezultate care stabilesc condiţiile în care una sau
cealaltă dintre legile anterioare au loc. Rezultatele matematice ce au la bază comportamentul
asimptotic al şirului {Sn }n se numesc legea slabă a numerelor mari, legea tare a numerelor mari
10 Augustin Louis Cauchy (1789 − 1857), matematician francez
84 Capitolul 4. Variabile aleatoare

şi teorema limită centrală. Prezentăm în continuare doar cele mai importante dintre ele, şi anume:
teoremele lui Bernoulli şi Hincin, pentru legea slabă, şi teorema lui Kolmogorov pentru legea
tare.
Teorema 4.7.1 (Teorema lui Bernoulli)
Să considerăm un experiment aleator şi un eveniment A asociat experimentului, pentru care
probabilitatea de realizare a sa este P(A) = p. Notăm cu νN este numărul de realizări ale lui A în
N experimente independente.
Atunci, şirul frecvenţelor relative, νNN , se apropie foarte mult de probabilitatea p în următorul
sens: dacă se efectuează o selecţie de volum mare N şi se obţin νN cazuri favorabile, atunci, cu o
probabilitate apropiată de 1, putem afirma că probabilitatea evenimentului cercetat este egală cu
frecvenţa relativă.
Teorema 4.7.2 (Hincin11 ) (legea slabă a numerelor mari)
Dacă Xn , n ≥ 1 sunt variabile aleatoare de medie µ, au dispersii finite, sunt independente două
câte două şi identic repartizate, atunci, pentru un n mare, putem scrie că media aritmetică
1 n
∑ Xi ≈ µ
n i=1
cu o probabilitate apropiată de 1.

Observaţie 4.7.1 1. Teorema ne spune că, deşi variabilele aleatoare independente pot lua valori
depărtate de mediile lor, media aritmetică a unui număr suficient de mare de astfel de variabile
aleatoare ia valori în vecinătatea lui µ, cu o probabilitate apropiată de 1.
2. De asemenea, acest rezultat poate fi interpretat în Statistică după cum urmează. Variabilele
Xk corespund unor observaţii independente asupra unei mărimi. Pentru orice un eşantion suficient
de mare de observaţii, valoarea medie a acestor observaţii se va afla, cu o probabilitate mare,
arbitrar de aproape de valoarea aşteptată µ. De fapt, toate aceste medii (pentru un n suficient de
mare) se vor afla, cu o probabilitate mare, într-un interval de forma (µ − ε, µ + ε).
3. Mai menţionăm şi faptul că teorema de mai sus are loc şi în cazul în care variabilele aleatoare
i.i.d. sunt doar cu medii finite, nu neapărat independente.
Teorema 4.7.3 (Kolmogorov) (legea tare a numerelor mari)
Dacă variabilele aleatoare (Xn )n∈N∗ sunt independente, identic repartizate, toate având aceeaşi
medie µ finită, atunci, pentru un n suficient de mare,

1 n
∑ Xi = µ,
n i=1

eventual, excluzând un număr finit sau numărabil de cazuri.


Observaţie 4.7.2 1. În cuvinte, LTNM spune că, pentru un număr foarte mare de observaţii,
valoarea medie a acestor observaţii va fi aproape sigur egală cu valoarea teoretică aşteptată, µ.
2. Pe de altă parte, LSNM spune că, cu o probabilitate mare, valoarea medie a observaţiilor
se va afla foarte aproape de µ, însă nu exclude situaţia în care această medie este departe de µ
într-o infinitate de alte cazuri.

Teorema 4.7.4 (TLC) (teorema limită centrală)


Considerăm şirul de variabilele aleatoare (Xn )n∈N , independente şi identic repartizate, cu µ =
n
E(X1 ) şi σ 2 = Var(X1 ) finite. Notăm cu Sn = ∑ Xk . Atunci, pentru n suficient de mare, suma
k=1

11 Aleksandr Yakovlevich Khinchin (1894 − 1959), matematician rus


4.7 Teoreme limită 85

Sn − nµ
standardizată, Sn = √ , este o variabilă aleatoare de repartiţie N (0, 1).
σ n
Matematic, scriem că:
Sn − nµ
Sn := √ ∼ N (0, 1).
σ n

Observaţie 4.7.3 (a) În mod echivalent, mai putem spune că distribuţia variabilei aleatoare
1 n σ
X = ∑ Xk este aproximativ normală N (µ, √ ).
n k=1 n
(b) O consecinţă a teoremei limită centrală este că putem calcula probabilităţi legate de variabile
aleatoare ce au repartiţii oarecare folosind tabelele de la repartiţia normală. Astfel, vom avea:
Sn − nµ
Å ã
lim P a ≤ √ ≤ b = Θ(b) − Θ(a), (4.7.19)
n→∞ σ n
unde funcţia Θ este funcţia lui Laplace (func stia de rapartiţie pentru o normală standard) şi este
tabelată (vezi Tabelul 11.2).
(c) TLC ne permite să aproximăm sume de variabile aleatoare identic repartizate, avînd orice
tip de repartiţii (atât timp cât variaţia lor e finită), cu o variabilă aleatoare normală. Un exemplu
ar fi aproximarea repartiţiei normale cu repartiţia binomială când numărul de încercări e foarte
mare (vezi teorema lui de Moivre-Laplace de mai jos).

Se pune problema: Cât de mare ar trebui să fie n, în practică, pentru că teorema limită centrală
să fie aplicabilă?

Dacă variabilele aleatoare {Xk }k sunt deja normal repartizate, atunci aproximarea sumei standar-
dizate cu o variabilă normală este, de fapt, o egalitate, fiind adevarată pentru orice n ∈ N∗ . Dacă
{Xk }k nu sunt normal repartizate, atunci un număr n astfel încât n ≥ 30 ar fi suficient pentru
aproximarea cu repartiţia normală deşi, dacă repartiţia lui Xk este simetrică, aproximarea ar putea
fi bună şi pentru un număr n mai mic de 30.

Teorema 4.7.5 (de Moivre12 - Laplace)


Fie X1 , X2 , . . . , Xn , . . . un şir de variabile aleatoare independente stochastic, identic repartizate
B(1, p) şi fie Sn = X1 + X2 + · · · + Xn . Atunci, pentru orice −∞ < a < b < ∞, avem:
Ç å
Sn − np
lim P a ≤ √ ≤ b = Θ(b) − Θ(a). (q = 1 − p) (4.7.20)
n→∞ npq
Observaţie 4.7.4 (1) Aşadar, dacă parametrul n este suficient de mare, atunci o repartiţie
binomială poate fi aproximată cu una normală, cu media np şi dispersia npq. În practică,
• aproximarea este una suficient de bună dacă np ≥ 5 şi n(1 − p) ≥ 5;
• această aproximare poate fi îmbunătăţită dacă aplicăm factori de corecţie.
Pentru n şi p îndeplinind condiţiile de mai sus, şi folosind TLC, putem aproxima funcţia de
repartiţie a repartiţiei binomiale prin:
Ç å
k − np
P(X ≤ k) ≈ Θ √ . (4.7.21)
npq
12 Abraham de Moivre (1667 − 1754), matematician francez
86 Capitolul 4. Variabile aleatoare

(2) În general, dacă dorim să aproximăm o repartiţie discretă (ce are media µ şi dispersia σ 2 )
cu una normală, atunci scriem:

k + 12 − µ
Ç å
P(X ≤ k) ≈ Θ (4.7.22)
σ

şi

k + 12 − µ k − 21 − µ
Ç å Ç å
P(X = k) ≈ Θ −Θ , (4.7.23)
σ σ

unde valori funcţiei Θ se găsesc în Tabelul 11.2.

Justificare grafică a teoremei limită centrală

Exerciţiu 4.7.1 În Figura 4.7 am reprezentat grafic (cu bare) funcţiile de probabilitate pentru
repartiţiile binomială şi Poisson, atunci când numărul de extrageri în schema binomială este un
număr mare. Observăm că pentru un număr n suficient de mare, cele două grafice se suprapun.

Figura 4.7: B(n, p) şi P(np) pentru n = 100, p = 0.15

În practică, proprietatea de normalitate este satisfăcută pentru

n ≥ 30, p ≤ 0.1, λ = n p ≤ 0.1.

Din Figura 4.7, observăm că graficul are forma clopotului lui Gauss, justificând grafic faptul
că funcţiile de probabilitate pentru binomială (albastru) şi Poisson (roşu) tind la densitatea de
repartiţie pentru repartiţia normală.
Exerciţiu 4.7.2 Graficele din Figura 4.8 reprezintă un set de date repartizate exponenţial cu
media 2 (stânga) şi mediile lor (dreapta), care sunt repartizate normal.
4.8 Exerciţii rezolvate 87

Figura 4.8: Date repartizate exp(2) (stânga) şi mediile lor (dreapta)

4.8 Exerciţii rezolvate


Exerciţiu 4.8.1 Considerăm experimentul aleator ce constă în aruncarea a două monede ideale.
De asemenea, considerăm X variabila aleatoare ce reprezintă numărul de steme apărute.
Scrieţi repartiţia lui X, apoi calculaţi media sa, deviaţia standard, modul.
R:
X 0 1 2
p(x) 14 12 14
Media sa este: E(X) = 14 · 0 + 21 · 1 + 14 · 2 = 1.
Dispersia lui X este Var(X) = σ 2 = 41 · (0 − 1)2 + 12 · (1 − 1)2 + 14 · (2 − 1)2 = 12 .

Deviaţia standard este σ = σ 2 = √12 .
Se observă că 1 este valoarea cea mai probabilă, deci Mo(X) = 1.
Exerciţiu 4.8.2 Considerăm variabila aleatoare X ce are tabelul de repartiţie următor:

X 1 2 3 4 5
p(x) 7a 5a 4a 3a a

unde a este un număr real necunoscut. Aflaţi valoarea lui a, media şi modul pentru variabila
aleatoare X.
R: Reamintim că toate probabilităţile trebuie să fie între 0 şi 1 şi suma probabilităţilor trebuie să
1
fie egală cu 1. Astfel, vom avea că 7a + 5a + 4a + 3a + a = 1, de unde a = 20 .
7 5 4 3 1
Media lui X este E(X) = 20 · 1 + 20 · 2 + 20 · 3 + 20 · 4 + 20 · 5 = 2.3.
Se observă că modul variabilei este Mo(X) = 1.
Exerciţiu 4.8.3 Considerăm variabila aleatoare X ce are tabelul de repartiţie următor:

X 2 3 5 7 11
1 1 1
p(x) 6 3 4 a b

unde a şi b sunt numere reale necunoscute. Media variabilei aleatoare X este 14 3 . Aflaţi valorile a
şi b.
R: Deoarece suma probabilităţilor trebuie să fie egală cu 1, găsim că a + b = 41 . Media variabilei
X este E(X) = 14 1 1 1 25
3 = 6 · 2 + 3 · 3 + 4 · 5 + 7a + 11b, de unde 7a + 11b = 12 . Din aceste două
ecuaţii, găsim că a = 16 şi b = 12
1
.
88 Capitolul 4. Variabile aleatoare

Exerciţiu 4.8.4 O pisică dintr-o anumită rasă poate avea între 1 şi 4 pui la naştere. Notăm cu
X xariabila aleatoare X ce reprezintă numărul de pui pe care îi poate avea la naştere, care are
tabelul de repartiţie următor:
X 1 2 3 4
p(x) 0.18 0.51 0.27 0.04
(a) Aflaţi numărul mediu de pui nou-născuţi şi deviaţia standard pentru o pisică din această rasă.
(b) Preţul unei pisici din această rasă este o variabilă aleatoare P = 250 · X + 2500 (exprimat în
RON). Aflaţi preţul mediu şi deviaţia standard a preţului unei pisici din această rasă.
R: (a) Numărul mediu de pui nou-născuţi per pisică este
E(X) = 0.18 · 1 + 0.51 · 2 + 0.27 · 3 + 0.04 · 4 = 2.17.
Dispersia lui X este

σX2 = 0.18 · (1 − 2.17)2 + 0.51 · (2 − 2.17)2 + 0.27 · (3 − 2.17)2 + 0.04 · (4 − 2.17)2 ≈ 0.5811.

Deviaţia standard a lui X este σX = 0.5811 ≈ 0.7623.
(b) Folosim formulele E(aX + b) = a · E(X) + b şi Var(aX + b) = a2 ·Var(X). Astfel:

mP = E(P) = 250 · E(X) + 2500 = 250 · 2.17 + 2500 = 3042.50 (RON)


şi
σP2 = Var(P) = 2502 ·Var(X) ≈ 62500 · 0.5811 = 36318.75,

de unde σX ≈ 36318.75 ≈ 190.57 (RON).
Exerciţiu 4.8.5 Mircea participa la un joc în care se arunca un zar ideal. Daca apare o fata mai
mare decat 1, atunci va castiga suma egala cu dublu numarului de puncte aparute. Daca apare
fata cu 1, atunci are posibilitatea sa arunce o moneda ideala. Daca apare stema, atunci castiga 10,
altfel nu castiga nimic.
(a) Scrieţi repartiţia câştigului.
(b) Calculaţi câştigul mediu.
(c) Dacă Mircea a plătit 7.5 pentru a participa la acest joc, care sunt şansele ca el să câştige la
un singur joc?
R: (a) Notam cu C variabila aleatoare ce reprezinta castigul. Atunci, repartitia sa este:
Å ã
0 4 6 8 10 12
C: 1 1 1 1 1 1 ,
12 6 6 6 4 6

Într-adevăr, daca apare una dintre fetele 2, 3, 4, 5, 6,


atunci C va fi, respectiv, 4, 6, 8, 10, 12. Probabilitatile
asociate acestor valori sunt toate egale cu 1/6.
Daca apare fata 1, atunci castigul poate fi 0 sau 10, cu
probabilitatile egale cu 61 · 12 = 12
1
.
Asadar, castigul 10 poate aparea de doua ori: odata cu
probabilitatea 16 a doua oara cu probabilitatea 12 1
. In
1 1 1
concluzie, probabilitatea P(C = 10) = 6 + 12 = 4 .
(b) Câştigul mediu este
1 1 1 1 1 1
E(C) = · 0 + · 4 + · 6 + · 8 + · 10 + · 12 = 7.5.
12 6 6 6 4 6
4.8 Exerciţii rezolvate 89

(c) Mircea va câştiga la un singur joc dacă va obţine o sumă mai mare decât suma pe care a
plătit-o la intrarea în joc. Astfel, probabilitatea de a câştiga este
1 1 1 7
P(C > 7.5) = P(C = 8) + P(C = 10) + P(C = 12) = + + = ≈ 0.5833,
6 4 6 12
deci şansele de câştig sunt de circa 58.33%.
Exerciţiu 4.8.6 Se aruncă două zaruri ideale distincte.
(a) Scrieţi repartiţia variabilei aleatoare S2 ce reprezinta suma fetelor obţinute.
(b) Calculaţi media variabilei aleatoare S2 . Care este valoarea cea mai probabilă a sa?
(c) Reprezentaţi grafic funcţia de probabilitate a lui S2 (graficul frecvenţelor).
(d) Care este probabilitatea ca suma fetelor obtinute sa fie cel putin 7?
R: (a) Tabloul de repartiţie pentru S2 este:
Å ã
2 3 4 5 6 7 8 9 10 11 12
S2 : 1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36

(b) Media lui S2 este 7, care este şi cea mai probabilă valoarea a sa (modul).

E(S2 ) = 7
1 2 3 4 5 6 5 4 3 2 1
= · 2 + · 3 + · 4 + · 5 + · 6 + · 7 + · 8 + · 9 + · 10 + · 11 + · 12
36 36 36 36 36 36 36 36 36 36 36

Figura 4.9: Funcţia de frecvenţe pentru S2

(d) Probabilitatea cerută este:


15 21 7
P(S2 ≥ 7) = 1 − P(S2 < 7) = 1 − P(S2 ≤ 6) = 1 − = = .
36 36 12

Exerciţiu 4.8.7 Considerăm un eveniment aleator care are probabilitatea p ∈ (0, 1) de realizare
într-o singură probă (de exemplu, probabilitatea de a trece un examen). Notăm cu X numărul
de eşecuri înregistrate până obţinem pentru prima oară un succes. Scrieţi repartiţia variabilei
aleatoare X.
R: Valorile posibile ale variabilei X sunt toate numerele naturale. Spre exemplu, X = 0 daca
nu am avut niciun esec (examenul a fost trecut din prima), X = 1 daca am avut un esec din
90 Capitolul 4. Variabile aleatoare

prima incercare si succes la a doua, s.a.m.d., X = n daca am avut n esecuri consecutive si la a


(n + 1) − a incercare avem succes. Daca notez cu q = 1 − p, atunci

P(X = k) = q · q · q · . . . · q ·p = qk p, pentru orice k ∈ N.


| {z }
k ori

Tabelul de repartitie al variabilei este astfel:

X 0 1 2 ··· n ···
pn p qp q2 p · · · qn p ···

∞ ∞
1
Se observa cu usurinta ca ∑ qn p = p ∑ qn = p 1 − q = 1. Vom spune că variabila X urmeaza
n=0 n=0
repartitia geometrica de parametru p. Scriem X ∼ G eo(p). Ca o observatie, variabila Y = X + 1
reprezinta numarul de incercari pana la reusita.
Exerciţiu 4.8.8 Care este probabilitatea de apariţie pentru prima oară a feţei la aruncarea
unui zar ideal din cel puţin 3 aruncări? Dar în exact 3 aruncări?
R: Notăm cu X variabilă aleatoare variabilă aleatoare ale cărei valori reprezintă numărul de
eşecuri avute până la primul succes. Aceasta urmează repartiţia geometrică G eo(1/6). În
consecinţă, numărul de aruncări necesare obţinerii feţei pentru prima dată este Y = X + 1.
Probabilitatea de a obţine pentru prima oară această faţă din cel puţin 3 aruncări este totuna cu
probabilitatea de a avea cel puţin 2 eşecuri până la apariţia acestei feţe. Aşadar, avem:

P1 = P(Y ≥ 3) = P(X ≥ 2) = 1 − P(X < 2) = 1 − P(X ≤ 1) = 1 − 0.3056 = 0.6944.

Probabilitatea de a obţine pentru prima oară faţa cu şase puncte din exact 3 aruncări este:

P2 = P(Y = 3) = P(X = 2) = 0.1157.

Exerciţiu 4.8.9 În drumul Mariei de acasă până la serviciu se află două semafoare. Notăm cu
X1 variabilă aleatoare ce reprezintă numărul de semafoare pe care Maria le prinde pe roşu, şi
presupunem că repartiţia lui X1 este următoarea:

x 0 1 2
p(x) 0.2 0.5 0.3

De asemenea, fie X2 numărul de semafoare pe care Maria le prinde pe roşu pe drumul de


întoarcere spre casă. Presupunem că X1 şi X2 sunt independente şi identic repartizate.
(a) Determinaţi repartiţia, media şi dispersia variabilei aleatoare X = X1 + X2 .
(b) Scrieţi funcţia de repartiţie a lui X.
(c) Care e probabilitatea ca Maria să prindă cel puţin 2 semafoare pe roşu de acasă la serviciu
şi retur?
R: (a) Repartiţia lui X este:

x 0 1 2 3 4
p(x) 0.04 0.2 0.37 0.3 0.09
4.8 Exerciţii rezolvate 91

E(X) = E(X1 ) + E(X2 ) = 2(0 × 0.2 + 1 × 0.5 + 2.3) = 2.2.


Folosind independenţa dintre X1 şi X2 , avem:
Var(X) = Var(X1 ) +Var(X2 ) = 2[(0 − 1.1)2 × 0.2 + (1 − 1.1)2 × 0.5 + (2 − 1.1)2 × 0.3] = 0.98.
(b) Prin definiţie, funcţia de repartiţie a lui X este F : R −→ [0, 1], definită prin:


 0, dacă x < 0,

0.04, dacă 0 ≤ x < 1,





0.24, dacă 1 ≤ x < 2,
F(x) = P(X ≤ x) =


 0.61, dacă 2 ≤ x < 3,
dacă 3 ≤ x < 4,



 0.91,

1, dacă x ≥ 4.

(c) P(X ≥ 2) = 0.37 + 0.3 + 0.09 = 0.76. Altfel, folosind funcţia de repartiţie,
P(X ≥ 2) = 1 − P(X < 2) = 1 − P(X ≤ 1) = 1 − F(1) = 1 − 0.24 = 0.76.

Exerciţiu 4.8.10 Trei vanatori ochesc cu pusca o aceeasi vulpe. Fiecare vânător trage câte un
foc asupra vulpii. Fiecare dintre ei poate nimeri sau nu vulpea. Ştim ca probabilităţile că fiecare
dintre ei să o nimerească sunt, respectiv, 1/3, 1/4, 1/2. Fie V variabila aleatoare ce reprezintă
numărul de ori în care vulpea a fost nimerită. Determinaţi repartiţia variabilei aleatoare V .
R: Variabila V poate avea doar valorile: 0− vulpea nu este atinsa, 1− vulpea este atinsa o
singura data, 2− vulpea este atinsa de 2 ori sau 3− vulpea este atinsa de 3 ori. Pentru i = 1, 2, 3,
notam cu Vi variabila aleatoare ce reprezinta numarul de ori în care vanatorul i atinge vulpea.
Repartitiile pentru fiecare Vi sunt:
Å ã Å ã Å ã
0 1 0 1 0 1
V1 : 2 1 V2 : 3 1 V3 : 1 1
3 3 4 4 2 2
Deoarece vanatorii trag independent unul de celalalt, avem ca V1 , V2 , V3 sunt variabile aleatoare
independente. Atunci V = V1 +V2 +V3 are repartiţia:
Å ã
0 1 2 3
V: 6 11 6 1
24 24 24 24
Într-adevăr, pentru fiecare eveniment {V = i} se calculează probabilitatea astfel:
P(V = 0) = P ({V1 = 0} ∩ {V2 = 0} ∩ {V3 = 0})
2 3 1 6
= P(V1 = 0) · P(V2 = 0) · P(V3 = 0) = · · =
3 4 2 24
P(V = 1) = P ({V1 = 1} ∩ {V2 = 0} ∩ {V3 = 0}) + P ({V1 = 0} ∩ {V2 = 1} ∩ {V3 = 0}) +
+P ({V1 = 0} ∩ {V2 = 0} ∩ {V3 = 1})
1 3 1 1 1 1 1 3 1 11
= · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
P(V = 2) = P ({V1 = 1} ∩ {V2 = 1} ∩ {V3 = 0}) + P ({V1 = 1} ∩ {V2 = 0} ∩ {V3 = 1}) +
+P ({V1 = 0} ∩ {V2 = 1} ∩ {V3 = 1})
1 1 1 1 3 1 2 1 1 6
= · · + · · + · · =
3 4 2 3 4 2 3 4 2 24
P(V = 3) = P ({V1 = 1} ∩ {V2 = 1} ∩ {V3 = 1}) =
1 1 1 1
= P(V1 = 1) · P(V2 = 1) · P(V3 = 1) = · · =
3 4 2 24
92 Capitolul 4. Variabile aleatoare

Exerciţiu 4.8.11 Cineva a înregistrat zilnic timpul între două sosiri succesive ale tramvaiului
într-o anumită staţie şi a găsit că, în medie, acesta este de 20 de minute. Se ştie că acest timp este
distribuit exponenţial. Dacă o persoană a ajuns în staţie exact când tramvaiul pleca, aflaţi care
sunt şansele ca ea să aştepte cel puţin 15 minute până vine următorul tramvai.
R: Notăm cu T timpul de aşteptare în staţie între două sosiri succesive ale tramvaiului şi cu FT
funcţia sa de repartiţie. Ştim că T ∼ exp(λ ), unde λ = 20. Aşadar, avem de calculat P(T ≥ 15),
care este:
Z ∞
P(T ≥ 15) = 1 − P(T < 15) = 1 − FT (15) = 15e−15x dx ≈ 0.4724,
0

ceea ce implică 47.24% şanse.

4.9 Exerciţii propuse


Exerciţiu 4.9.1 Scrieţi spaţiul de selecţie Ω asociat experimentului aleator ce constă în aruncarea
a două zaruri ideale identice.
(a) Calculaţi probabilitatea de a obţine o dubă.
(b) Care este probabilitatea de a obţine 3 duble din 5 aruncări a unei perechi de zaruri ideale
identice?
Exerciţiu 4.9.2 Considerăm variabila aleatoare care reprezintă suma numerelor ce apar la
aruncarea a două zaruri ideale (distincte). Determinaţi repartiţia acestei variabile aleatoare.
Exerciţiu 4.9.3 Tudor are 2 monede în buzunar. Una dintre ele este corectă, iar cealaltă monedă
are două steme. El scoate la întâmplare o monedă din buzunar (fără să se uite ce monedă a scos)
şi o aruncă.
(a) Care este probabilitatea apariţiei unei steme?
(b) Dacă la aruncare a apărut faţa cu stema, care este probabilitatea ca moneda scoasă să fi fost
cea corectă?
Notăm cu X variabila aleatoare ce reprezintă numărul de steme apărute în urma aruncării
simultane a celor două monede.
(c) Scrieţi tabloul de repartiţie pentru X.
Exerciţiu 4.9.4 Două zaruri ideale sunt aruncate în mod independent unul de celălalt. Notăm cu
M maximum dintre valorile apărute.
Determinaţi tipul variabilă aleatoare M şi tabloul său de repartiţie.
Exerciţiu 4.9.5 Scrieţi spaţiul de selecţie Ω asociat experimentului aleator ce constă în aruncarea
unei monede ideale de trei ori. Calculaţi probabilitatea de a obţine aceeaşi faţă de trei ori.
Exerciţiu 4.9.6 O pereche de zaruri ideale (distincte) este aruncată de 200 de ori. Notăm cu X
suma punctelor obţinute.
(a) Scrieţi repartiţia lui X.
(b) Care este probabilitatea să obţinem o sumă de 7 în cel puţin 20% dintre cazuri?
Exerciţiu 4.9.7 Se aruncă o monedă ideală până se obţine pentru prima oară faţa cu stema. Notăm
cu X numărul de eşecuri până obţinem pentru prima oară stema. Scrieţi repartiţia variabilei
aleatoare X.
Exerciţiu 4.9.8 Se aruncă un zar ideal până se obţine pentru prima oară faţa cu 6 puncte. Notăm
cu Y numărul de eşecuri până obţinem pentru prima oară faţa cu 6. Scrieţi repartiţia variabilei
aleatoare Y .
Exerciţiu 4.9.9 Se aruncă două zaruri ideale până se obţine pentru prima oară o dublă. Notăm
cu Z numărul de eşecuri până obţinem pentru prima oară o dublă. Scrieţi repartiţia variabilei
4.9 Exerciţii propuse 93

aleatoare Z.
Exerciţiu 4.9.10 Persoana A arunca 2 zaruri si persoana B arunca 3 zaruri. Fiecare aduna
punctele obtinute. Sa se calculeze probabilitatea evenimentului ca A si B sa obtina aceeasi suma.
Exerciţiu 4.9.11 Se arunca doua zaruri. Care este probabilitatea ca numerele obtinute sa fie
solutiile ecuatiei λ 2 − 4λ + 3 = 0.
Exerciţiu 4.9.12 Consideram variabila aleatoare care reprezinta numarul ce apare la aruncarea
unui zar ideal. Determinati functia de repartitie asociata si reprezentati-o grafic.
Exerciţiu 4.9.13 X este o variabila aleatoare uniformă U (−2, 5).
(i) Determinati functia de repartitie asociata si reprezentati-o grafic.
(ii) Se alege aleator, după repartiţia U (−2, 5), un număr din intervalul (−1, 1). Care este
probabilitatea ca el să fie pozitiv?
Exerciţiu 4.9.14 (a) Folosiţi tabelele de cuantile pentru a găsi următoarele:

2
(a) z0.975 (b) t0.975, 12 (c) χ0.9, 5 (d) f0.95, 12, 10 .

(b) Găsiţi valorile de mai sus folosind definiţia şi integrând densităţile de repartiţie corespunză-
toare.
Exerciţiu 4.9.15 Temperatura T (0C) dintr-un anumit proces chimic are repartiţia U (−5, 5).
Calculaţi P(T < 0); P(−2.5 < T < 2.5); P(−2 ≤ T ≤ 3).
Exerciţiu 4.9.16 Temperatura de topire a unui anumit material este o variabilă aleatoare cu
media de 120 oC şi deviaţia standard de 2 oC. Determinaţi temperatura medie şi deviaţia standard
în o F, ştiind că o F = 1.8 oC + 32.
Exerciţiu 4.9.17 Notăm cu Sn suma numerelor ce apar în n aruncări independente ale unui zar
ideal.
(a) Calculaţi probabilitatea P = P(S2 ≥ 6).
(b) Calculaţi probabilitatea obţinerii unui număr par.
Exerciţiu 4.9.18 O companie de asigurări oferă angajaţilor săi diverse poliţe de asigurare. Pentru
un asigurat ales aleator, notăm cu X numărul de luni scurs între două plăţi succesive. Funcţia de
repartiţie a lui X este:


 0 , x < 1;

0.3 , 1 ≤ x < 3;





0.4 , 3 ≤ x < 4;
F(x) =


 0.45 , 4 ≤ x < 6;
0.65 , 6 ≤ x < 12;





1 , 12 ≤ x.

(a) Determinaţi funcţia de probabilitate a lui X.


(b) Calculaţi P(3 ≤ X ≤ 6) şi P(4 ≤ X).
Exerciţiu 4.9.19 Variabila aleatoare discretă X are tabloul de distribuţie:

−2 0 2
Å ã
X: 1 1 1 .
4 2 4

Găsiţi şi reprezentaţi grafic funcţia de repartiţie FX (x). Calculaţi F( 12 ).


Exerciţiu 4.9.20 Pentru evaluarea rezultatelor obtinute la teza de Matematica de catre elevii unei
anumite scoli, se face un sondaj de volum 35 printre elevii scolii, iar notele lor sunt sumarizate
in Tabelul 4.1.
94 Capitolul 4. Variabile aleatoare

note 4 5 6 7 8 9 10
frecventa 3 6 7 8 5 4 2

Tabela 4.1: Medii generale şi frecvenţe

(i) Sa se scrie si sa se reprezinte grafic functia de repartitie asociată.


(ii) Notam cu X variabila aleatoare ce are acest tabel de repartiţie. Utilizand selectia de mai sus,
sa se aproximeze probabilitatea P(6 ≤ X ≤ 8).
Exerciţiu 4.9.21 Un anumit comerciant vinde trei tipuri de congelatoare: de 160 litri, de 190 litri
şi de 230 litri. Fie X variabila aleatoare care reprezintă alegerea unui client ales la întâmplare, ce
are tabelul de repartiţie:
x 160 190 230
p(x) 0.2 0.5 0.3

(a) Calculaţi E(X), Var(X).


(b) Dacă preţul unui frigider se calculează după formula P = 7X − 9.5, calculaţi valoarea
aşteptată a preţului plătit de următorul client care cumpără un congelator.
(c) Calculaţi Var(P).
(d) Presupunem că, deşi capacitatea afişată este X, capacitatea reală a unui congelator este
h(X) = X − 0.01X 2 . Care este valoarea medie a capacităţii reale pentru un congelator cumpărat
de următorul client?
5. Elemente de Statistică descriptivă

Statistica descriptivă este acea ramură a Statisticii care se preocupă de descrierea datelor statistice,
prin gruparea, reprezentarea grafică şi calcularea unor măsuri empirice ale formei sau tendinţei
datelor. Este primul pas pe care îl face un statistician ce urmăreşte sa extragă informatii dintr-un
set de date.
Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru o mai
buna observare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului), datele sunt
asezate in tabele de frecvente. Aceste tabele pot contine, pe langa clasele construite, frecvente
absolute, frecvente relative, frecvente cumulate, frontierele claselor, valorile de mijloc. Uneori
doar un singur tip de frecvente este suficient pentru a continua analiza datelor. Un exemplu de
tabel de frecvente este Tabelul 5.4.
Exista mai multe optiuni pentru reprezentarea grafica a datelor, in functie de tipul de date pe care
le avem. Spre exemplu, pentru date discrete sunt preferate reprezentarile cu bare sau cu sectoare
de disc. Dupa caz, mai pot fi folosite reprezentari cu puncte sau stem&leaf. Pentru date continue
se folosesc histograme sau sectoare de disc.

5.1 Elemente introductive de Statistică


5.1.1 Scurt istoric
Statistica este o ramură a ştiinţelor ce se preocupă de procesul de colectare de date şi informaţii,
de organizarea şi interpretarea lor, în vederea explicării unor fenomene reale. În Economie
şi Business, informaţiile extrase din datele statistice vor fi utile în evaluarea afacerilor sau a
mediului economic în care activează, ajutându-i astfel în luarea deciziilor. În general, prin date
(sau date statistice) înţelegem o mulţime de numere sau caractere ce au o anumită însemnătate
pentru utilizator. Utilizatorul este interesat în a extrage informaţii legate de mulţimea de date
pe care o are la îndemână. Datele statistice pot fi legate între ele sau nu. Suntem interesaţi de
studiul acestor date, cu scopul de a înţelege anumite relaţii între diverse trăsături ce măsoară
datele culese. De regulă, oamenii au anumite intuiţii despre realitatea ce ne înconjoară, pe care
le doresc a fi confirmate într-un mod cât mai exact. De exemplu, dacă într-o anumită zonă a ţării
96 Capitolul 5. Elemente de Statistică descriptivă

rata şomajului este ridicată, este de aşteptat ca în acea zonă calitatea vieţii persoanelor de acolo să
nu fie la standarde ridicate. Totuşi, ne-am dori să fim cât mai precişi în evaluarea legăturii dintre
rata somajului şi calitatea vieţii, de aceea ne-am dori să construim un model matematic ce să ne
confirme intuiţia. Un alt gen de problemă: ardem de nerăbdare să aflăm cine va fi noul preşedinte,
imediat ce secţiile de votare au închis porţile (exit-pole). Chestionarea tuturor persoanelor ce au
votat, colectarea şi unificarea tuturor datelor într-un timp record nu este o măsură deloc practică.
În ambele probleme menţionate, observaţiile şi culegerea de date au devenit prima treaptă spre
înţelegerea fenomenului studiat. De cele mai multe ori, realitatea nu poate fi complet descrisă de
un astfel de model, dar scopul este de a oferi o aproximare cât mai fidelă şi cu costuri limitate. În
ambele situaţii menţionate apar erori în aproximare, erori care ţin de întâmplare. De aceea, ne-am
dori să putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la colecţiile
de date obţinute dintr-o colectivitate, Statistica introduce metode de predicţie şi prognoză pentru
descrierea şi analiza proprietăţilor întregii colectivităţi. Aria de aplicabilitate a Statisticii este
foarte mare: ştiinţe exacte sau sociale, umanistică sau afaceri etc. O disciplină strâns legată de
Statistică este Econometria. Aceasta ramură a Economiei se preocupă de aplicaţii ale teoriilor
economice, ale Matematicii şi Statisticii în estimarea şi testarea unor parametri economici, sau
în prezicerea unor fenomene economice.
Statistica a apărut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaţiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai
bune administrări. Datorită originii sale, Statistica este considerată de unii ca fiind o ştiinţă de
sine stătătoare, ce utilizează aparatul matematic, şi nu este privită ca o subramură a Matematicii.
Dar nu numai originile sale au fost motivele pentru care Statistica tinde să devină o ştiinţă
separată de Teoria Probabilităţilor. Datorită revoluţiei computerelor, Statistica a evoluat foarte
mult în direcţia computaţională, pe când Teoria Probabilităţilor foarte puţin. Aşa cum David
Williams scria în [19], "Teoria Probabilităţilor şi Statistica au fost odată căsătorite; apoi s-au
separat; în cele din urmă au divorţat. Acum abia că se mai întâlnesc".
Din punct de vedere etimologic, cuvântului statistică îşi are originile în expresia latină statisticum
collegium (însemnând consiliul statului) şi cuvântul italian statista, însemnând om de stat sau
politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecţii şi clasificări de date.
Metodele statistice sunt astăzi aplicate într-o gamă largă de discipline. Amintim aici doar câteva
exemple:
• în Agricultură, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a fi
folosite pe un anumit teren arabil;
• în Economie, pentru studiul rentabilităţii unor noi produse introduse pe piaţă, pentru
corelarea cererii cu ofertă, sau pentru a analiza cum se schimbă standardele de viaţă;
• în Contabilitate, pentru realizarea operaţiunilor de audit pentru clienţi;
• în Biologie, pentru clasificarea din punct de vedere ştiinţific a unor specii de plante sau
pentru selectarea unor noi specii;
• în Ştiinţele educaţiei, pentru a găsi cel mai eficient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naţionale asupra diverselor caregorii de persoane ce lucrează în
învăţământ;
• în Meteorologie, pentru a prognoza vremea într-un anumit ţinut pentru o perioadă de timp,
sau pentru a studia efectele încălzirii globale;
• în Medicină, pentru testarea unor noi medicamente sau vaccinuri;
• în Psihologie, în vederea stabilirii gradului de corelaţie între timiditate şi singurătate;
5.1 Elemente introductive de Statistică 97

• în Politologie, pentru a verifica dacă un anumit partid politic mai are sprijinul populaţiei;
• în Ştiinţele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
• etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identifica mai întâi
care este colectivitatea asupra căreia se doreşte studiul. Această colectivitate (sau populaţie)
poate fi populaţia unei ţări, sau numai elevii dintr-o şcoală, sau totalitatea produselor agricole
cultivate într-un anumit ţinut, sau toate bunurile produse într-o uzină. Dacă se doreşte studiul
unei trăsături comune a tuturor membrilor colectivităţii, este de multe ori aproape imposibil
de a observa această trăsătură la fiecare membru în parte, de aceea este mult mai practic de a
strânge date doar despre o submulţime a întregii populaţii şi de a căuta metode eficiente de a
extrapola aceste observaţii la toată colectivitatea. Există o ramură a statisticii ce se ocupă cu
descrierea acestei colecţii de date, numită Statistică descriptivă. Această descriere a trăsăturilor
unei colectivităţi poate fi făcută atât numeric (media, dispersia, mediana, cuantile, tendinţe etc),
cât şi grafic (prin puncte, bare, histograme etc). De asemenea, datele culese pot fi procesate
într-un anumit fel, încât să putem trage concluzii foarte precise despre anumite trăsături ale
întregii colectivităţi. Această ramură a Statisticii, care trage concluzii despre caracteristici ale
întregii colectivităţi, studiind doar o parte din ea, se numeşte Statistică inferenţială. În contul
Statisticii inferenţiale putem trece şi următoarele: luarea de decizii asupra unor ipoteze statistice,
descrierea gradului de corelare între diverse tipuri de date, estimarea caracteristicilor numerice
ale unor trăsături comune întregii colectivităţi, descrierea legăturii între diverse caracteristici etc.
Statistica Matematică este o subramură a Matematicii ce se preocupă de baza teoretică abstractă
a Statisticii. Din datele culese pe cale experimentală, Statistica Matematică va căuta să extragă
informaţii şi să le interpreteze. Un cercetător într-un domeniul teoretic al Statisticii, cum este şi
Statistica Matematică, va căuta să îmbunătăţească metodele teoretice existente sau să introducă
altele noi. Aceasta va utiliza noţiuni din Teoria probabilităţilor, dar şi noţiuni din alte ramuri ale
Matematicii, cum ar fi: Algebra liniară, Analiza matematică, Teoria optimizării. De asemenea,
partea computaţională este deosebit de utilă în studiul Statisticii moderne, fără de care cercetarea
ar fi îngreunată sau, uneori, chiar imposibil de realizat.

5.1.2 Modelare statistică


De obicei, punctul de plecare este o problemă din viaţa reală, e.g., care partid are o susţinere mai
bună din partea populaţiei unei ţări, dacă un anumit medicament este relevant pentru boală pentru
care a fost creat, dacă este vreo corelaţie între numărul de ore de lumina pe zi şi depresie. Apoi,
trebuie să decidem de ce tipuri date avem nevoie să colectăm, pentru a putea da un răspuns la
întrebarea ridicată şi cum le putem colecta. Modurile de colectare a datele pot fi diverse: putem
face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este
nevoie de o metodă bine stabilită de colectare a datelor şi să construim un model statistic potrivit
pentru analiza acestora. În general, datele (observaţiile) culese pot fi potrivite într-un model
statistic prin care

Data observată = f (x, θ ) + eroare de aproximare, (5.1.1)

unde f este o funcţie ce verifică anumite proprietăţi şi este caracteristică modelului, x este
vectorul ce conţine variabilele măsurate şi θ e un parametru (sau un vector de parametri), care
poate fi determinat sau nedeterminat. Termenul de eroare apare deseori în pratică, deoarece
unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, şi
eventual revizuit, astfel încât să se potrivească într-o măsură cât mai precisă datelor culese.
98 Capitolul 5. Elemente de Statistică descriptivă

5.1.3 Populaţie statistică


O populaţie (colectivitate) statistică este o mulţime de elemente ce posedă o trasatură comună ce
urmează a fi studiată. Aceasta poate fi finită sau infinită, reală sau imaginară. In acest material
vom nota populatia statistica cu Ω. Din punct de vedere matematic, Ω este o multime nevida.
Elementele ce constituie o colectivitate statistică se vor numi unităţi statistice sau indivizi. Vom
nota cu ω o unitate statistică. Dacă populaţia este finită, atunci numărul N al unităţilor statistice
ce o compun (i.e., |Ω|) îl vom numi volumul colectivităţii (sau volumul populaţiei).
Caracteristica (variabila) unei populaţii statistice este o anumită proprietate urmărită la indivizii
ei în procesul prelucrării statistice şi care constituie obiectul măsurării. Spre exemplu, inaltimea
barbatilor dintr-o anumita tara, rata infiltrarii apei in solul urban, media la Bacalaureat, altitudinea,
culoarea frunzelor, nationalitatea participantilor la un congres international etc. Din punct de
vedere matematic, caracteristica este reprezentata printr-o variabila aleatoare definita pe Ω.
Spre exemplu, daca populatia statistica este mulţimea tuturor studenţilor dintr-o universitate
înrolaţi în anul întâi de master, atunci o caracteristica a sa ar fi media la licenţă obţinută de
fiecare dintre aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul
[6, 10], iar aceasta variabila poate lua orice valoare din acest interval. Caracteristicile pot fi:
cantitative (sau măsurabile sau numerice) (e.g., 2, 3, 5.75, 1/3, . . . ) sau calitative (categoriale
sau atribute) (e.g., albastru, foarte bine, german etc). La rândul lor, variabilele cantitative pot fi
discrete (numărul de sosiri ale unui tramvai în staţie) sau continue (timpul de aşteptare între două
sosiri ale tramvaiului în staţie). Caracteristicile pot depinde de unul sau mai multi parametri,
parametrii fiind astfel caracteristici numerice ale colectivităţii. În Statistică, se obisnuieste
a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . ., si valorile lor cu litere mici,
x, y, z, . . ..
Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem acces
la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a fi explicate
sau estimate pe baza datelor. Spre exemplu, pentru variabilele cantitative ale populatiei, putem
avea: parametri care sa descrie tendinta centrala a populatiei (e.g., media, mediana, momente),
parametri care sa descrie dispersia datelor (e.g., dispersia, deviatia standard, coeficient de varia-
tie), parametri de pozitie (e.g., cuantile), parametri ce descriu forma (e.g., skewness, kurtosis).
Pentru date bidimensionale, datele pot fi descrise de parametrii ce descriu legatura intre variabile:
corelatia sau coeficientul de corelatie. Pentru date calitative (categoriale), cei mai des utilizati
parametri sunt: π− proportia din populatie ce are caracteristica de interes (e.g., numarul de
fumatori din tara), cote (sanse teoretica pentru observarea caracteristicii de interes la intreaga
populatie) (e.g., exista 70% sanse sa ploua maine).

5.1.4 Variabile
În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare (prescurtat,
v.a.). Se numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece
valorile observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea
numerică este un număr real. Aşadar, din punct de vedere euristic, o variabilă aleatoare este o
cantitate ce poate avea orice valoare dintr-o multime data, fiecarei valori atribuindu-se o anumita
pondere (frecventa relativa). În viaţă de zi cu zi întâlnim numeroase astfel de funcţii, e.g.,
numerele ce apar la extragerea loto, rezultatul masurarii fertilitatii solului in diverse locatii,
numărul clienţilor deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a
unei persoane într-o staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de
clasa a IV-a la un test de matematică etc. De regula, variabilele aleatoare sunt notate cu litere de
5.1 Elemente introductive de Statistică 99

la sfârşitul alfabetului, X, Y, Z sau ξ , η, ζ etc.


După cum am văzut în cursurile anterioare, variabilele aleatoare (prescurtat v.a.) pot fi discrete
sau continue. Variabilele aleatoare discrete sunt cele care pot lua o mulţime finită sau cel mult
numărabilă (adica, o multime care poate fi numarata) de valori. O variabilă aleatoare se numeşte
variabilă aleatoare continuă (sau de tip continuu) dacă mulţimea tuturor valorilor sale este
totalitatea numerelor dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune
disjunctă de astfel de intervale, cu precizarea că pentru orice posibilă valoare c, P(X = c) = 0.
Pentru a specifica o v.a. discretă, va trebui să enumerăm toate valorile posibile pe care aceasta
le poate lua, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor probabilităţi
va fi întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur. Când se
face referire la repartiţia unei v.a. discrete, se înţelege modul în care probabilitatea totală 1 este
distribuită între toate posibilele valori ale variabilei aleatoare.
O variabila aleatoare continua poate lua orice valoare intr-un interval, sau chiar din R. Deoarece
in aceste multimi exista o infinitate de valori, nu mai putem defini o variabila aleatoare continua
la fel ca in cazul discret, precizandu-i fiecare valoare pe care o ia si ponderea corespunzatoare. In
schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta ia valori si
o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie de
densitate a repartitiei, sau simplu, densitate de repartiţie (en., probability density function).
O repartiţie poate depinde de unul sau mai mulţi parametri reali. Spre exemplu, repartitia normala
are doi parametri, µ si σ .

5.1.5 Date statistice


Vom numi date (sau date statistice) informaţiile obţinute în urma observaţiei valorilor unei
caracteristici a unei populatii statistice. In cazul mentionat mai sus, datele sunt mediile la licenţă
observate. Există mai multe tipuri de date statistice, după cum caracteristica (sau variabila)
observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă (are o
valoare numerica). Putem avea:
• date calitative (se mai numesc şi categoriale). Datele calitative pot fi de două feluri:
– nominale. Acestea pot fi organizate pe niveluri distincte (categorii), fără a considera o
anumită ordine între ele. De exemplu: culoarea părului, naţionalitatea unei persoane,
afilierea politică, genul unei persoane etc.
– ordinale. Valorile ordinale fac referinţă la ordinea lor. De cele mai multe ori, această
grupare şi ordonare în categorii este naturală, deşi de multe ori nu se cunosc distanţele
între categorii. De exemplu: schimbarea stării unui pacient după un anumit tratament
(aceasta poate fi: îmbunătăţire semnificativă, îmbunătăţire moderată, nicio schimbare,
înrăutăţire moderată, înrăutăţire semnificativă). Alte exemple: răspunsurile la sondaj
de opinie (total dezacord, dezacord, de acord, total de acord), evaluări ale filmelor (1
stea, 2 stele etc.).
Există situaţii când datele calitative (sau categoriale) pot fi exprimate numeric. Spre
exemplu, se pot atribui coduri numerice unor date calitative, ce permit prelucrarea lor cu
ajutorul metodelor statistice. De exemplu, atribuirea numerică a calificativelor oferite de
către studenţi profesorilor, de la dezacord total (1), până la acord total (5).
• date cantitative (sau numerice). Aceste date reprezintă rezultatele unor numărări sau
măsurători. Datele cantitative pot fi comparate între ele pe o axă numerică. Ele pot fi, la
rândul lor:
– date de tip discret, dacă sunt obţinute în urma observării unei caracteristici discrete
(o variabila aleatoare discretă, sau o variabila ale carei posibile valori sunt in numar
100 Capitolul 5. Elemente de Statistică descriptivă

finit sau cel mult numărabil). Exemple: numărul de studenţi care vin la un curs,
numărul de copii care îi are o mamă, nota la examenul de Statistică etc.
– date continue, dacă această caracteristică este continuă (o variabilă aleatoare de tip
continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe
axa reala). Exemple: media de la licenţă, atunci datele rezultate vor fi cantitative şi
continue, timpul de funcţionare e continuă a unei baterii, înălţimea unei persoane etc.
• Mai putem vorbi de date univariate, bivariate sau multivariate, atunci când datele statistice
sunt observaţii asupra unei variabile, a două variabile sau a mai multor variabile, respectiv.
• Spunem că avem date temporale sau spaţiale, după cum variabila studiată este dependentă
de timp (se obţin serii de timpi) sau de spaţiu (e.g., aciditatea solului în diverse locaţii).
Un alt mod de a caracteriza datele cantitative este următorul:
• date de tip interval. Datele de tip interval pot fi organizate în intervale de lungime egală,
semnificând diferent, e egale în caracteristica măsurată, dar fără a avea un zero semnificativ
(un punct „zero adevărat”), ci doar un zero arbitrar. Datele de tip interval sunt ordonate,
pot fi atât continue cât şi discrete. Le putem aduna şi scădea, dar nu le putem înmulţi
sau împărţi. Punctul cheie al unei scale de tip interval este cuvântul „interval”, care
înseamnă „spat, iu dintre”. Astfel, scalele de tip interval nu ne spun doar despre ordine, ci
s, i despre valoarea dintre fiecare element. Datele de tip interval pot arăta init, ial ca nişte
date ordinale (de exemplu, temperatură scăzută, medie sau ridicată), dar nivelurile sunt de
natură cantitativă s, i diferent, ele dintre niveluri au o semnificat, ie consistentă.
Un exemplu de date de tip interval: ora observată la un ceas analogic, de 12 ore. Ceasul are
intervale egale, iar timpul necesar pentru ca orarul să treacă de la 1 la 2 este acelas, i cu timpul
necesar pentru a trece de la 9 la 10. Ora 0 nu semnifică lipsa unei măsurători, deci 0 nu semnifică
absenţa mărimii. Pe această scală, valorile se pot aduna sau scădea, dar nu se pot înmulţi sau
împărţi. Spre exemplu, ora 10 nu este dublul orei 5.
Alte exemple de date de tip interval: date calendaristice, anul naşterii, coeficientul IQ al unei
persoane, temperatura în grade Celsius etc.

• date de tip raport. Datele de tip raport reprezintă cea mai complexă scală de măsurare
a datelor, precum s, i cea mai preferată scară de măsurare. Au toate proprietăt, ile datelor
de tip interval, dar posedă şi un zero natural, ceea ce înseamnă că există un punct în care
măsura respectivă, oricare ar fi ea, nu există. De aceea, putem înmult, i s, i împărt, i, precum
s, i aduna sau scădea datele de tip raport. Exemple de date de tip raport: date obţinute ca
observaţii ale unor variabile precum înălt, imea, masa corporală, durata, vârsta etc. Toate
aceste variabile pot avea o valoare de zero care reprezintă nimicul (absenţa valorii). Un
exemplu real de date de tip raport este venitul: banii câs, tigat, i într-o perioadă de timp. Se
poate câs, tiga fie 0 RON într-o lună, fie orice altă sumă de RON mai mare decât zero.
În mod esent, ial, datele de tip interval pot fi negative sau pozitive, în timp ce datele de tip raport
pot fi doar pozitive.
5.1 Elemente introductive de Statistică 101

5.1.6 Eşantionare (selecţie)


In general, volumul colectivitatii poate fi foarte mare sau chiar infinit, astfel ca efectuarea
unui recensământ (i.e., observarea caracteristicii de interes pentru toate elementele ce compun
colectivitatea) este fie foarte costisitoare sau imposibila. Pentru a efectua o analiza a caracteristicii
de interes sau chiar a repartitiei datelor observate, este suficienta analiza unei selectii de volum
suficient de mare formata din observatii ale caracteristicii, urmand ca aceasta analiza sa fie
extrapolata (folosind metode statistice specifice) pentru întreaga populaţie.
O selecţie (sau eşantion) este o colectivitate parţială de elemente extrase (la întâmplare sau nu)
din colectivitatea generală, în scopul cercetării lor din punctul de vedere al unei caracteristici.
Dacă extragerea se face la întâmplare, atunci spunem că am facut o selecţie întâmplătoare.
Numărul indivizilor din selecţia aleasă se va numi volumul selecţiei. Dacă se face o enumerare
sau o listare a fiecărui element component al unei populaţii statistice, atunci spunem că am
facut un recensământ. Selecţia ar trebui să fie reprezentativă pentru populaţia din care face
parte. Numim o selecţie repetată (sau cu repetiţie) o selecţie în urma căreia individul ales a fost
reintrodus din nou în colectivitate. Altfel, avem o selecţie nerepetată. Selecţia nerepetată nu
prezintă interes dacă volumul colectivităţii este finit, deoarece în acest caz probabilitatea ca un
alt individ să fie ales într-o extragere nu este aceeaşi pentru toţi indivizii colectivităţii. Pe de
altă parte, dacă volumul întregii populaţii statistice este mult mai mare decât cel al eşantionului
extras, atunci putem presupune că selecţia efectuată este repetată, chiar dacă în mod practic ea
este nerepetată. Spre exemplu, dacă dorim să facem o prognoză pentru a vedea cine va fi noul
preşedinte în urma alegerilor din toamnă, eşantionul ales (de altfel, unul foarte mic comparativ
cu volumul populaţiei cu drept de vot) se face, în general, fără repetiţie, dar îl putem considera a
fi o selecţie repetată, în vederea aplicării testelor statistice.
Selecţiile aleatoare se pot realiza prin diverse metode, în funcţie de următorii factori: disponibili-
tatea informaţiilor necesare, costul operaţiunii, nivelul de precizie al informaţiilor etc. Mai jos
prezentăm câteva metode de selecţie.
• selecţie simplă de un volum dat, prin care toţi indivizii ce compun populaţia au aceeaşi
şansă de a fi aleşi. Această metodă mininimizează riscul de a fi părtinitor sau favorabil
unuia dintre indivizi. Totuşi, această metodă are neajunsul că, în anumite cazuri, nu reflectă
componenţa întregii populaţii. Se aplică doar pentru colectivităţi omogene din punctul de
vedere al trăsăturii studiate.
• selecţie sistematică, ce presupune aranjarea populaţiei studiate după o anumită schemă
ordonată şi selectând apoi elementele la intervale regulate. (e.g., alegerea a fiecărui al
10-lea număr dintr-o carte de telefon, primul număr fiind ales la întâmplare (simplu) dintre
primele 10 din listă).
• selecţie stratificată, în care populaţia este separată în categorii, iar alegerea se face la
întâmplare din fiecare categorie. Acest tip de selecţie face ca fiecare grup ce compune
populaţia să poata fi reprezentat în selecţie. Alegerea poate fi facută şi în funcţie de
mărimea fiecărui grup ce compune colectivitatea totală (e.g., aleg din fiecare judeţ un
anumit număr de persoane, proporţional cu numărul de persoane din fiecare judeţ).
• selecţie ciorchine, care este un eşantion stratificat construit prin selectarea de indivizi din
anumite straturi (nu din toate).
• selecţia de tip experienţă, care ţine cont de elementul temporal în selecţie. (e.g., diverşi
timpi de pe o encefalogramă).
• selecţie de convenienţă: de exemplu, alegem dintre persoanele care trec prin faţa universi-
tăţii.
• selecţie de judecată: cine face selecţia decide cine ramâne sau nu în selecţie.
102 Capitolul 5. Elemente de Statistică descriptivă

• selecţie de cotă: selecţia ar trebui să fie o copie a întregii populaţii, dar la o scară mult
mai mică. Aşadar, putem selecta proporţional cu numărul persoanelor din fiecare rasă,
de fiecare gen, origine etnică etc) (e.g., persoanele din Parlament ar trebui să fie o copie
reprezentativă a persoanelor întregii ţări, într-o scară mult mai mică).
Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii
necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc
statistici. Prin intermediul statisticilor putem trage concluzii despre populaţia Ω, din care a
provenit eşantionul observat. Teoria probabilităţilor ne oferă procedee de determinare a repartiţiei
asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiţia exactă
este acea repartiţie ce poate fi determinată pentru orice volum al selecţiei. În general, dacă se
lucrează cu selecţii de volum redus (n < 30), atunci repartiţia exactă ar trebui să fie cunoscută
a priori, dacă se doreşte luarea de decizii prin inferenţă. Repartiţia asimptotică este repartiţia
limită a statisticii când n → ∞, iar utilizarea acesteia conduce la rezultate bune doar pentru
n ≥ 30.
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din
acestea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie
cat mai fidel si sugestiv acele date (prin grafice sau indicatori statistici), sa estimeze anumiti
parametri de interes (e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa
verifice prin inferenta ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii
sau chiar la forma acesteia.
Etapele unei analize statistice:
• Verificarea datelor pentru erori sau date lipsă. Sunt cazuri în care datele statistice sunt
înregistrate greşit (e.g., lipseşte virgula sau nu este la locul potrivit, unele date au o altă
unitate de măsură sau lipsesc unele valori).
• Organizarea şi gruparea datelor. Aceasta se face folosind tabele de frecvenţe. Gruparea
datelor nu este unică şi se pot încerca diverse grupări, alegându-se cea mai potrivită
specificului datelor. Este la latitudinea statisticianului de a le organiza, în funcţie de
specificul lor, de informaţiile pe care doreşte să le extragă.
• Reprezentarea datelor folosind diagrame/grafice potrivite. Datele de tip interval şi raport
pot fi reprezentate prin histograme sau prin sectoare de disc, iar cele de tip categorial pot
fi reprezentate prin bare sau prin sectoare de disc. Un grafic potrivit poate sugera multe
informaţii despre date. Pentru datele statistice cantitative se poate reprezenta şi diagrama
box-and-whiskers plot, reprezentând sinteza celor cinci statistici importante: valoarea
minimă, prima cuartilă, mediana (a doua cuartilă), a treia cuartilă şi valoarea maximă a
datelor. Această diagramă poate indica (dacă este cazul!) existenţa unor valori care ies din
tiparul majorităţii valorilor (numite outliers).
• Calculul unor indicatori statistici pentru date. Spre exemplu, se pot calcula: media,
dispersia, mediana, skewness, coeficientul de variaţie etc. Aceşti indicatori se doresc a fi
reprezentanţi numerici ai datelor statistice.
• Luarea de decizii pe baza datelor. Aceasta se poate face în urma unor teste statistice. Exem-
ple de teste statistice: test pentru verificarea normalităţii datelor, test pentru verificarea
mediei datelor, test pentru semnificaţia coeficientului de corelaţie etc.

5.2 Organizarea şi descrierea datelor statistice


Presupunem că avem o colectivitate statistică, căreia i se urmăreşte o anumită caracteristică (sau
variabila). Spre exemplu, colectivitatea este mulţimea tuturor studenţilor dintr-o universitate
5.2 Organizarea şi descrierea datelor statistice 103

înrolaţi în anul întâi de master, iar caracteristica este media la licenţă obţinută de fiecare dintre
aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul [6, 10], iar
aceasta variabila poate lua orice valoare din acest interval.
Vom numi date (sau date statistice) informaţiile obţinute în urma observarii valorilor acestei
caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenţă observate. În general,
datele pot fi calitative (se mai numesc şi categoriale) sau cantitative, după cum caracteristica (sau
variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă
(are o valoare numerica). Totodata, aceste date pot fi date de tip discret, dacă sunt obţinute în
urma observării unei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale
carei posibile valori sunt in numar finit sau cel mult numarabil), sau date continue, dacă această
caracteristică este continuă (o variabilă aleatoare de tip continuu, sau o variabila ce poate lua
orice valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele
vor fi cantitative şi continue.
În Statistică se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . ., si
valorile lor cu litere mici, x, y, z, . . .. Daca in exemplul de mai sus notam cu Z variabila medie la
licenta, atunci un anume z observat va fi media la licenta pentru un student din colectivitate ales
aleator.
Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea
şi reprezentarea grafica a datelor, dar şi în calcularea anumitor caracteristici numerice pentru
acestea. Datele înainte de prelucrare, adică exact aşa cum au fost culese, se numesc date
negrupate. Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 5.1,
reprezentând timpi (în min.sec) de aşteptare pentru primii 100 de clienţi care au aşteptat la un
ghişeu până au fost serviţi.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88
5.36 1.32
Tabela 5.1: Date statistice negrupate

De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urmăreşte a se grupa datele, pentru o mai uşoară gestionare. Imaginaţi-vă că enumerăm toate
voturile unei selecţii întâmplătoare de 15000 de votanţi, abia ieşiţi de la vot. Mai degrabă, ar fi
mai util şi practic să grupăm datele după numele candidaţilor, precizând numărul de voturi ce l-a
primit fiecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase
de interes.

5.2.1 Gruparea datelor


Datele prezentate sub formă de tabel (sau tablou) de frecvenţe se numesc date grupate. Datele
de selecţie obţinute pot fi date discrete sau date continue, după cum caracteristicile studiate sunt
variabile aleatoare discrete sau, respectiv, continue.

1. Date de tip discret: Dacă datele de selecţie sunt discrete (e.g., {z1 , z2 , . . . , zn }), este
posibil ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt
104 Capitolul 5. Elemente de Statistică descriptivă

nota frecvenţa absolută frecvenţa cumulată frecvenţa relativă frecvenţa relativă cumulată
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 - 100% -

Tabela 5.2: Tabel cu frecvenţe pentru date discrete.

z01 , z02 , . . . , z0r , r ≤ n. Atunci, putem grupa datele într-un aşa-numit tabel de frecvenţe (vezi
exemplul din Tabelul 5.2). Alternativ, putem organiza datele negrupate într-un tabel de frecvenţe,
după cum urmează:

data z01 z02 ... z0r


(5.2.2)
frecventa f1 f2 ... fr

unde fi este frecvenţa apariţiei valorii z0i , (i = 1, 2, . . . , r), şi se va numi distribuţia empirică de
selecţie a lui Z. Aceste frecvenţe pot fi absolute sau de relative. Un tabel de frecvenţe (sau o
distribuţie de frecvenţe) conţine cel puţin două coloane: o coloană ce reprezintă datele observate
(grupate în clase) şi o coloană de frecvenţe. În prima coloană apar clasele, adică toate valorile
distincte observate. Datele din această coloană nu se repetă. Prin frecvenţa absolută a clasei
înţelegem numărul de elemente ce aparţine fiecărei clase în parte. De asemenea, un tabel de
frecvenţe mai poate conţine frecvenţe relative sau cumulate. O frecvenţă relativă se obţine prin
împărţirea frecvenţei absolute a unei categorii la suma tuturor frecvenţelor din tabel. Astfel,
suma tuturor frecvenţelor relative este egală cu 100%. Frecvenţa (absolută) cumulată a unei
clase se obţine prin cumularea tuturor frecvenţelor absolute până la (inclusiv) clasa respectivă.
Frecvenţa relativă cumulată a unei clase se obţine prin cumularea tuturor frecvenţelor relative
până la (inclusiv) clasa respectivă.
Aşadar, elementele unui tabel de frecvenţe pot fi: clasele (ce conţin valori pentru variabile),
frecvenţe absolute, frecvenţe relative sau cumulate. Într-un tabel, nu este obligatoriu să apară
toate coloanele cu frecvenţe sau ele să apară în această ordine.
În Tabelul 5.2, sunt prezentate notele studenţilor din anul al III-lea la examenul de Statistică.
Acesta este exemplu de tabel ce reprezentă o caracteristică discretă.
2. Date de tip continuu: Dacă datele statistice sunt realizări ale unei variabile Z de tip
continuu, atunci se obişnuieste să se facă o grupare a datelor de selecţie în clase. Datele de tip
continuu pot fi grupate într-un tablou de distribuţie sau sub forma unui tabel de distribuţie, dupa
cum urmeaza:
5.2 Organizarea şi descrierea datelor statistice 105

clasa frecvenţa valoare medie


[a0 , a1 ) f1 z01
[a1 , a2 ) f2 z02
.. .. ..
data [a0 , a1 ) [a1 , a2 ) ... [ar−1 , ar ) . . .
frecventa f1 f2 ... fr [ar−1 , ar ) fr z0r

Tabela 5.3: Tabel cu frecvenţe pentru date de


tip continuu.
În particular, putem grupa datele de tip continuu din Tabelul 5.1 în tabloul de distribuţie următor:

data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)


frecventa 14 17 21 18 16 14

Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum doreste
utilizatorul. Uneori, tabelul de distribuţie pentru o caracteristică de tip continuu mai poate fi scris
şi sub forma unui tabel ca in (5.2.2), unde
ai−1 + ai
• z0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
• fi este frecvenţa apariţiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r), ∑ fi = n.
i=1
Pentru definirea claselor unui tabel de frecvenţe, nu există o regulă precisă. Fiecare utilizator
de date îşi poate crea propriul tabel de frecvenţe. Scopul final este ca acest tabel să scoată în
evidenţă caracteristicele datelor, cum ar fi: existenţa unor grupe (clase) naturale, variabilitatea
datelor într-un anumit grup (clasă), informaţii legate de existenţa unor anumite date statistice care
nu au fost observate in selecţia dată etc. În general, aceste caracteristici nu ar putea fi observate
privind direct setul de date negrupate. Totuşi, pentru crearea tabelelor de frecvenţe, se recomandă
următorii paşi:
1. Determinarea numărului de clase (disjuncte). Este recomandat ca numărul claselor să fie
între 5 şi 20. Dacă volumul datelor este mic (e.g., n < 30), se recomandă constituirea a 5
sau 6 clase. De asemenea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezentată de
cel puţin 5 valori (pentru un număr mic de clase). Dacă numărul claselor este mai mare,
putem avea şi mai puţine date într-o clasă, dar nu mai puţin de 3. O clasă cu prea puţine
valori (0, 1 sau 2) poate să nu fie reprezentativă.
2. Determinarea lăţimii claselor. Dacă este posibil, ar fi bine dacă toate clasele ar avea aceeaşi
lăţime. Acest pas depinde, în mare măsură, de alegerea din pasul anterior.
3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât fiecare
dată statistică să aparţine unei singure clase.
În practică, un tabel de frecvenţe se realizează prin încercări, până avem convingerea că gruparea
făcută poate surprinde cât mai fidel datele observate.
Aşadar, dacă ne este dată o înşiruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat în tabele sau tablouri de frecvenţe. Invers (avem tabelul sau tabloul de
repartiţie şi vrem să enumerăm datele) nu este posibil, decât doar în cazul unei caracteristici de
tip discret. De exemplu, dacă ni se dă Tabelul 5.4, ce reprezintă rata somajului într-o anumită
regiune a ţării pe categorii de vârste, nu am putea şti cu exactitate vârsta exactă a persoanelor
care au fost selecţionate pentru studiu.
Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clasă, valoarea obţinută prin media valorilor extreme ale clasei. În
106 Capitolul 5. Elemente de Statistică descriptivă

vârsta frecvenţa frecvenţa relativă frecvenţa cumulată vârsta medie


[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -

Tabela 5.4: Tabel cu frecvenţe pentru rata somajului.

cazul Tabelului 5.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenţa cumulată
a unei clase este suma frecvenţelor tuturor claselor cu valori mai mici.

5.3 Reprezentarea datelor statistice


Un tabel de frecvenţe sau o distribuţie de frecvenţe (absolute sau relative) sunt de cele mai multe
ori baza unor reprezentări grafice, pentru o mai bună vizualizare a datelor. Aceste reprezentări
pot fi făcute în diferite moduri, dintre care amintim pe cele mai uzuale.

5.3.1 Reprezentare prin puncte


Reprezentarea prin puncte (en., dot plot) este folosită, de regula, pentru selecţii de date de tip
discret de dimensiuni mici, sau avem un număr relativ mic de valori distincte ale datelor.
Datele sunt reprezentate prin puncte aşezate
unul peste celalalt, reprezentând numărul de
apariţii ale unei valori pentru caracteristica dată.
Un astfel de grafic este reprezentat în Figura 5.1.
Aceste reprezentări sunt utile atunci când dorim
să aflăm informaţii despre amplitudinea datelor,
existenţa unor valori extreme, sau se doreşte
scoaterea în evidenţă a anumitor pâlcuri de date
(en., clusters) sau chiar lipsa unor date (goluri).
Au avantajul de a conserva valoarea numerică a
datelor reprezentate.
Figura 5.1: Reprezentarea cu puncte.

5.3.2 Reprezentarea stem-and-leaf


Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Următorul
set de date negrupate reprezinta punctajele (din 100 de puncte) obţinute de cei 20 de elevi ai unui
an de studiu la o testare semestrială:
50 34 55 41 59 61 62 64 68 18 68 73 75 77
44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 5.3 reprezintă aceste date sub forma stem-and-leaf (ramură-frunză). Se observă că acest
tabel arată atât cum sunt repartizate datele, cât şi forma repartiţiei lor. Aşadar, 7|5 semnifică un
punctaj de 75. Pentru un volum prea mare de date, această reprezentare nu este cea mai bună
metodă de vizualizare a datelor. În secţiunile următoare vom prezenta şi alte metode utile.
5.3 Reprezentarea datelor statistice 107
stem leaf
10
9 26
8 1568
7 357779
6 122488
5 0359
4 148
3 49
2
1 8
0

Figura 5.2: Reprezentarea datelor discrete. Figura 5.3: Tabel stem-and-leaf repre-
zentând punctajele studenţilor.

5.3.3 Reprezentarea cu bare (bar charts)

Este utilă pentru reprezentarea variabilelor discrete cu un număr mic de valori diferite. Barele
sunt dreptunghiuri ce reprezintă frecvenţele, nefiind unite între ele. Fiecare dreptunghi reprezintă
o singură valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regulă, pe orizontală
iar frecvenţele pe verticală. Figura 5.41 reprezintă datele din tabelul cu note. Se poate schimba
orientarea categoriilor şi a claselor; în acest caz barele vor apărea pe orizontală (Figura 5.42 ).

Figura 5.4: Reprezentări cu bare verticale sau orizontale

Figura 5.5 contine o reprezentare de date folosind bare 3D.


108 Capitolul 5. Elemente de Statistică descriptivă

Figura 5.5: Exemple de reprezentări compuse prin bare 3D

Figura 5.6 contine o compunere de două reprezentări cu bare, reprezentând vârstele bărbaţilor şi
femeilor dintr-un eşantion, cu scopul de a le compara.

Figura 5.6: Vârstele bărbaţilor şi femeilor ce au participat la un studiu

5.3.4 Histograme
O histogramă este o reprezentare aproximativă a distribut, iei datelor numerice intermediul unor
dreptunghiuri, ale căror lăt, imi reprezintă intervalele claselor s, i ale căror arii sunt proport, ionale
cu frecvent, ele corespunzătoare.
Cuvântul "histogramă" a fost introdus pentru prima oară de Karl Pearson1 în 1895. Acesta
derivă din cuvintele greceşti histos (gr., ridicat în sus) şi gramma (gr., desen, înregistrare). O
histogramă este o formă pictorială a unui tabel de frecvenţe, foarte utilă pentru selecţii mari de
date de tip continuu. Se aseamănă cu reprezentarea prin bare, cu următoarele două diferenţe: nu
există spaţii între bare (deşi, pot apărea bare de înalţime zero ce arată a fi spaţiu liber) şi ariile
barelor sunt proporţionale cu frecvenţele corespunzătoare. Numărul de dreptunghiuri este egal
cu numărul de clase, lăţimea dreptunghiului este intervalul clasei, iar înălţimea este aşa încât aria
fiecărui dreptunghi reprezintă frecvenţa. Aşadar, în general, dreptunghiurile unei histograme se
ating pentru a indica faptul că variabila reprezentată grafic este continuă. Aria totală a tuturor
dreptunghiurilor este egală cu numărul total de observaţii. Dacă barele unei histograme au toate
1 Karl Pearson (1857 − 1936), statistician, avocat şi eugenist britanic
5.3 Reprezentarea datelor statistice 109

Înălţimea (în cm) frecvenţa


[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 25) 10
[25, 30) 2

Tabela 5.5: Tabel cu înălţimile plantelor


Tabela 5.6: Histograme pentru datele din Tabelul 5.5

aceeaşi lăţime, atunci înălţimile lor sunt proporţionale cu frecvenţele. Înălţimile barelor unei
histogramei se mai numesc şi densităţi de frecvenţă. În cazul în care lăţimile barelor nu sunt
toate egale, atunci înălţimile lor satisfac:

frecvenţa
înălţimea = a · , a = factor de proporţionalitate.
lăţimea clasei

O histogramă este utilizată pentru date de tip continuu, unde clasele reprezintă intervale de
date, în timp ce o diagramă cu bare este un grafic de variabile de tip discret sau categorial. Se
recomandă ca diagramele cu bare să aibă goluri între dreptunghiuri pentru a se observa diferenţa.
În multe cazuri, cuvintele folosite pentru a descrie o histogramă sunt: „simetrică”, „deformată la
stânga” sau „deformată la dreapta”, „unimodală”, „bimodală” sau „multimodală ”. O idee bună
ar fi reprezentarea datelor utilizând mai multe lăt, imi diferite ale claselor, pentru a afla mai multe
despre date.
Să presupunem că am fi grupat datele din Tabelul 5.5 într-o altă manieră, în care clasele nu sunt
echidistante (vezi Tabelul 5.7). În Tabelul 5.7, datele din ultimele două clase au fost cumulate
într-o singură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă din Tabelul 5.5
nu avea suficiente date. Histograma ce reprezintă datele din Tabelul 5.7 este cea din Figura 5.8.
Conform cu regula proporţionalităţii ariilor cu frecvenţele, se poate observa că primele patru bare
au înălţimi egale cu frecvenţele corespunzătoare, pe când înălţimea ultimei bare este jumătate
din valoarea frecvenţei corespunzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte.
În general, pentru a construi o histogramă, vom avea în vedere următoarele:
− datele vor fi împărţite (unde este posibil) în clase de lungimi egale. Uneori aceste divizări sunt
naturale, alteori va trebui să le fabricăm.
− numărul de clase este, în general, între 5 şi 20. Cu cât avem mai multe date, cu atât vom folosi
mai multe clase.
110 Capitolul 5. Elemente de Statistică descriptivă

− în general, nu există o regulă exactă pentru a deter-


mina numărul de clase. Două dintre regulile cele mai
uzuale de stabilire a numărului de clase k sunt:
• numărul
√ de clase approximativ egal cu
numărul
√ de date. Spre exemplu, putem alege
k = [ n] + 1.
• (regula lui Sturges) numărul de clase k este astfel
încât k = 1 + 3.322 log10 , ori n = dlog2 ne + 1.
Metoda lui Sturges este optimă pentru un număr
de date n situat între 30 şi 200.
Figura 5.7: Histogramă 3D
− determinaţi lăţimea minimă a claselor după formula
valoarea maximă observată − valoarea minimă observată
h= .
k
Este o practică obis, nuită să rotunjit, i lăt, imea minimă a clasei până la o zecimală convenabilă,
pentru a face incrementele de-a lungul axei orizontale mai lizibile.
− determinaţi clasele şi apoi înregistraţi numărul de date din fiecare clasă (frecvenţe absolute).
− figura ce conţine histograma va avea clasele pe orizontală şi frecvenţele pe verticală.

Înălţimea (în cm) frecvenţa


[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 30) 12

Tabela 5.7: Tabel cu înălţimile plantelor

Tabela 5.8: Histograme pentru datele din Tabelul 5.7

înălţimea (în cm) frontierele lăţimea frecvenţa densitatea de frecvenţă


[18, 25) 17.5 − 25.5 8 34 4.25
[25, 35) 24.5 − 35.5 11 76 6.91
[35, 45) 34.5 − 45.5 11 124 11.27
[45, 55) 44.5 − 55.5 11 87 7.91
[55, 65) 54.5 − 65.5 11 64 5.82

Tabela 5.9: Tabel cu frontierele claselor.

Observaţie 5.3.1 (1) Dacă lungimea unei clase este infinită, atunci se obişnuieşte ca lăţimea
ultimului interval să fie luată drept dublul lăţimii intervalului precedent.
(2) În multe situaţii, capetele intervalelor claselor sunt nişte aproximări, iar în locul acestora vom
5.3 Reprezentarea datelor statistice 111

putea utiliza alte valori. Spre exemplu, să considerăm clasa [15, 20). Această clasă reprezintă
clasa acelor plante ce au înălţimea cuprinsă între 15cm şi 20cm. Deoarece valorile înălţimilor
sunt valori reale, valorile 15 şi 20 sunt, de fapt, aproximările acestor valori la cel mai apropiat
întreg. Aşadar, este posibil ca această clasă să conţină acele plante ce au înălţimile situate
între 14.5cm (inclusiv) şi 20.5cm (exclusiv). Am putea face referire la aceste valori ca fiind
valorile reale ale clasei, numite frontierele clasei. În cazul în care am determinat frontierele
clasei, lăţimea unei clase se defineşte ca fiind diferenţa între frontierele ce-i corespund. În
concluzie, în cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, lăţimea 6 şi frecvenţa 17
6.
Pentru exemplificare, în Tabelul 5.9 am prezentat frontierele claselor, lăţimile lor şi densităţile
de frecvenţă pentru datele din Tabelul 5.4.

5.3.5 Reprezentare prin sectoare de disc (pie charts)

Se poate reprezenta distribuţia unei caracteristici şi folosind sectoare de disc (diagrame circulare)
(en., pie charts), fiecare sector de disc reprezentând câte o frecvenţă relativă. Această variantă
este utilă în special la reprezentarea datelor calitative. Există şi posibilitatea de a reprezenta
datele prin sectoare 3 dimensionale. În Figura 5.9 am reprezentat datele din Tabelul 5.4.

Figura 5.9: Reprezentare pe disc 3D


Figura 5.8: Reprezentarea pe disc a frecvenţelor
relative ale notelor din tabelul cu note

5.3.6 Poligonul frecvenţelor

Un poligon de frecvenţă este similar cu o reprezentare


cu bare, dar în loc să folosească barele, se creează
un poligon prin trasarea frecvenţelor şi conectarea
acestor puncte cu o serie de segmente.

Figura 5.10: Exemplu de poligon al


frecvenţelor
112 Capitolul 5. Elemente de Statistică descriptivă

5.3.7 Ogive

Pentru frecventele cumulate pot fi folosite ogive. O


ogivă reprezintă graficul unei frecvenţe cumulate
(absolută sau relativă).

Figura 5.11: Ogivă pentru frecvenţele


absolute cumulate din Tabelul 5.2

5.3.8 Diagrama Q-Q sau diagrama P-P


Q-Q plot (diagrama cuantila-cuantila) si P-P plot
(diagrama probabilitate-probabilitate) sunt utilizate
in a determina apropierea dintre doua seturi de date
(repartitii). Daca datele provin dintr-o acceasi repar-
titie, atunci ele se aliniaza dupa o dreapta desenata
in figura. Diagrama Q-Q este bazata pe rangurile
valorilor, iar diagrama P-P este bazata pe functiile
de repartitie empirice.
Figura 5.12: Exemplu de diagrama Q-Q plot

5.3.9 Diagrama scatter plot


Dacă (xk , yk ), k ∈ {1, 2, . . . , n} este un set de date
bidimensionale, ce reprezintă observaţii asupra vec-
torului aleator (X, Y ), atunci o măsură a legăturii
dintre variabilele X şi Y este coeficientul de corela-
ţie empiric introdus de K. Pearson. Primul pas în
analiza regresională este vizualizarea datelor. Pen-
tru aceasta se foloseşte reprezentarea scatter plot.

Figura 5.13: Exemplu de scatter plot


În concluzie, exista mai multe optiuni pentru reprezentarea grafica a datelor, in functie de
tipul de date pe care le avem. Spre exemplu, pentru date discrete şi categoriale sunt preferate
reprezentarile cu bare sau cu sectoare de disc. Dupa caz, mai pot fi folosite reprezentari cu puncte
sau stem&leaf. Pentru date continue se folosesc histograme sau sectoare de disc.
5.4 Măsuri descriptive ale datelor statistice 113

5.4 Măsuri descriptive ale datelor statistice


Să considerăm o populaţie statistică de volum N şi o caracteristică a sa, X, ce are funcţia de
repartiţie F. Asupra acestei caracteristici facem n observaţii, în urma cărora culegem un set
de date statistice. După cum am văzut anterior, datele statistice pot fi prezentate într-o formă
grupată (descrise prin tabele de frecvenţe) sau pot fi negrupate, exact aşa cum au fost culese
în urma observărilor. Pentru analiza acestora, pot fi utilizate diverse tehnici de organizare
şi reprezentare grafică a datelor statistice însă, de cele mai multe ori, aceste metode nu sunt
suficiente pentru o analiză detaliată. Suntem interesaţi în a atribui acestor date anumite valori
numerice reprezentative. Pot fi definite mai multe tipuri de astfel de valori numerice, e.g.,
măsuri ale tendinţei centrale (media, modul, mediana), măsuri ale dispersiei (dispersia, deviaţia
standard), măsuri de poziţie (cuantile, distanţa intercuantilică) etc. În acest capitol, vom introduce
diverse măsuri descriptive numerice, atât pentru datele grupate, cât şi pentru cele negrupate.
Înainte de a introduce indicatorii statistici specifici datelor, facem unele precizări. Există anumite
tipuri de date pentru care unii dintre indicatorii de mai jos nu sunt utilizaţi în practică. Spre
exemplu, pentru datele norminale (date grupate în categorii, fără o anumită ordine între ele) nu
putem calcula media (şi alţi indicatori care derivă din ea, e.g., dispersia, deviaţia standard etc) sau
mediana. Pentru datele statistice ordinale (date grupate în categorii, între care este considerată
o ordine) nu putem calcula media, deoarece distanţele dintre clase nu sunt cunoscute. Pentru
datele statistice de tip continuu putem calcula atât media, cât şi mediana şi modul.

5.4.1 Date negrupate


Considerăm un set de date statistice negrupate, x1 , x2 , . . . , xn (xi ∈ R, i = 1, 2 . . . , n, n ≤ N), ce
corespund unor observaţii făcute asupra variabilei X. Pe baza acestor observatii, definim urmă-
toarele măsuri descriptive ale datelor, in scopul de a estima parametrii reali ai caracteristicilor
populatiei. Deoarece ele se bazeaza doar pe observatiile culese, aceste masuri se mai numesc si
masuri empirice.

• Valoarea medie
Este o măsură a tendinţei centrale a datelor. Pentru o selecţie {x1 , x2 , . . . , xn }, definim:

1 n
x̄ = ∑ xi ,
n i=1

ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru media
teoretica, µ = EX, daca aceasta exista.

• Pentru fiecare i, cantitatea di = xi − x se numeşte deviaţia valorii xi de la medie. Aceasta


nu poate fi definită ca o măsură a gradului de împrăştiere a datelor, deoarece
n
∑ (xi − x) = 0.
i=1

• Momentele
Pentru k ∈ N∗ , momentele iniţiale de ordin k se definesc astfel:

1 n k
ak = ∑ xi .
n i=1
114 Capitolul 5. Elemente de Statistică descriptivă

Pentru fiecare k ∈ N∗ , momentele centrate de ordin k se definesc astfel:

1 n
mk = ∑ (xi − x)k .
n i=1

• Dispersia
Aceasta este o măsură a gradului de împrăştiere a datelor în jurul valorii medii. Pentru o
selecţie {x1 , x2 , . . . , xn }, definim dispersia astfel:
n
Ç n
å
1 1
s2 = ∑ (xi − x̄)2 = [ ∑ xi2 − n(x̄)2 ] .
n − 1 i=1 n − 1 i=1

• Deviaţia standard
Este tot o măsură a împrăştierii datelor în jurul valorii medii. Pentru o selecţie {x1 , x2 , . . . , xn },
definim deviaţia standard:
s
1 n
s= ∑ (xi − x̄)2.
n − 1 i=1
• Coeficientul de variaţie (sau de dispersie)
Acest coeficient (de obicei, exprimat în procente) este util atunci când comparăm două
repartiţii având unităţi de măsură diferite. Nu este folosit atunci când x sau µ este foarte
mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de variatie a datelor
este mai mare pentru populatie ce are media mai mica.
s
cv = , coeficient de variaţie,
x
• Amplitudinea (plaja de valori, range)
Pentru un set de date, amplitudinea (en., range) este definită ca fiind diferenţa dintre
valoarea cea mai mare şi valoarea cea mai mică a datelor, i.e., xmax − xmin .
• Scorul z
Este numărul deviaţiilor standard pe care o anumită observaţie, x, le are sub sau deasupra
mediei. Pentru o selecţie {x1 , x2 , . . . , xn }, scorul X este definit astfel:

xi − x̄
zi = .
s
• Corelaţia (covarianţa)
Dacă avem n perechi de observaţii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), definim corelaţia (cova-
rianţa):

1 n
cov(x, y) = ∑ (xi − x̄)(yi − ȳ).
n − 1 i=1
(5.4.3)

• Coeficientul de corelaţie

cov(x, y)
r= , coeficient de corelaţie,
sx sy
• Funcţia de repartiţie empirică
5.4 Măsuri descriptive ale datelor statistice 115

Se numeşte funcţie de repartiţie empirică asociată unei variabile aleatoare X şi unei
selecţii {x1 , x2 , . . . , xn }, funcţia Fn∗ : R −→ [0, 1], definită prin
numărul valorilor ≤ x
Fn∗ (x) = . (5.4.4)
n
Propoziţia de mai jos arată că funcţia de
repartiţie empirică aproximează funcţia de
repartiţie teoretică (vezi Figura 5.14).

Propoziţie 5.4.1 Fie Ω o colectivitate statistică


şi X o caracteristică a sa, ce se doreşte a fi stu-
diată. Notez cu F(x) funcţia de repartiţie (teore-
tica) a lui X. Pentru o selecţie de valori ale lui X,
{x1 , x2 , . . . , xn }, construim funcţia de repartiţie
empirică, Fn∗ (x). Atunci: Figura 5.14: Funcţia de repartiţie empirică
şi funcţia de repartiţie teoretică pentru distri-
a.s.
Fn∗ (x) −→ F(x), când n → ∞, ∀x ∈ R. buţia normală.

• Coeficientul de asimetrie (en., skewness) este al treilea moment standardizat, care se


defineşte prin

1 n 3
m3 n ∑i=1 (xi − x)
γ1 = 3 = î ó3/2 .
s 1 n
(x − x)2

n−1 i=1 i

Figura 5.15: Clasificarea după coeficientul skewness


O repartiţie este simetrică dacă γ1 = 0. Vom spune că asimetria este pozitivă (sau la
dreapta) dacă γ1 > 0 şi negativă (sau la stânga) dacă γ1 < 0.

• Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis) se defineşte prin

1 n 4
m4 n ∑i=1 (xi − x)
K= =Ä ä2 .
s4 1 n 2
n−1 ∑i=1 (xi − x)

Figura 5.16: Clasificarea după coeficientul kurtosis


Este o măsură care ne indică dacă distribuţia datelor are valori extreme. Kurtosis este al pa-
trulea moment standardizat. Vom avea o repartiţie mezocurtică pentru K = 3, leptocurtică
pentru K > 3 sau platocurtică pentru K < 3. În unele cazuri, în definiţie apare termenul
−3 (adică, k = ms44 − 3), pentru a compara cu valoarea lui k a repartiţiei normale standard.
În acest caz, indicatorul poartă numele de exces.
116 Capitolul 5. Elemente de Statistică descriptivă

• Cuantile
Cuantilele (de ordin q) sunt valori ale unei variabile aleatoare care separă repartiţia ordonată
în q părţi egale.
Pentru q = 2, cuantila xq se numeşte mediană, notată prin x0.5 sau me.
Presupunem că observaţiile sunt ordonate, x1 < x2 < · · · < xn . Pentru această ordine,
definim valoarea mediană:

®
x(n+1)/2 , dacă n = impar;
x0.5 =
(xn/2 + xn/2+1 )/2 , dacă n = par;

Pentru q = 4, cuantilele se numesc cuartile (sunt în număr de 3). Prima cuartilă, notată
x0.25 sau q1 , se numeşte cuartila inferioară, a doua cuartilă este mediana, iar ultima
cuartilă, notată x0.75 sau q3 , se numeşte cuartila superioară. Diferenţa iqr = q3 − q1 se
numeşte distanţa intercuartilică.
Pentru q = 10 se numesc decile (sunt în număr de 9), pentru q = 100 se numesc percentile
(sau centile sunt în număr de 99), pentru q = 1000 se numesc permile (sunt în număr de
999). Sunt măsuri de poziţie, ce măsoară locaţia unei anumite observaţii faţă de restul
datelor.

• Modul
Modul (sau valoarea modală) este acea valoare x∗ din setul de date care apare cel mai
des. Un set de date poate avea mai multe module. Dacă apar două astfel de valori, atunci
vom spune că setul de date este bimodal, pentru trei astfel de valori avem un set de date
trimodal etc. În cazul în care toate valorile au aceeaşi frecvenţă de apariţie, atunci spunem
că nu există mod. De exemplu, setul de date

1 3 5 6 3 2 1 4 4 6 2 5

nu admite valoare modală. Nu există un simbol care să noteze distinctiv modul unui set de
date.

• Valori extreme (sau aberante, en. outliers)


Valorile extreme sunt valori statistice observate care sunt îndepărtate de marea majoritate a
celorlalte observaţii. Ele pot apărea din cauza unor măsurători defectuoase sau în urma
unor erori de măsurare. De cele mai multe ori, ele vor fi excluse din analiza statistică.
Însă, sunt cazuri în care ele nu trebuie excluse, e.g., atunci când studiem dacă un anumit
parametru depăşeşte sau nu o valoare critică. Din punct de vedere matematic, valorile
extreme sunt valorile care se află în afara intervalului

[q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )]


5.4 Măsuri descriptive ale datelor statistice 117

• Sinteza prin cele cinci valori statistice


(five number summary)

Reprezintă cinci măsuri statistice empirice ca-


racteristice unui set de date statistice. Acestea sunt
(în ordine crescătoare): cea mai mică valoare obser-
vată (min{xi }), prima cuartilă (q1 ), mediana (me), a
i
treia cuartilă (q3 ) şi cea mai mare valoare observată
(max{xi }). Aceste cinci numere pot fi reprezentate
i
grafic într-o diagramă numită box-and-whisker plot,
ca în diagrama din Figura 5.17.
Figura 5.17: Diagrama box-and-
whisker plot explicată
În figurile de mai jos sunt desenate astfel de diagrame. Datele din Tabelul 5.4 sunt
reprezentate în prima figură de mai jos prin două diagrame box-and-whiskers. În prima
diagramă (numerotată cu 1) am generat uniform datele din tabel, păstrând clasele; în a
doua diagramă am folosit reprezentarea datelor din acelaşi tabel prin centrele claselor.
Reprezentările sunt cele clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin
puncte în diagrama box-and-whisker plot.
vârsta f. abs. f. rel. f. cum. mijlocul clasei
[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -

Tabela 5.10: Tabel cu frecvenţe.

Figura 5.18: Box-and-whisker plot pentru datele din Tabelul 5.4


118 Capitolul 5. Elemente de Statistică descriptivă

În Figura 5.19, am reprezentat cu box-and-


whisker un set de date discrete ce conţine
două valori aberante. Aici dreptunghiul a
fost crestat (notched box-and whisker plot);
lungimea crestăturii oferind un interval de
încredere pentru mediană. Valorile aberante
sunt reprezentate in figura prin puncte in afara
range-ului datelor.
Figura 5.19: Box-and-whisker plot pentru un set de
date discrete

. Q: What did the box-and-whisker plot say to the outlier?


. A: "Don’t you dare get close to my whisker!!"

5.4.2 Date grupate


Considerăm un set de date statistice grupate (de volum n), ce reprezinta observaţii asupra
variabilei X. Pentru o selecţie cu valorile de mijloc {x1 , x2 , . . . , xr } şi frecvenţele absolute
r
corespunzătoare, { f1 , f2 , . . . , fr }, cu ∑ fi = n, definim:
i=1

1 r
x̄ f = ∑ xi fi,
media (empirică) de selecţie, (sau, media ponderată)
n i=1
Ç r å
2 1 r 2 1 2 2
sf = ∑ fi(xi − x̄ f ) = n − 1 ∑ xi fi − n x̄ f , dispersia (varianţa) empirică,
n − 1 i=1 i=1
»
2
s f = s f , deviaţia empirică standard.

Formule similare se pot da şi pentru măsurile descriptive ale întregii populaţii.
mediana pentru un set de date grupate este acea valoare ce separă toate datele în două părţi egale.
Se determină mai întâi clasa ce conţine mediana (numită clasă mediană), apoi presupunem că
în interiorul fiecărei clase datele sunt uniform distribuite. O formulă după care se calculează
mediana este:
n
− Fme
me = l + 2 c,
fme
unde: l este limita inferioară a clasei mediane, n este volumul selecţiei, Fme este suma frecvenţelor
până la (exclusiv) clasa mediană, fme este frecvenţa clasei mediane şi c este lăţimea clasei
mediane. Similar, formulele pentru cuartile sunt:
n 3n
4 − Fq1 4 − Fq3
q1 = l1 + c1 şi q3 = l3 + c3 ,
fq1 fq3

unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, c1 şi
c3 sunt lăţimile claselor lui q1 (respectiv, q3 ), Fq este suma frecvenţelor până la (exclusiv) clasa
ce contine cuartila, iar fq este frecvenţa clasei unde se gaseste cuartila.
5.5 Transformări de date 119

Pentru a afla modul unui set de date grupate, determinăm mai întâi clasa ce conţine această
valoare (clasă modală), iar modul va fi calculat după formula:

d1
mo = l + c,
d1 + d2

unde d1 şi d2 sunt frecvenţa clasei modale minus frecvenţa clasei anterioare şi, respectiv, frecvenţa
clasei modale minus frecvenţa clasei posterioare, l este limita inferioară a clasei modale şi c este
lăţimea clasei modale.

5.5 Transformări de date


Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine
valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate
(folosind functiile ln sau log10 , daca valorile sunt toate pozitive), radacina patrata a valorilor,
transformarea Box-Cox, transformarea logit, radacini de ordin superior etc. In Tabelul 5.11 am
sugerat tipul de transformare ce poate fi utilizat in functie de coeficientul de skewness γ1 .

În ce condiţii. . . skewness formula


date aproape simetrice −0.5 < γ1 < 0.5 nicio transformare

skewness moderat pozitiv, date nenegative 0.5 ≤ γ1 < 1 yi =
√ xi
skewness moderat pozitiv, exista date < 0 0.5 ≤ γ1 < 1 yi = √xi +C
skewness moderat negativ −1 < γ1 ≤ 0.5 yi = C − xi
skewness mare negativ γ1 ≤ −1 yi = ln(C − xi )
skewness mare pozitiv, date pozitive γ1 ≥ 1 yi = ln xi
skewness mare pozitiv, exista date ≤ 0 γ1 ≥ 1 yi = ln(xi +C)

Tabela 5.11: Exemple de transformari de date statistice

Aici, C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce face
transformarea este definita. În loc de funcţia ln se poate folosi şi logaritmul în altă bază, e.g.,
funcţia log10 .
De exemplu, presupunem ca datele observate sunt x1 , x2 , . . . , xn si acestea nu sunt toate pozitive,
cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor;
aceasta este xmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea 1
la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate
sunt echivalente cu folosirea directa a formulei ln(1 + xi ) (adunand valoarea 1, am facut toate
argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y1 , y2 , . . . , yn ,
unde yi = ln(1 + xi ). Un exemplu este cel din Figura 5.20. Se observa ca datele logaritmate sunt
aproape normale. O analiza statistica poate fi condusa pentru datele yi , urmand ca, eventual, la
final sa aplicam transformarea inversa xi = eyi − 1 pentru a transforma rezultatele pentru datele
initiale.
120 Capitolul 5. Elemente de Statistică descriptivă

Figura 5.20: Datele intiale si datele logaritmate

Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a
determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii statistici
atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul
5.12.
Indicatorul datele originale datele tranformate
xi yi = ln(1 + xi )
Minimum −0.8464 −1.8734
Maximum 14.1107 2.7154
media 6.02142 1.51
Cuartila q1 3.1152 0.6532
mediana 6.5200 1.2512
Cuartila q3 8.7548 1.5785
Deviatia standard 5.2511 0.7524
Dispersia 27.5741 0.5661
Skewness 6.2322 0.0233
Kurtosis 78.6077 2.9786
Numarul de observatii 100 100
2
χ pentru testul de normalitate (7 grade de libertate) − 7.1445

Tabela 5.12: Exemplu de indicatori pentru datele originale si pentru datele transformate
5.6 Exerciţii rezolvate 121

5.6 Exerciţii rezolvate


Exerciţiu 5.6.1 Următorul set de date negrupate reprezintă vârstele (în ani, ajustaţi până la cel
mai apropiat întreg) a 20 de persoane participante la o serbare:

20 10 7 19 25 12 15 7 10 8 14 16 15 7 8 13 6 5 7 12

(a) Construiţi un tabel de frecvenţe adecvat datelor.


(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
√ √
R: (a) Alegem numărul de clase k = [ n] + 1 = [ 20] + 1 = 5.
Cea mai mică valoare a datelor este 5, cea mai mare valoare a datelor este 25. Amplitudinea
datelor este A = 25 − 5 = 20. Lăţimea unei clase va fi
valoarea maximă − valoarea minimă 25 − 5
l= = = 4.
k 5
Vârsta Frecv. abs. Tally Densitatea
8
[5, 9) 8 4 =2
5
[9, 14) 5 4 = 1.25
4
[14, 17) 4 4 =1
2
[17, 21) 2 4 = 0.5
1
[21, 25) 1 4 = 0.25
Total 20 - -

(b) Pentru că datele sunt discrete de tip raport, le putem reprezenta folosind histograme sau
sectoare de disc (pie charts).

Figura 5.21: Reprezentarea cu histograme Figura 5.22: Sectoare de disc 3D

Exerciţiu 5.6.2 Următorul set de date grupate reprezintă punctajele (maximum este 100 de
puncte) obţinute de 80 de studenţi la testul de Statistică:
Punctajul Frecv. abs.
1 − 50 21
51 − 60 8
61 − 70 15
71 − 80 22
81 − 100 14
Total 80
122 Capitolul 5. Elemente de Statistică descriptivă

(a) Desenaţi un grafic potrivit pentru a reprezenta datele.


(b) Estimaţi numărul de studenţi care au obţinut punctaje între 26 şi 75.
R: (a) Datele sunt discrete, de tip interval şi le vom reprezenta prin histograme. Calculăm
densităţile de frecvenţă după formula:
frecvenţa clasei
densitatea = .
numărul de valori din clasă
Pentru că datele sunt discrete de tip interval, le putem reprezenta folosind histograme sau sectoare
de disc (pie charts). Valorile roşii din reprezentarea cu histograme sunt ariile dreptunghiurilor
corespunzătoare, care sunt frecvenţele absolute ale claselor.

Figura 5.24: Sectoare de disc

Figura 5.23: Reprezentarea cu histograme


(b) Numărul de studenţi care au obţinut punctaje între 26 şi 75 este aproximativ egal cu aria
haşurată din histograma de mai jos, care este: (50 − 26) · 0.42 + 8 + 15 + 11 ≈ 44.

Exerciţiu 5.6.3 Următorul set de date negrupate reprezintă numărul de pets (animale de casă) pe
care fiecare dintre cei 25 de studenţi aleşi în eşantion le au.
0 0 1 2 0 0 1 0 3 4 1 0 7 1 0 1 2 3 2 1 0 0 0 1 4
(a) Construiţi un tabel de frecvenţe adecvat datelor.
(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
5.6 Exerciţii rezolvate 123

R: (a) Reprezentăm datele cu bare (date de tip categorial ordinal). Numărul de clase k = 6.

Nr. pets Frecv. abs. Tally


0 10
1 7
2 3
3 2
4 2
7 1
Total 25 -

(b) Graficul cu bare (3D) este cel de mai jos.

Exerciţiu 5.6.4 Următorul set de date reprezintă preţurile (în mii de euro) a 20 de case, vândute
într-o anumită regiune a unui oraş:

113 60.5 340.5 130 79 475.5 90 100 175.5 100


111.5 525 50 122.5 125.5 75 150 89 100 70

(a) Determinaţi amplitudinea, media, mediana, modul, deviatia standard, cuartilele şi distanţa
intercuartilică pentru aceste date. Care valoare este cea mai reprezentativă?
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
(c) Calculaţi coeficientii de asimetrie si de aplatizare.

R: Rearanjăm datele în ordine crescătoare:

50 60.5 70 75 79 89 90 100 100 100 111.5


113.5 122.5 125.5 130 150 175.5 340.5 475.5 525
124 Capitolul 5. Elemente de Statistică descriptivă

Amplitudinea este 525 − 50 = 475, media lor este


100 + 111.5
154.15, mediana este = 105.75,
2
modul este 100, cuartila inferioară este
79 + 89
q1 = = 84, q2 = me, cuartila supe-
2
130 + 150
rioară este q3 = = 140 şi distanţa
2
intercuartilică este d = q3 − q1 = 56.
mediana este valoarea cea mai reprezentativă în
acest caz, deoarece cele mai mari trei preţuri,
anume 340.5, 475.5, 525, măresc media şi o fac
mai puţin reprezentativă pentru celelalte date. În
cazul în care setul de date nu este simetric, valoarea
mediană este cea mai reprezentativă valoare a
datelor.
Figura 5.25: box-and-whisker plot pentru
datele din Exerciţiul 5.6.4
s
1 n
Deviatia standard este s = ∑ (xi − x̄)2 = 133.3141. Folosind formulele, gasim ca γ1 =
n − 1 i=1
1.9598 (asimetrie la dreapta) si K = 5.4684 (boltire pronuntata). Valorile aberante sunt cele ce
se afla in afara intervalului

[q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )] = [0, 224].

Se observa ca valorile 340.5, 475.5 şi 525 sunt valori aberante, reprezentate prin puncte in figura.

Exerciţiu 5.6.5 Considerăm datele din Tabelul 5.5.


(a) Determinaţi amplitudinea, media, mediana, modul, dispersia si distanta intercuartilică pentru
aceste date.
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?

R: Amplitudinea este a = 30. Folosind centrele claselor, media este

∑(x · f ) 1
x̄ = = (2.5 · 5 + 7.5 · 13 + 12.5 · 23 + 17.5 · 17 + 22.5 · 10 + 27.5 · 2) = 13.9286.
n 70
Dispersia este:
1
s2 = ( (x2 · f ) − n · x̄2 )
n−1 ∑
1
= (2.52 · 5 + 7.52 · 13 + 12.52 · 23 + 17.52 · 17 + 22.52 · 10 + 27.52 · 2 − 70 · 13.92862 )
69
= 37.06.

Clasa mediană este clasa [10, 15). Deoarece în clasele anterioare ([0, 5) şi [5, 10)) se află deja
5 + 13 = 18 date mai mici decât mediana, pentru a afla valoarea mediană a plantelor (i.e., acea
valoare care este mai mare decât alte 35 de valori la stanga ei şi mai mică decât alte 35 de plante
de la dreapta sa), va trebui să determinăm acea valoare din clasa mediană ce este mai mare decât
alte 17 valori din această clasă. Aşadar, avem nevoie de a determina o fracţie 17
23 dintre valorile
5.6 Exerciţii rezolvate 125

clasei mediane. În concluzie, valoarea mediană este

35 − 18
me = 10 + × 5 = 13.6957.
23

10
Clasa modală este [10, 15), iar modul este mo = 10 + 10+6 × 5 = 13.125.
n
− Fq1
Calculăm acum prima cuartilă dupa formula q1 = l1 + 4 × c. Clasa in care se gaseste
fq1
prima cuartila este [5, 10) (o valoare din acest interval va avea la stanga sa 70/4 dintre valorile
observate). Avem: Fq1 = 5, fq1 = 13, c = 5, de unde q1 = 9.8077.
Similar, clasa in care se gaseste a treia cuartila este [15, 20) (o valoare din acest interval va avea
la dreapta sa 70/4 dintre valori. Avem: Fq3 = 41, fq3 = 10, c = 5, de unde q3 = 18.3824.

Exerciţiu 5.6.6 O companie de asigurări a înregistrat numărul de accidente pe săptămână ce au


avut loc într-un anumit sat, în decurs de un an (52 de săptămâni). Acestea sunt, în ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

(a) Construiţi un tabel de frecvenţe care să conţină numărul de accidente, frecvenţele absolute şi
relative.
(b) Găsiţi media empirică, mediana şi deviaţia standard empirică.
(c) Reprezentaţi prin bare rezultatele din tabelul de frecvenţe.
(d) Găsiţi şi reprezentaţi grafic funcţia de repartiţie empirică a numărului de accidente.

R: (a) Tabelul de frecvenţe este Tabelul 5.13. (b) Avem:

numărul 0 1 2 3 4
frecv. abs. 7 9 14 12 10
frecv. rel. 0.1346 0.1731 0.2692 0.2308 0.1923

Tabela 5.13: Tabel de frecvenţe pentru Exerciţiu 5.6.6

Ã
52
1 1 52
x= ∑ xi = 2.1731,
52 i=1
s= ∑ (xi − x̄)2 = 1.3094,
51 i=1
me = 2.

(c) Reprezentarea prin bare a numărului de accidente şi graficul lui Fn∗ (x) sunt reprezentate în
Figura 5.26.
126 Capitolul 5. Elemente de Statistică descriptivă

(d) Funcţia de repartiţie empirică este:




 0, dacă x < 0;
7

52 , dacă x ∈ [0, 1);




 16 , dacă x ∈ [1, 2);

Fn∗ (x) = 5230


 52 , dacă x ∈ [2, 3);
42
, dacă x ∈ [3, 4);


 52



1, dacă x ≥ 4.

Figura 5.26: Reprezentarea numărului de accidente


Exerciţiu 5.6.7 Se consideră următorul set de date:

173 140 205 192 197 225 158 260 170 185 208 189 190 167 225 190 184 195
(a) Determinaţi amplitudinea, media, modul şi deviaţia standard pentru această selecţie.
(b) Reprezentaţi diagrama box-and-whisker plot pentru date.
R: (a) Avem n = 19 observaţii. Amplitudinea datelor este A = xmax − xmin = 260 − 140 = 120.
Valoarea medie este
1 19
x = ∑ xi = 191.8333.
n i=1
Modurile datelor sunt 190 şi 225. Dispersia datelor este

1 19
s2 = ∑ (xi − x)2 = 748.2647.
n − 1 i=1

Deviaţia standard a datelor este s = s2 = 27.3544.
(b) Grupăm datele crescător:

140; 158; 167; 170; 173; 184; 185; 189; 190; 190; 192; 195; 197; 205; 208; 225; 225; 260

Mediana (valoarea de mijloc a) datelor este Me = 190.


Prima cuartilă este Q1 = 173, iar ultima cuartilă este
Q3 = 205. Distanţa intercuartilică este IQR = Q3 − Q1 = 32.
Valorile extreme (outliers) se vor afla în afara intervalului

[173 − 1.5 · 32, 205 + 1.5 · 32] = [125, 253].

Se observă că doar valoarea 260 se află în afara acestui


interval.

Figura 5.27: Reprezentarea box-


and-whiskers plot
5.6 Exerciţii rezolvate 127

Exerciţiu 5.6.8 Ana a început să lucreze la un magazin de calculatoare. Şeful ei i-a cerut să t, ină
o evident, ă a numărului de vânzări pe care le-a făcut în fiecare lună. Următorul set de date este o
listă a vânzărilor sale din ultimele 12 luni:
34, 47, 1, 15, 57, 24, 20, 11, 19, 50, 28, 37.
La fel ca Ana, Cristian lucrează la un magazin de calculatoare. De asemenea, a înregistrat
numărul de vânzări pe care le-a făcut în fiecare lună. În ultimele 12 luni, el a vândut următoarele
numere de computere:
51, 17, 25, 39, 7, 49, 62, 41, 20, 6, 43, 13.
1. Determinaţi sinteza celor cinci valori pentru vânzările efectuate de fiecare dintre cei doi.
2. Desenaţi diagramele box-and-whiskers plot pentru vânzările fiecăruia.
3. Descriet, i pe scurt comparat, iile dintre vânzările lor.

R: 1. Sinteza celor cinci valori pentru Ana


este 1, 17, 26, 42, 57, iar pentru Cristian este
6, 15, 32, 46, 62.

Figura 5.28: Reprezentările


box-and-whiskers plot
3. Cea mai mare s, i cea mai scăzută vânzare ale lui Cristian sunt ambele mai mari decât vânzările
corespunzătoare ale Anei, iar cifra mediană a vânzărilor lui Cristian este mai mare decât cea a
Anei. De asemenea, intervalul intercuartil al lui Cristian este mai mare decât cel al Anei. Aceste
rezultate sugerează că Cristian vinde în mod constant mai multe computere decât face Ana.
Exerciţiu 5.6.9 Folosind diagramele box-and-whiskers plot de mai jos, determinat, i procentul de
băiet, i s, i apoi procentul de fete care au 168 cm sau mai put, in.

R: Se observă că 168 se află la prima cuartilă în diagrama ce reprezintă înălţimile fetelor şi
la mediană în diagrama ce reprezintă înălţimile băieţilor. Aşadar 25% dintre băieţi şi jumătate
dintre fete sunt mai scunzi de 168 cm.
128 Capitolul 5. Elemente de Statistică descriptivă

5.7 Exerciţii propuse


Exerciţiu 5.7.1 Pentru un set de 5 valori, media empirică este x = 50 şi dispersia empirică este
s2 = 4. Dacă trei dintre valori sunt 48, 51, 52, determinaţi şi celelalte două valori.
Exerciţiu 5.7.2 Se consideră următoarea selecţie de note obţinute de elevii unei şcoli la teza de
Matematică.
5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7
6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6
(a) Determinaţi media, deviaţia standard şi mediana pentru această selecţie.
(b) Grupaţi datele şi scrieţi funcţia de repartiţie empirică.
(c) Reprezentaţi un box-and-whisker plot pentru date.
Exerciţiu 5.7.3 Pentru evaluarea rezultatelor obţinute la proba de Matematică a examenului de
Bacalaureat de către elevii unei şcoli, s-a făcut un sondaj de volum 30 printre elevii şcolii, notele
fiind următoarele:
3.72 7.45 4.65 6.95 5.00 4.30 8.93 7.14 8.24 6.67
9.33 9.05 5.86 6.75 7.20 7.28 6.65 5.90 7.75 4.33
7.18 8.00 5.50 7.70 4.12 8.40 7.00 6.90 5.00 7.80
(a) Descrieţi datele folosind o reprezentare stem & leaf.
(b) Calculaţi media, dispersia şi mediana pentru selecţia considerată, precizând formulele
folosite.
(c) Determinaţi cele cinci măsuri statistice din five number summary
(d) Reprezentaţi un box-and-whisker plot pentru date.
(e) Ionel a obţinut nota 8.45 la examen. Determinaţi scorul său.
Exerciţiu 5.7.4 Tabelul de mai jos conţine notele la Matematică a 10 elevi dintr-o anumită şcoală
obţinute la: testul de simulare a examenului de Bacalaureat (T) şi la examenul Bacalaureat (B).
T 6.15 5.75 8.45 8.90 7.83 6.50 10 4.50 9.25 7.65
B 7.23 6.00 7.76 9.63 6.90 6.33 9.90 3.24 8.67 7.90

(a) Reprezentaţi cele două seturi de date prin câte un box-and-whisker plot, în aceeaşi figură.
(b) Reprezentaţi datele din tabel printr-o diagramă scatter.
(c) Calculaţi coeficientul de corelaţie empirică între T şi B şi comentaţi rezultatul.

Exerciţiu 5.7.5 Tabelul alăturat conţine repartiţia pe grupe de vârstă


şi gen a unei selecţii aleatoare de 385 de şomeri dintr-o anumită regiune vârsta frecvenţa
a ţării. [18, 25) 34
(a) Calculaţi vârsta medie si deviaţia standard pentru selecţia dată. [25, 35) 76
(b) Aflaţi mediana, modul şi quartilele pentru selecţia dată. [35, 45) 124
(c) Reprezentaţi datele prin bare şi sectoare de disc. [45, 55) 87
(d) Construiţi diagrama box-and-whiskers pentru acest set de date. [55, 65) 64

Exerciţiu 5.7.6 Considerăm diagrama stem-and-leaf din Figura 5.3. Răspundeţi la următoarele
cerinţe:
(a) Aflaţi cuartilele şi distanţa interquartilică;
(b) Există valori extreme pentru acest set de date?
(c) Construiţi diagrama box-and-whiskers pentru acest set de date;
5.7 Exerciţii propuse 129

(d) Care este valoarea maximă cu care putem înlocui cea mai mică observaţie fără a afecta
valoarea primei cuartile?
Exerciţiu 5.7.7
O companie foloseşte două maşini pentru a produce
batoane de ciocolată. Pentru a controla calibrarea
maşinilor, au fost alese aleator câte 30 de batoane de
ciocolată produse de fiecare maşină. Datele rezultate în
urma cântăririi acestor batoane sunt reprezentate grafic
în diagrama alăturată. Comparaţi şi comentaţi datele din
cele două eşantioane.

Nr. de goluri pe meci Nr. de meciuri


Exerciţiu 5.7.8 Tabelul 5.14 conţine distribuţia 0 8
numărului de goluri înscrise într-un meci la campi- 1 13
onatul mondial de fotbal din 2006. 2 18
(a) Determinaţi cuartilele pentru aceste date. 3 11
(b) Desenaţi o diagrama box-and-whisker pentru 4 10
date. 5 2
(c) Care este probabilitatea ca, într-un meci ales 6 2
aleator, numărul de goluri marcate să fie mai mic
decât ultima cuartilă? Tabela 5.14: Tabel cu numărul de goluri
pe meci la FIFA WC 2006
Exerciţiu 5.7.9 Un grup de persoane au participat la un studiu
Vârsta Frecvenţa
statistic. Vârstele participanţilor sunt înregistrate în tabelul alăturat.
[18, 25) 10
(a) Valoarea mediană este 42. Determinaţi valoarea lui x.
[25, 35) 39
(b) Desenaţi o diagrama box-and-whisker pentru date.
[35, 45) x
(c) Aflaţi vârsta medie a participanţilor la studiu ce au cel puţin 45
[45, 55) 53
de ani.
[55, 65) 21
(d) Construiţi coloanele cu frecvenţe relative şi frecvenţe cumulate.
[65, 75) 7
(e) Reprezentaţi datele cu histograme.
Exerciţiu 5.7.10 Graficul alăturat reprezintă
punctajele a 150 de studenţi la un anumit test.

(a) Aflaţi procentul de studenţi care au luat


punctaj de trecere (cel puţin 50) la test.

(b) Care este procentajul celor care sau luat un


punctaj de cel puţin 75 la test?

(c) Aflaţi cuartilele pentru aceste date. Figura 5.29: Punctajele studenţilor

Exerciţiu 5.7.11 Tabelul de mai jos conţine notele a 12 studenţi la probele de Matematică şi
Informatică de la Bacalaureat.
Mate 6.20 9.10 4.30 3.10 5.70 6.30 8.15 3.70 4.30 1.50 7.85 7.65
In f o 6.50 5.70 5.50 3.70 6.20 7.05 7.30 4.90 6.55 4.12 6.45 7.25
(a) Folosiţi box-and-whisker plot pentru a reprezenta datele. Pe baza acestor diagrame,
130 Capitolul 5. Elemente de Statistică descriptivă

comparaţi datele.
(b) Construiţi diagrama scatter şi pe baza ei comentaţi legătura dintre cele două seturi de date.

Exerciţiu 5.7.12 Un vânzător ţine evidenţa numărului de clienţi care intră în magazinul său în
timpul unei zile lucrătoare. Iată rezultatele pentru 30 de zile.
14, 23, 10, 7, 14, 23, 35, 16, 27, 32, 11, 26, 24, 8, 27, 8, 17, 9, 18, 29, 21, 12, 38, 22, 19, 28, 30, 21, 19, 35

(a) Completaţi tabelul de frecvenţe.


(b) Care este procentajul zilelor în care au intrat
mai mult de 20 clienţi.
(c) Reprezentaţi grafic datele din tabel printr-o
figură adecvată.
(d) Reprezentaţi datele printr-o diagramă stem&
leaf.

Exerciţiu 5.7.13 Diagrama alăturată ilustrează sporturile


preferate de elevii dintr-o şcoală. Fiecare elev a ales un
singur sport preferat.

(a) Care este valoarea modală?


(b) Care este procentul elevilor care preferă alte sporturi?

Dacă 306 de elevi preferă fotbal, atunci:

(c) câţi elevi preferă volei?


(d) câţi elevi sunt în şcoală? Figura 5.30: Sporturi preferate de elevii
unei şcoli
Exerciţiu 5.7.14 Diagrama alăturată ilustrează
timpul mediu pe care în fac de acasă până la
şcoală elevii dintr-o anumită şcoală cu două
cicluri de studiu, primar şi gimnazial.

(a) Câţi elevi ajung la şoală în 30 de minute


sau mai mult?
(b) Estimaţi numărul de elevi din ciclul
gimnazial.
(c) Comparaţi graficele pentru cele două
cicluri de studiu, făcând comentarii utile.
Figura 5.31: Timp mediu de a ajunge la şcoală

Exerciţiu 5.7.15 Se consideră următoarea selecţie de note obţinute de elevii unei şcoli la teza de
Matematică.

5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7,
6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6.
5.7 Exerciţii propuse 131

(a) Calculaţi media, deviaţia standard şi mediana pentru această selecţie.
(b) Grupaţi datele şi scrieţi funcţia de repartiţie empirică;
(c) Reprezentaţi datele printr-o diagramă/grafic adecvat.
Exerciţiu 5.7.16 Construiţi un tabel de frecvenţe cu 5 clase din următorul set de date:
5 10 7 19 25 12 15 7 6 8 17 17 22 21 7 7 24 5 6 5
Reprezentaţi datele din tabel cu bare, în aceeaşi figură cu poligonul frecvenţelor.
Exerciţiu 5.7.17 Construiţi o diagramă stem&leaf din următorul set de date:
35 22 7 39 45 12 15 27 46 18 17 27 22 21 27 37 34 35 6 15

Exerciţiu 5.7.18 Următoarea listă indică numărul de camere, cu excepţia băii şi a bucătăriei, din
50 de locuinţe. Construiţi un tabel de frecvenţe şi desenaţi un grafic cu bare pentru a reprezenta
aceste date.
2 6 4 3 3 4 4 7 5 4 5 3 7 5 5 4 4 5 6 2 5 4 4 8 6
6 3 4 4 5 8 6 5 5 3 3 3 7 5 4 4 5 4 1 6 2 3 3 6 4

Exerciţiu 5.7.19 Datele de mai jos reprezintă înălţimile a 40 de copii dintr-o şcoală. Construiţi
un tabel de frecvenţe şi desenaţi un grafic cu un număr optim de histograme pentru a reprezenta
aceste date. Estimaţi numărul de copii ce au înălţimea peste 50 cm.
113 92 60 77 103 88 91 93 57 73 65 68 72
79 83 86 79 98 62 69 77 82 78 84 68 90 79
71 74 82 84 90 100 96 80 84 93 69 75 80

Exerciţiu 5.7.20 Într-o şcoală, 2/5 dintre elevi studiază engleza, 1/4 dintre elevi studiază limba
germană, 1/5 dintre elevi studiază franceza şi restul elevilor studiază alte limbi. Desenaţi o
diagramă circulară exactă pentru a ilustra aceste informaţii.
Exerciţiu 5.7.21 Histogramele din figurile de mai jos reprezinta punctaje (din 100) la trei
examene diferite pentru un grup de 150 de studenţi. Punctajul de promovare pentru fiecare
examen este de 50.
132 Capitolul 5. Elemente de Statistică descriptivă

• Pentru fiecare examen, decideţi dacă procentul celor care au trecut examenul a fost de:
aproximativ 50%, cu mult peste 50% sau cu mult sub 50%?
• Determinaţi procentul de studenţi care au promovat examenul pentru fiecare figură.
• Ce procent de studenţi a obt, inut 65 de puncte sau mai mult la fiecare dintre aceste examene?
Exerciţiu 5.7.22 Pentru fiecare dintre histogramele de mai jos, estimaţi media, mediana şi
cuartilele. Construiţi diagramele box-and-whiskers plot corespunzătoare.

Exerciţiu 5.7.23 Într-un studiu al product, iei de lapte la oaie (care a fost utilizat la fabricarea
brânzei), un cercetător a măsurat product, ia de lapte pe 3 luni, pentru fiecare dintre cele 11 oi.
Rezultatele (în litri) au fost următoarele:
56.5 89.8 110.1 65.6 63.7 82.6 75.1 91.5 102.9 44.4 108.1

1. Determinat, i mediana s, i quartilele.


2. Determinat, i dacă există valori extreme.
3. Construit, i diagrama boxplot a datelor.
Exerciţiu 5.7.24 Următoarea histogramă reprezintă un set de date care sunt reprezentate într-unul
dintre cele patru boxplot alăturate. Care boxplot se potrives, te cu histograma?
6. Noţiuni din Teoria selecţiei statistice

6.1 Introducere
Definiţie 6.1.1 Numim colectivitate statistică (sau populaţie) o mulţime nevidă Ω de elemente
care este cercetată din punct de vedere al uneia sau mai multor caracteristici. Elementele
colectivităţii le vom numi indivizi (sau unităţi statistice). Vom nota cu ω o unitate statistică.
Dacă populaţia este finită, atunci numărul N al unităţilor statistice ce o compun (i.e., card(Ω)= N)
îl vom numi volumul colectivităţii (sau volumul populaţiei).
Considerăm o populaţie (colectivitate statistică) Ω. Studiem populaţia Ω din punctul de vedere
al unei caracteristici a sale, X. Această caracteristică este o anumită proprietate urmărită la
indivizii ei în procesul prelucrării statistice şi o vom asimila cu o variabilă aleatoare definită pe
Ω. Problema esenţială a Statisticii Matematice este de a stabili legea de probabilitate pe care
o urmează caracteristica X. Pentru a găsi această lege (repartiţie), avem nevoie mai întâi de
un număr reprezentativ de observaţii asupra colectivităţii Ω. Pe baza acestor observaţii, vom
determina prin inferenţă o lege care să reprezinte variabila X.
Definiţie 6.1.2 Vom numi selecţie (sau eşantion, sondaj) o subcolectivitate a colectivităţii
cercetate Ω. Numărul elementelor selecţiei poartă numele de volumul selecţiei (eşantionului).
Selecţiile pot fi repetate sau nerepetate. O selecţie se numeşte repetată (sau bernoulliană) dacă
după examinarea individului acesta se reintroduce în colectivitate; în caz contrar avem o selecţie
nerepetată. În practică, volumul colectivităţii Ω este mult mai mare decât volumul selecţiei. În
aceste cazuri, selecţia nerepetată poate fi considerată ca fiind selecţie repetată. Selecţiile pe care
le vom considera în continuare sunt numai selecţii repetate din colectivitatea statistică.

Definiţie 6.1.3 Vom numi statistică (sau funcţie de selecţie) variabila aleatoare

Sn (X) = g(X1 , X2 , . . . , Xn ),

unde g este o funcţie g : Rn → R.


Ca o observaţie, numele de "statistică" este folosit în literatura de specialitate atât pentru
variabila aleatoare de mai sus, cât şi pentru valoarea ei, înţelesul exact desprinzându-se din
134 Capitolul 6. Noţiuni din Teoria selecţiei statistice

context. Repartiţia unei statistici se mai numeşte şi repartiţia (distribuţia) de selecţie.

Notaţie 6.1.1 În literatură, pentru o statistică se foloseşte una dintre următoarele notaţii:

Sn (X), S(X, ω (n) ), S(X, n), S(X1 , X2 , . . . , Xn ), S(X).

(sau cu alte litere specifice, în loc de S).


Valoarea numerică
Sn (x) = g(x1 , x2 , . . . , xn )
se numeşte valoarea funcţiei de selecţie pentru un ω (n) fixat.
Observaţie 6.1.1 Aşadar, o statistică este o funcţie de variabilele aleatoare de selecţie. Prin
intermeniul statisticilor putem trage concluzii despre populaţia Ω, din care a provenit eşantionul
ω (n) . Teoria probabilităţilor ne oferă procedee de determinare atât a repartiţiei exacte a lui Sn (X),
cât şi a repartiţiei asimptotice a lui Sn (X). Repartiţia exactă este acea repartiţie ce poate fi
determinată pentru orice volum al selecţiei. În general, dacă se lucrează cu selecţii de volum
redus (n < 30), atunci repartiţia exactă ar trebui să fie cunoscută a priori, dacă se doreşte luarea
de decizii prin inferenţă. Repartiţia asimptotică este repartiţia limită a Sn (X) când n → ∞, iar
utilizarea acesteia conduce la rezultate bune doar pentru n ≥ 30.
De cele mai multe ori, o funcţie de selecţie (statistică) este utilizată în următoarele cazuri:
• în probleme de estimare punctuală a parametrilor;
• în obţinerea intervalelor de încredere pentru un parametru necunoscut;
• ca o statistică test pentru verificarea ipotezelor statistice.

6.1.1 Statistici uzuale


Fie (Ω, F ) o colectivitate statistică şi X o caracteristică cercetată a sa. Să notăm cu f (x) şi F(x)
densitatea de repartiţie (sau funcţia de probabilitate), respectiv, funcţia de repartiţie pentru X.
Acestea pot fi cunoscute sau necunoscute a priori şi le vom numi funcţii teoretice (densitate de
repartiţie teoretică, funcţie de probabilitate teoretică sau funcţie de repartiţie teoretică). Dacă se
cunoaşte f (x), atunci putem determina µ = E(X) şi σ 2 = Var(X), dacă acestea există, şi le vom
numi medie teoretică şi dispersie teoretică.
În cazul în care una sau mai multe caracteristici teoretice corespunzătoare lui X nu ne sunt a
priori cunoscute, vom căuta să le determinăm prin inferenţă, adică prin extragerea unor selecţii
de date din colectivitate, calculând caracteristicile respective pentru selecţiile considerate şi apoi
extrapolând (în anumite condiţii şi după anumite criterii) la întreaga colectivitate.

Să considerăm ω (n) o selecţie repetată de volum n din colectivitatea dată şi Xi , i = 1, n,
variabilele aleatoare de selecţie. Cu ajutorul acestora, putem construi diverse funcţii de selecţie.

1. Media de selecţie

Definiţie 6.1.4 Numim medie de selecţie (repetată de volum n), statistica

1 n
X(ω (n) ) = ∑ Xi(ω (n)), ω (n) ∈ Ω(n) . (6.1.1)
n i=1

Pentru un ω (n) fixat, să notăm cu {x1 , x2 , . . . , xn } valorile de selecţie corespunzătoare variabilelor
aleatoare de selecţie {X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selecţie pentru un ω (n) fixat
6.1 Introducere 135

este:
1 n
x= ∑ xi (media empirică).
n i=1
Propoziţie 6.1.1 Media de selecţie satisface următoarele proprietăţi:

σ2
1. E(X) = µ, Var(X) = ,
n
1 n a.s.
2. ∑ Xi −→ µ, când n → ∞.
n i=1

Observaţie 6.1.2 (1) În capitolele următoare vom scrie relaţia (6.1.1) sub forma restrânsă:

1 n
X= ∑ Xi.
n i=1

Pentru simplitatea formulelor, de acum înainte vom face abstraţie de dependenţa de ω (n) în
formule, care se va subînţelege.
(2) Propoziţia 6.3.2 precizează care este repartiţia mediei de selecţie pentru variabile aleatoare
de selecţie dintr-o colectivitate normală, iar Propoziţia 6.3.4 precizează care este repartiţia
asimptotică a mediei de selecţie pentru variabile de selecţie într-o colectivitate oarecare.
(3) Valoarea
σ
σX = √
n
se mai numeşte şi eroarea standard a mediei de selecţie. Dacă selecţia se face dintr-o populaţie
de volum comparabil cu cel al populaţiei (n > 0.05N), atunci ipoteza de selecţie fără repetiţie nu
va mai fi validă. În acest caz, un termen de corecţie se aplică pentru eroarea standard şi scriem:

σ N −n
σX = √ .
n N −1
»
Atunci când n  N, atunci N−n N−1 ≈ 1 şi obţinem formula anterioară.

2. Dispersia de selecţie

Definiţie 6.1.5 Numim dispersie de selecţie (repetată de volum n), statistica

1 n
Var(X, ω (n) ) = ∑ [Xi(ω (n)) − X(ω (n))]2.
n i=1

Pentru simplitate, o vom nota cu Var(X) (sau Var), iar valoarea acesteia pentru un ω (n) fixat
este:
1 n
d 2 (x) = ∑ [xi − x]2 (dispersia empirică)
n i=1

De cele mai multe ori, în locul lui Var(X) se utilizează statistica S2 (X), definită prin:

2 1 n
S (X) = ∑ [Xi − X]2 .
n − 1 i=1
136 Capitolul 6. Noţiuni din Teoria selecţiei statistice

Aceasta se mai numeşte şi dispersie de selecţie modificată, iar valoarea ei pentru un ω (n) fixat
este:
2 2 1 n
s = S (x) = ∑ [xi − x]2 (dispersia empirică modificată)
n − 1 i=1
Propoziţia 6.3.11 precizează care este repartiţia statisticii S2 .
În continuare, dacă nu este dubiu în ce priveşte caracteristica X, vom folosi notaţia simplificată
S2 în loc de S2 (X).
Propoziţie 6.1.2 Dispersiile de selecţie verifică următoarele relaţii:

n−1 2
E(Var(X)) = σ , E(S2 ) = σ 2 ,
n
a.s. a.s.
Var(X) −→ σ 2 , S2 −→ σ 2 , când n → ∞.

Observaţie 6.1.3 (i) Statistica S = S2 se numeşte deviaţie standard √ de selecţie. Valoarea sa
pentru o selecţie dată este deviaţie standard empirică, dată de s = s2 .
(ii) După cum vom vedea în capitolul următor, primele două relaţii arată că statistica S2 (X)
este un estimator nedeplasat pentru dispersia teoretică, pe când Var(X) este estimator deplasat.
Aşadar, se poate spune că, pentru selecţii de volum mic, statistica S2 oferă o aproximare mai
bună pentru dispersie decât oferă statistica Var, de aceea S2 este mai des utilizat în practică.
Totuşi, dacă volumul selecţiei este mare, atunci diferenţele dintre valorile celor două statistici
sunt mici.
(iii) Dacă media teoretică a colectivităţii este cunoscută a priori, E(X) = µ ∈ R, atunci dispersia
de selecţie Var(X) devine:
n
e 2 (X) = 1 ∑ [Xi − µ]2 .
D
n i=1
Propoziţia 6.3.8 precizează care este repartiţia acestei statistici.

6.2 Statistici de ordine


Definiţie 6.2.1 Dacă variabilele aleatoare din selecţia {X1 , X2 , . . . , Xn } le rearanjăm în ordinea
mărimii lor şi scriem
X(1) ≤ X(2) ≤ · · · ≤ X(n) ,
atunci vom numi variabila aleatoare X(i) statistica de ordine de ordin i, pentru orice i = 1, 2, . . . , n.
Pentru o selecţie dată, valoarea statisticii de ordine de ordin i o vom nota prin x(i) , pentru orice
i = 1, 2, . . . , n.
Statistica X(1) se numeşte prima statistică de ordine şi reprezintă minimumul selecţiei, i.e.,

X(1) = min{X1 , X2 , . . . , Xn }.

Statistica X(n) se numeşte ultima statistică de ordine şi reprezintă maximumul selecţiei, i.e.,

X(n) = max{X1 , X2 , . . . , Xn }.

De exemplu, dacă avem valorile de selecţie

x1 = 8, x2 = 7, x3 = 9, x4 = 5, x5 = 3,
6.2 Statistici de ordine 137

atunci
x(1) = 3, x(2) = 5, x(3) = 7, x(4) = 8, x(5) = 9.
Dacă n = 2m + 1, atunci X(m) = X( n+1 ) , adică mediana de selecţie este o statistică de ordine
2
în acest caz. Dacă n = 2m, atunci avem două valori de mijloc, X(m) şi X(m+1) . Deoarece
Me = 12 (X(m) + X(m+1) ), mediana de selecţie nu este statistică de ordine pentru n par.
Definim amplitudinea (range) selecţiei ca fiind statistica A = X(n) − X(1) . Statisticile X(n) − Me
şi Me − X(1) se numesc deviaţiile extreme ale selecţiei.
Ca o observaţie importantă, deşi variabilele aleatoare de selecţie sunt independente, totuşi
statisticile de ordine sunt dependente.
Să presupunem că F(x) este funcţia de repartiţie a selecţiei date şi f (x) densitatea de repartiţie.
Următoarea propoziţie stabileşte funcţiile de repartiţie pentru statisticile de ordine.
Propoziţie 6.2.1 Pentru un k = 1, 2, . . . , n fixat, funcţia de repartiţie pentru X(k) este:
n
FX(k) (x) = ∑ Cnj F(x) j [1 − F(x)]n− j , pentru orice x ∈ R.
j=k

În particular, pentru k = 1, obţinem că funcţia de repartiţie a celui mai mic element al selecţiei:
FX(1) (x) = 1 − [1 − F(x)]n , pentru orice x ∈ R.
Astfel, densitatea de repartiţie asociată este:
fX(1) (x) = FX0 (1) (x) = n[1 − F(x)]n−1 f (x), pentru orice x ∈ R.

Funcţia de repartiţie a celui mai mare element al selecţiei este:


FX(n) (x) = [F(x)]n , pentru orice x ∈ R,
iar densitatea de repartiţie asociată este:
fX(n) (x) = FX0 (n) (x) = n[F(x)]n−1 f (x), pentru orice x ∈ R.

Exemplu 6.2.1 La finala de 100m viteză masculin din cadrul campionatelor mondiale de
atletism în aer liber, timpii de sosire ai celor 8 sportivi calificaţi sunt variabile aleatoare
independente stochastic, identic repartizate U (9.5s, 10.5s). Calculaţi următoarele probabilităţi:
(1) Probabilitatea ca recordul mondial de 9.58s să cadă;
(2) Probabilitatea ca toţi candidaţii să termine cursa cu timpi de sosire până în 10s.
(3) Probabilitatea ca măcar trei atleţi să termine cursa sub 9.7s.

0,
 dacă x ≤ 9.5
R: Deoarece T ∼ U (9.5s, 10.5s), avem că F(x) = x − 9.5, dacă 9.5 < x < 10.5

1, dacă x ≥ 10.5

Atunci:
P1 = P(T(1) ≤ 9.58) = FT(1) (9.58) = 1 − [1 − F(9.58)]8 = 1 − 0.928 ≈ 0.4868.

P2 = P(T(8) ≤ 10) = FT(8) (10) = [F(10)]8 = 0.58 ≈ 0.004.


8
P3 = P(T(3) ≤ 9.7) = FT(3) (9.7) = ∑ C8j F(9.7) j [1 − F(9.7)]8− j ≈ 0.4049.
j=3
138 Capitolul 6. Noţiuni din Teoria selecţiei statistice

6.3 Selecţii aleatoare dintr-o colectivitate normală


Să considerăm Ω o colectivitate statistică şi X o caracteristică a sa, ce urmează a fi studiată
din punct de vedere statistic. Fie {X1 , X2 , . . . , Xn } variabile aleatoare de selecţie repetată de
volum n. În cele mai multe cazuri practice, X urmează o repartiţie normală (gaussiană). De
regulă, dacă volumul populaţiei este mic (n < 30), atunci considerăm doar populaţii normale,
iar pentru n ≥ 30, datorită rezultatului teoremei limită centrală, putem considera orice tip de
repartiţie pentru colectivitate. Mai jos, prezentăm câteva rezultate utile referitoare la selecţia
dintr-o colectivitate gaussiană.
Propoziţie 6.3.1 Dacă ξi ∼ N (µi , σi ) sunt variabile aleatoare independente stochastic şi ai ∈ R,
n
i = 1, 2, . . . , n, atunci variabila aleatoare ξ = ∑ ai ξi satisface proprietatea:
i=1
s !
n n
ξ ∼N ∑ ai µi, ∑ a2i σi2 .
i=1 i=1

Propoziţie 6.3.2 (repartiţia mediei de selecţie pentru o selecţie gaussiană) Dacă X ∼ N (µ, σ )
şi Xi , i = 1, n, sunt variabilele aleatoare de selecţie, atunci statistica X satisface:
Å ã
σ
X ∼ N µ, √ , n = 1, 2, . . .
n

O consecinţă directă a acestei propoziţii este următoarea:


Propoziţie 6.3.3 Dacă Xi ∼ N (µ, σ ), i = 1, 2, . . . , n, sunt variabile aleatoare de selecţie, atunci

X −µ
Z = σ ∼ N (0, 1).

n

Propoziţie 6.3.4 (repartiţia mediei de selecţie pentru o selecţie oarecare) Dacă


{X1 , X2 , . . . , Xn }, variabile aleatoare de selecţie repetată de volum n, ce urmează o repartiţie dată,
atunci pentru un volum n suficient de mare, statistica X satisface:
Å ã
σ
X ∼ N µ, √ , n ≥ 30.
n

Observaţie 6.3.1 Când selecţia se face fără revenire dintr-o populaţie de volum mai mic decât
30 şi X nu este neapărat normal repartizată, atunci putem spune doar că

σ N −n
E(X) = µ şi Var(X) = √ ,
n N −1

fără a putea preciza care este repartiţia lui X. Aici N este volumul populaţiei şi n > 0.05N.
6.3 Selecţii aleatoare dintr-o colectivitate normală 139

Propoziţie 6.3.5 Fie ξi ∼ N (µi , σi ) variabile aleatoare independente stochastic şi ai ∈ R, i =


1, 2, . . . , n. Pentru fiecare caracteristică ξi considerăm câte o selecţie repetată de volum ni , şi
notăm cu ξi media de selecţie corespunzătoare fiecărei selecţii. Atunci statistica Y = a1 ξ1 +
a2 ξ2 + . . . + an ξn satisface proprietatea:
s !
n n 2
Y ∼N 2 σi
∑ ai µi, a
∑ i ni .
i=1 i=1

Următoarea propoziţie este un caz particular al Propoziţiei 6.3.5.

Propoziţie 6.3.6 (repartiţia diferenţei mediilor de selecţie pentru colectivităţi gaussiene)


Con-
siderăm o selecţie de volum n1 dintr-o populaţie normală N (µ1 , σ1 ) şi o selecţie de volum
n2 dintr-o colectivitate N (µ2 , σ2 ), cele două selecţii fiind alese independent una de cealaltă.
Notăm cu X1 şi, respectiv, X2 mediile de selecţie corespunzătoare selecţiilor alese. Atunci
!
σ12 σ22
X1 − X2 ∼ N µ1 − µ2 , + .
n1 n2

Observaţie 6.3.2 (1) Concluzia propoziţiei anterioare se mai poate scrie astfel:

(X1 − X2 ) − (µ1 − µ2 )
Z = q 2 ∼ N (0, 1).
σ1 σ22
n1 + n2

(2) Să presupunem că avem două populaţii statistice normale, Ω1 şi Ω2 , iar X este o caracteris-
tică comună a celor două populaţii, ce urmează a fi studiată. (De exemplu, populaţiile statistice
să fie mulţimea pieselor produse de două strunguri într-o zi de lucru, iar caracteristica comună
să fie masa lor). Să mai presupunem că deviaţiile standard ale caracteristicilor considerate sunt
cunoscute (i.e., deviaţiile sunt date deja în cartea tehnică a celor două strunguri). Pentru fiecare
dintre cele două colectivităţi, considerăm câte o selecţie repetată, de volume n1 , respectiv, n2
(adică, vom selecta n1 dintre piesele produse de strungul întâi şi n2 piese produse de cel de-al
doilea strung). Să notăm cu X1 , respectiv, X2 mediile de selecţie corespunzătoare. Propoziţia
anterioară precizează care este repartiţia diferenţei standardizate ale celor două medii de selecţie.
Aceasta ne va fi deosebit de utilă, spre exemplu, în verificarea ipotezei că masele medii ale
pieselor produse de cele două strunguri coincid.
Propoziţie 6.3.7 Dacă X ∼ N (0, 1) , atunci variabila aleatoare

n
H 2 = ∑ Xk2 ∼ χ 2 (n).
i=1

Observaţie 6.3.3 O consecinţă imediată a acestei propoziţii este că, dacă X ∼ N (0, 1), atunci
v.a. X 2 ∼ χ 2 (1). Următoarea propoziţie este tot o consecinţă directă a Propoziţiei 6.3.7.
140 Capitolul 6. Noţiuni din Teoria selecţiei statistice

Propoziţie 6.3.8 (repartiţia dispersiei de selecţie când media colectivităţii este cunoscută)
Dacă X ∼ N (µ, σ ) , atunci variabila aleatoare

1 n
H2 = ∑ (Xi − µ)2 ∼ χ 2(n).
σ 2 i=1

Lema 6.3.9 Dacă X şi Y sunt variabile aleatoare independente stochastic, astfel încât X ∼ χ 2 (n)
şi X +Y ∼ χ 2 (n + m), atunci Y ∼ χ 2 (m).
Lema 6.3.10 Fie X caracteristica unei colectivităţi statistice N (µ, σ ), X media de selecţie de
volum n şi S2 dispersia de selecţie. Atunci, statisticile

X −µ n n−1 2 1 n
σ = (X − µ) şi 2
S = 2 ∑ i
(X − X)2 sunt independente stochastic.
√ σ σ σ
n i=1

Propoziţie 6.3.11 Fie X ∼ N (µ, σ ) caracteristica unei populaţii statistice. Atunci statistica

1 n
χ2 = ∑ (Xi − X)2 ∼ χ 2(n − 1).
σ 2 i=1

Observaţie 6.3.4 Din Propoziţia 6.3.11, deducem repartiţia dispersiei de selecţie S2 :

n−1 2
2
S ∼ χ 2 (n − 1). (6.3.2)
σ

Lema 6.3.12 Dacă X şi Y sunt variabile aleatoare independente stochastic, cu X ∼ N (0, 1) şi
Y ∼ χ 2 (n), atunci statistica
X
T = » ∼ t (n).
Y
n

Propoziţie 6.3.13 Dacă X ∼ N (µ, σ ) este caracteristica unei colectivităţi statistice, atunci

X −µ
t= S
∼ t(n − 1).

n−1
(t(n − 1) este repartiţia Student cu n − 1 grade de libertate, S este deviaţia stantard de selecţie)

Observaţie 6.3.5 Aceasta propoziţie va fi folosită pentru verificarea ipotezelor statistice, în


problema testării mediei teoretice când dispersia teoretică este necunoscută a priori.
Propoziţie 6.3.14 Dacă variabilele aleatoare {X0 , X1 , . . . , Xn } sunt independente stochastic,
identic repartizate N (0, 1), atunci variabila aleatoare
X0
T=q ∼ t (n).
X12 +X22 + ... +Xn2
n
6.3 Selecţii aleatoare dintr-o colectivitate normală 141

Propoziţie 6.3.15 (repartiţia diferenţei mediilor de selecţie când dispersiile sunt necunoscute,
egale) Considerăm o selecţie de volum n1 dintr-o populaţie normală N (µ1 , σ1 ) şi o selecţie
de volum n2 dintr-o colectivitate N (µ2 , σ2 ), cele două selecţii fiind alese independent una de
cealaltă. Notăm cu X1 , X2 şi S12 = SX2 1 , S22 = SX2 2 mediile de selecţie şi dispersiile de selecţie
corespunzătoare selecţiilor alese. În plus, presupunem că σ12 = σ22 = σ 2 . Atunci
s
(X1 − X2 ) − (µ1 − µ2 ) n1 + n2 − 2
T=» 1 1
∼ t(n1 + n2 − 2).
2
(n1 − 1)S + (n2 − 1)S 2
n1 + n2
1 2

Propoziţie 6.3.16 (repartiţia diferenţei mediilor de selecţie când dispersiile sunt necunoscute şi
diferite) Considerăm o selecţie de volum n1 dintr-o populaţie normală N (µ1 , σ1 ) şi o selecţie
de volum n2 dintr-o colectivitate N (µ2 , σ2 ), cele două selecţii fiind alese independent una de
cealaltă. Notăm cu X1 , X2 şi S12 = SX2 1 , S22 = SX2 2 mediile de selecţie şi dispersiile de selecţie
corespunzătoare selecţiilor alese. Presupunem că σ12 6= σ22 . Atunci

(X1 − X2 ) − (µ1 − µ2 )
T= ∼ t(N). (6.3.3)
S12 S22
+
n1 n2

unde
Ç å2
s21 s22
+
n1 n2 Ä ä
N = Ç å2 Ç å2 −2 s21 = s2 (x1 ), s22 = s2 (x2 ) (6.3.4)
s21 1 s22 1
+
n1 n1 − 1 n2 n2 − 1

Observaţie 6.3.6 În practică se foloseşte un test statistic pentru testarea egalităţii dispersiilor
necunoscute ale celor două caracteristici.
Propoziţie 6.3.17 Dacă X ∼ χ 2 (m) şi Y ∼ χ 2 (n) sunt variabile aleatoare independente, atunci
variabila aleatoare
n X
F= ∼ F (m, n).
mY
Propoziţie 6.3.18 Dacă {X1 , X2 , . . . , Xm+n } sunt variabile aleatoare independente, identic repar-
tizate N (0, 1), atunci variabila aleatoare

n X12 + X22 + . . . + Xm2


F= 2 2 2
∼ F (m, n).
m Xm+1 + Xm+2 + . . . + Xm+n

Propoziţie 6.3.19 (repartiţia raportului dispersiilor pentru colectivităţi gaussiene) Fie X1 ∼


N (µ1 , σ1 ) şi X2 ∼ N (µ2 , σ2 ) caracteristicile a două populaţii statistice, Ω1 şi Ω2 . Din fiecare
142 Capitolul 6. Noţiuni din Teoria selecţiei statistice

populaţie extragem câte o selecţie repetată, de volume n1 , respectiv, n2 , şi considerăm S12 = SX2 1
şi S22 = SX2 2 dispersiile de selecţie corespunzătoare celor două selecţii repetate. Atunci

σ22 S12
F= ∼ F (n1 − 1, n2 − 1).
σ12 S22

Propoziţie 6.3.20 (repartiţia raportului dispersiilor pentru colectivităţi gaussiene) Suntem în


condiţiile Propoziţiei 6.3.19, cu menţiunea că mediile teoretice µ1 şi µ2 sunt cunoscute a priori.
Atunci
σ22 d12
∼ F (n1 , n2 ),
σ12 d22
unde d12 şi d22 sunt date de:
n1 n2
1 1
χ12 = 2 ∑ (X1 i − µ1) 2 2
∼ χ (n1 ), χ22 = 2 ∑ (X2 j − µ2)2 ∼ χ 2 (n2 ).
σ1 i=1 σ2 j=1

6.4 Exerciţii rezolvate


Exerciţiu 6.4.1 Folosiţi tabelele potrivite pentru a găsi următoarele cuantile:
2
(a) z0.5 (b) z0.975 (c) z0.25 (d) χ0.9, 5 (e) t0.975, 12

R: Reamintim, zα este cuantila de ordin α, adică acea valoarea pentru care aria sub-graficului
de la −∞ până la zα este egală cu α (vezi Figura 4.3). Pentru punctele (a), (b) & (c) utilizăm
Tabelul 9.1 din Anexă. Găsim că

z0.5 = 0; z0.975 = 1.96 z0.25 = −z0.75 = −0.6745.


2
(d) Utilizăm Tabelul 9.3 din Anexă. Găsim că χ0.9, 5 = 9.24.
(e) Utilizăm Tabelul 9.4 din Anexă. Găsim că t0.975, 12 = 2.179.

Exerciţiu 6.4.2 Dacă Z ∼ N (0, 1), calculaţi:

P(Z ≤ 1.35); P(0 ≤ Z ≤ 1); P(1 ≤ Z); P(|Z| > 1.5).


R: Utilizăm Tabelul 9.2 din Anexă. Găsim că

P(Z ≤ 1.35) = 0.9115;


P(0 ≤ Z ≤ 1) = P(Z ≤ 1) − P(Z ≤ 0) = 0.8413 − 0.5 = 0.3413;
P(1 ≤ Z) = 1 − P(Z < 1) = 1 − 0.8413 = 0.1587;
P(|Z| > 1.5) = P(Z > 1.5) + P(Z < −1.5) = 2P(Z > 1.5)
= 2(1 − P(Z < 1.5)) = 2(1 − 0.9332) = 0.1336.

Exerciţiu 6.4.3 Nota la examenul de Statistică este o variabilă aleatoare normală, de medie 7.25
şi deviaţie standard 0.8.
6.4 Exerciţii rezolvate 143

(a) Care este procentul de note care sunt mai mici de 8?


(b) Care este procentul de note de trecere (cel puţin 5)?
(c) Care este procentul de note aflate între 6 şi 8?
R: Folosim valorile din Tabelul 9.2 din Anexă.
8 − 7.25
(a) Valoarea standardizată corespunzătoare notei 8 este = 0.9375. Procentul de note
0.8
sub 8 este pa = 100 · P(Z < 0.9375) ≈ 82.6.
5 − 7.25
(b) Valoarea standardizată corespunzătoare notei 5 este = −2.81. Procentul de note
0.8
peste 5 este
pb = 100 · P(Z > −2.81) = 100 · [1 − P(Z < 2.81)] ≈ 99.75.
6 − 7.25
(c) Valoarea standardizată corespunzătoare notei 6 este = −1.56. Procentul de note
0.8
între 6 şi 8 este

pc = 100 · [P(Z < 0.9375) − P(Z > −1.56)] = 100 · [P(Z < 0.9375) − 1 + P(Z < 1.56)]
≈ 82.6 − 100 + 94.06 = 76.65.

Exerciţiu 6.4.4 Datele de mai jos reprezintă sperant, a de viat, ă în 12 t, ări din America de Sud:

61, 64, 65, 66, 70, 71, 72, 73, 74, 74, 75, 75

Media acestor date este 70, iar deviaţia standard este 4.81. (Nu trebuie să verificat, i acest lucru.)
Fără a face niciun calcul, care valoare din date a avut cea mai mare contribut, ie la deviaţia
standard? Adică, dacă am putea elimina unul dintre punctele de date, ce valoare din date ar trebui
să eliminăm, dacă scopul nostru este să facem deviaţia standard a celor 11 puncte rămase cât mai
mică posibil? De ce?
R: Deoarece media datelor este 70, cea mai mare contribuţie la valoarea deviaţiei standard o va
avea valoarea cea mai îndepărtată de medie. Astfel, valoarea 61 are cea mai mare contribuţie
la valoarea deviaţiei standard. Fără valoarea 61, deviaţia standard de la noua medie scade la
s = 4.07.

Exerciţiu 6.4.5 Diametrul arborilor pentru o anumită specie de arbori este o variabilă aleatoare
distribuită normal cu media de 20 cm s, i abaterea standard de 5 cm.
(a) Care este probabilitatea ca diametrul unui copac ales aleatoriu să fie între 16 cm s, i 23 cm?
(b) Pentru un eşantion de 25 de arbori din această specie, care este probabilitatea ca media
celor 25 diametre să fie între 16 cm s, i 23 cm?
X − 20
R: (a) Ştim că X ∼ N (20 cm, 5 cm), echivalent cu Z := ∼ N (0 cm, 1 cm). Valorile
5
standardizate pentru 16 cm şi 23 cm sunt:

16 − 20 23 − 20
z1 = = −0.8 şi z2 = = 0.6.
5 5
Probabilitatea căutată este (folosind Tabelul 9.2 din Anexă):

P(−0.8 < Z < 0.6) = P(Z < 0.6) − P(Z < −0.8) = P(Z < 0.6) − (1 − P(Z < 0.8))
= 0.7257 − (1 − 0.7881) = 0.5138,

adică 51.38% şanse.


144 Capitolul 6. Noţiuni din Teoria selecţiei statistice

(b) Media unui eşantion de n = 25 arbori urmează repartiţia normală de medie µX = 20 cm şi
5 = 1 cm. Matematic, scriem că X ∼ N (20 cm, 1 cm), echivalent cu
deviaţie standard σX = 5 cm
X − 20
W := ∼ N (0 cm, 1 cm). Valorile standardizate pentru 16 cm şi 23 cm sunt:
1
16 − 20 23 − 20
w1 = = −4 şi w2 = = 3.
1 1
Probabilitatea căutată este (folosind Tabelul 9.2 din Anexă):
P(−4 < W < 3) = P(Z < 3) − P(Z < −4) = P(Z < 3) − (1 − P(Z < 4))
= 0.9987 − (1 − 0.9999) = 0.9986,
adică 99.86% şanse.
Exerciţiu 6.4.6 Înălt, imile femeilor de 18-24 de ani dintr-o anumită t, ară urmează o distribut, ie
normală cu o medie de 164 cm. (Să presupunem că măsurătorile sunt făcute la cel mai apropiat
cm.) În plus, 68% din înălt, imi sunt între 159 cm s, i 169 cm.
(a) Care este deviat, ia standard a înălt, imii?
(b) În ce range se vor afla 95% dintre înălţimile femeilor din această ţară?
(c) Pentru un eşantion de 100 de femei din această ţară, care este probabilitatea ca media
înălţimilor lor să fie între 163 cm s, i 165 cm?
R: (a) Fie H variabila aleatoare ce reprezintă înălţimea unei femei din această ţară. Informaţii
din ipoteză se scriu astfel:

µH = 164 cm şi P(159 < H < 168) = 0.68.

Deoarece ştim că 68% dintre valorile unei normale se află la cel mult o deviaţie standard de
media 164 cm, găsim că σH = 5cm.
(b) 95% dintre înălţimile femeilor din aceastăţară se vor afla la cel mult 2 deviaţii standard de
medie, adică în intervalul [164 − 10, 164 + 10] = [154, 174].
(c) Media eşantionului este µH = 164 cm şi deviaţia standard a eşantionului este σH = √5 100 cm
=
0.5 cm. Probabilitatea cerută va fi egală cu:
163 − 164 165 − 164
Å ã
P(163 < H < 165) = P <Z< = P(−2 < Z < 2)
0.5 0.5
= P(Z < 2) − P(Z < −2) = P(Z < 2) − (1 − P(Z < 2))
= 2 · 0.9772 − 1 = 0.9544.

Exerciţiu 6.4.7 Cantitatea de apă consumată de Ana în fiecare zi se presupune a fi o v.a. normală
cu media 2 l şi deviaţia standard 0.3 l, independentă de zi. Ana a cumpărat azi un bax de 6 sticle
a câte 2.5 litri de apă fiecare. Presupunând că Ana bea doar din apa cumpărată azi, care este
probabilitatea ca ea să mai aibă apă din acest stoc şi după o săptămână (7 zile, inclusiv cea de
azi)?
R: Notez cu X variabila aleatoare ce reprezintă cantitatea de apă consumată de Ana zilnic.
Informaţiile din ipoteză se scriu astfel:

Xi ∼ N (2 ml, 0.3 ml), i = 1, 2, . . . , 7,

unde Xi sunt variabile aleatoare independente. Cantitatea de apă consumată de Ana √ în 7 zile este
o variabilă aleatoare X = X1 + X2 + . . . + X7 ce urmează distribuţia N (7 · 2 l, 7 · 0.3 l), adică
6.4 Exerciţii rezolvate 145

N (14 l, 0.7937 l).


Baxul conţine 6 · 2.5 l = 15 l de apă. Ana va mai avea apă peste 7 zile dacă va consuma mai puţin
de 15 litri. Probabilitatea ca acest fapt să aibă loc este (vezi Tabelul 9.2 din Anexă)
X − 14 15 − 14
Å ã
P(X < 15) = P < = P(Z < 1.26) = 0.8962,
0.7937 0.7937
adică 89.62% şanse.
Exerciţiu 6.4.8 Presupunem că masa medie a unor batoane de ciocolată produse de o maşină este
o caracteristică X ∼ N (100, 0.65). În vederea verificării parametrilor maşinii, dintre batoanele
primite într-un depozit s-au ales la întâmplare 1000 de bucăţi.
(i) Calculaţi media şi deviaţia standard ale mediei de selecţie, X.
(ii) Calculaţi P(98 < X < 102).
(iii) Un baton este declarat rebut dacă masa sa este sub 98 de grame sau peste 102 de grame.
Calculaţi procentul de rebuturi avute. √
R: (i) Ştim că media de selecţie X urmează repartiţia N (100, 0.65/ 1000). Aşadar,
µX = 100, σX ≈ 0.02.
(ii) Probabilitatea P1 = P(98 < X < 102) este
P1 = P(X < 102) − P(X ≤ 98) = FX (102) − FX (98)
Ç å Ç å
X − 100 102 − 100 X − 100 98 − 100
= P √ < √ −P √ < √
0.65/ 1000 0.65/ 1000 0.65/ 1000 0.65/ 1000
Ç å Ç å
2 −2
= Θ √ −Θ √
0.65/ 1000 0.65/ 1000
≈ Θ(97.301) − Θ(−97.301) ≈ 1.
(iii) Probabilitatea de a avea un rebut este:
Ä [ ä
P2 = P {X < 98} {X > 102}
= P(X < 98) + P(X > 102)
= FX (98) + 1 − FX (102)
−2
Å ã Å ã
2
= Θ +1−Θ ≈ 0.002091,
0.65 0.65
de unde, procentul de rebuturi este
r = P2 · 100% ≈ 0.2091%,
adică aproximativ 2 rebuturi la 1000 de batoane.
Exerciţiu 6.4.9 Samponul marca FAIRHAIR se vinde acum în supermarket în trei mărimi
(volume): 250ml, 500ml şi 1 litru. Treizeci la sută dintre cumpărătorii acestui produs cumpără
flaconul de 250ml, 50% pe cel de 500ml, iar restul pe cel de 1 litru. Notăm cu X volumul unui
flacon de FAIRHAIR. Fie X1 şi X2 volumele flacoanelor cumpărate de doi dintre clienţi, aleşi la
întâmplare.
(a) Determinaţi repartiţia pentru X. Calculaţi media E(X) şi comparaţi-o cu µ = E(X).
(b) Calculaţi Var(X) şi comparaţi-o cu σ 2 = Var(X).
(c) Calculaţi probabilitatea P(X ≥ 500).
(d) Care ar trebui să fie volumul minim de cumpărători pentru ca media de selecţie să satisfacă
relaţia P(X ≥ 500) > 0.75?
R: Fie v.a. X ce reprezintă volumul ales de un cumpărător. Atunci distribuţia lui X este:
146 Capitolul 6. Noţiuni din Teoria selecţiei statistice

x 250 500 1000


.
p(x) 0.3 0.5 0.2
Deoarece X1 şi X2 sunt variabile aleatoare de selecţie, ele√sunt independente si au aceeaşi
repartiţie ca X. Avem că µ = E(X) = 525 şi σ = D(X) = 25 109.
(a) Media de selecţie este X = (X1 + X2 )/2. Repartiţia sa este:
x 250 375 500 625 750 1000
.
p(x) 0.09 0.3 0.25 0.12 0.2 0.04
Media este µX = E(X)
… = E(X) = µ = 525.
σ 109
(b) σX = √ = 25 < σ.
2 2
(c) P(X ≥ 500) = 0.25 + 0.12 + 0.2 + 0.04 = 0.61. Å ã
σ
(d) Presupunem că n este mare. Atunci, conform teoremei limită centrală, X ∼ N µ, √ ,
n
X −µ
de unde găsim că σ ∼ N (0, 1). Aşadar,

n
!
X −µ 500 − µ
0.75 < P(X ≥ 500) = 1 − P(X ≤ 500) = 1 − P σ ≤ σ
√ √
n n
!
500 − µ
Å … ã
n
= 1−Θ σ = 1−Θ − ,
√ 109
n
de unde
Å … ã …
n n
Θ − < 0.25 şi − < Θ−1 (0.25) = z0.25 = −0.6745,
109 109
de unde n > 109 · z20.25 ≈ 50.
Exerciţiu 6.4.10 Notăm cu P1 , P2 , . . . , P9 preţurile oferite de 9 ofertanţi la o licitaţie publică
pentru vinderea unui anumit tablou. Presupunem că acestea sunt variabile aleatoare reparti-
zate uniform U (1000, 2000). Obiectul se va vinde celui care vine cu oferta cea mai mare.
Determinaţi valoarea aşteptată a preţului obţinut pentru acest tablou.
R: Deoarece P ∼ U (1000, 2000), atunci

® 1 0,
 dacă x ≤ 1000
f (x) = 1000 , dacă 1000 < x < 2000 şi
F(x) = x−1000 , dacă 1000 < x < 2000
0, dacă x ∈
6 (1000, 2000)  1000
1, dacă x ≥ 2000

Funcţia de repartiţie a statisticii de ordine M = P(9) = max{P1 , P2 , . . . , P9 } este
FP(9) (x) = [F(x)]9 , x ∈ R.
Densitatea de repartiţie a statisticii de ordine M este
fP(9) (x) = FP0(9) (x) = 9[F(x)]8 f (x), x ∈ R.
Preţul de vânzare aşteptat este media variabilei aleatoare M,
Z∞ 2000
x − 1000 8
Å ã
9
Z
E(M) = x fY (x)dx = x dx = 1900.
1000 1000
−∞ 1000
6.5 Exerciţii propuse 147

Exerciţiu 6.4.11 Becurile produse de un manufacturier A au timpul mediu de funcţionare de


1400 ore, cu deviaţia standard de 200 ore, în timp ce timpul mediu de funcţionare al becurilor
produse de un manufacturier B au timpul mediu de funcţionare de 1200 ore, cu deviaţia standard
de 100 ore. Se face o selecţie de 125 becuri din fiecare tip şi se testează becurile alese.
(a) Pentru selecţiile date, care este probabilitatea ca becurile produse de A să aibă un timp
mediu de viaţă mai mare cu 250 de ore decât timpul mediu de funcţionare al becurilor produse
de B?
(b) Care este probabilitatea ca timpul mediu de funcţionare al becurilor selectate din tipul A să
fie cuprins între 1375 de ore şi 1425 de ore?
(c) Presupunem că timpul mediu de funcţionare al becurilor produse de A este o v.a. normală.
Alegem la întâmplare un bec de tipul A. Care este probabilitatea ca timpul său mediu de
funcţionare să fie cuprins între 1375 de ore şi 1425 de ore?
R: Notăm cu T1 şi T2 cele două timpuri de funcţionare. Avem că

µT1 = 1400, σT1 = 200 şi µT2 = 1200, σT2 = 100.

Pentru o selecţie de volum n = 125 (vom considera că selecţia este repetată, deoarece volumul
selecţiei este mult mai mic decât numărul becurilor produse de fiecare manufacturier), avem că:

200 100
T1 ∼ N (1400, √ ) şi T2 ∼ N (1200, √ ).
5 5 5 5

Diferenţa mediilor de selecţie este o v.a. repartizată astfel:

T1 − T2 ∼ N (200, 20).

P(T1 − T2 > 250) = 1 − FT1 −T2 (250)


250 − 200
Å ã
= 1−Θ ≈ 0.0062.
20
(b) Probabilitatea cerută este:

P(1375 ≤ T1 ≤ 1425) = FT1 (1425) − FT1 (1375)


1425 − 1400 1375 − 1400
Å ã Å ã
= Θ √ −Θ √ ≈ 0.8377.
8 5 8 5
(c) Probabilitatea cerută este:

P(1375 ≤ T1 ≤ 1425) = FT1 (1425) − FT1 (1375)


1425 − 1400 1375 − 1400
Å ã Å ã
= Θ −Θ ≈ 0.0995.
200 200

6.5 Exerciţii propuse


Exerciţiu 6.5.1 Considerăm εi ∼ N (0, 1), i = 1, 2, . . . , 10, un set de măsurători independente.
Calculaţi probabilitatea ca suma pătratelor erorilor să fie mai mare decât 11.
148 Capitolul 6. Noţiuni din Teoria selecţiei statistice

Exerciţiu 6.5.2 Masa unui bagaj ce trece pe la serviciul de check-in al aeroportului din Iaşi
pentru cursa de Viena este o v.a. cu media 21 kg şi deviaţia standard 3.5 kg pentru pasagerii de la
clasa economic şi o v.a. cu media 12 kg şi deviaţia standard 4.5 kg pentru pasagerii de la clasa
business. Presupunem că aceste valori sunt ale unor variabile aleatoare independente de la un
pasager la altul, indiferent de clasă.
(a) Dacă într-o anumită cursă se află 16 pasageri la clasa business şi 81 pasageri la clasa
economic, care este valoarea aşteptată şi deviaţia standard a masei totale de bagaje ale pasagerilor
din acel avion?
(b) Care este probabilitatea ca masa totală de bagaje ale celor 97 de pasageri pentru această
cursă să nu depăşească 2000 kg?
(c) Se aleg la întâmplare bagajele a 6 pasageri de la clasa economic şi a 10 pasageri de la clasa
business şi se cântăresc. Care este probabilitatea ca diferenţa maselor bagajelor dintre cele două
clase să fie mai mică de 20 kg?
Exerciţiu 6.5.3 Batoanele de ciocolată produse de o anumită firmă cântăresc fiecare 50 g, cu
deviaţia standard 0.02 g. Se aleg la întâmplare două loturi de batoane de ciocolată, fiecare având
100 de bucăţi. Care este probabilitatea ca masele totale ale celor două loturi să nu difere prin
mai mult de 5 g?
Exerciţiu 6.5.4 Presupunem că timpul de aşteptare a autobuzului în staţie este o v.a. repartizată
U (0, 10) pentru orele dimineţii, iar timpul de aşteptare a autobuzului în staţie la orele serii este
o v.a. repartizată U (0, 8). Toţi timpii sunt independenţi între ei.
(a) Dacă într-o anumită săptămână luaţi autobuzul în fiecare zi (5 zile lucrătoare), care este
timpul total mediu pe care vă aşteptaţi să-l petreceţi în staţia de autobuz în întreaga săptămână?
(b) Care este abaterea standard a timpului total petrecut în staţia de autobuz în întreaga săp-
tămână?
(c) Determinaţi valoarea medie şi abaterea standard a diferenţei dintre timpul total petrecut
dimineaţa şi timpul total petrecut seara în staţia de autobuz în întreaga săptămână?
7. Estimatori

Presupunem ca X este variabila de interes a unei colectivitati statistice si ca, in urma unor
masuratori, am obtinut rezultatele x1 , x2 , . . . , xn . Deoarece in urma acestor masuratori pot aparea
erori, in Statistica se considera ca aceste date sunt realizarile unor variabile X1 , X2 , . . . , Xn . Se
presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate
copii independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare
de selectie. Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de
exemplu media µ sau deviatia standard σ ale lui X.
O functie f (X1 , X2 , . . . , Xn ) ce depinde de variabilele de selectie se va numi generic statistică.
In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f (x1 , x2 , . . . , xn ), se
numeste tot statistică. Exemple de statistici:
1. Media selectiei:
1 n
X = ∑ xi .
n i=1

1 n
O valoare observata pentru X este x = ∑ xi.
n i=1
(∗ ) Daca variabilele de selectie Xi au media µ si deviatia standard σ , atunci media mediei
selectiei este tot µ si deviatia sa standard este √σn . Scriem asta astfel:

σ
µX = µ si σX = √ .
n

(∗∗ ) In cazul in care variabilele Xi sunt normale N (µ, σ ), atunci media selectiei este tot
o variabila normala, X ∼ N (µ, √σn ).
(∗∗∗ ) Daca numarul variabilelor de selectie este suficient de mare, atunci variabila x este
normala, fara ca Xi sa fie neaparat normale. Acest fapt este o consecinta a teoremei limita
centrala.
150 Capitolul 7. Estimatori

2. Dispersia selecţiei,
1 n
S2 = ∑ [Xi − X]2
n − 1 i=1

2 1 n
S2
O valoare observata pentru este s = ∑ [xi − x]2 .
n − 1 i=1
√ √
3. Deviatia standard a selecţiei, S = S . O valoare observata pentru S este s = s2 .
2

7.1 Estimatori punctuali


Consideram acum un parametru generic al populatiei, notat cu θ , pe care dorim sa-l estimam.
• Prin estimator punctual (sau, simplu, estimator) pentru parametrul θ intelegem o statistica
(independenta de θ ) care se apropie de θ atunci cand volumul selectiei este suficient de
mare. Un estimator pentru parametrul θ este notat simbolic prin θb. Valoarea unui astfel
de estimator intr-o masurare se va numi estimatie. Pentru simplitate, atunci cand nu este
pericol de confuzie, vom nota estimatorul si estimatia tot cu θb. De remarcat faptul ca
estimatorul este o variabila aleatoare si estimatia este un numar real.
Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot fi
exacte. Apar astfel erori de aproximare. Ne-am dori să ştim în ce sens şi cât de bine un estimator
aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati
care sa cuantifice erorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea
medie patratica si eroarea standard.
• Un estimator θ̂ se numeste estimator nedeplasat (en., unbiased estimator) pentru para-
metrul θ dacă media estimatorului este chiar valoarea parametrului pe care estimeaza.
Matematic, scriem astfel:
E(θ̂ ) = θ .
• Altfel, spunem că θ̂ este un estimator deplasat pentru θ , iar deplasarea (distorsiunea) se
defineşte prin:
b(θ̂ , θ ) = E(θ̂ ) − θ .
Cantitatea b(θ̂ , θ ) este o măsură a erorii pe care o facem în estimarea lui θ prin θ̂ .
• O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea
standard (en., standard error), notata aici prin σ (θ̂ ) sau σθ̂ . Spre exemplu, daca estimatorul
θ̂ este X, atunci
σ
σX = √ ,
n
unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σX va tinde
la 0 daca n creste nemarginit. Astfel, daca numarul de masuratori creste, media acestor
masuratori se apropie mult de valoarea parametrului µ.
• Numim eroare medie pătratică a unui estimator θ̂ pentru θ (en., mean squared error)
cantitatea î ó2 
MSE(θ̂ , θ ) = E θ̂ − θ .

Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si


valoarea parametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia
estimatorului, σθ̂2 .
7.1 Estimatori punctuali 151

• Un estimator nedeplasat θ̂ pentru θ se numeşte estimator nedeplasat uniform de dispersie


minimă (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dacă pentru
orice valori ale parametrului θ si pentru orice alt estimator nedeplasat pentru θ , notat cu
θ̂ ∗ , estimatorul θ̂ are varianta minima. Matematic, scriem astfel:

σθ̂2 ≤ σθ̂2∗ , pentru orice valoarea a lui θ .

• Pentru un anumit parametru pot exista mai mulţi estimatori nedeplasati. Dintre acestia, cel
mai bun estimator va fi acela care are varianta minima.

7.1.1 Exemple de estimatori punctuali


Presupunem ca X este variabila de interes a unei populatii statistice, pentru care dorim sa estimam
anumiti parametri, e.g., media µ, varianta (dispersia) σ 2 , deviatia standard σ etc. Plecand de
la o multime de valori observate pentru X, şi anume x1 , x2 , . . . , xn , putem construi urmatorii
estimatori:
1 n
1. Un estimator pentru media µ este media selectiei Xb = X = ∑ Xi .
n i=1
O estimatie pentru µ este xb.
Concret, daca dorim sa determinam concentratia medie de azotati din sol intr-o anumita
regiune, vom stabili mai intai locatiile x1 , x2 , . . . , xn de unde vom culege probe, urmand
ca apoi sa le culegem efectiv si, pe baza valorilor obtinute, facem media acestora. Astfel,
fiecare variabila Xi = Z(Xi ) reprezinta concentratia in locatia xi , care este o variabila
1 n
aleatoare. Valoarea masurata in aceasta locatie este xi = z(xi ). Estimatorul X = ∑ Xi
n i=1
este media concentratiilor din locatiile stabilite (este criteriul dupa care se estimeaza
1 n
media), iar estimatia x = ∑ xi este valoarea medie a concentratiilor masurate.
n i=1
1 n
2. Dispersia selecţiei, S2 = ∑ [Xi − X]2, este estimator pentru dispersia teoretică σ 2.
n − 1 i=1

3. Deviatia standard a selectiei, S = S2 este estimator pentru deviatia standard teoretică σ .
σ s
4. Un estimator pentru eroarea standard σX = √ este sX = √ .
n n
5. Presupunem acum ca avem doua variabile de interes, X si Y . Am vazut anterior ca legatura
dintre aceste variabile poate fi descrisa de covarianta, cov(X, Y ) = E [(X − µX )(Y − µY )].
Pentru a construi un estimator pentru covarianta este avem nevoie de n perechi de observaţii.
Presupunem ca acestea sunt {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}. O estimatie pentru cov(X,Y )
este covarianta (sau corelatia) empirica,

1 n
cove = ∑ (xi − x)(yi − y),
n − 1 i=1

unde
1 n 1 n
x = ∑ xi şi y = ∑ yi .
n i=1 n i=1
152 Capitolul 7. Estimatori

7.2 Estimarea parametrilor prin intervale de încredere


O singură populaţie

După cum am văzut anterior, putem determina estimaţii punctuale pentru parametrii unei populatii
însă, o estimaţie punctuală, nu precizează cât de aproape se găseşte estimaţia θ̂ (x1 , x2 , . . . , xn )
faţă de valoarea reală a parametrului θ . De exemplu, dacă dorim să estimăm valoarea medie a
pH din sol, atunci putem găsi un estimator punctual (e.g., media de selecţie) care să ne indice că
aceasta este de 8.1. Ideal ar fi dacă această informaţie ar fi prezentată sub forma: pH mediu din
sol este 8 ± 0.2.
Putem obţine astfel de informaţii dacă vom construi un interval în care, cu o probabilitate destul
de mare, să găsim valoarea reală a lui θ .
Dorim să determinam un interval (aleator) care să acopere cu o probabilitate mare (e.g., 0.95,
0.98, 0.99 etc) valoarea posibilă a parametrului necunoscut.
Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval
de încredere (en., confidence interval) pentru parametrul θ cu probabilitatea de încredere 1 − α,
un interval aleator (θ , θ ), astfel încât

P(θ < θ < θ ) = 1 − α, (7.2.1)

unde θ (X1 , X2 , . . . , Xn ) şi θ (X1 , X2 , . . . , Xn ) sunt statistici.


Pentru o observaţie fixată, capetele intervalului (aleator) de încredere vor fi statistici. De exemplu,
pentru datele observate, x1 , x2 , . . . , xn , intervalul

θ (x1 , x2 , . . . , xn ), θ (x1 , x2 , . . . , xn )

se numeşte valoare a intervalului de încredere pentru θ . Pentru simplitate însă, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât şi pentru valoarea
acestuia, înţelesul desprinzându-se din context.
Valoarea α se numeşte nivel de semnificaţie sau probabilitate de risc.
Observaţie 7.2.1 Relaţia (7.2.1) se citeşte astfel:
“probabilitatea cu care intervalul (θ , θ ) acoperă valoare lui θ este 1 − α”.
Exprimarea “probabilitatea cu care θ se află în intervalul (θ , θ ) este 1 − α” este greşită,
deoarece θ este o constantă, intervalul aleator variază.

Cu cât α este mai mic (de regulă, α = 0.01 sau 0.02 sau 0.05), cu atât şansa (care este (1 − α) ·
100%) ca valoarea reală a parametrului θ să se găsească în intervalul găsit este mai mare.
Intervalul de încredere pentru valoarea reală a unui parametru nu este unic. Dacă ni se dau
condiţii suplimentare (e.g., fixarea unui capăt), atunci putem obţine intervale infinite la un capăt
şi finite la celălalt capăt.
În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale.
Vom nota cu (generic) prin xα cuantila de ordin α pentru repartitia variabilei X. Cuantilele xα
pot fi gasite in tabele specifice repartitiei cautate, sau pot fi calculate folosind un soft specializat.
Daca variabila X urmeaza o repartitie normala N (0, 1), atunci cuantilele corespunzatoare le
vom nota prin zα si le vom gasi in Tabelul 11.1.
Daca variabila X urmeaza o repartitie Student t(n), atunci cuantilele corespunzatoare le vom
nota prin tα, n si le vom gasi in Tabelul 11.4.
Daca variabila X urmeaza o repartitie χ2 (n), atunci cuantilele corespunzatoare le vom nota prin
χα,2 si le vom gasi in Tabelul 11.3.
n
7.2 Estimarea parametrilor prin intervale de încredere 153

7.2.1 Intervale de încredere pentru medie


Distingem aici doua cazuri: (1) cand volumul selectiei este suficient de mare (de multe ori,
aceasta inseamna peste 40 de observatii), sau (2) cand volumul selectiei este mic. Dupa cum am
vazut anterior, pentru estimarea punctuala a mediei pe baza unei selectii folosim:
1 n
x= ∑ xi.
n i=1
(1) daca n ≥ 40, atunci un interval de incredere pentru medie la nivelul de semnificatie α este
Å ã
s s
x − z1− α2 √ , x + z1− α2 √ , (7.2.2)
n n
unde z1− α2 este cuantila de ordin 1 − α2 pentru repartitia N (0, 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05, atunci din Tabelul 11.1 gasim ca z0.975 = 1.96.
Intervalul de încredere (7.2.2) se mai poate scrie şi astfel:
s
x ± z1− α2 √ .
n
(2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnificatie
α este
Å ã
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ . (7.2.3)
n n
Aici, s este o estimatie pentru deviatia standard,
s
1 n
s= ∑ (xi − x)2
n − 1 i=1
si t1− α2 , n−1 este cuantila de ordin 1 − α2 pentru repartitia t(n − 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul
11.4 gasim ca t0.975, 34 = 2.032.
Intervalul de încredere (7.2.2) se mai poate scrie şi astfel:
s
x ± t1− α2 ; n−1 √ .
n
Observaţie 7.2.2 • Când volumul n este mare, atunci va fi o diferenţă foarte mică între
valorile z1− α2 şi t1− α2 ; n−1 , de aceea am putea folosi z1− α2 în locul valorii t1− α2 ; n−1 .
• Intervalele de încredere de mai sus sunt valide pentru selecţia (repetată sau nerepetată)
dintr-o populaţie infinită, sau pentru selecţii repetate dintr-o populaţie finită. În cazul
selecţiilor nerepetate din colectivităţi finite, în estimarea intervalelor de încredere vom ţine
cont şi de volumul N al populaţiei. Spre exemplu, dacă selecţia de volum n se face dintr-o
populaţie finită de volum N şi n ≥ 0.05N, atunci un inteval de încredere centrat pentru
media populaţiei este:
Ç … … å
s N −n s N −n
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ . (7.2.4)
n N −1 n N −1
»
Factorul N−n N−1 va fi aproximativ egal cu 1 atunci cand N este infinit sau N  n, obtinandu-
se astfel intervalul (7.2.3). Formula (7.2.4) nu este practica in Geostatistica, deoarece un
camp aleator are o multime infinita de puncte, asadar selectia de masuratori se face dintr-o
populatie de volum N = ∞.
154 Capitolul 7. Estimatori

• Este posibil ca σ sa fie un parametru cunoscut pentru X, caz in care pentru intervalul de
incredere pentru medie se foloseste formula (7.2.2) cu σ inlocuindu-l pe s.
Exemplu 7.2.1 O maşină de îngheţată umple cupe cu îngheţată. Se doreşte ca îngheţată din cupe
să aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g
de îngheţată. Presupunem că masa conţinutului din cupă este o variabilă aleatoare repartizată
normal. Pentru a verifica dacă maşina este ajustată bine, se aleg la întâmplare 30 de înghetate
şi se cântăreşte conţinutul fiecăreia. Obţinem astfel o selecţie repetată de volum 30 după cum
urmează:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253

Se cere să se scrie un interval de încredere pentru µ, cu nivelul de incredere de 0.99.


R: După cum am văzut mai sus, un interval de încredere pentru µ este (deoarece N este
necunoscut, il presupunem mult mai mare decat n):
Å ã
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ .
n n

Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1− α2 ; n−1 = t0.995, 29 = 2.7564, media
valorilor este x = 250.0667 si deviatia standard este s = 2.9704. Astfel, obţinem intervalul de
încredere pentru µ: (248.572, 251.561).

7.2.2 Interval de încredere pentru dispersie


Dupa cum am vazut anterior, pentru estimarea punctuală a lui σ 2 se foloseste

1 n
s2 = ∑ [xi − x]2 .
n − 1 i=1

Un interval pentru σ 2 la nivelul de semnificatie α este:


!
(n − 1) s2 (n − 1) s2
2
, . (7.2.5)
χ1− α
; n−1
χ 2α ; n−1
2 2

Intervale de încredere pentru deviaţia standard se obţin prin extragerea rădăcinii pătrate din
capetele de la intervalele de încredere pentru dispersie.
Exemplu 7.2.2 Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a con-
ţinutului de nicotină pentru un anumit tip de ţigări, stiind ca pentru o selecţie de 25 de bucăţi,
deviaţia standard a conţinutului de nicotină este de 1.6mg.
R: Observam ca s = 1.6mg. Din tabele, găsim ca:
2 2
χ0.975; 24 = 39.3641; χ0.025; 24 = 12.4012.

Intervalul de încredere pentru dispersie este:

(σ 2 , σ 2 ) = (1.5608, 4.9544).

Pentru variaţia standard, intervalul de încredere este:


√ √
( 1.5608 mg, 4.9544 mg) = (1.25mg, 2.22mg).
7.2 Estimarea parametrilor prin intervale de încredere 155

7.2.3 Interval de încredere pentru proportie


Pentru o populaţie statistică, prin proporţie a populaţiei vom înţelege procentul din întreaga
colectivitate ce satisface o anumită proprietate (sau are o anumită caracteristică) (e.g., proporţia
de studenţi integralişti dintr-o anumită facultate). Pe de altă parte, prin proporţie de selecţie
înţelegem procentajul din valorile de selecţie ce satisfac o anumită proprietate (e.g., proporţia de
studenţi integralişti dintr-o selecţie aleatoare de 40 de studenţi ai unei facultăţi). Proporţia unei
populaţii este un parametru (pe care îl vom nota cu p), iar proporţia de selecţie este o statistică
(pe care o notăm aici prin p).
Fie X o caracteristică binomială a unei colectivităţi, cu probabilitatea de succes p (e.g., numărul
de steme apărute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim să construim un
interval de încredere pentru proporţia populaţiei, p. Pentru aceasta, avem nevoie de selecţii de
volum mare din această colectivitate. Un estimator potrivit pentru p este proporţia de selecţie,
adică
x
pb = p = .
n
În cazul unui set de date de tip Bernoulli (cu doar două posibile valori), pentru a putea calcula
intervalul de încredere pentru proporţia reală a populaţiei, este de dorit ca: n ≥ 30, n pb > 5
şi n (1 − pb) > 5. Semnificaţia ultimelor două inegalităţi este că ambele clase ale distribuţiei
Bernoulli sunt semnificative (au, în medie, cel puţin 5 valori).
Media proporţiei de selecţie pb este µ pb = p şi deviaţia standard a proporţiei de selecţie pb este
»
σ pb = p(1−p) n . Dacă ne bazăm doar pe date, atunci deviaţia standard a proporţiei de selecţie pb
»
poate fi aproximată prin s pb = p(1− n .
pb)
b

Vom spune că volumul n este suficient de mare pentru a putea face aproximarea distribuţiei lui pb
cu una normală dacă intervalul
" #
  p (1 − p) p (1 − p)
µ pb − 3σ pb, µ pb + 3σ pb = p − 3 , p+3
n n

se află inclus în totalitate în intervalul [0, 1].


În practică, p nu este cunoscut, aşa că relaţia precedentă este verificată pentru p înlocuit cu pb,
adică verificăm: " #
pb(1 − pb) pb(1 − pb)
pb − 3 , pb + 3 ⊂ [0, 1].
n n
Dacă volumul eşantionului este suficient de mare, atunci putem presupune că (conform teoremei
limită centrală) distribuţia asimptotică a lui pb este
!
p(1 − p) pb − p
pb ∼ N p, ⇐⇒ ∼ N (0, 1).
n σ pb

Pe baza acestui rezultat, putem lua decizii referitoare la proporţia reală p plecând de la estimatorul
pb.
Bazat pe o selectie de volum n, un interval de încredere pentru p la nivelul de semnificatie α,
este de forma:
!
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 . (7.2.6)
n n
156 Capitolul 7. Estimatori

Acest interval de încredere este valabil pentru selecţie dintr-o populaţie infinită (sau n  N,
de regulă n < 0.05N) sau pentru selecţia cu repetiţie dintr-o populaţie finită. Dacă selecţia se
realizează fără repetiţie dintr-o populaţie finită (cu N astfel înât n ≥ 0.05N), atunci intervalul de
încredere este:
… … !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 . (7.2.7)
n N −1 n N −1

Deoarece p nu este a priori cunoscut, p a fost înlocuit sub radical cu estimatorul său. Valoarea

pb(1 − pb)
E = z1− α2 (7.2.8)
n
este eroarea care se face prin estimarea lui p prin intervalul de încredere dat de (7.2.6).
Observaţie 7.2.3 Folosind formula (7.2.8), se poate determina volumul minim al eşantionului
pentru care se obţine estimarea proporţiei p printr-un interval de încredere cu o eroare maximă
E (ceea ce este echivalent cu faptul că lungimea intervalului este E ).
Dacă am ghici proporţia populaţiei, p, atunci găsim următoarea estimare a volumului selecţiei:
¢ Å z α ã2 •
1− 2
n = p(1 − p) , (7.2.9)
E

unde d x e este cel mai apropiat întreg mai mare sau egal cu x.
Dacă p nu poate fi ghicit, atunci folosim faptul că p(1 − p) este maxim pentru p = 0.5 şi estimăm
pe n prin
1 z1− α2 2
¢ Å ã •
n= .
4 E
Exemplu 7.2.3 Dintr-o selecţie de 200 de elevi ai unei şcoli cu 1276 de elevi, 65% afirmă că
deţin cel puţin un telefon mobil. Să se găsească un interval de încredere pentru procentul de copii
din respectiva şcoală ce deţin cel puţin un telefon mobil, la nivelul de semnificaţie α = 0.05.
R: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N, găsim că un interval de
încredere la nivelul de semnificaţie 0.05 este
!
0.65 (1 − 0.65) 1276 − 200 0.65 (1 − 0.65) 1276 − 200
0.65 − 1.96 , 0.65 + 1.96
200 1276 − 1 200 1276 − 1
= (58.93%, 71.07%).

Exemplu 7.2.4 Într-un institut politehnic, s-a determinat că dintr-o selecţie aleatoare de 100 de
studenţi înscrişi, doar 67 au terminat studiile, obţinând o diplomă. Găsiţi un interval de încredere
care, cu o confidenţă de 90%, să determine procentul de studenţi absolvenţi dintre toţi studenţii
ce au fost înscrişi.
67
R: Mai întâi, observăm că α = 0.1, n > 30, pb = 100 = 0.67, n pb = 67 > 5 şi n(1 − pb) = 33 > 5.
Deoarece nu ni se dă vreo informaţie despre N (numărul total de studenţi înscrişi), putem
presupune că n < 0.05N. Cuantila teoretica este z0.95 = 1.6449. Găsim că intervalul de încredere
căutat este:
!
0.67 (1 − 0.67) 0.67 (1 − 0.67)
0.67 − 1.6449 , 0.67 + 1.6449 = (57.78%, 76.22%).
100 100
7.3 Exerciţii rezolvate 157

7.3 Exerciţii rezolvate


Exerciţiu 7.3.1 Un ziar local susţine că un anumit partid are o susţinere de 38% din partea
populaţiei. Un număr de 2500 de persoane, alese aleator, sunt întrebate dacă vor vota acest partid
la următoarele alegeri.
(a) Verificaţi dacă volumul eşantionului ales este suficient de mare pentru a putea aproxima
proporţia de votanţi cu ajutorul proporţiei eşantionului.
(b) Care sunt şansele ca, după ce vor fi intervievate cele 2500 de persoane, proporţia de votanţi
pentru respectivul partid să fie la mai puţin de 2 procente de proporţia reală.
R: (a) Avem că:
p (1 − p)
µ pb = p = 0.38 şi σ pb = = 0.0097.
n
Se verifică faptul că volumul eşantionului este suficient de mare, deoarece
 
µ pb − 3σ pb, µ pb + 3σ pb = [0.3509, 0.4091] ⊂ [0, 1].
(b) Avem de calculat probabilitatea ca 0.38 − 0.02 ≤ pb ≤ 0.38 + 0.02. Aceasta este
0.36 − 0.38 pb − 0.38 0.40 − 0.38
Å ã
P(0.36 ≤ pb ≤ 0.40) = P ≤ ≤
0.0097 0.0097 0.0097
= P(−2.0619 ≤ Z ≤ 2.0619)
= Θ(2.0619) − Θ(−2.0619) =
= 2Θ(2.0619) − 1 = 2 · 0.9804 − 1
= 0.9608.

Exerciţiu 7.3.2 Un primar susţine că 90% din populaţia oraşului s-a vaccinat complet împotriva
COVID. Pentru a verifica afirmaţia primarului, se ia un eşantion aleator de 121 de locuitori ai
oraşului. Dintre aceştia, doar 102 erau vaccinaţi complet.
(a) Determinaţi procentul de selecţie (de persoane vaccinate din eşantion).
(b) Verificaţi dacă volumul eşantionului este suficient de mare pentru a putea presupune
normalitatea proporţiei de selecţie. Se va utiliza p = 0.9, care corespunde afirmaţiei
primarului.
(c) Presupunând că primarul are dreptate, care sunt şansele ca dintr-un eşantion de 121 să
observăm cel mult 102 persoane complet vaccinate?
(d) Comentaţi rezultatul de la (c).
R: (a) Procentul de selecţie este pb = 102 121 ≈ 0.84.
(b) Se verifică faptul că volumul eşantionului este suficient de mare, deoarece
" #
  p (1 − p) p (1 − p)
µ pb − 3σ pb, µ pb + 3σ pb = p − 3 , p+3
n n
ñ … … ô
0.9 · 0.1 0.9 · 0.1
= 0.9 − 3 , 0.9 + 3
121 121
= [0.8182, 0.9818] ⊂ [0, 1].
»
(c) Media lui pb este 0.9 şi deviaţia standard a lui pb este p (1− pb)
= 0.0273. Deoarece eşantionul
b
n
este suficient de mare, deducem că
pb − 0.9
pb ∼ N (0.9, 0.0273) ⇔ Z := ∼ N (0, 1) .
0.0273
158 Capitolul 7. Estimatori

Probabilitatea cerută este probabilitatea ca proporţia de selecţie să fie mai mică sau egală cu
102
121 ≈ 0.84. Vom scrie că
pb − 0.9 0.84 − 0.9
Å ã
P( pb ≤ 0.84) = P ≤
0.0273 0.0273
= P(Z ≤ −2.20) = Θ(−2.20) = 1 − Θ(2.20) = 1 − 0.9861 = 0.0139.
Aşadar, şansele sunt de doar 1.39% de a observa acest rezultat.
(d) Deoarece şansele sunt doar de 1.39%, înseamnă că este foarte improbabil ca primarul să
spună adevărul şi să fi observat doar 102 persoane complet vaccinate dintr-un eşantion de 121.
În consecinţă, primarul minte.
Exerciţiu 7.3.3 Într-un depozit se află piese de acelaşi tip. La un control de calitate, dintr-un lot
de 250 de piese alese aleator, 10 piese aveau defecte.
(a) Verificaţi dacă volumul eşantionului este suficient de mare pentru a folosi aproximarea
normală a proporţiei de selecţie.
(b) Determinaţi un interval de încredere cu α = 0.1 pentru numărul de piese defecte din
depozit.
(c) Aceeaşi cerinţă ca la punctul (b), în cazul în care în depozit s-ar afla doar 400 de piese.
10
R: (a) Proporţia de selecţie este pb = 250 = 0.04. Media proporţiei de selecţie este µ pb ≈ pb = 0.04
»
şi aproximarea dispersiei proporţiei de selecţie este s pb = p(1− pb)
= 0.0124. Se poate verifica
b
n
faptul că  
µ pb − 3s pb, µ pb + 3s pb = [0.0028, 0.0772] ⊂ [0, 1].
Aşadar, putem folosi aproximarea normală a proporţiei de selecţie.
(b) Cuantila z1− α2 = z0.95 = 1.6449. Deoarece volumul populaţiei este necunoscut, poate fi
presupus a fi semnificativ mai mare decât cel al eşantionului. Intervalul de încredere căutat este
dat de formula (7.2.6) şi este:
!
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 = (0.0196, 0.0604),
n n
adică 1.96% − 6.04%.
(c) Deoarece volumul eşantionului (n = 250) şi al populaţiei (N = 400) sunt comparabile,
intervalul de încredere este dat de formula (7.2.7) şi este:
… … !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 = (0.0275, 0.0525),
n N −1 n N −1
adică 2.75% − 5.25%. Acest interval este mai scurt (mai strâns în jurul valorii reale a lui p) decât
în cazul precedent. Informaţia în plus referitoare la volumul populaţiei a dat un rezultat mai bun.
Exerciţiu 7.3.4 (1) Un studiu susţine că 37% dintre elevii de liceu din ţară fumează. Cât de
mare ar trebui să fie volumul unei selecţii dintre elevii de liceu pentru a estima procentul real de
elevi ce fumează, cu o eroare de estimare maximă de 0.5%. Se va alege α = 0.1.
(2) Aceeaşi cerinţă ca la (1), folosind informaţia că între 35% şi 40% dintre elevii de liceu din
ţară fumează.
(3) Aceeaşi cerinţă ca la (1), fără vreo altă informaţie suplimentară.
R: (1) Folosim formula (7.2.9), pentru pb = 0.37. Cuantila este z0.95 = 1.6449. Găsim că o
estimaţie pentru n este:
1.6449 2
Å ã
n = 0.37(1 − 0.37) = 25228.
0.005
7.3 Exerciţii rezolvate 159

(2) Folosim formula (7.2.9), pentru p = 0.4 (se alege valoarea 40%, cea mai apropiată de 50%).
Găsim că o estimaţie pentru n este:
Å ã2
1.6449
n = 0.4(1 − 0.4) = 25975.
0.005
(3) Fără nicio informaţie suplimentară, considerăm că şansele sunt 50% − 50%. Folosim formula
(7.2.9), pentru p = 0.5. Găsim că o estimaţie pentru n este:
Å ã2
1.6449
n = 0.5(1 − 0.5) = 27057.
0.005

Exerciţiu 7.3.5 Într-o şcoală sunt 200 de elevi de


clasa a XII-a care au susţinut teză la Matematică. note 4 5 6 7 8 9 10
Tabelul alăturat conţine o selecţie aleatoare de 36 frecvenţa 5 6 7 8 5 3 2
de note la această teză.
(a) Determinaţi un interval de încredere, cu încrederea de 90%, pentru proporţia de elevi din
şcoală nu au luat notă de trecere (cel puţin nota 5) la teza la Matematică.
(b) Determinaţi un interval de încredere, cu încrederea de 90%, pentru media notelor obţinute
la teza la Matematică.
R: (a) Un estimator punctual pentru proporţia de elevi din şcoală nu au luat notă de trecere la
5
teza la Matematică este pb = 36 . Aici, N = 200, n = 36, z1− α2 = z0.95 = 1.6449.
Intervalul de încredere este:
… … !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 = (0.0528, 0.2250),
n N −1 n N −1

adică, între 5.28% şi 22.5%.


(b) Media de selecţie este

4 · 5 + 5 · 6 + 6 · 7 + 7 · 8 + 8 · 5 + 9 · 3 + 10 · 2
x= = 6.53,
36
iar dispersia de selecţie este

1
s = [5(4 − 6.53)2 + 6(5 − 6.53)2 + 7(6 − 6.53)2 + 8(7 − 6.53)2 + 5(8 − 6.53)2 + 3(9 − 6.53)2 + 2(10 − 6.53)2 ]
35
= 1.72.

Intervalul de încredere pentru media notelor la teză este:


Ç … … å
s N −n s N −n
x − z1− α2 √ , x + z1− α2 √ = (6.1019, 6.9581).
n N −1 n N −1

Exerciţiu 7.3.6 Pentru femeile cu vârsta între 18 şi 24 ani, presiunea sistolică (în mm Hg) este
distribuită N (µ, 13.1).
Valoarea medie a presiunii sistolice pentru un grup de nouă femei cu vârste între 18 şi 24 ani,
alese aleator, este 120.5 mm Hg. Determinaţi un interval de încredere pentru µ (α = 0.1).
160 Capitolul 7. Estimatori

R: Volumul de date este mic (n = 9), dar datele sunt normal distribuite. Avem că: x = 120.5,
σ = 13.1, z1− α2 = z0.05 = 1.6449. Intervalul de încredere este
Å ã Å ã
σ σ 13.1 13.1
x − z1− α2 √ , x + z1− α2 √ = 120.5 − 1.6449 √ , 120.5 + 1.6449 √
n n 9 9
= (113.32, 127.68).

Exerciţiu 7.3.7 O fabrică produce batoane de ciocolată cântărind 100g fiecare. Pentru a se
estima abaterea masei de la această valoare, s-a făcut o selecţie de 35 de batoane, obţinându-se
valorile:

100.12; 99.92; 100.1; 99.89; 100.07; 99.88; 100.11; 99.90; 99.97; 100.2;
99.89; 100.15; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89;
99.76; 100.1; 99.24; 98.19; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89;
100.12; 98.63; 99.03; 100.3; 98.68.

Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a masei batoanelor produse
de respectiva fabrică.
R: Mai întâi, calculăm d 2 (x). Avem:

2 1 35
d (x) = ∑ [xi − 100]2 = 0.3.
35 i=1
Din tabele, sau utilizând M ATLAB, găsim cuantilele:
2 2
χ0.975; 35 = 53.2033; χ0.025; 35 = 20.5694.

Intervalul de încredere pentru dispersie este:


(σ 2 , σ 2 ) = (0.20, 0.51).
Pentru variaţia standard, intervalul de încredere este:
√ √
(σ , σ ) = ( 0.2, 0.51) = (0.44, 0.71).

Exerciţiu 7.3.8 Următoarele valori reprezintă cinci observaţii asupra unei variabile normale:
3.14, 3.43, 3.21, 2.97, 3.05. Estimaţi prin intervale de încredere media şi deviaţia standard a
acestei variabile (α = 0.1).
R: Vom avea: n = 5, t0.95,4 = 2.1318, x ≈ 3.16, s ≈ 0.1761. Intervalul de încredere pentru
medie este Å ã
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ = (2.9921, 3.3279).
n n
Intervalul de încredere pentru dispersie este:
!
n − 1 n − 1
(σ 2 , σ 2 ) = 2
s2 , 2 s2 = (0.0131, 0.1745).
χ1− α ; n−1 χ α ; n−1
2 2

Intervalul de încredere pentru deviaţia standard este:


√ √
(σ , σ ) = ( 0.0131, 0.1745) = (0.1143, 0.4177).
7.4 Exerciţii propuse 161

7.4 Exerciţii propuse


Exerciţiu 7.4.1 Pentru eşantionul
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948
598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
estimaţi punctual şi prin intervale de încredere media şi dispersia populaţiei din care provine
această selecţie.
Exerciţiu 7.4.2 La un control de calitate se verifică masa tabletelor de ciocolată produse de
o anumită maşină. Pentru a se realiza acest control s-a efectuat o selecţie de 50 tablete şi s-a
obţinut că masa X al ciocolatelor are următoarele dimensiuni (în grame):

Masa 99.98 99.99 100.00 100.01 100.02


Frecvenţa 9 10 13 11 7
Să se determine:
(a) un interval de încredere 95% pentru masa medie a tabletelor produse;
(b) un interval de încredere 95% pentru dispersia valorilor masei faţă de medie.
Exerciţiu 7.4.3 Un angajat la Serviciu Forţelor de Muncă doreşte să facă un sondaj prin care
să determine procentul de persoane dintr-o regiune a ţării ce lucrează la negru. El doreşte să
fie 98% sigur că rezultatul găsit estimează procentul real cu o eroare de cel mult 2%. Dintr-un
sondaj recent, la care au participat 1500 de persoane angajate, 273 au declarat că nu li s-au făcut
carte de muncă.
(a) Cât de mare ar trebui să fie volumul selecţiei pentru a realiza estimarea dorită?
(b) Dacă nu ar avea acces la acel sondajul recent, cât de mare ar trebui să fie volumul selecţiei
pentru a realiza estimarea dorită?
Exerciţiu 7.4.4 Un studiu recent arată că dintre 120 de accidente rutiere ce s-au soldat cu victime,
56 era datorate consumului de alcool. Găsiţi un interval de încredere care să estimeze cu o
probabilitate de risc α = 0.05 procentul real al accidentelor rutiere cauzate de consumul de
alcool.
Exerciţiu 7.4.5 În urma aruncării unei monede de 4050 de ori, s-a observat că faţa cu stema a
apărut de 2052 ori. Determinaţi un interval de încredere pentru probabilitatea de apariţie a feţei
cu stema la aruncarea respectivei monede. Se va lua nivelul de semnificaţie α = 0.05.
Exerciţiu 7.4.6 Cât de mare ar trebui să fie volumul selecţiei, pentru a estima proporţia de
fumători din ţară cu o eroare de cel mult 2% şi o încredere de 0.95?
Exerciţiu 7.4.7 Andrei şi Maria primesc copii ale aceluiaşi text pentru corectare. Ei corectează
textul în mod independent. Andrei găseşte 20 de erori, iar Maria găseşte 15 erori, dintre care 10
au fost găsite şi de Andrei. Estimaţi numărul de erori din text care nu au fost detectate nici de
niciunul dintre cei doi.
8. Teste statistice

Testarea ipotezelor statistice este o metodă prin care se iau decizii statistice, utilizând datele
experimentale culese. Testele prezentate mai jos au la bază noţiuni din teoria probabilităţilor.
Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental,
să se putem valida anumite estimări de parametri ai unei repartiţii sau chiar putem prezice forma
legii de repartiţie a caracteristicii considerate.
Presupunem că Z este variabila de interes a unei populaţii statistice şi că legea sa de probabilitate
este dată de depinde de un parametru θ . In general, o repartitie poate depinde de mai multi
parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, să presupunem
că (zk )k=1, n sunt datele observate relativ la caracteristica Z.
• Numim ipoteză statistică o presupunere relativă la valorile parametului θ sau chiar
referitoare la tipul legii caracteristicii.
• O ipoteză neparametrică este o presupunere relativă la repartitia lui Z. De exemplu, o
ipoteză de genul Z ∼ Normală.
• Numim ipoteză parametrică o presupunere făcută asupra valorii parametrilor unei repartiţii.
Dacă mulţimea la care se presupune că aparţine parametrul necunoscut este formată dintr-
un singur element, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză
parametrică compusă.
• O ipoteză nulă este acea ipoteză pe care o intuim a fi cea mai apropiată de realitate şi o
presupunem a priori a fi adevărată. Cu alte cuvinte, ipoteza nulă este ceea ce doreşti să
crezi, în cazul în care nu există suficiente evidenţe care să sugereze contrariul. Un exemplu
de ipoteză nulă este următoarul: "presupus nevinovat, până se găsesc dovezi care să ateste
o vină". O ipoteză alternativă este orice altă ipoteză admisibilă cu care poate fi confruntată
ipoteza nulă.
• A testa o ipoteză statistică (en., statistical inference) înseamnă a lua una dintre deciziile:
− ipoteza nulă se respinge (caz in care ipoteza alternativa este admisa)
− ipoteza nulă se admite (sau, nu sunt motive pentru respingerea ei)
• În Statistică, un rezultat se numeşte semnificativ din punct de vedere statistic dacă este
improbabil ca el să se fi realizat datorită şansei. Între două valori există o diferenţă
164 Capitolul 8. Teste statistice

semnificativă dacă există suficiente dovezi statistice pentru a dovedi diferenţa, şi nu
datorită faptului că diferenţa ar fi mare.
• Numim nivel de semnificaţie probabilitatea de a respinge ipoteza nulă când, de fapt, aceasta
este adevărată. În general, nivelul de semnificaţie este o valoare pozitiva apropiata de 0,
e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic,
valoarea implicita pentru α este 0.05.
• În urma unui test statistic pot aparea două tipuri de erori:
1. eroarea de speţa (I) sau riscul furnizorului (en., false positive) − este eroarea care se
poate comite respingând o ipoteză (în realitate) adevărată. Se mai numeşte şi risc de
genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnificaţie α, adică:

α = P(H0 se respinge | H0 este adevărată).

2. eroarea de speţa a (II)-a sau riscul beneficiarului (en., false negative) − este eroarea
care se poate comite acceptând o ipoteză (în realitate) falsă. Se mai numeşte şi risc
de genul al (II)-lea. Probabilitatea acestei erori este

β = P(H0 se admite | H0 este falsă).

Gravitatea comiterii celor două erori depinde de problema studiată. De exemplu, riscul de
genul (I) este mai grav decât riscul de genul al (II)-lea dacă verificăm calitatea unui articol
de îmbracăminte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dacă
verificăm concentraţia unui medicament.
• Denumim valoare P sau P−valoare sau nivel de semnificaţie observat (en., P-value)
probabilitatea de a obţine un rezultat cel puţin la fel de extrem ca cel observat, presupunând
că ipoteza nulă este adevărată. Valoarea P este cea mai mică valoare a nivelului de
semnificaţie α pentru care ipoteza (H0 ) ar fi respinsă, bazându-ne pe observaţiile culese.
Dacă Pv ≤ α, atunci respingem ipoteza nulă la nivelul de semnificaţie α, iar dacă Pv > α,
atunci admitem (H0 ). Cu cât Pv este mai mică, cu atât mai mari şanse ca ipoteza nulă să fie
respinsă. De exemplu, dacă valoarea P este Pv = 0.045 atunci, bazându-ne pe observaţiile
culese, vom respinge ipoteza (H0 ) la un nivel de semnificaţie α = 0.05 sau α = 0.1, dar
nu o putem respinge la un nivel de semnificaţie α = 0.02. Dacă ne raportăm la P−valoare,
decizia într-un test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât
nivelul de semnificaţie α, atunci ipoteza nulă este respinsă, iar dacă P−value este mai
mare decât α, atunci ipoteza nulă nu poate fi respinsă.
Un exemplu simplu de test este testul de sarcină. Acest test este, de fapt, o procedură statistică
ce ne dă dreptul să decidem dacă există sau nu suficiente evidenţe să concluzionăm că o sarcină
este prezentă. Ipoteza nulă ar fi lipsa sarcinii. Majoritatea oamenilor în acest caz vor cădea de
acord cum că un false negative este mai grav decât un false positive.
Să presupunem că suntem într-o sală de judecată şi că judecătorul trebuie să decidă dacă un
inculpat este sau nu vinovat. Are astfel de testat următoarele ipoteze:
®
(H0 ) inculpatul este nevinovat;
(H1 ) inculpatul este vinovat.

Posibilele stări reale (asupra cărora nu avem control) sunt:


[1] inculpatul este nevinovat (H0 este adevărată şi H1 este falsă);
[2] inculpatul este vinovat (H0 este falsă şi H1 este adevărată)
Deciziile posibile (asupra cărora avem control − putem lua o decizie corectă sau una falsă) sunt:
8.1 Tipuri de teste statistice 165

[i] H0 se respinge (dovezi suficiente pentru a încrimina inculpatul);


[ii] H0 nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);
În realitate, avem următoarele posibilităţi, sumarizate în Tabelul 8.1:

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 [1]&[i] [2]&[i]
Acceptă H0 [1]&[ii] [2]&[ii]

Tabela 8.1: Posibilităţi decizionale.

Interpretările datelor din Tabelul 8.1 se găsesc în Tabelul 8.2.

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 închide o persoana nevinovată închide o persoana vinovată
Accepta H0 eliberează o persoana nevinovată eliberează o persoana vinovată

Tabela 8.2: Decizii posibile.

Erorile posibile ce pot aparea sunt cele din Tabelul 8.3.

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 α judecată corectă
Accepta H0 judecată corectă β

Tabela 8.3: Erori decizionale.

8.1 Tipuri de teste statistice


Tipul unui test statistic este determinat de ipoteza alternativă (H1 ). Astfel, putem avea:
• test unilateral stânga, atunci când ipoteza alternativă este θ < θ0 ;
• test unilateral dreapta, atunci când ipoteza alternativă este θ > θ0 ;
• test bilateral, atunci când ipoteza alternativă este θ 6= θ0 .
Pentru a lua decizii statistice se poate utiliza metoda intervalelor de încredere pentru parametri.

8.1.1 Testul t pentru medie


Testul t pentru medie se foloseşte pentru selecţii normale de volum mic, de regulă n < 30, când
dispersia populaţiei este necunoscută a priori.
Fie caracteristica Z ce urmează legea normală N (µ, σ ) cu µ necunoscut şi σ > 0 necunoscut.
Vrem să verificăm ipoteza nulă
(H0 ) : µ = µ0
166 Capitolul 8. Teste statistice

versus ipoteza alternativă


(H1 ) : µ 6= µ0 ,
cu probabilitatea de risc α.
Metoda I: Etapele testului sunt urmatoarele:
• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s = ∑ (zi − z)2 .
n − 1 i=1
• Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe
care o testam:
z − µ0
T0 = s . (8.1.1)

n
• Calculam cuantila de ordin 1 − α2 pentru repartitia t(n − 1), notata aici prin t1− α2 ; n−1 Este un
prag teoretic ce poate fi determinat din tabelele pentru repartitia Student sau calculat cu un soft
matematic (e.g., M ATLAB).
• Decizia testului se ia astfel:
– dacă |T0 | < t1− α2 ; n−1 (adica |T0 | este suficient de mic), atunci admitem (H0 ).
– dacă |T0 | ≥ t1− α2 ; n−1 , atunci respingem (H0 ).

Metoda a II-a: O altă modalitate de testare a unei ipoteze statistice parametrice este prin
intermediul P−valorii, Pv . Reamintim, P−valoarea este probabilitatea de a obţine un rezultat
cel puţin la fel de extrem ca cel observat, presupunând că ipoteza nulă este adevărată. Aceasta
valoare este afisata de orice soft statistic folosit in testarea ipotezelor. Utilizând P−valoarea,
testarea se face astfel:
Ipoteza nulă va fi respinsă dacă Pv < α şi va fi admisă dacă Pv ≥ α. Aşadar, cu cât Pv este mai
mic, cu atât mai multe dovezi de respingere a ipotezei nule.
Exemplu 8.1.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un
anumit oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate
in urma sondajului sunt grupate in Tabelul 5.2. Dorim să testăm, la nivelul de semnificaţie
α = 0.05, dacă media tuturor notelor la teza de Matematică a elevilor din oras este µ = 6.5.
R: Aşadar, avem de testat
(H0 ) µ = 6.5 vs. (H1 ) µ 6= 6.5.
Media si deviatia standard a notelor din tabel sunt:
z = 6.3667, s = 1.8570.
Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:
z − µ0
t0 = s = −0.6812, t1− α2 ; n−1 = t0.975; 89 = 1.9870.

n
Deoarece |t0 | < t0.975; 89 , luam decizia ca ipoteza (H0 ) este admisa la acest nivel de semnificatie.

Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata
de un soft statistic, valoarea ei fiind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
8.1 Tipuri de teste statistice 167

8.1.2 Test pentru dispersie


Pentru variabila Z ca mai sus dorim sa testam ipoteza:

(H0 ) : σ 2 = σ02 vs. ipoteza alternativă (H1 ) : σ 2 6= σ02 ,

cu probabilitatea de risc α. Etapele testului sunt urmatoarele:


• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s = ∑ (zi − z)2 .
n − 1 i=1

• Calculam statistica
n−1 2
χ02 = s , (8.1.2)
σ2
• Determinam cuantilele de ordine α/2 si 1 − α/2 pentru repartitia χ 2 (n − 1) (se pot obtine din
tabele pentru repartitia χ 2 ).
• Decizia testului se
Ä va lua astfel: ä
2
– dacă χ02 ∈ χ 2α ; n−1 , χ1− α , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
Ä 2 2 ; n−1 ä

– dacă χ02 ∈
6 χ 2α ; n−1 , χ1−
2
α , atunci respingem (H0 ) (i.e., σ 2 6= σ02 ).
2 2 ; n−1
Exemplu 8.1.2 Se cercetează caracteristica Z, ce reprezintă diametrul pieselor (în mm) produse
de un strung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecţie
de piese de volum n = 11 şi obţinem distribuţia empirică:
Å ã
10.50 10.55 10.60 10.65
.
2 3 5 1

Să se testeze (cu α = 0.1) ipoteza nulă

(H0 ) : σ 2 = 0.003,

versus ipoteza alternativă


(H1 ) : σ 2 6= 0.003.
R: Calculam mai intai s2 si apoi valoarea statisticii test. Obtinem s2 = 0.0022 si, astfel,
10
χ02 = 0.003 · 0.0022 = 7.2727. Cuantilele sunt:

χ 2α ; n−1 = 3.9403; 2
χ1− α
; n−1 = 18.3070.
2 2

Astfel, intervalul teoretic de referinta este


Ä ä
2
χ02 ∈ χ 2α ; n−1 , χ1− α
; n−1 = (3.9403, 18.3070).
2 2

Cum valoarea χ02 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu poate fi
respinsa. (o acceptam).

Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata
de un soft statistic, valoarea ei fiind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
168 Capitolul 8. Teste statistice

8.1.3 Test pentru proporţie


Fie X o caracteristică binomială a unei colectivităţi, cu probabilitatea de succes p. Pe baza unor
selecţii ale populaţiei, dorim să testăm următoarea ipoteză asupra lui p:
(H0 ) : p = p0 vs. (H1 ) : p 6= p0 .
De asemenea, putem considera şi ipoteze alternative unilaterale:
(H1 )s : p < p0 sau (H1 )d : p > p0 .
Pentru a putea testa acestă ipoteză, ne vom folosi de rezultatele din cursul precedent. Să
presupunem că volumul populaţiei (N) este mult mai mare posibil infinit) decât volumul n al
selecţiilor considerate. Fixăm un nivel de semnificaţie α. Vom construi testul pentru proporţia
populaţiei pe baza intervalului de încredere (7.2.6).
Testul poate fi folosit doar dacă următoarele condiţii sunt satisfăcute:
n ≥ 40, np ≥ 5, n(1 − p) ≥ 5.
Etapele testului sunt:
• Pe baza selecţiei, calculăm proporţia de selecţie pb, care este o estimare a proporţiei
populaţiei, p;
• Calculăm valoarea
pb − p0
P0 = ;
p0 (1 − p0 )
n
• Calculăm cuantila z1− α2 ;
• Dacă
|P0 | ≤ z1− α2 ,
atunci admitem ipoteza nulă la acest nivel de semnificaţie. Altfel, o respingem.
Observaţie 8.1.1 Dacă ipoteza alternativă este (H1 )s , atunci vom respinge ipoteza nulă dacă
P0 < −z1−α , iar dacă ipoteza alternativă este (H1 )d , atunci vom respinge ipoteza nulă dacă
P0 > z1−α .
Exerciţiu 8.1.1 Într-un sondaj naţional de opinie, 5000 de persoane au fost rugate să răspundă la
o întrebare legată de apartenenţa religioasă. La întrebarea "Sunteţi creştini?", răspunsul a fost
afirmativ în 4893 dintre cazuri. Rezultatul acestui sondaj este utilizat în estimarea procentului de
creştini din ţară. Să notăm cu p acest procent.
(a) La nivelul de semnificaţie α = 0.05, testaţi dacă p este de 95% sau mai mare.
(b) Un soft matematic a calculat valoarea Pv . Dacă Pv = 0.0001, care ar fi decizia testului?
R: (a) Avem de testat ipoteza
(H0 ) : p = 0.95 vs. (H1 ) : p > 0.95.
4893
Procentul de selecţie este pb = 5000 = 0.9786, cuantila este z1−α = 1.6449 şi valoarea statisticii
este
0.9786 − 0.95
P0 = = 9.2791 ∈ [1.6449, ∞),
0.95 (1 − 0.95)
5000
aşadar ipoteza nulă este respinsă la acest nivel de semnificaţie. Admitem că p > 0.95.
(b) Aceeaşi concluzie poate fi dedusă şi pe baza P−valorii. Deoarece Pv = 0.001 < α = 0.05,
deducem că ipoteza nulă va fi respinsă.
8.1 Tipuri de teste statistice 169

8.1.4 Testul χ 2 de concordanţă


Testele de concordanţă (en., goodness-of-fit tests) realizează concordanţa între repartiţia empirică
(repartiţia datelor observate) şi repartiţia teoretică a unei variabile. Două dintre cele mai des
utilizate teste de concordanţă sunt testul χ 2 de concordanţă şi testul Kolmogorov-Smirnov.

Testul χ 2 de concordanţă poate fi utilizat ca un criteriu de verificare a ipotezei potrivit căreia


un ansamblu de observaţii urmează o repartiţie dată. Se aplică la verificarea normalităţii, a
exponenţialităţii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit şi
testul χ 2 al lui Pearson sau testul χ 2 al celei mai bune potriviri (en., goodness of fit test). Acest
test poate fi aplicat pentru orice tip de date pentru care funcţia de repartiţie empirică poate fi
calculată. Pentru acest test, ipoteza nulă este:

(H0 ) : Funcţia de repartiţie a lui Z este F(z).

Ipoteza alternativă este negaţia ipotezei nule.


Etapele testului sunt urmatoarele:
1. Stabilim pragul de risc α. Facem masuratorile asupra variabilei Z : z1 , z2 , . . . , zn .
2. Pe baza masuratorilor intuim natura repartitiei lui Z (si, implicit, forma functiei de repartitie a lui
Z). Aceasta functie poate depinde de unul sau mai multi parametri, notati generic cu θ . Formulăm
ipotezele statistice:
(H0 ) funcţia de repartiţie teoretică a variabilei aleatoare Z este F(z; θ1 , θ2 , . . . , θ p )
(H1 ) ipoteza nulă nu este adevărată.
3. Dacă θ1 , θ2 , . . . , θk (k ≤ p) nu sunt parametri cunoscuţi, atunci determinăm estimările
θ̂1 , θ̂2 , . . . , θ̂k pentru aceştia. Altfel, sărim peste acest pas;
4. Grupam datele in clase si scriem distribuţia empirică de selecţie (tabloul de frecvenţe),

clasa Oi n
Å ã
, unde ∑ ni = n, ni ≥ 5;
ni i=1, n i=1

5. Se calculează probabilitatea pi , ca un element luat la întâmplare să se afle în clasa Oi . Dacă


Oi = [ai−1 , ai ), atunci
k
(ni − n pi )2
6. Se calculează statistica χ20 = ∑ , care reprezinta discrepanta dintre valorile observate
i=1 n pi
si cele teoretice;
7. Determinăm valoarea χ ∗ , care este
® 2
∗ χ1−α; k−1 , în cazul in care nu avem de estimat parametrii repartitiei,
χ = 2
χ1−α; k−p−1 , în cazul in care am estimat p parametri pentru repartitie,
2 2
unde χα; n este cuantila de ordin α pentru repartiţia χ (n);
2 ∗
8. Dacă χ0 < χ , atunci acceptăm (H0 ), altfel o respingem.
Exemplu 8.1.3 În urma unui recensământ, s-a determinat că proporţiile persoanelor din România
ce aparţin uneia dintre cele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%.
S-au testat aleator 450 de persoane din România, obţinându-se următoarele rezultate:
Verificaţi, la nivelul de risc α = 0.05, Grupa sanguină O A B AB
compatibilitatea datelor cu rezultatul teoretic.
Frecvenţa 136 201 82 31
R: Ipotezele statistice sunt:

(H0 ) : Rezultatul observat este compatibil cu cel teoretic,


170 Capitolul 8. Teste statistice

(H1 ) : Există diferenţe semnificative între rezultatul teoretic şi observaţii.


Dacă ipoteza nulă ar fi adevărată, atunci valorile aşteptate pentru cele patru grupe sanguine (din
450 de persoane) ar fi: O : 153.5, A : 184.5, B : 85, AB : 27.
Calculez valoarea statisticii χ2 pentru observaţiile date. Ponderile pi sunt: p1 = 0.34, p2 =
0.41, p3 = 0.19, p4 = 0.06. Folosind formula, gasim ca:
(136 − 450 · 0.34)2 (201 − 450 · 0.41)2 (82 − 450 · 0.19)2 (31 − 450 · 0.06)2
χ20 = + + +
450 · 0.34 450 · 0.41 450 · 0.19 450 · 0.06
(136 − 153.5) 2 (201 − 184.5) 2 (82 − 85)2 (31 − 27)2
= + + +
153.5 184.5 85 27
= 4.1004.
Aici n = 4, p = 0. Valoarea teoretica a statisticii de referinta este χ ∗ = χ0.95;
2
3 = 7.8147. Deo-
2 ∗
arece χ0 < χ , atunci acceptăm (H0 ) la acest nivel de semnificaţie. Asadar, observatiile sunt
compatibile cu cele teoretice.

8.2 Exerciţii rezolvate


Exerciţiu 8.2.1 Se aleg la întâmplare 10 înregistrări ale vitezelor vehiculelor ce trec prin dreptul
radarului fix aşezat în faţa universităţii. Acestea sunt (în km/h):

48 44 55 45 47 41 39 49 55 52

Presupunem că eşantionul ales face parte dintr-o populaţie normală.


(a) Găsiţi un interval de încredere de 98% pentru viteza medie a vehiculelor ce trec prin dreptul
radarului.
(b) Testaţi ipoteza că viteza medie cu care se circulă prin faţa acestui radar este de 45km/h sau
nu, considerându-se un nivel de semnificaţie α = 0.02;
(c) Testaţi ipoteza că dispersia valorilor vitezei este de 25 sau alta, considerându-se un nivel de
semnificaţie α = 0.02.
R: (a) Folosim intervalul de încredere pentru eşantioane mici. Înlocuind x = 47.5, s = 5.4620,
t1− α2 ; n−1 = t0.99, 9 = 2.821, găsim intervalul de încredere
Å ã
s s
(µ, µ) = x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ = (42.627, 52.373).
n n
(b) Ipoteza nulă este (H0 ) : µ = 45, iar ipoteza alternativă este (H1 ) : µ 6= 45. Folosim testul
t bilateral. Deoarece
47.5 − 45
t0 = 5.4620
= 1.4474 < 2.821 = t0.99, 9 ,

10

acceptăm ipoteza nulă la nivelul de semnificaţie α = 0.02.


Altfel, deoarece valoarea testată pentru medie se află în intervalul de încredere de mai sus,
acceptăm ipoteza nulă (nu avem motive să o respingem).
(c) Ipoteza nulă este (H0 ) : σ 2 = 25, iar ipoteza alternativă este (H1 ) : σ 2 6= 25. Folosim
testul pentru dispersie bazat pe statistica (8.1.2). Intervalul de încredere pentru σ 2 este
Ä ä Ä ä
χ 2α ; n−1 , χ1−
2
α
; n−1 = χ 2
0.1; 9 , χ 2
0.99; 9 ) = (4.17, 21.67).
2 2
8.2 Exerciţii rezolvate 171
9
Cum valoarea statisticii test, χ02 = 25 · 5.46202 = 10.74, se află în intervalul de încredere pentru
σ 2 , deducem că ipoteza nulă este admisă.

Exerciţiu 8.2.2 La un examen naţional, se contabilizează nota x obţinută de fiecare examinat


în parte. Pentru o analiza statistică, se aleg la întâmplare 200 de candidaţi. S-a găsit că suma
200 200
notelor alese este ∑ xi = 1345.37 şi suma pătratelor acestor note este ∑ xi2 = 10128.65. Se cer:
i=1 i=1
(a) Găsiţi un interval de încredere pentru media µ a tuturor notelor participanţilor la examen, la
nivelul de semnificaţie α = 0.05.
(b) Testaţi ipoteza nulă (H0 ) : µ = 6.75, vs. ipoteza alternativă (H1 ) : µ 6= 6.75, la nivelul
α = 0.05. Argumentaţi statistica folosită în testare.
200
1
R: Din datele problemei, găsim că x = 200 ∑ xi = 6.7268, iar
i=1

1 200 2 10128.65
s2 = ∑ xi − x2 = − 6.72682 = 5.6479.
n − 1 i=1 199

Astfel, s = 2.3765. Deoarece dispersia nu este cunoscută a priori şi eşantionul este suficient de
mare, folosim intervalul de încredere pentru eşantioane mari. Folosind t1− α2 ; n−1 = t0.975, 199 ≈
z0.975 = 1.96, găsim intervalul de încredere
Å ã
s s
(µ, µ) = x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ = (6.3974, 7.0562).
n n
(b) Folosim testul t bilateral (dispersia nu este cunoscută priori, iar n = 200 este suficient de
mare). Deoarece
6.7268 − 6.75
t0 = 2.3765
= −0.1381 şi |t0 | = 0.1381 < 1.96,

200

acceptăm ipoteza nulă la nivelul de semnificaţie α = 0.05.


Altfel, deoarece valoarea testată pentru medie se află în intervalul de încredere de mai sus,
acceptăm ipoteza nulă (nu avem motive să o respingem).
Exerciţiu 8.2.3 În industria farmaceutică, variabilitatea masei medicamentelor este critică.
Eşantionul de mai jos reprezintă masa (în grame) a 15 tablete de acelaşi tip.
5.6; 5.52; 5.45; 5.41; 5.47; 5.55; 5.41; 5.58; 5.6; 5.4; 5.54; 5.47; 5.5; 5.53; 5.59

(a) Determinaţi un interval de încredere pentru dispersie (α = 0.05).


(b) Presupunem că acest eşantion provine dintr-o populaţie normală. Testaţi ipoteza că dispersia
masei pentru acest tip de medicament, pentru întreaga populaţie, este de 0.004 g2 .
R: (a) Pentru acest eşantion, s2 = 0.005. Un interval de încredere pentru σ 2 este
! Å
n−1 2 n−1 2
ã
14 14
2
s , 2 s = · 0.005, · 0.005 = (0.0027, 0.0124).
χ1− α
, n−1
χ α , n−1 26.12 5.63
2 2

(b) Ipotezele testate sunt:

(H0 ) : σ 2 = 0.004 vs. (H1 )d : σ 2 6= 0.004.

Deoarece 0.04 se aflăîn intervalul de în redere de mai sus, acceptăm ipoteza nulă.
172 Capitolul 8. Teste statistice

8.3 Exerciţii propuse


Exerciţiu 8.3.1 Se aruncă o monedă de 250 de ori, obţinându-se 140 de apariţii ale stemei. La
un nivel de semnificaţie α = 0.05, să se decidă dacă avem suficiente dovezi de a afirma că acestă
monedă este falsă.
Exerciţiu 8.3.2 Caracteristica X reprezintă cheltuielile lunare pentru convorbirile telefonice ale
unei familii. În urma unui sondaj la care au participat 100 de familii, am obţinut datele (repartiţia
de frecvenţe):
Å ã
[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300)
6 11 13 18 20 14 11 7

(a) Să se verifice, cu nivelul de semnificaţie α = 0.02, ipoteza că media acestor cheltuieli lunare
pentru o singură familie este de 140 RON, ştiind că abaterea standard este 35 RON.
(b) Să se verifice aceeaşi ipoteză, în cazul în care abaterea standard nu este cunoscută a priori.
Exerciţiu 8.3.3 Pentru o selecţie dată, de volum n = 196, am obţinut x = 0.25 şi s = 4. Nu
cunoaştem nici valoarea medie şi nici dispersia variabilei aleatoare ce caracterizează populaţia.
Verificaţi la nivelul de semnificaţie α = 0.05 ipoteza µ = 0, cu alternativa µ 6= 0.
Exerciţiu 8.3.4 Un patron susţine că firma sa nu face discriminare sexuală la angajare (i.e., atât
bărbaţii, cât şi femeile au aceeaşi şansă de a se angaja în respectiva firmă). Se aleg aleator 500
de angajaţi şi se observă că 271 sunt bărbaţi. Testaţi la nivelul de semnificaţie 0.05 dacă patronul
firmei spune adevărul sau nu.
Exerciţiu 8.3.5 O selecţie de volum n = 50 este folosită pentru a verifica următoarea ipoteză

(H0 ) : µ = 15 vs. (H1 ) : µ 6= 15,

la nivelul de semnificaţie α = 0.05. Valorile estimate pentru medie, respectiv deviaţia standard
sunt: x = 17.5 şi s = 4.5. Care este rezultatul testării?
Exerciţiu 8.3.6 Urmărim preţul X al aceluiaşi articol în 20 de magazine, alese la întâmplare.
Acestea sunt:

9.6 9.9 10.3 10.0 10.5 9.7 9.9 10.2 10.0 10.4
9.9 9.8 10.1 10.4 9.9 10.2 10.3 10.1 10.0 9.7

Considerăm că preţul acestui articol urmează o repartiţie gaussiană.


(i) Se poate admite ipoteza E(X) = 10.0, la nivelul de semnificaţie α = 0.05?
(ii) Se poate admite ipoteza Var(X) = 0.2, la nivelul de semnificaţie α = 0.05?
Exerciţiu 8.3.7 Unui grup format din 12 copii de 5 ani li s-a cerut să facă fiecare câte un puzzle
simplu. După ce l-au terminat, au fost rugaţi să-l refacă, urmărindu-se dacă timpii de lucru s-au
îmbunătăţit semnificativ. Timpii de lucru (în secunde) pentru ambele încercări sunt notaţi în
tabelul de mai jos:

Copil C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12


prima încercare 321 339 180 123 289 285 259 124 283 180 254 184
a doua încercare 204 184 85 91 175 305 148 116 194 195 221 184

Presupunem că timpii de lucru sunt caracteristici normale. Formulaţi un test statistic potrivit, în
urma căruia să decideţi dacă timpii de lucru pentru a doua încercare s-au îmbunătăţit semnificativ.
8.3 Exerciţii propuse 173

Exerciţiu 8.3.8
Tabelul alăturat conţine repartiţia pe grupe de vârstă a unei selecţii
aleatoare de 385 de şomeri dintr-o anumită regiune a ţării. vârsta frecvenţa
(a) Calculaţi vârsta medie si deviaţia standard pentru selecţia dată. [18, 25) 34
(b) Estimaţi printr-un interval de încredere vârsta medie a şomerilor [25, 35) 76
din acea regiune (α = 0.1). [35, 45) 124
(c) Testaţi ipoteza că vârsta medie a şomerilor este 42 de ani [45, 55) 87
(α = 0.1). [55, 65) 64

Exerciţiu 8.3.9 Într-o şcoală sunt 200 de elevi de clasa a XII-a care au susţinut teză la Matema-
tică. Tabelul următor conţine o selecţie aleatoare de 36 de note la această teză:
note 4 5 6 7 8 9 10
frecvenţa 5 6 7 8 5 3 2
(a) Estimaţi printr-un interval de încredere procentul notelor de trecere obţinute de elevii de
clasa a XII-a din acea şcoală (α = 0.06).
(b) Testaţi ipoteza că 15% dintre elevii din şcoală nu au luat notă de trecere (α = 0.06).
Exerciţiu 8.3.10 O selecţie de 700 de salarii pe oră din România arată că media salariului pe oră
este x = 13.72 RON şi s = 9.3. Putem decide, pe baza acestui sondaj, că media salariului pe oră
este, de fapt, µ > 12.43 RON, valoare stabilită de guvernul român? Se va folosi α = 0.05.
9. Corelaţie

9.1 Introducere
În acest capitol vom discuta măsuri şi tehnici de determinare a legăturii între două sau mai multe
variabile aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [15], [16], [?].
Primele metode utilizate în studiul relaţiilor dintre două sau mai multe variabile au apărut de
la începutul secolului al XIX-lea, în lucrările lui Legendre1 şi Gauss2 , în ce priveşte metoda
celor mai mici pătrate pentru aproximarea orbitelor astrelor în jurul Soarelui. Un alt mare om
de ştiinţă al timpului, Francis Galton3 , a studiat gradul de asemănare între copii şi părinţi, atât
la oameni, cât şi la plante, observând că înălţimea medie a descendenţilor este legată liniar de
înălţimea ascendenţilor. Este primul care a utilizat conceptele de corelaţie şi regresie ( (lat.)
regressio - întoarcere). Astfel, a descoperit că din părinţi a căror înălţime este mai mică decât
media colectivităţii provin (în general) copii cu o înălţime superioară lor şi, vice-versa, din
părinţi cu înălţimi peste media colectivităţii provin (în general) copii cu o înălţime inferioară
lor. Astfel, a concluzionat că înălţimea copiilor ce provin din părinţi înalţi tinde să "regreseze"
spre înălţimea medie a populaţiei. Din lucrările lui Galton s-a inspirat un student de-al său, Karl
Pearson, care a continuat ideile lui Galton şi a introdus coeficientul (empiric) de corelaţie ce îi
poartă numele. Acest coeficient a fost prima măsură importantă introdusă care cuantifică tăria
legăturii dintre două variabile ale unei populaţii statistice.
Un ingredient fundamental în studiul acestor două concepte este diagrama prin puncte, numită
diagrama scatter plot. În probleme de regresie în care apare o singură variabila răspuns (variabila
care este prezisă) şi o singură variabilă predictor (variabila pe baza căreia facem predicţia),
diagrama scatter plot (răspuns vs. predictor) este punctul de plecare pentru studiul regresiei.
O diagramă scatter plot ar trebui reprezentată pentru orice problemă de analiză regresională,
deoarece aceasta ne va da o primă idee despre ce tip de regresie vom folosi. Un exemplu de astfel
de diagramă este reprezentat în Figura 9.1, în care am reprezentat coeficientul de inteligenţă (IQ)
1 Adrien-Marie Legendre (1752 − 1833), matematician francez
2 Johann Carl Friedrich Gauss (1777 − 1855), matematician şi fizician german
3 Sir Francis Galton (1822 − 1911), om de ştiinţă britanic
176 Capitolul 9. Corelaţie

a 200 de perechi soţ-soţie. Fiecare cruciuliţă din diagramă reprezintă IQ-ul pentru o pereche
soţ-soţie.

Figura 9.1: Scatter plot pentru IQ în familie.

9.2 Corelaţie şi coeficient de corelaţie


Corelaţia este un termen statistic folosit pentru a defini interdependenţa sau legătura între două
sau mai multe variabile aleatoare. Totodată, corelaţia este şi o metodă statistică de descriere şi
analiză a legăturilor de tip statistic între două sau mai multe variabile.
Dacă X, Y sunt două variabile aleatoare ce admit medie, atunci corelaţia sau covarianţa
(teoretică) dintre X şi Y se defineşte prin:
cov(X, Y ) = E [(X − E(X)) · (Y − E(Y ))] = E(X ·Y ) − E(X) · E(Y ).
Observaţie 9.2.1 (i) Din punct de vedere teoretic, dacă X şi Y sunt variabile aleatoare indepen-
dente, atunci cov(X, Y ) = 0.
Reciproca nu este, în general, adevărată. De exemplu, dacă X ∼ U (−1, 1) şi Y = X 2 , atunci
cov(X, Y ) = E(X ·Y ) − E(X) · E(Y ) = E(X 3 ) − E(X) · E(X 2 )
Z 1 ÅZ 1 ã ÅZ 1 ã
3 2
= x dx − x dx x dx = 0,
−1 −1 −1
însă X şi Y= X2 sunt dependente.
(ii) În cazul în care X şi Y sunt, în plus, variabile aleatoare normal repartizate, atunci independenţa
variabilelor aleatoare X şi Y este echivalentă cu necorelarea lor (i.e., cov(X, Y ) = 0).
O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine printr-o
linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare. Putem avea o
corelaţie pozitivă, însemnând că X şi Y cresc sau descresc împreună, sau o corelaţie negativă,
însemnând că X şi Y se modifică în direcţii opuse.
O măsură a corelaţiei dintre două variabile este coeficientul de corelaţie. Acesta este foarte
utilizat în ştiinţe ca fiind o măsură a dependenţei liniare între două variabile. Din punct de vedere
teoretic, definim coeficientul de corelaţie a două variabile aleatoare X şi Y prin:
cov(X, Y )
ρX,Y = = cov(X, Y ),
σX · σY
unde X şi Y sunt variabilele aleatoare standardizate iar
»   »  
σX = E (X − X)2 şi σY = E (Y −Y )2
sunt deviaţiile standard teoretice corespunzătoare variabilelor X, respectiv Y .
9.2 Corelaţie şi coeficient de corelaţie 177

Propoziţie 9.2.1 Proprietăţi ale coeficientului de corelaţie:


(a) Coeficientul de corelaţie este simetric, i.e., ρX,Y = ρY,X .
(b) Dacă X şi Y sunt independente, atunci
ρX,Y = 0.
(c) − 1 ≤ ρX,Y ≤ 1, pentru orice v.a. X şi Y .
(d) Dacă Y = aX + b (a, b ∈ R, a 6= 0), atunci
®
+1, dacă a > 0;
ρX,Y =
−1, dacă a < 0.
(e) Dacă a, b, c, d ∈ R, a, c > 0, atunci ρaX+b,cY+d = ρX,Y .
Magnitudinea (valoarea absolută) coeficientului de corelaţie ρX,Y determină tăria relaţiei liniare
dintre variabilele aleatoare X şi Y . Dacă ρX,Y = 1, atunci X şi Y sunt perfect pozitiv corelate,
iar dacă ρX,Y = −1, variabilele X şi Y vor fi perfect negativ corelate. Dacă reprezentăm grafic
perechile ordonate (x, y), ele se vor afla pe o dreaptă de pantă pozitivă, dacă ρX,Y = 1, şi negativă
pentru ρX,Y = −1.
Corelarea nu implică o cauzalitate. Cu alte cuvinte, doar faptul că variabilele X şi Y sunt corelate
nu implică faptul că X ar cauza pe Y sau invers.
În practică, pentru a stabili dacă există sau nu vreo legătura între două variabile aleatoare, se fac
observaţii asupra acestora, urmând apoi a cuantifica relaţia dintre observaţii.
Fie (xk , yk ), k ∈ {1, 2, . . . , n} un set de date bidimensionale, ce reprezintă observaţii asupra
vectorului aleator (X, Y ). O măsură a legăturii dintre {xk }k şi {yk }k este coeficientul de corelaţie
empiric introdus de K. Pearson (în literatura de specialitate mai este cunoscut şi sub denumirea
de coeficientul r):
n
∑ (xk − x)(yk − y)
k=1
r = s s (9.2.1)
n n
∑ (xk − x)2 ∑ (yk − y)2
k=1 k=1
cove (x, y)
= , (9.2.2)
sx · sy
unde
s s
n n n
1 1 1
cove (x, y) =
n−1 ∑ (xk − x)(yk − y), sx = n−1 ∑ (xk − x)2, sy = n−1 ∑ (yk − y)2
k=1 k=1 k=1

sunt covarianţa (corelaţia) empirică şi deviaţiile standard empirice pentru X şi Y .
Spre exemplu, pentru selecţiile

x = [0.49 -0.45 0.39 0.05 -0.49 0.24 0.72 0.15 0.13 -1.01];
y = [1.31 1.20 -2.58 -2.09 0.39 -0.86 -1.23 2.64 -0.90 -1.22];

coeficientul r al lui Pearson este


r = −0.0905.
Asemeni coeficientului de corelaţie teoretic, ρX,Y , coeficientul r al lui Pearson ia valori doar în intervalul
[−1, 1]. Cazurile limită pentru r sunt r = 1 sau r = −1, cazuri în care putem trage concluzia că variabilele
178 Capitolul 9. Corelaţie

X şi Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 9.2). Pentru valori ale lui r între
−1 şi 1, nu putem vorbi de gradul de corelare între X şi Y fără a efectua un test statistic asupra valorii
coeficientulul teoretic de corelaţie, ρ. De multe ori însă, putem afirma ca avem o corelaţie pozitivă dacă
r este apropiat de valoarea 1 (e.g., r = 0.85, caz în care norul de date are panta ascendentă) şi avem o
corelaţie negativă dacă r este apropiat de valoarea −1 (e.g., r = −0.98, caz în care norul de date are panta
descendentă).
Rezultatul r = −0.0905 de mai sus ar putea sugera faptul că cele două selecţii sunt observaţii obţinute din
două variabile aleatoare necorelate (i.e., ρ = 0), fapt ce va trebui confirmat folosind un test statistic în
care testăm ipoteza nulă ρ = 0, cu ipoteza alternativă ρ 6= 0.

Figura 9.2: Scatter plots şi coeficienţi de corelaţie.

9.2.1 Test statistic pentru coeficientul de corelaţie


Presupunem că avem un set de date bidimensionale (xk , yk ), k ∈ {1, 2, . . . , n} asupra variabilelor aleatoare
normale X, Y , şi am calculat r, obţinând o valoare r0 apropiată de 0. Plecând doar de la acestă informaţie,
nu putem extrapola şi decide gradul de corelare între X şi Y . Pentru aceasta, vom construi un test statistic,
care va decide dacă valoarea reală a lui ρ (coeficientul teoretic de corelaţie) este 0 sau semnificativ diferită
de 0.
Considerăm ipoteza nulă

(H0 ) ρX,Y = 0 (variabilele aleatoare nu sunt corelate)

vs. ipoteza alternativă

(H1 ) ρX,Y 6= 0 (variabilele aleatoare sunt corelate)

Alegem un nivel de semnificaţie α << 1 (e.g., α = 0.05) şi considerăm statistica

n−2
T =r ∼ t(n − 2).
1 − r2

Calculez valoarea statisticii T pentru r = r0 (o notăm cu T0 ) şi, de asemenea, calculăm cuantila t1− α2 ; n−2 ,
de ordin 1 − α2 a repartiţiei t cu (n − 2) grade de libertate.
Decizia finală este următoarea:
|T0 | < t1− α2 ; n−2 , atunci ipoteza (H0 ) este acceptată;
|T0 | ≥ t1− α2 ; n−2 , atunci ipoteza (H0 ) este respinsă.
9.2 Corelaţie şi coeficient de corelaţie 179

Observaţie 9.2.2 (i) Coeficientul lui Pearson, r, este un număr adimensional ce stabileşte doar dacă
există o legătura liniară între două seturi de date statistice. Totodată, în definirea acestui coeficient se
presupune că datele statistice urmează o repartiţie normală. De multe ori, în practică, doar coeficientul r
sigur nu poate fi edificator asupra tăriei legăturii între două seturi de date statistice, ba chiar poate genera
informaţii false în cazul în care cele două seturi date nu depind liniar unul de celălalt. De aceea, şi alţi
coeficienţi pentru determinarea corelaţiei sunt luaţi în consideraţie, cum ar fi:
• r2 , coeficientul de determinare (notat în Statistică prin R2 ), care stabileşte care este procentul din
variaţia uneia dintre datele statistice ce determina (sau explică) pe celelalte date. De exemplu, un
coeficient de determinare R2 = 0.42 semnifică faptul că variabila independentă explică doar 42%
din variaţia variabilei dependente. În Statistică, acest coeficient este definit în mai multe moduri,
unele nu tocmai într-un mod echivalent;
• coeficientul lui Spearman4 , coeficientul lui Kendall5 etc. (acestea nu presupun că datele statistice
sunt normale)
(ii) Se poate testa, de asemenea, ipoteza nulă

(H0 ) : ρX,Y = ρ0 , cu ρ0 6= 0,

însă aceasta nu este foarte des întâlnită în practică.


În acest sens, se poate utiliza statistica

1+r 1 + ρ0
Å ã Å Å ã ã
1 1 1
Z = ln ∼ N ln ,√ .
2 1−r 2 1 − ρ0 n−3

(iii) Corelaţia a două variabile aleatoare nu implică o cauzalitate. Cu alte cuvinte, există o corelaţie între
vârstă şi înălţime la copii, însă niciuna dintre aceastea nu o cauzează pe cealaltă. Corelaţia poate fi luată
în evidenţă pentru o posibilă relaţie cauzală, însă nu este determinantă şi nu poate preciza relaţia cauzală,
dacă această există.
(iv) Volumul selecţiei este un factor foarte important în testarea ipotezei că două variabile aleatoare
sunt necorelate. Spre exemplu, o relaţie poate fi puternică (având un r nu foarte aproape de 0), însă nu
semnificativă, dacă valoarea lui n nu este suficient de mare. Invers, o relaţie poate fi slabă (un r aproape
de 0), dar semnificativă. Exemplul (9.2.1) poate fi edificator.
Exemplu 9.2.1 Să presupunem că dorim să stabilim dacă există vreo legătura între vârstă unei persoane
şi coeficientul său de inteligenţă. Pe baza a două seturi de datele asupra acestor caracteristici, de volum
n = 10, găsim un coeficient de corelaţie empiric r = 0.62. Se cere:
(a) Este această legătură puternică?
(b) Este această legătură semnificativă?
R: (a) Calculăm coeficientul de determinare, R2 , şi găsim R2 = 0.3844. Asta semnifică faptul că doar
38.44% din variaţia coeficientului de inteligenţă este explicată de vârstă.
(b) Aplicăm testul pentru coeficientul de corelaţie la un nivel de semnificaţie α = 0.05. Ipoteza nulă este

(H0 ) Nu există o corelaţie semnificativă între vârstă şi IQ.


»
8
Statistica considerată va avea 8 grade de libertate, T0 = 0.62 1−0.3844 = 2.2351 < 2.3060 = t0.975; 8 , de
unde concluzionăm că ipoteza nulă ρ = 0 este admisă (i.e., nu sunt dovezi suficiente pentru ca ipoteza să
poate fi respinsă la acest nivel de semnificaţie).
(v) Se poate testa şi ipoteza că doi coeficienţi de corelaţie ce corespund fiecare la câte două selecţii diferă
semnificativ unul de celălalt. Presupunem că avem de testat ipoteza

(H0 ) : ρ1 = ρ2 ,
4 Charles Edward Spearman (1863 − 1945), psiholog britanic
5 Sir Maurice George Kendall (1907 − 1983), statistician britanic
180 Capitolul 9. Corelaţie

vs. ipoteza alternativă


(H1 ) : ρ1 6= ρ2 .
Presupunem că volumele selecţiilor folosite în testare sunt n1 şi n2 şi că r1 , r2 sunt coeficienţii de corelaţie
empirici calculaţi. Pentru a testa ipoteza de mai sus, se foloseşte faptul că variabilele

1 + ri
Å ã
1
Zi = ln , i = 1, 2.
2 1 − ri
Ä Ä ä ä
au o distribuţie asimptotică normală N 12 ln 1+ρ i √1
1−ρi , n−3 . Atunci, distribuţia asimptotică a statisticii
Z = Z1 − Z2 este Ç å
1 1
Z ∼ N µZ1 − µZ2 , + ,
n1 − 3 n2 − 3
Ä ä
cu µZi = 12 ln 1+ρ
1−ρi , i = 1, 2. Statistica test va fi
i

Z1 − Z2 − (µZ1 − µZ2 )
Z= » ∼ N (0, 1) ,
1 1
n1 −3 + n2 −3

Dacă |z| ≤ z1− α2 , acceptăm ipoteza (H0 ), altfel o respingem.

9.3 Coeficientul de corelaţie Spearman


În cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes, coefi-
cientul de corelaţie Pearson nu mai poate fi calculat. De asemenea, dacă datele nu satisfac ipoteza de
normalitate, folosirea coeficientului Pearson in testarea corelaţiei dintre valori poate fi pusă sub semnul
întrebării. O alternativă neparametrică a coeficientului Pearson este coeficientul de corelaţie Spearman,
sau coeficientul de corelaţie a rangurilor. Acest coeficient poate fi calculat atât pentru date calitative, cât şi
pentru date cantitative. Pentru a calcula acest coeficient, fiecărui atribut sau fiecărei valori a caracteristicii
i se desemnează un rang. Coeficientul de corelaţie Spearman este coeficientul de corelaţie Pearson
pentru aceste ranguri. Coeficientul lui Spearman este utilizat în depistarea (dacă este cazul) a unei relaţii
monotone între două variabile (fie ea liniară sau nu). Acest coeficient este mai puţin senzitiv la valorile
extreme (outliers) ale seturilor de date, în sensul că valori foarte mari sau foarte mici comparativ cu altele
nu influenţează valoarea coeficientului Spearman.
În general, dacă {(xi , yi )}ni=1 este un set de date bidimensionale, ale căror ranguri corespunzătoare sunt
(xi∗ , y∗i )ni=1 , atunci coeficientul de corelaţie Spearman (notat aici cu rS ) este
n
∑ (xk∗ − x∗ )(y∗k − y∗ )
k=1
rS = s s . (9.3.3)
n n
∑ (xk∗ − x∗ )2 (y∗k − y∗ )2

k=1 k=1

La fel ca şi coeficientul lui Pearson, coeficientul Spearman ia valori reale în intervalul [−1, 1]; valoarea 1
însemnând corelaţie pozitivă perfectă a rangurilor, iar valoarea −1 însemnând corelaţie negativă perfectă
a rangurilor.
În cazul în care avem n perechi de observaţii şi nu există valori egale pentru rangurile aceleiaşi variabile,
atunci formula alternativă pentru calcului lui rS este:
n
6 ∑ di2
i=1
rS = 1 − , (9.3.4)
n(n2 − 1)
9.3 Coeficientul de corelaţie Spearman 181

unde di = xi∗ − y∗i , i.e., diferenţa dintre rangurile corespunzătoare pentru poziţia i. Vezi exemplele (9.3.1)
şi (9.3.2).
Se poate, de asemenea, testa semnificatia valorii obtinute, rS . Testul este acelasi ca in cazul semnificatiei
coeficientului Pearson, cu deosebirea ca r este inlocuit cu rS .

Exemplu 9.3.1 Doi degustători de vinuri (denumiţi D1 şi D2) au fost rugaţi să testeze 9 soiuri de vin şi
să le claseze în ordinea preferinţelor. Să notăm mostrele testate cu A, B, C, D, E, F şi G. Preferinţele
acestora sunt cele din Tabelul 9.1, în ordinea descrescătoare a preferinţelor. Tabelul 9.2 conţine rangurile
preferinţelor celor doi degustători, iar Figura 9.3 reprezintă grafic rangurile (diagrama scatter plot).
Mostra rang D1 rang D2
A 3 5
B 2 1
C 5 3
Mostra A B C D E F G H I
D 8 7
D1 E B A G C H F D I
E 1 2
D2 B E C G A H D I F
F 7 9
Tabela 9.1: Preferinţele degustătorilor de vin. G 4 4
H 6 6
I 9 8

Tabela 9.2: Tabel cu rangurile preferinţelor.


Din diagrama scatter plot se observă o corelaţie pozitivă între ranguri, ceea ce implică o oarecare
concordanţă între preferinţele celor doi degustători. Coeficientul de corelaţie Spearman va atribui o
valoare numerică acestei concordanţe, aceasta fiind rS = 0.8667.

Figura 9.3: Scatter plot pentru ranguri.

Există cazuri (în special pentru date cantitative) când valorile caracteristicii se repetă, aşa încât pentru
valori egale desemnăm acelaşi rang. În aceste cazuri nu mai putem utiliza formula (9.3.4) pentru calculul
coeficientului Spearman, ci va trebui să utilizăm formula (9.3.3) (vezi exemplul următor).

Exemplu 9.3.2 Datele din Tabelul 9.3 reprezintă numărul de accidente rutiere (A) şi numărul de decese
(D) înregistrate într-un anumit oraş, în primele 6 luni ale anului. Rangurile corespunzătoare valorilor sunt
prezentate în Tabelul 9.4. Datele au fost introduse în tabel în ordinea inversă a numărului de accidente. De
notat că, deoarece numărul de decese înregistrate în luna Mai este egal cu numărul de decese din Aprilie,
rangul pentru fiecare dintre cele două luni este media celor două poziţii în care s-ar afla. Folosind formula
(9.3.3), calculăm coeficientul de corelaţie Spearman. Acesta este rS = 0.8117.
182 Capitolul 9. Corelaţie

Luna A rang A D rang D


Ian. 27 6 8 6
Feb. 24 5 6 5
Luna Ian. Feb. Mar. Apr. Mai Iun. 2+3
Mai 17 4 3 = 2.5
A 27 24 15 11 17 12 2
Mar. 15 3 5 4
D 8 6 5 3 3 2
Iun. 12 2 2 1
2+3
Tabela 9.3: Evenimente rutiere în primele 6 luni. Apr. 11 1 3 2 = 2.5

Tabela 9.4: Tabel cu rangurile pentru


accidente.

9.4 Exerciţii rezolvate


Exerciţiu 9.4.1 Datele din tabelul următor reprezintă o selecţie de observaţii asupra variabilei X.

X 0 −1 3 1 2 −2
Y 2 0

(a) Dacă pentru variabilele X şi Y coeficientul de corelaţie Spearman este −1, completaţi în tabel (dacă
este posibil) un set de valori pentru Y .
(b) Aceeaşi cerinţă în cazul în care coeficientul de corelaţie Pearson este −1.

R: (a) Coeficientul Spearman √ este −1 dacă cele două seturi de date sunt de monotonii inverse. Putem
alege, spre exemplu, Y = [π, 19, −2.5, −1, 0, 10]. Alegerea nu este unică.
(b) Coeficientul Pearson este −1 dacă toate datele se află pe o aceeaşi dreaptă. Dreapta ce trece prin
punctele (−1, 2) şi (2, 0) este
2
y = (2 − x).
3
Astfel, valorile lui Y sunt unic determinate: Y = [4/3, 2, −2/3, 2/3, 0, 8/3].

Exerciţiu 9.4.2 (a) Determinaţi coeficientul de corelaţie Pearson pentru


setul alăturat de date, reprezentate prin punctele albastre (fără punctul P).
(b) Determinaţi coeficientul de corelaţie Pearson pentru datele din figură,
incluzând punctul P(103 , 103 ). Cum explicaţi fenomenul observat?
(c) Aceleaşi cerinţe ca la (a) şi (b), dar pentru coeficientul Spearman.

R: (a) Cele 9 date sunt:

{(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)}

Coeficientul de corelaţie Pearson pentru cele 9 puncte este 0.


(b) Coeficientul de corelaţie Pearson pentru cele 10 puncte este ≈ 1.
(c) Rangurile asociate celor 9 date sunt:

rx = [2, 2, 2, 5, 5, 5, 8, 8, 8]; ry = [2, 5, 8, 2, 5, 8, 2, 5, 8];

Coeficientul de corelaţie Spearman pentru cele 9 puncte este 0, iar pentru cele 10 puncte este 0.2941.
Rangurile asociate celor 10 date sunt:

rx = [2, 2, 2, 5, 5, 5, 8, 8, 8, 7]; ry = [2, 5, 8, 2, 5, 8, 2, 5, 8, 7];

Coeficientul de corelaţie Pearson este foarte senzitiv la valorile extreme din date, pe când cpeficientul de
corelaţie Spearman este mai puţin senzitiv la valori extreme.
9.5 Exerciţii propuse 183

9.5 Exerciţii propuse


Exerciţiu 9.5.1 Tabelul de mai jos conţine calificativele obţinute de un elev de clasa I la o selectie de 9
teste din clasa I, care au fost reluate la inceputul clasei a doua a-II-a.
Discipline A B C D E F G H I
clasa I S FB FB B B FB S B FB
clasa a II-a B I B FB FB B B S B
(a) Calculaţi coeficientul de corelaţie Spearman şi semnificaţia lui pentru calificativele obţinute în clasa I
şi cele din clasa a II-a.
(b) La nivelul de semnificaţie α = 0.05, testaţi ipoteza că rezultatele elevului s-au îmbunătăţit în clasa a
II-a
Exerciţiu 9.5.2 Se măsoară viteza unei maşini în primele 10 secunde după ce a început să accelereze.
Datele sunt înregistrate în tabelul de mai jos.

t 0 1 2 3 4 5 6 7 8 9 10
v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Folosind un test statistic, verificaţi dacă t (timp) şi v (viteză) sunt liniar corelate (α = 0.04).
Exerciţiu 9.5.3 S-a realizat un studiu pentru a afla dacă există vreo relaţie între masa corporală (M) şi
presiunea sanguină (P) la oameni. Următorul set de date a fost obţinut dintr-un studiu clinic, alegând 10
persoane la întâmplare.

M 78 86 72 82 80 86 84 89 68 71
P 140 160 134 144 180 176 174 178 128 132

(a) Calculaţi indicele de corelaţie Pearson şi determinaţi semnificaţia acestuia (α = 0.05).
(b) Calculaţi indicele de corelaţie Spearman dintre M şi P.
Exerciţiu 9.5.4 Tabelul de mai jos conţine mediile obţinute de un elev de clasa a V-a la toate disciplinele
şcolare, pentru fiecare dintre cele două semestre.

Discipline A B C D E F G H I J
semestrul I 6 9 7 8 8 9 9 9 7 10
semestrul al II-a 7 9 8 9 8 9 8 10 8 10

(a) Calculaţi coeficientul de corelaţie Pearson şi testaţi semnificaţia valorii obţinute. (α = 0.04)
(b) Calculaţi coeficientul de corelaţie Spearman.

Exerciţiu 9.5.5 Un număr de studenţi ce au frecventat un Di f icultatea−→


1 2 3 4 5
anumit curs au fost solicitaţi să îşi exprime părerea în legătură Utilitatea ↓
cu dificultatea şi atractivitatea noţiunilor prezentate. Pentru 1 0 0 3 4 6
fiecare variabilă, ei au avut de ales numere întregi dintr-o scară 2 0 0 4 4 7
de la 1 la 5, unde 1 reprezintă clasa cea mai de jos de dificul- 3 0 4 5 6 5
tate (respectiv atractivitate) iar 5 nivelul maxim. Datele sunt 4 3 5 4 1 0
prezentate în tabelul de frecvenţe alăturat. 5 5 3 1 1 0
Sunt cele două opinii corelate? Calculaţi coeficientul de corelaţie Pearson. Este semnificativ? (α = 0.05)

Exerciţiu 9.5.6 Pentru datele de mai jos


X 0 1 2 3 4 5 6 7 8 9 10
Y −0.2 1.2 4.21 9.15 15.6 24.3 35.9 48.31 62.95 80 95
determinaţi coeficienţii de corelaţie Pearson şi Spearman. Care dintre ei este semnificativ la nivelul
α = 0.04?
10. Regresie

10.1 Introducere
Regresia este o metodă statistică utilizată pentru descrierea naturii relaţiei între variabile. De fapt, regresia
stabileşte modul prin care o variabilă depinde de altă variabilă, sau de alte variabile. Analiza regresională
cuprinde tehnici de modelare şi analiză a relaţiei dintre o variabilă dependentă (variabila răspuns) şi una
sau mai multe variabile independente. De asemenea, răspunde la întrebări legate de predicţia valorilor
viitoare ale variabilei răspuns pornind de la o variabilă dată sau mai multe. În unele cazuri se poate preciza
care dintre variabilele de plecare sunt importante în prezicerea variabilei răspuns. Se numeşte variabilă
independentă o variabilă ce poate fi manipulată (numită şi variabilă predictor, stimul sau comandată), iar o
variabilă dependentă (sau variabila prezisă) este variabila pe care dorim să o prezicem, adică o variabilă al
cărei rezultat depinde de observaţiile făcute asupra variabilelor independente. Să luăm exemplul unei cutii
negre (black box) (vezi Figura 10.1). În aceasta cutie intră (sunt înregistrate) informaţiile x1 , x2 , . . . , xm ,
care sunt prelucrate (în timpul prelucrării apar anumiţi parametri, β1 , β2 , . . . , βk ), iar rezultatul final este
înregistrat într-o singură variabila răspuns, y.
Spre exemplu, dorim să stabilim o relaţie între valoarea pensiei (y) în funcţie de numărul de ani lucraţi
(x1 ) şi salariul avut de-alungul carierei (x2 ). Variabilele independente sunt măsurate exact, fără erori.
În timpul prelucrării datelor sau după aceasta pot apăra distorsiuni în sistem, de care putem ţine cont
dacă introducem un parametru ce să cuantifice eroarea ce poate apărea la observarea variabilei y. Se
stabileşte astfel o legătură între o variabilă dependentă, y, şi una sau mai multe variabile independente,
x1 , x2 , . . . , xm , care, în cele mai multe cazuri, are forma matematică generală

y = f (x1 , x2 , . . . , xm ; β1 , β2 , . . . , βk ) + ε, (10.1.1)

unde β1 , β2 , . . . , βk sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi ε este
o perturbaţie aleatoare. În cele mai multe aplicaţii, ε este o eroare de măsură, considerată a fi modelată
printr-o variabilă aleatoare normală de medie zero. Funcţia f se numeşte funcţie de regresie. Dacă aceasta
nu este cunoscută a priori, atunci poate fi greu de determinat iar utilizatorul analizei regresionale va trebui
să o intuiască sau să o aproximeze utilizând metode de tip trial and error (prin încercări). Dacă avem doar
o variabila independentă (un singur x), atunci spunem că avem o regresie simplă. Regresia multiplă face
referire la situaţia în care avem multe variabile independente.
186 Capitolul 10. Regresie

Figura 10.1: Black box.

Dacă observarea variabilei dependente s-ar face fără vreo eroare, atunci relaţia (10.1.1) ar deveni (cazul
ideal):

y = f (x1 , x2 , . . . .., xm ; β1 , β2 , . . . , βk ). (10.1.2)

Forma vectorială a dependenţei (10.1.1) este:

y = f (x; β) + ε. (10.1.3)

Pentru a o analiză completă a regresiei (10.1.1), va trebui sa intuim forma funcţiei f şi apoi să determinăm
(aproximăm) valorile parametrilor de regresie. În acest scop, un experimentalist va face un număr suficient
de observaţii (experimente statistice), în urma cărora va aproxima aceste valori. Dacă notăm cu n numărul
de experimente efectuate, atunci le putem contabiliza pe acestea în următorul sistem de ecuaţii stochastice:

yi = f (x, β) + εi , i = 1, 2, . . . , n. (10.1.4)

În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate N (0, σ ), independente stochastic
două câte două (σ > 0). Astfel, sistemul (10.1.4) cu n ecuaţii stochastice algebrice are necunoscutele
{β j } j şi σ .
În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie aproximaţi
(n < k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă n = k, atunci problema
se reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz posibil, n > k, atunci avem un
sistem cu valori nedeterminate.
În funcţie de forma funcţiei de regresie f , putem avea:
• regresie liniară simplă, în cazul în care avem doar o variabilă independentă şi

f (x; β) = β0 + β1 x.

• regresie liniară multiplă, dacă

f (x; β) = β0 + β1 x1 + β2 x2 + · · · + βm xm .

• regresie pătratică multiplă (cu două variabile), dacă

f (x; β) = β0 + β1 x1 + β2 x2 + β11 x12 + β12 x1 x2 + β22 x22 .

• regresie polinomială, dacă

f (x; β) = β0 + β1 x + β2 x2 + β3 x3 + · · · + βk xk .

Vom avea regresie pătratică pentru k = 2, regresie cubică pentru k = 3 etc.


• regresie exponenţială, când
f (x; β) = β0 eβ1 x .
• regresie logaritmică, dacă
f (x; β) = β0 · logβ1 x.
10.2 Regresie liniară simplă 187

• şi altele.
De remarcat faptul că primele patru modele sunt liniare în parametri, pe când ultimele două nu sunt liniare
în parametri. Modelele determinate de aceste funcţii se vor numi modele de regresie (curbe, suprafeţe etc).
În cadrul analizei regresionale, se cunosc datele de intrare, {xi }i , şi căutăm să estimăm parametrii de
regresie {β j } j şi deviaţia standard a erorilor, σ . Dacă funcţia de regresie f este cunoscută (intuită),
atunci metode statistice folosite pentru estimarea necunoscutelor sunt: metoda verosimilităţii maxime,
metoda celor mai mici pătrate şi metoda lui Bayes. Dacă f este necunoscută, metode ce duc la estimarea
necunoscutelor sunt: metoda celor mai mici pătrate sau metoda minimax.

10.2 Regresie liniară simplă


Este cel mai simplu tip de regresie, în care avem o singură variabilă independentă, x, şi variabila dependentă
y. Să presupunem că ni se dă familia de date bidimensionale {(xi , yi )}i=1, n . Reprezentăm grafic aceste
date într-un sistem x0y (de exemplu, vezi Figura 10.2 (a)) şi observăm o dependenţă aproape liniară a lui
y de x. Dacă valoarea coeficientului de corelaţie liniară, r, este aproape de 1 sau −1 (indicând o corelaţie
liniară strânsă), atunci se pune problema stabilirii unei relaţii numerice exacte între x şi y de forma

y = β0 + β1 x. (10.2.5)

O astfel de dreaptă o vom numi dreapta de regresie a lui y în raport cu x. Pentru un set de date
bidimensionale ca mai sus, putem reprezenta această dreaptă ca în Figura 10.2 (b).

Figura 10.2: Aproximarea unui nor de date prin dreapta de regresie.


Exemplu 10.2.1 Te hotărăşti să cumperi maşina favorită, ce se vinde acum la preţul de 12500 EUR. La
semnarea contractului de vânzare-cumpărare, plăteşti suma iniţială de 15000 RON şi apoi rate lunare de
650 RON, timp de 5 ani. Dacă notăm cu X numărul lunilor până la ultima rată şi cu Y suma totală plătită pe
maşină, atunci între X şi Y există relaţia:

Y = 15000 + 650 X.

În acest exemplu, relaţia între X şi Y este una perfect liniară. O relaţie perfect liniară între datele
bidimensionale {(xi , yi )}i=1, n reprezentate în Figura 10.2 ar însemna că toate acestea s-ar afla pe dreapta
de regresie, ceea ce nu se întâmplă. De cele mai multe ori, datele reale nu urmează o astfel de relaţie
perfectă (spre exemplu, rata lunară poate fi una variabilă, în funcţie de rata de schimb EUR-RON), caz în
care parametrii din dependenţa liniară trebuie să fie estimaţi.
188 Capitolul 10. Regresie

Aşadar, va trebui să ţinem cont şi de eventualele perturbaţii din sistem. Putem presupune astfel că
dependenţa lui y de x este de forma

y = β0 + β1 x + ε, (10.2.6)

cu ε o variabilă aleatoare repartizată N (0, σ ).


Plecând de la {xi , yi }i , ţelul nostru este să găsim o dreaptă ce se apropie cel mai mult (într-un sens bine
precizat) de aceste date statistice. Cu alte cuvinte, va trebui să estimăm valorile parametrilor de regresie
β0 şi β1 . Procedăm după cum urmează.
Înlocuind datele bidimensionale în (10.2.6), avem următorul sistem:

yi = β0 + β1 xi + εi , i = 1, n, (10.2.7)

unde
εi ∼ N (0, σ ), ∀i şi εi sunt independente stochastic.
Deoarece
εi = yi − (β0 + β1 xi ), i = 1, n,
putem interpreta εi ca fiind erorile de aproximare a valorilor observate (yi ) cu cele prezise de dreapta de
regresie (adică de valorile β0 + β1 xi ).
Ţinând cont că εi ∼ N (0, σ ) şi β0 , β1 sunt valori deterministe, din (10.2.7) rezultă că:

yi ∼ N (β0 + β1 xi , σ ), pentru fiecare i,

de unde, probabilitatea ca într-o singură măsurătoare a xi să obţinem răspunsul yi este


Ç å
1 (yi − β0 − β1 xi )2
Pi = √ exp − .
σ 2π 2σ 2

Deoarece {εi }i sunt independente stochastic, probabilitatea ca în cele n observaţii independente să obţinem
vectorul de valori (y1 , y2 , , . . . , yn ) este (funcţia de verosimilitate):
n
Ç n å
1 (yi − β0 − β1 xi )2
L (β0 , β1 , σ ) = ∏ Pi = n exp − ∑ .
i=1 σ (2π)n/2 i=1 2σ 2

Avem de estimat următoarele cantităţi: β0 , β1 şi σ . Pentru aceasta, vom folosi metoda verosimilităţii
maxime. Urmărim să găsim acele valori ale parametrilor β0 , β1 şi σ care maximizează funcţia de
verosimilitate. Aşadar, problema de maximizare este următoarea:

max L (β0 , β1 , σ ).
β0 , β1 , σ

Condiţiile de extrem (impuse pentru ln L) sunt:


∂ ln L 1 n
∂ β0
= ∑ (yi − β0 − β1 xi )
σ 2 i=1
= 0;

∂ ln L 1 n
∂ β1
= ∑ xi (yi − β0 − β1 xi )
σ 2 i=1
= 0;

∂ ln L n 1 n
= − + 2 ∑ (yi − β0 − β1 xi )2 = 0.
∂σ σ σ i=1

Rezolvând primele două ecuaţii în raport cu β0 şi β1 , obţinem estimaţiile:


sxy
β“1 = 2 şi β“0 = y − β“1 x, (10.2.8)
sx
10.2 Regresie liniară simplă 189

unde,

1 n 1 n 1 n 1 n
x= ∑ xi , y= ∑ yi , s2x = ∑ (xi − x)2 , sxy = ∑ (xi − x)(yi − y).
n i=1 n i=1 n − 1 i=1 n − 1 i=1

Astfel, găsim că dreapta de regresie a lui y în raport cu x este aproximată de dreapta:
sxy
y = y − β“1 x + 2 x, (10.2.9)
sx
sau, altfel scrisă,
sxy
y = y+ (x − x). (10.2.10)
s2x

Figura 10.3: Aproximarea dreptei de regresie.

Din ultima condiţie de extrem, găsim că o estimaţie pentru dispersia σ 2 este:

1 n
σ̂ 2 = ∑ (yi − β“0 − β“1 xi )2 . (10.2.11)
n i=1

Însă, estimaţia pentru σ 2 dată prin formula (10.2.11) este una deplasată. În practică, în locul acestei
estimaţii se utilizează următoarea estimaţie nedeplasată:

1 n
c2 =
σ ∑ (yi − β“0 − β“1 xi )2 .
n − 2 i=1
(10.2.12)

Observaţie 10.2.1 (1) Terminologie:


• dreapta de regresie, y = β0 + β1 x, este dreapta ce determină dependenţa liniară a lui y de valorile
lui x, pentru întreaga populaţie de date (dacă acasta există);
• aproximarea dreptei de regresie (en., fitting line), y = β“0 + β“1 x, este dreapta care se apropie cel
mai mult (în sensul metodei celor mai mici pătrate) de datele experimentale (de selecţie) {xi , yi }i .
Această dreaptă este o aproximare a dreptei de regresie;
• Valorile yi se numesc valori observate, iar valorile ybi = β“0 + β“1 xi , i = 1, n se numesc valori
prezise (i = 1, n);
εi = yi − ybi se numesc reziduuri. Un reziduu măsoară deviaţia unui punct observat de la
• valorile b
valoarea prezisă de aproximarea dreptei de regresie (fitting line);
190 Capitolul 10. Regresie
n
• suma pătratelor erorilor, ∑ bεi2 , se notează de obicei prin SSE (sum of squared errors);
i=1
SSE
• eroarea medie pătratică sau reziduală este , notată MSE (mean squared error);
n−2
• rădăcina pătrată a MSE se numeşte eroarea standard a regresiei;
• se poate demonstra că
SSE c2
σ
= (n − 2) ∼ χ 2 (n − 2).
σ2 σ2
cu autorul acestei relaţii se pot găsi intervale de încredere pentru valoarea reală a lui σ 2 .
În formula (10.2.12), (n − 2) reprezintă numărul gradelor de libertate ale variabilei SSE.
(2) Estimaţia dispersiei este o măsură a gradului de împrăştiere a punctelor (x, y) în jurul dreptei de
regresie. Mai subliniem faptul că valorile din formulele (10.2.8) şi (10.2.12) sunt doar estimaţii ale
parametrilor necunoscuţi, şi nu valorile lor exacte. Formula pentru β“1 mai poate fi scrisă sub forma:
sy
β“1 = rxy .
sx
(3) Dacă deviaţia standard σ ar fi cunoscută a priori, atunci putem estima parametrii β0 şi β1 în următorul
mod. Estimăm aceşti doi parametri prin acele valori ce realizează minimumul sumei pătratelor erorilor
SSE. Vom avea astfel problema de minimizare (metoda celor mai mici pătrate):
n
min ∑ (yi − β0 − β1 xi )2 .
β0 , β1 i=1

n
Notând cu F(β0 , β1 ) = ∑ (yi − β0 − β1 xi )2 , condiţiile de extrem sunt:
i=1
n
∂F
= −2 ∑ (yi − β0 − β1 xi ) = 0;
∂ β0 i=1
n
∂F
= −2 ∑ xi (yi − β0 − β1 xi ) = 0.
∂ β1 i=1

Rezolvând acest sistem de ecuaţii algebrice în raport cu β0 şi β1 , găsim soluţiile β“0 şi, respectiv, β“1 de
mai sus. Aceasta dovedeşte că, în cazul în care erorile sunt identic normal repartizate şi independente
stochastic, metoda verosimilităţii maxime este, în fapt, totuna cu metoda celor mai mici pătrate.

10.2.1 Caracteristici ale parametrilor de regresie


Estimaţiile pentru parametrii de regresie β0 şi β1 depind de observaţiile folosite. Pentru a decide dacă
valorile calculate pe baza datelor experimentale {xi , yi }i pot fi considerate valorile potrivite pentru întreaga
populaţie, se vor utiliza testări statistice. Mai jos, vom construi teste statistice cu privire la testarea valorilor
ambilor parametri, β0 şi β1 , însă cel mai uzual test este testul pentru verificarea valorii pantei dreptei de
regresie, β1 .
Mai întâi, vom calcula media şi dispersia pentru fiecare dintre β“1 şi β“0 .
Avem succesiv, á n ë
Å
sxy
ã ∑ (xi − x)(yi − y)
i=1
E(β“1 ) = E 2 =E n .
sx
∑ (xi − x)2
i=1
Aici, xi sunt valori deterministe, iar yi variabile aleatoare. Deoarece
1 n
y = β0 + β1 x + ∑ εi ,
n i=1
10.2 Regresie liniară simplă 191

obţinem că E(y) = β0 + β1 x. Însă,

E(yi − y) = β0 + β1 xi − (β0 + β1 x) = β1 (x1 − x), ∀i.

Aşadar,
n n
∑ (xi − x)E[yi − y] β1 ∑ (xi − x)2
i=1 i=1
E(β“1 ) = n = n = β1 .
2 2
∑ (xi − x) ∑ (xi − x)
i=1 i=1

Pentru β“0 avem:


E(β“0 ) = E(y) − x E(β“1 ) = β0 + β1 x − xβ1 = β0 .
Prin urmare, atât β“0 , cât şi β“1 , sunt estimatori nedeplasaţi pentru β0 şi, respectiv, β1 .
Ä ä Ä ä n
Calculăm acum dispersiile Var β“1 şi Var β“0 . Deoarece (xi − x)y = 0, avem: ∑
i=1
á n ë n

Ä ä ∑ (xi − x)yi ∑ (xi − x)2Var(yi ) σ 2 s2x σ2


i=1
Var β“1 = Var n = i=1 å2 = = . (10.2.13)
s4x s2x
Ç n
2
∑ (xi − x) ∑ (xi − x) 2
i=1 i=1

Utilizând următoarea proprietate,

Var(X +Y ) = Var(X) + 2 cov(X, Y ) +Var(Y ),

putem scrie:
Ä ä Ä ä
Var β“0 = Var(y − β“1 x) = Var(y) − 2 x cov(y, β“1 ) + x2Var β“1 . (10.2.14)

Dar, Ç å
1 n 1 2 σ2
Var(y) = Var ∑ εi = n σ =
n i=1 n2 n
şi
à í
n

Ä ä 1 n
∑ (xi − x)(β0 + β1 xi + εi )
i=1
cov y, β“1 = cov ∑ εi , b
n i=1
∑ (xi − x)2
i=1
á n ë

1 n
∑ (xi − x)εi
i=1
= cov ∑ εi , n
n i=1
∑ (xi − x)2
i=1

Ç n n
å
1
= n cov ∑ εi , ∑ (xi − x)εi
2 i=1 i=1
n ∑ (xi − x)
i=1
n
∑ (xi − x)σ 2
i=1
= n = 0.
2
n ∑ (xi − x)
i=1
192 Capitolul 10. Regresie

Înlocuind în (10.2.14), găsim că


Ç å
Ä ä σ2 σ2 1 x2
Var β“0 = x2 2 + = σ2 + . (10.2.15)
sx n n s2x

c2
Ţinând cont că estimatorii β“0 şi β“1 sunt nedeplasaţi, de relaţiile (10.2.15) şi (10.2.13), şi de estimatorul σ
2
pentru σ , se poate demonstra că:

β“0 − β0
q 2
∼ t(n − 2) (10.2.16)
b 1n + xs2
σ
x

şi

β“1 − β1
σ
b
∼ t(n − 2). (10.2.17)
sx

Aici, am notat prin σ


b cantitatea
s
1 n Ä ä2
b=
σ ∑ yi − β“0 − β“1 xi .
n − 2 i=1

Putem folosi aceste statistici pentru a determina intervale de încredere pentru β0 şi β1 . Un interval de
încredere pentru β0 la nivelul de semnificaţie α este
" #
1 x 2 1 x 2
β“0 − t1− α2 ; n−2 σ
b + , β“0 + t1− α2 ; n−2 σb + . (10.2.18)
n s2x n s2x

Un interval de încredere pentru β1 la nivelul de semnificaţie α este


ï ò
σ
b σ
b
β1 − t1− α2 ; n−2 , β1 + t1− α2 ; n−2
“ “ . (10.2.19)
sx sx

Observaţie 10.2.2 (1) În general, dispersia σ 2 a erorilor de regresie nu este cunoscută a priori. În
cazul în care aceasta este cunoscută, atunci în loc de (10.2.16) şi (10.2.17) am avea:

β“0 − β0 β“1 − β1
q 2
∼ N (0, 1) şi σ ∼ N (0, 1). (10.2.20)
σ 1n + xs2 sx
x

În acest caz, intervalele de încredere pentru β0 şi β1 vor fi similare cu cele din relaţiile (10.2.18) şi
(10.2.19), cu diferenţa că t1− α2 ; n−2 este înlocuit prin z1− α2 . Oricum, pentru n suficient de mare, valorile
t1− α2 ; n−2 şi z1− α2 sunt foarte apropiate.
(2) Coeficientul de determinare R2 (= r2 ) se poate calcula şi folosind următoarea formulă:

s2y/x
R2 = 1 − , (10.2.21)
s2y

unde
1 n 1 n
s2y/x = ∑ (yi − β“0 − β“1 xi )2 , s2y = ∑ (yi − y)2 .
n − 1 i=1 n − 1 i=1
În analiza regresională, coeficientul R2 este folosit pentru a determina cât de bine poate fi construită o
valoare prezisă pe baza valorilor independente.
10.2 Regresie liniară simplă 193

10.2.2 Validarea parametrilor

Test statistic pentru β1

Mai jos prezentăm testul ce verifică dacă β1 ia o valoare dată β10 sau nu, la un nivel de semnificaţie α.
Dispersia erorilor de regresie este necunoscută.
Testăm
(H0 ) : β1 = β10 versus (H1 ) : β1 6= β10 .
Considerăm statistica
β“1 − β1
T= σ
b
,
sx
care urmează repartiţia t(n − 2). Etapele testului sunt următoarele:
• Calculăm valoarea critică
β“1 − β10
T0 = σ
b
.
sx
• Calculăm cuantila de ordin 1 − pentru repartiţia t cu (n − 2) grade de libertate, t1− α2 ; n−2 ;
α
2
• Dacă
|T0 | < t1− α2 ; n−2 , atunci acceptăm ipoteza (H0 );
Dacă
|T0 | ≥ t1− α2 ; n−2 , atunci acceptăm ipoteza (H1 );
Observaţie 10.2.3 (1) O ipoteză alternativă poate fi considerată şi una dintre următoarele:
(H1 )s : β1 < β10 , (H1 )d : β1 > β10 .
(2) Dacă β10 = 0, atunci ipoteza alternativă β1 6= 0 este ipoteza că între x şi y există o dependenţă liniară.

Test statistic pentru β0

Mai jos prezentăm testul ce verifică dacă β0 ia o valoare dată β0∗ sau nu, la un nivel de semnificaţie α.
Dispersia erorilor de regresie este necunoscută.
Testăm
(H0 ) : β0 = β0∗ versus (H1 ) : β0 6= β0∗ .
Considerăm statistica
β“0 − β0
T= q 2
∼ t(n − 2),
b 1n + xs2
σ
x

care urmează repartiţia t(n − 2). Etapele testului sunt următoarele:


• Calculăm valoarea critică
β“0 − β ∗
T0 = q 0 2 ∼ t(n − 2).
σb 1n + xs2
x

• Calculăm cuantila de ordin 1 − pentru repartiţia t cu (n − 2) grade de libertate, t1− α2 ; n−2 ;


α
2
• Dacă
|T0 | < t1− α2 ; n−2 , atunci acceptăm ipoteza (H0 );
Dacă
|T0 | ≥ t1− α2 ; n−2 , atunci acceptăm ipoteza (H1 );
Observaţie 10.2.4 De asemenea, teste unilaterale pot fi considerate şi în cazul testării valorii lui β0 .
În cazul în care σ 2 este cunoscut a priori atunci, graţie relaţiilor (10.2.20), putem utiliza testul Z pentru
testarea ipotezelor de mai sus, atât pentru β0 , cât şi pentru β1 .
194 Capitolul 10. Regresie

10.3 Predicţie prin regresie


[Pe scurt, predicţia prin regresie este precum ai conduce maşina legat la ochi, ghidat de un copilot care
priveşte doar în lunetă]

În anumite cazuri, putem folosi regresia în predicţia unor valori ale variabilei dependente. De exemplu,
putem prezice temperatura într-un anumit oraş plecând de la observaţiile temperaturilor din oraşele
învecinate. Regresia poate fi utilizată pentru predicţie după cum urmează. Să presupunem ca datele pe
care le deţinem, {(xi , yi }i=1, n , pot fi modelate de o dreaptă de regresie de forma (10.2.5). Dată fiind o
valoarea x p ce nu se află printre valorile xi , dar este o valoare cuprinsă între valorile extreme ale variabilei
independente, xmin şi xmax , dorim să prezicem valoarea răspuns,

y p = β0 + β1 x p + ε p .

Dacă β“0 şi β“1 sunt estimaţiile pentru parametrii de regresie β0 , respectiv, β1 , atunci valoarea prezisă
pentru y p pentru un x p observat va fi o valoare ybp de pe dreapta de regresie, dată de formula:

ybp = β“0 + β“1 x p . (10.3.22)

Un interval de încredere pentru y pentru un x p dat, la nivelul de senificaţie α (x p ∈ [xmin , xmax ]) este:
ñ ô
1 (x p − x)2 1 (x p − x)2
ybp − t1− α2 ; n−2 σ
b 1+ + , ybp + t1− α2 ; n−2 σ
b 1+ + . (10.3.23)
n s2x n s2x

Observaţie 10.3.1 (1) De notat faptul că este foarte important ca x p să fie o valoare cuprinsă între xmin
şi xmax . Dacă se foloseşte formula (10.3.22) şi pentru valori ale lui x în afara range-ului valorilor predictor
pentru x, atunci erorile de de aproximarea a lui y cu ybp pot fi foarte mari. De exemplu, dacă în Figura 10.4
(a) am folosi doar primele 9 puncte pentru a construi un model de regresie, atunci acesta poate fi utilizat
doar pentru predicţia valorilor variabilei y pentru orice x în acest range, i.e. x ∈ [0, 10]. Dacă, folosind
dreapta de regresie găsită anterior, am încerca o predicţie pentru x = 19, atunci am găsi că yb(19) ≈ 10, pe
când valoarea observată este y(19) ≈ 6.5, ceea ce determină o eroare foarte mare de aproximare. Mai
mult, dacă ţinem cont şi de următoarele valori observate (vezi Figura 10.4(b)), atunci curba de regresie
pare să nu fie o dreaptă.

Figura 10.4: Predicţie prin extrapolare.


10.4 Exerciţii rezolvate 195

Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale variabilelor independente
ce ies din range se utilizează termenul de prognoză (en., forecasting). Aceasta este folosită des în analiza
seriitor de timp.
(2) Valoarea prezisă ybp nu este una stabilită cu exactitate, ci este doar o medie aşteptată a valorilor
lui y pentru un x p dat. În cazul în care R2 = 1 (coeficientul de determinare), atunci valoarea pentru y
va fi prezisă fără eroare, deoarece toate punctele se află pe dreapta de regresie. În general, punctele
bidimensionale (x, y) se află împrăştiate în jurul dreptei de regresie.
(3) Valoarea ybp este determinată doar pe baza selecţiei date, de aceea, pentru a verifica dacă această valoare
poate fi extrapolată la întreaga populaţie este nevoie de inferenţă statistică (test statistic). Prezentăm, în
continuare, un test ce compară valoarea ybp cu o constantă dată.
Testăm
(H0 ) ybp = y0 versus (H1 ) ybp 6= y0 .
Etapele testului sunt următoarele:
• Estimăm ybp utilizând formula (10.3.22).
• Considerăm statistica
ybp − y
T= q 2
∼ t(n − 2);
σb 1 + 1n + (x ps−x)
2
x

ybp − y0
• Calculez valoarea T0 = q ;
1 (x p −x)2
σ 1 + n + s2
b
x
• Dacă
|T0 | < t1− α2 ; n−2 , atunci acceptăm ipoteza (H0 );
Dacă
|T0 | ≥ t1− α2 ; n−2 , atunci acceptăm ipoteza (H1 );
(4) În concluzie, regresia este o unealtă dibace pentru predicţie. Economiştii care o utilizează pot prezice
cu succes chiar 10 dintre ultimele 2 recesiuni!
Observaţie 10.3.2 Până acum am văzut cum putem estima valoarea lui y folosind pe x. În unele cazuri,
putem inversa rolurile lui x şi y, şi putem vorbi astfel de regresie a lui x în raport cu y. De exemplu,
în Exerciţiul 10.4.1 am putea estima notele la Probabilităţi în funcţie de notele la Statistică. Formulele
obţinute pentru dreapta de regresie a lui x în raport cu y sunt cele găsite anterior pentru dreapta de regresie
a lui y în raport cu x, în care rolurile lui x şi y sunt inversate.

10.4 Exerciţii rezolvate


Exerciţiu 10.4.1 Dorim să determinăm dacă există vreo corelaţie între punctajele la examenul de
Probabilităţi şi cele de la Statistică obţinute de studenţii unui an de studiu. În acest sens, au fost observate
notele obţinute de 10 studenţi la aceste două discipline şi au fost trecute în Tabelul 10.1 de mai jos. Se
cere:
(a) Stabiliţi dacă există o legătură puternică între aceste note (r şi R2 );
(b) Determinaţi dreapta de regresie a notelor de la Statistică în raport cu notele la Probabilităţi şi
desenaţi-o în acelaşi sistem de axe ca şi notele obţinute (scatter plot).
(c) Testaţi dacă există sau nu vreo corelaţie între notele de la Statistică şi Probabilităţi (α = 0.05).

Student A B C D E F G H I J
Probabilităţi 82 36 72 58 70 48 44 94 60 40
Statistică 84 42 50 64 68 54 46 80 60 32

Tabela 10.1: Notele la Statistică şi Probabilităţi.


196 Capitolul 10. Regresie

R: (a) Calculăm r cu formula lui Pearson. Obţinem:


cove (x, y)
r= = 0.8677.
sx · sy
Coeficientul de determinare este R2 = r2 = 0.7528, deci o tărie a legăturii nu foarte bună.
(b) Folosind formulele pentru coeficienţii de regresie, găsim că

β“0 = 10.3816 şi β“1 = 0.7553.


Aproximarea dreptei de regresie va fi y = 0.7528 x + 12.5297 (dreapta desenată cu roşu în Figura 10.5).
(c) Ipotezele de verificat sunt
(H0 ) : P şi S nu sunt corelate vs. (H1 ) : P şi S sunt corelate
echivalentu cu
(H0 ) : ρ =0 vs. (H0 ) : ρ 6= 0.
Folosind testul pentru coeficientul de corelaţie ρ, găsim că
T0 = 4.9361, t0.975,8 = 2.3060,
de unde deducem că ipoteza nulă este respinsă, deci P şi S sunt corelate (adică, valoarea observată pentru
r este semnificativă).

Figura 10.5: Notele şi dreapta de regresie.


Exerciţiu 10.4.2 Considerăm şirul de date:

x = 0.3 0.8 1.2 1.6 2.1 2.4 2.7


y = 3.52 4.53 5.58 6.62 8.27 10.18 11.80

Să se studieze existenţa unei dependenţe între x şi y de forma y = a eb x .

R: Calculăm ln y. Obţinem:

ln y = 1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681

Se observă că r = 0.9988 ≈ 1 (coeficientul de corelaţie între x şi ln y), de unde bănuim că e posibil să avem
o regresie liniară între variabilele x şi ln y. Estimăm coeficienţii de regresie ai lui ln y faţă de x şi găsim:
βˆ0 = 1.1074, βˆ1 = 0.4980. Aşadar, ln y = 0.4980 x + 1.1074, de unde y = e1.1074 e0.4980 x ≈ 3 ex/2 . În
Figura 10.6 am reprezentat grafic datele observate şi aproximările lor.
10.4 Exerciţii rezolvate 197

Figura 10.6: Aproximarea datelor din Exerciţiul 10.4.2


Exerciţiu 10.4.3 Tabelul de mai jos conţine calificativele obţinute de doi elevi de clasa I la cele 9
discipline şcolare.
Discipline A B C D E F G H I
elev I B FB FB B B FB S I FB
elev II S I B FB FB B B S B
(FB = "foarte bine", B = "bine", S = "suficient", I = "insuficient".)
Dorim să stabilim o posibilă legătură între cele două seturi de calificative. Calculaţi un coeficient de
corelaţie potrivit la nivelul de semnificaţie α = 0.05. Comentaţi rezultatul obţinut.
R: Variabilele pentru care avem valorile din tabel sunt de tip calitativ. Pentru a calcula un coeficient de
corelaţie între cele două seturi, avem două variante: ori (I) calculăm coeficientul de corelaţie Pearson
pentru valorile numerice atribuite datelor, sau (II) calculăm coeficientul de corelaţie Spearman.
(I) Atribuim valori numerice datelor, astfel: I = 1, S = 2, B = 3, FB = 4. Datele devin
Discipline A B C D E F G H I
elev I 3 4 4 3 3 4 2 1 4
elev II 2 1 3 4 4 3 3 2 3
Coeficientul de corelaţie Pearson pentru aceste seturi de date este rP = 0.0271. Pentru a testa semnificaţia
sa, folosim testul pentru coeficientul de corelaţie Pearson. Ipotezele de verificat sunt

(H0 ) : rP nu este semnificativ vs. (H1 ) : rP este semnificativ

echivalent cu
(H0 ) : ρ =0 vs. (H0 ) : ρ 6= 0.
Folosind testul pentru coeficientul de corelaţie ρ, găsim că

T0 = 0.0718, t0.975,7 = 2.3646,

de unde deducem că ipoteza nulă este admisă, deci valoarea observată pentru rP nu este semnificativă
statistic.
(II) Pentru a determina coeficientul de corelaţie Spearman, determinăm mai întâi rangurile observaţiilor
în fiecare set. Acestea sunt (ordonăm crescător începând cu I şi terminând cu FB. Pentru valori egale,
rangul atribuit este media rangurilor valorilor egale):

Discipline A B C D E F G H I
elev I 4 7.5 7.5 4 4 7.5 2 1 7.5
elev II 2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5
198 Capitolul 10. Regresie

Calculăm coeficientul de corelaţie Pearson pentru valorile numerice şi obţinem rS = −0.0421. Acesta
este coeficientul de corelaţie Spearman. Pentru a testa semnificaţia sa, folosim testul pentru coeficientul
de corelaţie Pearson. Ipotezele de verificat sunt
(H0 ) : rS nu este semnificativ vs. (H1 ) : rS este semnificativ
echivalent cu
(H0 ) : ρS = 0 vs. (H0 ) : ρS 6= 0.
Folosind testul pentru coeficientul de corelaţie ρ, găsim că
T0 = −0.1114, t0.975,7 = 2.3646,
de unde deducem că ipoteza nulă este admisă, deci valoarea observată pentru r nu este semnificativă
statistic.
În concluzie, calificativele obţinute de cei doi elevi nu sunt corelate.

10.5 Exerciţii propuse


Exerciţiu 10.5.1 Datele din tabelul următor reprezintă o selecţie de observaţii asupra variabilei X.
X 0 1 2 5 7 9 10 11 12 15 20
Y 21 1
Completaţi în tabel un set de valori pentru Y în cazul în care:
(a) coeficientul de corelaţie Spearman este −1,
(b) coeficientul de corelaţie Pearson este −1.

Exerciţiu 10.5.2 Un student ia cu împrumut o carte de la bibliotecă şi observă că pagina de interes este
ruptă pe alocuri. Totuşi, poate citi textul din Figura 10.7. Se cere să se reconstruiască pasajul de text
(i.e., determinaţi y şi dreapta de regresie a lui x faţă de y). De asemenea, calculaţi coeficientul empiric de
corelaţie r şi comentaţi asupra aproximării datelor de seleţie prin dreptele de selecţie.

Figura 10.7: Fragment incomplet dintr-un text


Exerciţiu 10.5.3 Tabelul 10.2 conţine calificativele obţinute de un elev de clasa I la cele 9 discipline, în
fiecare dintre cele două semestre. Să se găsească o măsură a legăturii dintre cele două seturi de calificative
(e.g., coeficientul de corelaţie Spearman).
Discipline A B C D E F G H I
Sem. I FB FB B FB B B B S FB
Sem. II B B B FB FB S B S FB

Tabela 10.2: Calificative din anul I de studiu


Exerciţiu 10.5.4 Se dau următoarele date:
(a) Testaţi dacă ρ = 0 (coeficientul de corelaţie teoretic).
(b) Este faptul că x şi y sunt legate prin relaţia y = x2 în contradicţie cu rezultatul de la punctul (a) (datele
sunt perfect necorelate)?
(c) Calculaţi coeficientul de corelaţie Spearman.
10.5 Exerciţii propuse 199

x −3 −2 −1 0 1 2
y 9 4 1 0 1 4

Exerciţiu 10.5.5 Suntem interesaţi în determinarea unei legături între înălţime şi mărimea la pantof.
Datele din tabelul de mai jos reprezintă observaţii asupra înălţimilor (H) şi a mărimilor la pantof (M)
pentru 10 bărbaţi, aleşi la întâmplare.
H 1.75 1.70 1.80 1.65 1.83 1.73 1.86 1.65 1.68 1.82
M 43 41.5 44 40.5 44.5 41 44.5 39.5 40 43.5
(a) Calculaţi coeficientul de corelaţie Pearson dintre înălţime şi mărimea la pantof. Ce procent din valorile
lui M sunt determinate de valorile lui H
(b) Determinaţi o aproximare pentru dreapta de regresie a lui M faţă de H.
(c) Obţineţi o predicţie a mărimii la pantof pentru un bărbat cu înălţimea 1.78.
3
(d) La nivelul de semnificaţie α = 0.05, testaţi ipoteza că panta dreptei de regresie este .
4
Exerciţiu 10.5.6 Fie şirul de date:

u = 1.0 1.5 2.0 2.5 3.0 3.5 4.0


v = 1.5 4.5 7.5 12.5 17.5 24.5 32.5

Să se studieze existenţa unei dependenţe între u şi v de forma v = a u2 + b.


Exerciţiu 10.5.7 În tabelul următor, se dau câte 5 valori pentru două variabile x şi y, unde y este variabila
independentă. Determinaţi o dreapta de regresie potrivită pentru a calcula
(i) valoarea lui x când y = 2.5;
(ii) valoarea lui y când x = 50;
(iii) Putem prezice valoarea lui y pentru x = 75?

x 46 55 41 58 53
y 1.7 2.1 1.5 2.9 1.9

Exerciţiu 10.5.8 Se măsoară viteza unei maşini, v, în primele 10 secunde după aceasta a început să
accelereze. Aceste date sunt înregistrate în Tabelul 10.8.
t 0 1 2 3 4 5 6 7 8 9 10
v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Figura 10.8: Viteza unei maşini în primele 10 secunde după plecarea de pe loc
Se cere:
(a) Desenaţi diagrama scatter plot;
(b) Determinaţi dreapta de regresie a lui v faţă de t;
(c) Calculaţi coeficientul de corelaţie empirică şi comentaţi asupra validităţii aproximării datelor cu
dreapta de regresie.
Exerciţiu 10.5.9 Dreapta de regresie a variabilei y faţă de variabila x este y = 2 x − 6. Determinaţi
condiţiile în care dreapta de regresie a lui x faţă de y este x = 0.5 y + 3.
Exerciţiu 10.5.10 Tabelul 10.3 conţine numărul de absenţe (A) la Statistică şi notele corespunzătoare
(N) a 15 studenţi.
A 3 1 4 12 11 3 5 2 9 6 4 6 7 6 14
N 9.00 9.50 8.75 4.75 5.50 8.50 6.75 8.25 5.50 6.75 8.00 7.75 6.00 7.00 3.50

Tabela 10.3: Tabel cu absenţe şi note la Statistică.


200 Capitolul 10. Regresie

(a) Calculaţi coeficientul de corelaţie Pearson. Care este semnificaţia acestei valori referitor la relaţia
dintre absenţe şi note?
(b) Determinaţi dreapta de regresie a lui N faţă de A şi desenaţi-o în acelaşi sistem de axe cu datele din
tabel.
(c) Testaţi, la un nivel de semnificaţie α = 0.05, dacă există dovezi suficiente pentru a afirma că între
numărul de absenţe şi notele obţinute există o corelaţie.
Exerciţiu 10.5.11 În Tabelul 10.4 datele reprezintă înălţimile (H) şi masele corporale (M) a 10 fete
dintr-o clasă a unui liceu.
H 179.6 166.8 163.1 180.0 158.4 166.5 165.8 168.1 175.9 160.7
M 61.2 48.2 46 64.4 46.3 54.7 51.4 55.3 65.3 47.9

Tabela 10.4: Înalţimea şi masa corporală a 10 eleve dintr-o clasă.


Suntem interesaţi în prezicerea masei corporale, ştiind înalţimea unei eleve.
(a) Desenaţi diagrama scatter plot a lui H versus M. Bazându-vă pe această diagramă, consideraţi că
metoda regresiei liniare este potrivită în acest caz?
(b) Calculaţi estimaţii ale parametrilor (β0 şi β1 ) de regresie liniară şi reprezentaţi grafic dreapta de
regresie liniară.
(c) Obţineţi o estimare nedeplasată pentru σ 2 .
(d) Testaţi ipoteza nulă (H0 ) : β1 = 0.9.
11. Anexa

Tabela 11.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul afiseaza cuantila zα pentru care
P(X ≤ zα ) = α, unde X ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα .
202 Capitolul 11. Anexa

1 x − t2
Z
Tabela 11.2: Tabel cu valori ale funcţiei lui Laplace, Θ(x) = e 2 dt, x ∈ R.
2π −∞
Pentru a calcula Θ în valori negative, folosim faptul că Θ(−x) = 1 − Θ(x), ∀x > 0
Pentru x < −3, Θ(x) ≈ 0, iar pentru x > 3, Θ(x) ≈ 1.
Fournit les quantiles xp tels que
P(X≤xp )= p
pour X ∼ χ2n
203

n/p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995
n
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
1
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,2
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,3
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2

Tabela 11.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul afişează cuantila χα,
2
n
2 ) = α, unde X ∼ χ 2 (n).
pentru care P(X ≤ χα, n
t-distribution quantiles
204 Capitolul 11. Anexa

df 0.900 0.950 0.975 0.990 0.995 0.999


1 3.078 6.314 12.706 31.821 63.657 318.309
2 1.886 2.920 4.303 6.965 9.925 22.327
3 1.638 2.353 3.182 4.541 5.841 10.215
4 1.533 2.132 2.776 3.747 4.604 7.173
5 1.476 2.015 2.571 3.365 4.032 5.893
6 1.440 1.943 2.447 3.143 3.707 5.208
7 1.415 1.895 2.365 2.998 3.499 4.785
8 1.397 1.860 2.306 2.896 3.355 4.501
9 1.383 1.833 2.262 2.821 3.250 4.297
10 1.372 1.812 2.228 2.764 3.169 4.144
11 1.363 1.796 2.201 2.718 3.106 4.025
12 1.356 1.782 2.179 2.681 3.055 3.930
13 1.350 1.771 2.160 2.650 3.012 3.852
14 1.345 1.761 2.145 2.624 2.977 3.787
15 1.341 1.753 2.131 2.602 2.947 3.733
16 1.337 1.746 2.120 2.583 2.921 3.686
17 1.333 1.740 2.110 2.567 2.898 3.646
18 1.330 1.734 2.101 2.552 2.878 3.610
19 1.328 1.729 2.093 2.539 2.861 3.579
20 1.325 1.725 2.086 2.528 2.845 3.552
21 1.323 1.721 2.080 2.518 2.831 3.527
22 1.321 1.717 2.074 2.508 2.819 3.505
23 1.319 1.714 2.069 2.500 2.807 3.485
24 1.318 1.711 2.064 2.492 2.797 3.467
25 1.316 1.708 2.060 2.485 2.787 3.450
26 1.315 1.706 2.056 2.479 2.779 3.435
27 1.314 1.703 2.052 2.473 2.771 3.421
28 1.313 1.701 2.048 2.467 2.763 3.408
29 1.311 1.699 2.045 2.462 2.756 3.396
30 1.310 1.697 2.042 2.457 2.750 3.385
31 1.309 1.696 2.040 2.453 2.744 3.375
32 1.309 1.694 2.037 2.449 2.738 3.365
33 1.308 1.692 2.035 2.445 2.733 3.356
34 1.307 1.691 2.032 2.441 2.728 3.348
35 1.306 1.690 2.030 2.438 2.724 3.340
36 1.306 1.688 2.028 2.434 2.719 3.333
37 1.305 1.687 2.026 2.431 2.715 3.326
38 1.304 1.686 2.024 2.429 2.712 3.319
39 1.304 1.685 2.023 2.426 2.708 3.313
40 1.303 1.684 2.021 2.423 2.704 3.307
∞ 1.282 1.645 1.960 2.326 2.576 3.090
Tabela 11.4: Cuantile pentru repartiţia t(n). Pentru un α şi un n ≥ 1, tabelul afişează cuantila tα, n
pentru care P(X ≤ tα, n ) = α, unde X ∼ t(n). Pentru 0 < α < 1, n ≥ 1, avem că tα, n = −t1−α, n .
205

Tabela 11.5: Cuantile pentru repartitia F (m, n). Pentru un α si un n, tabelul afişează cuantila fα,m, n
pentru care P(X ≤ fα, m, n ) = α, unde X ∼ F (m, n). De asemenea, fα,m, n = 1
f1−α,n, m .
Bibliografie

[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[2] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[3] Gheorghe Ciucu, Virgil Craiu, Teoria estimaţiei şi verificarea ipotezelor statistice, Editura Didactică
şi Pedagogică, Bucureşti, 1968.

[4] Virgil Craiu, Teoria probabilităţilor cu exemple şi probleme, Editura Fundaţiei "Romania de Mâine",
Bucureşti, 1997.

[5] G. Ciucu, V. Craiu, I. Săcuiu, Probleme de teoria probabilităţilor, Ediţia a II-a, Editura Tehnică,
Bucureşti, 1974.

[6] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.

[7] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),
second edition, Springer, 2012.

[8] I. Florescu, C.Tudor, Handbook of Probability, Wiley Handbooks in Applied Statistics, Wiley, 2013.

[9] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, Prentice
Hall, 6th edition, 2004.

[10] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mică enciclopedie de
statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985.

[11] Gheorghe Mihoc, N. Micu, Matematică, elemente de teoria probabilităţilor, Manual pentru clasa a
XII-a, EDP Bucureşti , 1988.

[12] Octavian Petruş, Probabilităţi şi Statistica matematică - Computer Applications, Iaşi, 2000.

[13] Sheldon M. Ross, A First Course in Probability, Eighth Edition, Pearson, 2010.

[14] M.R. Spiegel, L.J. Stephens, Schaum’s Outline of Statistics, McGraw-Hill, 2007.
208 BIBLIOGRAFIE

[15] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum’s Outline Series, 2nd ed.,
The McGraw-Hill Companies, Inc., 1998.

[16] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econometrics, Schaum’s
Outline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002.

[17] Iulian Stoleriu, Statistică prin M ATLAB. MatrixRom, Bucureşti, 2010.

[18] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Mathematics and its
Applications), Springer Verlag, 1987.

[19] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge University
Press, 2001.
Glosar

alegere aleatoare uniformă, 28 cuartile, 74


amplitudinea, 114, 137
aranjamente, 11 date continue, 100, 103
date discrete, 99, 103
box-and-whisker plot, 117 date interval, 100
date raport, 100
câmp clasic de probabilitate, 19 decile, 74
caracteristică, 98 densităţi de frecvenţă, 109
cauzalitate, 177, 179 deplasarea unui estimator, 150
caz favorabil, 20 deranjamente, 11
centile, 74 deviaţie standard de selecţie, 136
clasă mediană, 118 deviaţie standard empirică, 136
clopotul lui Gauss, 80 deviaţia standard, 114
coeficient de aplatizare, 73, 115 diagrama cuantilă-cuantilă, 112
coeficient de asimetrie, 73, 115 diagrama probabilitate-probabilitate, 112
coeficient de corelaţie, 114 dispersia, 114
coeficient de corelaţie empirică, 177 dispersia de selecţie, 135
coeficient de corelaţie teoretic, 176 dispersia empirică, 135, 136
coeficientul de corelaţie Spearman, 180 dispersia teoretică, 134
coeficientul de corelaţie empiric, 112 dispersia teoretică, 71
coeficientul de determinare, 179 dispersie de selecţie modificată, 136
coeficientul de variaţie , 114 distribuţie empirică de selecţie, 104
colectivitate normală, 138
colectivitate statistică, 98 eşantion, 133
combinări, 12 echiprobabile, 22
combinări cu repetiţie, 12 eroare în medie pătratică, 150
corelaţia, 114, 176 eroarea standard, 135
corelaţia empirică, 177 estimator nedeplasat, 150
corelaţia teoretică, 176 eveniment P− nul, 28
corelatie, 175 eveniment aleator, 20
cuantile, 73 eveniment aleator compus, 20
210 GLOSAR

eveniment aleator elementar, 20 predicţie, 194


eveniment contrar, 20 principiul aditivităţii, 7
eveniment imposibil, 20 principiul includerii-excluderii, 8
eveniment sigur, 20 principiul multiplicării, 9
evenimente dependente, 54 probă, 20
evenimente echiprobabile, 21 probabilitate, 22
evenimente incompatibile, 21 probabilitate de risc, 152
evenimente independente, 54 probabilitate subiectivă, 57
experienţă aleatoare, 19 prognoză, 195
extrapolare, 194
recensământ, 101
frecvenţă cumulată, 106 regresie, 185
frecvenţa absolută, 26, 104 regresie liniară simplă, 187
frecvenţa cumulată, 104 regula celor 3σ , 76
frecvenţa relativă cumulată, 104 repartiţia mediei de selecţie, 138
frecvenţa relativă, 104 repartiţia normală standard, 69
frontierele unei clase, 111 repartiţia χ 2 , 82
funcţia de probabilitate (de frecvenţă), 68 repartiţia normală standard, 80
funcţie de repartiţie, 134 riscul beneficiarului, 164
funcţie de repartiţie (cumulată), 75 riscul furnizorului, 164
funcţie de repartiţie complementară, 76
funcţie de repartiţie empirică, 115 scatter plot, 175
schema bilei nerevenite, 35
histogramă, 108 schema bilei revenite, 32
schema lui Poisson, 36
inegalitatea lui Cebîşev, 76 schema multinomială, 34
interval de încredere, 152 selecţie, 101
ipoteză statistică, 163 skewness, 73, 115
spaţiu de selecţie, 19
kurtosis, 73, 115 Statistică, 96
lipsă de memorie, 79, 81 statistică, 133, 134
statistica, 134
media, 113 statistici de ordine, 136
media de selecţie, 134 stem-and-leaf, 106
media empirică, 135
tabel de frecvenţe, 104
media teoretică, 134
teorema limită centrală, 84, 86
media teoretică, 71
test bilateral, 165
mediana, 74
test de concordanţă, 169
metoda Monte Carlo, 29
test statistic, 165
modul, 74
test unilateral dreapta, 165
momente, 113
test unilateral stânga, 165
momentele unei variabilă aleatoare , 72
UMVUE, 151
nivel de semnificaţie, 152, 164
variabilă aleatoare independente, 70
ogivă, 112
variabilă predictor , 175
P-valoare, 164 variabilă răspuns, 175
partiţie, 7 variabilă aleatoare, 63, 98
permutări, 9 variabila aleatoare standardizată, 72
permutări cu repetiţie, 10 variabile aleatoare identic repartizate, 83
populaţie statistică, 98

S-ar putea să vă placă și