Biostatistique Tous Les Cours s2
Biostatistique Tous Les Cours s2
D ÉPARTEMENT G.I.S.
Statistiques inférentielles
Julien JACQUES
http ://labomath.univ-lille1.fr/∼jacques/
2
Table des matières
2 Estimation 19
2.1 Préambule : étude des statistiques X̄ et V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1 Etude de la statistique X̄ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Etude de la statistique V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.3 Définition des lois du χ2 , de Student et de Fisher-Snedecor . . . . . . . . . . . . . . . . . . 21
2.1.4 Cas des échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Notion d’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Qualité d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Estimateur exhaustif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Estimation sans biais de variance minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7 Estimation par intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7.1 Intervalle de confiance sur l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7.1.1 Intervalle de confiance sur l’espérance d’une loi normale avec variance connue . . 26
2.7.1.2 Intervalle de confiance sur l’espérance d’une loi normale avec variance inconnue . 27
2.7.1.3 Si la loi de X n’est pas une loi normale . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.2 Intervalle de confiance sur la variance d’une loi normale . . . . . . . . . . . . . . . . . . . 28
2.7.2.1 Intervalle de confiance sur la variance d’une loi normale lorsque µ est connue . . 28
2.7.2.2 Intervalle de confiance sur la variance d’une loi normale lorsque µ est inconnue . 28
3
4 TABLE DES MATIÈRES
3 Tests statistiques 33
3.1 Théorie des tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.1 Introduction : test sur l’espérance d’une loi normale de variance connue . . . . . . . . . . . 33
3.1.2 Vocabulaire des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.3 Probabilité d’erreur et risque, puissance de test . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.4 Choix optimal de la statistique de test et de la région de rejet . . . . . . . . . . . . . . . . . 35
3.1.5 Utilisation de la puissance de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.6 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.7 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Tests sur une population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Test sur le caractère central d’une population . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1.1 Cas d’un échantillon grand ou gaussien . . . . . . . . . . . . . . . . . . . . . . . 37
Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est connue . . . . . . . . . . . . . 37
Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est inconnue . . . . . . . . . . . . 38
3.2.1.2 Cas d’un petit échantillon non gaussien . . . . . . . . . . . . . . . . . . . . . . . 38
Statistique de rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Test des rangs signés (Wilcoxon à un échantillon) . . . . . . . . . . . . . . . . . . . 39
Test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Test des scores normaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Test sur la variance d’une population gaussienne . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2.1 Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ connue . . . . . . . . . . . 40
3.2.2.2 Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ inconnue . . . . . . . . . . 40
3.2.2.3 Tests unilatéraux sur la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3 Test sur une proportion pour un grand échantillon . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3.1 Test H0 : p = p0 contre H1 : p 6= p0 . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3.2 Tests unilatéraux sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.4 Test de l’aléatoire d’un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.4.1 Test de corrélation des rangs de Spearman . . . . . . . . . . . . . . . . . . . . . 41
3.2.4.2 Test des changements de signes . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.5 Tests d’ajustement à une loi de probabilité spécifiée . . . . . . . . . . . . . . . . . . . . . . 42
3.2.5.1 Quelques méthodes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
La forme de l’histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
La nature du phénomène . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Utilisation des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.5.2 Ajustement graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.5.3 Test d’ajustement du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Si des estimations sont nécessaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Effectif minimal d’une classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.5.4 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.5.5 Test de Shapiro-Wilk (normalité) . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.6 Test d’indépendance entre deux variables aléatoires . . . . . . . . . . . . . . . . . . . . . . 44
3.2.6.1 Cas de deux variables aléatoires quantitatives . . . . . . . . . . . . . . . . . . . . 44
Test de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Test de corrélation des rangs de Spearman . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.6.2 Cas de deux variables aléatoires qualitatives : Test du χ2 . . . . . . . . . . . . . . 45
3.2.6.3 Cas de deux variables aléatoires binaires et de petits échantillons : Test exact de
Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.6.4 Cas d’une variable qualitative et d’une variable quantitative : ANOVA à 1 facteur 46
Test de l’homogénéité des variances : test de Levene. . . . . . . . . . . . . . . . . . 47
Comparaison des moyennes deux à deux . . . . . . . . . . . . . . . . . . . . . . . 47
3.3 Tests de comparaison de deux populations indépendantes . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.1 Cas de deux échantillons gaussiens ou de grandes tailles . . . . . . . . . . . . . . . . . . . 48
3.3.1.1 Test de comparaison des variances de Fisher . . . . . . . . . . . . . . . . . . . . 48
3.3.1.2 Test de comparaison des moyennes de Student avec variances égales . . . . . . . 48
3.3.1.3 Test de comparaison des moyennes avec variances différentes . . . . . . . . . . . 49
3.3.1.4 Échantillons non gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Échantillons de petites tailles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2.1 Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Cas des ex-æquo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2.2 Test U de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2.3 Test de la médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2.4 Test des scores normaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2.5 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.3 Cas de deux échantillons dépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.4 Tests de comparaison de deux proportions, pour de grands échantillons . . . . . . . . . . . 51
3.4 Tests de comparaison de K populations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.1 Tests de comparaison de K populations indépendantes . . . . . . . . . . . . . . . . . . . . 52
3.4.1.1 Échantillons gaussiens ou de grandes tailles : ANOVA 1 facteur . . . . . . . . . . 52
3.4.1.2 Échantillons de petites tailles : test de Kruskal-Wallis . . . . . . . . . . . . . . . 52
3.4.2 Tests de comparaison de K populations dépendantes (cas des mesures répétées) . . . . . . . 52
3.4.2.1 Échantillons gaussiens ou de grandes tailles : ANOVA 2 facteurs . . . . . . . . . 52
Estimation des effets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.2.2 Échantillons de petites tailles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Test de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Test de Quade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Test de Page . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4 Annexes 57
4.1 Rappel sur les convergences des suites de variables aléatoires . . . . . . . . . . . . . . . . . . . . . 57
4.1.0.3 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.0.4 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.0.5 Théorème centrale limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 Tables statistiques pour test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.1 Test des rangs signés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.2 Test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.3 Test de Wilcoxon (2 populations) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.4 Test de Shapiro-Wilk (normalité) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.5 Test de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6 TABLE DES MATIÈRES
Chapitre 1
La problématique de l’inférence statistique consiste, à partir d’un échantillon de données provenant d’une
population de loi de probabilité inconnue, à déduire des propriétés sur cette population : quelle est sa loi (problème
d’estimation, chapitre 2), comment prendre une décision en contrôlant au mieux le risque de se tromper (problème
de test, chapitre 3).
1.1 Échantillon
Un échantillonnage correspond à des tirages indépendants et équiprobables d’individus au sein de la population.
On associe alors à chaque individu i une variable aléatoire Xi , dont on observe une seule réalisation xi .
Définition 1.1.1. Un échantillon X1 , . . . , Xn est un n-uplet (X1 , . . . , Xn ) de variables aléatoires Xi indépen-
dantes et identiquement distribuées (même loi).
Par simplicité nous utiliserons régulièrement le terme échantillon pour signifier à la fois l’échantillon d’obser-
vations x1 , . . . , xn et le n-uplet aléatoire (X1 , . . . , Xn ).
Il est fréquent de caractériser un échantillon par des quantités telle que la moyenne, variance, etc. Ces quantités sont
elles-mêmes des variables aléatoires fonction de X1 , . . . , Xn .
Définition 1.1.2. Une statistique T est une variable aléatoire fonction (mesurable) de X1 , . . . , Xn .
7
8 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES
Les 1er et 3ème quartiles Q1 et Q3 sont définis par F (Q1 ) = 0.25 et F (Q3 ) = 0.75. L’intervalle inter-quartile
[Q1 , Q3 ] contient donc 50% des données.
Bien que l’intervalle inter-quartile soit moins sensible aux valeurs extrêmes que l’étendue, il n’est pas très souvent
utilisé. On utilise plus souvent la variance empirique V 2 et sa racine carré V l’écart-type :
n n
1X 1X 2
V2 = (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i
Il vaut 3 pour une distribution gaussienne. Si la distribution est plus aplatie qu’une gaussienne, le coefficient d’apla-
tissement sera supérieur à 3.
Attention : certains logiciels et/ou auteurs soustraient 3 à γ2 pour le comparer directement à 0.
10 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES
Une boîte à moustaches (figure 1.1) résume la série de données à l’aide des caractéristiques suivantes :
– la médiane est le trait centré au milieu de la boîte,
– la boîte est formée par les 1er quartile q1 et 3ème quartile q3 ,
– les moustaches sont définies par les valeurs observées les plus extrêmes dans l’intervalle [q1 − 1.5(q3 −
q1 ), q3 + 1.5(q3 − q1 )],
– les ◦ représentent les valeurs extrêmes non contenues dans l’intervalle précédent.
70
60
50
40
30
20
Cette représentation permet également de comparer facilement la distribution de différentes variables, ou encore de
la même variable pour différentes modalités d’une variable qualitative (figure 1.2). On remarque ainsi que parmi les
clients de la banque allemande les femmes divorcées, séparées ou mariées ainsi que les hommes mariés ou veufs
sont généralement moins âgés que les hommes célibataires, divorcés ou séparés.
1.3.3.2 Histogramme
Un histogramme est un graphique en barres verticales accolées obtenu après découpage en classes de l’intervalle
de variation des données. La surface de chaque barre est proportionnelle à la fréquence de la classe. Pour des classes
de même largeur (souvent utilisées dans les logiciels), c’est donc la hauteur de la barre qui est proportionnelle à la
fréquence de la classe. La surface de l’ensemble des barres vaut 1.
L’histogramme d’une série de données peut être vue comme une version discontinue empirique de la courbe de
densité d’une variable aléatoire. Ainsi, sa visualisation permet d’avoir un avis sur la nature de la distribution des
données. Par exemple (figure 1.3), la variable âge ne semble pas suivre une loi normale.
Attention : sur un histogramme figurent en ordonnées des fréquences et non pas des effectifs, comme ont tendance
à le faire beaucoup de logiciels !
1.3. DESCRIPTION D’UNE VARIABLE 11
70
60
50
40
30
20
F IG . 1.2 – Boîte à moustaches illustrant la distribution des âges des clients suivant les différents statut maritaux.
0.02
0.01
0.00
20 30 40 50 60 70
data[, 13]
ecdf(x)
1.0
0.8
0.6
Fn(x)
0.4
0.2
0.0
20 30 40 50 60 70 80
Nj = #{Xi : Xi = mj , 1 ≤ i ≤ n}
Pp
le nombre d’occurrences (effectif) de la modalité mj dans l’échantillon ( j Nj = n), et Fi la fréquence corres-
pondante :
Ni
Fi = .
n
A92
A91
A94
A93
5000
0
10 20 30 40 50 60 70
data[, 2]
Coefficient de corrélation linéaire L’indice de liaison utilisé est le coefficient de corrélation linéaire, défini
par :
VXY
ρXY =
VX VY
où VX et VY sont les écart-types des variables X et Y , et VXY est la covariance empirique entre X et Y , définie
par :
n n
1X 1X
VXY = (Xi − X̄)(Yi − Ȳ ) = Xi Yi − X̄ Ȳ
n i=1 n i=1
Le coefficient de corrélation (comme la covariance) est symétrique (ρXY = ρY X ) et prend ses valeurs entre −1 et
+1.
1.4. DESCRIPTION DE PLUSIEURS VARIABLES 15
Attention : si les variables X et Y sont indépendantes, leur covariance est nulle et donc leur coefficient de corréla-
tion linéaire également. Mais la réciproque est fausse !
Coefficient de corrélation partielle Il arrive parfois que l’on constate une corrélation étonnante entre deux
variables. Ce phénomène arrive lorsque la corrélation est en fait due à une troisième variable. On cite souvent
l’exemple du nombre de maladies mentales (X) corrélé positivement avec le nombre de postes de radio (Y ), cor-
rélation purement fictive étant en fait due à une troisième variable non aléatoire, le temps (T ). Pour remédier à ce
phénomène on utilise le coefficient de corrélation partielle (ou conditionnel) de X et Y conditionnellement à T :
ρXY − ρXT ρY T
ρXY ·T = p
(1 − ρ2XT )(1 − ρ2Y T )
Cette formule d’analyse de variance est l’analogue empirique, dans le cas où X est une variable aléatoire qualitative,
de la formule vue en probabilité :
Lorsque aucune liaison n’existe entre les deux variables qualitatives, tous les profils-lignes sont égaux entre eux,
ainsi que tous les profils-colonnes. On a ainsi
Nr· N·c
Nrc = ∀1 ≤ r ≤ R, 1 ≤ c ≤ C.
n
Une mesure de la liaison entre les deux variables peut être faite en évaluant l’écart à cette situation de non liaison,
par l’indice suivant :
R X C 2 " R C #
2
X Nrc − Nr·nN·c X X N2
rc
χ = Nr· N·c
=n −1
r=1 c=1 n r=1 c=1
Nr· N·c
Le χ2 est toujours positif ou nul, et il est d’autant plus grand que la liaison est forte. Malheureusement cet indice
dépend des dimensions R et C ainsi que de l’effectif total n. D’autres indicateurs sont alors utilisés comme :
2
– le Φ2 = χn qui dépend encore de C et de R,
– le C de Cramer s
Φ2
C=
inf (R, C) − 1
qui est compris entre 0 et 1,
– le T de Tschuprow s
Φ2
T =
(R − 1)(C − 1)
qui est compris entre 0 et 1 et est inférieur au C de Cramer.
où Y est le tableau des données centrées, obtenu par Y = AX avec A la matrice n×n de terme général aij vérifiant
aij = 1Ii=j − 1/n.
Propriétés de la matrice de variance :
– Σ est symétrique : Σt = Σ,
– Les valeurs propres de Σ sont positives ou nulles. Lorsqu’il n’existe aucune relation affine presque sûre entre
les composantes du vecteur aléatoire, la matrice Σ est à valeurs propres strictement positives : elle est définie
positive.
18 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES
Chapitre 2
Estimation
19
20 CHAPITRE 2. ESTIMATION
E[χ2n ] = n et V (χ2n ) = 2n
Définition 2.1.2. Soient X et Y deux variables aléatoires indépendantes de lois du χ2n et χ2p . On appelle loi de
Fisher de paramètres n et p, notée Fn,p , la loi de la variable
X
n
F = Y
.
p
p 2p2 (n + p − 2)
E[F ] = pour tout p > 2 et V (F ) = pour tout p > 4.
p−2 n(p − 2)2 (p − 4)
Définition 2.1.3. Soient U une variable aléatoire normale centrée réduite et X une variable aléatoire de loi du
χ2n , indépendante de U . On appelle loi de Student à n degrés de liberté, notée tn , la loi de la variable aléatoire
Tn = √UX
n
n
d’où, en multipliant par σ2 :
n
X Xi − µ 2 n X̄ − µ
( ) = 2 V 2 + ( σ )2
i=1
σ σ √
n
En appliquant le théorème de Cochran sur les formes quadratiques à cette décomposition, on en déduit les deux
théorèmes suivants.
n 2
Théorème 2.1.1. (X1 , . . . , Xn ) est un échantillon gaussien =⇒ σ2 V ∼ χ2n−1 .
De même la fréquence empirique f d’un événement est une bonne estimation de sa probabilité p.
Les variables aléatoires X̄, V 2 et F sont des estimateurs de µ, σ 2 et p.
Définition 2.2.1. On appelle estimateur d’un paramètre θ d’une population, toute fonction
Tn = f (X1 , . . . , Xn )
Un estimateur est une variable aléatoire (c’est une fonction de variable aléatoire).
Il est cependant possible d’utiliser plusieurs estimateurs pour une même quantité (pour une distribution symé-
trique, la médiane est également un estimateur de µ). Nous allons donc présenter dans le paragraphe suivant les
différentes qualités d’un estimateur qui nous guideront dans son choix.
Définition 2.3.1. Un estimateur Tn est faiblement consistant s’il converge en probabilité vers θ quand n tend vers
l’infini
n→∞
∀ǫ > 0 IP(|Tn − θ| ≥ ǫ) −→ 0
Un estimateur Tn est fortement consistant s’il converge presque-sûrement vers θ quand n tend vers l’infini
IP lim Tn = θ = 1
n→∞
On mesure également la précision d’un estimateur Tn par l’erreur quadratique moyenne E[(Tn − θ)2 ], qui se
décompose sous la forme
Ainsi, de deux estimateurs sans biais, le plus performant sera celui de variance minimale. Nous chercherons donc
généralement à utiliser des estimateurs sans biais de variance minimale.
1
Pn
Exemple. On peut montrer que lorsque µ est connue, l’estimateur Vµ2 = n i=1 (Xi − µ)2 est meilleur que S 2 .
Exercice. Proposer 2 estimateurs pour le paramètre d’une loi de Poisson et déterminer le meilleur.
2.4. ESTIMATEUR EXHAUSTIF 23
où f (.; θ) est la densité de la variable aléatoire X1 et IP(Xi = xi ; θ) est la probabilité de l’événement {Xi = xi }
paramétrée par θ.
Soit Tn une statistique fonction de X1 , . . . , Xn de loi g(t, θ) (densité dans le cas continu, P (T = t) dans le cas
discret).
Définition 2.4.2. La statistique T est exhaustive pour θ si
En d’autre terme, elle est exhaustive si la loi de l’échantillon sachant T = t ne dépend pas de θ
Ce qui signifie que si T est connue, l’échantillon n’apportera plus aucune autre information supplémentaire sur
θ.
Pn
Exemple. Pour la loi normale de moyenne connue µ, la statistique T = i=1 (Xi − µ)2 est exhaustive pour σ 2 .
Théorème 2.4.1 (de Darmois). Soit X1 , . . . , Xn un échantillon dont le domaine de définition de la loi ne dépend
pas de θ. Une condition nécessaire et suffisante pour que l’échantillon admette une statistique exhaustive est que la
densité soit de la forme :
Propriété 2.4.1. (i) Si le domaine de définition de la loi de l’échantillon ne dépend pas de θ, In (θ) = nI1 (θ)
(ii) Si la loi de l’échantillon est une loi normale de variance connue, (θ = µ), alors I1 (θ) = σ12
2
(iii) en notant IT (θ) = E ∂lng(t,θ) ∂θ l’information de Fisher apportée par la statistique T , avec g(t, θ) la
densité de T , on a IT (θ) ≤ In (θ). On a égalité si T est exhaustive, et réciproquement si le domaine de
définition de la loi de l’échantillon est indépendant de θ.
La propriété 1 dit que chaque observation a la même importance, ce qui n’est pas le cas lorsque le domaine de
définition dépend de θ, comme pour une loi uniforme sur [0, θ], où la plus grande valeur de l’échantillon apporte
plus d’information que les autres sur θ.
La propriété 2 nous assure l’information apportée par une observation est d’autant plus grande que la dispersion est
petite.
Théorème 2.5.1 (Unicité). S’il existe un estimateur de θ sans biais de variance minimale, il est unique presque
sûrement.
Théorème 2.5.2 (Rao-Blackwell). Soit T un estimateur sans biais de θ et U une statistique exhaustive pour θ.
Alors T ∗ = E[T |U ] est un estimateur sans biais de θ au moins aussi bon que T (d’un point de vue variance).
Théorème 2.5.3. S’il existe une statistique exhaustive U , alors l’unique estimateur T de θ sans biais de variance
minimale ne dépend que de U .
Théorème 2.5.4 (Lehmann-Scheffé). Si T ∗ est un estimateur sans biais de θ dépendant d’une statistique exhaustive
complète U alors T ∗ est l’unique estimateur sans biais de variance minimale. En particulier si l’on dispose d’un
estimateur T sans biais de θ, T ∗ = E[T |U ].
Exemple. Le nombre de bug informatique par semaine d’un logiciel donné suit une loi de Poisson de paramètre
λ. On cherche à évaluer la probabilité de n’avoir aucune panne pendant une semaine P (X = 0) = e−λ . Que
proposez-vous ?
Le résultat suivant nous indique une borne à laquelle ne peut être inférieure la variance d’un estimateur.
1
V (T ) ≥
In (θ)
Définition 2.5.2. Un estimateur qui atteint la borne de Cramer-Rao est dit efficace. Autrement dit, un estimateur
est efficace s’il n’est pas possible de trouver un estimateur sans biais de variance plus faible.
Théorème 2.5.6 (efficacité). – la borne de Cramer-Rao ne peut être atteinte que si la loi de l’échantillon est
de la famille exponentielle :
f (x, θ) = exp[a(x)α(θ) + b(x) + β(θ)]
2.6. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE 25
– dans ce cas il n’existe qu’une seule fonction du paramètre θ (à une transformation linéaire près) qui puisse
être estimée efficacement, c’est
β ′ (θ)
h(θ) = − ′
α (θ)
L’estimateur de h(θ) est alors
n
1X
T = a(Xi )
n i=1
La recherche d’estimateur sans biais de variance minimale passe donc par la recherche d’estimateur exhaustif.
Or cette recherche peut ne pas aboutir, et elle est de plus assez lourde. La méthode du maximum de vraisemblance
est une méthode systématique permettant de trouver des estimateurs.
∂
lnL(X1 , . . . , Xn , θ) = 0
∂θ
∂2
vérifiant ∂θ 2 lnL(X1 , . . . , Xn , θ̂) < 0. Un certain nombre de propriété nous prouve l’intérêt de cette estimateur.
Propriété 2.6.1. (i) S’il existe une statistique exhaustive U , alors l’EMV en dépend.
(ii) Si θ̂ est l’EMV, f (θ̂) est l’EMV de f (θ)
(iii) Il existe une suite θ̂n de racines de l’équation de vraisemblance qui converge presque sûrement vers θ. de
plus, il existe un rang à partir duquel le maximum est atteint.
L 1
(iv) θ̂n −→ N (θ, In (θ) ).
La dernière propriété nous assure que l’EMV est asymptotiquement efficace. Il est donc important d’avoir un
échantillon important pour utiliser cet estimateur.
Lorsque le modèle comporte plusieurs paramètres θ1 , . . . , θp , il sera nécessaire de résoudre le système d’équation
simultanées
∂
lnL = 0 ∀1 ≤ i ≤ p
∂θi
Remarque 2.6.1. – L’équation de vraisemblance n’a pas nécessairement une unique racine.
– La solution de l’équation de vraisemblance n’est pas toujours calculable analytiquement. Dans ce cas, des
algorithmes de recherche de maximum (de type Newton) peuvent être utilisés.
Considérons un estimateur T de θ dont on connait la loi de probabilité. On prendra bien entendu le meilleur
estimateur possible, dès lors que sa loi est connue. Connaissant la loi de T qui dépend de θ, pour une valeur estimée
t de θ il est possible de déterminer un intervalle tel que :
Ainsi, la vraie valeur (inconnue) du paramètre θ sera dans l’intervalle [t1 (t, α), t2 (t, α)] avec une probabilité 1 − α.
On dit que [t1 (t, α), t2 (t, α)] est un intervalle de confiance de niveau 1 − α, que l’on note IC1−α (θ).
A contrario, le risque α est la probabilité pour que l’intervalle de confiance ne comprenne pas θ.
Soit a et b les bornes d’un intervalle de confiance IC1−α (θ) de niveau de confiance 1 − α pour le paramètre θ.
On a :
p(a ≤ θ ≤ b) = 1 − α et donc p(θ < a) + p(θ > b) = α
En posant α = α1 + α2 , il existe une infinité de choix possibles pour α1 et α2 , et donc de choix pour a et b. Nous ne
considérerons que le cas d’un intervalle bilatéral à risques symétriques, pour lesquels le risque est partagé en deux
parts égales α1 = α2 = α2 . Néanmoins, il arrive en pratique que l’on s’intéresse à des risque unilatéraux, mais nous
en parlerons plus en détail dans le chapitre 3 sur les tests statistiques.
Dans la suite de ce chapitre, nous décrivons les intervalles de confiance les plus classiques. Mais il faut garder à
l’esprit que ce ne sont pas les seuls, et que dès lors que l’on connait la loi de l’estimateur, il est possible de donner
un intervalle de confiance.
X̄ − µ
T = ∼ N (0, 1).
√σ
n
En prenant des risques symétriques, on peut lire dans les tables les quantiles u α2 et u1− α2 de la loi normale centrée
réduite d’ordres respectifs α2 et 1 − α2 , tels que :
IP(u α2 ≤ T ≤ u1− α2 ) = 1 − α
ou encore
α
IP(T ≤ u α2 ) = p(T ≥ u1− α2 ) = .
2
La notion de quantile est définie de la façon suivante :
Définition 2.7.1. pour une variable aléatoire continue X, le nombre qα tel que
IP(X ≤ qα ) = α,
Ces quantiles sont notés de différentes façons : uα pour la loi normale, tnα pour la loi de Student à n degrés de
liberté, χnα pour la loi du χ2n , etc.
La figure 2.1 illustre la définition de ces quantiles.
Comme la loi normale est symétrique, on a la propriété suivante :
u1− α2 = −u α2 . (2.1)
2.7. ESTIMATION PAR INTERVALLES 27
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1 α α
2 2
0.05
0
−4 −3 u−2α −1 0 1 u21−α 3 4
2 2
α α
F IG . 2.1 – quantiles d’ordre 2 et 1 − 2 de la loi normale centrée réduite
Ces quantiles sont donnés par les tables statistiques. Par exemple, pour α = 0.05, pour lequel on obtient u α2 =
−1.96.
D’après (2.1),
IP(u α2 ≤ T ≤ u1− α2 ) = 1 − α,
peut s’écrire
IP(u α2 ≤ T ≤ −u α2 ) = 1 − α,
d’où on tire
σ σ
IP(X̄ + u α2 √ ≤ µ ≤ X̄ − u α2 √ ) = 1 − α,
n n
d’où l’intervalle de confiance :
σ σ
IC1−α (µ) = [X̄ + u α2 √ , X̄ − u α2 √ ].
n n
Pour une réalisation numérique x1 , ..., xn du n-échantillon X1 , ..., Xn , on obtient l’intervalle de confiance sur m au
niveau de confiance 1 − α :
σ σ
IC1−α (µ) = [x̄ + u α2 √ , x̄ − u α2 √ ]. (2.2)
n n
2.7.1.2 Intervalle de confiance sur l’espérance d’une loi normale avec variance inconnue
Si la variance σ 2 est inconnue, on utilise a sa place son meilleur estimateur S 2 .
Comme on sait que σn2 V 2 suit une loi du χ2 à n − 1 degrés de liberté, n−1 2
σ2 S aussi.
La statistique que l’on utilise est donc
X̄ − µ
Tn−1 = S .
√
n
on trouve qu’elle suit une loi de Student à n − 1 degrés de liberté, comme rapport d’une loi normale centrée réduite
sur la racine d’un χ2 divisé par son degré de liberté.
Comme précédemment, on obtient l’intervalle de confiance :
S S
IC1−α (µ) = [x̄ + tn−1, α2 √ , x̄ − tn−1, α2 √ ],
n n
α
où tn−1, α2 est le quantile d’ordre 2 de la loi de Student à n − 1 degrés de liberté.
On obtient une estimation numérique de cet intervalle en remplaçant Vµ2 par sa valeur sur le n-échantillon de X
obtenu par expérience.
2.7.2.2 Intervalle de confiance sur la variance d’une loi normale lorsque µ est inconnue
Si µ est inconnue, on utilise l’estimateur de σ 2 :
Pn
(Xi − X̄)2
S 2 = i=1 .
n−1
n−1 2
La propriété qui nous assure que σ2 S suit un loi du χ2n−1 nous permet de construire l’intervalle de confiance :
(n − 1)S 2 (n − 1)S 2
IC1−α (σ 2 ) = [ , ],
χ2n−1,1− α χ2n−1, α
2 2
(n − 1)s2 (n − 1)s2
IC1−α (σ 2 ) = [ , ].
χ2n−1,1− α χ2n−1, α
2 2
Remarque 2.7.2. Ces intervalles de confiance ne sont valables que pour une loi normale. Il n’est pas possible
d’étendre ces résultats au cas d’autre loi comme pour les intervalles de confiance sur la moyenne.
2.7. ESTIMATION PAR INTERVALLES 29
n
suit une loi N (0, 1).
On obtient alors, en fonction des quantiles p(u α2 ≤ T ≤ −u α2 ) = 1 − α, l’intervalle de confiance sur p :
r r
p(1 − p) p(1 − p)
IC1−α (p) = [F + u α2 , F − u α2 ].
n n
Cet intervalle recouvre p avec la probabilité 1 − α, mais il est toutefois inopérant puisque ses bornes dépendent de
p. En pratique, il existe trois façons d’obtenir l’intervalle de confiance. Nous retiendrons celle qui remplace p par
son estimateur F .
Ainsi, on obtient l’intervalle de confiance sur la proportion p en fonction de la valeur f de F sur notre échantillon :
r r
f (1 − f ) f (1 − f )
IC1−α (p) = [f + u α2 , f − u α2 ].
n n
2.7.4 Récapitulatif
Intervalle de confiance d’une moyenne
IC1−α (µ)
loi normale ou n ≥ 30
σ 2 connue σ 2 inconnue
[x̄ + u α2 √σn , x̄ − u α2 √σn ] [x̄ + tn−1, α2 √Sn , x̄ − tn−1, α2 √Sn ]
IC1−α (σ 2 )
loi normale
µ connue µ inconnue
nVµ2 nVµ2 2 2
[ χ2 , α ] [ χ(n−1)s
2 , (n−1)s
χ2
]
n,1− α χ2n , 2 n−1,1− α
2
n−1, α
2
2
IC1−α (p)
np > 5 et n(1 − p) > 5
q q
[f + u α2 f (1−f
n
)
, f − u α
2
f (1−f )
n ]
30 CHAPITRE 2. ESTIMATION
2.8.1.1 Application : estimation bayésienne de la moyenne d’une loi normale de variance connue
On suppose que la loi de l’échantillon conditionnellement à µ est N (µ, σ 2 ), et que la loi a priori de µ est
également une loi normale N (µ0 , σ02 ).
Le calcul de la loi a posteriori donne une loi normale d’espérance et de variance :
σ2 2 σ2 σ02
n µ0 + σ0 X̄ n
E[θ|X1 , . . . , Xn ] = σ 2
2
et V (θ|X1 , . . . , Xn ) = σ2
n + σ0 n + σ02
L’estimateur bayésien de µ, qui est l’espérance a posteriori est donc une moyenne pondérée de l’espérance a priori
et de la moyenne empirique des observations.
Introduisons le concept de précision, comme l’inverse de la variance. La précision a priori sur µ est η1 = σ12 et sur la
0
+η2 X̄
moyenne empirique elle est η2 = σn2 . On voit alors que E[θ|X1 , . . . , Xn ] = η1 ηµ10+η2
et V (θ|X11,...,Xn ) = η1 + η2 .
L’estimateur bayésien de µ est donc la moyenne pondérée des deux estimations (a priori et empirique) pondérées
par leur précision. Si l’information a priori est très précise, les observations n’auront que peu d’influence dans
l’estimateur bayésien. Au contraire si la précision a priori tend vers 0 ou si n tend vers l’infini, l’estimateur bayésien
est l’estimateur classique X̄.
Cette application fonctionne très bien car la loi a posteriori se calcule facilement. Mais pour des lois quel-
conques, les calculs sont généralement beaucoup plus compliqués, et la loi a posteriori doit être estimée par des
algorithmes spécifiques.
La statistique bayésienne peut être vu comme un raffinement de la statistique classique, mais le choix de la loi
a priori peut être très problématique et reste toujours subjectif. Néanmoins, pour les problèmes statistique dans
lesquels on dispose de peu de données (fiabilité de systèmes très rarement défaillant par exemple), l’incorporation
d’une information a priori (« jugement d’expert ») peut s’avérer très intéressante.
où s est une estimation robuste de la dispersion. Toute une famille d’estimateur est ainsi définie en fonction du
choix de h. Pour h(x) = −lnf (x), avec f la densité des données, on retrouve les estimateurs du maximum de
vraisemblance.
#{Xi : Xi ≤ x, 1 ≤ i ≤ n}
Fn (x) = (2.3)
n
est un estimateur de la fonction de répartition F (x) = p(X ≤ t).
C’est une variable aléatoire, en tant que fonction des variables aléatoires X1 , . . . , Xn . A un échantillon d’obser-
vations x1 , . . . , xn correspond une réalisation de cette fonction aléatoire, qui est une fonction en escalier de sauts
1/n.
Théorème 2.9.1 (Glivenko-Cantelli). Soit Fn la fonction de répartition empirique d’un échantillon (X1 , . . . , Xn )
où les Xi ont pour fonction de répartition F . Alors
p.s.
– ∀x ∈ R, Fn (x) −→ F (x)
p.s.
– ||Fn − F ||∞ −→ 0
Preuve. Le premier point est démontré en cours, le second point est admis. Pour un rappel sur les différents modes
de convergence d’une suite de variables aléatoires, se reporter à l’annexe 4.1.
Le second point de ce théorème nous assure que pour une taille assez grande d’échantillon, la fonction de
répartition théorique peut être approximée par la fonction de répartition empirique.
Soit X1 ≤ . . . ≤ Xn un échantillon, rangé dans l’ordre croissant, de la variable aléatoire dont on cherche à estimer
la densité. Sachant que la fonction de densité est la dérivée de la fonction de répartition, on a
F (x + h) − F (x − h)
f (x) = lim ,
h→0 2h
et on peut donc approcher f , pour de petite valeur de h par
F (x + h) − F (x − h) Fn (x + h) − Fn (x − h)
fn (x) ≃ ≃
2h 2h
32 CHAPITRE 2. ESTIMATION
où Fn est la fonction de répartition empirique. En remplaçant Fn par son expression (2.3), on obtient l’estimateur
par fenêtre mobile de la densité
n
1 X1 Xi − x
fn (x) ≃ 1I[−1,1] .
nh i=1 2 h
Le choix du noyau n’est pas d’une importance capitale, au contraire du choix de la taille de la fenêtre h : plus h
est petit, plus les fluctuations sont importantes, plus h est grand, plus le lissage est important. Tout l’intérêt sera
de trouver le meilleur compromis. On recommande généralement le choix de h = sn n−1/5 où sn est l’écart-type
estimé des observations.
Propriétés des estimateurs à noyau fˆn
– estimateur asymptotiquement sans biais : limn→∞ E[fˆn (x)] = f (x) pour tout x ∈ R
– V (fˆn (x)) → 0 si h → 0 et hn → ∞ (h tend vers 0 moins vite que 1/n)
– vitesse de convergence en n−4/5 :
qui est la vitesse optimale pour les estimateurs non-paramétriques, mais qui est plus faible que la vitesse
typique des méthodes paramétriques, généralement n−1 .
Logiciel : l’estimation par noyau se fait sous le logiciel R à l’aide de la fonction density.
Chapitre 3
Tests statistiques
H0 : µ = µ0 contre H1 : µ 6= µ0
X̄ − µ0
T = .
√σ
n
Ainsi, si H0 est vraie, la valeur de cette statistique pour l’échantillon observé devrait appartenir à l’intervalle
[u α2 , u1− α2 ] avec la probabilité 1 − α. Ce qui revient à dire que la réalisation de X̄ appartient à l’intervalle
σ σ
[µ0 + u α2 √ , µ0 + u1− α2 √ ]
n n
33
34 CHAPITRE 3. TESTS STATISTIQUES
Exemple (Importance du choix des hypothèses). Considérons le test des hypothèses suivantes :
– hypothèse H0 : le patient doit être hospitalisé,
– hypothèse alternative H1 : le patient ne doit pas être hospitalisé.
L’erreur de première espèce consiste à ne pas hospitaliser un patient qui en avait besoin. Cette erreur est très grave,
puisqu’elle peut conduire au décès du patient. Le risque de deuxième espèce, qui consiste à hospitaliser un patient
qui n’en avait pas besoin peut s’avérer moins grave.
Pour l’exemple du médicament, l’erreur de première espèce consiste à mettre sur le marché un médicament qui n’a
pas d’effet.
En pratique il est d’usage de fixer le risque α : 5%, 1%, 10%. Ainsi, on contrôle le risque associé à l’erreur de
première espèce, qui nous l’avons vu est l’erreur la plus grave. Choisir un risque α trop petit va conduire à ne rejeter
que très rarement H0 (si on ne la rejette pas on ne risque pas de la rejeter à tort !). Au contraire, choisir un risque
trop grand va conduire à n’accepter que très rarement α.
Le risque β se déduit alors par le calcul, si la loi sous H1 est connue. Il varie en sens contraire de α. Ainsi, en
diminuant le risque α, on augmente le risque β. On définit alors la puissance du test par 1 − β, qui correspond à la
probabilité de rejeter H0 à raison.
Le choix d’un test sera donc le résultat d’un compromis entre risque de premier espèce et puissance du test.
3.1. THÉORIE DES TESTS PARAMÉTRIQUES 35
Une fois que l’on a fixé raisonnablement α, il faut choisir une variable de décision, qui doit apporté le maximum
d’information sur le problème posé, et dont la loi sera différente selon que H0 ou H1 est vraie. La loi sous H0 doit
être connue. On définit alors la région critique W qui est l’ensemble des valeurs de la variable de décision qui
conduisent à rejeter H0 au profit de H1 . Sa forme est déterminée par la nature de H1 , et sa détermination exacte est
donnée par p(W |H0 ) = α. La région d’acceptation est son complémentaire W̄ .
0.25
0.2
0.15
0.1
0.05
β α
0
−10 −5 m 0 k0 m15 10
Exemple. Reprenons le test d’introduction, où (X1 , ..., Xn ) est de loi normale de variance σ 2 connue et d’espérance
µ inconnue, avec cette fois une hypothèse alternative simple :
H0 : µ = µ0 contre H1 : µ = µ1 .
On suppose µ0 < µ1 . La vraisemblance de l’échantillon gaussien s’écrit
1 1
Pn 2
L(x, µ) = √ e− 2σ2 i=1 (xi −µ)
(σ 2π)n
d’où le rapport de vraisemblance
n
!
L(x, θ1 ) 1 X n
= exp 2(µ1 − µ0 )xi − 2 (µ21 − µ20 )
L(x, θ0 ) 2σ 2 i=1 2σ
2
Ainsi, L(x,θ 1) σ
L(x,θ0 ) > cα est équivalent à x̄ > log(cα ) n(µ1 −µ0 ) +
µ1 +µ0
2 = C, où la constante C est déterminée
IPµ0 (x ∈ W ) = IPµ0 (x̄ > C) = α. La région critique optimale du test de Neyman-Pearson est donc
σ
W = {x : x̄ > µ0 + u1−α √ }
n
et on retombe bien sur le test « intuitif »de l’introduction.
36 CHAPITRE 3. TESTS STATISTIQUES
Dans le cas où l’hypothèse alternative est composite (θ ∈ Θ1 ), la puissance du test est fonction de θ : 1 − β(θ)
est appelée la fonction puissance du test.
Un test est dit uniformément le plus puissant (UPP) si quelque soit la valeur de θ appartenant à l’hypothèse
alternative, sa puissance est supérieure à celle de tout autre test.
Exemple. On a vu précédemment pour le test H0 : µ = µ0 contre H1 : µ = µ1 > µ0 que la région critique ne
dépend pas de µ1 , et qu’elle est donc la même pour tout µ1 > µ0 . Le test est donc UPP pour H0 : µ = µ0 contre
H1 : µ > µ0 .
Si cette fois µ1 < µ0 , on obtient encore un test UPP H0 : µ = µ0 contre H1 : µ < µ0 , mais différent du précédent.
Il n’existe donc pas de test UPP pour H0 : µ = µ0 contre H1 : µ 6= µ0 .
H0 : µ = µ0 contre H1 : µ = µ0 + δ,
3.1.6 Résumé
La démarche de construction d’un test est la suivante :
– choix de H0 et H1 ,
– détermination de la variable de décision,
3.2. TESTS SUR UNE POPULATION 37
3.1.7 p-value
En pratique, plutôt que de calculer la région critique en fonction de α, on préfère donner un seuil critique α∗ ,
appelée p-value, qui est la plus grande valeur de α conduisant à ne pas rejeter H0 . Cette information permet au
lecteur de conclure à l’acceptation de H0 pour tout risque de première espèce α ≤ α∗ , et à son rejet pour tout
α > α∗ .
Soit un n-échantillon (X1 , ..., Xn ) issu d’une population de moyenne µ et de variance σ 2 . Nous supposons que
au moins l’une des deux conditions suivantes est satisfaite :
– la population est de loi normale,
– l’échantillon est de taille n suffisamment grande (n ≥ 30).
X̄ − µ0
U= .
√σ
n
Sous H0 , cette statistique suit une loi normale centrée réduite d’après les conditions précédentes (via le théorème
centrale limite si seule la seconde condition est satisfaite).
La région critique, définie par |U | > k, se traduit par |X̄ − µ0 | > −u α2 √σn , où u α2 est le quantile de la loi normale
centrée réduite d’ordre α2 .
Ainsi,
Remarque 3.2.1 (Calcul de la p-value). Pour ce test, on rejette H0 dès que |x̄−µ √σ
0|
> −u α2 . La p-value est la
n
valeur critique α∗ de α telle que |x̄−µ
√σ
0|
= −u α∗ , d’où α∗ = 2Φ − |x̄−µ
√σ
0|
avec Φ la fonction de répartition de
n 2 n
la loi normale centrée réduite. Ainsi, dès que l’on choisi un risque α plus grand que α∗ , on a −u α∗ > −u α2 et donc
2
|x̄−µ0 |
on rejette H0 . Au contraire, si le risque est plus petit, on aura cette fois √σ = −u α∗ < −u α2 et on conserve
n 2
H0 .
Remarque 3.2.2 (Tests unilatéraux). Si le test est unilatéral, H0 : µ = µ0 contre H1 : µ < µ0 , on rejette H0 si la
vraie valeur de µ est trop éloignée inférieurement de µ0 , ce qui se traduit par x̄ < µ0 + uα √σn .
Si le test est H0 : µ = µ0 contre H1 : µ > µ0 , on rejette H0 si x̄ > µ0 − uα √σn .
38 CHAPITRE 3. TESTS STATISTIQUES
Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est inconnue Ce test est généralement connu sous le nom de
test de Student.
Dans ce cas la variance σ 2 est estimée par son estimateur S 2 . La statistique de test est
X̄ − µ0
T = S
√
n
Statistique de rang
Rang et anti-rang. Soit X = (X1 , . . . , Xn ) un échantillon. Soit Ri la variable aléatoire égale au rang de la va-
riable Xi dans le classement dans l’ordre croissant des variables X1 , . . . , Xn (on ne suppose pas d’ex-æquo).
On appelle anti-rang, Di l’indice de la la variable classée en ième position.
Remarque : les vecteurs des rangs R et des anti-rangs D sont tous deux des permutations des n premiers entiers.
De plus, R et D sont des permutations inverses : R = D−1 .
La suite des rangs R = (R1 , . . . , Rn ) est donc une suite de variable aléatoire identiquement distribuées mais
non indépendantes. On a pour tout 1 ≤ i ≤ n :
n+1 n2 − 1
E[Ri ] = V (Ri ) =
2 12
Cas des ex-æquo : lorsque plusieurs variables sont ex-æquo, on leur associe généralement le rang moyen des
rangs partagés par ces variables. Par exemple, si on a 4 variables ex-æquo avec 5 autres variables plus petites et 4
plus grandes, elles partageront les rangs 6, 7, 8 et 9 et on leur associera donc le rang moyen 7.5.
Tous les test basés sur les statistiques de rangs présentés dans ce cours supposent l’absence d’ex-æquo. Dans le cas
contraire, les tests doivent subir des modifications, qui ne seront pas abordées dans ce cours, sauf pour le test de
Wilcoxon de comparaison de deux échantillons (cf. section 3.3.2.1).
Statistique de rangs signés. On appelle rang signé Ri+ de la variable Xi le rang de |Xi | dans le classement
des |X1 |, . . . , |Xn | par ordre croissant.
3.2. TESTS SUR UNE POPULATION 39
Nous serons par la suite amenés à travailler avec différentes statistiques de test associées aux rangs signés, définie
par
n
X
S= a(Ri+ )1IXi ≥0
i=1
Définition 3.2.1. Une variable aléatoire a une distribution symétrique par rapport à µ0 si pour tout x ∈ R :
p(X ≤ µ0 + x) = p(X ≥ µ0 − x)
Lorsque n est grand le théorème central limite nous permet de considérer que S est distribué suivant une loi nor-
male.
Lorsque n est petit, la statistique S a été tabulée pour différentes fonctions a.
Nous présentons ci-après trois tests basés sur trois choix de la fonction a.
Test des rangs signés (Wilcoxon à un échantillon) Pour le test des rangs signés, il faut supprimer de l’échantillon
les valeurs nulles. On choisit ensuite a(i) = i et la statistique de test devient
∗
n
X
W +
= Ri+ 1IXi ≥0
i=1
ou n∗ est le nombre de valeurs non nulles de l’échantillon. Cette statistique admet comme espérance et variance
sous H0 :
A noter qu’en présence d’ex-æquo, l’espérance est identique mais la variance est différente.
|W + −E [W + ]|
Si la taille d’échantillon n est suffisamment grande, on rejetera H0 si √ H0 + > u1− α .
VH0 (W ) 2
Si n est petit, on utilisera les tables statistiques dédiées à ce test (Annexe 4.2.1). Ces tables donne, pour un risque α
de 5% et 1%, les quantiles de la statistique de Wilcoxon d’ordre α/2 et 1 − α/2. Ces tables sont toujours valables
en présence d’ex-æquo.
La même démarche sera appliquée pour les deux tests suivants.
Logiciel R : fonction wilcox.test.
Logiciel SAS : proc univariate. Attention, SAS utilise une statistique de test W + centrée.
Test du signe Pour le test du signe, il faut supprimer de l’échantillon les valeurs nulles. On choisit ensuite a(i) = 1
et la statistique de test devient
∗
n
X
+
S = 1IXi >0
i=1
ou n∗ est le nombre de valeurs non nulles de l’échantillon. La statistique S + , qui est le nombre de valeurs positives
dans l’échantillon, suit, sous l’hypothèse H0 de symétrie par rapport à 0, une loi binomiale de paramètre n et 1/2.
On peut donc facilement déduire la p-value correspondant à la valeur observée sur l’échantillon de la statistique
S + . Ces p-values ont été tabulée et figurent en Annexe 4.2.2.
En outre, l’espérance et la variance de S + sous H0 sont :
Ce test est plus puissant que le test de Wilcoxon lorsque les queues de distributions sont très diffuses.
Remarquons enfin que la présence d’ex-æquo ne pose aucun problème pour ce test.
n
X
SN + = Φ−1 Ri+ /(n + 1) 1IXi ≥0
i=1
n
Sous l’hypothèse H0 , comme l’échantillon est gaussien, V2
σ02 µ
suit une loi du χ2n (en tant que somme de carrés de
N (0, 1)). Ainsi,
1
Pn σ02 2 σ02 2
on rejette H0 si Vµ2 = n i=1 (xi − µ)2 < n χn, α où si Vµ2 > n χn,1− α ,
2 2
où χ2n, α et χ2n,1− α sont les quantiles d’ordre α2 et 1− α2 de la loi de χ2 à n degrés de liberté. Attention, contrairement
2 2
à la loi de Student et à la loi normale, la loi du χ2 n’est pas symétrique.
n−1 2
S
σ02
1 Pn σ02 σ02
on rejette H0 si S 2 = n−1 i=1 (xi − x̄)2 < 2
n−1 χn−1, α ou si S 2 > 2
n−1 χn−1,1− α .
2 2
3.2. TESTS SUR UNE POPULATION 41
La statistique du test est donc la fréquence empirique F qui suit sous H0 une loi N (p0 , p0 (1−p
n
0)
).
q
p0 (1−p0 )
on rejette H0 si |f − p0 | > u1− α2 n .
Exemple. Sur un échantillon de 200 individus d’une commune, 45% sont favorables à l’implantation d’un centre
commercial. Ceci contredit-il l’hypothèse qu’un habitant sur deux y est favorable ?
On test H0 : p = 0.5 contre H1 : p 6= 0.5 avec un risque α = 0.05, d’où u1− α2 = 1.96. On rejette H0 si
q
2
|f − 0.5| > 1.96 0.5 200 ≃ 0.07, or ici |f − 0.5| = 0.05 donc on ne rejette pas H0 , un habitant sur deux est bien
favorable à l’implantation du centre commercial.
Pn
avec R̄ = ī = (n + 1)/2 et i=1 (i − ī)2 = n(n2 − 1)/12.
En remarquant que
6
RS = 1 − Pn
n(n2 − 1) i=1 (Ri − i)2
on voit que la statistique de test RS sera égale à −1 dans le cas d’une tendance décroissante (Ri = n + 1 − i) et à
1 pour une tendance croissante (Ri = i).
On peut montrer que cette statistique admet les moments suivant :
1
E[RS ] = 0 V (RS ) = .
n−1
Sous l’hypothèse H0 √
– si n ≥ 30, on utilise la statistique RS n −q1 qui suit une N (0, 1),
n−2
– si 10 < n < 30, on utilise la statistique RS 1−R 2 qui est approximativement distribuée selon une ∼ tn−2 .
S
Logiciel R : fonction cor.test avec option spearman.
La nature du phénomène Suivant le phénomène étudié, il sera possible d’orienter son choix. Si on s’intéresse
à une variable de comptage, on pourra penser à une loi de Poisson, pour une durée de vie on pensera à une loi
exponentielle ou à une loi de Weibull... .
Utilisation des moments On sait que pour une loi de Poisson, la moyenne est égale à la variance. Pour une loi
exponentielle la moyenne est égale à l’écart-type. Pour une loi normale le coefficient d’aplatissement (kurtosis) est
égal à 3 et le coefficient d’asymétrie (skewness) est nul.
Loi exponentielle Pour X ∼ E(λ), on a p(X > x) = exp(−λx) d’où ln(1 − F (x)) = −λx. En rangeant
dans l’ordre croissant les données xi de l’échantillon, l’estimation de la fonction de répartition qu’est la fonction
effectif <xi = i−1 pour x < x ≤ x . Ainsi, les points de coordon-
de répartition empirique
i−1
s’écrit Fe (x) = n n i i+1
nées xi ; log(1 − n ) sont approximativement alignés le long d’une droite dont la pente fournit une estimation
graphique de λ.
3.2. TESTS SUR UNE POPULATION 43
x−µ
IP(X < x) = Φ( )
σ
où Φ est la fonction de répartition de la loi normale centrée réduite.
Pour chaque valeur xi de la variable X, on peut calculer IP(X < xi ), et en déduire le quantile ui d’ordre IP(X < xi )
tel que Φ(ui ) = IP(X < xi ).
Si la variable est gaussienne, les points de coordonnées (xi , ui ) sont alignés sur la droite d’équation u = x−µ σ ,
appelée droite de Henry. On compare donc les valeurs des quantiles de la loi empirique xi aux quantiles de la loi
normale centrée réduite ui .
Logiciel R : la fonction qqnorm permet de représenter la droite de Henry, et qqplot généralise à d’autres lois que
la loi normale.
Soit une variable aléatoire X discrète ou discrétisée, c’est à dire divisée en K classes de probabilités p1 , p2 , ..., pK
sous une certaine loi L(θ).
Soit un échantillon de cette variable fournissant les effectifs empiriques aléatoires N1 , N2 , ..., NK dans chacune
de ces classes. Ces effectifs empiriques Ni sont des variables aléatoires d’espérance npi . Nous appellerons effectifs
théoriques les quantités npi .
Le test du χ2 a pour but de tester :
K
X (Ni − npi )2
D2 = ,
i=1
npi
et qui est asymptotiquement distribué, lorsque n → ∞, comme une loi du χ2 à K − 1 degrés de liberté.
La variable D2 pouvant être interprétée comme une mesure de l’écart aléatoire entre les effectifs empirique et
théorique, le test du χ2 consiste à rejeter H0 si la valeur d2 de D2 sur l’échantillon est trop grande :
où F̂n (x) = #{Xi : Xi ≤ x}/n est la fonction de répartition empirique estimée à partir de l’échantillon
X 1 , . . . , Xn .
Il existe alors des tables de cette statistique KS sur lesquelles se baser pour conduire à rejeter ou non H0 .
où
– n2 est la partie entière de n2 ,
– ai sont des constantes fournies dans des tables spécifiques (Annexe 4.2.4),
mt V −1
(a1 , . . . , an ) =
(mt V −1 V −1 n)2
où m = (m1 , . . . , mn )t sont les espérances des statistiques d’ordre d’un échantillon de variables indépen-
dantes et identiquement distribuée suivant une loi normale, et V est la matrice de variance-covariance de ces
statistiques d’ordre.
La statistique W peut donc être interprétée comme le coefficient de détermination entre la série des quantiles
générés à partir de la loi normale et les quantiles empiriques obtenus à partir des données. Plus W est élevé, plus la
compatibilité avec la loi normale est crédible. La région critique, rejet de la normalité, s’écrit :
on rejette la normalité si W < wα,n ,
la valeur critique wα,n étant lue dans les tables de Shapiro-Wilk (Annexe 4.2.4) en fonction du risque de première
espèce α et de la taille d’échantillon n.
Logiciel R : le test de Shapiro-Wilk peut être réalisé à l’aide de la fonction shapiro.test.
La statistique suivante
√ RXY
T = n − 2p 2
1 − RXY
qui suit une loi de Student tn−2 permet de tester la nullité du coefficient de corrélation linéaire, en rejetant l’hypo-
thèse nulle ρXY = 0 si la valeur t de cette statistique est trop grande ou trop petite, autrement dit si elle vérifie :
Il conviendra donc de tester la nullité de ce coefficient de corrélation linéaire avant de tenter de modéliser Y en
fonction de X par une relation linéaire (cours de Modélisation GIS4).
Test de corrélation des rangs de Spearman Un indicateur de corrélation entre deux variables quantitatives plus
robuste aux valeurs extrêmes, est le coefficient de corrélation des rangs de Spearman, défini comme le coefficient
de corrélation linéaire entre les rangs associés aux variables testées. Ce test, déjà présenté dans la section 3.2.4.1,
permet également de tester la corrélation entre des variables ordinales.
où
– nij estPle nombre d’individus ayant la modalité i de X et la modalité j de Y ,
– ni. = rj=1 nij est le nombre total d’individus ayant la modalité i de X ,
Pk
– n.j = i=1 nij est le nombre total d’individus ayant la modalité j de Y ,
Pk Pr
– n = i=1 j=1 nij est le nombre d’individus total.
Le test consiste à tester H0 : « les deux variables sont indépendantes ».
Si H0 est vrai, cela a un sens de considérer les probabilités pX X
1 , . . . , pk d’avoir les modalités 1, . . . , k de la variable
Y Y
X et les probabilités p1 , . . . , pr d’avoir les modalités 1, . . . , r de la variable Y .
Le test consiste, comme pour le test d’ajustement, à comparer les effectifs empiriques nij aux effectifs théoriques
pX Y X Y
i pj que l’on devrait observer si X et Y étaient indépendantes. Les pi et pj étant inconnues, on les estime par
X ni. Y n.j
p̂i = n et p̂j = n .
On construit alors la mesure d’écart suivante :
k X r ni. n.j 2 k X r 2
X (n ij − ) X n ij
d2 = n
ni. n.j = n − 1
i=1 j=1 n i=1 j=1
n i. n .j
qui est la réalisation d’une statistique dont la loi peut être approximée par une loi de χ2 à (k − 1)(r − 1) degrés de
liberté, lorsque les effectifs sont de tailles suffisantes (nij > 5 pour tout i, j).
Le test consiste donc à rejeter H0 si d2 est trop grand, comme pour un test d’ajustement du χ2 .
3.2.6.3 Cas de deux variables aléatoires binaires et de petits échantillons : Test exact de Fisher
Dans le cas d’échantillons de petites tailles (effectifs théoriques inférieurs à 5 par croisement de variables), une
alternative consiste à utiliser le test exact de Fisher.
46 CHAPITRE 3. TESTS STATISTIQUES
Lorsque les variables sont binaires, sous l’hypothèse H0 d’indépendance de X et Y , la probabilité d’observer
l’effectif n11 est donnée :
n1. !n2. !n.1 !n.2 ! C n11 C n21
IP(N11 = n11 |n1. , n2. , n.1 , n.2 ) = = n1. n.1n2. .
n!n11 !n21 !n21 !n22 ! Cn
On reconnait une variable aléatoire de loi Hypergéométrique. Le test peut donc être construit de façon exacte en
utilisant cette loi.
Ce test est généralisable à plus de deux modalités par variable.
Logiciel R : fonction fisher.test.
3.2.6.4 Cas d’une variable qualitative et d’une variable quantitative : ANOVA à 1 facteur
Soient X une variable quantitative que l’on observe pour différentes modalités (niveaux) d’une variable quali-
tative A (facteur). On dispose de K échantillons indépendants de X de tailles n1 à nK correspondant chacun à un
niveau différent du facteur A :
– X11 , X12 , . . . , X1n1 correspondant au niveau A1 du facteur A,
– X21 , X22 , . . . , X2n2 correspondant au niveau A2 du facteur A,
– ...
1 2 nK
– XK , XK , . . . , XK correspondant au niveau AK du facteur A.
On suppose que le facteur A influe uniquement sur la moyenne des échantillons et non sur leur dispersion. Ainsi,
chaque échantillon est supposé suivre une loi normale N (µk , σ 2 ).
Le problème est donc de tester
H0 : µ1 = . . . = µK = µ contre H1 : ∃1 ≤ i, j ≤ K t.q. µi 6= µj .
Pour cela on appelle X̄k la moyenne empirique de l’échantillon k et X̄ la moyenne empirique globale :
nk K nk
1 X 1 XX
X̄k = Xi et X̄ = Xki ,
nk i=1 k n i=1
k=1
PK
où n = k=1 nk .
En remarquant que Xki − X̄ = Xki − X̄k + X̄k − X̄, on montre facilement la formule d’analyse de variance :
K nk K K nk
1 XX 1X 1 XX
(Xki − X̄)2 = nk (X̄k − X̄)2 + (Xki − X̄k )2
n n n
k=1 i=1 k=1 k=1 i=1
| {z } | {z } | {z }
VT2 VA2 VR2
qui représente la décomposition de la variance totale VT2 en la variance VA2 due au facteur A (variance inter-
groupe) plus la variance résiduelle VR2 (ou variance intra-groupe).
Remarque 3.2.3. Cette formule est l’équivalente empirique de la formule vue en cours de probabilité :
1
PK 1
Pnk n
PK nk Vk2
En remarquant que VR2 = n k=1 nk Vk2 où Vk2 =
nk
i 2 2
i=1 (Xk − X̄k ) , on montre que σ2 VR = k=1 σ2
n V2
suit une loi du χ2 à n − K degrés de liberté, car chaque kσ2 k suit une loi du χ2 à nk − 1 degrés de liberté.
nV 2
De même, sous H0 cette fois, σ2T suit une loi du χ2 à n − 1 degrés de liberté (car VT2 est la variance d’un n-
nV 2
échantillon de loi N (µ, σ 2 )) et σ2A suit une loi du χ2 à K − 1 degrés de liberté (car VA2 peut être vue comme la
variance du K-échantillon (X̄1 , . . . , X̄K )).
L’équation de l’analyse de variance revient alors à χ2n−1 = χ2K−1 + χ2n−K , ce qui permet en outre de conclure via
le théorème de Cochran que VA2 et VR2 sont indépendantes.
La statistique du test est donc
VA2
K−1
F = VR2
n−K
3.3. TESTS DE COMPARAISON DE DEUX POPULATIONS INDÉPENDANTES 47
qui suit sous H0 une loi de Fisher-Snedecor FK−1,n−K , et on rejette l’hypothèse H0 si la statistique F est supé-
rieure au quantile de la loi FK−1,n−K d’ordre 1 − α.
Test de l’homogénéité des variances : test de Levene. En plus de la normalité des échantillons, dont on peut
se passer si les échantillons sont de tailles suffisantes, nous avons supposé que les variances étaient homogènes
(σ1 = . . . = σK ).
Le test de Levene permet de tester cette hypothèse. La statistique de ce test est la suivante :
PK 2
n−K k=1 (Z̄k − Z̄)
L= PK Pnk ,
K − 1 k=1 i=1 (Zki − Z̄k )
où
nk K k n
1 X 1 XX
Zki = |Xki − X̄k |, Z̄k = Zi et Z̄ = Zki .
nk i=1 k n i=1
k=1
Sous l’hypothèse H0 : σ1 = . . . = σK , cette statistique suit une loi de Fisher-Snedecor FK−1,n−K . Nous rejetons
donc l’hypothèse H0 si la statistique F est supérieure au quantile de la loi FK−1,n−K d’ordre 1 − α.
H0 : µk = µk′ .
Nous testons
H0 : σ12 = σ22 contre H1 : σ12 6= σ22 .
D’après les résultats de la théorie de l’échantillonnage :
n1 V12 n2 V22
∼ χ2n1 −1 et ∼ χ2n2 −1 .
σ12 σ22
Ainsi, sous l’hypothèse H0 que σ12 = σ22 , la statistique du test F suivante suit une loi de Fisher Fn1 −1,n2 −1 :
n1 V12
n1 −1 S12
F = = (3.1)
n2 V22 S22
n2 −1
Cette variable de décision s’interprète comme le rapport des estimateurs de σ12 et σ22 . Elle doit donc ne pas être trop
différentes de 1 si H0 est vérifiée. En pratique on met toujours au numérateur la plus grande des deux quantités, ou
autrement dit on suppose que S12 > S22 (sinon on permute les indices).
La région de rejet sera donc de la forme F > k avec k plus grand que 1 :
n1 V12
n1 −1
on rejette H0 si n2 V 2
> fn1 −1,n2 −1,1−α ,
2
n2 −1
où fn1 −1,n2 −1,1−α est le quantile de la loi de Fisher-Snedecor Fn1 −1,n2 −1 d’ordre 1 − α.
Nous testons
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 ,
en supposant les variances égales σ12 = σ22 = σ 2 .
On a pour i = 1, 2 :
ni Vi2 σ2
∼ χ2ni −1 et X̄i ∼ N (µi , ).
σ2 ni
Ainsi, la statistique
X̄1 − X̄2 − (µ1 − µ2 )
T = r ,
n1 V12 +n2 V22 1 1
n1 +n2 −2 n1 + n2
r
n1 v12 +n2 v22 1 1
on rejette H0 si |x̄1 − x̄2 | > −tn1 +n2 −2, α2 n1 +n2 −2 n1 + n2 .
Lorsque les échantillons sont de grandes tailles (> 30), le test de Student reste encore approximativement
valable.
Pour de petits échantillons gaussiens, l’approximation d’Aspin-Welch consiste à utiliser le test de Student avec un
degré de liberté non plus égal à n1 + n2 − 2 mais égal à l’entier le plus proche de :
v12
1 n1 −1
n= (1−c)2
où c = v12 v22
c2
n1 −1 + n2 −1 n1 −1 + n2 −1
où F1 (x) et F2 (x) sont les fonctions de répartition de deux échantillons (X1,1 , . . . , X1,n1 ) et (X2,1 , . . . , X2,n2 ).
Dans cette section nous concaténons les deux échantillons en un seul (X1 , . . . , Xn1 , Xn1 +1 , . . . , Xn1 +n2 ), et nous
allons travailler avec les rangs (R1 , . . . , Rn1 +n2 ) associés à cet échantillon global.
Les statistiques de test utilisées seront de la forme
n1
X
S= a(Ri )
i=1
où a est une fonction de {1, . . . , n1 + n2 } dans R. A noter que seuls les rangs du premier échantillon sont utilisés
dans la statistique S puisque la somme s’arrête à n1 .
Lorsque les tailles d’échantillons n1 et n2 sont petites (< 30), il existe des tables suivant la fonction a choisie
(Wilcoxon, médiane, scores normaux). Lorsque les tailles sont plus grandes (cas dans lequel les tests paramétriques
sont également utilisables), la statistique S est approximativement distribuée suivant une loi normale.
Les moments de S sont :
nX
1 +n2 nX
1 +n2
n1 n1 n2
E[S] = a(i) V (S) = (a(i) − ā)2
n1 + n2 i=1 (n1 + n2 )(n1 + n2 − 1) i=1
1
Pn1 +n2
où ā = n1 +n2 i=1 a(i)
50 CHAPITRE 3. TESTS STATISTIQUES
et correspond à la somme des rangs du premier échantillon (le plus petit en nombre d’observations).
n1 (n1 + n2 + 1)
EH0 [W ] =
2
n1 n2 (n1 + n2 + 1)
VH0 (W ) =
12
La loi de cette statistique a été tabulée pour de petites tailles d’échantillons (moins de 10), et la table en Annexe
4.2.3 donne les bornes critiques de W pour des risques de première espèce de 5% et 1%.
Pour de plus grandes tailles d’échantillons, la loi de W peut être approchée par une loi normale.
Cas des ex-æquo Nous avons vu section 3.2.1.2 qu’en présence d’ex-æquo nous remplacions les rangs des ex-
æquo par le rang moyen des rangs qu’ils devraient occuper. Si les tailles d’échantillons sont inférieures à 10, les
tables sont toujours utilisable. Pour de plus grandes tailles, l’approximation gaussienne est toujours valable mais la
variance de W n’est plus identique à celle donnée précédemment.
Soit e le nombre de valeurs distinctes dans l’échantillon (X1 , . . . , Xn1 +n2 ), et soit V1 , . . . , Ve ces valeurs distinctes.
Soit Dj le nombre d’apparitions de la valeur Vj dans l’échantillon (1 ≤ j ≤ e). La statistique W a alors pour
variance :
Pe
∗
n1 n2 j=1 (Dj3 − Dj )
VH0 (W ) = V (W ) − .
12(n1 + n2 )(n1 + n2 + 1)
Logiciel R : fonction wilcox.test.
et correspond au nombre d’éléments du premier échantillon supérieur à la médiane de l’échantillon total. La loi de
M correspond à une loi hypergéométrique (on tire n1 individus parmi n1 + n2 avec sous H0 probabilité 1/2 d’être
supérieur à la médiane de l’échantillon total).
Ce test est performant uniquement lorsque les distributions des deux échantillons sont très diffuses.
où F̂n1 et F̂n2 sont les fonctions de répartitions empiriques des deux échantillons.
L’hypothèse primordiale définissant le type de tests à effectuer est l’indépendance des populations entre elles. Nous
présentons ci-après des tests paramétriques et non paramétriques dans le cas de populations indépendantes, puis
nous examinerons le cas d’une dépendance particulière, celle des mesures répétées.
52 CHAPITRE 3. TESTS STATISTIQUES
H0 : F1 = . . . = FK ,
n+1
le rang moyen R.k de chaque population doit être proche de E[Rjk ] = 2 .
La statistique du test de Kruskal-Wallis est
K 2
12 X n+1
KW = R.k −
n(n + 1) 2
k=1
qui suit sous H0 , lorsque les tailles nk des échantillons tendent vers l’infini, approximativement une loi du χ2 à
K − 1 degrés de liberté. Cette approximation est valable lorsque K > 3 et min(n1 , . . . , nK ) > 5, et des tables
existent lorsque ce n’est pas le cas.
Remarque. On retrouve le test de Wilcoxon lorsque K = 2.
Logiciel R : fonction kruskal.test
Nous présentons ci-après l’ANOVA à 2 facteurs génériques A et B, dans le cas légèrement plus général d’un
plan équilibré ou équirépété, c’est-à-dire où le nombre de mesures pour chaque croisement des facteurs des deux
niveaux est constant égal à r (et non plus égal à 1 comme précédemment).
L’objectif de l’analyse de variance à deux facteurs consiste à étudier les liens éventuels entre une variable
continue X et deux facteurs A et B à J et K niveaux.
On note :
3.4. TESTS DE COMPARAISON DE K POPULATIONS 53
– Xjk la variable X observée pour les j-ème et k-ème valeurs respectives des facteurs A et B,
– Xijk la variable aléatoire correspondant à la i-ème observation de Xjk ,
– njk le nombre d’observations Xijk ,
PK PJ PJ PK
– nj. = k=1 njk , n.k = j=1 njk et n = j=1 k=1 njk .
On suppose que Xjk ∼ N (µjk , σ 2 ) et que les njk sont constants (njk = r plan équilibré ou équirépété).
Dans le modèle le plus général pour la moyenne µjk , on suppose qu’elle peut s’écrire comme une somme d’un
terme constant et de termes dépendants du facteur A, du facteur B et de l’interaction entre les facteurs A et B :
où SST est la somme des carrés totale, SSA est la somme des carrés relatifs au facteur A, SSB est la somme des
carrés relatifs au facteur B, SSAB est la somme des carrés relatifs à l’interaction entre les facteurs A et B et SSR
est la somme des carrés résiduels.
J X K Xnjk
X
2 2
En remarquant que que l’on peut écrire SST = Xijk − nX̄... , on obtient l’équation d’analyse de la
j=1 k=1 i=1
variance à deux facteurs :
SST = SSA + SSB + SSAB + SSR
Comme en analyse de variance à un facteur, sous l’hypothèse H0 : αj = 0, les quantités SSA et SSR suivent à σ 2
près des lois du χ2 indépendantes à J − 1 et n − JK degrés de liberté. La statistique suivante est donc de loi de
Fisher de paramètres J − 1 et K − 1 :
SSA/(J − 1)
FA = .
SSR/(n − JK)
Test de Friedman On teste l’hypothèse H0 d’égalité des fonctions de répartitions Fk de chaque population
H0 : F1 = . . . = FK .
Pn
Soit R.k = n1 j=1 Rjk le rang moyen de la condition/population k. Sous l’hypothèse H0 , on doit avoir E[R.k ] =
(K + 1)/2.
La statistique de Friedman est alors
K 2 K
12n X K+1 12 X
2
F = R.k − = R.k − 3n(K + 1)
K(K + 1) 2 nK(K + 1)
k=1 k=1
2
qui suit asymptotiquement sous H0 une loi du χ à K − 1 degrés de liberté. Puisqu’on s’intéresse généralement
à des échantillons de petites tailles, la distribution asymptotique de F n’est rarement utilisable et on se référera
généralement à la table statistique tabulant ses valeurs (Annexe 4.2.5). A noter que dans ces tables,
Test de Quade Le test de Friedman peut être amélioré en prenant en compte les différences de valeurs Xjk pour
un même individu. Pour cela, on introduit l’étendue Ej = maxk (Xjk ) − mink (Xjk ) qui est la différence entre la
valeur maximale et la valeur minimale pour un individu.
Soit Sj le rang de l’étendue Ej dans le classement des étendues intra-individu E1 , . . . , En (rang moyen en présence
d’ex-æquo).
On remplace chaque observation Xjk par
K +1
Qjk = Sj (Rjk − )
2
3.4. TESTS DE COMPARAISON DE K POPULATIONS 55
Pn
et soit Qk = j=1 Qjk .
Pn PK PK
Les statistiques T = j=1 k=1 Q2jk et B = k=1 Q2k peuvent être interprétées comme représentant respective-
ment les variations intra-individu et inter-individus.
La statistique du test de Quade est
(n − 1)B
Q=
T −B
qui suit approximativement sous H0 une loi de Fisher à K − 1 et (n − 1)(K − 1) degrés de libertés.
Test de Page Le test de Page est une variante du test de Friedman dans le cas où un ordre est imposé dans
l’hypothèse alternative :
H0 : F1 = . . . = FK ,
contre
H1 : F1 > . . . > FK .
Ce type de test peut être intéressant pour tester une évolution monotone de la variable X au sein des popula-
tions/conditions P1 , . . . , PK (évolution temporelle dans le cas où les populations/conditions sont indexées par le
temps).
La statistique du test de Page est
K
X
P = kR.k
k=1
qui suit sous H0 , lorsque n > 12, une loi normale de moments :
Annexes
E[|Xn − X|p ] → 0
Définition 4. La suite (Xn ) converge en loi vers la variable aléatoire X de fonction de répartition F si en tout
point de continuité de F , la suite Fn des fonctions de répartition de Xn converge vers F
Propriété 1.
p.s.
(Xn ) −→ X ց
P L
(Xn ) −→ X → (Xn ) −→ X
moyenne ordre p
(Xn ) −→ X ր
57
58 CHAPITRE 4. ANNEXES
❍❍ n
❍ 2 3 4 5 6 7 8 9 10
i ❍❍
1 0,7071 0,7071 0,6872 0,6646 0,6431 0,6233 0,6052 0,5888 0,5739
2 0,1677 0,2413 0,2806 0,3031 0,3164 0,3244 0,3291
3 0,0875 0,1401 0,1743 0,1976 0,2141
4 0,0561 0,0947 0,1224
5 0,0399
❍❍ n
❍ 11 12 13 14 15 16 17 18 19 20
i ❍❍
1 0,5601 0,5475 0,5359 0,5251 0,5150 0,5056 0,4963 0,4886 0,4808 0,4734
2 0,3315 0,3325 0,3325 0,3318 0,3306 0,3290 0,3273 0,3253 0,3232 0,3211
3 0,2260 0,2347 0,2412 0,2460 0,2495 0,2521 0,2540 0,2553 0,2561 0,2565
4 0,1429 0,1586 0,1707 0,1802 0,1878 0,1939 0,1988 0,2027 0,2059 0,2085
5 0,0695 0,0922 0,1099 0,1240 0,1353 0,1447 0,1524 0,1587 0,1641 0,1686
6 0,0303 0,0539 0,0727 0,0880 0,1005 0,1109 0,1197 0,1271 0,1334
7 0,0240 0,0433 0,0593 0,0725 0,0837 0,0932 0,1013
8 0,0196 0,0359 0,0496 0,0612 0,0711
9 0,0163 0,0303 0,0422
10 0,0140
❍❍ n
❍ 21 22 23 24 25 26 27 28 29 30
i ❍❍
1 0,4643 0,4590 0,4542 0,4493 0,4450 0,4407 0,4366 0,4328 0,4291 0,4254
2 0,3185 0,3156 0,3126 0,3098 0,3069 0,3043 0,3018 0,2992 0,2968 0,2944
3 0,2578 0,2571 0,2563 0,2554 0,2543 0,2533 0,2522 0,2510 0,2499 0,2487
4 0,2119 0,2131 0,2139 0,2145 0,2148 0,2151 0,2152 0,2151 0,2150 0,2148
5 0,1736 0,1764 0,1787 0,1807 0,1822 0,1836 0,1848 0,1857 0,1064 0,1870
6 0,1399 0,1443 0,1480 0,1512 0,1539 0,1563 0,1584 0,1601 0,1616 0,1630
7 0,1092 0,1150 0,1201 0,1245 0,1283 0,1316 0,1346 0,1372 0,1395 0,1415
8 0,0804 0,0878 0,0941 0,0997 0,1046 0,1089 0,1128 0,1162 0,1192 0,1219
9 0,0530 0,0618 0,0696 0,0764 0,0823 0,0876 0,0923 0,0965 0,1002 0,1036
10 0,0263 0,0368 0,0459 0,0539 0,0610 0,0672 0,0728 0,0778 0,0822 0,0862
11 0,0122 0,0228 0,0321 0,0403 0,0476 0,0540 0,0598 0,0650 0,0697
12 0,0107 0,0200 0,0284 0,0358 0,0424 0,0483 0,0537
13 0,0094 0,0178 0,0253 0,0320 0,0381
14 0,0084 0,0159 0,0227
15 0,0076
C. Chesneau 9
62 CHAPITRE 4. ANNEXES
❍❍ α ❍❍ α
❍❍ 0, 05 0, 01 ❍❍ 0, 05 0, 01
n ❍ n ❍
3 0,767 0,753 27 0,923 0,894
4 0,748 0,687 28 0,924 0,896
5 0,762 0,686 29 0,926 0,898
6 0,788 0,713 30 0,927 0,900
7 0,803 0,730 31 0,929 0,902
8 0,818 0,749 32 0,930 0,904
9 0,829 0,764 33 0,931 0,906
10 0,842 0,781 34 0,933 0,908
11 0,850 0,792 35 0,934 0,910
12 0,859 0,805 36 0,935 0,912
13 0,856 0,814 37 0,936 0,914
14 0,874 0,825 38 0,938 0,916
15 0,881 0,835 39 0,939 0,917
16 0,837 0,844 40 0,940 0,919
17 0,892 0,851 41 0,941 0,920
18 0,897 0,858 42 0,942 0,922
19 0,901 0,863 43 0,943 0,923
20 0,905 0,868 44 0,944 0,924
21 0,908 0,873 45 0,945 0,926
22 0,911 0,878 46 0,945 0,927
23 0,914 0,881 47 0,946 0,928
24 0,916 0,884 48 0,947 0,929
25 0,918 0,888 49 0,947 0,929
26 0,920 0,891 50 0,947 0,930
C. Chesneau 10
4.2. TABLES STATISTIQUES POUR TEST 63
[1] M. Carbon, C. Franck. Estimation non paramétrique de la densité et de la régression - Prévision non paramé-
trique. La revue MODULAD, numéro 15, juin 1995.
[2] G. Saporta. Probabilités, analyse de données et statistique. 2ème édition, Editions Technip, 2006.
[3] D.J. Sheskin. Handbook of parametric and nonparametric statistical procedures. Fifth edition. Chapman &
Hall/CRC, 2011.
65