0% ont trouvé ce document utile (0 vote)
30 vues65 pages

Biostatistique Tous Les Cours s2

Le document traite des statistiques inférentielles, en abordant des concepts tels que l'échantillonnage, la description des variables, l'estimation et les tests statistiques. Il fournit des détails sur les méthodes d'estimation, les intervalles de confiance et les tests paramétriques. L'ensemble est structuré en plusieurs sections, chacune explorant des aspects spécifiques des statistiques inférentielles.

Transféré par

Périal Impérial
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
30 vues65 pages

Biostatistique Tous Les Cours s2

Le document traite des statistiques inférentielles, en abordant des concepts tels que l'échantillonnage, la description des variables, l'estimation et les tests statistiques. Il fournit des détails sur les méthodes d'estimation, les intervalles de confiance et les tests paramétriques. L'ensemble est structuré en plusieurs sections, chacune explorant des aspects spécifiques des statistiques inférentielles.

Transféré par

Périal Impérial
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 65

P OLYTECH ’L ILLE

D ÉPARTEMENT G.I.S.

Statistiques inférentielles
Julien JACQUES
http ://labomath.univ-lille1.fr/∼jacques/
2
Table des matières

1 Échantillonnage et statistiques descriptives 7


1.1 Échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Description d’une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Les différents types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Résumés numériques d’une variable quantitative . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2.1 Caractéristiques de tendance centrale . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2.2 Caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2.3 Caractéristiques de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Représentation graphique d’une variable quantitative . . . . . . . . . . . . . . . . . . . . . 10
1.3.3.1 Boîte à moustaches ou box plot . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3.2 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3.3 La fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.4 Résumé numérique d’une variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.5 Représentation graphique d’une variable qualitative . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Description de plusieurs variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1 Liaison entre deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Nuage de points. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Coefficient de corrélation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2 Liaison entre une variable quantitative et une variable qualitative . . . . . . . . . . . . . . . 15
1.4.3 Liaisons entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.3.1 Cas des variables ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.4 Vers le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Estimation 19
2.1 Préambule : étude des statistiques X̄ et V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1 Etude de la statistique X̄ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Etude de la statistique V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.3 Définition des lois du χ2 , de Student et de Fisher-Snedecor . . . . . . . . . . . . . . . . . . 21
2.1.4 Cas des échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Notion d’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Qualité d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Estimateur exhaustif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Estimation sans biais de variance minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7 Estimation par intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7.1 Intervalle de confiance sur l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7.1.1 Intervalle de confiance sur l’espérance d’une loi normale avec variance connue . . 26
2.7.1.2 Intervalle de confiance sur l’espérance d’une loi normale avec variance inconnue . 27
2.7.1.3 Si la loi de X n’est pas une loi normale . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.2 Intervalle de confiance sur la variance d’une loi normale . . . . . . . . . . . . . . . . . . . 28
2.7.2.1 Intervalle de confiance sur la variance d’une loi normale lorsque µ est connue . . 28
2.7.2.2 Intervalle de confiance sur la variance d’une loi normale lorsque µ est inconnue . 28

3
4 TABLE DES MATIÈRES

2.7.3 Intervalle de confiance sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 29


2.7.4 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.8 Plus d’estimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.1 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.1.1 Application : estimation bayésienne de la moyenne d’une loi normale de variance
connue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.2 Estimation robuste : cas de la valeur centrale d’une distribution symétrique . . . . . . . . . 30
2.9 Estimation fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.9.1 Estimation de la fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.9.2 Estimation non paramétrique de la densité . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3 Tests statistiques 33
3.1 Théorie des tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.1 Introduction : test sur l’espérance d’une loi normale de variance connue . . . . . . . . . . . 33
3.1.2 Vocabulaire des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.3 Probabilité d’erreur et risque, puissance de test . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.4 Choix optimal de la statistique de test et de la région de rejet . . . . . . . . . . . . . . . . . 35
3.1.5 Utilisation de la puissance de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.6 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.7 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Tests sur une population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Test sur le caractère central d’une population . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1.1 Cas d’un échantillon grand ou gaussien . . . . . . . . . . . . . . . . . . . . . . . 37
Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est connue . . . . . . . . . . . . . 37
Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est inconnue . . . . . . . . . . . . 38
3.2.1.2 Cas d’un petit échantillon non gaussien . . . . . . . . . . . . . . . . . . . . . . . 38
Statistique de rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Test des rangs signés (Wilcoxon à un échantillon) . . . . . . . . . . . . . . . . . . . 39
Test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Test des scores normaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Test sur la variance d’une population gaussienne . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2.1 Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ connue . . . . . . . . . . . 40
3.2.2.2 Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ inconnue . . . . . . . . . . 40
3.2.2.3 Tests unilatéraux sur la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3 Test sur une proportion pour un grand échantillon . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3.1 Test H0 : p = p0 contre H1 : p 6= p0 . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3.2 Tests unilatéraux sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.4 Test de l’aléatoire d’un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.4.1 Test de corrélation des rangs de Spearman . . . . . . . . . . . . . . . . . . . . . 41
3.2.4.2 Test des changements de signes . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.5 Tests d’ajustement à une loi de probabilité spécifiée . . . . . . . . . . . . . . . . . . . . . . 42
3.2.5.1 Quelques méthodes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
La forme de l’histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
La nature du phénomène . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Utilisation des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.5.2 Ajustement graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.5.3 Test d’ajustement du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Si des estimations sont nécessaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Effectif minimal d’une classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.5.4 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.5.5 Test de Shapiro-Wilk (normalité) . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.6 Test d’indépendance entre deux variables aléatoires . . . . . . . . . . . . . . . . . . . . . . 44
3.2.6.1 Cas de deux variables aléatoires quantitatives . . . . . . . . . . . . . . . . . . . . 44
Test de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Test de corrélation des rangs de Spearman . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.6.2 Cas de deux variables aléatoires qualitatives : Test du χ2 . . . . . . . . . . . . . . 45
3.2.6.3 Cas de deux variables aléatoires binaires et de petits échantillons : Test exact de
Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.6.4 Cas d’une variable qualitative et d’une variable quantitative : ANOVA à 1 facteur 46
Test de l’homogénéité des variances : test de Levene. . . . . . . . . . . . . . . . . . 47
Comparaison des moyennes deux à deux . . . . . . . . . . . . . . . . . . . . . . . 47
3.3 Tests de comparaison de deux populations indépendantes . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.1 Cas de deux échantillons gaussiens ou de grandes tailles . . . . . . . . . . . . . . . . . . . 48
3.3.1.1 Test de comparaison des variances de Fisher . . . . . . . . . . . . . . . . . . . . 48
3.3.1.2 Test de comparaison des moyennes de Student avec variances égales . . . . . . . 48
3.3.1.3 Test de comparaison des moyennes avec variances différentes . . . . . . . . . . . 49
3.3.1.4 Échantillons non gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Échantillons de petites tailles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2.1 Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Cas des ex-æquo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2.2 Test U de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2.3 Test de la médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2.4 Test des scores normaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2.5 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.3 Cas de deux échantillons dépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.4 Tests de comparaison de deux proportions, pour de grands échantillons . . . . . . . . . . . 51
3.4 Tests de comparaison de K populations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.1 Tests de comparaison de K populations indépendantes . . . . . . . . . . . . . . . . . . . . 52
3.4.1.1 Échantillons gaussiens ou de grandes tailles : ANOVA 1 facteur . . . . . . . . . . 52
3.4.1.2 Échantillons de petites tailles : test de Kruskal-Wallis . . . . . . . . . . . . . . . 52
3.4.2 Tests de comparaison de K populations dépendantes (cas des mesures répétées) . . . . . . . 52
3.4.2.1 Échantillons gaussiens ou de grandes tailles : ANOVA 2 facteurs . . . . . . . . . 52
Estimation des effets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.2.2 Échantillons de petites tailles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Test de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Test de Quade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Test de Page . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4 Annexes 57
4.1 Rappel sur les convergences des suites de variables aléatoires . . . . . . . . . . . . . . . . . . . . . 57
4.1.0.3 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.0.4 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.0.5 Théorème centrale limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 Tables statistiques pour test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.1 Test des rangs signés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.2 Test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.3 Test de Wilcoxon (2 populations) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.4 Test de Shapiro-Wilk (normalité) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.5 Test de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6 TABLE DES MATIÈRES
Chapitre 1

Échantillonnage et statistiques descriptives

La problématique de l’inférence statistique consiste, à partir d’un échantillon de données provenant d’une
population de loi de probabilité inconnue, à déduire des propriétés sur cette population : quelle est sa loi (problème
d’estimation, chapitre 2), comment prendre une décision en contrôlant au mieux le risque de se tromper (problème
de test, chapitre 3).

1.1 Échantillon
Un échantillonnage correspond à des tirages indépendants et équiprobables d’individus au sein de la population.
On associe alors à chaque individu i une variable aléatoire Xi , dont on observe une seule réalisation xi .
Définition 1.1.1. Un échantillon X1 , . . . , Xn est un n-uplet (X1 , . . . , Xn ) de variables aléatoires Xi indépen-
dantes et identiquement distribuées (même loi).
Par simplicité nous utiliserons régulièrement le terme échantillon pour signifier à la fois l’échantillon d’obser-
vations x1 , . . . , xn et le n-uplet aléatoire (X1 , . . . , Xn ).
Il est fréquent de caractériser un échantillon par des quantités telle que la moyenne, variance, etc. Ces quantités sont
elles-mêmes des variables aléatoires fonction de X1 , . . . , Xn .
Définition 1.1.2. Une statistique T est une variable aléatoire fonction (mesurable) de X1 , . . . , Xn .

1.2 Exemple introductif


Le jeu de données GermanCredit.data, disponible en ligne1 , comporte des renseignements sur 1000 clients
d’une banque allemande, chaque client étant décrit par 20 variables. Ce jeu de données sera utilisé pour illustrer les
notions de ce chapitre. Le tableau 1.2 contient la description des 20 variables.

1.3 Description d’une variable


1.3.1 Les différents types de variables
Les variables que l’on rencontre en statistique peuvent être de différentes natures :
Définition 1.3.1. – une variable est quantitative si ses valeurs sont mesurables. Elle peut être continue (R) ou
discrète (N).
– une variable est qualitative si ses valeurs ne sont pas des valeurs numériques, mais des caractéristiques,
appelées modalités.
– une variable qualitative est dite ordinale si ses valeurs sont naturellement ordonnées (mention au bac, ap-
préciation, classe d’âge...). Dans le cas contraire elle est dite nominale (sexe, couleur des cheveux...).
Exercice. Définir le type de chacune des variables dans l’exemple GermanCredit.data.
1 http ://labomath.univ-lille1.fr/∼jacques/

7
8 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

numero nom de la variable valeur


1 état du compte chèque (en DM) A11 : < 0
A12 : ∈ [0, 200[
A13 : ≥ 200 ou versement des salaires pendant au moins un an
A14 : pas de compte chèque
2 durée en mois du crédit ∈N
3 historique des crédits A30 : pas de crédit / tous remboursés
A31 : tous les crédits dans la banque remboursés
A32 : crédits en cours
A33 : retard de paiement dans le passé
A34 : compte critique / crédit existant dans d’autre banque
4 but du crédit A40 : voiture neuve
A41 : voiture occasion
A42 : équipement / fourniture
A43 : radio / télévision
A44 : appareils ménagers
A45 : réparation
A46 : éducation
A47 : vacances
A48 : recyclage
A49 : professionnel
A410 : autre
5 montant du crédit (en DM) ∈R
6 montant de l’épargne (en DM) A61 : < 100
A62 : ∈ [100, 500[
A63 : ∈ [500, 100[
A64 : ≥ 1000
A65 : inconnu
7 ancienneté dans le travail actuel (an) A71 : sans emploi
A72 : < 1
A73 : ∈ [1, 4[
A74 : ∈ [4, 7[
A75 : ≥ 7
8 taux d’apport ∈R
9 état marital A91 : homme divorcé / séparé
A92 : femme divorcé / séparé / mariée
A93 : homme célibataire
A94 : homme marié / veuf
A95 : femme célibataire
10 autre demandeurs / garants A101 : aucun
A102 : co-demandeur
A103 : garant
11 durée d’habitation ∈N
dans la résidence actuelle (an)
12 biens A121 : immobilier
A122 : si pas A121 : placement (assurance vie ou part dans la banque)
A123 : si pas A121 et A122 : voiture ou autre, non compris dans la variable 6
A124 : inconnu
13 âge (an) ∈N
14 autre demande de crédits A141 : banque
A142 : magasins
A143 : aucun
15 situation dans la résidence actuelle A151 : locataire
A152 : propriétaire
A153 : occupant à titre gratuit
16 nombre de crédits dans la banque ∈N
17 emploi A171 : sans emploi / non qualifié - étranger
A172 : non qualifié - non étranger
A173 : emploi qualifié / fonctionnaire
A174 : gestion / indépendant / emploi hautement qualifié / haut fonctionnaire
18 nombre de personnes pouvant ∈N
rembourser le crédit
19 téléphone A191 : aucun
A192 : oui, enregistré au nom du client
20 travailleur étranger A201 : oui
A202 : non

TAB . 1.1 – Variables du jeu de données GermanCredit.data


1.3. DESCRIPTION D’UNE VARIABLE 9

1.3.2 Résumés numériques d’une variable quantitative


Soit X1 , . . . , Xn un échantillon d’une variable aléatoire quantitative, de fonction de répartition F .

1.3.2.1 Caractéristiques de tendance centrale


La moyenne empirique exprime la valeur moyenne de l’échantillon :
n
1X
X̄ = Xi .
n i=1

Attention, cette quantité est très sensible aux valeurs extrêmes.


Beaucoup moins sensible aux extrêmes, la médiane M est la valeur qui partage l’échantillon, rangé dans l’ordre
croissant X1 ≤ X2 ≤ . . . ≤ Xn (ou décroissant), en deux parties égales. Si n est impair la médiane sera X n+1 ,
2
X n +X n +1
sinon ce sera par convention 2
2
2
. La fonction de répartition vaut 0.5 en la médiane : F (M ) = 0.5.
Lorsque les données sont entières, on utilise parfois le mode qui est la valeur la plus fréquente.

1.3.2.2 Caractéristiques de dispersion


L’étendue, ou intervalle de variation est la différence entre les deux valeurs extrêmes : Xmax − Xmin . Attention,
les variables Xmin et Xmax n’ont plus la même distribution que les variables X1 , . . . , Xn de l’échantillon. En effet,
on montre (exercice) que leur fonction de répartition sont respectivement :

Fmin (x) = F n (x) et Fmax (x) = 1 − (1 − F (x))n .

Les 1er et 3ème quartiles Q1 et Q3 sont définis par F (Q1 ) = 0.25 et F (Q3 ) = 0.75. L’intervalle inter-quartile
[Q1 , Q3 ] contient donc 50% des données.
Bien que l’intervalle inter-quartile soit moins sensible aux valeurs extrêmes que l’étendue, il n’est pas très souvent
utilisé. On utilise plus souvent la variance empirique V 2 et sa racine carré V l’écart-type :
n n
1X 1X 2
V2 = (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i

L’écart-type a l’avantage de s’exprimer dans la même unité que les données.


Le coefficient de variation exprime quant à lui le rapport V /X̄.

1.3.2.3 Caractéristiques de forme


Elles permettent de situer la distribution observée par rapport à une distribution de référence qu’est la distribution
gaussienne.
Le coefficient d’asymétrie γ1 (skewness) indique la symétrie de la distribution :
1 Pn
(Xi − X̄)3
γ1 = p i=1
n
,
( n/(n − 1)V )3
p
l’intérêt du facteur n/(n − 1) au dénominateur sera précisé au chapitre 2. Il est nul pour une distribution symé-
trique. Un γ1 positif indique une distribution décalée vers la gauche avec une queue de distribution étendue vers la
droite.
Le coefficient d’aplatissement γ2 (kurtosis) renseigne sur la diffusion de la distribution :
1
Pn
(Xi − X̄)4
γ2 = n i=1 .
(n/(n − 1))2 V 4

Il vaut 3 pour une distribution gaussienne. Si la distribution est plus aplatie qu’une gaussienne, le coefficient d’apla-
tissement sera supérieur à 3.
Attention : certains logiciels et/ou auteurs soustraient 3 à γ2 pour le comparer directement à 0.
10 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

1.3.3 Représentation graphique d’une variable quantitative


1.3.3.1 Boîte à moustaches ou box plot

Une boîte à moustaches (figure 1.1) résume la série de données à l’aide des caractéristiques suivantes :
– la médiane est le trait centré au milieu de la boîte,
– la boîte est formée par les 1er quartile q1 et 3ème quartile q3 ,
– les moustaches sont définies par les valeurs observées les plus extrêmes dans l’intervalle [q1 − 1.5(q3 −
q1 ), q3 + 1.5(q3 − q1 )],
– les ◦ représentent les valeurs extrêmes non contenues dans l’intervalle précédent.

70
60
50
40
30
20

F IG . 1.1 – Boîte à moustaches illustrant la distribution des âges des clients.

Cette représentation permet également de comparer facilement la distribution de différentes variables, ou encore de
la même variable pour différentes modalités d’une variable qualitative (figure 1.2). On remarque ainsi que parmi les
clients de la banque allemande les femmes divorcées, séparées ou mariées ainsi que les hommes mariés ou veufs
sont généralement moins âgés que les hommes célibataires, divorcés ou séparés.

1.3.3.2 Histogramme

Un histogramme est un graphique en barres verticales accolées obtenu après découpage en classes de l’intervalle
de variation des données. La surface de chaque barre est proportionnelle à la fréquence de la classe. Pour des classes
de même largeur (souvent utilisées dans les logiciels), c’est donc la hauteur de la barre qui est proportionnelle à la
fréquence de la classe. La surface de l’ensemble des barres vaut 1.
L’histogramme d’une série de données peut être vue comme une version discontinue empirique de la courbe de
densité d’une variable aléatoire. Ainsi, sa visualisation permet d’avoir un avis sur la nature de la distribution des
données. Par exemple (figure 1.3), la variable âge ne semble pas suivre une loi normale.
Attention : sur un histogramme figurent en ordonnées des fréquences et non pas des effectifs, comme ont tendance
à le faire beaucoup de logiciels !
1.3. DESCRIPTION D’UNE VARIABLE 11

70
60
50
40
30
20

A91 A92 A93 A94

F IG . 1.2 – Boîte à moustaches illustrant la distribution des âges des clients suivant les différents statut maritaux.

Histogram of data[, 13]


0.04
0.03
Density

0.02
0.01
0.00

20 30 40 50 60 70

data[, 13]

F IG . 1.3 – Histogramme des âges des clients.


12 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

1.3.3.3 La fonction de répartition empirique


La fonction de répartition empirique d’une série de données est définie par :
Nx
Fn (x) =
n
où Nx = #{Xi : Xi ≤ x, 1 ≤ i ≤ n} est le nombre de données inférieures ou égales à X. En tant que fonction
de l’échantillon, la fonction de répartition empirique est une variable aléatoire. Voir un exemple de fonction de
répartition empirique sur la figure 1.4, calculée et représentée à l’aide de la fonction ecdf sous le logiciel R.

ecdf(x)
1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

20 30 40 50 60 70 80

F IG . 1.4 – Fonction de répartition empirique des âges des clients.

1.3.4 Résumé numérique d’une variable qualitative


Soit X une variable aléatoire qualitative prenant ses valeurs dans l’espace des modalités {m1 , . . . , mp }. Plutôt
que de s’intéresser directement à l’échantillon X1 , . . . , Xn , on s’intéresse généralement aux fréquences d’observa-
tion de chaque modalité dans cet échantillon. Pour chaque modalité mj de la variable qualitative (1 ≤ j ≤ p), on
note

Nj = #{Xi : Xi = mj , 1 ≤ i ≤ n}
Pp
le nombre d’occurrences (effectif) de la modalité mj dans l’échantillon ( j Nj = n), et Fi la fréquence corres-
pondante :
Ni
Fi = .
n

1.3.5 Représentation graphique d’une variable qualitative


Les variables qualitatives nominales sont généralement représentées sous la forme de camemberts (pie-chart,
figure 1.5) ou diagramme en barres horizontales (figure 1.6). On utilisera des diagrammes en barres verticales
lorsque les variables sont qualitatives ordinales.
1.3. DESCRIPTION D’UNE VARIABLE 13

A92

A91

A94

A93

F IG . 1.5 – Diagrammes en camenbert des situations maritales des clients.


A94
A93
A92
A91

0 100 200 300 400 500

F IG . 1.6 – Diagrammes en barres des situations maritales des clients.


14 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

1.4 Description de plusieurs variables


Nous nous intéressons dans cette section à l’étude simultanée de deux variables, avec comme objectif de mettre
en évidence une évolution simultanée de ces deux variables.

1.4.1 Liaison entre deux variables quantitatives


Nuage de points. L’étude graphique du nuage de points représentant les deux variables X et Y d’intérêts permet
de mettre en évidence un certain lien entre les variables :
– une liaison linéaire positive ou négative,
– une liaison non linéaire,
– une absence de liaison,
– ou encore des structures de liaison plus particulières (absence de liaison en moyenne mais pas en dispersion).
On devine sur l’exemple bancaire (figure 1.7) une liaison linéaire linéaire positive entre la durée et le montant du
crédit.
15000
10000
data[, 5]

5000
0

10 20 30 40 50 60 70

data[, 2]

F IG . 1.7 – Représentations du montant du crédit en fonction de sa durée.

Coefficient de corrélation linéaire L’indice de liaison utilisé est le coefficient de corrélation linéaire, défini
par :
VXY
ρXY =
VX VY
où VX et VY sont les écart-types des variables X et Y , et VXY est la covariance empirique entre X et Y , définie
par :
n n
1X 1X
VXY = (Xi − X̄)(Yi − Ȳ ) = Xi Yi − X̄ Ȳ
n i=1 n i=1

Le coefficient de corrélation (comme la covariance) est symétrique (ρXY = ρY X ) et prend ses valeurs entre −1 et
+1.
1.4. DESCRIPTION DE PLUSIEURS VARIABLES 15

Attention : si les variables X et Y sont indépendantes, leur covariance est nulle et donc leur coefficient de corréla-
tion linéaire également. Mais la réciproque est fausse !

Coefficient de corrélation partielle Il arrive parfois que l’on constate une corrélation étonnante entre deux
variables. Ce phénomène arrive lorsque la corrélation est en fait due à une troisième variable. On cite souvent
l’exemple du nombre de maladies mentales (X) corrélé positivement avec le nombre de postes de radio (Y ), cor-
rélation purement fictive étant en fait due à une troisième variable non aléatoire, le temps (T ). Pour remédier à ce
phénomène on utilise le coefficient de corrélation partielle (ou conditionnel) de X et Y conditionnellement à T :
ρXY − ρXT ρY T
ρXY ·T = p
(1 − ρ2XT )(1 − ρ2Y T )

1.4.2 Liaison entre une variable quantitative et une variable qualitative


On a déjà vu sur la figure 1.2 comment il est possible d’illustrer la liaison entre une variable qualitative et
une variable quantitative en représentant côte à côte des boîtes à moustaches pour chaque modalité de la variable
qualitative.
Soit X la variable qualitative à R modalités, et Y la variable quantitative. Notons N1 , . . . , NR les effectifs de
chaque modalité au sein de l’échantillon, Ȳ1 , . . . , ȲR et V12 , . . . , VR2 les moyennes et variances de Y pour chaque
modalité de X, et Ȳ et V 2 les moyenne et variance globales de Y .
On montre alors que la variance de Y peut se décomposer suivant la formule d’analyse de variance suivante :
R R
2 1X 2 1X
V = Nj (Ȳj − Ȳ ) + Nj Vj2 .
n j=1 n j=1
| {z } | {z }
2 :variance inter (between) ou expliquee parX
VX variance intra (within) ou résiduelle

Cette formule d’analyse de variance est l’analogue empirique, dans le cas où X est une variable aléatoire qualitative,
de la formule vue en probabilité :

V (Y ) = V (E[Y |X]) + E[V (Y |X)].

On peut alors définir comme indice de liaison le rapport de corrélation :


r
VX2
RY |X = .
V2
Le carré de ce rapport est appelé coefficient de détermination, et est également utilisé par la suite pour exprimer
le degré de liaison entre deux variables quantitatives.

1.4.3 Liaisons entre deux variables qualitatives


Soient deux variables aléatoires qualitatives pouvant prendre respectivement R et C modalités : m1 , . . . , mR et
o1 , . . . , oC . Les données de ce type sont présentées dans un tableau dans lequel les modalités de X figurent en ligne
et celles de Y en colonne, contenant dans chaque case les effectifs conjoints Nrc . Un tel tableau est appelé table de
contingence :
Les Nr· et N·c sont les marges, ou effectifs marginaux, en lignes et en colonnes.
On appelle r-ème profil-ligne l’ensemble des fréquences de la variables Y conditionnelles à la modalités mr de
X:
Nr1 Nrc NrC
{ ,··· , ,··· , }.
Nr· Nr· Nr·
De même on définit le c-ème profil-colonne :
N1c Nrc NRc
{ ,··· , ,··· , }.
N·c N·c N·c
16 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

o1 ··· oc ··· oC sommes


m1 N11 ··· N1c ··· N1C N1·
.. .. .. .. ..
. . . . .
mr Nr1 ··· Nrc ··· NrC Nr·
.. .. .. .. ..
. . . . .
mR NR1 ··· NRc ··· NRC NR·
sommes N·1 ··· N·c ··· N·C n

TAB . 1.2 – Table de contingence

Lorsque aucune liaison n’existe entre les deux variables qualitatives, tous les profils-lignes sont égaux entre eux,
ainsi que tous les profils-colonnes. On a ainsi
Nr· N·c
Nrc = ∀1 ≤ r ≤ R, 1 ≤ c ≤ C.
n
Une mesure de la liaison entre les deux variables peut être faite en évaluant l’écart à cette situation de non liaison,
par l’indice suivant :
R X C 2 " R C #
2
X Nrc − Nr·nN·c X X N2
rc
χ = Nr· N·c
=n −1
r=1 c=1 n r=1 c=1
Nr· N·c

Le χ2 est toujours positif ou nul, et il est d’autant plus grand que la liaison est forte. Malheureusement cet indice
dépend des dimensions R et C ainsi que de l’effectif total n. D’autres indicateurs sont alors utilisés comme :
2
– le Φ2 = χn qui dépend encore de C et de R,
– le C de Cramer s
Φ2
C=
inf (R, C) − 1
qui est compris entre 0 et 1,
– le T de Tschuprow s
Φ2
T =
(R − 1)(C − 1)
qui est compris entre 0 et 1 et est inférieur au C de Cramer.

1.4.3.1 Cas des variables ordinales


Lorsque les variables aléatoires sont ordinales, beaucoup d’utilisateurs des statistiques ont tendances à considérer
les variables comme si elles étaient quantitatives. Or ceci est très abusif, et peut amener à des conclusions erronées,
notamment lorsque les modalités ne sont pas équiréparties. Une solution plus correcte consiste à travailler sur les
rangs associés (cf. section 3.2.1.2). L’échantillon X1 , . . . , Xn est remplacé par les rangs associés R1 , . . . , Rn , où
Ri est le rang de la variable Xi dans le classement par ordre croissant des variables de l’échantillon.
On utilise alors simplement comme indice de liaison entre deux variables ordinales le coefficient de corrélation
linéaire entre leurs rangs, appelé coefficient de corrélation des rangs de Spearman.

1.4.4 Vers le cas multidimensionnel


Considérons désormais un échantillon X1 , . . . , Xn de variables aléatoires quantitatives p-dimensionnelles (Xi =
(Xi1 , . . . , Xip ) ∈ Rp ). On note généralement cet échantillon sous la forme d’une matrice (ou d’un tableau) n × p :
X = (Xij )1≤i≤n,1≤j≤p .
Les covariances entre les variables sont exprimées par la matrice de variance Σ, de taille p × p, composées des
variances sur la diagonale et des covariances en dehors de la diagonale :
1 t
Σ= Y Y
n
1.4. DESCRIPTION DE PLUSIEURS VARIABLES 17

où Y est le tableau des données centrées, obtenu par Y = AX avec A la matrice n×n de terme général aij vérifiant
aij = 1Ii=j − 1/n.
Propriétés de la matrice de variance :
– Σ est symétrique : Σt = Σ,
– Les valeurs propres de Σ sont positives ou nulles. Lorsqu’il n’existe aucune relation affine presque sûre entre
les composantes du vecteur aléatoire, la matrice Σ est à valeurs propres strictement positives : elle est définie
positive.
18 CHAPITRE 1. ÉCHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES
Chapitre 2

Estimation

Soit un échantillon X1 , . . . , Xn de variables aléatoires indépendantes et identiquement distribuées, d’espérance


µ et de variance σ 2 .
L’estimation statistique consiste à donner une valeur approchée à une caractéristique d’une population, à partir d’un
échantillon d’observations issus de cette population. Nous nous intéressons dans un premier temps à l’estimation de
paramètres de la population (espérance, variance, proportion...). Dans un second temps, nous chercherons à décrire
de façon encore plus fine le comportement d’une population statistique en estimant la fonction de répartition et la
densité de probabilité d’une variable aléatoire quantitative.

2.1 Préambule : étude des statistiques X̄ et V 2


Nous avons vu dans le chapitre précédent l’intérêt des statistiques X̄ et V 2 pour décrire la tendance centrale et
la variabilité d’un échantillon X1 , . . . , Xn . Nous étudions dans cette section les propriétés de ces deux statistiques.

2.1.1 Etude de la statistique X̄


On montre facilement (exercice) que :
σ2
E[X̄] = µ et . V (X̄) =
n
Nous verrons plus tard que la première propriété fait de X̄ un estimateur sans biais de l’espérance µ de la population.
On peut montrer également que les coefficients d’asymétrie (skewness) et d’aplatissement (kurtosis) de X̄ sont
respectivement
γ1 γ2 − 3
γ1 (X̄) = √ et γ2 (X̄) = 3 +
n n
où γ1 et γ2 sont les coefficients d’asymétrie1 et d’aplatissement2 de la loi de l’échantillon.
On remarque que :
n→∞
– comme V (X̄) −→ 0 on a E[(X̄ −µ)2 ] → 0 et donc X̄ converge en moyenne quadratique vers µ l’espérance
de la loi de l’échantillon,
n→∞ n→∞
– γ1 (X̄) −→ 0 et γ2 (X̄) −→ 3 ce qui tend à penser à la normalité asymptotique de X̄.
Enfin, l’application de la loi forte des grands nombres au cas d’un échantillon (i.i.d.) assure que
p.s.
X̄ −→ µ
Remarque : la loi faible assure la convergence en probabilité.
Finalement, le théorème central-limite assure la la normalité asymptotique de X̄ :
X̄ − µ L
√ −→ N (0, 1)
σ/ n
E[(X−µ)3 ]
1 le coefficient d’asymétrie ou skewness est définit pour une variable aléatoire X de moyenne µ et de variance σ2 par γ1 = σ3
, et
est nul si la loi de X est symétrique
2 le E[(X−µ)4 ]
coefficient d’aplatissement ou kurtosis est définit par γ2 = σ4
, vaut 3 si la loi de X est normale et est supérieur à 3 si sa densité
est plus aplatie qu’une gaussienne

19
20 CHAPITRE 2. ESTIMATION

Application 1 : sondage électoral


Considérons le sondage d’une population visant à déterminer la proportion p d’électeurs votant pour un certain
candidat C. Nous supposons (ce qui n’est généralement pas le cas dans la réalité) que les différents sondeurs agissent
indépendamment, aléatoirement et ne relève pas l’identité des personnes sondées.
Soit Xi la variable aléatoire qui vaut 1 si le sondé i déclare voter pour C et 0 sinon. Soit n le nombre de personnes
interrogées. Avec ces notations, la fréquence empirique des personnes déclarant voter pour C, définie par F =
1 Pn
n i=1 X i , n’est autre que X̄.
Les variables (X1 , . . . , Xn ) constituent un échantillon de loi de Bernoulli de paramètre p. Ainsi, si n est grand, le
théorème central limite nous permet de considérer que F suit une loi normale de moyenne p et de variance p(1−p) n .
Exercice. On suppose que 1000 personnes sondées, 300 ont déclaré voter pour C.
Sachant que la probabilité pour qu’une variable aléatoire de loi normale centrée réduite appartienne à [−1.96, 1.96]
est de 0.95, donner un intervalle (de confiance) auquel la variable aléatoire X̄ a 95% de chance d’appartenir.
Réponse : IC(p)95% = [0.2716, 0.3284]

2.1.2 Etude de la statistique V 2


On peut montrer en exercice que la statistique V 2 peut s’écrire sous la forme suivante
n
1X 2
V2 = X − X̄ 2 .
n i=1 i

La loi des grands nombres nous assure que


p.s.
V 2 −→ σ 2 ,
mais
n−1 2
E[V 2 ] = σ .
n
La preuve de cette dernière égalité est un exercice intéressant.
Contrairement à la statistique X̄, V 2 sera un estimateur biaisé de la variance de la population : il la sous-estime
légèrement. La variance de V 2 est :
n−1
V (V 2 ) = [(n − 1)µ4 − (n − 3)σ 4 ].
n3
Enfin, un théorème limite nous assure que la statistique V 2 converge en loi vers une loi normale :
V 2 − n−1 σ2 L
p n −→ N (0, 1)
V (V 2 )
µ4 −σ4
A noter que lorsque n → ∞, on a l’équivalence V (V 2 ) ∼ n , d’où l’approximation suivante :
V 2 − σ2 L
p −→ N (0, 1)
µ4 − σ 4
Propriété 2.1.1. La corrélation entre X̄ et V 2 est :
µ3
ρ(X̄, V 2 ) = q
n−3 4
σ µ4 − n−1 σ

Démonstration en exercice (indication : on supposera sans perte de généralité que µ = 0).


Ainsi, la corrélation entre X̄ et V 2 est nulle si et seulement si µ3 = 0, ce qui est le cas des distributions symétriques.
Attention, cela n’implique nécessairement pas leur indépendance.
Afin de corriger le fait que E[V 2 ] 6= σ 2 on utilise la statistique
n
1 X
S2 = (Xi − X̄)2
n − 1 i=1
n
pour exprimer la variance de l’échantillon. Ainsi, E[S 2 ] = E[ n−1 V 2 ] = σ2
2.1. PRÉAMBULE : ÉTUDE DES STATISTIQUES X̄ ET V 2 21

2.1.3 Définition des lois du χ2 , de Student et de Fisher-Snedecor


Définition 2.1.1. Soient U1 , . . . , Un une suite de variables aléatoires normales centrées
Pn réduites indépendantes.
On appelle loi du khi-deux à n degrés de liberté χ2n la loi de la variable aléatoire i=1 Ui2

L’espérance et la variance d’une variable aléatoire de loi χ2n sont :

E[χ2n ] = n et V (χ2n ) = 2n

La densité d’une variable aléatoire de loi χ2n est :


n
x 2 −1 − x
f (x) = n e
2 1I
{x>0}
Γ( n2 )2 2
R∞
où Γ(a) = 0
e−x xa−1 dx

Définition 2.1.2. Soient X et Y deux variables aléatoires indépendantes de lois du χ2n et χ2p . On appelle loi de
Fisher de paramètres n et p, notée Fn,p , la loi de la variable

X
n
F = Y
.
p

L’espérance et la variance d’une variable aléatoire de loi Fn,p sont :

p 2p2 (n + p − 2)
E[F ] = pour tout p > 2 et V (F ) = pour tout p > 4.
p−2 n(p − 2)2 (p − 4)

Définition 2.1.3. Soient U une variable aléatoire normale centrée réduite et X une variable aléatoire de loi du
χ2n , indépendante de U . On appelle loi de Student à n degrés de liberté, notée tn , la loi de la variable aléatoire
Tn = √UX
n

L’espérance et la variance d’une variable aléatoire de loi tn sont :


n
E[Tn ] = 0 si n > 1 et V (Tn ) = si n > 2.
n−2

2.1.4 Cas des échantillons gaussiens


Lorsque l’échantillon (X1 , . . . , Xn ) est issu d’une loi normale, la statistique X̄ suit alors une loi normale en
tant que combinaison linéaire de variables normales (plus besoin de théorème asymptotique).
En partant de l’égalité Xi − X̄ = Xi − µ + µ − X̄, on peut décomposer V 2 sous la forme :
n
1X
V2 = (Xi − µ)2 − (X̄ − µ)2 ,
n i=1

n
d’où, en multipliant par σ2 :
n
X Xi − µ 2 n X̄ − µ
( ) = 2 V 2 + ( σ )2
i=1
σ σ √
n

En appliquant le théorème de Cochran sur les formes quadratiques à cette décomposition, on en déduit les deux
théorèmes suivants.
n 2
Théorème 2.1.1. (X1 , . . . , Xn ) est un échantillon gaussien =⇒ σ2 V ∼ χ2n−1 .

Théorème 2.1.2. X̄ et V 2 sont indépendants ⇐⇒ (X1 , . . . , Xn ) est un échantillon gaussien.


22 CHAPITRE 2. ESTIMATION

2.2 Notion d’estimateur


Nous avons étudié au paragraphe précédent les deux statistiques X̄ et V 2 . Les lois des grands nombres nous
assure que les valeurs x̄ et v 2 de ces statistiques pour un échantillon donné sont de bonnes estimations de la moyenne
µ et la variance σ 2 de la population :
p.s. p.s.
X̄ −→ µ et V 2 −→ σ 2

De même la fréquence empirique f d’un événement est une bonne estimation de sa probabilité p.
Les variables aléatoires X̄, V 2 et F sont des estimateurs de µ, σ 2 et p.

Définition 2.2.1. On appelle estimateur d’un paramètre θ d’une population, toute fonction

Tn = f (X1 , . . . , Xn )

Un estimateur est une variable aléatoire (c’est une fonction de variable aléatoire).
Il est cependant possible d’utiliser plusieurs estimateurs pour une même quantité (pour une distribution symé-
trique, la médiane est également un estimateur de µ). Nous allons donc présenter dans le paragraphe suivant les
différentes qualités d’un estimateur qui nous guideront dans son choix.

2.3 Qualité d’un estimateur


La première qualité que l’on attend d’un estimateur est qu’il converge vers le paramètre qu’il estime, lorsque la
taille de l’échantillon tend vers l’infini.

Définition 2.3.1. Un estimateur Tn est faiblement consistant s’il converge en probabilité vers θ quand n tend vers
l’infini
n→∞
∀ǫ > 0 IP(|Tn − θ| ≥ ǫ) −→ 0

Un estimateur Tn est fortement consistant s’il converge presque-sûrement vers θ quand n tend vers l’infini
 
IP lim Tn = θ = 1
n→∞

Une seconde qualité est l’absence de biais d’un estimateur.

Définition 2.3.2. On appelle biais d’un estimateur la quantité E[Tn ] − θ

On parle alors d’estimateur sans biais, biaisé ou asymptotiquement sans biais.

Exemple. Que dire des estimateurs X̄, V 2 et S 2 ?

On mesure également la précision d’un estimateur Tn par l’erreur quadratique moyenne E[(Tn − θ)2 ], qui se
décompose sous la forme

E[(Tn − θ)2 ] = V (Tn ) + (E[Tn ] − θ)2

Ainsi, de deux estimateurs sans biais, le plus performant sera celui de variance minimale. Nous chercherons donc
généralement à utiliser des estimateurs sans biais de variance minimale.
1
Pn
Exemple. On peut montrer que lorsque µ est connue, l’estimateur Vµ2 = n i=1 (Xi − µ)2 est meilleur que S 2 .

Exercice. Proposer 2 estimateurs pour le paramètre d’une loi de Poisson et déterminer le meilleur.
2.4. ESTIMATEUR EXHAUSTIF 23

2.4 Estimateur exhaustif


Un échantillon X1 , . . . , Xn contient une certaine information vis-à-vis d’un paramètre inconnu θ de la popula-
tion. Une statistique Tn résumant l’information contenue dans l’échantillon, il sera très important de ne pas perdre
d’information : c’est cette qualité que l’on nomme l’exhaustivité.

Définition 2.4.1. On appelle vraisemblance du paramètre θ la fonction


 Qn
Qi=1 f (xi ; θ) si les Xi sont continues
L(x1 , . . . , xn , θ) = n
i=1 I
P(X i = xi ; θ) si les Xi sont discrètes

où f (.; θ) est la densité de la variable aléatoire X1 et IP(Xi = xi ; θ) est la probabilité de l’événement {Xi = xi }
paramétrée par θ.

Soit Tn une statistique fonction de X1 , . . . , Xn de loi g(t, θ) (densité dans le cas continu, P (T = t) dans le cas
discret).
Définition 2.4.2. La statistique T est exhaustive pour θ si

L(x1 , . . . , xn , θ) = g(t, θ)h(x1 , . . . , xn ).

En d’autre terme, elle est exhaustive si la loi de l’échantillon sachant T = t ne dépend pas de θ
Ce qui signifie que si T est connue, l’échantillon n’apportera plus aucune autre information supplémentaire sur
θ.
Pn
Exemple. Pour la loi normale de moyenne connue µ, la statistique T = i=1 (Xi − µ)2 est exhaustive pour σ 2 .
Théorème 2.4.1 (de Darmois). Soit X1 , . . . , Xn un échantillon dont le domaine de définition de la loi ne dépend
pas de θ. Une condition nécessaire et suffisante pour que l’échantillon admette une statistique exhaustive est que la
densité soit de la forme :

f (x, θ) = exp[a(x)α(θ) + b(x) + β(θ)]

Une telle densité est dite de la P


famille exponentielle. P
Si de plus l’application x1 → ni=1 a(xi ) est bijective et C 1 alors T = ni=1 a(Xi ) est une statistique exhaustive
particulière.
Qn
Exemple. Montrer que T = ln i=1 Xi est une statistique exhaustive pour une loi Gamma de paramètre θ inconnu,
dont la densité est
xθ−1
f (x) =
Γ(θ)e−x
Exercice. Donner des statistiques exhaustives pour les lois de Bernoulli, exponentielle et normale (avec soit la
variance connue, soit la moyenne).
La notion d’exhaustivité renseigne sur le pouvoir d’une statistique à véhiculer l’information contenue dans
un échantillon vis-à-vis d’un paramètre inconnu θ que l’on cherche à estimer. La quantité d’information sur le
paramètre apportée par l’échantillon s’exprime elle par l’information de Fisher.
Définition 2.4.3. On appelle quantité d’information de Fisher In (θ) apportée par un n-échantillon sur le paramètre
θ la quantité suivante (si elle existe) :
" 2 #
∂lnL
In (θ) = E
∂θ

Théorème 2.4.2. Si le domaine de définition de la loi de l’échantillon ne dépend pas de θ, on a :


 2 
∂ lnL
In (θ) = −E
∂θ2
24 CHAPITRE 2. ESTIMATION

Propriété 2.4.1. (i) Si le domaine de définition de la loi de l’échantillon ne dépend pas de θ, In (θ) = nI1 (θ)
(ii) Si la loi de l’échantillon est une loi normale de variance connue, (θ = µ), alors I1 (θ) = σ12
 2 
(iii) en notant IT (θ) = E ∂lng(t,θ) ∂θ l’information de Fisher apportée par la statistique T , avec g(t, θ) la
densité de T , on a IT (θ) ≤ In (θ). On a égalité si T est exhaustive, et réciproquement si le domaine de
définition de la loi de l’échantillon est indépendant de θ.

La propriété 1 dit que chaque observation a la même importance, ce qui n’est pas le cas lorsque le domaine de
définition dépend de θ, comme pour une loi uniforme sur [0, θ], où la plus grande valeur de l’échantillon apporte
plus d’information que les autres sur θ.
La propriété 2 nous assure l’information apportée par une observation est d’autant plus grande que la dispersion est
petite.

2.5 Estimation sans biais de variance minimale


Nous avons vu précédemment que les deux qualités les plus importantes pour un estimateur étaient d’être sans
biais, et de variance minimale. Il existe un certain nombre de théorèmes facilitant la recherche d’un tel estimateur.

Théorème 2.5.1 (Unicité). S’il existe un estimateur de θ sans biais de variance minimale, il est unique presque
sûrement.

Théorème 2.5.2 (Rao-Blackwell). Soit T un estimateur sans biais de θ et U une statistique exhaustive pour θ.
Alors T ∗ = E[T |U ] est un estimateur sans biais de θ au moins aussi bon que T (d’un point de vue variance).

Théorème 2.5.3. S’il existe une statistique exhaustive U , alors l’unique estimateur T de θ sans biais de variance
minimale ne dépend que de U .

Définition 2.5.1. Une statistique U est complète si E[h(U ) = 0] ∀θ ⇒ h = 0p.s.

Théorème 2.5.4 (Lehmann-Scheffé). Si T ∗ est un estimateur sans biais de θ dépendant d’une statistique exhaustive
complète U alors T ∗ est l’unique estimateur sans biais de variance minimale. En particulier si l’on dispose d’un
estimateur T sans biais de θ, T ∗ = E[T |U ].

Exemple. Le nombre de bug informatique par semaine d’un logiciel donné suit une loi de Poisson de paramètre
λ. On cherche à évaluer la probabilité de n’avoir aucune panne pendant une semaine P (X = 0) = e−λ . Que
proposez-vous ?

Le résultat suivant nous indique une borne à laquelle ne peut être inférieure la variance d’un estimateur.

Théorème 2.5.5 (Inégalité de Fréchet-Darmois-Cramer-Rao). Si le domaine de définition de la loi de l’échantillon


ne dépend pas de θ, tout estimateur T vérifie

1
V (T ) ≥
In (θ)

et si T est un estimateur sans biais de h(θ)


[h′ (θ)]2
V (T ) ≥
In (θ)

Définition 2.5.2. Un estimateur qui atteint la borne de Cramer-Rao est dit efficace. Autrement dit, un estimateur
est efficace s’il n’est pas possible de trouver un estimateur sans biais de variance plus faible.

Théorème 2.5.6 (efficacité). – la borne de Cramer-Rao ne peut être atteinte que si la loi de l’échantillon est
de la famille exponentielle :
f (x, θ) = exp[a(x)α(θ) + b(x) + β(θ)]
2.6. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE 25

– dans ce cas il n’existe qu’une seule fonction du paramètre θ (à une transformation linéaire près) qui puisse
être estimée efficacement, c’est
β ′ (θ)
h(θ) = − ′
α (θ)
L’estimateur de h(θ) est alors
n
1X
T = a(Xi )
n i=1

et la variance minimale est


h′ (θ)
V (T ) =
nα′ (θ)
Exemple. Donner un estimateur de l’écart-type d’une loi normale de moyenne connue.

La recherche d’estimateur sans biais de variance minimale passe donc par la recherche d’estimateur exhaustif.
Or cette recherche peut ne pas aboutir, et elle est de plus assez lourde. La méthode du maximum de vraisemblance
est une méthode systématique permettant de trouver des estimateurs.

2.6 Méthode du maximum de vraisemblance


La méthode du maximum de vraisemblance permet de trouver des estimateurs dans toutes les situations, même
les plus compliquées. C’est une des méthodes d’estimation les plus utilisées.
Cette méthode consiste à recherche le paramètre θ qui maximise la fonction de vraisemblance L(x1 , . . . , xn , θ),
c’est-à-dire pour lequel la densité de l’échantillon est la plus grande.
L’estimateur du maximum de vraisemblance (EMV) est donc une solution de l’équation de vraisemblance


lnL(X1 , . . . , Xn , θ) = 0
∂θ
∂2
vérifiant ∂θ 2 lnL(X1 , . . . , Xn , θ̂) < 0. Un certain nombre de propriété nous prouve l’intérêt de cette estimateur.

Propriété 2.6.1. (i) S’il existe une statistique exhaustive U , alors l’EMV en dépend.
(ii) Si θ̂ est l’EMV, f (θ̂) est l’EMV de f (θ)
(iii) Il existe une suite θ̂n de racines de l’équation de vraisemblance qui converge presque sûrement vers θ. de
plus, il existe un rang à partir duquel le maximum est atteint.
L 1
(iv) θ̂n −→ N (θ, In (θ) ).

La dernière propriété nous assure que l’EMV est asymptotiquement efficace. Il est donc important d’avoir un
échantillon important pour utiliser cet estimateur.
Lorsque le modèle comporte plusieurs paramètres θ1 , . . . , θp , il sera nécessaire de résoudre le système d’équation
simultanées

lnL = 0 ∀1 ≤ i ≤ p
∂θi
Remarque 2.6.1. – L’équation de vraisemblance n’a pas nécessairement une unique racine.
– La solution de l’équation de vraisemblance n’est pas toujours calculable analytiquement. Dans ce cas, des
algorithmes de recherche de maximum (de type Newton) peuvent être utilisés.

2.7 Estimation par intervalles


Il est souvent plus intéressant de donner une estimation d’un paramètre d’intérêt sous la forme d’un intervalle,
associé à une certaine probabilité d’être dans cet intervalle, plutôt que de donner une estimation ponctuelle de ce
paramètre.

Exemple. Sondages électoraux.


26 CHAPITRE 2. ESTIMATION

Considérons un estimateur T de θ dont on connait la loi de probabilité. On prendra bien entendu le meilleur
estimateur possible, dès lors que sa loi est connue. Connaissant la loi de T qui dépend de θ, pour une valeur estimée
t de θ il est possible de déterminer un intervalle tel que :

P (θ ∈ [t1 (t, α), t2 (t, α)]) = 1 − α.

Ainsi, la vraie valeur (inconnue) du paramètre θ sera dans l’intervalle [t1 (t, α), t2 (t, α)] avec une probabilité 1 − α.
On dit que [t1 (t, α), t2 (t, α)] est un intervalle de confiance de niveau 1 − α, que l’on note IC1−α (θ).
A contrario, le risque α est la probabilité pour que l’intervalle de confiance ne comprenne pas θ.

Remarque 2.7.1. (i) l’intervalle de confiance est fonction de l’estimation t de θ,


(ii) l’intervalle de confiance est également fonction de α. Plus α est petit, plus le niveau de confiance est grand,
et donc plus l’intervalle s’élargit.
(iii) lorsque la taille de l’échantillon grandit, l’estimateur T étant convergeant la variance V (T ) diminue, et
l’intervalle se rétrécit.

Soit a et b les bornes d’un intervalle de confiance IC1−α (θ) de niveau de confiance 1 − α pour le paramètre θ.
On a :
p(a ≤ θ ≤ b) = 1 − α et donc p(θ < a) + p(θ > b) = α
En posant α = α1 + α2 , il existe une infinité de choix possibles pour α1 et α2 , et donc de choix pour a et b. Nous ne
considérerons que le cas d’un intervalle bilatéral à risques symétriques, pour lesquels le risque est partagé en deux
parts égales α1 = α2 = α2 . Néanmoins, il arrive en pratique que l’on s’intéresse à des risque unilatéraux, mais nous
en parlerons plus en détail dans le chapitre 3 sur les tests statistiques.
Dans la suite de ce chapitre, nous décrivons les intervalles de confiance les plus classiques. Mais il faut garder à
l’esprit que ce ne sont pas les seuls, et que dès lors que l’on connait la loi de l’estimateur, il est possible de donner
un intervalle de confiance.

2.7.1 Intervalle de confiance sur l’espérance


2.7.1.1 Intervalle de confiance sur l’espérance d’une loi normale avec variance connue
Soit X ∼ N (µ, σ 2 ) avec σ connu. Le meilleur estimateur de µ est X̄. Comme X est de loi normale,

X̄ − µ
T = ∼ N (0, 1).
√σ
n

En prenant des risques symétriques, on peut lire dans les tables les quantiles u α2 et u1− α2 de la loi normale centrée
réduite d’ordres respectifs α2 et 1 − α2 , tels que :

IP(u α2 ≤ T ≤ u1− α2 ) = 1 − α

ou encore
α
IP(T ≤ u α2 ) = p(T ≥ u1− α2 ) = .
2
La notion de quantile est définie de la façon suivante :

Définition 2.7.1. pour une variable aléatoire continue X, le nombre qα tel que

IP(X ≤ qα ) = α,

est le quantile d’ordre α de la loi de X.

Ces quantiles sont notés de différentes façons : uα pour la loi normale, tnα pour la loi de Student à n degrés de
liberté, χnα pour la loi du χ2n , etc.
La figure 2.1 illustre la définition de ces quantiles.
Comme la loi normale est symétrique, on a la propriété suivante :

u1− α2 = −u α2 . (2.1)
2.7. ESTIMATION PAR INTERVALLES 27

0.5

0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1 α α
2 2
0.05

0
−4 −3 u−2α −1 0 1 u21−α 3 4
2 2

α α
F IG . 2.1 – quantiles d’ordre 2 et 1 − 2 de la loi normale centrée réduite

Ces quantiles sont donnés par les tables statistiques. Par exemple, pour α = 0.05, pour lequel on obtient u α2 =
−1.96.
D’après (2.1),
IP(u α2 ≤ T ≤ u1− α2 ) = 1 − α,
peut s’écrire
IP(u α2 ≤ T ≤ −u α2 ) = 1 − α,
d’où on tire
σ σ
IP(X̄ + u α2 √ ≤ µ ≤ X̄ − u α2 √ ) = 1 − α,
n n
d’où l’intervalle de confiance :
σ σ
IC1−α (µ) = [X̄ + u α2 √ , X̄ − u α2 √ ].
n n
Pour une réalisation numérique x1 , ..., xn du n-échantillon X1 , ..., Xn , on obtient l’intervalle de confiance sur m au
niveau de confiance 1 − α :
σ σ
IC1−α (µ) = [x̄ + u α2 √ , x̄ − u α2 √ ]. (2.2)
n n

qui donne pour α = 0.05 :


σ σ
[x̄ − 1.96 √ , x̄ + 1.96 √ ]
n n

2.7.1.2 Intervalle de confiance sur l’espérance d’une loi normale avec variance inconnue
Si la variance σ 2 est inconnue, on utilise a sa place son meilleur estimateur S 2 .
Comme on sait que σn2 V 2 suit une loi du χ2 à n − 1 degrés de liberté, n−1 2
σ2 S aussi.
La statistique que l’on utilise est donc
X̄ − µ
Tn−1 = S .

n

En remarquant qu’elle s’écrit


X̄−µ
√σ
n
Tn−1 = r
n−1 2
σ2
S
n−1
28 CHAPITRE 2. ESTIMATION

on trouve qu’elle suit une loi de Student à n − 1 degrés de liberté, comme rapport d’une loi normale centrée réduite
sur la racine d’un χ2 divisé par son degré de liberté.
Comme précédemment, on obtient l’intervalle de confiance :

S S
IC1−α (µ) = [x̄ + tn−1, α2 √ , x̄ − tn−1, α2 √ ],
n n
α
où tn−1, α2 est le quantile d’ordre 2 de la loi de Student à n − 1 degrés de liberté.

2.7.1.3 Si la loi de X n’est pas une loi normale


Dans ce cas, lorsque la taille de l’échantillon n est supérieure ou égale à 30, le théorème central limite nous
permet d’utiliser le fait que X̄ suit une loi normale, et donc les résultats précédents sont applicables.

2.7.2 Intervalle de confiance sur la variance d’une loi normale


2.7.2.1 Intervalle de confiance sur la variance d’une loi normale lorsque µ est connue
Comme µ est connue, le meilleur estimateur de la variance est la statistique :
Pn
2 (Xi − µ)2
Vµ = i=1 .
n
P 2
Or, (Xσi2−µ) = σn2 Vµ2 suit une loi du χ2 à n degrés de liberté en tant que somme de n carrés de loi normale centrée
réduite indépendantes.
Il est possible d’obtenir un intervalle de confiance sur σ 2 , en fixant le niveau de confiance 1 − α dans l’inégalité :
n 2
IP(χ2n, α2 ≤ V ≤ χ2n,1− α2 ) = 1 − α,
σ2 µ
α α
où χ2n, α et χ2n,1− α les quantiles d’ordre 2 et 1 − 2 de la loi du χ2 à n degrés de liberté.
2 2
L’intervalle est alors :
nVµ2 nVµ2
IC1−α (σ 2 ) = [ , ]
χ2n,1− α χ2n, α
2 2

On obtient une estimation numérique de cet intervalle en remplaçant Vµ2 par sa valeur sur le n-échantillon de X
obtenu par expérience.

2.7.2.2 Intervalle de confiance sur la variance d’une loi normale lorsque µ est inconnue
Si µ est inconnue, on utilise l’estimateur de σ 2 :
Pn
(Xi − X̄)2
S 2 = i=1 .
n−1
n−1 2
La propriété qui nous assure que σ2 S suit un loi du χ2n−1 nous permet de construire l’intervalle de confiance :

(n − 1)S 2 (n − 1)S 2
IC1−α (σ 2 ) = [ , ],
χ2n−1,1− α χ2n−1, α
2 2

et donc, en remplaçant S 2 par sa valeur s2 sur le n-échantillon obtenu par expérience :

(n − 1)s2 (n − 1)s2
IC1−α (σ 2 ) = [ , ].
χ2n−1,1− α χ2n−1, α
2 2

Remarque 2.7.2. Ces intervalles de confiance ne sont valables que pour une loi normale. Il n’est pas possible
d’étendre ces résultats au cas d’autre loi comme pour les intervalles de confiance sur la moyenne.
2.7. ESTIMATION PAR INTERVALLES 29

2.7.3 Intervalle de confiance sur une proportion


Nous supposons que la proportion p d’individus présentant un certain caractère C au sein d’une population est
inconnue. Le meilleur estimateur de p est la fréquence empirique F , que l’on peut définir par :
Pn
Xi
F = X̄ = i=1 ,
n
où Xi est une v.a. de Bernoulli de paramètre p, définie par :

1 si l’individu i possède la caractère C
Xi =
0 sinon.
Pn
Comme X suit une loi de Bernoulli B(p), nF = i=1 Xi suit une loi binomiale B(n, p).
Si n est faible, on utilisera les tables de la loi binomiale (ou des abaques).
Si n est suffisamment grand, de sorte que np > 5 et n(1 − p) > 5, on peut considérer (loi des grands nombres) que
Pn p(1−p)
i=1 Xi suit une loi normale N (np, np(1 − p)), d’où F suit une loi normale N (p, n ), et donc T = qFp(1−p)
−p

n
suit une loi N (0, 1).
On obtient alors, en fonction des quantiles p(u α2 ≤ T ≤ −u α2 ) = 1 − α, l’intervalle de confiance sur p :
r r
p(1 − p) p(1 − p)
IC1−α (p) = [F + u α2 , F − u α2 ].
n n
Cet intervalle recouvre p avec la probabilité 1 − α, mais il est toutefois inopérant puisque ses bornes dépendent de
p. En pratique, il existe trois façons d’obtenir l’intervalle de confiance. Nous retiendrons celle qui remplace p par
son estimateur F .
Ainsi, on obtient l’intervalle de confiance sur la proportion p en fonction de la valeur f de F sur notre échantillon :
r r
f (1 − f ) f (1 − f )
IC1−α (p) = [f + u α2 , f − u α2 ].
n n

2.7.4 Récapitulatif
Intervalle de confiance d’une moyenne

IC1−α (µ)

loi normale ou n ≥ 30

σ 2 connue σ 2 inconnue
[x̄ + u α2 √σn , x̄ − u α2 √σn ] [x̄ + tn−1, α2 √Sn , x̄ − tn−1, α2 √Sn ]

Intervalle de confiance d’une variance

IC1−α (σ 2 )

loi normale
µ connue µ inconnue
nVµ2 nVµ2 2 2
[ χ2 , α ] [ χ(n−1)s
2 , (n−1)s
χ2
]
n,1− α χ2n , 2 n−1,1− α
2
n−1, α
2
2

Intervalle de confiance d’une proportion

IC1−α (p)
np > 5 et n(1 − p) > 5
q q
[f + u α2 f (1−f
n
)
, f − u α
2
f (1−f )
n ]
30 CHAPITRE 2. ESTIMATION

2.8 Plus d’estimation statistique


2.8.1 Estimation bayésienne
Le point de vue bayésien suppose que les paramètres θ de la loi des observations X1 , . . . , Xn sont également
des variables aléatoires.
La densité g(θ) de θ est la loi a priori de θ.
La densité conditionnelle des observations Xi sachant θ estQf (xi |θ).
n
La vraisemblance (conditionnelle) est L(x1 , . . . , xn , θ) = i=1 f (xi |θ).
La loi conjointe des observations et du paramètre (X1 , . . . , Xn , θ) est

f (x1 , . . . , xn , θ) = L(x1 , . . . , xn , θ)g(θ).

On définit également la loi a posteriori du paramètre θ connaissant les observations :


L(x1 , . . . , xn , θ)g(θ)
g(θ|X1 = x1 , . . . , Xn = xn ) = R .
R L(x1 , . . . , xn , θ)g(θ)dθ

2.8.1.1 Application : estimation bayésienne de la moyenne d’une loi normale de variance connue
On suppose que la loi de l’échantillon conditionnellement à µ est N (µ, σ 2 ), et que la loi a priori de µ est
également une loi normale N (µ0 , σ02 ).
Le calcul de la loi a posteriori donne une loi normale d’espérance et de variance :
σ2 2 σ2 σ02
n µ0 + σ0 X̄ n
E[θ|X1 , . . . , Xn ] = σ 2
2
et V (θ|X1 , . . . , Xn ) = σ2
n + σ0 n + σ02
L’estimateur bayésien de µ, qui est l’espérance a posteriori est donc une moyenne pondérée de l’espérance a priori
et de la moyenne empirique des observations.
Introduisons le concept de précision, comme l’inverse de la variance. La précision a priori sur µ est η1 = σ12 et sur la
0
+η2 X̄
moyenne empirique elle est η2 = σn2 . On voit alors que E[θ|X1 , . . . , Xn ] = η1 ηµ10+η2
et V (θ|X11,...,Xn ) = η1 + η2 .
L’estimateur bayésien de µ est donc la moyenne pondérée des deux estimations (a priori et empirique) pondérées
par leur précision. Si l’information a priori est très précise, les observations n’auront que peu d’influence dans
l’estimateur bayésien. Au contraire si la précision a priori tend vers 0 ou si n tend vers l’infini, l’estimateur bayésien
est l’estimateur classique X̄.
Cette application fonctionne très bien car la loi a posteriori se calcule facilement. Mais pour des lois quel-
conques, les calculs sont généralement beaucoup plus compliqués, et la loi a posteriori doit être estimée par des
algorithmes spécifiques.
La statistique bayésienne peut être vu comme un raffinement de la statistique classique, mais le choix de la loi
a priori peut être très problématique et reste toujours subjectif. Néanmoins, pour les problèmes statistique dans
lesquels on dispose de peu de données (fiabilité de systèmes très rarement défaillant par exemple), l’incorporation
d’une information a priori (« jugement d’expert ») peut s’avérer très intéressante.

2.8.2 Estimation robuste : cas de la valeur centrale d’une distribution symétrique


L’estimation x̄ de l’espérance µ d’une distribution symétrique est très sensibles à des valeurs extrêmes « aber-
rantes ».
Lorsque des valeurs aberrantes sont présentes (ou soupçonnées), un estimateur robuste de l’espérance peut être
utilisé : la moyenne tronquée d’ordre α, qui est la moyenne arithmétique obtenue en éliminant de l’échantillon les
αn plus grandes et plus petites valeurs. Une valeur généralement recommandée est α = 15%.
La médiane est le cas extrême de cet estimateur pour α = 50%, et est très robuste.
Au lieu d’éliminer les αn plus grandes valeurs, il est également possible de toutes les fixer à la plus grande valeur
conservées : c’est ce qu’on appelle la « winzorization ».
D’autres approches existent également, comme celle des M -estimateurs, qui consistent à chercher une estima-
tion µ qui minimise une fonction du type
n  
X xi − µ
h
i=1
s
2.9. ESTIMATION FONCTIONNELLE 31

où s est une estimation robuste de la dispersion. Toute une famille d’estimateur est ainsi définie en fonction du
choix de h. Pour h(x) = −lnf (x), avec f la densité des données, on retrouve les estimateurs du maximum de
vraisemblance.

2.9 Estimation fonctionnelle


2.9.1 Estimation de la fonction de répartition
La fonction de répartition empirique, introduite section 1.3.3.3 et définie comme la proportion des n variables
X1 , . . . , Xn inférieures ou égales à x :

#{Xi : Xi ≤ x, 1 ≤ i ≤ n}
Fn (x) = (2.3)
n
est un estimateur de la fonction de répartition F (x) = p(X ≤ t).
C’est une variable aléatoire, en tant que fonction des variables aléatoires X1 , . . . , Xn . A un échantillon d’obser-
vations x1 , . . . , xn correspond une réalisation de cette fonction aléatoire, qui est une fonction en escalier de sauts
1/n.

Théorème 2.9.1 (Glivenko-Cantelli). Soit Fn la fonction de répartition empirique d’un échantillon (X1 , . . . , Xn )
où les Xi ont pour fonction de répartition F . Alors
p.s.
– ∀x ∈ R, Fn (x) −→ F (x)
p.s.
– ||Fn − F ||∞ −→ 0

Preuve. Le premier point est démontré en cours, le second point est admis. Pour un rappel sur les différents modes
de convergence d’une suite de variables aléatoires, se reporter à l’annexe 4.1.

Le second point de ce théorème nous assure que pour une taille assez grande d’échantillon, la fonction de
répartition théorique peut être approximée par la fonction de répartition empirique.

2.9.2 Estimation non paramétrique de la densité


Pour aller plus loin se référer à [1].
La connaissance de la densité d’une variable aléatoire donne une information très importante. Nous avons vu qu’un
premier estimateur de la densité de probabilité pouvait être l’histogramme (section 1.3.3.2). L’histogramme est un
graphique en bâtons, dont la hauteur pour une classe j est proportionnelle à la proportion de point observé dans
n
cette classe nj (où nj est le nombre de points dans la classe et n est le nombre de points total). Si la longueur de
n
l’intervalle vaut h, la hauteur est alors nj h1 , de sorte à ce que l’air totale des bâtons soit égale à 1. Cet estimateur
discontinue s’améliore lorsque l’on fait tendre vers 0 la largeur h de chaque intervalle, et que l’on fait tendre vers
l’infini le nombre de points par classe. Mais en pratique le nombre de points est fini, et cet estimateur discontinu
n’est pas le meilleur estimateur pour une fonction continue.
Nous présentons ici une méthode d’estimation fonctionnelle plus évoluée, qui permet, en l’absence de toute hypo-
thèse de modèle paramétrique donné, une estimation point par point de la densité de probabilité.
On cherche une estimation fˆn de la densité f minimisant l’erreur quadratique moyenne intégrée :
Z 
M ISE = E ˆ 2
(fn (x) − f (x)) dx .
R

Soit X1 ≤ . . . ≤ Xn un échantillon, rangé dans l’ordre croissant, de la variable aléatoire dont on cherche à estimer
la densité. Sachant que la fonction de densité est la dérivée de la fonction de répartition, on a

F (x + h) − F (x − h)
f (x) = lim ,
h→0 2h
et on peut donc approcher f , pour de petite valeur de h par

F (x + h) − F (x − h) Fn (x + h) − Fn (x − h)
fn (x) ≃ ≃
2h 2h
32 CHAPITRE 2. ESTIMATION

où Fn est la fonction de répartition empirique. En remplaçant Fn par son expression (2.3), on obtient l’estimateur
par fenêtre mobile de la densité
n  
1 X1 Xi − x
fn (x) ≃ 1I[−1,1] .
nh i=1 2 h

Cet estimateur se généralise à l’estimateur par la méthode du noyau de Parzen


n  
1 X x − xi
fˆn (x) = K
nh i=1 h

où K est une fonction noyau, définie de R → R+ et d’intégrale égale à 1.


Il existe différents types de noyau, parmi lesquels :
– uniforme (ci-dessus) : K(x) = 12 1I[−1,1] (x),
2
– gaussien : K(x) = √12π exp−x /2 ,
– triangulaire : K(x) = (|x| + 1)1I[−1,1] ,
– Epanechnikov : K(x) = 3/4(1 − x2 )1I[−1,1] .

Le choix du noyau n’est pas d’une importance capitale, au contraire du choix de la taille de la fenêtre h : plus h
est petit, plus les fluctuations sont importantes, plus h est grand, plus le lissage est important. Tout l’intérêt sera
de trouver le meilleur compromis. On recommande généralement le choix de h = sn n−1/5 où sn est l’écart-type
estimé des observations.
Propriétés des estimateurs à noyau fˆn
– estimateur asymptotiquement sans biais : limn→∞ E[fˆn (x)] = f (x) pour tout x ∈ R
– V (fˆn (x)) → 0 si h → 0 et hn → ∞ (h tend vers 0 moins vite que 1/n)
– vitesse de convergence en n−4/5 :

E[(fˆn (x) − f (x))2 ] ≤ cste × n−4/5 ,

qui est la vitesse optimale pour les estimateurs non-paramétriques, mais qui est plus faible que la vitesse
typique des méthodes paramétriques, généralement n−1 .
Logiciel : l’estimation par noyau se fait sous le logiciel R à l’aide de la fonction density.
Chapitre 3

Tests statistiques

On distingue différentes catégories de tests :


– les tests paramétriques ont pour objet de tester une certaine hypothèse relative à un ou plusieurs paramètres
d’une variable aléatoire de loi spécifiée (généralement supposée normale). Lorsque le test est toujours valide
pour des variables non gaussiennes, on dit que le test est robuste (à la loi).
– les tests non paramétriques qui portent généralement sur la fonction de répartition de la variable aléatoire,
sa densité...
– les tests libres (distributions free) qui ne supposent rien sur la loi de probabilité de la variable aléatoire étudiée
(et qui sont donc robuste). Ces tests sont souvent non paramétriques, mais pas toujours.
Dans ce cours, nous classons les tests en fonction de leur fonctionnalité :
– Tests sur une population :
– test sur le caractère centrale d’une population,
– test sur la variance,
– test sur une proportion,
– test de l’aléatoire d’un échantillon,
– test d’ajustement à une loi spécifiée,
– test de liaison entre variables (quantitatives, qualitatives, mixtes)
– Tests de comparaison de deux populations

3.1 Théorie des tests paramétriques


3.1.1 Introduction : test sur l’espérance d’une loi normale de variance connue
Soit un échantillon (X1 , ..., Xn ) de loi N (µ, σ 2 ), avec µ inconnue et σ 2 connue. On cherche à tester si l’espé-
rance µ est égale ou non à une valeur de référence µ0 :

H0 : µ = µ0 contre H1 : µ 6= µ0

Sous l’hypothèse H0 , la statistique suivante suit une loi N (0, 1)

X̄ − µ0
T = .
√σ
n

Ainsi, si H0 est vraie, la valeur de cette statistique pour l’échantillon observé devrait appartenir à l’intervalle
[u α2 , u1− α2 ] avec la probabilité 1 − α. Ce qui revient à dire que la réalisation de X̄ appartient à l’intervalle
σ σ
[µ0 + u α2 √ , µ0 + u1− α2 √ ]
n n

avec une probabilité de 1 − α.


Ainsi, si l’observation x̄ de X̄ n’est pas dans cet intervalle on peut décider de rejeter l’hypothèse H0 . Le risque de
se tromper en rejetant H0 est α.

33
34 CHAPITRE 3. TESTS STATISTIQUES

3.1.2 Vocabulaire des tests


Un test est un procédé qui permet de trancher entre deux hypothèses, au vu des résultats d’un échantillon : on
teste une hypothèse nulle contre une hypothèse alternative. L’hypothèse nulle H0 est l’hypothèse que l’on veut
contrôler. Elle est toujours de forme simple
H0 : θ = θ 0
où θ0 est une valeur donnée du paramètre. Le choix de cette hypothèse est fait de manière conservative : si on
test un médicament, on prendra H0 l’hypothèse où le médicament n’a pas d’effet. C’est également souvent la plus
importante des deux hypothèses puisque c’est celle dont on contrôle le risque. L’hypothèse alternative H1 est quant
à elle généralement composite :
H1 : θ ∈ Θ 1
où Θ1 est une partie de R non nécessairement réduite à un élément. Cette hypothèse se ramène souvent à un des cas
suivants : θ < θ0 , θ > θ0 (test unilatéraux) ou θ 6= θ0 (test bilatéral).
Suivant la justesse de la décision prise à l’issue du test, on est en présence de 4 cas de figure (tableau 3.1).
❳❳❳
Vérité
❳❳
❳❳❳ H0 H1
Décision ❳❳
H0 conclusion correcte erreur de deuxième espèce
H1 erreur de première espèce conclusion correcte

TAB . 3.1 – Erreurs associés à un test

Exemple (Importance du choix des hypothèses). Considérons le test des hypothèses suivantes :
– hypothèse H0 : le patient doit être hospitalisé,
– hypothèse alternative H1 : le patient ne doit pas être hospitalisé.
L’erreur de première espèce consiste à ne pas hospitaliser un patient qui en avait besoin. Cette erreur est très grave,
puisqu’elle peut conduire au décès du patient. Le risque de deuxième espèce, qui consiste à hospitaliser un patient
qui n’en avait pas besoin peut s’avérer moins grave.
Pour l’exemple du médicament, l’erreur de première espèce consiste à mettre sur le marché un médicament qui n’a
pas d’effet.

3.1.3 Probabilité d’erreur et risque, puissance de test


On associe aux erreurs de première et deuxième espèces les probabilités (risques) associées (tableau 3.2). Le
niveau de confiance du test est la probabilité 1 − α de ne pas rejeter à raison H0 . Le risque de première espèce α
est le risque de rejeter H0 à tort. Le risque de deuxième espèce β est le risque de conserver H0 à tort.
❳❳
❳❳❳ Vérité
❳❳❳ H0 H1
Décision ❳❳
H0 niveau de confiance 1 − α risque β
H1 risque α 1−β

TAB . 3.2 – Risques associés à un test

En pratique il est d’usage de fixer le risque α : 5%, 1%, 10%. Ainsi, on contrôle le risque associé à l’erreur de
première espèce, qui nous l’avons vu est l’erreur la plus grave. Choisir un risque α trop petit va conduire à ne rejeter
que très rarement H0 (si on ne la rejette pas on ne risque pas de la rejeter à tort !). Au contraire, choisir un risque
trop grand va conduire à n’accepter que très rarement α.
Le risque β se déduit alors par le calcul, si la loi sous H1 est connue. Il varie en sens contraire de α. Ainsi, en
diminuant le risque α, on augmente le risque β. On définit alors la puissance du test par 1 − β, qui correspond à la
probabilité de rejeter H0 à raison.
Le choix d’un test sera donc le résultat d’un compromis entre risque de premier espèce et puissance du test.
3.1. THÉORIE DES TESTS PARAMÉTRIQUES 35

Une fois que l’on a fixé raisonnablement α, il faut choisir une variable de décision, qui doit apporté le maximum
d’information sur le problème posé, et dont la loi sera différente selon que H0 ou H1 est vraie. La loi sous H0 doit
être connue. On définit alors la région critique W qui est l’ensemble des valeurs de la variable de décision qui
conduisent à rejeter H0 au profit de H1 . Sa forme est déterminée par la nature de H1 , et sa détermination exacte est
donnée par p(W |H0 ) = α. La région d’acceptation est son complémentaire W̄ .

3.1.4 Choix optimal de la statistique de test et de la région de rejet


Le choix de la statistique de test et de la région de rejet est fait de sorte à maximiser la puissance du test 1 − β
pour un risque de première espèce α fixé.
Plaçons nous dans le cadre d’un test entre hypothèses simples :
H0 : θ = θ0 contre H1 : θ = θ1
Neyman et Pearson (1933) ont montré que le test du rapport de vraisemblance est le test le plus puissant au
niveau de confiance α.
Théorème 3.1.1 (Neyman et Pearson). La région critique optimale est définie par les points x = (x1 , . . . , xn )
vérifiant
L(x, θ1 )
W = {x : > cα }
L(x, θ0 )
La constante cα , qui dépend de α, est déterminée par α = IPθ0 (x ∈ W ).

0.25

0.2

0.15

0.1

0.05
β α
0
−10 −5 m 0 k0 m15 10

F IG . 3.1 – illustration de la règle de décision

Exemple. Reprenons le test d’introduction, où (X1 , ..., Xn ) est de loi normale de variance σ 2 connue et d’espérance
µ inconnue, avec cette fois une hypothèse alternative simple :
H0 : µ = µ0 contre H1 : µ = µ1 .
On suppose µ0 < µ1 . La vraisemblance de l’échantillon gaussien s’écrit
1 1
Pn 2
L(x, µ) = √ e− 2σ2 i=1 (xi −µ)

(σ 2π)n
d’où le rapport de vraisemblance
n
!
L(x, θ1 ) 1 X n
= exp 2(µ1 − µ0 )xi − 2 (µ21 − µ20 )
L(x, θ0 ) 2σ 2 i=1 2σ
2
Ainsi, L(x,θ 1) σ
L(x,θ0 ) > cα est équivalent à x̄ > log(cα ) n(µ1 −µ0 ) +
µ1 +µ0
2 = C, où la constante C est déterminée
IPµ0 (x ∈ W ) = IPµ0 (x̄ > C) = α. La région critique optimale du test de Neyman-Pearson est donc
σ
W = {x : x̄ > µ0 + u1−α √ }
n
et on retombe bien sur le test « intuitif »de l’introduction.
36 CHAPITRE 3. TESTS STATISTIQUES

Dans le cas où l’hypothèse alternative est composite (θ ∈ Θ1 ), la puissance du test est fonction de θ : 1 − β(θ)
est appelée la fonction puissance du test.
Un test est dit uniformément le plus puissant (UPP) si quelque soit la valeur de θ appartenant à l’hypothèse
alternative, sa puissance est supérieure à celle de tout autre test.
Exemple. On a vu précédemment pour le test H0 : µ = µ0 contre H1 : µ = µ1 > µ0 que la région critique ne
dépend pas de µ1 , et qu’elle est donc la même pour tout µ1 > µ0 . Le test est donc UPP pour H0 : µ = µ0 contre
H1 : µ > µ0 .
Si cette fois µ1 < µ0 , on obtient encore un test UPP H0 : µ = µ0 contre H1 : µ < µ0 , mais différent du précédent.
Il n’existe donc pas de test UPP pour H0 : µ = µ0 contre H1 : µ 6= µ0 .

3.1.5 Utilisation de la puissance de test


Dans le cas d’un test entre deux hypothèses simples avec variance σ 2 connue

H0 : µ = µ0 contre H1 : µ = µ0 + δ,

nous avons vu que la région critique avait la forme


σ
W = {x : x̄ > µ0 + u1−α √ }.
n
On peut calculer le risque de second espèce :

δ n
β = p(décider H0 |H1 ) = Φ(u1−α − ).
σ
La puissance du test, 1 − β, est donc fonction de α, n et δ. En considérant α et n fixés, on peut représenter la courbe
de puissance du test par la Figure (3.2).

F IG . 3.2 – Courbe de puissance d’un test

La courbe de puissance peut donc permettre


– de choisir entre plusieurs tests en fonction de leur courbes de puissance (que l’on veut la plus forte possible,
i.e. proche de la droite d’ordonnée 1),
– pour un problème donné, dans lequel α et δ sont fixés, on pourra choisir le nombre de sujets nécessaire n
pour atteindre une puissance donnée à l’aide de l’équation (3.1).

3.1.6 Résumé
La démarche de construction d’un test est la suivante :
– choix de H0 et H1 ,
– détermination de la variable de décision,
3.2. TESTS SUR UNE POPULATION 37

– allure de la région critique en fonction de H1 ,


– calcul de la région critique en fonction de α,
– calcul de la valeur expérimentale de la variable de décision,
– conclusion : rejet ou acceptation de H0 .

3.1.7 p-value
En pratique, plutôt que de calculer la région critique en fonction de α, on préfère donner un seuil critique α∗ ,
appelée p-value, qui est la plus grande valeur de α conduisant à ne pas rejeter H0 . Cette information permet au
lecteur de conclure à l’acceptation de H0 pour tout risque de première espèce α ≤ α∗ , et à son rejet pour tout
α > α∗ .

3.2 Tests sur une population


Nous pouvons maintenant présenter les différents tests statistiques classiques, obtenus par la méthode de Neyman-
Pearson lorsque les échantillons sont gaussiens (voir de grandes tailles). Dans le cas de petits échantillons non
gaussiens, des alternatives non paramétriques seront présentées.

3.2.1 Test sur le caractère central d’une population


3.2.1.1 Cas d’un échantillon grand ou gaussien

Soit un n-échantillon (X1 , ..., Xn ) issu d’une population de moyenne µ et de variance σ 2 . Nous supposons que
au moins l’une des deux conditions suivantes est satisfaite :
– la population est de loi normale,
– l’échantillon est de taille n suffisamment grande (n ≥ 30).

Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est connue La statistique de test est

X̄ − µ0
U= .
√σ
n

Sous H0 , cette statistique suit une loi normale centrée réduite d’après les conditions précédentes (via le théorème
centrale limite si seule la seconde condition est satisfaite).
La région critique, définie par |U | > k, se traduit par |X̄ − µ0 | > −u α2 √σn , où u α2 est le quantile de la loi normale
centrée réduite d’ordre α2 .
Ainsi,

on rejette H0 si |x̄ − µ0 | > −u α2 √σn .

Remarque 3.2.1 (Calcul de la p-value). Pour ce test, on rejette H0 dès que |x̄−µ √σ
0|
> −u α2 . La p-value est la
n
 
valeur critique α∗ de α telle que |x̄−µ
√σ
0|
= −u α∗ , d’où α∗ = 2Φ − |x̄−µ
√σ
0|
avec Φ la fonction de répartition de
n 2 n
la loi normale centrée réduite. Ainsi, dès que l’on choisi un risque α plus grand que α∗ , on a −u α∗ > −u α2 et donc
2
|x̄−µ0 |
on rejette H0 . Au contraire, si le risque est plus petit, on aura cette fois √σ = −u α∗ < −u α2 et on conserve
n 2
H0 .

Remarque 3.2.2 (Tests unilatéraux). Si le test est unilatéral, H0 : µ = µ0 contre H1 : µ < µ0 , on rejette H0 si la
vraie valeur de µ est trop éloignée inférieurement de µ0 , ce qui se traduit par x̄ < µ0 + uα √σn .
Si le test est H0 : µ = µ0 contre H1 : µ > µ0 , on rejette H0 si x̄ > µ0 − uα √σn .
38 CHAPITRE 3. TESTS STATISTIQUES

Test H0 : µ = µ0 contre H1 : µ 6= µ0 lorsque σ 2 est inconnue Ce test est généralement connu sous le nom de
test de Student.
Dans ce cas la variance σ 2 est estimée par son estimateur S 2 . La statistique de test est

X̄ − µ0
T = S

n

qui suit une loi de Student à n − 1 degré de liberté.


La conclusion du test devient alors

on rejette H0 si |x̄ − µ0 | > −tn−1, α2 √sn ,


Pn 2
α i=1 (xi −x̄)
où tn−1, α2 est le quantile d’ordre 2 de la loi de Student à n − 1 degrés de liberté, et s2 = n−1 .

Logiciel R : les tests sur la moyenne s’effectuent à l’aide de la fonction t.test.


Logiciel SAS : proc ttest ou proc univariate.
Attention : seul des test bilatéraux sont possibles sous SAS. Dans le cas d’un test unilatéral, il conviendra donc
d’ajuster la p-value (en la divisant par deux), et de s’assurer avant de rejeter H0 que la statistique de test est bien
du bon coté de l’hypothèse nulle.

3.2.1.2 Cas d’un petit échantillon non gaussien


Le caractère central de la population sera testé cette fois, non plus en travaillant sur l’espérance de la loi comme
précédemment, mais en testant la symétrie de la distribution par rapport à une valeur µ0 d’intérêt. Nous supposons,
sans perte de généralité, que µ0 = 0.
Les hypothèses que nous testons sont donc :
– H0 : F (x) = 1 − F (−x) la distribution est symétrique par rapport à 0
– contre H1 : F (x + δ) = 1 − F (δ − x) la distribution est symétrique par rapport à δ
où F est la fonction de répartition de la variable aléatoire testée.
Les tests que nous allons présenter dans cette section seront basés sur les rangs des observations et nécessitent
quelques notions introduites dans le paragraphe suivant.

Statistique de rang
Rang et anti-rang. Soit X = (X1 , . . . , Xn ) un échantillon. Soit Ri la variable aléatoire égale au rang de la va-
riable Xi dans le classement dans l’ordre croissant des variables X1 , . . . , Xn (on ne suppose pas d’ex-æquo).
On appelle anti-rang, Di l’indice de la la variable classée en ième position.

Exemple : pour X = (3.2, 6.4, 2.1, 4.5) on a R = (2, 4, 1, 3) et D = (3, 1, 4, 2).

Remarque : les vecteurs des rangs R et des anti-rangs D sont tous deux des permutations des n premiers entiers.
De plus, R et D sont des permutations inverses : R = D−1 .

La suite des rangs R = (R1 , . . . , Rn ) est donc une suite de variable aléatoire identiquement distribuées mais
non indépendantes. On a pour tout 1 ≤ i ≤ n :

n+1 n2 − 1
E[Ri ] = V (Ri ) =
2 12
Cas des ex-æquo : lorsque plusieurs variables sont ex-æquo, on leur associe généralement le rang moyen des
rangs partagés par ces variables. Par exemple, si on a 4 variables ex-æquo avec 5 autres variables plus petites et 4
plus grandes, elles partageront les rangs 6, 7, 8 et 9 et on leur associera donc le rang moyen 7.5.
Tous les test basés sur les statistiques de rangs présentés dans ce cours supposent l’absence d’ex-æquo. Dans le cas
contraire, les tests doivent subir des modifications, qui ne seront pas abordées dans ce cours, sauf pour le test de
Wilcoxon de comparaison de deux échantillons (cf. section 3.3.2.1).
Statistique de rangs signés. On appelle rang signé Ri+ de la variable Xi le rang de |Xi | dans le classement
des |X1 |, . . . , |Xn | par ordre croissant.
3.2. TESTS SUR UNE POPULATION 39

Nous serons par la suite amenés à travailler avec différentes statistiques de test associées aux rangs signés, définie
par
n
X
S= a(Ri+ )1IXi ≥0
i=1

où a est une fonction de {1, 2, . . . , n} dans R.

Définition 3.2.1. Une variable aléatoire a une distribution symétrique par rapport à µ0 si pour tout x ∈ R :

p(X ≤ µ0 + x) = p(X ≥ µ0 − x)

Sous l’hypothèse d’une distribution symétrique par rapport à 0, on a


n
X n
X
E[S] = a(i)/2 V (S) = a2 (i)/4.
i=1 i=1

Lorsque n est grand le théorème central limite nous permet de considérer que S est distribué suivant une loi nor-
male.
Lorsque n est petit, la statistique S a été tabulée pour différentes fonctions a.

Nous présentons ci-après trois tests basés sur trois choix de la fonction a.

Test des rangs signés (Wilcoxon à un échantillon) Pour le test des rangs signés, il faut supprimer de l’échantillon
les valeurs nulles. On choisit ensuite a(i) = i et la statistique de test devient

n
X
W +
= Ri+ 1IXi ≥0
i=1

ou n∗ est le nombre de valeurs non nulles de l’échantillon. Cette statistique admet comme espérance et variance
sous H0 :

EH0 [W + ] = n(n + 1)/4 VH0 (W + ) = n(n + 1)(2n + 1)/24.

A noter qu’en présence d’ex-æquo, l’espérance est identique mais la variance est différente.
|W + −E [W + ]|
Si la taille d’échantillon n est suffisamment grande, on rejetera H0 si √ H0 + > u1− α .
VH0 (W ) 2

Si n est petit, on utilisera les tables statistiques dédiées à ce test (Annexe 4.2.1). Ces tables donne, pour un risque α
de 5% et 1%, les quantiles de la statistique de Wilcoxon d’ordre α/2 et 1 − α/2. Ces tables sont toujours valables
en présence d’ex-æquo.
La même démarche sera appliquée pour les deux tests suivants.
Logiciel R : fonction wilcox.test.
Logiciel SAS : proc univariate. Attention, SAS utilise une statistique de test W + centrée.

Test du signe Pour le test du signe, il faut supprimer de l’échantillon les valeurs nulles. On choisit ensuite a(i) = 1
et la statistique de test devient

n
X
+
S = 1IXi >0
i=1

ou n∗ est le nombre de valeurs non nulles de l’échantillon. La statistique S + , qui est le nombre de valeurs positives
dans l’échantillon, suit, sous l’hypothèse H0 de symétrie par rapport à 0, une loi binomiale de paramètre n et 1/2.
On peut donc facilement déduire la p-value correspondant à la valeur observée sur l’échantillon de la statistique
S + . Ces p-values ont été tabulée et figurent en Annexe 4.2.2.
En outre, l’espérance et la variance de S + sous H0 sont :

EH0 [S + ] = n/2 VH0 (S + ) = n/4.


40 CHAPITRE 3. TESTS STATISTIQUES

Ce test est plus puissant que le test de Wilcoxon lorsque les queues de distributions sont très diffuses.
Remarquons enfin que la présence d’ex-æquo ne pose aucun problème pour ce test.

Logiciel R : fonction SIGN.test du package BSDA.


Logiciel SAS : proc univariate. Attention, SAS utilise une statistique de test S + centrée.
 
i
Test des scores normaux En choisissant a(i) = Φ−1 n+1 la statistique de test devient

n
X 
SN + = Φ−1 Ri+ /(n + 1) 1IXi ≥0
i=1

qui admet comme espérance et variance sous H0 :


n
X n
X 2
EH0 [SN + ] = Φ−1 (i/(n + 1)) /2 VH0 (SN + ) = Φ−1 (i/(n + 1)) /4.
i=1 i=1

Ce test est particulièrement intéressant pour les distributions très concentrées.

Logiciel R : test à implémenter.

3.2.2 Test sur la variance d’une population gaussienne


Soit un n-échantillon (X1 , ..., Xn ) issu d’une population de loi normale, de moyenne µ et de variance σ 2 . La
normalité est indispensable pour ce test sur la variance.

3.2.2.1 Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ connue


Lorsque la moyenne est connue, la statistique Vµ2 est la meilleure estimation de la variance (cf. exercice en TD) :
n
1X
Vµ2 = (Xi − µ)2 .
n i=1

n
Sous l’hypothèse H0 , comme l’échantillon est gaussien, V2
σ02 µ
suit une loi du χ2n (en tant que somme de carrés de
N (0, 1)). Ainsi,

1
Pn σ02 2 σ02 2
on rejette H0 si Vµ2 = n i=1 (xi − µ)2 < n χn, α où si Vµ2 > n χn,1− α ,
2 2

où χ2n, α et χ2n,1− α sont les quantiles d’ordre α2 et 1− α2 de la loi de χ2 à n degrés de liberté. Attention, contrairement
2 2
à la loi de Student et à la loi normale, la loi du χ2 n’est pas symétrique.

3.2.2.2 Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ inconnue


Lorsque la moyenne est inconnue, on la remplace par son estimateur X̄. La variance est alors estimée par
n
2 1 X
S = (Xi − X̄)2 et la statistique du test
n − 1 i=1

n−1 2
S
σ02

suit sous H0 une loi du χ2 à n − 1 degrés de liberté.


La conclusion du test est alors la suivante :

1 Pn σ02 σ02
on rejette H0 si S 2 = n−1 i=1 (xi − x̄)2 < 2
n−1 χn−1, α ou si S 2 > 2
n−1 χn−1,1− α .
2 2
3.2. TESTS SUR UNE POPULATION 41

3.2.2.3 Tests unilatéraux sur la variance


Test H0 : σ 2 = σ02 contre H1 : σ 2 > σ02
σ02 2
– si la moyenne µ est connue, on rejette H0 si Σ2 > n χn,1−α .
2 σ02
– si la moyenne µ est inconnue, on rejette H0 si S > n−1 χ2n−1,1−α .
Test H0 : σ 2 = σ02 contre H1 : σ 2 < σ02
σ02 2
– si la moyenne µ est connue, on rejette H0 si Σ2 < n χn,α .
2 σ02
– si la moyenne µ est inconnue, on rejette H0 si S < n−1 χ2n−1,α .

3.2.3 Test sur une proportion pour un grand échantillon


Dans la population étudiée, une proportion p des individus possèdent un certain caractère C. On se propose de
comparer cette proportion p à une valeur de référence p0 .
On considère un échantillon d’individus de taille n de cette population. La variable aléatoire
PnXi égale à 1 si l’in-
dividu i possède le caractère C suit une loi de Bernoulli B(p), et le nombre d’individus i=1 Xi possédant ce
caractère suit une loi binomiale B(n, p).
Si nPest suffisamment grand, de sorte que np > 5 et n(1 − p) > 5, on peut considérer (loi P des grands nombres)
n n
que i=1 Xi suit une loi normale N (np, np(1 − p)), d’où la fréquence empirique F = n1 i=1 Xi suit une loi
p(1−p)
normale N (p, n ). Si n est trop petit, le test est construit sur la loi binomiale, et on peut utiliser les abaques.

3.2.3.1 Test H0 : p = p0 contre H1 : p 6= p0

La statistique du test est donc la fréquence empirique F qui suit sous H0 une loi N (p0 , p0 (1−p
n
0)
).
q
p0 (1−p0 )
on rejette H0 si |f − p0 | > u1− α2 n .

3.2.3.2 Tests unilatéraux sur une proportion


q
Test H0 : p = p0 contre H1 : p > p0 On rejette H0 si f > −uα p0 (1−p
n
0)
+ p0 .
q
Test H0 : p = p0 contre H1 : p < p0 On rejette H0 si f < uα p0 (1−p
n
0)
+ p0 .

Exemple. Sur un échantillon de 200 individus d’une commune, 45% sont favorables à l’implantation d’un centre
commercial. Ceci contredit-il l’hypothèse qu’un habitant sur deux y est favorable ?
On test H0 : p = 0.5 contre H1 : p 6= 0.5 avec un risque α = 0.05, d’où u1− α2 = 1.96. On rejette H0 si
q
2
|f − 0.5| > 1.96 0.5 200 ≃ 0.07, or ici |f − 0.5| = 0.05 donc on ne rejette pas H0 , un habitant sur deux est bien
favorable à l’implantation du centre commercial.

3.2.4 Test de l’aléatoire d’un échantillon


Étant donné une suite de variables aléatoires X1 , . . . , Xn nous cherchons à déterminer si cette suite est un
échantillon indépendant et identiquement distribué. Nous testons pour cela
– H0 : X1 , . . . , Xn indépendant et identiquement distribué,
– contre H1 : Xi = f (i) + ǫi avec f une tendance monotone, ǫi i.i.d centrées.

3.2.4.1 Test de corrélation des rangs de Spearman


Une première façon de tester les hypothèses précédentes est de tester s’il existe une corrélation significative
entre les rangs R1 , . . . , Rn associés à l’échantillon et la suite 1, . . . , n. La statistique de test est le coefficient de
corrélation des rangs de Spearman
Pn
(Ri − R̄)(i − ī)
RS = qP i=1 Pn
n 2 2
i=1 (Ri − R̄) i=1 (i − ī)
42 CHAPITRE 3. TESTS STATISTIQUES

Pn
avec R̄ = ī = (n + 1)/2 et i=1 (i − ī)2 = n(n2 − 1)/12.
En remarquant que
6
RS = 1 − Pn
n(n2 − 1) i=1 (Ri − i)2

on voit que la statistique de test RS sera égale à −1 dans le cas d’une tendance décroissante (Ri = n + 1 − i) et à
1 pour une tendance croissante (Ri = i).
On peut montrer que cette statistique admet les moments suivant :
1
E[RS ] = 0 V (RS ) = .
n−1
Sous l’hypothèse H0 √
– si n ≥ 30, on utilise la statistique RS n −q1 qui suit une N (0, 1),
n−2
– si 10 < n < 30, on utilise la statistique RS 1−R 2 qui est approximativement distribuée selon une ∼ tn−2 .
S
Logiciel R : fonction cor.test avec option spearman.

3.2.4.2 Test des changements de signes


Dans le cas où l’on veut tester plus qu’une dépendance monotone (par exemple croissance puis décroissance),
on peut utiliser la statistique de test :

S = #{i : Ri > Ri+1 , 1 ≤ i < n}


n−1 n+1
qui suit une loi normale d’espérance 2 et de variance 12 .

3.2.5 Tests d’ajustement à une loi de probabilité spécifiée


Les tests d’ajustement ont pour but de vérifier si un échantillon provient ou non d’une certaine loi de probabilité
spécifiée. Nous allons dans un premier temps présenter quelques méthodes empiriques qui permettent de s’orienter
vers une distribution, puis nous présenterons deux tests : le test du χ2 et le test de Kolmogorov-Smirnov.

3.2.5.1 Quelques méthodes empiriques


La forme de l’histogramme La forme de l’histogramme construit sur l’échantillon de données peut nous aider à
avoir une idée de la distribution de la variable aléatoire dont il est issu. Par exemple, un histogramme symétrique
nous orientera par exemple vers une loi normale, de Cauchy, de Student...

La nature du phénomène Suivant le phénomène étudié, il sera possible d’orienter son choix. Si on s’intéresse
à une variable de comptage, on pourra penser à une loi de Poisson, pour une durée de vie on pensera à une loi
exponentielle ou à une loi de Weibull... .

Utilisation des moments On sait que pour une loi de Poisson, la moyenne est égale à la variance. Pour une loi
exponentielle la moyenne est égale à l’écart-type. Pour une loi normale le coefficient d’aplatissement (kurtosis) est
égal à 3 et le coefficient d’asymétrie (skewness) est nul.

3.2.5.2 Ajustement graphiques


Pour un certain nombre de lois de probabilité, une transformation fonctionnelle permet de représenter la courbe
de la fonction de répartition par une droite :

Loi exponentielle Pour X ∼ E(λ), on a p(X > x) = exp(−λx) d’où ln(1 − F (x)) = −λx. En rangeant
dans l’ordre croissant les données xi de l’échantillon, l’estimation de la fonction de répartition qu’est la fonction
effectif <xi = i−1 pour x < x ≤ x . Ainsi, les points de coordon-
de répartition empirique
i−1
 s’écrit Fe (x) = n n i i+1
nées xi ; log(1 − n ) sont approximativement alignés le long d’une droite dont la pente fournit une estimation
graphique de λ.
3.2. TESTS SUR UNE POPULATION 43

Loi normale Si X est une variable gaussienne de moyenne µ et de variance σ 2 :

x−µ
IP(X < x) = Φ( )
σ
où Φ est la fonction de répartition de la loi normale centrée réduite.
Pour chaque valeur xi de la variable X, on peut calculer IP(X < xi ), et en déduire le quantile ui d’ordre IP(X < xi )
tel que Φ(ui ) = IP(X < xi ).
Si la variable est gaussienne, les points de coordonnées (xi , ui ) sont alignés sur la droite d’équation u = x−µ σ ,
appelée droite de Henry. On compare donc les valeurs des quantiles de la loi empirique xi aux quantiles de la loi
normale centrée réduite ui .
Logiciel R : la fonction qqnorm permet de représenter la droite de Henry, et qqplot généralise à d’autres lois que
la loi normale.

3.2.5.3 Test d’ajustement du χ2

Soit une variable aléatoire X discrète ou discrétisée, c’est à dire divisée en K classes de probabilités p1 , p2 , ..., pK
sous une certaine loi L(θ).
Soit un échantillon de cette variable fournissant les effectifs empiriques aléatoires N1 , N2 , ..., NK dans chacune
de ces classes. Ces effectifs empiriques Ni sont des variables aléatoires d’espérance npi . Nous appellerons effectifs
théoriques les quantités npi .
Le test du χ2 a pour but de tester :

H0 : X suit la loi de probabilité L(θ),

et consiste à comparer les effectifs théoriques et empiriques.


Pour cela on introduit la variable D2 définie par :

K
X (Ni − npi )2
D2 = ,
i=1
npi

et qui est asymptotiquement distribué, lorsque n → ∞, comme une loi du χ2 à K − 1 degrés de liberté.
La variable D2 pouvant être interprétée comme une mesure de l’écart aléatoire entre les effectifs empirique et
théorique, le test du χ2 consiste à rejeter H0 si la valeur d2 de D2 sur l’échantillon est trop grande :

on rejette H0 si d2 > χ2K−1,1−α .

Si des estimations sont nécessaires


Pour faire le test du χ2 , il est nécessaire de savoir quelle est la loi à tester, c’est-à-dire quelle est sa nature (normale,
Poisson...), mais aussi quels sont ses paramètres. Il est donc souvent nécessaire d’estimer ces paramètres.
Par exemple, pour tester une hypothèse de normalité, on teste la loi N (x̄, s2 ), où x̄ et s2 sont les estimations des
paramètres de la loi. Soit l le nombre d’estimations indépendantes effectuées.
Le nombre de degrés de liberté du χ2 utilisé dans le test devra alors être K − l − 1.

Effectif minimal d’une classe


La propriété qui assure que D2 suit une loi du χ2 suppose que chaque classe a un effectif théorique npi supérieur
à 5. Lors de la construction du test, cette propriété sera à vérifier. Souvent lorsque l’expérience conduit la création
des classes, certaines classes "extrêmes" ne vérifient pas cette propriété. On regroupera alors les classes entre elles
afin de créer des classes plus importantes qui vérifient cette propriété (en regroupant la classe extrême avec celle
qui lui est contigüe, et ainsi de suite... ).
Il ne faudra pas oublier alors d’affecter au nombre de classes K sa nouvelle valeur dans la détermination du nombre
de degrés de liberté du χ2 .

Logiciel R : le test du χ2 peut être réalisé à l’aide de la fonction chisq.test.


44 CHAPITRE 3. TESTS STATISTIQUES

3.2.5.4 Test de Kolmogorov-Smirnov


Le test du χ2 convient très bien aux variables discrètes, qui ne nécessitent aucune discrétisation. Par contre,
lorsque les variables sont continues, on préfère généralement utiliser le test de Kolmogorov-Smirnov.
L’adéquation à une loi donnée porte cette fois sur les fonctions de répartition :
– H0 : F (x) = F0 (x) pour tout x ∈ R
– contre H1 : ∃x ∈ R, F (x) 6= F0 (x)
La statistique de test utilisée est

KS = max |F̂n (x) − F0 (x)|


x∈R

où F̂n (x) = #{Xi : Xi ≤ x}/n est la fonction de répartition empirique estimée à partir de l’échantillon
X 1 , . . . , Xn .
Il existe alors des tables de cette statistique KS sur lesquelles se baser pour conduire à rejeter ou non H0 .

Logiciel R : le test de Kolmogorov-Smirnov peut être réalisé à l’aide de la fonction ks.test.

3.2.5.5 Test de Shapiro-Wilk (normalité)


Le test de Shapiro-Wilk est le test le plus recommandé pour tester la normalité d’une série de données. Il est
particulièrement puissant pour les petits effectifs.
Supposons les Xi rangés par ordre croissant.La statistique du test s’écrit :
 n 2
P[ 2 ]
Pn 2 a
i=1 n+1−i (X n+1−i − X i )
( ai X i )
W = Pn i=1 ¯ 2
= P n ¯ 2
i=1 (Xi − (X)) i=1 (Xi − (X))

où  
– n2 est la partie entière de n2 ,
– ai sont des constantes fournies dans des tables spécifiques (Annexe 4.2.4),
mt V −1
(a1 , . . . , an ) =
(mt V −1 V −1 n)2
où m = (m1 , . . . , mn )t sont les espérances des statistiques d’ordre d’un échantillon de variables indépen-
dantes et identiquement distribuée suivant une loi normale, et V est la matrice de variance-covariance de ces
statistiques d’ordre.
La statistique W peut donc être interprétée comme le coefficient de détermination entre la série des quantiles
générés à partir de la loi normale et les quantiles empiriques obtenus à partir des données. Plus W est élevé, plus la
compatibilité avec la loi normale est crédible. La région critique, rejet de la normalité, s’écrit :
on rejette la normalité si W < wα,n ,

la valeur critique wα,n étant lue dans les tables de Shapiro-Wilk (Annexe 4.2.4) en fonction du risque de première
espèce α et de la taille d’échantillon n.
Logiciel R : le test de Shapiro-Wilk peut être réalisé à l’aide de la fonction shapiro.test.

3.2.6 Test d’indépendance entre deux variables aléatoires


3.2.6.1 Cas de deux variables aléatoires quantitatives
Test de corrélation linéaire Le coefficient de corrélation linéaire ρXY entre deux variables continues X et Y ,
introduit au chapitre 1, est défini par :
Cov(X, Y )
ρXY = p .
V ar(X)V ar(Y )
Son estimateur est Pn
(Xi − X̄)(Yi − Ȳ )
RXY = qP i=1 Pn .
n 2 2
i=1 (X i − X̄) i=1 (Yi − Ȳ )
3.2. TESTS SUR UNE POPULATION 45

La statistique suivante
√ RXY
T = n − 2p 2
1 − RXY
qui suit une loi de Student tn−2 permet de tester la nullité du coefficient de corrélation linéaire, en rejetant l’hypo-
thèse nulle ρXY = 0 si la valeur t de cette statistique est trop grande ou trop petite, autrement dit si elle vérifie :

t > tn−2,1− α2 ou t < tn−2, α2 .

Il conviendra donc de tester la nullité de ce coefficient de corrélation linéaire avant de tenter de modéliser Y en
fonction de X par une relation linéaire (cours de Modélisation GIS4).

Logiciel R : fonction cor.test.

Test de corrélation des rangs de Spearman Un indicateur de corrélation entre deux variables quantitatives plus
robuste aux valeurs extrêmes, est le coefficient de corrélation des rangs de Spearman, défini comme le coefficient
de corrélation linéaire entre les rangs associés aux variables testées. Ce test, déjà présenté dans la section 3.2.4.1,
permet également de tester la corrélation entre des variables ordinales.

3.2.6.2 Cas de deux variables aléatoires qualitatives : Test du χ2


Ce test découle du test d’ajustement du χ2 . Soient X et Y deux variables aléatoires qualitatives pouvant prendre
respectivement k et r modalités. Les données sont présentées dans un tableau de contingence :

X Y modalité 1 modalité 2 ... modalité r total


modalité 1 n11 n12 n1r n1.
modalité 2 n21 n22 n2r n2.
..
.
modalité k n11 n12 n1r n1.
total n.1 n.2 n.r n


– nij estPle nombre d’individus ayant la modalité i de X et la modalité j de Y ,
– ni. = rj=1 nij est le nombre total d’individus ayant la modalité i de X ,
Pk
– n.j = i=1 nij est le nombre total d’individus ayant la modalité j de Y ,
Pk Pr
– n = i=1 j=1 nij est le nombre d’individus total.
Le test consiste à tester H0 : « les deux variables sont indépendantes ».
Si H0 est vrai, cela a un sens de considérer les probabilités pX X
1 , . . . , pk d’avoir les modalités 1, . . . , k de la variable
Y Y
X et les probabilités p1 , . . . , pr d’avoir les modalités 1, . . . , r de la variable Y .
Le test consiste, comme pour le test d’ajustement, à comparer les effectifs empiriques nij aux effectifs théoriques
pX Y X Y
i pj que l’on devrait observer si X et Y étaient indépendantes. Les pi et pj étant inconnues, on les estime par
X ni. Y n.j
p̂i = n et p̂j = n .
On construit alors la mesure d’écart suivante :
 
k X r ni. n.j 2 k X r 2
X (n ij − ) X n ij
d2 = n
ni. n.j = n − 1
i=1 j=1 n i=1 j=1
n i. n .j

qui est la réalisation d’une statistique dont la loi peut être approximée par une loi de χ2 à (k − 1)(r − 1) degrés de
liberté, lorsque les effectifs sont de tailles suffisantes (nij > 5 pour tout i, j).
Le test consiste donc à rejeter H0 si d2 est trop grand, comme pour un test d’ajustement du χ2 .

3.2.6.3 Cas de deux variables aléatoires binaires et de petits échantillons : Test exact de Fisher
Dans le cas d’échantillons de petites tailles (effectifs théoriques inférieurs à 5 par croisement de variables), une
alternative consiste à utiliser le test exact de Fisher.
46 CHAPITRE 3. TESTS STATISTIQUES

Lorsque les variables sont binaires, sous l’hypothèse H0 d’indépendance de X et Y , la probabilité d’observer
l’effectif n11 est donnée :
n1. !n2. !n.1 !n.2 ! C n11 C n21
IP(N11 = n11 |n1. , n2. , n.1 , n.2 ) = = n1. n.1n2. .
n!n11 !n21 !n21 !n22 ! Cn
On reconnait une variable aléatoire de loi Hypergéométrique. Le test peut donc être construit de façon exacte en
utilisant cette loi.
Ce test est généralisable à plus de deux modalités par variable.
Logiciel R : fonction fisher.test.

3.2.6.4 Cas d’une variable qualitative et d’une variable quantitative : ANOVA à 1 facteur
Soient X une variable quantitative que l’on observe pour différentes modalités (niveaux) d’une variable quali-
tative A (facteur). On dispose de K échantillons indépendants de X de tailles n1 à nK correspondant chacun à un
niveau différent du facteur A :
– X11 , X12 , . . . , X1n1 correspondant au niveau A1 du facteur A,
– X21 , X22 , . . . , X2n2 correspondant au niveau A2 du facteur A,
– ...
1 2 nK
– XK , XK , . . . , XK correspondant au niveau AK du facteur A.
On suppose que le facteur A influe uniquement sur la moyenne des échantillons et non sur leur dispersion. Ainsi,
chaque échantillon est supposé suivre une loi normale N (µk , σ 2 ).
Le problème est donc de tester

H0 : µ1 = . . . = µK = µ contre H1 : ∃1 ≤ i, j ≤ K t.q. µi 6= µj .

Pour cela on appelle X̄k la moyenne empirique de l’échantillon k et X̄ la moyenne empirique globale :
nk K nk
1 X 1 XX
X̄k = Xi et X̄ = Xki ,
nk i=1 k n i=1
k=1
PK
où n = k=1 nk .
En remarquant que Xki − X̄ = Xki − X̄k + X̄k − X̄, on montre facilement la formule d’analyse de variance :
K nk K K nk
1 XX 1X 1 XX
(Xki − X̄)2 = nk (X̄k − X̄)2 + (Xki − X̄k )2
n n n
k=1 i=1 k=1 k=1 i=1
| {z } | {z } | {z }
VT2 VA2 VR2

qui représente la décomposition de la variance totale VT2 en la variance VA2 due au facteur A (variance inter-
groupe) plus la variance résiduelle VR2 (ou variance intra-groupe).
Remarque 3.2.3. Cette formule est l’équivalente empirique de la formule vue en cours de probabilité :

V (X) = E[V (X|A)] + V (E[X|A]).

1
PK 1
Pnk n
PK nk Vk2
En remarquant que VR2 = n k=1 nk Vk2 où Vk2 =
nk
i 2 2
i=1 (Xk − X̄k ) , on montre que σ2 VR = k=1 σ2
n V2
suit une loi du χ2 à n − K degrés de liberté, car chaque kσ2 k suit une loi du χ2 à nk − 1 degrés de liberté.
nV 2
De même, sous H0 cette fois, σ2T suit une loi du χ2 à n − 1 degrés de liberté (car VT2 est la variance d’un n-
nV 2
échantillon de loi N (µ, σ 2 )) et σ2A suit une loi du χ2 à K − 1 degrés de liberté (car VA2 peut être vue comme la
variance du K-échantillon (X̄1 , . . . , X̄K )).
L’équation de l’analyse de variance revient alors à χ2n−1 = χ2K−1 + χ2n−K , ce qui permet en outre de conclure via
le théorème de Cochran que VA2 et VR2 sont indépendantes.
La statistique du test est donc
VA2
K−1
F = VR2
n−K
3.3. TESTS DE COMPARAISON DE DEUX POPULATIONS INDÉPENDANTES 47

qui suit sous H0 une loi de Fisher-Snedecor FK−1,n−K , et on rejette l’hypothèse H0 si la statistique F est supé-
rieure au quantile de la loi FK−1,n−K d’ordre 1 − α.

Logiciel R : fonction aov.

Test de l’homogénéité des variances : test de Levene. En plus de la normalité des échantillons, dont on peut
se passer si les échantillons sont de tailles suffisantes, nous avons supposé que les variances étaient homogènes
(σ1 = . . . = σK ).
Le test de Levene permet de tester cette hypothèse. La statistique de ce test est la suivante :
PK 2
n−K k=1 (Z̄k − Z̄)
L= PK Pnk ,
K − 1 k=1 i=1 (Zki − Z̄k )


nk K k n
1 X 1 XX
Zki = |Xki − X̄k |, Z̄k = Zi et Z̄ = Zki .
nk i=1 k n i=1
k=1

Sous l’hypothèse H0 : σ1 = . . . = σK , cette statistique suit une loi de Fisher-Snedecor FK−1,n−K . Nous rejetons
donc l’hypothèse H0 si la statistique F est supérieure au quantile de la loi FK−1,n−K d’ordre 1 − α.

Logiciel R : fonction levene.test du package lawstat.

Comparaison des moyennes deux à deux


Rejeter H0 permet de dire que toutes les moyennes ne sont pas égales. Il peut cependant être intéressant de tester
l’égalité des moyennes deux à deux.
Pour cela, on effectue un test de comparaison multiple des moyennes (pour 1 ≤ k, k ′ ≤ K) :

H0 : µk = µk′ .

Un résultat dû à Scheffé montre que


 q r 
1 1
p |X̄k − X̄k − (µk − µk )| ≤ SR (K − 1)fK−1,n−K,1−α
′ ′ + =1−α
nk nk ′

où fK−1,n−K,1−α est le quantile de la loi de Fisher de paramètres K − 1 et n − K d’ordre 1 − α.


On rejette donc l’hypothèse d’égalité des moyennes µk et µk′ si
q r
1 1
|X̄k − X̄k′ | > SR (K − 1)fK−1,n−K,1−α + .
nk nk ′
Remarque. Attention, l‘égalité des moyennes n’est pas transitive.

3.3 Tests de comparaison de deux populations indépendantes


L’objectif de cette section est de dire si deux échantillons indépendants sont issus d’une même population ou
non. Voici quelques exemples d’application :
– les rendements journaliers de deux usines d’un même groupe sont-ils semblables ?
– les ventes par semaine de deux actions sont-elles similaires ?
On formule le problème de la façon suivante : on observe deux échantillons (X1,1 , ..., X1,n1 ) et (X2,1 , ..., X2,n2 ),
indépendants et de fonctions de répartition F1 (x) et F2 (x). Le test exact revient à tester l’égalité de ces fonctions
de répartitions :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x).
Nous verrons dans un premier temps des tests paramétriques qui, sous l’hypothèse de normalité des échantillons
(ou de grandes tailles), consistent à tester l’égalité des variances et des espérances des deux populations. Dans un
second temps, lorsque les échantillons sont de petites tailles nous présenterons des alternatives non paramétriques.
48 CHAPITRE 3. TESTS STATISTIQUES

3.3.1 Cas de deux échantillons gaussiens ou de grandes tailles


Supposons dans un premier temps que les deux échantillons sont gaussiens.
Si les variances sont connues, ce qui n’arrive que rarement en pratique, la statistique de test utilisée pour tester
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 repose sur la différence entre les estimateurs des moyennes des deux
échantillons :
X̄1 − X̄2 − (µ1 − µ2 )
T = q 2 ,
σ1 σ22
n1 + n2

qui suit, sous H0 , une loi normale centrée réduite.


Ainsi, on rejettera H0 si s
σ12 σ2
|x̄1 − x̄2 | > −u α2 + 2.
n1 n2
Dans le cas le plus courant, les variances sont inconnues. On doit alors tester dans un premier temps si elles sont
égales ou non (test de Fisher) avant de pouvoir effectuer le test de comparaison des moyennes (test de Student).

3.3.1.1 Test de comparaison des variances de Fisher

Nous testons
H0 : σ12 = σ22 contre H1 : σ12 6= σ22 .
D’après les résultats de la théorie de l’échantillonnage :
n1 V12 n2 V22
∼ χ2n1 −1 et ∼ χ2n2 −1 .
σ12 σ22
Ainsi, sous l’hypothèse H0 que σ12 = σ22 , la statistique du test F suivante suit une loi de Fisher Fn1 −1,n2 −1 :
n1 V12
n1 −1 S12
F = = (3.1)
n2 V22 S22
n2 −1

Cette variable de décision s’interprète comme le rapport des estimateurs de σ12 et σ22 . Elle doit donc ne pas être trop
différentes de 1 si H0 est vérifiée. En pratique on met toujours au numérateur la plus grande des deux quantités, ou
autrement dit on suppose que S12 > S22 (sinon on permute les indices).
La région de rejet sera donc de la forme F > k avec k plus grand que 1 :
n1 V12
n1 −1
on rejette H0 si n2 V 2
> fn1 −1,n2 −1,1−α ,
2
n2 −1

où fn1 −1,n2 −1,1−α est le quantile de la loi de Fisher-Snedecor Fn1 −1,n2 −1 d’ordre 1 − α.

3.3.1.2 Test de comparaison des moyennes de Student avec variances égales

Nous testons
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 ,
en supposant les variances égales σ12 = σ22 = σ 2 .
On a pour i = 1, 2 :
ni Vi2 σ2
∼ χ2ni −1 et X̄i ∼ N (µi , ).
σ2 ni
Ainsi, la statistique
X̄1 − X̄2 − (µ1 − µ2 )
T = r  ,
n1 V12 +n2 V22 1 1
n1 +n2 −2 n1 + n2

suit une loi de Student à n1 + n2 − 2 degrés de liberté. D’où la conclusion :


3.3. TESTS DE COMPARAISON DE DEUX POPULATIONS INDÉPENDANTES 49

r  
n1 v12 +n2 v22 1 1
on rejette H0 si |x̄1 − x̄2 | > −tn1 +n2 −2, α2 n1 +n2 −2 n1 + n2 .

Remarque 3.3.1 (Tests unilatéraux de comparaison de moyennes).


r Le test unilatéral H0 : µ1 = µ2 contre H1 :
 
n v1 +n2 v22
2
1 1
µ1 < µ2 , conduit au rejet de H0 si x̄1 − x̄2 < tn1 +n2 −2,α n11 +n 2 −2 n1 + n2

3.3.1.3 Test de comparaison des moyennes avec variances différentes

Lorsque les échantillons sont de grandes tailles (> 30), le test de Student reste encore approximativement
valable.
Pour de petits échantillons gaussiens, l’approximation d’Aspin-Welch consiste à utiliser le test de Student avec un
degré de liberté non plus égal à n1 + n2 − 2 mais égal à l’entier le plus proche de :

v12
1 n1 −1
n= (1−c)2
où c = v12 v22
c2
n1 −1 + n2 −1 n1 −1 + n2 −1

3.3.1.4 Échantillons non gaussiens


2
Théoriquement, le test de la variance de Fisher n’est plus valable car la statistique nV σ2 ne suit plus une loi
du χ2 . Néanmoins, le test de comparaison de moyennes de Student étant relativement robuste à un changement
dans la loi des échantillons, il est possible de l’utiliser pour comparer les moyennes des deux échantillons, que les
variances soit égales ou non, si les tailles d’échantillons sont suffisamment grandes (au minimum 30 observations
par échantillon).

3.3.2 Échantillons de petites tailles


Lorsque les échantillons ne sont pas suffisamment grands pour permettre une utilisation du test de Student, on
utilise des alternatives non paramétriques, qui ont pour but de tester :

H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x)

où F1 (x) et F2 (x) sont les fonctions de répartition de deux échantillons (X1,1 , . . . , X1,n1 ) et (X2,1 , . . . , X2,n2 ).
Dans cette section nous concaténons les deux échantillons en un seul (X1 , . . . , Xn1 , Xn1 +1 , . . . , Xn1 +n2 ), et nous
allons travailler avec les rangs (R1 , . . . , Rn1 +n2 ) associés à cet échantillon global.
Les statistiques de test utilisées seront de la forme
n1
X
S= a(Ri )
i=1

où a est une fonction de {1, . . . , n1 + n2 } dans R. A noter que seuls les rangs du premier échantillon sont utilisés
dans la statistique S puisque la somme s’arrête à n1 .
Lorsque les tailles d’échantillons n1 et n2 sont petites (< 30), il existe des tables suivant la fonction a choisie
(Wilcoxon, médiane, scores normaux). Lorsque les tailles sont plus grandes (cas dans lequel les tests paramétriques
sont également utilisables), la statistique S est approximativement distribuée suivant une loi normale.
Les moments de S sont :
nX
1 +n2 nX
1 +n2
n1 n1 n2
E[S] = a(i) V (S) = (a(i) − ā)2
n1 + n2 i=1 (n1 + n2 )(n1 + n2 − 1) i=1

1
Pn1 +n2
où ā = n1 +n2 i=1 a(i)
50 CHAPITRE 3. TESTS STATISTIQUES

3.3.2.1 Test de Wilcoxon


On supposera ici que n1 ≤ n2 . En choisissant a(i) = i la statistique de test devient
n1
X
W = Ri
i=1

et correspond à la somme des rangs du premier échantillon (le plus petit en nombre d’observations).
n1 (n1 + n2 + 1)
EH0 [W ] =
2
n1 n2 (n1 + n2 + 1)
VH0 (W ) =
12
La loi de cette statistique a été tabulée pour de petites tailles d’échantillons (moins de 10), et la table en Annexe
4.2.3 donne les bornes critiques de W pour des risques de première espèce de 5% et 1%.
Pour de plus grandes tailles d’échantillons, la loi de W peut être approchée par une loi normale.

Cas des ex-æquo Nous avons vu section 3.2.1.2 qu’en présence d’ex-æquo nous remplacions les rangs des ex-
æquo par le rang moyen des rangs qu’ils devraient occuper. Si les tailles d’échantillons sont inférieures à 10, les
tables sont toujours utilisable. Pour de plus grandes tailles, l’approximation gaussienne est toujours valable mais la
variance de W n’est plus identique à celle donnée précédemment.
Soit e le nombre de valeurs distinctes dans l’échantillon (X1 , . . . , Xn1 +n2 ), et soit V1 , . . . , Ve ces valeurs distinctes.
Soit Dj le nombre d’apparitions de la valeur Vj dans l’échantillon (1 ≤ j ≤ e). La statistique W a alors pour
variance :
Pe

n1 n2 j=1 (Dj3 − Dj )
VH0 (W ) = V (W ) − .
12(n1 + n2 )(n1 + n2 + 1)
Logiciel R : fonction wilcox.test.

3.3.2.2 Test U de Mann-Whitney


Le test U de Mann-Whitney est basé sur la statistique U égale au nombre de paires (Xi , Xj ) avec Xi dans le
premier échantillon (1 ≤ i ≤ n1 ) et Xj dans le second (n1 + 1 ≤ j ≤ n2 ) telle que Xi > Xj .
Ce test est identique au test de Wilcoxon puisque U = W − n1 (n21 +1) .

3.3.2.3 Test de la médiane


En choisissant a(i) = 1I](n1 +n2 +1)/2,+∞] (i), où (n1 +n2 +1)/2 est le rang moyen des observations, la statistique
de test est
n1
X
M= 1I](n1 +n2 +1)/2,+∞] (Ri )
i=1

et correspond au nombre d’éléments du premier échantillon supérieur à la médiane de l’échantillon total. La loi de
M correspond à une loi hypergéométrique (on tire n1 individus parmi n1 + n2 avec sous H0 probabilité 1/2 d’être
supérieur à la médiane de l’échantillon total).
Ce test est performant uniquement lorsque les distributions des deux échantillons sont très diffuses.

Logiciel R : test à implémenter

3.3.2.4 Test des scores normaux


 
En choisissant a(i) = Φ−1 n1 +ni 2 +1 la statistique de test devient
n1
X
SN = Φ−1 (Ri /(n1 + n2 + 1)) .
i=1

Logiciel R : test à implémenter


3.4. TESTS DE COMPARAISON DE K POPULATIONS 51

3.3.2.5 Test de Kolmogorov-Smirnov


Le test est le même que dans le cas de l’adéquation d’une distribution empirique à une distribution théorique,
en remplaçant la fonction de répartition théorique par la version empirique du second échantillon :
r
n1 n2
KS = max |F̂ 1 (x) − F̂n22 (x)|
n1 + n2 x∈R n1

où F̂n1 et F̂n2 sont les fonctions de répartitions empiriques des deux échantillons.

3.3.3 Cas de deux échantillons dépendants


Lorsque les deux échantillons ne sont pas indépendants, et qu’il s’agit par exemple d’une mesure sur les même
individus statistiques dans deux conditions différentes (avant et après la prise un médicament par exemple), la
solution est alors de travailler sur la différence des deux échantillons, que l’on comparera à la valeur centrale 0.

3.3.4 Tests de comparaison de deux proportions, pour de grands échantillons


Deux populations possèdent des individus ayant un certain caractère, en proportion p1 et p2 . L’objet du présent
test est de tester :
H0 : p1 = p2 = p contre H1 : p1 6= p2
On relève dans deux échantillons de tailles n1 et n2 les proportions f1 et f2 d’individus ayant ce caractère. Les
tailles sont supposées suffisamment grandes (ni pi > 5 et ni (1 − pi ) > 5 pour i = 1, 2).
Ainsi les lois des fréquences empiriques F1 et F2 peuvent être approximées par des lois normales, d’où la statistique
du test
F1 − F2
U= q ,
p(1 − p)( n11 + n12 )
qui suit une loi normale centrée réduite sous H0 .
Si p est inconnue on la remplace par son estimation
n1 f 1 + n2 f 2
p̂ = ,
n1 + n2
où f1 et f2 sont les estimations de p1 et p2 .
La région critique sera alors déterminée par |U | > u1− α2 = −u α2 , d’où
q
on rejette H0 si |f1 − f2 | > u1− α2 p̂(1 − p̂)( n11 + 1
n2 ).

3.4 Tests de comparaison de K populations


Soit X une variable aléatoire quantitative, que l’on a observée pour K populations (ou de façon équivalente
dans K conditions différentes). On dispose des K échantillons suivants :
– population P1 : X11 , . . . , Xn1 1 ,
– population P2 : X12 , . . . , Xn2 2 ,
– ...
– population PK : X1K , . . . , XnK K .
PK
On note n = k=1 nk est le nombre total d’observations.
Le test que l’on cherche à définir est le suivant :
– H0 : les K populations Pk sont identiquement distribuées,
– H1 : ∃i, j telle que les populations Pi et Pj soient différentes.

L’hypothèse primordiale définissant le type de tests à effectuer est l’indépendance des populations entre elles. Nous
présentons ci-après des tests paramétriques et non paramétriques dans le cas de populations indépendantes, puis
nous examinerons le cas d’une dépendance particulière, celle des mesures répétées.
52 CHAPITRE 3. TESTS STATISTIQUES

3.4.1 Tests de comparaison de K populations indépendantes


Exemple. On cherche à tester l’effet de K traitements médicamenteux, et pour cela on donne ces traitements à K
groupes différents d’individus. Les K populations correspondent aux K groupes d’individus ayant reçu respecti-
vement un des K traitements possibles. X1k , . . . , Xnk k sont les mesures de la réponse au traitement pour les nk
individus ayant reçus le traitement k.

3.4.1.1 Échantillons gaussiens ou de grandes tailles : ANOVA 1 facteur


Sous l’hypothèse que les populations sont de variances identiques (homoscedasticité), nous sommes en présence
d’un problème d’analyse de variance (ANOVA) à un facteur (ici le facteur population), qui a déjà été présenté dans
la section 3.2.6.4.

3.4.1.2 Échantillons de petites tailles : test de Kruskal-Wallis


La version non-paramétrique de l’ANOVA à un facteur est le test de Kruskal-Wallis, basés sur les rangs.
Soit Rjk le rang de la variable Xjk dans le classement dans l’ordre croissant de toutes les observations des K
échantillons (supposé
Pnk sans ex-æquo).
Soit R.k = n1k j=1 Rjk le rang moyen dans l’échantillon de la population Pk .
Sous l’hypothèse H0 d’égalité des fonctions de répartitions Fk de chaque population

H0 : F1 = . . . = FK ,
n+1
le rang moyen R.k de chaque population doit être proche de E[Rjk ] = 2 .
La statistique du test de Kruskal-Wallis est
K  2
12 X n+1
KW = R.k −
n(n + 1) 2
k=1

qui suit sous H0 , lorsque les tailles nk des échantillons tendent vers l’infini, approximativement une loi du χ2 à
K − 1 degrés de liberté. Cette approximation est valable lorsque K > 3 et min(n1 , . . . , nK ) > 5, et des tables
existent lorsque ce n’est pas le cas.
Remarque. On retrouve le test de Wilcoxon lorsque K = 2.
Logiciel R : fonction kruskal.test

3.4.2 Tests de comparaison de K populations dépendantes (cas des mesures répétées)


Supposons maintenant que les K populations consistent en les mesures des mêmes individus statistiques dans K
conditions différentes. On est alors dans une problématique de mesures répétées puisque les mesures sont répétées
sur les même individus. De fait, on perd l’indépendance entre les populations puisqu’en particulier Xj1 , . . . , XjK
sont liées en tant que mesures d’un même individu. A noter que comme on suppose que ce sont les mêmes individus
qui sont mesurés, le nombre nk est constant (nk = n).
Exemple. On mesure le taux de diabète de n patients à K différents instants après l’ingestion d’un médicament.

3.4.2.1 Échantillons gaussiens ou de grandes tailles : ANOVA 2 facteurs


Dans le cas d’échantillons gaussiens ou de grandes tailles, une solution classique est de réaliser un analyse de va-
riance à 2 facteurs : 1 facteur pour la population/condition/traitement, comme précédemment, et un facteur individu.

Nous présentons ci-après l’ANOVA à 2 facteurs génériques A et B, dans le cas légèrement plus général d’un
plan équilibré ou équirépété, c’est-à-dire où le nombre de mesures pour chaque croisement des facteurs des deux
niveaux est constant égal à r (et non plus égal à 1 comme précédemment).

L’objectif de l’analyse de variance à deux facteurs consiste à étudier les liens éventuels entre une variable
continue X et deux facteurs A et B à J et K niveaux.
On note :
3.4. TESTS DE COMPARAISON DE K POPULATIONS 53

– Xjk la variable X observée pour les j-ème et k-ème valeurs respectives des facteurs A et B,
– Xijk la variable aléatoire correspondant à la i-ème observation de Xjk ,
– njk le nombre d’observations Xijk ,
PK PJ PJ PK
– nj. = k=1 njk , n.k = j=1 njk et n = j=1 k=1 njk .

On suppose que Xjk ∼ N (µjk , σ 2 ) et que les njk sont constants (njk = r plan équilibré ou équirépété).
Dans le modèle le plus général pour la moyenne µjk , on suppose qu’elle peut s’écrire comme une somme d’un
terme constant et de termes dépendants du facteur A, du facteur B et de l’interaction entre les facteurs A et B :

µjk = µ + αj + βk + γjk , (3.2)


P P P P
avec les contraintes d’unicité j αj = k βk = k γjk = j γjk = 0.
On considère les moyennes suivantes :
njk J K J K njk
1 X 1 X 1 X 1 XXX
X̄.jk = Xijk , X̄..k = X̄.jk , X̄.j. = X̄.jk et X̄... = Xijk .
njk i=1 n.k j=1 nj. n j=1 i=1
k=1 k=1

ainsi que les sommes des carrés suivantes :


J X njk
K X J K
X X X
SST = (Xijk − X̄... )2 , SSA = nj. (X̄.j. − X̄... )2 , SSB = n.k (X̄..k − X̄... )2 ,
j=1 k=1 i=1 j=1 k=1
K
J X njk
K X
J X
X X
SSAB = njk (X̄.jk − X̄.j. − X̄..k + X̄... )2 , et SSR = (Xijk − X̄.jk )2 ,
j=1 k=1 j=1 k=1 i=1

où SST est la somme des carrés totale, SSA est la somme des carrés relatifs au facteur A, SSB est la somme des
carrés relatifs au facteur B, SSAB est la somme des carrés relatifs à l’interaction entre les facteurs A et B et SSR
est la somme des carrés résiduels.
J X K Xnjk
X
2 2
En remarquant que que l’on peut écrire SST = Xijk − nX̄... , on obtient l’équation d’analyse de la
j=1 k=1 i=1
variance à deux facteurs :
SST = SSA + SSB + SSAB + SSR
Comme en analyse de variance à un facteur, sous l’hypothèse H0 : αj = 0, les quantités SSA et SSR suivent à σ 2
près des lois du χ2 indépendantes à J − 1 et n − JK degrés de liberté. La statistique suivante est donc de loi de
Fisher de paramètres J − 1 et K − 1 :

SSA/(J − 1)
FA = .
SSR/(n − JK)

De même, sous les hypothèses respectives H0 : βk = 0 et H0 : γjk = 0, les statistiques

SSB/(K − 1) SSAB/(K − 1)(J − 1)


FB = et FAB =
SSR/(n − JK) SSR/(n − JK)

suivent des lois de Fisher de paramètres K − 1 et n − JK pour FB , (K − 1)(J − 1) et n − JK pour FAB .


Ainsi, on peut donc tester l’existence des effets principaux des deux facteurs et de leur interaction en comparant ces
statistiques aux quantiles de la loi de Fisher : si les valeurs observées de ces statistiques sont supérieures au quantile
de la loi de Fisher d’ordre 1 − α on conclura à un effet significatif.
On présente usuellement l’analyse de variance sous la forme du tableau suivant
P P P P
Estimation des effets Sous les hypothèses de contraintes k αk = j βj = k γjk = j γjk = 0, les
paramètres αj , βk et γjk de la décomposition (3.2) de µjk peuvent être estimés par les relations suivantes :

αj = x̄.j. − x̄... , βk = x̄..k − x̄... et γjk = x̄.jk − x̄.j. − x̄..k + x̄...


54 CHAPITRE 3. TESTS STATISTIQUES

Facteur Somme degrés de carré F


des carrés liberté moyen
SSA/(J−1)
A SSA J −1 SSA/(J − 1) FA =
SSR/(n−JK)
SSB/(K−1)
B SSB K −1 SSB/(K − 1) FB = SSR/(n−JK)
Interaction AB SSAB (J − 1)(K − 1) SSAB/(K − 1)(J − 1) FAB = SSAB/(K−1)(J−1)
SSR/(n−JK)
Résidu SSR n − JK SSR/(n − JK)
Total SST n−1

3.4.2.2 Échantillons de petites tailles


Nous revenons au cas dans lequel on dispose des K échantillons :
– X11 , . . . , Xn1 : mesure des n individus dans la conditions 1,
– X12 , . . . , Xn2 : mesure des n individus dans la conditions 2,
– ...
– X1K , . . . , XnK : mesure des n individus dans la conditions K,
Puisque les observations Xj1 , . . . , XjK sont les mesures d’un même individu, elles sont dépendantes entre elles.
On ne peut donc comparer ces valeurs avec les valeurs des mesures des autres individus.
Nous nous intéressons donc aux rangs intra-individu Rjk des variables Xjk dans le classement dans l’ordre croissant
de Xj1 , . . . , XjK , qui correspond aux mesures de l’individu j pour chaque condition (supposé sans ex-æquo).
Exemple. Revenons à l’exemple dans lequel Xjk est la mesure du diabète de l’individu j au temps k. Comme
Xj1 , . . . , XjK sont les mesures du diabète d’une même personne à différents instants, ces mesures peuvent par
exemple être toute extrêmement élevées en comparaison des autres valeurs, uniquement parce que la personne
est la seule diabétique de l’étude. Afin de prendre en compte cet effet individu, nous nous intéressons aux rangs
intra-individu des mesures Xj1 , . . . , XjK .

Test de Friedman On teste l’hypothèse H0 d’égalité des fonctions de répartitions Fk de chaque population
H0 : F1 = . . . = FK .
Pn
Soit R.k = n1 j=1 Rjk le rang moyen de la condition/population k. Sous l’hypothèse H0 , on doit avoir E[R.k ] =
(K + 1)/2.
La statistique de Friedman est alors
K  2 K
12n X K+1 12 X
2
F = R.k − = R.k − 3n(K + 1)
K(K + 1) 2 nK(K + 1)
k=1 k=1
2
qui suit asymptotiquement sous H0 une loi du χ à K − 1 degrés de liberté. Puisqu’on s’intéresse généralement
à des échantillons de petites tailles, la distribution asymptotique de F n’est rarement utilisable et on se référera
généralement à la table statistique tabulant ses valeurs (Annexe 4.2.5). A noter que dans ces tables,

En présence d’ex-æquo, il faut corriger la statistique F en la divisant par


Ps
(t3 − ti )
C = 1 − i=1 3 i
n(K − K)
Logiciel R : fonction friedman.test

Test de Quade Le test de Friedman peut être amélioré en prenant en compte les différences de valeurs Xjk pour
un même individu. Pour cela, on introduit l’étendue Ej = maxk (Xjk ) − mink (Xjk ) qui est la différence entre la
valeur maximale et la valeur minimale pour un individu.
Soit Sj le rang de l’étendue Ej dans le classement des étendues intra-individu E1 , . . . , En (rang moyen en présence
d’ex-æquo).
On remplace chaque observation Xjk par
K +1
Qjk = Sj (Rjk − )
2
3.4. TESTS DE COMPARAISON DE K POPULATIONS 55

Pn
et soit Qk = j=1 Qjk .
Pn PK PK
Les statistiques T = j=1 k=1 Q2jk et B = k=1 Q2k peuvent être interprétées comme représentant respective-
ment les variations intra-individu et inter-individus.
La statistique du test de Quade est

(n − 1)B
Q=
T −B
qui suit approximativement sous H0 une loi de Fisher à K − 1 et (n − 1)(K − 1) degrés de libertés.

Logiciel R : fonction quade.test


Remarque. Le test de Quade est plus puissant que le test de Friedman.

Test de Page Le test de Page est une variante du test de Friedman dans le cas où un ordre est imposé dans
l’hypothèse alternative :
H0 : F1 = . . . = FK ,
contre
H1 : F1 > . . . > FK .
Ce type de test peut être intéressant pour tester une évolution monotone de la variable X au sein des popula-
tions/conditions P1 , . . . , PK (évolution temporelle dans le cas où les populations/conditions sont indexées par le
temps).
La statistique du test de Page est
K
X
P = kR.k
k=1

qui suit sous H0 , lorsque n > 12, une loi normale de moments :

K(K + 1)2 144(K − 1)n


E[P ] = et V (P ) = .
4 (K 3 − K)2

Logiciel R : test à implémenter.


56 CHAPITRE 3. TESTS STATISTIQUES
Chapitre 4

Annexes

4.1 Rappel sur les convergences des suites de variables aléatoires


Soit (Xn ) une suite de variables aléatoires réelles.
Définition 1. La suite (Xn ) converge en probabilité vers une variables aléatoire X si ∀ǫ, η positifs, il existe n0 tel
que
∀n > n0 , P (|Xn − X| > ǫ) < η
Définition 2. La suite (Xn ) converge presque sûrement vers la variable aléatoire X si

P ({ω| lim Xn (ω) 6= X(ω)}) = 0


n→∞

Définition 3. La suite (Xn ) converge en moyenne d’ordre p vers la variable aléatoire X si

E[|Xn − X|p ] → 0

Définition 4. La suite (Xn ) converge en loi vers la variable aléatoire X de fonction de répartition F si en tout
point de continuité de F , la suite Fn des fonctions de répartition de Xn converge vers F
Propriété 1.
p.s.
(Xn ) −→ X ց
P L
(Xn ) −→ X → (Xn ) −→ X
moyenne ordre p
(Xn ) −→ X ր

4.1.0.3 Loi faible des grands nombres


Soit (X1 , . . . , Xn ) un échantillon indépendant et identiquement distribué, avec E[Xi ] = µ et V (Xi ) = σ 2 <
∞. On a alors
P
X̄ −→ µ

4.1.0.4 Loi forte des grands nombres


Soit (X1 , . . . , Xn ) un échantillon indépendant et identiquement distribué, avec E[Xi ] = µ < ∞ et V (Xi ) = σ 2
p.s.
X̄ −→ µ

4.1.0.5 Théorème centrale limite


Soit (X1 , . . . , Xn ) un échantillon indépendant et identiquement distribué, avec E[Xi ] = µ et V (Xi ) = σ 2 <
∞. On a alors
L σ2
X̄ −→ N (µ, )
n

57
58 CHAPITRE 4. ANNEXES

4.2 Tables statistiques pour test


4.2.1 Test des rangs signés
4.2. TABLES STATISTIQUES POUR TEST 59

4.2.2 Test du signe


60 CHAPITRE 4. ANNEXES

4.2.3 Test de Wilcoxon (2 populations)


4.2. TABLES STATISTIQUES POUR TEST 61

4.2.4 Test de Shapiro-Wilk (normalité)


Ces tables sont dues à Christophe Chesneau http ://www.math.unicaen.fr/∼chesneau/.

(Table 9) Coefficients de Shapiro-Wilk


Les colonnes des tableaux ci-dessous donnent les coefficients de Shapiro-Wilk (a1 , . . . , aρ ) où ρ est l’entier tel que n = 2ρ
ou n = 2ρ + 1 selon la parité de n.

❍❍ n
❍ 2 3 4 5 6 7 8 9 10
i ❍❍
1 0,7071 0,7071 0,6872 0,6646 0,6431 0,6233 0,6052 0,5888 0,5739
2 0,1677 0,2413 0,2806 0,3031 0,3164 0,3244 0,3291
3 0,0875 0,1401 0,1743 0,1976 0,2141
4 0,0561 0,0947 0,1224
5 0,0399

❍❍ n
❍ 11 12 13 14 15 16 17 18 19 20
i ❍❍
1 0,5601 0,5475 0,5359 0,5251 0,5150 0,5056 0,4963 0,4886 0,4808 0,4734
2 0,3315 0,3325 0,3325 0,3318 0,3306 0,3290 0,3273 0,3253 0,3232 0,3211
3 0,2260 0,2347 0,2412 0,2460 0,2495 0,2521 0,2540 0,2553 0,2561 0,2565
4 0,1429 0,1586 0,1707 0,1802 0,1878 0,1939 0,1988 0,2027 0,2059 0,2085
5 0,0695 0,0922 0,1099 0,1240 0,1353 0,1447 0,1524 0,1587 0,1641 0,1686
6 0,0303 0,0539 0,0727 0,0880 0,1005 0,1109 0,1197 0,1271 0,1334
7 0,0240 0,0433 0,0593 0,0725 0,0837 0,0932 0,1013
8 0,0196 0,0359 0,0496 0,0612 0,0711
9 0,0163 0,0303 0,0422
10 0,0140

❍❍ n
❍ 21 22 23 24 25 26 27 28 29 30
i ❍❍
1 0,4643 0,4590 0,4542 0,4493 0,4450 0,4407 0,4366 0,4328 0,4291 0,4254
2 0,3185 0,3156 0,3126 0,3098 0,3069 0,3043 0,3018 0,2992 0,2968 0,2944
3 0,2578 0,2571 0,2563 0,2554 0,2543 0,2533 0,2522 0,2510 0,2499 0,2487
4 0,2119 0,2131 0,2139 0,2145 0,2148 0,2151 0,2152 0,2151 0,2150 0,2148
5 0,1736 0,1764 0,1787 0,1807 0,1822 0,1836 0,1848 0,1857 0,1064 0,1870
6 0,1399 0,1443 0,1480 0,1512 0,1539 0,1563 0,1584 0,1601 0,1616 0,1630
7 0,1092 0,1150 0,1201 0,1245 0,1283 0,1316 0,1346 0,1372 0,1395 0,1415
8 0,0804 0,0878 0,0941 0,0997 0,1046 0,1089 0,1128 0,1162 0,1192 0,1219
9 0,0530 0,0618 0,0696 0,0764 0,0823 0,0876 0,0923 0,0965 0,1002 0,1036
10 0,0263 0,0368 0,0459 0,0539 0,0610 0,0672 0,0728 0,0778 0,0822 0,0862
11 0,0122 0,0228 0,0321 0,0403 0,0476 0,0540 0,0598 0,0650 0,0697
12 0,0107 0,0200 0,0284 0,0358 0,0424 0,0483 0,0537
13 0,0094 0,0178 0,0253 0,0320 0,0381
14 0,0084 0,0159 0,0227
15 0,0076

C. Chesneau 9
62 CHAPITRE 4. ANNEXES

(Table 10) Valeurs de Shapiro-Wilk


Les valeurs intérieures du tableau ci-dessous donnent les coefficient wα,n utilisé dans le test de Shapiro-Wilk. Ici, n est la
taille de l’échantillon et α est la valeur du risque.

❍❍ α ❍❍ α
❍❍ 0, 05 0, 01 ❍❍ 0, 05 0, 01
n ❍ n ❍
3 0,767 0,753 27 0,923 0,894
4 0,748 0,687 28 0,924 0,896
5 0,762 0,686 29 0,926 0,898
6 0,788 0,713 30 0,927 0,900
7 0,803 0,730 31 0,929 0,902
8 0,818 0,749 32 0,930 0,904
9 0,829 0,764 33 0,931 0,906
10 0,842 0,781 34 0,933 0,908
11 0,850 0,792 35 0,934 0,910
12 0,859 0,805 36 0,935 0,912
13 0,856 0,814 37 0,936 0,914
14 0,874 0,825 38 0,938 0,916
15 0,881 0,835 39 0,939 0,917
16 0,837 0,844 40 0,940 0,919
17 0,892 0,851 41 0,941 0,920
18 0,897 0,858 42 0,942 0,922
19 0,901 0,863 43 0,943 0,923
20 0,905 0,868 44 0,944 0,924
21 0,908 0,873 45 0,945 0,926
22 0,911 0,878 46 0,945 0,927
23 0,914 0,881 47 0,946 0,928
24 0,916 0,884 48 0,947 0,929
25 0,918 0,888 49 0,947 0,929
26 0,920 0,891 50 0,947 0,930

C. Chesneau 10
4.2. TABLES STATISTIQUES POUR TEST 63

4.2.5 Test de Friedman

Critical values for the Friedman Test


12
M=
nk (k + 1)
∑ R2j − 3n(k + 1)
k=3 k=4 k=5 k=6
n α=5% α=1% α=5% α=1% α=5% α=1% α=5% α=1%
2 — — 6.000 — 7.600 8.000 9.143 9.714
3 6.000 — 7.400 9.000 8.533 10.130 9.857 11.760
4 6.500 8.000 7.800 9.600 8.800 11.200 10.290 12.710
5 6.400 8.400 7.800 9.960 8.960 11.680 10.490 13.230
6 7.000 9.000 7.600 10.200 9.067 11.870 10.570 13.620
7 7.143 8.857 7.800 10.540 9.143 12.110 10.670 13.860
8 6.250 9.000 7.650 10.500 9.200 13.200 10.710 14.000
9 6.222 9.556 7.667 10.730 9.244 12.440 10.780 14.140
10 6.200 9.600 7.680 10.680 9.280 12.480 10.800 14.230
11 6.545 9.455 7.691 10.750 9.309 12.580 10.840 14.320
12 6.500 9.500 7.700 10.800 9.333 12.600 10.860 14.380
13 6.615 9.385 7.800 10.850 9.354 12.680 10.890 14.450
14 6.143 9.143 7.714 10.890 9.371 12.740 10.900 14.490
15 6.400 8.933 7.720 10.920 9.387 12.800 10.920 14.540
16 6.500 9.375 7.800 10.950 9.400 12.800 10.960 14.570
17 6.118 9.294 7.800 10.050 9.412 12.850 10.950 14.610
18 6.333 9.000 7.733 10.930 9.422 12.890 10.950 14.630
19 6.421 9.579 7.863 11.020 9.432 12.880 11.000 14.670
20 6.300 9.300 7.800 11.100 9.400 12.920 11.000 14.660
∞ 5.991 9.210 7.815 11.340 9.488 13.280 11.070 15.090
For values of n greater than 20 and/or values of k greater than 6, use χ2 tables with k-1 degrees
of freedom
64 CHAPITRE 4. ANNEXES
Bibliographie

[1] M. Carbon, C. Franck. Estimation non paramétrique de la densité et de la régression - Prévision non paramé-
trique. La revue MODULAD, numéro 15, juin 1995.
[2] G. Saporta. Probabilités, analyse de données et statistique. 2ème édition, Editions Technip, 2006.
[3] D.J. Sheskin. Handbook of parametric and nonparametric statistical procedures. Fifth edition. Chapman &
Hall/CRC, 2011.

65

Vous aimerez peut-être aussi