Application de la mthode ALCESTE aux gros corpus
et stabilit des mondes lexicaux:
analyse du CableGate avec IRAMUTEQ.
Pierre Ratinaud1, Pascal Marchand2
Universit Toulouse
[email protected]Universit de Toulouse
[email protected]1
Abstract
We propose an analysis of the entire 251,287 telegrams of the CableGate. This corpus consists of 238 116
128 occurrences. After a short description of the adaptations of the ALCESTE procedure implemented in the
software IRAMUTEQ that were necessary, we will present a comparison of two treatments: a clustering of a table
that cross the 251 287 documents and the 5002 first full words (frequency minimum: 2536) and a clustering
of a the table that cross these documents and the following 5000 full words (frequencies between 2534 and
781). The two tests, performed with the same parameters, produce 62 final clusters for the first and 69 for the
second. The intersection between these two classifications shows clearly that they are not independent. In other
words, a clustering conducted on the most common words of a text leads to a distribution of documents that has
similarities with a clustering conducted on words much less frequent. These results help to maintain the hypothesis
of stabilized lexical worlds (Reinert, 2008) and also allow to consider various options for ALCESTE analysis
on large corpora.
Rsum
Nous proposons une analyse portant sur lintgralit des 251287 tlgrammes du CableGate. Ce corpus se
compose de 238 116 128 occurrences. Aprs avoir rapidement dcrit les adaptations de la procdure danalyse
ALCESTE implmente dans le logiciel IRAMUTEQ qui ont t ncessaires, nous prsenterons une comparaison
entre deux traitements: une classification sur un tableau croisant les 251287 documents et les 5002 formes pleines
les plus frquentes (frquence minimum: 2536) et une classification sur un tableau croisant ces mmes documents
et les 5000 formes pleines suivantes (frquences comprises entre 2534 et 781). Les deux analyses, ralises avec
les mmes paramtres, produisent 62 classes terminales pour la premire et 69 pour la seconde. Le croisement entre
ces deux classifications montre clairement quelles ne sont pas indpendantes. Autrement dit, une classification
mene sur les formes les plus frquentes de ce corpus conduit une rpartition des documents qui prsente
des similarits certaines avec une classification mene sur des formes beaucoup moins frquentes. Ces rsultats
permettent de maintenir lhypothse des mondes lexicaux stabiliss (Reinert, 2008) et autorisent galement,
en tenant compte de leurs limites, denvisager diffrentes options pour les analyses de type ALCESTE sur de gros
corpus.
Mots-cls: classification, mthode ALCESTE, mondes lexicaux, gros corpus
836
Pierre Ratinaud, Pascal Marchand
1. Introduction
A partir du 02 novembre 2010, cinq grands quotidiens (The New York Times, The Guardian,
Der Spiegel, Le Monde et El Pas) commencent diffuser et commenter des cbles de la
diplomatie amricaines mis en ligne par le site WikiLeaks1. Moins dan an plus tard, dans la
nuit du 1er au 2 septembre 2011, aprs la divulgation dune premire version complte de ces
documents par un concurrent, ce mme site publiera lintgralit des 251287 tlgrammes qui
forment ce que lon appelle le CableGate. Ces textes sont des communications entre les
ambassades amricaines du monde entier et Washington qui ont embarrass et embarrasseront
encore longtemps les diplomaties de la plupart des pays. Nous utiliserons ce corpus dans une
dmarche exprimentale qui se fixait comme premier objectif dadapter limplmentation de
la mthode ALCESTE (Reinert, 1983, 1990) disponible dans IRAMUTEQ2 (Ratinaud, 2009;
Ratinaud & Djean, 2009) de gros3 corpus. Aprs avoir prsent les modifications de
lalgorithme de classification hirarchique descendante ncessaires pour analyser un corpus
de 238 116 128 occurrences, nous proposerons une analyse qui consiste comparer une
classification mene sur les 5002 formes pleines les plus frquentes avec une classification sur
les 5000 formes pleines suivantes.
2. Prsentation et adaptation de la C.H.D.4 de la mthode ALCESTE
Rappelons que la mthode ALCESTE a t propos par Reinert (1983, 1990) et a dabord t
implmente dans le logiciel ALCESTE5.
2.1. La mthode ALCESTE
Les particularits de cette technique danalyse lexicale sont les suivantes:
Un dcoupage des units du corpus (nomme u.c.i.6) en segments de texte (nomme u.c.e.7):
dans les analyses que nous proposerons, cette phase ne sera pas traite. Les units classifies
ne seront pas des segments de texte, mais les tlgrammes dans leur intgralit.
Une slection des formes pleines: dans la mthode ALCESTE, lanalyse ne porte que
sur les formes dites pleine (les verbes, les noms, les adverbes, les adjectifs)8 qui sont
opposes aux formes supplmentaires (ou mots outils: les prpositions, les pronoms, les
adjectifs possessifs, certains verbes et adverbes frquents...).
Une lemmatisation: par dfaut, les formes sont lemmatises.
1 http://wikileaks.org/
2 IRAMUTEQ: Interface de R pour les Analyses Multidimensionnelles de TExtes et de Questionnaires,
http://www.iramuteq.org .
3 La notion de gros corpus (et lensemble des qualificatifs que lon peut associer corpus) est dpendante
du champ dapplication. Nous restreignons ici ce champ aux analyses utilisant la mthode ALCESTE.
4 Classification Hirarchique Descendante
5 http://www.image-zafar.com/
6 Pour unit de contexte initiale
7 Pour unit de contexte lmentaire
8 Cest une description rapide des formes pleines, certaines exceptions existent.
Application de la mthode ALCESTE aux gros corpus
837
Une classification hirarchique descendante: la technique de classification est srement la
plus grande originalit de cette mthode. Lalgorithme dcrit par Reinert (1983) repose sur
une srie de bi-partitions construite sur la base dune analyse factorielle des correspondances
mene sur un tableau binaire (absence/prsence) qui croise les units textuelles choisies avec
les formes pleines slectionnes. Cest ladaptation de cet algorithme que nous dcrirons.
Rappelons que chaque bi-partition est ralise en trois tapes:
1. Une analyse factorielle des correspondances (A.F.C.) est mene sur le tableau, puis,
pour toutes les partitions possibles le long du 1er facteur de lAFC, linertie inter-classe
est calcule. Une premire coupure intervient pour la partition qui maximise linertie
inter-classe.
2. Chaque unit du tableau est permute dune classe lautre et linertie inter-classe est
recalcule. Si celle-ci est suprieure linertie inter-classe prcdente, la permutation
est conserve. Cette partie de lalgorithme boucle jusqu ce quaucune permutation
naugmente linertie inter-classe.
3. Les formes spcifiques dune classe (au sens du chi2) sont retires de lautre.
2.2. Adaptation de la classification hirarchique descendante de la mthode ALCESTE
Des trois tapes ncessaires chaque bi-partition, cest la premire qui impose les limites des
tableaux analyss. Lanalyse factorielle des correspondances ncessite en effet le passage par
une dcomposition en valeurs singulires qui est une opration particulirement lourde en
terme de calcul. Dans les premires versions dIRAMUTEQ, nous utilisions une adaptation
de la librairie anacor (De Leeuw et Mair, 2009), qui, comme la plupart des librairies de R
proposant ce type danalyse, utilise la fonction svd9 pour raliser les dcompositions en
valeurs singulires. Par ailleurs, nous utilisions des matrices pleines, ce qui nest pas trs
pertinent pour les tableaux lexicaux sur lesquels nous travaillons, qui sont principalement
composs de 0. Cet ensemble conduisait une trs importante consommation de mmoire lors
de la classification, ce qui limitait les analyses des tableaux modestes (de lordre de 2000
formes pour 80000 units sur une machine disposant de 8 Go de RAM). Nous avons donc
commenc par utiliser des matrices creuses, ce qui, dans un premier temps, ne changeait rien
au problme, puisque la fonction svd les transforme en matrices pleines avant lanalyse. Notre
recherche dun algorithme de dcomposition en valeurs singulires efficace et qui prendrait en
entre des matrices creuses nous a orient vers la bibliothque SVDLIBC (Rohde, 2011). Elle
reprend lalgorithme las2 (Berry, 1992) de la bibliothque SVDPACK (Berry et al., 2011). Cet
algorithme est particulirement adapt nos objectifs: il est optimis pour les matrices creuses
au prix dune perte de prcision sur les valeurs singulires de faible rang. Ce dfaut ne nous
concerne pas puisque seule la plus grande valeur est retenue dans lanalyse.
Nous avons bien sr d raliser un ensemble de modifications dans la faon de construire les
matrices, mais cela relve plus du domaine de linformatique que de la statistique textuelle10.
9 Elle mme base sur les routines de la librairie LAPACK (http://www.netlib.org/lapack).
10 A lheure o nous crivons ce document, toutes les tapes utilises pour cette analyse ne sont pas
encore prsentes dans linterface dIRAMUTEQ. Toutefois, lensemble des procdures est disponible en ligne de
commande et le code est accessible dans le dpt subversion du logiciel (hhtp://www.netdig.org/svn-iramuteq/
trunk)
838
Pierre Ratinaud, Pascal Marchand
3. Prsentation du corpus
3.1. Dates, origines et classifications
Le corpus du CableGate se prsente originellement sous la forme dune base de donnes
PostgreSQL de 1,7 Go. La base contient une table nomme cable compose de 9 champs:
identifiant, date, rfrence, classification, origine, destination, en-tte et contenu. La figure 1
montre la frquence dapparition de chacune des dates prsentes dans la base:
Illustration 1: Rpartition des tlgrammes par date - les annes allant 1966 1999 ont t
regroupes - N=251287
Bien que le plus ancien tlgramme date de 1966, 99,6% des textes ont t crits entre 2000
et 2010. Ces textes proviennent de 275 sources diffrentes. Une majorit (86 %) est issue des
ambassades amricaines du monde entier, 5% proviennent de Consulat et 3,1% proviennent du
Secrtariat dtat amricain, qui est le plus gros contributeur du corpus. La figure 2 montre la
rpartition des 20 plus gros contributeurs:
Illustration 2: Les 20 sources les plus frquentes
Application de la mthode ALCESTE aux gros corpus
839
6,2 % de ces documents sont classifis secret11, 40,5 % confidentiel12. Les 53,2% des documents
restants ne sont pas classifis.
3.2. Description du contenu
Le contenu des tlgrammes se prsente sous des formes relativement stables. Une srie de
tags commence la plupart des messages (classification, destinataire, sujet, etc.). Ces tags sont
nombreux et nous avons dcid, pour cette analyse, de supprimer tous ceux que nous avons pu
dtecter. Le texte suivant est un exemple de dbut de tlgramme, nous avons mis en gras les
parties limines:
UNCLAS STATE 204472
E.O. 12958: N/A
TAGS: PTER
SUBJECT: ANNUAL TERRORISM REPORT
(THIS CABLE HAS BEEN CLEARED BY M/P (SEP).)
----------1. SUMMARY
----------THE DEPARTMENT IS REQUIRED BY LAW TO PROVIDE AN
ANNUAL TERRORISM REPORT TO CONGRESS. THIS LAW
REQUIRES THE REPORT BE A FULL AND COMPLETE
FACTUAL RECORD OF TERRORISM-RELATED ACTIVITY IN
ALL COUNTRIES THAT EXPERIENCED TERRORISM AND NOT
BE TEMPERED BY CONCERNS ABOUT HOST GOVERNMENT
Illustration 3: un exemple de dbut de cble
Le corpus a t pass en minuscule et tous les caractres en dehors dune liste restreinte13 ont
t limins. Ainsi nettoy, le corpus se compose de 238 116 128 occurrences (Fmax= 15668
471, the). Il est constitu de 624202 formes diffrentes, dont 280 863 hapax (44,9% des
formes, 0,11% des occurrences). La figure 3 prsente le graphique rangs/frquences (sur des
chelles logarithmiques) du corpus:
11 SECRET ou SECRET NOFORN
12 CONFIDENTIAL ou CONFIDENTIAL NOFORN
13 a-z0-9
840
Pierre Ratinaud, Pascal Marchand
Illustration 4: graphique rangs/frquences des formes du corpus (chelles logarithmiques)
4. Hypothse et Analyse
Paralllement au dveloppement de la mthode ALCESTE et du logiciel du mme nom, Reinert
a labor un modle thorique autour de la notion de monde lexicaux stabiliss (Reinert,
2008). Ce modle repose sur lhypothse que dans lactivit langagire, les mots pleins
constituent [] des traces possibles des contenus de nos activits. Ils ne sont pas les signifiants
mais bien des traces possibles de ce contenu en acte. (Reinert, 2008, p. 3). La stabilit des
classifications sur les formes pleines dun corpus lorsque lon fait varier la taille des units et
les similarits constates par Reinert entre certaines classifications sur des corpus diffrents
participent valider cette hypothse.
De faon vrifier que cette stabilit est galement prsente dans diffrentes fentres de
frquence des formes pleines, nous avons procd deux classifications des tlgrammes du
CableGate en retenant une fois les 500214 formes pleines les plus frquentes et une fois les 5000
formes pleines suivantes. Le tableau 1 rsume les deux analyses:
Frquence max. dune forme pleine slectionne
Frquence min. dune forme pleine slectionne
Nombre de formes pleines slectionnes
Pourcentage de 1 dans la matrice
Frquence max. dans la matrice
Frquence min. dans la matrice
Nombre de lignes dans la matrice
Classification 1 Classification 2
720626
2534
2536
781
5002
5000
4,1%
0,33 %
173906 (end)
2396 (slug)
13 (aspirante)
17 (wof)
251287
251287
Tableau 1: rsum des analyses
14 Un changement de frquence intervenant au rang 5003, nous avons prfr conserver les deux formes
supplmentaires plutt que de slectionner arbitrairement des formes dans le rang prcdant.
Application de la mthode ALCESTE aux gros corpus
841
Nous avons bien sr conserv le mme paramtrage pour ces deux analyses en demandant 80
classes terminales et en ne conservant que les classes regroupant au moins 500 tlgrammes.
5. Rsultats
La premire classification a conduit 62 classes terminales et la seconde 69. Les dendrogrammes
suivants rsument les deux classifications:
Illustration 5: gauche, dendrogramme de la premire classification, droite, dendrogramme de la
seconde. Les barres indiquent la taille relative des classes.
Ces premiers rsultats nous indiquent que le paramtrage 80 classes terminales ntait pas
pertinent, les grandes classes apparaissant ici peuvent certainement tre encore dissocies. De
faon pouvoir comparer ces classifications, nous avons construit le tableau de contingence
qui les croise. Les graphiques suivants rendent compte de la dpendance entre ces deux
classifications partir de la comparaison entre les effectifs thoriques et les effectifs observs
dune part, et partir de ltude des rsidus standardisslis au chi2 de ce tableau dautre part:
842
Pierre Ratinaud, Pascal Marchand
Illustration 6: gauche, les effectifs thoriques du tableau de contingence (en % du total), droite,
les effectifs observs (en % du total). Les classifications 1 et 2 apparaissent respectivement gauche
et droite sur chaque graphique.
Illustration 7: gauche, rsidus standardiss du chi2 men sur le tableau de contingence (les
points bleus reprsentent les contributions significativement positives (>1,96), les niveaux de vert
reprsentent les contributions non-significatives, les niveaux de rouge reprsentent les contributions
significativement ngatives (< -1,96); droite, la mme reprsentation en trois dimensions.
Pour contrler que ces classifications nous proposent bien une organisation globalement
commune du corpus, nous avons construit les tableaux de contingence qui croisent chacune des
deux classifications avec les sources des tlgrammes. Pour ce traitement, nous navons conserv
que les sources apparaissant au moins 500 fois. Les matrices des distances euclidiennes entre
les sources ont t calcules pour chacun des deux tableaux de contingences obtenus. Nous
Application de la mthode ALCESTE aux gros corpus
843
avons ensuite utilis la librairie igraph (Csardi et Nepusz, 2006) de R pour tracer les arbres
minimum de ces matrices en reprant les sources en fonction de leur situation gographique.
Illustration 8: gauche, arbre de la premire classification; droite, arbre de la seconde
classification
Bien quils ne soient pas superposables, ces deux arbres nous montrent que les deux classifications
ont abouti un regroupement gographique des textes.
6. Conclusion
Les rsultats que nous venons de prsenter permettent, selon nous, de maintenir lhypothse
des mondes lexicaux stabiliss. Les deux classifications que nous comparons proviennent
de matrices trs diffrentes, mme si elles sont issues du mme corpus. La seconde matrice
est plus de dix fois plus vide que la premire. Pourtant, elles mnent des organisations des
documents qui sont clairement dpendantes. Ces rsultats attestent galement de la pertinence
de la mthode ALCESTE sur ce type de corpus.
Par ailleurs, les adaptations ralises sur lalgorithme de classification rendent possible
lutilisation de la mthode ALCESTE classique (avec la double classification sur uc) sur des
corpus de plusieurs dizaines de millions doccurrences tout en travaillant sur un nombre important
de formes pleines. La procdure que nous avons suivie pourrait galement permettre damliorer
844
Pierre Ratinaud, Pascal Marchand
la recherche de stabilit dans lanalyse des gros corpus en utilisant les classifications sur les
formes moins frquentes pour prciser le contour des classes obtenues sur les classifications
des formes frquentes.
Rfrences
Berry, M. (1992). Large Scale Singular Value Computations. International Journal of Supercomputer
Applications. 6. (1). 13-49.
Berry, M. Do, T. OBrien, G. Krishna, V. and Varadhan, S. (2011). SVDPACK. http://www.netlib.org/
svdpack.
Csardi, G. et Nepusz, T. (2006). The igraph software package for complex network research. InterJournal.
Complex Systems. (1695). http://igraph.sf.net.
De Leeuw, J. et Mair, P. (2009). Simple and Canonical Correspondence Analysis Using the R Package
anacor. Journal of Statistical Software. 31. (5). 1-18.
Ratinaud, P. (2009). IRAMUTEQ: Interface de R pour les Analyses Multidimensionnelles de TExtes et
de Questionnaires. http://www.iramuteq.org.
Ratinaud, P. and Djean, S. (2009). IRaMuTeQ: implmentation de la mthode ALCESTE danalyse de
texte dans un logiciel libre. Modlisation Applique aux Sciences Humaines et Sociales (MASHS2009).
Toulouse - Le Mirail.
Reinert, M. (1983). Une mthode de classification descendante hirarchique: application lanalyse
lexicale par contexte. Les cahiers de lanalyse des donnes, VIII, (2), 187-198.
Reinert, M. (1990). ALCESTE: Une mthodologie danalyse des donnes textuelles et une application:
Aurlia de Grard de Nerval. Bulletin de mthodologie sociologique. 26. 24-54.
Reinert, M. (2008). Mondes lexicaux stabiliss et analyse statistique de discours. 9mes Journes
internationales dAnalyse statistique des Donnes Textuelles.
Rohde, D. (2011). SVDLIBC. http://tedlab.mit.edu/~dr/SVDLIBC.