Classification Automatique de Texte

Classification automatique de texte

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

53 vues5 pages

Classification Automatique de Texte

Classification automatique de texte

Transféré par

aya bouremana

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 5

Introduction au Text mining : Classification automatique de

Texte
Une petite introduction au text mining (un module est consacré au sujet aux WIC en S3)

Le text mining (fouille de texte) est l’application des techniques de data mining au texte.
Le Text Mining, ou extraction de connaissances à partir de textes, est un ensemble de
méthodes, de techniques et d'outils pour exploiter les documents non structurés que sont
les textes écrits, comme les fichiers word, les emails, les documents PowerPoint...etc.
Le Text Mining est utilisé pour classer des documents, réaliser des résumés de synthèse
automatique
ou encore pour assister la veille stratégique ou technologique selon des pistes de recherches
prédéfinies.
Le texte contient beaucoup d’information, mais de manière non structuré (Pas de matrice).
Ce qui rend une analyse automatique très difficile. L’application des algorithmes
d’apprentissage automatique est impossible dans l’état actuel.
Une étape est donc essentielle pour passer du texte libre à un vecteur représentatif du
texte.
L’ensemble des vecteurs (l’ensemble des textes) constituera notre matrice.
Les applications de classification automatique de texte qui constitueront votre TP sont
nombreuses :
1. Déterminer la langue d’un texte court (arabe, anglais, français,…).
2. Déterminer le sujet (domaine) d’un texte (sport, économique, culturel,...)
3. Déterminer l’auteur d’un texte (auteur1, auteur2, auteur3)
4. Déterminer le sentiment exprimé dans le texte (positif, neutre, négatif)
5. …
Les attributs considérés jusqu’à maintenant, étaient soit de type numérique ou de type
nominal.
Un attribut contenant du texte est de type string (ressemble à du nominal mais avec un
nombre non spécifié de valeurs possibles).
Avec une matrice contenant un attribut de type string, et un attribut spécifiant sa classe (2
attributs en tout, vous ne pouvez pas faire grand-chose.
Donc, nous allons formaliser les textes pour les rendre compréhensible par la machine ( ?) et
utilisables par les algorithmes d’apprentissage automatique.
On imaginera la décomposition du texte en paragraphes, phrases, suite de caractères ou
même caractères tout simplement.

1
Mais, c’est généralement le mot ou la séquence de caractères qui est l’unité fondamentale
(le terme, l’attribut) utilisé pour la représentation vectorielle du texte.
Chaque texte est représenté par les mots qu’il contient sans tenir de leur ordre d’apparition
( ?).
Car, ils expriment en quelque sorte son contenu, bien sur l’ordre perdu est important.
On a une représentation de type sac de mots (Bag of Words) avec ces avantages et ces
inconvénients.
Cette représentation exclue toute analyse grammaticale et toute notion de distance entre
les mots.
Elle nécessite cependant la délimitation des mots, ce qui n’est pas évident surtout pour
certaine langue (Allemand, Arabe ( ?))
Cette phase (Tokenisation) retiendra les suites de caracteres alphanumérique contigüe
délimitées par des blancs ou ponctuation comme terme. Le point peut être difficile à gérer.
Pour n’importe laquelle des applications mentionnées plus haut, chaque ligne de la matrice
originale ou de la matrice qu’on cherche à obtenir contiendra une instance, un exemple du
concept traité.
Pour la représentation sac de mots, chaque attribut correspond à un terme.
On aura autant d’attributs qu’il y’a de mots dans l’ensemble des instances (des textes).
Un document (texte) devient un vecteur (terme, fréquence).
Face au risque, d’avoir une matrice gigantesque nuisible pour les algorithmes
d’apprentissages automatiques et donc la qualité de leur classification, une réduction de
cette matrice s’impose.
Des prétraitements sont effectués sur le texte pour éliminer les mots sans grands apport
informationnel (?), et pour réduire le nombre de termes représentatifs pour les textes.
On commencera par réécrire le document en minuscule tout simplement.
On éliminera aussi : _ Les caractères de séparations _ les signes de ponctuations _les mots
vides
Les mots vides (Stop words) sont les articles, les prépositions, les mots de liaisons, les
déterminants, , les conjonctions, les pronoms et les verbes auxiliaires etc..
Ils constituent une grande partie des mots d’un texte, mais sont faiblement informatifs, sur
le sens d’un texte. Présent sur l’ensemble des textes, ils sont généralement non
discriminatoires en comparaison avec d’autres termes.
Pour la langue Française, nous avons par exemple les articles « le », « la », «les », les mots de
liaison « ainsi », « toutefois » etc.

2
Ces termes très fréquents peuvent être écartés du corpus (l’ensemble des textes,
documents) pour en réduire la dimension de la matrice (nombre d’attributs).
D’autres traitements de type morphologique sur les mots sont nécessaires pour réduire
encore plus la dimensionnalité la matrice représentative et améliorer les performances des
algorithmes de classification.
Inutile d’avoir un attribut associé à chaque variation d’un mot (singulier, pluriel, féminin,
masculin pour un nom par exemple, différentes conjugaisons d’un verbe).
Le traitement morphologique consiste à effectuer un traitement au niveau de chacun des
mots en fonction de leurs variations morphologiques : flexion, dérivation, composition afin
de rassembler les mots de sens identiques.
Donc, le but est de regrouper par exemple les termes «manger», «mangent», mangées,…
Ou les termes fort, forts, forte, fortes car ils disent la même chose.

Ces traitements morphologiques sont :

La lemmatisation remplace les mots par leur lemme. Ce principe permet de prendre en
compte les variations flexionnelles (singulier/pluriel, conjugaisons,…) ou dérivationnelles
(substantifs, verbes, adjectifs,…) en regroupant sous le même terme tous les mots de la
même famille.
La lemmatisation est donc une tâche compliquée à mettre en œuvre. Elle s’appuie sur des
outils de TALN (traitement automatique du langage naturel).
Elle nécessite beaucoup de ressources linguistiques (dictionnaires, règles de dérivation,
etc..).
Souvent, les résultats de cette opération contiennent des erreurs à cause des problèmes de
polysémie (ambiguïté) et d’autres.

Le stemming ou la désuffixation remplace les mots par leur stem ; les mots qui ont la même
racine seront représentés par leur racine.
L’extraction des stems se fait par la technique de racinisation (ou stemming) qui utilise
algorithmes basées sur des règles de remplacement de chaînes de caractères pour
supprimer les suffixes les plus utilisés.
Par exemple, le mot “chercher” a pour radical ou stemme “cherch” tout comme le mot
chercheur. Pour l’exemple de “frontal“, le radical ou stemme est “front” tout comme
frontière.
Néanmoins, sa précision et sa qualité sont naturellement faibles, du fait qu’elle ne gère pas
les nombreuses exceptions des règles de dérivations.
La Conceptualisation consiste à représenter le document sous forme d’un ensemble de
concepts, ces concepts peuvent être capturés en utilisant les Ontologies. Cette méthode a

3
comme avantage de réduire l’espace de travail car les mots qui sont synonymes partagent
au moins un concept qui les représentera. Cependant, l’inconvénient majeur de cette
représentation est qu’il n’existe pas des bases lexicales fiables pour toutes les langues

Donc, on passe d’une représentation (matrice) à deux attributs (le texte de type string et sa
classe de type symbolique) à une représentation (matrice) avec autant d’attribut (de type
numérique) qu’il y’ a de termes différents dans l’ensemble des textes (corpus).
Comment pondérer ces termes (dans la matrice) ?
L’idée sous-jacente est : Les termes importants doivent avoir un poids forts.
La pondération des termes permet de mesurer l’importance d’un terme dans un document.
Cette importance est souvent calculée à partir de considérations et interprétations
statistiques. L’objectif est de trouver les termes qui représentent le mieux le contenu d’un
document.
Un choix plus simple, dit « binaire », est de mettre 1 si le terme apparaît dans le document
et 0 sinon.
Les méthodes les plus populaires sont :
Le TF (terme frequency) : prenons compte de combien de fois apparait le terme dans le
texte.
L’idée sous-jacente est que plus un terme est fréquent dans un document plus il est
important dans la description (représentation de ce document.
Exemple de TF :
- freq(t,d) (nbre d’occurrence du terme t dans le document d
- 1+log(freq(t,d))
- …
On normalisera logarithmiquement la fréquence brute pour amortir les écarts. Une
normalisation courante pour prendre en compte la longueur du document est de normaliser
par la fréquence brute maximale du document.

Une mesure de pondération plus fréquente est le TF-IDF qui logiquement tiendra compte de
la fréquence du document dans l’ensemble des documents.

IDF (Inverse Document Frequency) la fréquence du terme dans la collection (corpus).

La fréquence inverse de document (inverse document frequency) est une mesure de
l'importance du terme dans l'ensemble du corpus.

Dans le schéma TF-IDF, elle vise à donner un poids plus important aux termes les moins
fréquents, considérés comme plus discriminants.

Exemple de IDF :

4
- log(N/nt)
- log((N-nt)/nt)
N : le nombre de documents de la collection
nt : le nombre de document contenant t
Ce qui donne pour TF-IDF par exemple : freq(t,d)* log(N/nt)

IMPORTANT :
Le TP 4 « Classification de texte » permettra de revenir sur l’ensemble
de ces notions et de les clarifier. Notre outil WEKA avec la
fonctionnalité “StringToWordVector” vous permettra d’expérimenter
tous ces notions et concepts.

Vous aimerez peut-être aussi

Bilan Carbone V8
Pas encore d'évaluation
Bilan Carbone V8
147 pages
Représentez Votre Corpus en Bag of Words
Pas encore d'évaluation
Représentez Votre Corpus en Bag of Words
6 pages
ChII Matrice Documents Termes
Pas encore d'évaluation
ChII Matrice Documents Termes
55 pages
Diapos NLPGenAI Part1 PDF
Pas encore d'évaluation
Diapos NLPGenAI Part1 PDF
35 pages
VLN - Exemple de Questions de Cours
Pas encore d'évaluation
VLN - Exemple de Questions de Cours
7 pages
Rapport Java
Pas encore d'évaluation
Rapport Java
18 pages
Purple White Modern Artificial Intelligence Presentation 1
Pas encore d'évaluation
Purple White Modern Artificial Intelligence Presentation 1
32 pages
Cours Et TP Séance 2
Pas encore d'évaluation
Cours Et TP Séance 2
4 pages
Effectuez Des Plongements de Mots Word Embeddings
Pas encore d'évaluation
Effectuez Des Plongements de Mots Word Embeddings
6 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
29 pages
TM3 (Vectorisation)
Pas encore d'évaluation
TM3 (Vectorisation)
46 pages
02 Chap2 - Indexation Pour La RI 2023 2024-1
Pas encore d'évaluation
02 Chap2 - Indexation Pour La RI 2023 2024-1
14 pages
Mot visuel: Libérer la puissance de la compréhension des images
D'Everand
Mot visuel: Libérer la puissance de la compréhension des images
Fouad Sabry
Pas encore d'évaluation
Recherche D'information - L'indexation - Bases de Données Documentaires Et Distribuées V - Release - Cours CNAM NFE204
Pas encore d'évaluation
Recherche D'information - L'indexation - Bases de Données Documentaires Et Distribuées V - Release - Cours CNAM NFE204
11 pages
TM7 (Topic Modeling)
Pas encore d'évaluation
TM7 (Topic Modeling)
28 pages
Data Mining 4
Pas encore d'évaluation
Data Mining 4
10 pages
TM.B - Matrice Documents Termes
Pas encore d'évaluation
TM.B - Matrice Documents Termes
39 pages
Word Embedding
100% (1)
Word Embedding
63 pages
Cours Text Mining LIAA3
0% (1)
Cours Text Mining LIAA3
28 pages
Chap2 Indexation
Pas encore d'évaluation
Chap2 Indexation
66 pages
RISCH 2017 Archivage
Pas encore d'évaluation
RISCH 2017 Archivage
156 pages
Nettoyez Et Normalisez Les Données
Pas encore d'évaluation
Nettoyez Et Normalisez Les Données
4 pages
Recherche Plus Images
Pas encore d'évaluation
Recherche Plus Images
12 pages
Fake News Detection
Pas encore d'évaluation
Fake News Detection
51 pages
Chapitre 3 Vector Space Model
Pas encore d'évaluation
Chapitre 3 Vector Space Model
32 pages
Math Nouvelle Version
Pas encore d'évaluation
Math Nouvelle Version
3 pages
Etat de L'art de La Classification Automatique Pour L'acquisition de Connaissances À Partir de Textes.
Pas encore d'évaluation
Etat de L'art de La Classification Automatique Pour L'acquisition de Connaissances À Partir de Textes.
30 pages
Lse Etapes de La Methode de BOW Du Model NLP
Pas encore d'évaluation
Lse Etapes de La Methode de BOW Du Model NLP
2 pages
Chap 4
Pas encore d'évaluation
Chap 4
36 pages
Module06 Machine Learning 2 Seminar Sujet
Pas encore d'évaluation
Module06 Machine Learning 2 Seminar Sujet
13 pages
Chapitre3 VF
100% (1)
Chapitre3 VF
52 pages
Indexdssmdùs
Pas encore d'évaluation
Indexdssmdùs
31 pages
Word Embedding
Pas encore d'évaluation
Word Embedding
24 pages
NLP Semantique Vectorielle
Pas encore d'évaluation
NLP Semantique Vectorielle
26 pages
Matrice TDM Viz Clust Iramuteq
Pas encore d'évaluation
Matrice TDM Viz Clust Iramuteq
31 pages
0 Contrôle Avec Corrigé TALN Mila 16-01-2024 Avec Barême
Pas encore d'évaluation
0 Contrôle Avec Corrigé TALN Mila 16-01-2024 Avec Barême
4 pages
Cours Fouille de Données Textuelle
Pas encore d'évaluation
Cours Fouille de Données Textuelle
5 pages
TM2 (NLP)
Pas encore d'évaluation
TM2 (NLP)
33 pages
ChI Text Mining Intro New
Pas encore d'évaluation
ChI Text Mining Intro New
37 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
39 pages
Resumé Al
Pas encore d'évaluation
Resumé Al
8 pages
9 - Deep Learning - FR
Pas encore d'évaluation
9 - Deep Learning - FR
52 pages
TM2 (NLP)
100% (1)
TM2 (NLP)
30 pages
PNL Illustrée, Partie 1 - Encodage de Texte - Vers La Science Des Données - 115117
Pas encore d'évaluation
PNL Illustrée, Partie 1 - Encodage de Texte - Vers La Science Des Données - 115117
29 pages
1620448903558
Pas encore d'évaluation
1620448903558
14 pages
Hassert Naima 2023 Memoire
Pas encore d'évaluation
Hassert Naima 2023 Memoire
105 pages
Mini Projet TAL
Pas encore d'évaluation
Mini Projet TAL
2 pages
Part 2 - NLP
Pas encore d'évaluation
Part 2 - NLP
47 pages
Math Iman
Pas encore d'évaluation
Math Iman
3 pages
Récupérez Et Explorez Le Corpus de Textes
Pas encore d'évaluation
Récupérez Et Explorez Le Corpus de Textes
6 pages
Cours
Pas encore d'évaluation
Cours
23 pages
Pincemin Semantique-Pur22 181127
Pas encore d'évaluation
Pincemin Semantique-Pur22 181127
21 pages
Tel 00006210
Pas encore d'évaluation
Tel 00006210
265 pages
Chap2 Indexation OL
100% (1)
Chap2 Indexation OL
28 pages
TP SparkHadoop
Pas encore d'évaluation
TP SparkHadoop
5 pages
Corpus de Spécialité Et Ressources
Pas encore d'évaluation
Corpus de Spécialité Et Ressources
11 pages
Définition Exploitation de Texte
Pas encore d'évaluation
Définition Exploitation de Texte
2 pages
De La Linguistique Aux Statistiques Pour Indexer Des Documents Dans Un Référentiel Métier
Pas encore d'évaluation
De La Linguistique Aux Statistiques Pour Indexer Des Documents Dans Un Référentiel Métier
6 pages
Mathh
Pas encore d'évaluation
Mathh
3 pages
TP6 R Compte Rendue
Pas encore d'évaluation
TP6 R Compte Rendue
12 pages
Recherche Dinformation
Pas encore d'évaluation
Recherche Dinformation
7 pages
Solution TD
Pas encore d'évaluation
Solution TD
44 pages
Cours Methodes Ensemblistes Suite Et Fin
Pas encore d'évaluation
Cours Methodes Ensemblistes Suite Et Fin
2 pages
Cours Methodes Ensemblistes Bagging
Pas encore d'évaluation
Cours Methodes Ensemblistes Bagging
4 pages
Cours Methodes Ensemblistes Stacking
Pas encore d'évaluation
Cours Methodes Ensemblistes Stacking
3 pages
PHYSIOLOGIE DE LAPPAREIL URINAIRE Complet
Pas encore d'évaluation
PHYSIOLOGIE DE LAPPAREIL URINAIRE Complet
10 pages
Introduction R TP4
Pas encore d'évaluation
Introduction R TP4
6 pages
Les Entrées-Sorties Apprentissage Automatique Cours 2
Pas encore d'évaluation
Les Entrées-Sorties Apprentissage Automatique Cours 2
6 pages
Introduction À L'apprentissage Automatique.1
Pas encore d'évaluation
Introduction À L'apprentissage Automatique.1
4 pages
Guide Méthodologique Mémoire Et Rapport de Stage
100% (1)
Guide Méthodologique Mémoire Et Rapport de Stage
9 pages
Devoir Maison 2chap 6
Pas encore d'évaluation
Devoir Maison 2chap 6
8 pages
Vézina-Im 2024 Médecine Du Sommeil
Pas encore d'évaluation
Vézina-Im 2024 Médecine Du Sommeil
3 pages
Colle 19
Pas encore d'évaluation
Colle 19
13 pages
Matrice SWOT
Pas encore d'évaluation
Matrice SWOT
4 pages
TDR Notice D Impact École EP PK 20
Pas encore d'évaluation
TDR Notice D Impact École EP PK 20
15 pages
Recrutement Ingénieur Electromécanicien
Pas encore d'évaluation
Recrutement Ingénieur Electromécanicien
1 page
Techniques de Collecte Et Traitement de L'information
100% (1)
Techniques de Collecte Et Traitement de L'information
4 pages
Cours Solutions & Compartiments Liquidiens 2024
Pas encore d'évaluation
Cours Solutions & Compartiments Liquidiens 2024
15 pages
5 - Evaluation Du Rendemet - OUHADER - 23-24
Pas encore d'évaluation
5 - Evaluation Du Rendemet - OUHADER - 23-24
17 pages
Art073 - Nourredine Hadjsaïd - JeanClaude Sabonnadier - Reseaux Electriques Smartgrids
Pas encore d'évaluation
Art073 - Nourredine Hadjsaïd - JeanClaude Sabonnadier - Reseaux Electriques Smartgrids
22 pages
AU CV Template - FRENCH
Pas encore d'évaluation
AU CV Template - FRENCH
9 pages
Module 1 Cefades
Pas encore d'évaluation
Module 1 Cefades
48 pages
Exposé
Pas encore d'évaluation
Exposé
12 pages
Rapport de Stage Santé
100% (1)
Rapport de Stage Santé
12 pages
Astronaut I Que
Pas encore d'évaluation
Astronaut I Que
1 page
Nabu 2023 1 - Lite
100% (1)
Nabu 2023 1 - Lite
76 pages
Serie 3 Probabilites - Semestre 3 - Fsjes
Pas encore d'évaluation
Serie 3 Probabilites - Semestre 3 - Fsjes
2 pages
SpellsCards Arcane Niveau 0 - D&D 5e
Pas encore d'évaluation
SpellsCards Arcane Niveau 0 - D&D 5e
5 pages
Débitmètre Électromagnétique
Pas encore d'évaluation
Débitmètre Électromagnétique
44 pages
Dossier Complet22
Pas encore d'évaluation
Dossier Complet22
362 pages
Note de Calcul Aep Piscine Snober Land
Pas encore d'évaluation
Note de Calcul Aep Piscine Snober Land
9 pages
Examen - Final L2 Fac Central Octobre 2020
Pas encore d'évaluation
Examen - Final L2 Fac Central Octobre 2020
4 pages
Cours TCE 3 Terminologie
Pas encore d'évaluation
Cours TCE 3 Terminologie
27 pages
L'enfance - Thème
Pas encore d'évaluation
L'enfance - Thème
4 pages
Serie TD 2 Algorithms Fundamentals
Pas encore d'évaluation
Serie TD 2 Algorithms Fundamentals
1 page
Coursjava2-Les Objets
Pas encore d'évaluation
Coursjava2-Les Objets
64 pages
Principe Des Tirroirs
Pas encore d'évaluation
Principe Des Tirroirs
5 pages