0% ont trouvé ce document utile (0 vote)

11 vues5 pages

Text Mining TP1: Faculté Des Sciences Ain Chock Casablanca

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

11 vues5 pages

Text Mining TP1: Faculté Des Sciences Ain Chock Casablanca

Transféré par

fatimaezahraouahmid

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 5

Faculté des sciences Ain Chock

Casablanca

Text Mining
TP 1

L’objectif du TP est d’explorer les packages de R dédiés pour le Text Mining.

Prérequis :
Installation de R

Installation des packages suivants :

Tm : pour le text mining

SnowballC : pour le text stemming

Wordcloud : générateur de word-cloud

RColorBrewer : Palettes de couleurs

Proxy : calcul statistiques

Etape 1 : Texte analysé

Cette étape concerne la collecte des documents. Dans ce premier TP, nous allons travailler sur
un seul document « text mining.txt » extrait de Wikipedia et qui se trouve dans le répertoire
TP1.

Etape 2 : Chargement des packages

Ouvrir une console R et charger les packages nécessaire pour réaliser le TP :
library("tm")

library("SnowballC")

library("wordcloud")

library("RColorBrewer")

library("proxy")

Etape 3: Exploration des textes

 Chargement du texte :
Lecture du fichier texte

filePath <- "chemin vers text mining.txt"

text <- readLines(filePath)

Charger les données comme un corpus : on utilise la fonction corpus()

docs <- Corpus(VectorSource(text))

Pour visualiser le contenu chargé du texte, on utilise la commande :

inspect(docs)

 Prétraitement du texte :

Utiliser de la fonction fonction tm_map() pour nettoyer le texte et la commande

inspect(docs)

Pour visualiser le document après chaque transformation

 Remplacer les caractères spéciaux non utiles. Par exemple : remplacer “/”, “@” et “|”
avec un espace

toSpace <- content_transformer(function (x ,pattern) gsub(pattern," ", x))

docs <- tm_map(docs, toSpace, "/")

docs <- tm_map(docs, toSpace, "@")

docs <- tm_map(docs, toSpace, "\\|")

 Convertir le texte en minuscule

docs <- tm_map(docs, content_transformer(tolower))

 Supprimer les nombres

docs <- tm_map(docs, removeNumbers)

 Supprimer les mots vides anglais

docs <- tm_map(docs, removeWords, stopwords("english"))

 Supprimer des stop-words

docs <- tm_map(docs, removeWords, c("[Ll]e", "[Uu]n"))

 Supprimer des stop-words à partir d’une liste personnalisée

mystopwords <- c(stopwords(‘french’), "les", "tout", "avoir", "être", "de")

Faculté des sciences Ain Chock

Casablanca

docs <- tm_map(docs, removeWords, mystopwords)

 Supprimer les ponctuations

docs <- tm_map(docs, removePunctuation)

 Supprimer les espaces vides supplémentaires

docs <- tm_map(docs, stripWhitespace)

Etape 4: Construction de la matrice des mots par documents

 Utiliser la fonction TermDocumentMatrix()

dtm <- TermDocumentMatrix(docs)

m <- as.matrix(dtm)

v <- sort(rowSums(m),decreasing=TRUE)

d <- data.frame(word = names(v),freq=v)

head(d, 10)

head(d, 20)

head(d, 30)

Etape 5 : Exploration de la fréquence des mots

 Afficher les mots dont la fréquence d’apparition dans le texte est supérieurs à 4

findFreqTerms(dtm, lowfreq = 4)

 Afficher la liste des mots qui sont associés au mot « fouille » avec un taux de
corrélation supérieurs à 0.35

findAssocs(dtm, terms = "fouille", corlimit = 0.3)

 Représenter par un graphe les fréquences des 10 mots les plus fréquents

barplot(d[1:10,]$freq, las = 2, names.arg = d[1:10,]$word, col ="lightblue", main

="Mots les plus fréquents", ylab = "Fréquence par mot")

Etape 6: Génération du nuage des mots

 Illustrer la matrice par un nuage des mots où la taille et la couleur de fonte de chaque
mot varie son importance dans la matrice

wordcloud(words = d$word, freq = d$freq, min.freq = 1, max.words=200,

random.order=FALSE, rot.per=0.35, colors=brewer.pal(8, "Dark2"))

Avec :

 words : les mots à dessiner

 freq : la fréquence des mots
 min.freq : les mots avec une fréquence en dessous de min.freq ne seront pas illustrés
 max.words : nombre maximum de mots à dessiner
 random.order : dessine les mots dans un ordre aléatoire. Si false, ils seront dessinés par
ordre décroissant de la fréquence
 rot.per : la proportion de mots verticaux sur le graphe
 colors : couleurs des mots du moins au plus fréquent. Utiliser par exemple, colors
=“black” pour une couleur unique.

Etape 7 : Stemming
 Utiliser les stems comme unité linguistique au lieu des mots. Reprendre le TP on a
joutant à la fin de l’tape 2 la commande :

docs <- tm_map(docs, stemDocument)

Etape 8 : Calcul de similarité

 Fonction pour Normaliser les vecteurs des documents :

normalize <- function(x) { return (x / sqrt(sum(x^2))) }

 Normalisation des colonnes de la dtm matrix (m)

m_normalized <- apply(m, 2, normalize)

 Calculer et afficher la similarité entre deux documents donnés

doc1 <- tdm_matrix_normalized[,1]

doc2 <- tdm_matrix_normalized[,2]

Faculté des sciences Ain Chock

Casablanca

cosine_similarity <- sum(doc1 * doc2)

print(cosine_similarity)

 Fonction pour Normaliser les vecteurs des documents en prenant en considération les
vecteurs de valeurs 0:

normalize <- function(x) {

norm <- sqrt(sum(x^2))

if (norm == 0) {

return(rep(0, length(x))) }

else {

return (x / norm) }

Référence :
1. http://www.sthda.com/french/wiki/text-mining-et-nuage-de-mots-avec-le-logiciel-r-5-
etapes-simples-a-savoir

2. https://rstudio-pubs-
static.s3.amazonaws.com/163802_0f005a14bcfb4c4b8ee17ac8a8e6c3e9.html

Vous aimerez peut-être aussi

TP 3 - Exercices Map Reduce
88% (8)
TP 3 - Exercices Map Reduce
3 pages
Exam2018fevrierentrepot de Donnéessanscorrection
Pas encore d'évaluation
Exam2018fevrierentrepot de Donnéessanscorrection
5 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
34 pages
Data Mining 4
Pas encore d'évaluation
Data Mining 4
10 pages
TP6 R Compte Rendue
Pas encore d'évaluation
TP6 R Compte Rendue
12 pages
TP 5
Pas encore d'évaluation
TP 5
5 pages
Resumé Al
Pas encore d'évaluation
Resumé Al
8 pages
Revision Text Mining
Pas encore d'évaluation
Revision Text Mining
4 pages
FR Tanagra Text Mining
Pas encore d'évaluation
FR Tanagra Text Mining
28 pages
TP 05 Datamining IA
Pas encore d'évaluation
TP 05 Datamining IA
8 pages
TP RHadoop
Pas encore d'évaluation
TP RHadoop
7 pages
TP3 - Recherche D - Information 2
Pas encore d'évaluation
TP3 - Recherche D - Information 2
6 pages
TM.B - Matrice Documents Termes
Pas encore d'évaluation
TM.B - Matrice Documents Termes
39 pages
ChI Text Mining Intro New
Pas encore d'évaluation
ChI Text Mining Intro New
37 pages
Rapport Java
Pas encore d'évaluation
Rapport Java
18 pages
TP 6
Pas encore d'évaluation
TP 6
4 pages
Tuto Mate 33-R.temis
Pas encore d'évaluation
Tuto Mate 33-R.temis
26 pages
TP2 Map Reduce
Pas encore d'évaluation
TP2 Map Reduce
2 pages
Chapitre 3 Vector Space Model
Pas encore d'évaluation
Chapitre 3 Vector Space Model
32 pages
TP 06
Pas encore d'évaluation
TP 06
3 pages
ChII Matrice Documents Termes
Pas encore d'évaluation
ChII Matrice Documents Termes
55 pages
Recherche Dinformation
Pas encore d'évaluation
Recherche Dinformation
7 pages
Cours Et TP Séance 2
Pas encore d'évaluation
Cours Et TP Séance 2
4 pages
1 Text Mining and Web Mining Overview
Pas encore d'évaluation
1 Text Mining and Web Mining Overview
47 pages
Classification Automatique de Texte
Pas encore d'évaluation
Classification Automatique de Texte
5 pages
Diapos NLPGenAI Part1 PDF
Pas encore d'évaluation
Diapos NLPGenAI Part1 PDF
35 pages
Semin-R TM BGarnier 240513
Pas encore d'évaluation
Semin-R TM BGarnier 240513
50 pages
TD 4 Correction
100% (1)
TD 4 Correction
10 pages
S-Rie 1
Pas encore d'évaluation
S-Rie 1
4 pages
TM7 (Topic Modeling)
Pas encore d'évaluation
TM7 (Topic Modeling)
28 pages
Représentez Votre Corpus en Bag of Words
Pas encore d'évaluation
Représentez Votre Corpus en Bag of Words
6 pages
2.modeles de RI
Pas encore d'évaluation
2.modeles de RI
27 pages
TP 2
Pas encore d'évaluation
TP 2
2 pages
CM2 2014
Pas encore d'évaluation
CM2 2014
42 pages
Notes Diapo 4
Pas encore d'évaluation
Notes Diapo 4
4 pages
Introduction Aux Algorithmes MapReduce
Pas encore d'évaluation
Introduction Aux Algorithmes MapReduce
43 pages
Chap2 Indexation OL
100% (1)
Chap2 Indexation OL
28 pages
Solution - Exercices RI
Pas encore d'évaluation
Solution - Exercices RI
7 pages
Algo Num
Pas encore d'évaluation
Algo Num
5 pages
TP Ner
Pas encore d'évaluation
TP Ner
4 pages
Word Embedding
100% (1)
Word Embedding
63 pages
Cours Fouille de Données Textuelle
Pas encore d'évaluation
Cours Fouille de Données Textuelle
5 pages
TP SparkHadoop
Pas encore d'évaluation
TP SparkHadoop
5 pages
MAPREDUCE
Pas encore d'évaluation
MAPREDUCE
9 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
99 pages
MINF232
Pas encore d'évaluation
MINF232
69 pages
Recherche Plus Images
Pas encore d'évaluation
Recherche Plus Images
12 pages
TP 1 Spark
Pas encore d'évaluation
TP 1 Spark
3 pages
Cours 3
Pas encore d'évaluation
Cours 3
27 pages
TM.A - Introduction Text Mining PDF
Pas encore d'évaluation
TM.A - Introduction Text Mining PDF
32 pages
Info 8
Pas encore d'évaluation
Info 8
2 pages
Cours Text Mining LIAA3
0% (1)
Cours Text Mining LIAA3
28 pages
Tp2-Design Patterns Mapreduce II. Patrons de Filtrage: Filtrage Simple Activité 1
Pas encore d'évaluation
Tp2-Design Patterns Mapreduce II. Patrons de Filtrage: Filtrage Simple Activité 1
4 pages
TP 2
Pas encore d'évaluation
TP 2
2 pages
7 Fouille Textes
Pas encore d'évaluation
7 Fouille Textes
20 pages
Matrice TDM Viz Clust Iramuteq
Pas encore d'évaluation
Matrice TDM Viz Clust Iramuteq
31 pages
TP3 2021
Pas encore d'évaluation
TP3 2021
5 pages
Tpe Ingénierie de Données
Pas encore d'évaluation
Tpe Ingénierie de Données
4 pages
TM3 (Vectorisation)
Pas encore d'évaluation
TM3 (Vectorisation)
46 pages
Quanteda FR
Pas encore d'évaluation
Quanteda FR
2 pages
Math Nouvelle Version
Pas encore d'évaluation
Math Nouvelle Version
3 pages
Référencement Naturel
Pas encore d'évaluation
Référencement Naturel
12 pages
TP Creation BD
Pas encore d'évaluation
TP Creation BD
6 pages
Technique D'indexation - Copie PDF
Pas encore d'évaluation
Technique D'indexation - Copie PDF
33 pages
Les Index Pour Les Entrepôts de Données: Comparaison Entre Index Arbre-B Et Bitmap
Pas encore d'évaluation
Les Index Pour Les Entrepôts de Données: Comparaison Entre Index Arbre-B Et Bitmap
14 pages
Intégration Des Big Data Avec L Approche ETL
Pas encore d'évaluation
Intégration Des Big Data Avec L Approche ETL
20 pages
SX302-Safe X3 BI v5
Pas encore d'évaluation
SX302-Safe X3 BI v5
44 pages
Technicien Ne Donnees SIG Oct 23
Pas encore d'évaluation
Technicien Ne Donnees SIG Oct 23
3 pages
Master GBM Informatique Biomédicale
Pas encore d'évaluation
Master GBM Informatique Biomédicale
2 pages
2 SIO 4p
Pas encore d'évaluation
2 SIO 4p
10 pages
Les Tables
Pas encore d'évaluation
Les Tables
42 pages
Informatique - Terminale Ti Cameroun
Pas encore d'évaluation
Informatique - Terminale Ti Cameroun
5 pages
Présentation Omar Et Khalil
Pas encore d'évaluation
Présentation Omar Et Khalil
35 pages
Cours Data
Pas encore d'évaluation
Cours Data
49 pages
Access PDF
Pas encore d'évaluation
Access PDF
4 pages
Brochure Finale
Pas encore d'évaluation
Brochure Finale
2 pages
50 Chartes Editoriales Web
Pas encore d'évaluation
50 Chartes Editoriales Web
27 pages
Pedagogie 2024 Fichiers 2ite New
Pas encore d'évaluation
Pedagogie 2024 Fichiers 2ite New
1 page
Formation en Ligne Spécialité Informatique Gestion
Pas encore d'évaluation
Formation en Ligne Spécialité Informatique Gestion
6 pages
C3BDD
Pas encore d'évaluation
C3BDD
33 pages
Commande
Pas encore d'évaluation
Commande
26 pages
Thème:: Datamining Appliqué Au Churn Client Dans Les Télécommunications
Pas encore d'évaluation
Thème:: Datamining Appliqué Au Churn Client Dans Les Télécommunications
41 pages
Retrivial Augmented Generation
Pas encore d'évaluation
Retrivial Augmented Generation
36 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
32 pages
Devoir 3LIFG 2019 CORR
Pas encore d'évaluation
Devoir 3LIFG 2019 CORR
5 pages
PSQL - Sell - TD-TP
Pas encore d'évaluation
PSQL - Sell - TD-TP
40 pages
Chapitre 7 - Documents Mongo DB
Pas encore d'évaluation
Chapitre 7 - Documents Mongo DB
23 pages
2 StockageIndexation Model 2023
Pas encore d'évaluation
2 StockageIndexation Model 2023
8 pages