Travail - Note

Ce document décrit un travail pratique noté sur trois semaines, impliquant l'utilisation de Python 3.7 pour manipuler un système de recherche d'information. Les étudiants doivent créer un corpus de documents, générer un vocabulaire et un fichier inverse, et traiter des requêtes à l'aide de programmes fournis. Le travail se termine par un compte-rendu écrit qui répond à des questions sur le système original et modifié.

Transféré par

yazid cherif

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

9 vues4 pages

Travail - Note

Transféré par

yazid cherif

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 4

** CE TP NOTE EST EFFECTUE SUR 3 SEMAINES

(11 novembre 2024 et 2 décembre 2024) **

1. But du TP NOTE
Dans ce TP noté, vous pouvez u3liser python 3.7 ou ultérieur : faites le choix au début et ne changez plus
ensuite.
Nous allons manipuler un système de recherche d'informa3on développé en python 3.7.
On vous fourni 3 programmes : pour python 3.7 ou ultérieur, l'indexa3on est la même:
(indexer_gendico_miashs.py, indexer_genindex_miashs.py.
Pour la recherche, moteurderecherche_miashs37.py.
Ces programmes, quelque soit la version de python, u3lisent un fichier d'an3-
dic3onnaire common_words.txt, fourni, qui con3ent les 200 mots les plus fréquents du corpus.
Le système que vous aller u3liser est composé de plusieurs programmes :
1. Le programme indexer_gendico_miashs.py établit le vocabulaire d'un corpus de documents. Il u3lise en
entrée un nom de répertoire (op3on -corpus), un fichier d'an3-dic3onnaire (op3on -an3dico) et calcule
l'ensemble des termes présents, avec le df et idf (avec log10(ND/df)) en les sauvegardant via l'op3on -vocab
2. Le programme indexer_genindex_miashs.py génère le fichier inverse des documents. Il u3lise les
documents (op3on -corpus), le vocabulaire (-vocab) obtenu à l'étape précédente, pour génerer le fichier
inverse sous forme de fichier json (op3on -index), ainsi que le fichier json qui stocke les normes de chaque
document (op3on -normdocs).
3. Le programme moteurderecherche_miashs37.py permet de traiter les requêtes. Il charge le vocabulaire (-
vocab), le fichier inverse (-index), le fichier d'an3-dic3onnaire (-an3dico), le normes des document (-
normdocs), puis traite une requête d'un u3lisateur sur ce corpus en renvoyant les 10 premières réponses.
2. Déroulement
0. Etape préliminaire : CHOIX DE VERSION DE PYTHON et INSTALLATION LIBRAIRIE PYTHON NLTK
Dans ceXe par3e, vous devez définir quelle version de python vous u3lisez (3.x et au dessus), et vous devez
installer la librarie python nltk (Natural Language ToolKit) qui permet de faire la troncature des mots par
l'algorithme de Porter décrit en cours.
Si vous savez quelle version de python vous u3lisez et si vous savez installer une librarie python avec pip (ou
pip3) alors vous n'avez qu'à installer la librairie python avec pip install nltk ou pip3 install nltk, et vous pouvez
passer à la suite.
Python 3.7.x. ou ultérieur
Si vous u3lisez python 3.7.x ou ultérieur. Vérifiez que vous avez la bonne version en tapant : python –version”
et vérifiez que vous avez bien 3.7.x. ou ultérieur.
Vérifiez que la commande pip3 existe pour python 3.x ou ultérieur (en tapant pip3 –version). Si ceXe
commande fait une erreur alors faites la suite, sinon faite pip3 install nltk.
Afin de pouvoir u3liser des librairies spécifiques nécessaires au code qui vous est fourni, vous devez installer
le logiciel adéquat en tapant :
wget hXps://bootstrap.pypa.io/get-pip.py -O /tmp/get-pip.py
python /tmp/get-pip.py --user
Uniquement si le wget ne foncRonne pas, rapatriez : get-pip.py avant de lancer python /tmp/get-pip.py –
user .
Les programmes du système de recheche d'informa3on fourni ne fonc3onnent que si vous avez installé la
librarie python nltk, que vous installez dans un terminal en lançant la commande
~/.local/bin/pip3.7 install --user nltk
Si pb avec pip3.7, regarder si pip3.8 ….
Une fois ceci effectué, vous pouvez conRnuer.

1
Travail aEendu
A. ConstrucRon du corpus de documents.
Créer un répertoire, “corpus_tpnoté” qui va contenir les documents du corpus.
Dans ce répetoire, vous créez 3 documents en anglais (doc-1, doc-2 et doc-3 qui con3ennent respec3vement
:
1. We see an opacity on the lee part of the right lung, clearly visible.
2. A large tumor on the anteroposterior cerebral cortex is visible, close an opacity on the cortex.
3. An opacity, probably tumoral, is present on the anterior of the calcalneum.
B. Le système de recherche d'informaRon fourni.
Le pe3t système fourni est composé de 3 programmes :
2 uRlisés lors de l'indexaRon :
1. (indexer_gendico_miashs37.py): génère le vocabulaire à par3r du corpus de documents et du fichier
d'an3-dic3onnaire, d'un fichier d'an3dic3onnaire (taper : python indexer_gendico_miashs.py -h , pour
connaître son usage);
2. (indexer_genindex_miashs37.py): génère le fichier inverse, ainsi que le fichier des normes des
documents à par3r du corpus de documents et du fichier d'an3-dic3onnaire, et du vocabulaire (taper :
python indexer_genindex_miashs.py -h , pour connaître son usage).
1 uRlisé lors du traitement de requête :
1. (moteurderecherche_miashs37.py): traite une requête par cosinus vectoriel à par3r du fichier
inverse et du fichier d'an3-dic3onnaire, d'un fichier de norme des documents et du vocabulaire (taper :
python moteurderecherche_miashs.py -h , pour connaître son usage).
Le fichier d'an3-dic3onnaire à u3liser est common_words.txt (cf. ci-dessus par3e 1).
C. URlisaRon du système fourni
CeXe par3e vous fait u3liser le système, sans le modifier.
1. La construcRon du vocabulaire
1. Lancez la généra3on du dic3onnaire en u3lisant le programme (indexer_generdico_miashs37.py) avec les
bons paramètres.
Ce programme génère le fichier de vocabulaire avec, pour chaque ligne :
mot df idf
qui donne pour chaque mot du vocabulaire son df, et son idf (=ln(ND/df), avec log népérien)
2. D'après le fichier vocabulaire généré, est-ce que le traitement passe les mots en minuscules ? Changez un
mot de l'un des documents et relancez la commande pour vérifier.
3. Est-ce que le traitement u3lise de la troncature ? Remplacez le mot “cerebral “du document doc-2 par
“cerebrals” pour vérifier et relancer la commande.
4. Expliquer pourquoi le mot “opacity” n'est-il pas dans le fichier vocabulaire généré.
5. Pour vérifier votre supposi3on, enlevez le mot “opacity” du document doc-3 document et relancer la
généra3on du vocabulaire. Que constatez-vous ? RemeXez le mot opacity dans le document doc-3 avant de
con3nuer.
6. Faire un calcul de df et d'idf pour l'un des termes, afin de vérfier que vous êtes d'accord avec les valeurs
présentées.
2. La construcRon du fichier inverse
1. Lancez le programme (indexer_genindex_MIASHS37.py) avec les bons paramètres. Ce programme crée le
fichier inverse (avec les poids s.idf tes termes pour les documents) en u3lisant le format json (fichier texte).
Le format json représente n'importe quelle structure, par exemple :
{"anterior": [["doc-3", 1.09861228867]], "anteroposterior": [["doc-2", 1.09861228867]]}
représente un dic3onnaire (cf. tp précédent) avec 2 entrées (les clés) : "anterior" et "anteroposterior".

2
Pour l'entrée "anterior", une liste composée d'un seul couple ["doc-3", 1.09861228867], correspondant au
poids s.idf de anterior dans le document doc-1.
2. Regardez le fichier inverse qui est généré sur vos trois documents. Vérifiez que tous les termes du
vocabulaire apparaissent.
3. Vérifiez les valeurs stockées pour le terme “cortex” dans le document doc-2 : refaites-le calcul s.idf .
3. Le traitement d'une requête
1. Lancez le programme de traitement de requêtes moteurderecherche_miashs.py avec les bons paramètres.
Ce programme s'exécute en affichant par exemple, si on pose une requête avec un seul terme “lee” :
***************** chargement normes de documents
***************** chargement fichier inverse
***************** chargement an3dico
---------------------------------------
Bienvenue dans le moteur de recherche !
---------------------------------------
Que cherchez-vous ? lee
-- Requete avec s seul avant recherche si terme dans vocabulaire :
{u'lee': 1}
-- Requete avec s.idf avant recherche si terme dans vocabulaire :
{u'lee': 1.09861228867}
-- Requete avec s.idf normalise'e pour terme dans vocabulaire :
{u'lee': 1.0}
-- Details du calcul de la correspondance avec le fichier inverse :
lee
Ligne du fichier inverse trate'e :
[[u'doc-1', 1.09861228867]]
*** Resultat final ***
(u'doc-1', ' (', 0.4916981343104934, ')')
***
Ce programme stocke le vecteur requête normalisé pour effectuer le calcul de cosinus.
2. Vérifiez que le programme gère correctement les mots en majuscule (en les transformant en minuscules)
et les mots de l'an3-dic3onnaire et les éliminant de la requête).
3. Posez la requête “lee lung tumor heart” , et faire le calcul du cosinus pour vérifier que le résultat est bien
celui du calcul de cosinus.
D. ModificaRon du système fourni (deuxième séance)
CeXe par3e vous fait modifier le système, pour étudier l'impact des éléments. gardez bien les programmes
originaux car vous allez vous en servir pour comparaison
1. La construcRon du vocabulaire
Dans ceXe par3e, vous u3liserez les mêmes fichiers documents que précédemment.
1. Vous devez modifier le code du programme d'indexa3on et de requêtes, afin qu'il n'applique pas l'anR-
dicRonnaire. Ce traitement est réalisé par la fonc3on filtreMotsOu3ls de la généra3on de vocabulaire gendico
(u3lisée par les autres programmes).
2. Quel est l'impact de ce traitement sur la taille du vocabulaire, et pourquoi ?
3. Ensuite, vous allez modifier le code du programme d'indexa3on et de requêtes, afin qu'il ne tronque pas
les termes, en remeXant l'u3lisa3on de l'an3-dic3onnaire. Ce traitement est réalisé par la fonc3on
mot2racine dans gendico.
4. Quel est l'impact de ce traitement sur la taille du vocabulaire, et pourquoi ?

3
Travail à rendre : noté
Un compte-rendu avec le noms du ou des auteurs (entre 3 et 4 pages) contenant :
§ les réponses aux ques3on posées sur les systèmes original et modiﬁé;
§ quelques commentaires sur ce que vous re3rez de ce TP.
SoumeXez-le, avant le 01 décembre 23h59, au format pdf avec le 3tre : ”[N°groupe-Nom1_ Nom2” avec vos
noms si vous être 2 ou 3 auteurs, et N°groupe pour désigner le groupe 3IMM1, 3IMM2,..,”
Une soutenance technique individuelle ou par équipe est prévue durant la semaine du 02 décembre 2024.
Prévoir un PC avec le travail eﬀectué par équipe.

Vous aimerez peut-être aussi

TP3 - Recherche D - Information 2
Pas encore d'évaluation
TP3 - Recherche D - Information 2
6 pages
TP 01
Pas encore d'évaluation
TP 01
2 pages
TD - Recherche D'information Multimédia Exercice 1 - Modèle Booléen Pondéré
100% (3)
TD - Recherche D'information Multimédia Exercice 1 - Modèle Booléen Pondéré
6 pages
Recherche Dinformation
Pas encore d'évaluation
Recherche Dinformation
7 pages
Seìance TP n1 Repreìsentation de Linformation Indexation
Pas encore d'évaluation
Seìance TP n1 Repreìsentation de Linformation Indexation
5 pages
TIRM Exament SPrincipale 2021
Pas encore d'évaluation
TIRM Exament SPrincipale 2021
3 pages
Examen2021 2022
Pas encore d'évaluation
Examen2021 2022
2 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
29 pages
2.modeles de RI
Pas encore d'évaluation
2.modeles de RI
27 pages
Chap2 Indexation OL
100% (1)
Chap2 Indexation OL
28 pages
TD1 TIR 24 Opt
Pas encore d'évaluation
TD1 TIR 24 Opt
3 pages
Solution - Exercices RI
Pas encore d'évaluation
Solution - Exercices RI
7 pages
Série 1-RI-ISIL
100% (1)
Série 1-RI-ISIL
4 pages
Examen2022 2023
Pas encore d'évaluation
Examen2022 2023
2 pages
TD2 Rim1
Pas encore d'évaluation
TD2 Rim1
2 pages
Diapo2 RI PDF
Pas encore d'évaluation
Diapo2 RI PDF
61 pages
Exercices ch3
100% (1)
Exercices ch3
5 pages
Rapport Ri
Pas encore d'évaluation
Rapport Ri
22 pages
Chapitre 2 - VF
Pas encore d'évaluation
Chapitre 2 - VF
114 pages
TP 1 Index
Pas encore d'évaluation
TP 1 Index
4 pages
Python pour les Débutants
D'Everand
Python pour les Débutants
Alex Wilson
Pas encore d'évaluation
TD Revision
Pas encore d'évaluation
TD Revision
3 pages
Devoir 2
Pas encore d'évaluation
Devoir 2
4 pages
Importation Du Module Tkinter
Pas encore d'évaluation
Importation Du Module Tkinter
3 pages
Chap 4
Pas encore d'évaluation
Chap 4
36 pages
Python pour Débutant: Apprenez à Programmer Pas à Pas
D'Everand
Python pour Débutant: Apprenez à Programmer Pas à Pas
Jean-Jacques Morel
Pas encore d'évaluation
Python - 1 An - Unité-1
Pas encore d'évaluation
Python - 1 An - Unité-1
106 pages
m1hn Algo Prog Td6
Pas encore d'évaluation
m1hn Algo Prog Td6
4 pages
PIM11_L1Python_exercices
Pas encore d'évaluation
PIM11_L1Python_exercices
28 pages
Dictionnaires
Pas encore d'évaluation
Dictionnaires
3 pages
Mini-Projets - Cours de Python
Pas encore d'évaluation
Mini-Projets - Cours de Python
24 pages
Les Dictionnaires Python
Pas encore d'évaluation
Les Dictionnaires Python
7 pages
B08KRRPG1Q
Pas encore d'évaluation
B08KRRPG1Q
216 pages
TP1 Ci Gmsi S5 2024 2025
Pas encore d'évaluation
TP1 Ci Gmsi S5 2024 2025
4 pages
Unitex GramLab 3.2beta Usermanual FR
Pas encore d'évaluation
Unitex GramLab 3.2beta Usermanual FR
398 pages
Les Types de Base Python
100% (1)
Les Types de Base Python
7 pages
RAG Python
100% (1)
RAG Python
4 pages
TP1 FR
Pas encore d'évaluation
TP1 FR
7 pages
OpenOffice Base: La base de données pour tous
D'Everand
OpenOffice Base: La base de données pour tous
Remy Lentzner
Pas encore d'évaluation
Tp1 33 (Tres Important)
Pas encore d'évaluation
Tp1 33 (Tres Important)
196 pages
Support
Pas encore d'évaluation
Support
17 pages
TP1 Initiation Python
Pas encore d'évaluation
TP1 Initiation Python
6 pages
Info Semestre 1 B
Pas encore d'évaluation
Info Semestre 1 B
16 pages
TD1 2
100% (5)
TD1 2
4 pages
13organisez Vos Données Dans Un Dictionnaire - Démarrez Votre Projet Avec Python - OpenClassrooms
Pas encore d'évaluation
13organisez Vos Données Dans Un Dictionnaire - Démarrez Votre Projet Avec Python - OpenClassrooms
2 pages
LINFO1101
Pas encore d'évaluation
LINFO1101
10 pages
Chapitre 3 Vector Space Model
Pas encore d'évaluation
Chapitre 3 Vector Space Model
32 pages
Examen 2017 Ini
Pas encore d'évaluation
Examen 2017 Ini
3 pages
TP3 2021
Pas encore d'évaluation
TP3 2021
5 pages
Bien débuter avec PHP/MySQL: Formation professionnelle
D'Everand
Bien débuter avec PHP/MySQL: Formation professionnelle
Rémy Lentzner
Pas encore d'évaluation
Module 5 Python-Utilisation Pour La Data Science - Week1Et2
Pas encore d'évaluation
Module 5 Python-Utilisation Pour La Data Science - Week1Et2
17 pages
A Imprimer
Pas encore d'évaluation
A Imprimer
5 pages
Cours02 TP Dictionnaires Eleve
Pas encore d'évaluation
Cours02 TP Dictionnaires Eleve
3 pages
Utilisation Scientifique de Python
Pas encore d'évaluation
Utilisation Scientifique de Python
30 pages
TP Python1
Pas encore d'évaluation
TP Python1
6 pages
Programmer en JavaScript
D'Everand
Programmer en JavaScript
Preston Prescott
Pas encore d'évaluation
2022 MP Informatique
Pas encore d'évaluation
2022 MP Informatique
19 pages
Concours Commun Mines-Ponts (CCMP) 2016 MP-Option Informatique Informatique Option e
Pas encore d'évaluation
Concours Commun Mines-Ponts (CCMP) 2016 MP-Option Informatique Informatique Option e
10 pages
Programmer en Python Pour La DS
Pas encore d'évaluation
Programmer en Python Pour La DS
57 pages
Bien débuter avec SQL: Exercices dans l'interface PhpMyAdmin et MySQL
D'Everand
Bien débuter avec SQL: Exercices dans l'interface PhpMyAdmin et MySQL
Rémy Lentzner
Pas encore d'évaluation
Bienvenue Chez NyokaPay
Pas encore d'évaluation
Bienvenue Chez NyokaPay
2 pages
L'exposé
Pas encore d'évaluation
L'exposé
8 pages
COJL Statut
Pas encore d'évaluation
COJL Statut
6 pages
1 Procédés Pétrochimiques Generalites Sur Le Petrole
100% (2)
1 Procédés Pétrochimiques Generalites Sur Le Petrole
11 pages
Series Entieres
Pas encore d'évaluation
Series Entieres
12 pages
Secteur Bancaire
Pas encore d'évaluation
Secteur Bancaire
22 pages
Chapitre 4 Management Stratégique
Pas encore d'évaluation
Chapitre 4 Management Stratégique
13 pages
FAGFWGDASAVDD
Pas encore d'évaluation
FAGFWGDASAVDD
77 pages
Theme 3 Materiaux Et Objets Techniques Programme
Pas encore d'évaluation
Theme 3 Materiaux Et Objets Techniques Programme
4 pages
Acutomancie
Pas encore d'évaluation
Acutomancie
4 pages
Le Barrage Hydroélectrique
Pas encore d'évaluation
Le Barrage Hydroélectrique
4 pages
Forage Petrolier
Pas encore d'évaluation
Forage Petrolier
56 pages
Fiches Verbe Aller Present
Pas encore d'évaluation
Fiches Verbe Aller Present
3 pages
14 - La Cuisine Pieds Noirs - Les Boissons
100% (1)
14 - La Cuisine Pieds Noirs - Les Boissons
39 pages
2nde Ses Comment Se Forment Les Prix Sur Un Marche
Pas encore d'évaluation
2nde Ses Comment Se Forment Les Prix Sur Un Marche
8 pages
Le Groupe Verbal
Pas encore d'évaluation
Le Groupe Verbal
2 pages
Zapette Nov 2016 (HD)
Pas encore d'évaluation
Zapette Nov 2016 (HD)
2 pages
Cours Visitation Daposimpregnation Daposentreprise
Pas encore d'évaluation
Cours Visitation Daposimpregnation Daposentreprise
17 pages
Chapitre 3 Sécurité Et Protection Électrique
Pas encore d'évaluation
Chapitre 3 Sécurité Et Protection Électrique
16 pages
Standard Pour Les Acteurs Fairtraid - FR
Pas encore d'évaluation
Standard Pour Les Acteurs Fairtraid - FR
44 pages
French Vocabulary
Pas encore d'évaluation
French Vocabulary
4 pages
La Norme Ias 41 Sur L'Agriculture: Réflexion
Pas encore d'évaluation
La Norme Ias 41 Sur L'Agriculture: Réflexion
12 pages
Les Epices Les Aromates Et Les Conditiments - Je Passe Mon CAP
Pas encore d'évaluation
Les Epices Les Aromates Et Les Conditiments - Je Passe Mon CAP
5 pages
Un Lever de Tenebres - Jordan Robert
100% (2)
Un Lever de Tenebres - Jordan Robert
1 041 pages
Peinture Ripolin
Pas encore d'évaluation
Peinture Ripolin
1 page
Fondation Mohammed Vi de Promotion Des Œuvres Sociales de l'Education-Formation
Pas encore d'évaluation
Fondation Mohammed Vi de Promotion Des Œuvres Sociales de l'Education-Formation
463 pages
Conception D'une Unité Pharmaceutique
Pas encore d'évaluation
Conception D'une Unité Pharmaceutique
4 pages
ENA 2024 Guide Inscription CD
Pas encore d'évaluation
ENA 2024 Guide Inscription CD
2 pages
Partager Sur Twitter: Lettre de Motivation Stage Banque Et Assurances
Pas encore d'évaluation
Partager Sur Twitter: Lettre de Motivation Stage Banque Et Assurances
3 pages