Analyse des performances de
modèles de langage sub-lexicale
pour des langues peu-dotées à
morphologie riche

     Hadrien Gelas1,2, Solomon Teferra Abate2,
      Laurent Besacier2, François Pellegrino1
  1Laboratoire  DDL, CNRS - Université de Lyon, France
 2LIG, CNRS - Université Joseph Fourier Grenoble, France
Introduction                  Résultats


     1             2            3
               Segmentation
                des données
                 textuelles
Introduction


1
Amharique


Langue
Sémitique


333
Swahili


Langue
Bantu



333
Reconnaissance
          Automatique de la
               Parole (RAP)
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




                                                    J   Sorties
                                                         texte
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




AMH : 20h de parole lue
SWH : 2h30 de parole lue
+ 10h de broadcast news
                                                    J   Sorties
                                                         texte
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




65k mots les plus fréquents
pour les 2 langues
                                                    J   Sorties
                                                         texte
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




AMH : 2.3M de mots
SWH : 28M de mots
                                                    J   Sorties
                                                         texte
Amharique et swahili


   Morphologie riche
Morphologie Riche
en swahili
English   They will not tell you
Morphologie Riche
en swahili
English   They will not tell you

Swahili   hawatakuambieni
Morphologie Riche
en swahili
English   They will not tell you

Swahili   hawatakuambieni

Segm.     ha-wa-ta-ku-ambi-e-ni

Gloss     NEG-SM2-FUT-OM2-tell-FIN-PL
Morphologie Riche
et RAP [Creutz et al., 2007]
Morphologie Riche
et RAP

        Faible couverture lexicale
        OOV% élevé	
  



3	
     Segmentation des mots en
        sous-unités !
Segmentation des
données
     3 approches et
     3 étiquetages


 2
Approche #1
Approche non-supervisée
(Morfessor), guidée par les
données.

  liste de mots
                  3	
     liste de morphes
Approche #2
Approche supervisée, nécessite un
corpus d’apprentissage
manuellement segmenté.

  liste de mots
                  3	
  
                      liste de morphèmes
Approche #3
Découpage en syllabe à partir de
règles suivant les contraintes
phonologiques et structurelles des
langues respectives

    liste de mots
                    3	
  
                        liste de syllabes
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




On apprend des modèles de
langage à partir des corpus
segmentés en sous-unités
                                                    J   Sorties
                                                         texte
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




Nécessite de reconstruire les
sorties au niveau mot !                             J   Sorties
                                                         texte
Etiquetage #1
_AFX : Une frontière (MB) est a joutée
à la gauche (ou droite) de la
segmentation laissant la « racine »
isolé.

      ki tabu   3	
  kiMB tabu 3	
  kitabu
Etiquetage #2
_ALL : Une frontière (MB) est a joutée
de chaque côté de la segmentation.
Distinguant ainsi chaque racine par
sa position (ROOT, MBROOT, ROOTMB,
MBROOTMB)

     ki tabu   3	
  kiMB MBtabu 3	
  kitabu
Etiquetage #3
_POS : Pour les syllabes, nous avons
a joutés à la syllabe la position de la
syllabe dans le mot.

    ki ta bu   3	
     1ki 2ta 3bu       kitabu
                                     3	
  
Résultats (WER)
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




 3                                                  J   Sorties
                                                         texte
Résultats swahili (WER)
Résultats amharique (WER)
Résultats (OOV %)
Conclusion
RAP : langues à morphologie riche

        Mots 3	
  
                Sous-unités
      = Amélioration du WER%
      = Amélioration du OOV%

   Si segmentation appropriée !
Récapitulatif
Influence sur performances =
3 paramètres

#1 : Longueur couverte par n-gram
             si suffisante…
#2 : Couverture lexicale
             si suffisante…
#3 : Précision des contextes
Merci!

   hadrien.gelas@univ-lyon2.fr

   solomon_teferra_7@yahoo.com

   laurent.besacier@imag.fr

   francois.pellegrino@univ-lyon2.fr
Résultats swahili (TYPE OOV %)


  19.17



             12.46
                         10.28      11.36


                                                1.61
 Word-65k   Word-200k   Word-400k   Morf-65k   Morf-200k
Comparaison – swahili
approches et étiquetages

Contenu connexe

PDF
Jep 2012 Swahili
PPT
Variation Diatopique Le Parler Jbli
PPT
Exposé variation sémantique b.sara et l.zakarya
PPT
La Dialectologie Power
PPT
L'argot dans la chanson du Rap Marocain
PPTX
Introduction à la phonétique générale et corrective du fle - chapitre 1
PDF
Correction Orthographique et Grammaticale Automatique
PDF
Moko l'enfant du monde
Jep 2012 Swahili
Variation Diatopique Le Parler Jbli
Exposé variation sémantique b.sara et l.zakarya
La Dialectologie Power
L'argot dans la chanson du Rap Marocain
Introduction à la phonétique générale et corrective du fle - chapitre 1
Correction Orthographique et Grammaticale Automatique
Moko l'enfant du monde

En vedette (20)

PDF
Atelier 1_Google adresse_OT Bergerac
PPTX
Présentation du référencement social
PDF
Café numérique réseaux sociaux
PPTX
Flyer congo v3
PDF
Sondage salaires 2013 - Designers interactifs
PPTX
Newsletter #23 - Le Hibou Agence .V. du 5 octobre 2012
PDF
“La Inspección de Educación en los proyectos internacionales” Ana Carmen del ...
PDF
Témoignage Collaboratif distributeurs/ Industriel - Tirez profits de vos donn...
DOCX
trabajo practico
PPTX
Réunion handitourisme du 9 octobre 2012 à Samoëns
PPTX
Compu training replay ece2 td 8 - angermann et desmon
PPTX
Présentation1 2 [réparé] ok
PPT
Tema 2ª rev ind e imperialismo
PPT
Projet - Carrières (IS)
PDF
Un contexte pour Innover
PDF
Cafenumérique avisclients
PDF
Guide ecole-art-lrsy-2012:13
ODP
Orthophonistes 2
PDF
Mode d'emploi tire bouchon électrique PEUGEOT ELIS
Atelier 1_Google adresse_OT Bergerac
Présentation du référencement social
Café numérique réseaux sociaux
Flyer congo v3
Sondage salaires 2013 - Designers interactifs
Newsletter #23 - Le Hibou Agence .V. du 5 octobre 2012
“La Inspección de Educación en los proyectos internacionales” Ana Carmen del ...
Témoignage Collaboratif distributeurs/ Industriel - Tirez profits de vos donn...
trabajo practico
Réunion handitourisme du 9 octobre 2012 à Samoëns
Compu training replay ece2 td 8 - angermann et desmon
Présentation1 2 [réparé] ok
Tema 2ª rev ind e imperialismo
Projet - Carrières (IS)
Un contexte pour Innover
Cafenumérique avisclients
Guide ecole-art-lrsy-2012:13
Orthophonistes 2
Mode d'emploi tire bouchon électrique PEUGEOT ELIS
Publicité

Jep 2012 wrkshp