Jep 2012 wrkshp

Analyse des performances de
modèles de langage sub-lexicale
pour des langues peu-dotées à
morphologie riche

Hadrien Gelas1,2, Solomon Teferra Abate2,
Laurent Besacier2, François Pellegrino1
1Laboratoire DDL, CNRS - Université de Lyon, France
2LIG, CNRS - Université Joseph Fourier Grenoble, France

Introduction Résultats

1 2 3
Segmentation
des données
textuelles

Amharique

Langue
Sémitique

333

Reconnaissance
Automatique de la
Parole (RAP)
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage

J Sorties
texte

Ressources en RAP
"
Dictionnaire
Modèles
acoustiques
l l de langage

AMH : 20h de parole lue
SWH : 2h30 de parole lue
+ 10h de broadcast news
J Sorties
texte

Ressources en RAP
"
Dictionnaire
Modèles
acoustiques
l l de langage

65k mots les plus fréquents
pour les 2 langues
J Sorties
texte

Ressources en RAP
"
Dictionnaire
Modèles
acoustiques
l l de langage

AMH : 2.3M de mots
SWH : 28M de mots
J Sorties
texte

Amharique et swahili

Morphologie riche

Morphologie Riche
en swahili
English They will not tell you

Morphologie Riche
en swahili

Swahili hawatakuambieni

Morphologie Riche
en swahili

Swahili hawatakuambieni

Segm. ha-wa-ta-ku-ambi-e-ni

Gloss NEG-SM2-FUT-OM2-tell-FIN-PL

Morphologie Riche
et RAP [Creutz et al., 2007]

Morphologie Riche
et RAP

Faible couverture lexicale
OOV% élevé

3
Segmentation des mots en
sous-unités !

Segmentation des
données
3 approches et
3 étiquetages

2

Approche #1
Approche non-supervisée
(Morfessor), guidée par les
données.

liste de mots
3
liste de morphes

Approche #2
Approche supervisée, nécessite un
corpus d’apprentissage
manuellement segmenté.

liste de mots
3

liste de morphèmes

Approche #3
Découpage en syllabe à partir de
règles suivant les contraintes
phonologiques et structurelles des
langues respectives

liste de mots
3

liste de syllabes

Ressources en RAP
"
Dictionnaire
Modèles
acoustiques
l l de langage

On apprend des modèles de
langage à partir des corpus
segmentés en sous-unités
J Sorties
texte

Ressources en RAP
"
Dictionnaire
Modèles
acoustiques
l l de langage

Nécessite de reconstruire les
sorties au niveau mot ! J Sorties
texte

Etiquetage #1
_AFX : Une frontière (MB) est a joutée
à la gauche (ou droite) de la
segmentation laissant la « racine »
isolé.

ki tabu 3
kiMB tabu 3
kitabu

Etiquetage #2
_ALL : Une frontière (MB) est a joutée
de chaque côté de la segmentation.
Distinguant ainsi chaque racine par
sa position (ROOT, MBROOT, ROOTMB,
MBROOTMB)

ki tabu 3
kiMB MBtabu 3
kitabu

Etiquetage #3
_POS : Pour les syllabes, nous avons
a joutés à la syllabe la position de la
syllabe dans le mot.

ki ta bu 3
1ki 2ta 3bu kitabu
3

Résultats (WER)
"
Dictionnaire
Modèles
acoustiques
l l de langage

3 J Sorties
texte

Conclusion
RAP : langues à morphologie riche

Mots 3

Sous-unités
= Amélioration du WER%
= Amélioration du OOV%

Si segmentation appropriée !

Récapitulatif
Influence sur performances =
3 paramètres

#1 : Longueur couverte par n-gram
si suffisante…
#2 : Couverture lexicale
si suffisante…
#3 : Précision des contextes

Merci!

hadrien.gelas@univ-lyon2.fr

solomon_teferra_7@yahoo.com

laurent.besacier@imag.fr

francois.pellegrino@univ-lyon2.fr

Résultats swahili (TYPE OOV %)

19.17

12.46
10.28 11.36

1.61
Word-65k Word-200k Word-400k Morf-65k Morf-200k

Comparaison – swahili
approches et étiquetages

Jep 2012 wrkshp

Contenu connexe

En vedette (20)

Jep 2012 wrkshp