Jep 2012 wrkshp
Transcript of Jep 2012 wrkshp
Analyse des performances de
modèles de langage sub-lexicale
pour des langues peu-dotées à
morphologie riche
Hadrien Gelas1,2, Solomon Teferra Abate2, Laurent Besacier2, François Pellegrino1
1Laboratoire DDL, CNRS - Université de Lyon, France 2LIG, CNRS - Université Joseph Fourier Grenoble, France
1 2 3
Introduction
Segmentation
des données
textuelles
Résultats
Introduction
1
333
Amharique Langue Sémitique
333
Swahili Langue Bantu
J
"r l
r l
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
Reconnaissance Automatique de la
Parole (RAP)
J
"r l
r l
AMH : 20h de parole lue
SWH : 2h30 de parole lue
+ 10h de broadcast news
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
J
"r l
r l
65k mots les plus fréquents
pour les 2 langues
Ressources en RAP
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
J
"r l
r l
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
AMH : 2.3M de mots
SWH : 28M de mots
Amharique et swahili
Morphologie riche
Morphologie Riche en swahili
English They will not tell you
Morphologie Riche en swahili
English They will not tell you
Swahili hawatakuambieni
Morphologie Riche en swahili
English They will not tell you
Swahili hawatakuambieni
Segm. ha-wa-ta-ku-ambi-e-ni
Gloss NEG-SM2-FUT-OM2-tell-FIN-PL
Morphologie Riche et RAP [Creutz et al., 2007]
Morphologie Riche et RAP
Faible couverture lexicale OOV% élevé
3 Segmentation des mots en sous-unités !
Segmentation des données
2
3 approches et
3 étiquetages
Approche #1
Approche non-supervisée
(Morfessor), guidée par les
données.
liste de mots liste de morphes 3
Approche #2
Approche supervisée, nécessite un
corpus d’apprentissage
manuellement segmenté.
liste de mots liste de morphèmes
3
Approche #3
Découpage en syllabe à partir de
règles suivant les contraintes
phonologiques et structurelles des
langues respectives
liste de mots liste de syllabes
3
J
"r l
r l
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
On apprend des modèles de
langage à partir des corpus
segmentés en sous-unités
J
"r l
r l
Dictionnaire
prononciation
Sorties texte
Modèles
acoustiques
Modèles
de langage
Ressources en RAP
Nécessite de reconstruire les
sorties au niveau mot !
Etiquetage #1
_AFX : Une frontière (MB) est a joutée
à la gauche (ou droite) de la
segmentation laissant la « racine »
isolé.
ki tabu kiMB tabu kitabu 3 3
Etiquetage #2
_ALL : Une frontière (MB) est a joutée
de chaque côté de la segmentation.
Distinguant ainsi chaque racine par
sa position (ROOT, MBROOT, ROOTMB, MBROOTMB)
ki tabu kiMB MBtabu kitabu 3 3
Etiquetage #3
_POS : Pour les syllabes, nous avons
a joutés à la syllabe la position de la
syllabe dans le mot.
ki ta bu 1ki 2ta 3bu kitabu 3 3
Résultats (WER)
"r l
r l
Sorties texte J 3
Dictionnaire
prononciation Modèles
acoustiques
Modèles
de langage
Résultats swahili (WER)
Résultats amharique (WER)
Résultats (OOV %)
Conclusion
RAP : langues à morphologie riche
Mots Sous-unités = Amélioration du WER% = Amélioration du OOV%
Si segmentation appropriée !
3
Récapitulatif Influence sur performances = 3 paramètres
#1 : Longueur couverte par n-gram si suffisante…
#2 : Couverture lexicale si suffisante…
#3 : Précision des contextes
19.17
12.46
10.28 11.36
1.61
Word-65k Word-200k Word-400k Morf-65k Morf-200k
Résultats swahili (TYPE OOV %)
Comparaison – swahili approches et étiquetages