Post on 03-Apr-2015
Cours 4
Étiquettes lexicales
Catégories grammaticalesEn anglais parts of speech (POS)
Exemple de liste de catégories grammaticales
nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, déterminant
En général, 10 à 15 catégories par langue
Information sur les voisins du mot
Un pronom est souvent suivi d'un verbe : il intervient
Un déterminant est souvent suivi d'un nom : les annonces
Information sur la prononciation du mot
Président peut être un nom : Le président de séance est en retard
Président peut être un verbe : Ils président la séance à tour de rôle
La prononciation est différente
Les poules du couvent couvent
Catégories grammaticales
Catégories grammaticales et suffixes
vaccine est un verbe, on peut le regrouper avec vacciner
féminine est un adjectif, on peut le regrouper avec féminin
Application : la recherche d'informations
Catégories grammaticales et pertinence
Les noms sont souvent pertinents : balle, film, banque...
Les prépositions le sont moins : selon, depuis, malgré...
une croix en or et pierres précieuses... nom
Or la version de la chanson... conjonction
Définition des catégories grammaticales
Par les suffixes
Deux mots qui prennent les mêmes suffixes ont des chances d'appartenir à la même catégorie
vaccine, vaccinent, vacciné, vaccines/juge, jugent, jugé, juges verbes
parent, parents, parente, parentes/ami, amis, amie, amies noms
Par les contextes
Deux mots qui acceptent les mêmes contextes ont des chances d'appartenir à la même catégorie
Les représentants des pays concernés
Les représentants des partis concernés noms
Le TGV n'avait pas prévu de s'arrêter
Le TGV n'avait pas cessé de s'arrêter verbes
Catégories ouvertes/fermées
Catégories ferméesLes éléments sont en nombre limité et fixeMots grammaticaux (jouent un rôle important dans la grammaire), courts
et fréquentsPrépositions : à de par pour sans selon depuis malgré...Quelques dizainesOn en crée rarement de nouvelles
Catégories ouvertesLes éléments sont nombreux et de nouveaux sont créés continuellementNoms : futon MP3 pseudotéléspectateur triréacteur...Quelques dizaines de milliersVerbes : faxer surréglementer sursubventionner télécopier...Quelques milliers
Catégories ouvertes
Noms ou substantifs
Souvent précédés d'un déterminant des annonces
Varient entre singulier et pluriel une annonce/des annonces
Sous-catégories :
noms communs bateau, chaise, relation, élève
noms propres Paris, Laporte, Lip
Verbes
Varient en temps il annonce il annoncera
personne il annonce nous annonçons
Sous-catégories :
auxiliaires pouvoir, devoir, avoir, être...
Catégories ouvertes
Adjectifs
Varient entre singulier et pluriel normal normaux
masculin et féminin normaux normales
Adverbes
Généralement déplaçables dans une phrase
Souvent, le bus s'arrête ici
Le bus, souvent, s'arrête ici
Le bus s'arrête souvent ici
Le bus s'arrête ici souvent
Catégories fermées
Prépositions
à de par pour sans selon sur sous avec depuis malgré...
Devant des noms ou des verbes : à des annonces pour annoncer
Conjonctions
et ou mais car...
Entre deux séquences analogues : des programmes et des données
que quand si comme lorsque...
Devant une phrase incluse dans une autre : Je viendrai si je peux
Catégories fermées
Déterminants
un une des du le la les chaque deux trois quatre beaucoup mon...
Devant des noms : des annonces beaucoup d'annonces
Pronoms
je tu il elle on nous vous moi toi lui ceci cela qui quoi que quelqu'un...
Étiquettes lexicales
En anglais tags
Je viendrai si je peux
Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s
Un objet qui identifie pour chaque token-mot
- la catégorie grammaticale
- éventuellement d'autres propriétés (temps, personne, nombre...)
On peut aussi étiqueter les symboles de ponctuation
Étiquettes lexicales non structurées
Je,PP viendrai,VBF si,IN je,PP peux,VBP
Chaque étiquette représente une catégorie généralement un peu plus précise qu'une catégorie grammaticale
Exemples
PP pronom personnel
VBF verbe conjugué au futur
IN préposition ou conjonction de subordination
Jeu d'étiquettes (tagset)
Ensemble d'étiquettes
Pour l'anglais, généralement 50 à 150 étiquettes
Étiquettes lexicales structurées
Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s
Chaque étiquette donne séparément
- la catégorie grammaticale
- d'autres propriétés éventuelles :
- temps (présent, futur, passé...)
- personne (1, 2, 3)
- genre (masculin, féminin)
- nombre (singulier, pluriel)
etc.
Traits flexionnels
Étiquettes lexicales structurées
viendrai,V:F1s
Paires attribut-valeur
partOfSpeech = verb
tense = future
person = 1
number = singular
attributs (features)
valeurs (values)
ABR abreviation
ADJ adjective
ADV adverb
DET:ART article
DET:POS possessive pronoun (ma, ta, ...)
INT interjection
KON conjunction
NAM proper name
NOM noun
NUM numeral
PRO pronoun
PRO:DEM demonstrative pronoun
PRO:IND indefinite pronoun
PRO:PER personal pronoun
PRO:POS possessive pronoun (mien, tien, ...)
PRO:REL relative pronoun
PRP preposition
PRP:det preposition plus article (au,du,aux,des)
PUN punctuation
PUN:cit punctuation citation
SENT sentence tag
SYM symbol
VER:cond verb conditional
VER:futu verb futur
VER:impe verb imperative
VER:impf verb imperfect
VER:infi verb infinitive
VER:pper verb past participle
VER:ppre verb present participle
VER:pres verb present
VER:simp verb simple past
VER:subi verb subjunctive imperfect
VER:subp verb subjunctive present
Racinisation
Pour la recherche d'informations, les variations de forme des mots ne sont pas très pertinentes et augmentent inutilement le nombre de dimensions de l'espace vectoriel
Exemples
vaccine, vaccinent, vacciné, vaccines...
La racinisation (stemming) consiste à remplacer toutes ces variantes par vacciner
ou même vaccine, vaccinent, vacciné, vaccines, vaccination, vaccinal... par vaccin
On n'a pas besoin que ce soit un mot correct, il suffit que ce soit le même pour tous
Le raciniseur de Porter (1980)
Substitution de suffixes
ational --> ate relational --> relate
ing --> motoring --> motor
Plusieurs passes
Passe 1 ies --> i capabilities --> capabiliti
Passe 4 (m>0)biliti --> ble capabiliti --> capable
m = nombre de séquences voyelle/consonne
Exemples
capabilities m = 5 capa m = 1
Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat
Step 1b (m>0) EED -> EE feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> singIf the second or third of the rules in Step 1b is successful, the following is done: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) -> single letter hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz (m=1 and *o) -> E fail(ing) -> fail fil(ing) -> fileThe rule to map to a single letter causes the removal of one of the double letter pair.
*v* contains a vowel (a, e, i, o, u, or y preceded by a consonant)*d ends with a double consonant, e.g. tt, ss*o ends with cvc, where the second c is not w, x or y
Step 1c (*v*) Y -> I happy -> happi sky -> sky
Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli - > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate (m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible
Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good
Step 4 (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler
*S ends with s (and the same for other letters)
Step 5a (m>1) E -> probate -> probat rate -> rate (m=1 and not *o) E -> cease -> ceas
Step 5b (m > 1 and *d and *L) -> single letter controll -> control roll -> roll
Le raciniseur de Porter (1980)
Exemples d'imperfections
Paires regroupées
numerical numerous --> numer
university universe --> univers
Paires non regroupées
noisy --> noisi noise --> nois
sparsity --> sparsiti sparse --> spars
Étiquetage
Attribution d'une étiquette lexicale à chaque token (mot ou symbole de ponctuation)
Entrées : un texte tokenisé et un jeu d'étiquettes
Sortie : le texte étiqueté
Applications
recherche d'informations
reconnaissance de parole
analyse syntaxique
Ambiguïtés lexicales
La poste livre le colis dans un délai d'une semaine verbe
Le livre parvient à l'acheteur en une semaine nom
Étiquetage par règles écrites à la main
Première étape
On consulte un lexique qui donne toutes les étiquettes possibles des tokens-mots
Il,PRO:3s est,V:P3s,A:ms,A:mp,A:fs,A:fp,ADV fin,A:ms,N:fs ./.
Deuxième étape
On applique des règles écrites à la main qui éliminent des étiquettes en fonction du contexte
if (+1A/ADV/QUANT); (+2 SENT-LIM); (NOT -1 SVOC/A);
then eliminate non-ADV tags
else eliminate ADV tag
Étiquetage par règles apprises statistiquement (Brill, 1995)
Première étape
On consulte un lexique qui donne l'étiquette la plus fréquente pour chaque token
race/NN (plus souvent nom que verbe)
expected/VBN to/TO race/NN tomorrow/NN
Deuxième étape
On applique les règles apprises statistiquement qui changent des étiquettes en fonction du contexte
Changer NN en VB après TO
expected/VBN to/TO race/VB tomorrow/NN
Étiquetage par règles apprises statistiquement
Deux algorithmes d'apprentissagePour la première étapeLe lexique donnant l'étiquette la plus fréquente pour chaque token
est obtenu à partir d'un corpus étiquetéPour la deuxième étapeEntrées : le lexique de la première étape ; un corpus étiqueté ; des
formes de règlesSorties : un ensemble de règlesétiqueter le texte du corpus avec le lexique de la première étapetant que les résultats ne sont pas assez bons
examiner toutes les règlessélectionner celle qui donne le meilleur étiquetageremplacer l'ancien étiquetage par celui obtenu
Étiquetage par règles apprises statistiquement
Pour la deuxième étapeLes règles peuvent être des arbres de décisionChaque noeud de l'arbre correspond à un critère (question), et
chaque noeud fils à une réponse possibleChaque feuille correspond à une décisionExemple de jeu de critères :
- étiquette de l'avant-dernier token avant
- étiquette du dernier token avant
- forme du token, s'il est fréquent
- les 2 premières lettres du token
- les 3 dernières lettres du token
- particularités typographiques du token (majuscules, guillemets, tiret...)
- forme du token après, s'il est fréquent
- particularités typographiques du token après (majuscules, guillemets, tiret...)
Étiquetage par modèle de Markovappris statistiquement
Probabilité qu'un mot étiqueté TO soit suivi d'un mot étiqueté NN :P(NN|TO) = 0,021 P(VB|TO) = 0,34
Probabilité qu'un mot étiqueté NN soit race :P(race|NN) = 0,00041 P(race| VB) = 0,00003
Probabilité qu'un mot étiqueté TO soit suivi de race/NN :P(NN|TO) P(race|NN) = 0,000007P(VB|TO) P(race| VB) = 0,00001
ConclusionL'étiquette correcte de race dans to race est probablement VB