Master spécialisé- lexicographie, terminographie (Lille 3)
description
Transcript of Master spécialisé- lexicographie, terminographie (Lille 3)
UNIVERSITE CHARLES DE GAULLE LILLE 3
UFR Humanités
Département sciences du langage
Master SCIENCES HUMAINES ET SOCIALES
MENTION SCIENCES DU LANGAGE
Spécialité Lexicographie, Terminographie et Traitement
Automatique des Corpus
La formation LTTAC débute le jeudi 12 septembre 2013 à 10h30 en salle A2 412. La présence assidue des étudiants est nécessaire dès cette date.
La spécialité Lexicographie, Terminographie et Traitement Automatique des Corpus (LTTAC) est un parcours
de deux années (M1 et M2) qui, en fonction du projet de formation des étudiants, peuvent être soit combinées,
soit suivies de manière indépendante.
En combinant un M1 qui propose aux étudiants de développer leurs compétences linguistiques et informatiques
en les combinant à une bonne connaissance des dictionnaires existants, puis un M2 plus spécifiquement consacré
à la Lexicographie, à la Terminographie et au Traitement Automatique des Corpus, cette formation vise à donner
une qualification en ingénierie linguistique en phase avec les nouvelles technologies de l’information et de la
communication (NTIC) dans les domaines suivants :
– rédaction de dictionnaires monolingues et bilingues et d’encyclopédies,
– conception de bases de données pour la lexicographie et la terminologie,
– développement de lexiques pour des systèmes d’aide à la rédaction ou de traduction automatique ou assistée,
– élaboration de catalogues et de guides thématiques,
– construction d’ontologies pour le traitement automatique des langues (TAL) et l’intelligence artificielle (IA),
– intégration de ressources lexicales à des moteurs de recherche et autres outils d’extraction d’informations (par
exemple des agents conversationnels) ou d’indexation automatique de documents.
Au terme de leur formation, les étudiants diplômés, formés à l’analyse linguistique du lexique et familiarisés
avec les technologies informatiques les plus récentes, pourront prétendre à une insertion professionnelle
notamment en tant que :
– lexicographes (rédacteurs et chefs de projets) pour des éditeurs spécialisés,
– terminologues au sein d’institutions ou d’entreprises industrielles ou commerciales,
– traducteurs terminologues dans des entreprises de traduction de logiciels, de didacticiels, de jeux, etc.,
– rédacteurs de guides pratiques et de catalogues techniques ou commerciaux,
– informaticiens dans des équipes d’informatique éditoriale,
– linguistes informaticiens dans des entreprises informatiques relevant des industries de la langue.
La responsable de la spécialité LTTAC est :
Nathalie GASIGLIA
Maître de conférences (habilitée à diriger des recherches) de Sciences du langage, UMR STL & UFR
Humanités, département Sciences du langage
Tél. : 03.20.41.66.61 ou 06.11.44.20.33
Courriel : [email protected]
1. Master 1 LTTAC
Pour plus d’informations consultez le site de la formation :
http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/M1LTTAC.htm et le site du département :
http://www.univ-lille3.fr/ufr-humanites/sciences-langage/formations/masters/lttac/
Le M1 LTTAC est une plateforme originale de formation en sciences du langage, qui a pour objectif de fournir
les bases d’une qualification en ingénierie linguistique, ouvrant la porte d’une part à la recherche en linguistique
descriptive et/ou formelle, d’autre part à une large gamme d’insertions professionnelles dans les domaines de
l’édition (en particulier d’ouvrages de référence – comme les dictionnaires), des industries de la langue (IDL) et
des nouvelles technologies de l’information et de la communication (NTIC), auxquelles prépare ensuite de façon
plus poussée le M2 LTTAC.
Pour réaliser ses objectifs, le M1 LTTAC articule 7 composantes, distribuées en 12 UE (unités d’enseignement)
réparties sur 2 semestres :
– un enseignement de linguistique fondamentale, noyau par définition de toute formation en sciences du
langage ;
– un panorama des domaines du traitement automatique des langues (TAL) et des types de répertoires lexicaux
produits pour le grand public et les industries de la langue ;
– une initiation aux ressources et aux outils informatiques exploitables pour les analyses linguistiques ;
– un renforcement en langues vivantes ;
– une spécialisation dans un domaine à choisir entre la lexicographie, la linguistique, la traduction assistée par
ordinateur ;
– la rédaction d’un court mémoire sur une recherche originale, pouvant déboucher sur une application, pour
renforcer les qualités de synthèse et de créativité ;
– un stage de 3 mois minimum dans une entreprise ou un établissement public spécialisés, pour familiariser avec
les réalités de la vie professionnelle.
Conditions d’admission Public : Le M1 LTTAC s’adresse à tous les étudiants ayant une excellente maîtrise de leur langue maternelle et une
bonne connaissance d’au moins une langue étrangère, qui sont désireux de mettre le langage au cœur de leurs
activités de recherche ou professionnelles, et qui veulent aborder celles-ci avec les techniques modernes de
l’outillage informatique, ou développer de nouveaux outils de traitement automatique du langage.
À tous ceux qui se destinent à une large gamme d’activités, allant de la linguistique fondamentale ou appliquée
au développement de produits multimédias, en passant par la lexicographie, la terminologie, la traduction
automatique ou assistée par ordinateur, l’élaboration d’outils de navigation, la didactique outillée des langues ou
les métiers de l’édition, le M1 LTTAC apporte des connaissances de base en matière de description et de
formalisation linguistiques et d’appropriation théorique et pratique d’outils informatiques impliqués dans le
traitement des langues, des textes et des connaissances, tels que :
– les logiciels de transcription alignée aux sons ou aux vidéos ;
– les outils d’indexation automatique de documents ;
– les étiqueteurs morphosyntaxiques ;
– les systèmes d’alignement de corpus multilingues ;
– les concordanciers ;
– les outils de fouille de textes et d’extraction d’informations ;
– les ontologies ;
– les dictionnaires électroniques ;
– les mémoires de traduction ;
– etc.
En formation initiale, le M1 LTTAC est ouvert à tous les étudiants titulaires d’une licence (ou d’une
équivalence). Il s’inscrit de manière naturelle dans la filiation des licences comportant une composante
linguistique et/ou de traitement automatique des langues (lettres modernes ou classiques, sciences du langage,
français langue étrangère (FLE), langues vivantes, sciences humaines et sociales, informatique appliquée), mais
est aussi accessible aux étudiants venant d’autres filières. Selon leur parcours antérieur et leur projet de
formation, il pourra être proposé à certains étudiants de faire quelques lectures complémentaires en linguistique
et/ou en traitement automatique du langage.
La formation est ouverte aux étudiants francophones de toutes nationalités. La pratique de plusieurs langues –
langues de large diffusion mais aussi langues d’extension plus restreinte – est un atout particulièrement apprécié
dans l’ensemble des activités professionnelles qui ont recours aux techniques du traitement automatique du
langage.
Les étudiants à disponibilité réduite (salariés ou autres) pourront suivre la formation en échelonnant sur plus
d’une année l’assistance aux enseignements et la validation des contrôles.
Au titre de la formation continue, la formation est aussi ouverte aux professionnels des industries de la langue
impliqués dans la constitution et la manipulation de ressources lexicales structurées et de corpus qui souhaitent
compléter leur formation en suivant tout ou partie des enseignements dispensés.
Modalités de préinscription : L’entrée en M1 LTTAC ne fait pas l’objet d’une sélection. Le dossier de préinscription que nous vous
demandons de nous adresser est donc une déclaration d’intention, un engagement dans un projet de formation.
Ce dossier nous permet de connaître votre parcours de formation et vos éventuelles expériences professionnelles
afin que, dès notre première rencontre ou nos premiers échanges, nous puissions envisager les conditions de
travail qui maximiseront vos chances de réussite et vous permettront de tirer le meilleur profit des enseignements
que nous vous proposons.
Pour vous préinscrire, vous devez télécharger le dossier1 ou le demander par mail à N. Gasiglia, l’imprimer, le
remplir, et l’adresser à N. Gasiglia (à l’adresse indiquée sur le dossier), accompagné des documents utiles, avant
l’une des dates suivantes :
1 Cf. : http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/index.htm, menu de bas de page
intitulé « Comment s’inscrire ».
– candidats ayant des diplômes étrangers : 29 mars 2013 (date fixée par la scolarité pour la réception des dossiers
par le Bureau d’Accueil des Étudiants de l’Internationale)
– 1e session de recrutement : dernier vendredi de juin (soit le 28 juin 2013)
– 2e session de recrutement : premier vendredi de septembre (soit le 6 septembre 2013)
Une réponse sera donnée à chaque dossier reçu dans les quelques jours suivant son arrivée (sauf durant la
fermeture estivale de l’université). Si cette réponse tarde, n’hésitez pas à contacter N. Gasiglia.
Attention : selon votre situation, le dossier de préinscription peut devoir être accompagné d’un autre dossier
administratif. Vérifiez bien, sur le site web de l’université ou auprès de N. Gasiglia, si vous relevez d’un des cas
appelant des démarches particulières (étudiants ayant débuté leurs études supérieures à l’étranger, en reprise
d’études et désireux de demander une validation VAP 85, en formation continue).
Structure des enseignements : La formation comporte 346 heures de cours (de septembre à mai), un stage de 3 mois minimum et la rédaction
d’un mémoire de recherche.
Les 12 unités d’enseignement (UE) représentent 60 crédits ECTS (Système Européen de Transfert de Crédits) :
30 ECTS par semestre.
Une présence assidue à tous les cours est indispensable. Les étudiants qui exercent une activité professionnelle
pourront bénéficier d’un régime aménagé et valider leur M1 sur plus d’une année.
Les cours débuteront par deux journées intensives durant lesquelles les étudiants des nouvelles promotions
assisteront entre autres choses aux soutenances de rapports de stage des étudiants qui terminent leur M1 ou leur
M2. La présence à ces deux journées est strictement nécessaire pour une prise de repères professionnels.
Pour chaque constituant d’UE, la structure ci-après indique le cas échéant s’il est emprunté à une autre
formation.
Les cours mutualisés avec le M2 LTTAC ont des contenus d’enseignement différents chaque année.
Les cours de spécialisation empruntés à des formations autres que le M2 LTTAC et le M. Linguistique ne seront
proposés que si la compatibilité horaire des cours le permet.
Attention : Les étudiants d’autres formations désireux de suivre des cours du M1 ou du M2 LTTAC sont tenus
de contacter N. GASIGLIA avant le début des cours. Si cette démarche n’a pas été réalisée avant la 2e séance du
programme de formation choisi, celui-ci ne sera plus accessible.
Master 1 - S1 Master 1 – S2
Intitulé heures ECTS Intitulé heures ECTS
S1 UE1 Conditions de
production des outils à
composante linguistique des
Industries de la Langue
–a– Différents aspects des
activités du TAL (18 h)
–b– Typologie des répertoires
lexicaux et conditions
économiques de leur
production [emprunté au M2
LTTAC UE1 –a–] (18 h)
36 h 3 S2 UE1 Stage de 3 mois
minimum
6
S1 UE2 Linguistique
–a– Théories linguistiques
[emprunté au M1
Linguistique] (18 h + 18 h)
–b– Option de linguistique :
séminaire de linguistique à
choisir [emprunté au M2
LTTAC UE2 –b– ou au M1
Linguistique] (24 h)
60 h 6 S2 UE2 Linguistique
–a– Théories linguistiques
[emprunté au M1 Linguistique]
(18 h)
–b– Option de linguistique :
séminaire de linguistique à
choisir [emprunté au M1
Linguistique] (24 h)
42 h 6
S1 UE3 Traitement
Automatique des Corpus
–a– Approche des ressources
et outils informatiques pour la
linguistique (24 h)
–b– Algorithmique (18 h)
–c– Programmation pour
l’extraction d’informations 1
(JavaScript) (18 h)
–d– Structuration de textes
pour l’analyse ou la
publication 1 (18 h)
78 h 12 S2 UE3 Traitement
Automatique des Corpus
–c– Programmation pour
l’extraction d’informations 2
(JavaScript) [emprunté M2
LTTAC S4 UE3 –c–] (18 h)
–d– Manipulations de textes
structurés pour l’analyse ou la
publication 1 (12 h)
30 h 6
Master 1 - S1 Master 1 – S2
Intitulé heures ECTS Intitulé heures ECTS
S1 UE4 Option de
spécialisation
Lexicographie OU
Linguistique OU Traduction
assistée par ordinateur
[emprunté à diverses
formations, cf. descriptifs des
enseignements ci-après]
24 h 3 S1 UE4 Option de
spécialisation
Lexicographie OU Linguistique
OU Traduction assistée par
ordinateur [emprunté à diverses
formations, cf. descriptifs des
enseignements ci-après]
24 h 3
S1 UE5 Langue vivante 24 h 3 S1 UE5 Langue vivante 18 h 3
S1 UE6 Mémoire de
recherche (étape 1)
10 h 3 S2 UE6 Mémoire de recherche
(étape 2)
6
Total 232 h 30 Total 114 h +
stage 30
Programmes M1 semestre 1
UE 1
CONDITIONS DE PRODUCTION DES OUTILS À COMPOSANTE LI NGUISTIQUE DES
INDUSTRIES DE LA LANGUE
Responsable : Nathalie GASIGLIA
Volume horaire : 2 fois 18 h soit 36 h
3 ECTS – Coeff 1
2 enseignements obligatoires :
–a– DIFFÉRENTS ASPECTS DES ACTIVITÉS DU TAL
Enseignants : Antonio BALVET
Une présentation d'ensemble du domaine du TAL sera proposée : historique, principaux domaines, principales
applications et techniques, liens avec les disciplines connexes. Des intervenants professionnels complèteront
cette introduction par des présentations de leurs activités et de leurs produits. Cet ensemble d’interventions doit
permettre aux étudiants de se former une représentation concrète du domaine du TAL, et de mieux situer les
tâches auxquelles ils seront susceptibles de contribuer dans un environnement professionnel.
–b– TYPOLOGIE DES RÉPERTOIRES LEXICAUX ET CONDITION S ÉCONOMIQUES DE LEUR
PRODUCTION
Enseignant : Pierre CORBIN
Les répertoires lexicaux sont accessibles au grand public (ils sont alors appelés dictionnaires) mais ils sont
également employés dans le cadre de certaines activités professionnelles (il s’agit en général de dictionnaires ou
de répertoires ne décrivant que les usages de spécialistes d’un domaine, les terminologies), et ils peuvent être
intégrés à des applications informatiques (ce qui implique des adaptations des modes de présentation des
informations qu’ils contiennent). L’enseignement vise à présenter les types de répertoires lexicaux existants et
les services qu’ils rendent en fonction des informations qu’ils fournissent et de leur mode d’utilisation.
UE 2
LINGUISTIQUE
Responsable : Nathalie GASIGLIA
Volume horaire : 2 fois 18 h plus 24 h soit 60 h
6 ECTS – Coeff 2
3 enseignements obligatoires :
–a1– THÉORIES LINGUISTIQUES (MORPHOLOGIE)
Voir spécialité Linguistique : M1, S1, UE1
–a2– THÉORIES LINGUISTIQUES (sémantique)
Voir spécialité Linguistique : M1, S1, UE1
–b– OPTION DE LINGUISTIQUE : séminaire de linguistique
À choisir dans l’offre de la mention SDL : UE2 du M2 LTTAC composant “Linguistique pour la lexicographie
et la terminographie”, ou UE2 ou UE3 du M1 Linguistique.
Choix à définir avec la responsable de spécialité et le directeur de recherche, en fonction du sujet de mémoire et
du projet de formation de l’étudiant).
UE 3
TRAITEMENT AUTOMATIQUE DES CORPUS
Responsable : Nathalie GASIGLIA
Volume horaire : 24 h plus 3 fois 18 h soit 78 h
12 ECTS – Coeff 4
4 enseignements obligatoires.
–a– APPROCHE DES RESSOURCES ET OUTILS INFORMATIQUES POUR LA LINGUISTIQUE
Enseignant : Antonio BALVET
La description et la modélisation en linguistique, basées sur des exemples attestés, collectés dans des conditions
contrôlées, se sont imposées comme un domaine complémentaire à la linguistique théorique et formelle, dont la
grammaire générative est un des exemples les plus connus. Par ailleurs, dès qu’une adéquation descriptive forte,
pouvant donner lieu à des applications concrètes (ex : relevés terminologiques) est envisagée, le recours aux
méthodes de la linguistique de corpus s’impose.
Ce module d’enseignement vise à donner aux étudiants les bases méthodologiques pour constituer un corpus
exploitable pour un projet de description et de modélisation en linguistique, quel que soit le parcours envisagé
par la suite : recherche ou professionnel. Ces bases seront complétées par une présentation des principaux corpus
disponibles aujourd’hui tant pour la modalité textuelle (Frantext, French Treebank, British National Corpus),
orale (Phonologie du Français Contemporain) que visuo-gestuelle (ECHOS, LS-Colin). Pour chaque modalité,
les principaux outils informatiques permettant l’exploitation des données seront présentés : concordanciers (ex :
Unitex, Stella dans Frantext), logiciels de transcription et d’expérimentation phonétique (ex : Praat), logiciels de
transcription pour la modalité gestuelle (ex : ELAN).
Bibliographie :
Habert B., Fabre C. & Issac F. (1998), De l’écrit au numérique. Constituer, normaliser et exploiter les corpus
électroniques, Paris, InterÉditions.
Habert B., Nazarenko A. & Salem A. (1997), Les linguistiques de corpus, Paris, Armand Colin.
–b– ALGORITHMIQUE
Enseignants : Nathalie GASIGLIA et Fabien TORRE
L’algorithmique va permettre aux étudiants d’acquérir la capacité de concevoir de petits programmes et leur
donner les moyens, ultérieurement, de s’approprier différents langages de programmation. Nous nous
concentrerons sur des traitements de données langagières comme le repérage de certains types d’unités lexicales
(par exemple des noms dérivés d’un verbe) dans un fichier de texte, la formalisation de règles de créations
morphologiques ou de flexion, etc.
Cet enseignement fournira l’occasion d’insister sur l’importance d’une analyse minutieuse préalable à toute
programmation et sur le rôle crucial de la décomposition d’un problème complexe en sous-étapes strictement
définies et ordonnées puis de leur modélisation, en employant un vocabulaire et une syntaxe appropriés et
prédéfinis.
Ce cours expliquera comment décomposer différentes tâches qui pourront être programmées pour être
accomplies automatiquement, mais ces décompositions de tâches complexes en tâches élémentaires
programmables seront élaborées sans tenir compte des spécificités d’un langage informatique particulier.
–c– PROGRAMMATION POUR L’EXTRACTION D’INFORMATIONS 1 : JAVA SCRIPT
Enseignant : Fabien TORRE
Cet enseignement propose une découverte de la programmation avec le langage JavaScript et une introduction à
la manipulation automatique de documents semi-structurés.
JavaScript est un langage intrinsèquement lié aux documents (x)html (c’est-à-dire en particulier la grande
majorité des documents présents sur le web), a priori documents statiques que JavaScript permet de rendre
dynamiques. JavaScript se différencie des autres langages de programmation car la programmation se fait dans le
document lui-même et l’exécution du programme se fait côté client, c’est-à-dire par le navigateur de l’utilisateur.
Ces caractéristiques autorisent l’utilisateur à interagir avec le document dans son navigateur, sans aller-retour
avec le serveur web.
JavaScript a récemment connu un regain d’intérêt avec :
– le soutien déclaré en 2009 du W3C au web multimédia avec html5 et au détriment de xhtml,
– le refus par Apple en 2010 d’utiliser Flash sur ses appareils, le couple html5-JavaScript apparaît alors comme
la seule alternative,
– la volonté des éditeurs traditionnels de proposer leurs livres sous forme d’e-books (dont les formats majeurs
comme epub ou kindle sont basés sur html), en profitant du passage papier-numérique pour les rendre
dynamiques ou interactifs.
Le cours commencera par une mise à niveau sur html, puis passera en revue les sujets suivants :
– mise en œuvre en JavaScript du cours d’algorithmique,
– interaction entre JavaScript et l’objet graphique canvas de html5,
– modification des documents html à travers l’API DOM de JavaScript.
Des réalisations concrètes illustreront le cours et seront demandées aux étudiants : productions automatiques de
phrases, jeux graphiques et ludiques, manipulation de textes, aide à l’étiquetage de textes, extraction et
visualisation automatique d’informations, etc.
Cet enseignement pourra servir de bases à d’éventuels apprentissages dans le cursus des étudiants ou dans leur
future carrière professionnelle :
– l’algorithmique et la découverte du langage JavaScript faciliteront l’apprentissage de tout autre langage de
programmation,
– la modification de documents à travers l’API DOM pourra être mise en œuvre avec un autre langage de
programmation que JavaScript, et pour des documents xml non nécessairement html.
Les compétences acquises pendant ce cours sont également reconnues dans le monde professionnel, en
particulier avec l’utilisation de html5/JavaScript dans les formats e-book.
Les supports de cours et exercices seront disponibles en ligne.
–d– STRUCTURATION DE TEXTES POUR L’ANALYSE OU LA PUB LICATION 1
Enseignante : Nathalie GASIGLIA
Pour être explorés avec efficacité, les documents textuels réunis en corpus gagnent souvent à être enrichis
d’annotations de natures diverses (étiquetage grammatical des mots, indications sémantiques, etc.). Pour que ces
annotations ne se mêlent pas indûment aux données, il est important de structurer les corpus, et, à cette fin, le
langage XML fournit des solutions techniques dont des chercheurs ont su tirer profit pour proposer des principes
de structuration de corpus : la TEI (“Text Encoding Initiative”).
Par ailleurs, les éditeurs désireux de pouvoir utiliser les mêmes contenus textuels dans différentes publications
proposées sur supports imprimés comme électroniques structurent leurs productions textuelles directement ou en
convertissant les styles mis en œuvre dans les documents.
Nous chercherons à appliquer les propositions de la TEI comme les structurations à partir de styles hérités des
traitements de textes pour élaborer des corpus balisés en XML en travaillant par exemple sur des textes
scientifiques de linguistes dont nous souhaitons analyser l’expression et le vocabulaire, sur des textes traduits à
aligner pour constituer un corpus bilingue au sein desquels nous souhaitons étudier les équivalences
traductionnelles, ou encore sur des éditions différentes de textes anciens alignés.
Bibliographie
Burnard L. & Sperberg-McQueen C.M. (1996), « La TEI simplifiée : une introduction au codage des textes
électroniques en vue de leur échange », Cahiers GUTenberg n° 24.
Ray E.T. (2001), Introduction à XML, traduction d’Alain Ketterlin, Paris, O’Reilly.
TEIP5 : http://www.tei-c.org/Guidelines/P5/
UE 4
OPTION DE SPÉCIALISATION
Responsable : Nathalie GASIGLIA
Volume horaire : 24 h
3 ECTS – Coeff 1
En fonction du projet de formation de l’étudiant, choix, à définir avec les responsables de spécialité et le
directeur de recherche (cf. UE6), entre :
– Lexicographie : voir M2 LTTAC S3 UE4 composant “–a– Analyse structurelle des répertoires lexicaux
imprimés et sur support électronique”.
– Linguistique : un séminaire (différent de celui choisi en UE2) à choisir dans l’offre de la mention SDL (UE2
du M2 LTTAC, composant “Linguistique pour la lexicographie et la terminographie”, ou UE2 et UE3 du M1
Linguistique).
– Traduction assistée par ordinateur : un enseignement du master LEA spécialité TSM. Cette liste est susceptible
de varier chaque année en fonction des compatibilités horaires des cours.
UE 5
LANGUE VIVANTE
Responsable : Michael MARKEY
Volume horaire : 24 h
3 ECTS – Coeff 1
Dans toute la mesure du possible, les étudiants suivront un cours d’anglais appliqué aux sciences du langage.
Seront travaillées dans ce cours les compétences écrites et orales, dans leur phase de compréhension et de
production. Les cours en présentiel seront complétés par des séances en auto-formation obligatoires au Centre de
Ressources en Langues (CRL).
Les étudiants seront répartis en groupes de niveau, après avoir passé un test de positionnement en début d'année.
Ils pourront préparer le CLES (Certificat de Compétences en langues de l'Enseignement Supérieur).
Les étudiants de l’international hors programme (Erasmus, Crepuq, etc.) pourront suivre un enseignement de
français langue étrangère au titre de la langue vivante.
UE 6
MÉMOIRE DE RECHERCHE (ÉTAPE 1)
Responsable : Nathalie GASIGLIA
Volume horaire : 10 h de cadrage méthodologique + travail personnel
3 ECTS – Coeff 1
Première étape de la rédaction d’un mémoire relatif à une question de (méta)lexicographie, de terminographie,
de traitement automatique des corpus, de linguistique ou de TAL : bibliographie, fiches de lectures, état de l’art
et, si c’est pertinent, état du marché des ouvrages ou des outils logiciels.
La réalisation de ce travail implique le choix d’un directeur de recherche, puis, avec ce dernier, celui d’un sujet
de mémoire (ce choix pouvant conduire à envisager une co-direction de mémoire et donc à solliciter la direction
d’un second directeur). Les étudiants détermineront leur choix de directeur(s) de recherche en tout début
d’année, avec l’aide de la responsable de la spécialité et, naturellement, du ou des directeurs pressentis.
Le sujet de mémoire doit impérativement être différent du sujet de stage.
Programmes M1 semestre 2
UE 1
STAGE
Responsable : Nathalie GASIGLIA
Volume horaire : 3 mois minimum équivalent temps plein
6 ECTS – Coeff 2
Stage en entreprise ou dans un établissement public.
Exécution de missions correspondant aux contenus de formation.
Ce stage constituera une première expérience concrète dans les industries de la langue, le secteur éditorial ou un
laboratoire de recherche. Il permettra à chaque étudiant de construire un projet professionnel adapté à ses
motivations.
Le sujet de stage doit différer du sujet de mémoire.
Le stage pourra être réalisé après la fin des cours (en fin de second semestre) ou à temps partiel parallèlement
aux cours (pour un équivalent temps plein de 3 mois minimum).
UE 2
LINGUISTIQUE
Responsable : Nathalie GASIGLIA
Volume horaire : 18 h plus 24 h soit 42 h
6 ECTS – Coeff 2
2 enseignements obligatoires :
–a– THÉORIES LINGUISTIQUES (SYNTAXE)
Voir spécialité Linguistique : S2, UE1
–b– OPTION DE LINGUISTIQUE : séminaire de linguistique
À choisir dans l’offre de la mention SDL (S2, UE2 et UE3 du M1 Linguistique ; choix à définir avec la
responsable de spécialité et le(s) directeur(s) de recherche, en fonction du projet de formation de l’étudiant).
UE 3
TRAITEMENT AUTOMATIQUE DES CORPUS
Responsable : Nathalie GASIGLIA
Volume horaire : 18 h plus 12 h soit 30 h
6 ECTS – Coeff 2
2 enseignements obligatoires :
–c– PROGRAMMATION POUR L’EXTRACTION D’INFORMATIONS 2 : JAVA SCRIPT
Enseignant : Fabien TORRE
Voir M1 LTTAC UE3 du S1 composant “–c– Programmation pour l’extraction d’informations 1 : JavaScript”.
–d– MANIPULATIONS DE TEXTES STRUCTURÉS POUR L’ANALY SE OU LA PUBLICATION 2
Enseignante : Nathalie GASIGLIA
Prolongement de l’enseignement de M1 LTTAC S1 UE3 composant “–d– Structuration de textes pour l’analyse
ou la publication 1”.
Utilisation de la structuration en XML des corpus constitués afin d’extraire des données au moyen de
transformation XSLT.
Les références bibliographiques utiles seront indiquées en cours.
UE 4
OPTION DE SPÉCIALISATION
Responsable : Nathalie GASIGLIA
Volume horaire : 24 h
3 ECTS – Coeff 1
Le choix de l’option de spécialisation du second semestre doit a priori être le même qu’au premier semestre. Si
une réorientation est envisagée, elle est soumise à l’accord du directeur de recherche, celui des responsables de la
spécialité et de la nouvelle option choisie.
– Lexicographie : voir M2 LTTAC S4 UE2 (24 h sur les 42 h que compte l’UE).
– Linguistique : un séminaire (différent de celui choisi en UE2) à choisir dans l’offre de la mention SDL (ou
UE2 et UE3 du M1 Linguistique).
UE 5
LANGUE VIVANTE
Responsable : Michael MARKEY
Volume horaire : 18 h
3 ECTS – Coeff 1
Dans toute la mesure du possible, les étudiants suivront un cours d’anglais appliqué aux sciences du langage.
Seront travaillées dans ce cours les compétences écrites et orales, dans leur phase de compréhension et de
production. Les cours en présentiel seront complétés par des séances en auto-formation obligatoires au Centre de
Ressources en Langues (CRL).
Les étudiants seront répartis en groupes de niveau, après avoir passé un test de positionnement en début d'année.
Ils pourront préparer le CLES (Certificat de Compétences en langues de l'Enseignement Supérieur).
Les étudiants de l’international hors programme (Erasmus, Crepuq, etc.) pourront suivre un enseignement de
français langue étrangère au titre de la langue vivante.
UE 6
MÉMOIRE DE RECHERCHE (ÉTAPE 2)
Responsable : Nathalie GASIGLIA
6 ECTS – Coeff 2
Deuxième étape de la rédaction du mémoire (suite de l’UE6 du S1) : élaboration d’une recherche ou d’un projet
original en (méta)lexicographie, en terminographie, en traitement automatique des corpus, en linguistique ou en
TAL.
Le mémoire de M1 LTTAC pourra constituer le socle d’une recherche de plus grande ampleur pour la rédaction
du mémoire de projet ou du mémoire de recherche du M2 LTTAC (selon que l’étudiant ambitionne en fin de M2
une insertion professionnelle ou une poursuite d’étude en recherche donnant lieu à la préparation d’un doctorat –
qui peut être réalisé avec une insertion professionnelle, dans le cadre d’un contrat CIFRE).
Modalités de contrôle M1 En complément des indications ci-dessous, merci de consulter les modalités de contrôle communes à la mention
ainsi que la note sur le plagiat valable pour l’ensemble des spécialités de la mention.
Le M1 LTTAC ne sera validé que si chacune des 12 UE l’a été, c’est-à-dire si la note obtenue en évaluation pour
chacune est supérieure à 10, et que donc les 60 crédits sont cumulés. En cas d’échec à une ou plusieurs UE, si la
moyenne pondérée des notes est supérieure à 10, une attestation d’équivalence de maîtrise pourra être délivrée.
Les contrôles des connaissances relatifs aux enseignements (UE1 à UE5 du semestre 1 et UE2 à UE5 du
semestre 2) se font en contrôle continu, au moyen de devoirs sur table, d’exposés et/ou de dossiers.
Le stage (UE1 du semestre 2) est évalué sur la base d’un rapport circonstancié du tuteur de stage (en fonction
d’une grille d’évaluation), d’un mémoire de rapport de stage rédigé par l’étudiant et d’une soutenance.
Le mémoire de recherche (UE6 de chaque semestre) est évalué en fonction de la qualité de la recherche
engagée : celle de l’avancement de l’état de l’art et de la présentation du projet à la fin du semestre 1, puis celle
du mémoire et de sa soutenance à la fin du semestre 2.
Poursuite des études après le M1 LTTAC Les maquettes d’enseignements depuis la réforme dite “LMD” (Licence, Master, Doctorat) regroupent en un
Master les 4e et 5e années de formation universitaire post-baccalauréat. En conséquence, les parcours qui vous
sont proposés sont conçus de manière à ce que les enseignements dispensés pendant ces deux années s’articulent
et s’enchaînent de façon pleinement cohérente, tout en préservant une identité spécifique à chacune des deux
années.
À l’issue du M1 LTTAC, qui fixe un socle fondamental de connaissances théoriques et de savoir-faire pratiques
en sciences du langage et en traitement automatique des langues et des corpus, les étudiants pourront choisir
entre plusieurs voies pour mener à terme leur master :
– le M2 LTTAC, formation professionnalisante unique en France, qui peut constituer une bonne formation
également pour ceux qui se destinent à un doctorat dont le sujet s’inscrit dans l’un des domaines de la
formation ;
– le M2 Linguistique, formation de la mention SDL plus spécifiquement orientée vers la recherche en
linguistique ;
– un M2 de langue, à l’université Lille 3 ou dans une autre université ;
– un M2 de sciences du langage dans une autre université ;
– un M2 de TAL dans une autre université.
2. Master 2 spécialité LTTAC
Pour plus d’informations consultez le site de la formation : http://stl.recherche.univ-
lille3.fr/siteheberges/LTTAC/M2LTTAC.htm ou le site du département : http://www.univ-lille3.fr/ufr-
humanites/sciences-langage/formations/masters/lttac/
Le M2 Lexicographie, Terminographie et Traitement Automatique des Corpus (LTTAC) est une formation
unique en France qui a pour objectif
– de développer les compétences professionnelles utiles pour :
• l’exercice de la lexicographie monolingue et bilingue, traditionnelle et électronique, dans tous ses
compartiments, chez des éditeurs de dictionnaires privés ou publics ;
• la pratique de la terminographie, monolingue, bilingue et multilingue, traditionnelle et électronique, dans des
organismes officiels, des grandes entreprises industrielles ou commerciales et dans l’édition privée ;
• l’insertion dans différents secteurs des industries de la langue pour la conception et le développement d’outils
bureautiques à forte composante lexicale (dictionnaires électroniques, systèmes de traduction automatique ou
assistée par ordinateur, logiciels de recherche documentaire, correcteurs grammaticaux ou orthographiques,
bases de données linguistiques, bases de connaissances, etc.).
– de former à la recherche les étudiants désireux d’engager un doctorat dont le sujet s’inscrirait dans l’un des
domaines de la formation, que la recherche soit théorique ou appliquée (impliquant alors une entreprise où
l’étudiant serait salarié dans le cadre d’un contrat CIFRE).
Le M2 LTTAC bénéficie d’une expérience de 22 années et de la participation de professionnels représentant les
intervenants majeurs des domaines couverts : maisons d’édition de dictionnaires généraux et spécialisés,
établissements publics impliqués dans la création de ressources lexicographiques et terminologiques, entreprises
développant des outils informatiques à composante linguistique.
Pour réaliser ses objectifs, le M2 LTTAC articule 5 composantes, distribuées en 12 UE (unités d’enseignement)
réparties sur 2 semestres :
– un panorama complet des différentes composantes de l’activité lexicographique et de l’ensemble des pratiques
mises en œuvre dans la rédaction de dictionnaires, de répertoires terminologiques et d’encyclopédies, et dans
l’élaboration de lexiques pour des applications informatiques ;
– une initiation méthodique aux principes et au maniement des différents outils informatiques pertinents pour
l’ensemble des applications concernées par le traitement du lexique (langages de structuration de documents,
bases de données, outils d’extraction d’information, certains types de programmation) ;
– un enseignement de linguistique fondamentale orienté vers les besoins des traitements pratiques du lexique ;
– la rédaction d’un mémoire développant et illustrant un projet original de répertoires, de ressources ou de
produits multimédias susceptible de déboucher sur une application concrète ;
– un stage de 3 mois minimum dans une entreprise ou un établissement public spécialisé, pour renforcer
l’expérience pratique et approfondir la connaissance des réalités de la vie professionnelle.
Conditions d’admission Public : Le M2 LTTAC s’adresse à tous les étudiants ayant une excellente maîtrise de leur langue maternelle et une
bonne connaissance d’au moins une langue étrangère, qui veulent consolider leurs acquis et renforcer leurs
compétences en sciences du langage et en traitement automatique des langues, et développer leur qualification en
vue d’une insertion professionnelle dans une des diverses branches d’activité qui recourent à un outillage
informatique pour traiter des données linguistiques.
À tous ceux qui veulent s’investir dans la lexicographie, la terminologie, l’élaboration d’outils de navigation et
d’exploration de ressources informatisées, la traduction automatique ou assistée par ordinateur, la didactique
outillée des langues ou les métiers de l’édition, le M2 LTTAC apporte les connaissances théoriques et pratiques
avancées nécessaires pour l’identification des objectifs, la familiarisation avec les méthodes et les outils de
description et de formalisation linguistiques typiques de la large gamme des activités professionnelles
concernées :
– rédaction de répertoires lexicaux, généraux ou spécialisés, monolingues ou bilingues ;
– développement de dictionnaires électroniques ou d’encyclopédies multimédias ;
– gestion de bases de données ;
– structuration, exploration et indexation de documents ;
– conception d’ontologies ;
– élaboration d’agents conversationnels.
Prolongement naturel du M1 LTTAC de Lille 3 dans une perspective professionnalisante ou de recherche, le M2
LTTAC offre aux étudiants issus de cette première année de master réellement motivés et de bon niveau
l’opportunité d’un approfondissement des savoirs et des savoir-faire nécessaire pour une insertion
professionnelle réussie à l’issue du M2, dans le cadre d’un doctorat réalisé avec un contrat CIFRE, ou
éventuellement différée après la soutenance d’une thèse engagée en fin de M2.
Son statut de formation professionnalisante d’excellence prédispose aussi le M2 LTTAC à accueillir comme par
le passé un large vivier d’étudiants venant d’autres universités françaises et étrangères désireux d’acquérir les
compétences professionnelles auxquelles il prépare. La diversité des qualifications à acquérir ouvre cette
formation à des étudiants se recrutant dans un large éventail de formations : lettres, sciences du langage, français
langue étrangère (FLE), toutes langues vivantes ou anciennes, philosophie, documentation, informatique, etc.,
sans exclure des spécialistes de toute discipline scientifique ou technique qui seraient intéressés par l’élaboration
de dictionnaires de spécialité pour leur domaine. En conséquence, même si certains Masters 1e année (ou
équivalence) prédisposent mieux que d’autres à préparer ce diplôme, les critères d’admission déterminants sont
la qualité du dossier et la nature de la motivation.
Les étudiants à disponibilité réduite (salariés ou autres) pourront suivre la formation en échelonnant sur plus
d’une année l’assistance aux enseignements et la validation des contrôles.
Enfin, le M2 LTTAC est ouvert, au titre de la formation continue, aux professionnels de la lexicographie et de la
terminographie désireux de compléter leur formation théorique, aux spécialistes de disciplines scientifiques et
techniques qui souhaitent s’initier à la méthodologie d’élaboration de répertoires disciplinaires et aux
professionnels des industries de la langue impliqués dans la constitution et la manipulation de ressources
lexicales structurées et de corpus.
Conditions de candidature : L’entrée en M2 LTTAC fait l’objet d’une sélection.
Le dossier de candidature que vous adresserez à la responsable de la spécialité (et par son intermédiaire à
l’équipe pédagogique) est donc une déclaration d’intention, un projet d’engagement argumenté dans une
formation en vue d’une insertion professionnelle dont vous vous faites probablement déjà une représentation,
même si celle-ci est sujette à évoluer.
Ce dossier nous permettra en outre de connaître votre parcours de formation et vos éventuelles expériences
professionnelles afin que, dès l’entretien de sélection, nous puissions évaluer ensemble votre motivation et vos
chances de réussite en formation d’abord, dans le monde professionnel ensuite.
Pour présenter votre candidature, vous devez télécharger l’un des trois dossiers2 ou le demander à N. Gasiglia,
l’imprimer, le remplir, et l’adresser à N. Gasiglia (à l’adresse indiquée sur le dossier), accompagné des
documents utiles, avant l’une des deux dates suivantes :
– 1e session de recrutement : dernier vendredi de juin (28 juin 2013),
– 2e session de recrutement : premier vendredi de septembre (6 septembre 2013).
Un accusé de réception sera adressé à chaque candidat(e) dans les quelques jours suivant l’arrivée de son dossier
(sauf durant la fermeture estivale de l’université). Si cet accusé de réception tarde, n’hésitez pas à contacter N.
Gasiglia.
Attention, selon votre situation, le dossier de candidature peut devoir être accompagné d’un dossier administratif.
Vérifiez bien que vous ne relevez pas d’un des cas appelant des démarches particulières (étudiants ayant débuté
leurs études supérieures à l’étranger, en reprise d’études désireux de demander une validation VAP 85 ou en
formation continue).
Les entretiens se dérouleront téléphoniquement.
– Thèmes abordés :
• Parcours universitaire et/ou professionnel.
• Objectifs professionnels et motivation.
• Connaissances en sciences du langage, en
lexicographie, en terminographie, en informatique,
en langues, sur les métiers de l’édition et des
industries de la langue.
– Critères intervenant dans la sélection :
• Qualité du dossier.
• Motivation.
• Projets professionnels.
Une réponse sera donnée à chaque dossier reçu dans les quelques jours suivant la date limite de recrutement de la
session pour laquelle il aura été envoyé. Si cette réponse tarde, n’hésitez pas à contacter N. Gasiglia.
Si vous avez besoin d’une réponse plus rapide (pour l’obtention d’une bourse ou d’un visa par exemple), il est
impératif que vous ayez mentionné cette contrainte sur votre dossier de candidature.
Structure des enseignements Les unités de formation et les contrôles couvrent toute la gamme des opérations constitutives de l’élaboration de
ressources lexicales, avec utilisation de l’informatique à tous les niveaux de celle-ci.
2 Cf. : http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/index.html, menu de bas de page
intitulé « Comment s’inscrire ».
La formation comporte 390 heures de cours (de septembre à mai), un stage de 3 mois minimum et la rédaction
d’un mémoire de projet professionnel ou de recherche.
Les 12 unités d’enseignement représentent 60 crédits ECTS (Système Européen de Transfert de Crédits) : 30
ECTS par semestre.
Une présence assidue à tous les cours est indispensable. Les étudiants qui exercent une activité professionnelle
pourront bénéficier d’un régime aménagé et valider leur M2 sur plus d’une année.
Les cours débuteront par deux journées intensives durant lesquelles les étudiants des nouvelles promotions
assisteront entre autres choses aux soutenances de rapports de stage des étudiants qui terminent leur M1 ou leur
M2. La présence à ces deux journées est strictement nécessaire pour une prise de repères professionnels.
Pour chaque constituant d’UE, la structure ci-après indique le cas échéant s’il est emprunté au M1 LTTAC. Ces
enseignements ont des contenus d’enseignement différents chaque année.
Attention : Les étudiants d’autres formations désireux de suivre des cours du M1 ou du M2 LTTAC sont tenus
de contacter N. GASIGLIA avant le début des cours. Si cette démarche n’a pas été réalisée avant la 2e séance du
programme de formation choisi, celui-ci ne sera plus accessible.
Semestre 3 Semestre 4
Intitulé heures ECTS Intitulé heures ECTS
S3 UE1 Conditions de
production des répertoires
lexicographiques et
terminographiques
–a– Typologie des
répertoires lexicaux et
conditions économiques de
leur production (18 h)
–b– Gestion de la production
de répertoires lexicaux (36 h)
54 h 6 S4 UE1 Stage de 3 mois
minimum
6
S3 UE2 Linguistique
–a– Profilage linguistique
des répertoires lexicaux (12
h)
–b– Linguistique pour la
lexicographie et la
terminographie (24 h)
36 h 6 S4 UE2 Manipulation /
Édition de descriptions
lexicales monolingues,
bilingues et multilingues
–a– Analyse des
corrélations entre
structuration et
présentation des
répertoires lexicaux (18 h)
–b– Manipulation /
édition informatiques (48
h)
66 h 6
Semestre 3 Semestre 4
Intitulé heures ECTS Intitulé heures ECTS
S3 UE3 Traitement
Automatique des Corpus
–a– Approche des corpus
comme ressources
documentaires (12 h)
–b– Familiarisation avec des
outils existants d’extraction
d’informations en corpus
électroniques (18 h)
–c– Programmation pour
l’extraction d’informations 3
(JavaScript) [emprunté au
M1 LTTAC S1 UE3 –c–] (18
h)
–d– Structuration de textes
pour l’analyse ou la
publication 2 [emprunté au
M1 LTTAC S1 UE3 –d1–]
(18 h)
66 h 6 S4 UE3 Traitement
Automatique des Corpus
–c– Programmation pour
l’extraction
d’informations 4
(JavaScript) (18 h)
–d– Manipulations de
textes structurés pour
l’analyse ou la publication
2 (12 h)
30 h 3
S3 UE4 Structuration de
répertoires lexicaux
monolingues, bilingues et
multilingues
–a– Analyse structurelle des
répertoires lexicaux imprimés
et sur support électronique
(24 h)
–b– Structurations
informatiques 1 (30 h)
54 h 6 S4 UE4 Structuration de
répertoires lexicaux
monolingues, bilingues et
multilingues
–b– Structurations
informatiques 2 (24 h)
24 h 3
S3 UE5 Rédaction de
descriptions lexicales
monolingues, bilingues et
multilingues
–a– Dérivation de textes (18
h)
18 h 3 S4 UE5 Rédaction de
descriptions lexicales
monolingues, bilingues et
multilingues
–b– Rédaction de textes
originaux pour divers
types de répertoires (42 h)
42 h 6
Semestre 3 Semestre 4
Intitulé heures ECTS Intitulé heures ECTS
S3 UE6 Mémoire de projet
professionnel ou de
recherche (étape 1)
3 S4 UE6 Mémoire de
projet professionnel ou de
recherche (étape 2)
6
Total 228 h 30 Total 162 h +
stage 30
Programmes M2 semestre 3
UE 1
CONDITIONS DE PRODUCTION DES RÉPERTOIRES LEXICOGRAP HIQUES ET
TERMINOGRAPHIQUES
Responsable : Nathalie GASIGLIA
Volume horaire : 18 h plus 36 h soit 54 h
6 ECTS – Coeff 2
2 enseignements obligatoires :
–a– TYPOLOGIE DES RÉPERTOIRES LEXICAUX ET
CONDITIONS ÉCONOMIQUES DE LEUR PRODUCTION
Enseignante : Pierre CORBIN
Les répertoires lexicaux peuvent être accessibles au grand public (ils sont alors appelés dictionnaires) mais ils
peuvent également être employés dans le cadre de certaines activités professionnelles (il peut s’agir alors de
dictionnaires ou de répertoires ne décrivant que les usages de spécialistes d’un domaine, les terminologies), et ils
peuvent être intégrés à des applications informatiques (ce qui implique des adaptations des modes de
présentation des informations qu’ils contiennent). L’enseignement vise à présenter les types de répertoires
lexicaux existants et les services qu’ils rendent en fonction des informations qu’ils fournissent et de leur mode
d’utilisation.
–b– GESTION DE LA PRODUCTION
DE RÉPERTOIRES LEXICAUX
Enseignants : Intervenants professionnels et Nathalie GASIGLIA
Après une présentation générale, qui permettra de cadrer les notions de lexicologie et lexicographie, de
terminologie et terminographie, cet enseignement traitera des conditions économiques de production des
dictionnaires et des composantes et les techniques d’élaboration d’un projet éditorial.
Bibliographie :
Béjoint H. & Thoiron P. (sous la direction de) (1996), Les dictionnaires bilingues, Louvain-la-Neuve, Duculot.
Cabré M. T. (1998), La terminologie, Paris, Armand Colin.
Corréard M.-H. (ed.) (2002), Lexicography and Natural Language Processing. A festschrift in honour of B.T.S.
Atkins, Euralex.
L’homme M.-C. (2004), La terminologie : principes et techniques, Montréal, Presses de l’Université de
Montréal.
Rey A. (1982), Dictionnaires et encyclopédies, Que sais-je ? 2000, Paris, Presses Universitaires de France.
Richaudeau F. & Binisti O. (2005), Manuel de typographie et de mise en page, nouvelle édition, Paris, Éditions
Retz.
UE 2
LINGUISTIQUE
Responsable : Nathalie GASIGLIA
Volume horaire : 36 h
6 ECTS – Coeff 2
2 enseignements obligatoires :
–a– PROFILAGE LINGUISTIQUE DES RÉPERTOIRES LEXICAUX
Enseignante : Delphine TRIBOUT
Dans le cadre de cet enseignement, une analyse des informations linguistiques fournies par une sélection
d’articles de différents dictionnaires ou lexiques et de leur mode de présentation sera conduite dans le but de
définir des principes de stockage de ces description d’une sélection de propriétés linguistiques dans une base de
données relationnelle (base SQL) puis d’élaborer celle-ci et ses interfaces de consultation et d’enrichissement
(des scripts PHP).
–b– LINGUISTIQUE POUR LA LEXICOGRAPHIE ET LA TERMIN OGRAPHIE
Enseignante : Danièle VAN DE VELDE
Programme de sémantique consacré en 2013-2014 à l’analyse des prépositions.
Un tiers du temps de travail sera consacré à l’examen critique de quelques articles de dictionnaire à la lumière
des propositions théoriques avancées dans le cours.
UE 3
TRAITEMENT AUTOMATIQUE DES CORPUS
Responsable : Nathalie GASIGLIA
Volume horaire : 12 h plus 3 fois 18 h soit 66 h
6 ECTS – Coeff 2
4 enseignements obligatoires :
–a– APPROCHE DES CORPUS COMME RESSOURCES DOCUMENTAIRES
Enseignants : Delphine TRIBOUT et intervenants professionnels
Cet enseignement vise à aider les étudiants à mieux connaître la diversité des sources documentaires (sources
linguistiques vs métalinguistiques, ressources écrites vs orales, corpus textuels imprimés vs informatisés). Le
propos se concentre ensuite sur les problèmes posés par la constitution de corpus électroniques et leurs
explorations comparées au moyen de méthodes statistiques, linguistiques ou mixtes.
Bibliographie:
Bowker L. & Pearson J. (2002), Working with Specialized Language. A practical guide to using corpora,
London / New York, Routledge.
Habert B. (2005), Instruments et ressources électroniques pour le français, Paris, Ophrys.
Habert B., Nazarenko A. & Salem A. (1997), Les linguistiques de corpus, Paris, Armand Colin.
Habert B., Fabre C. & Issac F. (1998), De l’écrit au numérique. Constituer, normaliser et exploiter les corpus
électroniques, Paris, InterÉditions.
Silberztein M. (1993), Dictionnaires électroniques et analyses automatiques de textes. Le système Intex, Paris,
Masson.
Véronis J. (sous la direction de) (2005), « Le traitement automatique des corpus oraux », TAL 45/2.
Véronis J. (éd.) (2000), Parallel Text Processing: alignment and use of translation corpora, Dordrecht, Kluwer
Academic Publishers.
–b– FAMILIARISATION AVEC DES OUTILS EXISTANTS D’EXT RACTION D’INFORMATIONS
EN CORPUS ÉLECTRONIQUES
Enseignants : Intervenants professionnels
Dans le prolongement de ce qui est abordé en M1 LTTAC UE3, cet enseignement ambitionne d’aider les
étudiants à se familiarisation avec les outils existants d’extraction d’informations en corpus électroniques
(analyseurs morphosyntaxiques, concordanciers, extracteurs de candidats termes) à travers les expériences
d’emploi de ces outils relatées par les partenaires professionnels qui interviennent.
–c– PROGRAMMATION POUR L’EXTRACTION D’INFORMATIONS 3 : JAVA SCRIPT
Enseignant : Fabien TORRE
Cet enseignement propose une découverte de la programmation avec le langage JavaScript et une introduction à
la manipulation automatique de documents semi-structurés.
JavaScript est un langage intrinsèquement lié aux documents (x)html (c’est-à-dire en particulier la grande
majorité des documents présents sur le web), a priori documents statiques que JavaScript permet de rendre
dynamiques. JavaScript se différencie des autres langages de programmation car la programmation se fait dans le
document lui-même et l’exécution du programme se fait côté client, c’est-à-dire par le navigateur de l’utilisateur.
Ces caractéristiques autorisent l’utilisateur à interagir avec le document dans son navigateur, sans aller-retour
avec le serveur web.
JavaScript a récemment connu un regain d’intérêt avec :
– le soutien déclaré en 2009 du W3C au web multimédia avec html5 et au détriment de xhtml,
– le refus par Apple en 2010 d’utiliser Flash sur ses appareils, le couple html5-JavaScript apparaît alors comme
la seule alternative,
– la volonté des éditeurs traditionnels de proposer leurs livres sous forme d’e-books (dont les formats majeurs
comme epub ou kindle sont basés sur html), en profitant du passage papier-numérique pour les rendre
dynamiques ou interactifs.
Le cours commencera par une mise à niveau sur html, puis passera en revue les sujets suivants :
– mise en œuvre en JavaScript du cours d’algorithmique,
– interaction entre JavaScript et l’objet graphique canvas de html5,
– modification des documents html à travers l’API DOM de JavaScript.
Des réalisations concrètes illustreront le cours et seront demandées aux étudiants : productions automatiques de
phrases, jeux graphiques et ludiques, manipulation de textes, aide à l’étiquetage de textes, extraction et
visualisation automatique d’informations, etc.
Cet enseignement pourra servir de bases à d’éventuels apprentissages dans le cursus des étudiants ou dans leur
future carrière professionnelle :
– l’algorithmique et la découverte du langage JavaScript faciliteront l’apprentissage de tout autre langage de
programmation,
– la modification de documents à travers l’API DOM pourra être mise en œuvre avec un autre langage de
programmation que JavaScript, et pour des documents xml non nécessairement html.
Les compétences acquises pendant ce cours sont également reconnues dans le monde professionnel, en
particulier avec l’utilisation de html5/JavaScript dans les formats e-book.
Les supports de cours et exercices seront disponibles en ligne.
–d– STRUCTURATION DE TEXTES POUR L’ANALYSE OU LA PU BLICATION 2
Enseignante : Nathalie GASIGLIA
Pour être explorés avec efficacité, les documents textuels réunis en corpus gagnent souvent à être enrichis
d’annotations de natures diverses (étiquetage grammatical des mots, indications sémantiques, etc.). Pour que ces
annotations ne se mêlent pas indûment aux données, il est important de structurer les corpus, et, à cette fin, le
langage XML fournit des solutions techniques dont des chercheurs ont su tirer profit pour proposer des principes
de structuration de corpus : la TEI (“Text Encoding Initiative”).
Par ailleurs, les éditeurs désireux de pouvoir utiliser les mêmes contenus textuels dans différentes publications
proposées sur supports imprimés comme électroniques structurent leurs productions textuelles directement ou en
convertissant les styles mis en œuvre dans les documents.
Nous chercherons à appliquer les propositions de la TEI comme les structurations à partir de styles hérités des
traitements de textes pour élaborer des corpus balisés en XML en travaillant par exemple sur des textes
scientifiques de linguistes dont nous souhaitons analyser l’expression et le vocabulaire, sur des textes traduits à
aligner pour constituer un corpus bilingue au sein desquels nous souhaitons étudier les équivalences
traductionnelles, ou encore sur des éditions différentes de textes anciens alignés.
Cet enseignement étant mutualisé avec le M1 LTTAC, les traitements mis en œuvre diffèrent d’une année sur
l’autre de manière à permettre à tous les étudiants d’en découvrir de nouveaux chaque année.
Bibliographie introductive :
Burnard L. & Sperberg-McQueen C.M. (1996), « La TEI simplifiée : une introduction au codage des textes
électroniques en vue de leur échange », Cahiers GUTenberg n° 24.
Ray E.T. (2001), Introduction à XML, traduction d’Alain Ketterlin, Paris, O’Reilly.
TEIP5 : http://www.tei-c.org/Guidelines/P5/
UE 4
STRUCTURATION DE RÉPERTOIRES LEXICAUX MONOLINGUES, BILINGUES ET
MULTILINGUES
Responsable : Nathalie GASIGLIA
Volume horaire : 24 h plus 30 h soit 54 h
6 ECTS – Coeff 2
2 enseignements obligatoires :
–a– ANALYSE STRUCTURELLE DES RÉPERTOIRES LEXICAUX I MPRIMÉS ET SUR SUPPORT
ÉLECTRONIQUE
Enseignante : Nathalie GASIGLIA
Les analyses structurelles développées dans le cadre de cet enseignement se situeront à différents niveaux :
– La structure des ouvrages : texte et paratexte.
– La structure des nomenclatures : choix des adresses en fonction de plusieurs paramètres (nature des projets,
critères linguistiques et extralinguistiques).
– La structure d’adressage : macrostructures simples ou complexes, adressages microstructurels.
– La structure d’accès et les dispositifs de fléchage (titres courants, lettrines, renvois).
– La structure des articles : linéarité et hiérarchie.
Bibliographie:
Hausmann F. J. & Wiegand H. E. (1989), “Componen parts and structures of general monolingual dictionaries: a
survey”, in Hausmann Franz Josef, Reichmann Oskar, Wiegand Herbert Ernst. & Zgusta Ladisav (eds),
Wörterbücher / Dictionaries / Dictionnaires. Ein internationales Handbuch zur Lexikographie / An international
encyclopedia of lexicography / Encyclopédie internationale de lexicographie, Berlin / New York, Walter de
Gruyter, tome 1, art. 36, pp. 328-360.
Pruvost J. & Sablayrolles J.-F. (2003), Les néologismes, Que sais-je ? 3674, Paris, Presses Universitaires de
France.
Rey-Debove J. (1971), Étude linguistique et sémiotique des dictionnaires français contemporains, Paris / La
Haye, Mouton.
–b– STRUCTURATIONS INFORMATIQUES 1
Enseignants : Intervenants professionnels
En écho aux analyses structurelles conduites dans le cadre des analyses de dictionnaires, cet enseignement
présentera deux modes de traitement des structurations de textes dictionnairiques : le balisage, au moyen
d’éléments XML, des textes des articles et la distribution de leur contenu dans des bases de données SQL :
– pratique du balisage d’articles de dictionnaires en XML : élaboration de DTD, rédaction d’articles balisés,
rétroconversion de dictionnaires imprimés ;
– conception et élaboration de bases de données relationnelles en vue du stockage structuré de données
lexicographiques.
Bibliographie :
Amann B. & Rigaux P. (2002), Comprendre XSLT, Paris, O’Reilly.
Habert B. (2009), Construire des bases de données pour le français. Tome 1. Notions, coll. L’essentiel français,
Paris, Ophrys.
Corréard M.-H. (ed.) (2002), Lexicography and Natural Language Processing. A festschrift in honour of B.T.S.
Atkins, Euralex.
Mangano S. (2003), XSLT en action, traduction d’É. Jacobini & A. Ketterlin, Paris, O’Reilly.
Ray E. T. (2001), Introduction à XML, traduction d’A. Ketterlin, Paris, O’Reilly.
Roman S. (1998), Bases de données MS-Access. Conception et programmation, traduction de J. Guérin, Paris,
O’Reilly.
UE 5
RÉDACTION DE DESCRIPTIONS LEXICALES MONOLINGUES, BI LINGUES ET MULTILINGUES
Responsable : Nathalie GASIGLIA
Volume horaire : 18 h
3 ECTS – Coeff 1
1 enseignement :
–a– DÉRIVATION DE TEXTES
Enseignante : Nathalie GASIGLIA
Le plus souvent, les créations de dictionnaires ne donnent pas lieu à des rédactions intégrales de leur texte, mais
à la reprise de texte d’articles existants, voire de segments de textes issus d’une sélection de sources
dictionnairiques. Le travail d’harmonisation des sources textuelles avec ce qu’il faut élaborer dans le cadre d’un
nouveau projet implique cependant souvent des réécritures locales. Cet enseignement sensibilise les étudiants à
cet art de la retouche textuelle.
UE 6
MÉMOIRE DE PROJET PROFESSIONNEL OU DE RECHERCHE (ÉT APE 1)
Responsable : Nathalie GASIGLIA
3 ECTS – Coeff 1
Première étape de la rédaction d’un mémoire relatif à une question de (méta)lexicographie, de terminographie,
de traitement automatique des corpus, de linguistique ou de TAL : bibliographie, fiches de lectures et, selon ce
qui est pertinent, état de l’art ou état du marché des ouvrages ou des outils logiciels.
À ce stade du travail, la différence entre un mémoire de projet professionnel et un mémoire de recherche peut
n’être perceptible que par la nature du sujet traité et la couverture relative des recherches bibliographiques. Dans
le cadre d’un mémoire de projet professionnel, qui défend un projet éditorial par exemple, il convient d’établir
un état de la concurrence et des sources documentaires, dans le cadre d’un mémoire de recherche, il convient de
constituer une bibliographie scientifique aussi exhaustive et analytique que le permet le sujet traité.
La réalisation de ce travail implique le choix d’un directeur de projet ou de recherche, puis, avec ce dernier, celui
d’un sujet de mémoire (ce choix pouvant conduire à envisager une co-direction de mémoire et donc à solliciter la
direction d’un second directeur). Vous devrez déterminer votre choix de directeur(s) de projet ou de recherche en
tout début d’année, ce sera fait avec l’aide de la responsable de la spécialité et, naturellement, du ou des
directeurs pressentis.
Le sujet de mémoire doit impérativement être différent du sujet de stage.
Programmes M2 semestre 4
UE1
STAGE
Responsable : Nathalie GASIGLIA
Volume horaire : 3 mois équivalent temps plein minimum
6 ECTS – Coeff 2
Stage en entreprise ou dans un établissement public.
Exécution de missions correspondant aux contenus de formation.
Ce stage constituera une seconde expérience concrète dans le secteur éditorial, les industries de la langue ou un
laboratoire de recherche. Il permettra à chaque étudiant de construire un projet professionnel adapté à ses
motivations.
Le sujet de stage doit différer du sujet de mémoire.
Le stage pourra être réalisé après la fin des cours (en fin de second semestre) ou à temps partiel parallèlement
aux cours (pour un équivalent temps plein de 3 mois minimum).
UE 2
MANIPULATION / ÉDITION DE DESCRIPTIONS LEXICALES
MONOLINGUES, BILINGUES ET MULTILINGUES
Responsable : Nathalie GASIGLIA
Volume horaire : 18 h plus 48 h soit 66 h
6 ECTS – Coeff 2
2 enseignements obligatoires :
–a– ANALYSE DES CORRÉLATIONS ENTRE STRUCTURATION ET PRÉSENTATION DES
RÉPERTOIRES LEXICAUX
Enseignants : Pierre CORBIN et Nathalie GASIGLIA
La lisibilité des textes dictionnairique dépend de la bonne articulation entre lieux et modes d’expression des
informations linguistiques qui sont fournies. Chaque type d’information n’étant généralement pas fourni dans un
seul composant d’article ni d’une seule manière, il est important que de futurs lexicographes ou utilisateurs de
ressources lexicales aient une représentation de la diversité des usages observables et de l’incidence des choix
éditoriaux opérés sur le confort des lecteurs, voire sur la compréhensibilité des textes.
–b– MANIPULATION / ÉDITION INFORMATIQUES
Enseignants : Nathalie GASIGLIA et intervenants professionnels
Structurer les textes constitue pour les éditeurs un moyen de prévoir des réemploi de ceux-ci. Encore faut-il que
les structurations mises en œuvre permettent les manipulations à venir, et donc qu’elles soient conçues en
fonction des futurs projets ou au moins de manière conservatoire. Outre les connaissances techniques relatives à
la manipulation de documents structurés en XML au moyen de transformation XSLT et dans un éditeur de mise
en page professionnel (InDesign), c’est l’expérience concrète la plus actuelle des intervenants professionnels
invités qu’il nous importe de transmettre afin que les futurs porteurs de projets éditoriaux soient capables, le
moment venu, de prévoir des éditions multiples pour leurs productions.
UE 3
TRAITEMENT AUTOMATIQUE DES CORPUS
Responsable : Nathalie GASIGLIA
Volume horaire : 18 h plus 12 h soit 30 h
3 ECTS – Coeff 1
2 enseignements obligatoires :
–c– PROGRAMMATION POUR L’EXTRACTION D’INFORMATIONS 4 : JAVA SCRIPT
Enseignant : Fabien TORRE
Voir M2 LTTAC UE3 du S1 composant “–c– Programmation pour l’extraction d’informations 3 : JavaScript”.
–d– MANIPULATIONS DE TEXTES STRUCTURÉS POUR L’ANALY SE OU LA PUBLICATION 2
Enseignante : Nathalie GASIGLIA
Prolongement de l’enseignement de M2 LTTAC S1 UE3 composant “–d– Structuration de textes pour l’analyse
ou la publication 1”.
Utilisation de la structuration en XML des corpus constitués afin d’extraire des données au moyen de
transformation XSLT.
Les références bibliographiques utiles seront indiquées en cours.
UE 4
STRUCTURATION DE RÉPERTOIRES LEXICAUX
MONOLINGUES, BILINGUES ET MULTILINGUES
Responsable : Nathalie GASIGLIA
Volume horaire : 24 h
3 ECTS – Coeff 1
1 enseignement :
–b2– STRUCTURATIONS INFORMATIQUES 2
Enseignants : Intervenants professionnels
Quand il ne s’agit pas d’éditions imprimées mais électroniques, qui permettent d’offrir les mêmes segments
informationnels dans plusieurs combinaisons textuelles, il peut être plus opératoire de ne pas rédiger des textes
d’articles suivis, mais des segments de textes stockés dans des bases de données SQL. En s’appuyant sur la
connaissance des principes de structuration d’article déjà acquise par les étudiants en particulier durant les cours
d’UE3 du S3 et sur la sensibilisation aux problèmes de lisibilité des textes traités en UE2 du S4, l’objectif de cet
enseignement est d’envisager la création d’une base dictionnairique et l’élaboration de son interface de
consultation en ligne (au moyen de scripts PHP).
UE 5
RÉDACTION DE DESCRIPTIONS LEXICALES
MONOLINGUES, BILINGUES ET MULTILINGUES
Responsable : Nathalie GASIGLIA
Volume horaire : 42 h
6 ECTS – Coeff 2
1 enseignement :
–b– RÉDACTION DE TEXTES ORIGINAUX POUR DIVERS TYPE S DE RÉPERTOIRES
Enseignants : Nathalie GASIGLIA et intervenants professionnels
Bien que les créations de répertoires sans exploitation de données textuelles préexistantes soient actuellement
rares dans les maisons d’édition généralistes, elles peuvent s’observer et mobiliser les compétences
rédactionnelles d’auteurs pour des projets d’ambitions plus modestes (en particulier des répertoires thématiques
ou spécialement consacrés à certains types d’informations, comme les étymologies, les expressions, etc.). La
compétence rédactionnelle des collaborateurs est également cruciale en cas d’amplification d’un ouvrage pour
lequel des articles et/ou des sélections d’informations viendront enrichir ceux qui sont déjà existant. Si les
créations discursives de certains composants d’articles qui reçoivent des textes codifiés ne présentent pas de
difficultés rédactionnelles particulières, d’autres, dont en particulier les définitions et les exemples, impliquent
un savoir faire tout particulier.
UE 6
MÉMOIRE DE PROJET PROFESSIONNEL OU DE RECHERCHE (ÉT APE 2)
Responsable : Nathalie GASIGLIA
6 ECTS – Coeff 2
Deuxième étape de la rédaction du mémoire (suite de l’UE6 du S1) : élaboration d’un projet professionnel ou
d’une recherche original(e) en (méta)lexicographie, en terminographie, en traitement automatique des corpus ou
en TAL.
Selon que, en fin de M2, l’étudiant ambitionne une insertion professionnelle ou une poursuite d’étude en
recherche dans le cadre d’un doctorat – qui peut être réalisé avec une insertion professionnelle, dans le cadre
d’un contrat CIFRE –, le mémoire de M2 LTTAC pourra consister en un projet éditorial ou de développement de
logiciel suffisamment avancé dans sa conception et soigné dans le texte de sa présentation pour être susceptible
d’être soumis à un éditeur ou offert en ligne, ou le fruit d’une recherche théorique ou appliquée qui prépare le
projet de thèse par le choix du sujet, la méthodologie d’étude mise en œuvre, le travail bibliographique réalisé, et
le cas échéant les démarches engagées auprès des entreprises qui pourraient être les meilleurs partenaires en cas
de projet de thèse avec contrat CIFRE.
Modalités de contrôle M2 En complément des indications ci-dessous, merci de consulter les modalités de contrôle communes à la mention
ainsi que la note sur le plagiat valable pour l’ensemble des spécialités de la mention.
Le M2 LTTAC ne sera validé que si chacune des 12 UE l’a également été, c’est-à-dire si la note obtenue en
évaluation pour chacune est supérieure à 10, et que donc les 60 crédits sont cumulés.
Les contrôles des connaissances relatifs aux enseignements (UE1 à UE5 du semestre 3 et UE2 à UE5 du
semestre 4) se font en contrôle continu, au moyen de devoirs sur table, d’exposés et/ou de dossiers.
Le stage (UE1 du semestre 4) est évalué sur la base d’un rapport circonstancié du tuteur de stage (en fonction
d’une grille d’évaluation), d’un mémoire de rapport de stage rédigé par l’étudiant et d’une soutenance.
Le mémoire de projet professionnel ou de recherche (UE6 de chaque semestre) est évalué en fonction de
l’avancement de l’analyse des produits conscurrents ou de l’état de l’art, et de la présentation du projet à la fin du
semestre 3, puis celle du mémoire et de sa soutenance à la fin du semestre 4.