Master spécialisé- lexicographie, terminographie (Lille 3)

32
UNIVERSITE CHARLES DE GAULLE LILLE 3 UFR Humanités Département sciences du langage Master SCIENCES HUMAINES ET SOCIALES MENTION SCIENCES DU LANGAGE Spécialité Lexicographie, Terminographie et Traitement Automatique des Corpus

description

Le document contient des détails concernant cette formation . http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/index.htm

Transcript of Master spécialisé- lexicographie, terminographie (Lille 3)

UNIVERSITE CHARLES DE GAULLE LILLE 3

UFR Humanités

Département sciences du langage

Master SCIENCES HUMAINES ET SOCIALES

MENTION SCIENCES DU LANGAGE

Spécialité Lexicographie, Terminographie et Traitement

Automatique des Corpus

La formation LTTAC débute le jeudi 12 septembre 2013 à 10h30 en salle A2 412. La présence assidue des étudiants est nécessaire dès cette date.

La spécialité Lexicographie, Terminographie et Traitement Automatique des Corpus (LTTAC) est un parcours

de deux années (M1 et M2) qui, en fonction du projet de formation des étudiants, peuvent être soit combinées,

soit suivies de manière indépendante.

En combinant un M1 qui propose aux étudiants de développer leurs compétences linguistiques et informatiques

en les combinant à une bonne connaissance des dictionnaires existants, puis un M2 plus spécifiquement consacré

à la Lexicographie, à la Terminographie et au Traitement Automatique des Corpus, cette formation vise à donner

une qualification en ingénierie linguistique en phase avec les nouvelles technologies de l’information et de la

communication (NTIC) dans les domaines suivants :

– rédaction de dictionnaires monolingues et bilingues et d’encyclopédies,

– conception de bases de données pour la lexicographie et la terminologie,

– développement de lexiques pour des systèmes d’aide à la rédaction ou de traduction automatique ou assistée,

– élaboration de catalogues et de guides thématiques,

– construction d’ontologies pour le traitement automatique des langues (TAL) et l’intelligence artificielle (IA),

– intégration de ressources lexicales à des moteurs de recherche et autres outils d’extraction d’informations (par

exemple des agents conversationnels) ou d’indexation automatique de documents.

Au terme de leur formation, les étudiants diplômés, formés à l’analyse linguistique du lexique et familiarisés

avec les technologies informatiques les plus récentes, pourront prétendre à une insertion professionnelle

notamment en tant que :

– lexicographes (rédacteurs et chefs de projets) pour des éditeurs spécialisés,

– terminologues au sein d’institutions ou d’entreprises industrielles ou commerciales,

– traducteurs terminologues dans des entreprises de traduction de logiciels, de didacticiels, de jeux, etc.,

– rédacteurs de guides pratiques et de catalogues techniques ou commerciaux,

– informaticiens dans des équipes d’informatique éditoriale,

– linguistes informaticiens dans des entreprises informatiques relevant des industries de la langue.

La responsable de la spécialité LTTAC est :

Nathalie GASIGLIA

Maître de conférences (habilitée à diriger des recherches) de Sciences du langage, UMR STL & UFR

Humanités, département Sciences du langage

Tél. : 03.20.41.66.61 ou 06.11.44.20.33

Courriel : [email protected]

1. Master 1 LTTAC

Pour plus d’informations consultez le site de la formation :

http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/M1LTTAC.htm et le site du département :

http://www.univ-lille3.fr/ufr-humanites/sciences-langage/formations/masters/lttac/

Le M1 LTTAC est une plateforme originale de formation en sciences du langage, qui a pour objectif de fournir

les bases d’une qualification en ingénierie linguistique, ouvrant la porte d’une part à la recherche en linguistique

descriptive et/ou formelle, d’autre part à une large gamme d’insertions professionnelles dans les domaines de

l’édition (en particulier d’ouvrages de référence – comme les dictionnaires), des industries de la langue (IDL) et

des nouvelles technologies de l’information et de la communication (NTIC), auxquelles prépare ensuite de façon

plus poussée le M2 LTTAC.

Pour réaliser ses objectifs, le M1 LTTAC articule 7 composantes, distribuées en 12 UE (unités d’enseignement)

réparties sur 2 semestres :

– un enseignement de linguistique fondamentale, noyau par définition de toute formation en sciences du

langage ;

– un panorama des domaines du traitement automatique des langues (TAL) et des types de répertoires lexicaux

produits pour le grand public et les industries de la langue ;

– une initiation aux ressources et aux outils informatiques exploitables pour les analyses linguistiques ;

– un renforcement en langues vivantes ;

– une spécialisation dans un domaine à choisir entre la lexicographie, la linguistique, la traduction assistée par

ordinateur ;

– la rédaction d’un court mémoire sur une recherche originale, pouvant déboucher sur une application, pour

renforcer les qualités de synthèse et de créativité ;

– un stage de 3 mois minimum dans une entreprise ou un établissement public spécialisés, pour familiariser avec

les réalités de la vie professionnelle.

Conditions d’admission Public : Le M1 LTTAC s’adresse à tous les étudiants ayant une excellente maîtrise de leur langue maternelle et une

bonne connaissance d’au moins une langue étrangère, qui sont désireux de mettre le langage au cœur de leurs

activités de recherche ou professionnelles, et qui veulent aborder celles-ci avec les techniques modernes de

l’outillage informatique, ou développer de nouveaux outils de traitement automatique du langage.

À tous ceux qui se destinent à une large gamme d’activités, allant de la linguistique fondamentale ou appliquée

au développement de produits multimédias, en passant par la lexicographie, la terminologie, la traduction

automatique ou assistée par ordinateur, l’élaboration d’outils de navigation, la didactique outillée des langues ou

les métiers de l’édition, le M1 LTTAC apporte des connaissances de base en matière de description et de

formalisation linguistiques et d’appropriation théorique et pratique d’outils informatiques impliqués dans le

traitement des langues, des textes et des connaissances, tels que :

– les logiciels de transcription alignée aux sons ou aux vidéos ;

– les outils d’indexation automatique de documents ;

– les étiqueteurs morphosyntaxiques ;

– les systèmes d’alignement de corpus multilingues ;

– les concordanciers ;

– les outils de fouille de textes et d’extraction d’informations ;

– les ontologies ;

– les dictionnaires électroniques ;

– les mémoires de traduction ;

– etc.

En formation initiale, le M1 LTTAC est ouvert à tous les étudiants titulaires d’une licence (ou d’une

équivalence). Il s’inscrit de manière naturelle dans la filiation des licences comportant une composante

linguistique et/ou de traitement automatique des langues (lettres modernes ou classiques, sciences du langage,

français langue étrangère (FLE), langues vivantes, sciences humaines et sociales, informatique appliquée), mais

est aussi accessible aux étudiants venant d’autres filières. Selon leur parcours antérieur et leur projet de

formation, il pourra être proposé à certains étudiants de faire quelques lectures complémentaires en linguistique

et/ou en traitement automatique du langage.

La formation est ouverte aux étudiants francophones de toutes nationalités. La pratique de plusieurs langues –

langues de large diffusion mais aussi langues d’extension plus restreinte – est un atout particulièrement apprécié

dans l’ensemble des activités professionnelles qui ont recours aux techniques du traitement automatique du

langage.

Les étudiants à disponibilité réduite (salariés ou autres) pourront suivre la formation en échelonnant sur plus

d’une année l’assistance aux enseignements et la validation des contrôles.

Au titre de la formation continue, la formation est aussi ouverte aux professionnels des industries de la langue

impliqués dans la constitution et la manipulation de ressources lexicales structurées et de corpus qui souhaitent

compléter leur formation en suivant tout ou partie des enseignements dispensés.

Modalités de préinscription : L’entrée en M1 LTTAC ne fait pas l’objet d’une sélection. Le dossier de préinscription que nous vous

demandons de nous adresser est donc une déclaration d’intention, un engagement dans un projet de formation.

Ce dossier nous permet de connaître votre parcours de formation et vos éventuelles expériences professionnelles

afin que, dès notre première rencontre ou nos premiers échanges, nous puissions envisager les conditions de

travail qui maximiseront vos chances de réussite et vous permettront de tirer le meilleur profit des enseignements

que nous vous proposons.

Pour vous préinscrire, vous devez télécharger le dossier1 ou le demander par mail à N. Gasiglia, l’imprimer, le

remplir, et l’adresser à N. Gasiglia (à l’adresse indiquée sur le dossier), accompagné des documents utiles, avant

l’une des dates suivantes :

1 Cf. : http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/index.htm, menu de bas de page

intitulé « Comment s’inscrire ».

– candidats ayant des diplômes étrangers : 29 mars 2013 (date fixée par la scolarité pour la réception des dossiers

par le Bureau d’Accueil des Étudiants de l’Internationale)

– 1e session de recrutement : dernier vendredi de juin (soit le 28 juin 2013)

– 2e session de recrutement : premier vendredi de septembre (soit le 6 septembre 2013)

Une réponse sera donnée à chaque dossier reçu dans les quelques jours suivant son arrivée (sauf durant la

fermeture estivale de l’université). Si cette réponse tarde, n’hésitez pas à contacter N. Gasiglia.

Attention : selon votre situation, le dossier de préinscription peut devoir être accompagné d’un autre dossier

administratif. Vérifiez bien, sur le site web de l’université ou auprès de N. Gasiglia, si vous relevez d’un des cas

appelant des démarches particulières (étudiants ayant débuté leurs études supérieures à l’étranger, en reprise

d’études et désireux de demander une validation VAP 85, en formation continue).

Structure des enseignements : La formation comporte 346 heures de cours (de septembre à mai), un stage de 3 mois minimum et la rédaction

d’un mémoire de recherche.

Les 12 unités d’enseignement (UE) représentent 60 crédits ECTS (Système Européen de Transfert de Crédits) :

30 ECTS par semestre.

Une présence assidue à tous les cours est indispensable. Les étudiants qui exercent une activité professionnelle

pourront bénéficier d’un régime aménagé et valider leur M1 sur plus d’une année.

Les cours débuteront par deux journées intensives durant lesquelles les étudiants des nouvelles promotions

assisteront entre autres choses aux soutenances de rapports de stage des étudiants qui terminent leur M1 ou leur

M2. La présence à ces deux journées est strictement nécessaire pour une prise de repères professionnels.

Pour chaque constituant d’UE, la structure ci-après indique le cas échéant s’il est emprunté à une autre

formation.

Les cours mutualisés avec le M2 LTTAC ont des contenus d’enseignement différents chaque année.

Les cours de spécialisation empruntés à des formations autres que le M2 LTTAC et le M. Linguistique ne seront

proposés que si la compatibilité horaire des cours le permet.

Attention : Les étudiants d’autres formations désireux de suivre des cours du M1 ou du M2 LTTAC sont tenus

de contacter N. GASIGLIA avant le début des cours. Si cette démarche n’a pas été réalisée avant la 2e séance du

programme de formation choisi, celui-ci ne sera plus accessible.

Master 1 - S1 Master 1 – S2

Intitulé heures ECTS Intitulé heures ECTS

S1 UE1 Conditions de

production des outils à

composante linguistique des

Industries de la Langue

–a– Différents aspects des

activités du TAL (18 h)

–b– Typologie des répertoires

lexicaux et conditions

économiques de leur

production [emprunté au M2

LTTAC UE1 –a–] (18 h)

36 h 3 S2 UE1 Stage de 3 mois

minimum

6

S1 UE2 Linguistique

–a– Théories linguistiques

[emprunté au M1

Linguistique] (18 h + 18 h)

–b– Option de linguistique :

séminaire de linguistique à

choisir [emprunté au M2

LTTAC UE2 –b– ou au M1

Linguistique] (24 h)

60 h 6 S2 UE2 Linguistique

–a– Théories linguistiques

[emprunté au M1 Linguistique]

(18 h)

–b– Option de linguistique :

séminaire de linguistique à

choisir [emprunté au M1

Linguistique] (24 h)

42 h 6

S1 UE3 Traitement

Automatique des Corpus

–a– Approche des ressources

et outils informatiques pour la

linguistique (24 h)

–b– Algorithmique (18 h)

–c– Programmation pour

l’extraction d’informations 1

(JavaScript) (18 h)

–d– Structuration de textes

pour l’analyse ou la

publication 1 (18 h)

78 h 12 S2 UE3 Traitement

Automatique des Corpus

–c– Programmation pour

l’extraction d’informations 2

(JavaScript) [emprunté M2

LTTAC S4 UE3 –c–] (18 h)

–d– Manipulations de textes

structurés pour l’analyse ou la

publication 1 (12 h)

30 h 6

Master 1 - S1 Master 1 – S2

Intitulé heures ECTS Intitulé heures ECTS

S1 UE4 Option de

spécialisation

Lexicographie OU

Linguistique OU Traduction

assistée par ordinateur

[emprunté à diverses

formations, cf. descriptifs des

enseignements ci-après]

24 h 3 S1 UE4 Option de

spécialisation

Lexicographie OU Linguistique

OU Traduction assistée par

ordinateur [emprunté à diverses

formations, cf. descriptifs des

enseignements ci-après]

24 h 3

S1 UE5 Langue vivante 24 h 3 S1 UE5 Langue vivante 18 h 3

S1 UE6 Mémoire de

recherche (étape 1)

10 h 3 S2 UE6 Mémoire de recherche

(étape 2)

6

Total 232 h 30 Total 114 h +

stage 30

Programmes M1 semestre 1

UE 1

CONDITIONS DE PRODUCTION DES OUTILS À COMPOSANTE LI NGUISTIQUE DES

INDUSTRIES DE LA LANGUE

Responsable : Nathalie GASIGLIA

Volume horaire : 2 fois 18 h soit 36 h

3 ECTS – Coeff 1

2 enseignements obligatoires :

–a– DIFFÉRENTS ASPECTS DES ACTIVITÉS DU TAL

Enseignants : Antonio BALVET

Une présentation d'ensemble du domaine du TAL sera proposée : historique, principaux domaines, principales

applications et techniques, liens avec les disciplines connexes. Des intervenants professionnels complèteront

cette introduction par des présentations de leurs activités et de leurs produits. Cet ensemble d’interventions doit

permettre aux étudiants de se former une représentation concrète du domaine du TAL, et de mieux situer les

tâches auxquelles ils seront susceptibles de contribuer dans un environnement professionnel.

–b– TYPOLOGIE DES RÉPERTOIRES LEXICAUX ET CONDITION S ÉCONOMIQUES DE LEUR

PRODUCTION

Enseignant : Pierre CORBIN

Les répertoires lexicaux sont accessibles au grand public (ils sont alors appelés dictionnaires) mais ils sont

également employés dans le cadre de certaines activités professionnelles (il s’agit en général de dictionnaires ou

de répertoires ne décrivant que les usages de spécialistes d’un domaine, les terminologies), et ils peuvent être

intégrés à des applications informatiques (ce qui implique des adaptations des modes de présentation des

informations qu’ils contiennent). L’enseignement vise à présenter les types de répertoires lexicaux existants et

les services qu’ils rendent en fonction des informations qu’ils fournissent et de leur mode d’utilisation.

UE 2

LINGUISTIQUE

Responsable : Nathalie GASIGLIA

Volume horaire : 2 fois 18 h plus 24 h soit 60 h

6 ECTS – Coeff 2

3 enseignements obligatoires :

–a1– THÉORIES LINGUISTIQUES (MORPHOLOGIE)

Voir spécialité Linguistique : M1, S1, UE1

–a2– THÉORIES LINGUISTIQUES (sémantique)

Voir spécialité Linguistique : M1, S1, UE1

–b– OPTION DE LINGUISTIQUE : séminaire de linguistique

À choisir dans l’offre de la mention SDL : UE2 du M2 LTTAC composant “Linguistique pour la lexicographie

et la terminographie”, ou UE2 ou UE3 du M1 Linguistique.

Choix à définir avec la responsable de spécialité et le directeur de recherche, en fonction du sujet de mémoire et

du projet de formation de l’étudiant).

UE 3

TRAITEMENT AUTOMATIQUE DES CORPUS

Responsable : Nathalie GASIGLIA

Volume horaire : 24 h plus 3 fois 18 h soit 78 h

12 ECTS – Coeff 4

4 enseignements obligatoires.

–a– APPROCHE DES RESSOURCES ET OUTILS INFORMATIQUES POUR LA LINGUISTIQUE

Enseignant : Antonio BALVET

La description et la modélisation en linguistique, basées sur des exemples attestés, collectés dans des conditions

contrôlées, se sont imposées comme un domaine complémentaire à la linguistique théorique et formelle, dont la

grammaire générative est un des exemples les plus connus. Par ailleurs, dès qu’une adéquation descriptive forte,

pouvant donner lieu à des applications concrètes (ex : relevés terminologiques) est envisagée, le recours aux

méthodes de la linguistique de corpus s’impose.

Ce module d’enseignement vise à donner aux étudiants les bases méthodologiques pour constituer un corpus

exploitable pour un projet de description et de modélisation en linguistique, quel que soit le parcours envisagé

par la suite : recherche ou professionnel. Ces bases seront complétées par une présentation des principaux corpus

disponibles aujourd’hui tant pour la modalité textuelle (Frantext, French Treebank, British National Corpus),

orale (Phonologie du Français Contemporain) que visuo-gestuelle (ECHOS, LS-Colin). Pour chaque modalité,

les principaux outils informatiques permettant l’exploitation des données seront présentés : concordanciers (ex :

Unitex, Stella dans Frantext), logiciels de transcription et d’expérimentation phonétique (ex : Praat), logiciels de

transcription pour la modalité gestuelle (ex : ELAN).

Bibliographie :

Habert B., Fabre C. & Issac F. (1998), De l’écrit au numérique. Constituer, normaliser et exploiter les corpus

électroniques, Paris, InterÉditions.

Habert B., Nazarenko A. & Salem A. (1997), Les linguistiques de corpus, Paris, Armand Colin.

–b– ALGORITHMIQUE

Enseignants : Nathalie GASIGLIA et Fabien TORRE

L’algorithmique va permettre aux étudiants d’acquérir la capacité de concevoir de petits programmes et leur

donner les moyens, ultérieurement, de s’approprier différents langages de programmation. Nous nous

concentrerons sur des traitements de données langagières comme le repérage de certains types d’unités lexicales

(par exemple des noms dérivés d’un verbe) dans un fichier de texte, la formalisation de règles de créations

morphologiques ou de flexion, etc.

Cet enseignement fournira l’occasion d’insister sur l’importance d’une analyse minutieuse préalable à toute

programmation et sur le rôle crucial de la décomposition d’un problème complexe en sous-étapes strictement

définies et ordonnées puis de leur modélisation, en employant un vocabulaire et une syntaxe appropriés et

prédéfinis.

Ce cours expliquera comment décomposer différentes tâches qui pourront être programmées pour être

accomplies automatiquement, mais ces décompositions de tâches complexes en tâches élémentaires

programmables seront élaborées sans tenir compte des spécificités d’un langage informatique particulier.

–c– PROGRAMMATION POUR L’EXTRACTION D’INFORMATIONS 1 : JAVA SCRIPT

Enseignant : Fabien TORRE

Cet enseignement propose une découverte de la programmation avec le langage JavaScript et une introduction à

la manipulation automatique de documents semi-structurés.

JavaScript est un langage intrinsèquement lié aux documents (x)html (c’est-à-dire en particulier la grande

majorité des documents présents sur le web), a priori documents statiques que JavaScript permet de rendre

dynamiques. JavaScript se différencie des autres langages de programmation car la programmation se fait dans le

document lui-même et l’exécution du programme se fait côté client, c’est-à-dire par le navigateur de l’utilisateur.

Ces caractéristiques autorisent l’utilisateur à interagir avec le document dans son navigateur, sans aller-retour

avec le serveur web.

JavaScript a récemment connu un regain d’intérêt avec :

– le soutien déclaré en 2009 du W3C au web multimédia avec html5 et au détriment de xhtml,

– le refus par Apple en 2010 d’utiliser Flash sur ses appareils, le couple html5-JavaScript apparaît alors comme

la seule alternative,

– la volonté des éditeurs traditionnels de proposer leurs livres sous forme d’e-books (dont les formats majeurs

comme epub ou kindle sont basés sur html), en profitant du passage papier-numérique pour les rendre

dynamiques ou interactifs.

Le cours commencera par une mise à niveau sur html, puis passera en revue les sujets suivants :

– mise en œuvre en JavaScript du cours d’algorithmique,

– interaction entre JavaScript et l’objet graphique canvas de html5,

– modification des documents html à travers l’API DOM de JavaScript.

Des réalisations concrètes illustreront le cours et seront demandées aux étudiants : productions automatiques de

phrases, jeux graphiques et ludiques, manipulation de textes, aide à l’étiquetage de textes, extraction et

visualisation automatique d’informations, etc.

Cet enseignement pourra servir de bases à d’éventuels apprentissages dans le cursus des étudiants ou dans leur

future carrière professionnelle :

– l’algorithmique et la découverte du langage JavaScript faciliteront l’apprentissage de tout autre langage de

programmation,

– la modification de documents à travers l’API DOM pourra être mise en œuvre avec un autre langage de

programmation que JavaScript, et pour des documents xml non nécessairement html.

Les compétences acquises pendant ce cours sont également reconnues dans le monde professionnel, en

particulier avec l’utilisation de html5/JavaScript dans les formats e-book.

Les supports de cours et exercices seront disponibles en ligne.

–d– STRUCTURATION DE TEXTES POUR L’ANALYSE OU LA PUB LICATION 1

Enseignante : Nathalie GASIGLIA

Pour être explorés avec efficacité, les documents textuels réunis en corpus gagnent souvent à être enrichis

d’annotations de natures diverses (étiquetage grammatical des mots, indications sémantiques, etc.). Pour que ces

annotations ne se mêlent pas indûment aux données, il est important de structurer les corpus, et, à cette fin, le

langage XML fournit des solutions techniques dont des chercheurs ont su tirer profit pour proposer des principes

de structuration de corpus : la TEI (“Text Encoding Initiative”).

Par ailleurs, les éditeurs désireux de pouvoir utiliser les mêmes contenus textuels dans différentes publications

proposées sur supports imprimés comme électroniques structurent leurs productions textuelles directement ou en

convertissant les styles mis en œuvre dans les documents.

Nous chercherons à appliquer les propositions de la TEI comme les structurations à partir de styles hérités des

traitements de textes pour élaborer des corpus balisés en XML en travaillant par exemple sur des textes

scientifiques de linguistes dont nous souhaitons analyser l’expression et le vocabulaire, sur des textes traduits à

aligner pour constituer un corpus bilingue au sein desquels nous souhaitons étudier les équivalences

traductionnelles, ou encore sur des éditions différentes de textes anciens alignés.

Bibliographie

Burnard L. & Sperberg-McQueen C.M. (1996), « La TEI simplifiée : une introduction au codage des textes

électroniques en vue de leur échange », Cahiers GUTenberg n° 24.

Ray E.T. (2001), Introduction à XML, traduction d’Alain Ketterlin, Paris, O’Reilly.

TEIP5 : http://www.tei-c.org/Guidelines/P5/

UE 4

OPTION DE SPÉCIALISATION

Responsable : Nathalie GASIGLIA

Volume horaire : 24 h

3 ECTS – Coeff 1

En fonction du projet de formation de l’étudiant, choix, à définir avec les responsables de spécialité et le

directeur de recherche (cf. UE6), entre :

– Lexicographie : voir M2 LTTAC S3 UE4 composant “–a– Analyse structurelle des répertoires lexicaux

imprimés et sur support électronique”.

– Linguistique : un séminaire (différent de celui choisi en UE2) à choisir dans l’offre de la mention SDL (UE2

du M2 LTTAC, composant “Linguistique pour la lexicographie et la terminographie”, ou UE2 et UE3 du M1

Linguistique).

– Traduction assistée par ordinateur : un enseignement du master LEA spécialité TSM. Cette liste est susceptible

de varier chaque année en fonction des compatibilités horaires des cours.

UE 5

LANGUE VIVANTE

Responsable : Michael MARKEY

Volume horaire : 24 h

3 ECTS – Coeff 1

Dans toute la mesure du possible, les étudiants suivront un cours d’anglais appliqué aux sciences du langage.

Seront travaillées dans ce cours les compétences écrites et orales, dans leur phase de compréhension et de

production. Les cours en présentiel seront complétés par des séances en auto-formation obligatoires au Centre de

Ressources en Langues (CRL).

Les étudiants seront répartis en groupes de niveau, après avoir passé un test de positionnement en début d'année.

Ils pourront préparer le CLES (Certificat de Compétences en langues de l'Enseignement Supérieur).

Les étudiants de l’international hors programme (Erasmus, Crepuq, etc.) pourront suivre un enseignement de

français langue étrangère au titre de la langue vivante.

UE 6

MÉMOIRE DE RECHERCHE (ÉTAPE 1)

Responsable : Nathalie GASIGLIA

Volume horaire : 10 h de cadrage méthodologique + travail personnel

3 ECTS – Coeff 1

Première étape de la rédaction d’un mémoire relatif à une question de (méta)lexicographie, de terminographie,

de traitement automatique des corpus, de linguistique ou de TAL : bibliographie, fiches de lectures, état de l’art

et, si c’est pertinent, état du marché des ouvrages ou des outils logiciels.

La réalisation de ce travail implique le choix d’un directeur de recherche, puis, avec ce dernier, celui d’un sujet

de mémoire (ce choix pouvant conduire à envisager une co-direction de mémoire et donc à solliciter la direction

d’un second directeur). Les étudiants détermineront leur choix de directeur(s) de recherche en tout début

d’année, avec l’aide de la responsable de la spécialité et, naturellement, du ou des directeurs pressentis.

Le sujet de mémoire doit impérativement être différent du sujet de stage.

Programmes M1 semestre 2

UE 1

STAGE

Responsable : Nathalie GASIGLIA

Volume horaire : 3 mois minimum équivalent temps plein

6 ECTS – Coeff 2

Stage en entreprise ou dans un établissement public.

Exécution de missions correspondant aux contenus de formation.

Ce stage constituera une première expérience concrète dans les industries de la langue, le secteur éditorial ou un

laboratoire de recherche. Il permettra à chaque étudiant de construire un projet professionnel adapté à ses

motivations.

Le sujet de stage doit différer du sujet de mémoire.

Le stage pourra être réalisé après la fin des cours (en fin de second semestre) ou à temps partiel parallèlement

aux cours (pour un équivalent temps plein de 3 mois minimum).

UE 2

LINGUISTIQUE

Responsable : Nathalie GASIGLIA

Volume horaire : 18 h plus 24 h soit 42 h

6 ECTS – Coeff 2

2 enseignements obligatoires :

–a– THÉORIES LINGUISTIQUES (SYNTAXE)

Voir spécialité Linguistique : S2, UE1

–b– OPTION DE LINGUISTIQUE : séminaire de linguistique

À choisir dans l’offre de la mention SDL (S2, UE2 et UE3 du M1 Linguistique ; choix à définir avec la

responsable de spécialité et le(s) directeur(s) de recherche, en fonction du projet de formation de l’étudiant).

UE 3

TRAITEMENT AUTOMATIQUE DES CORPUS

Responsable : Nathalie GASIGLIA

Volume horaire : 18 h plus 12 h soit 30 h

6 ECTS – Coeff 2

2 enseignements obligatoires :

–c– PROGRAMMATION POUR L’EXTRACTION D’INFORMATIONS 2 : JAVA SCRIPT

Enseignant : Fabien TORRE

Voir M1 LTTAC UE3 du S1 composant “–c– Programmation pour l’extraction d’informations 1 : JavaScript”.

–d– MANIPULATIONS DE TEXTES STRUCTURÉS POUR L’ANALY SE OU LA PUBLICATION 2

Enseignante : Nathalie GASIGLIA

Prolongement de l’enseignement de M1 LTTAC S1 UE3 composant “–d– Structuration de textes pour l’analyse

ou la publication 1”.

Utilisation de la structuration en XML des corpus constitués afin d’extraire des données au moyen de

transformation XSLT.

Les références bibliographiques utiles seront indiquées en cours.

UE 4

OPTION DE SPÉCIALISATION

Responsable : Nathalie GASIGLIA

Volume horaire : 24 h

3 ECTS – Coeff 1

Le choix de l’option de spécialisation du second semestre doit a priori être le même qu’au premier semestre. Si

une réorientation est envisagée, elle est soumise à l’accord du directeur de recherche, celui des responsables de la

spécialité et de la nouvelle option choisie.

– Lexicographie : voir M2 LTTAC S4 UE2 (24 h sur les 42 h que compte l’UE).

– Linguistique : un séminaire (différent de celui choisi en UE2) à choisir dans l’offre de la mention SDL (ou

UE2 et UE3 du M1 Linguistique).

UE 5

LANGUE VIVANTE

Responsable : Michael MARKEY

Volume horaire : 18 h

3 ECTS – Coeff 1

Dans toute la mesure du possible, les étudiants suivront un cours d’anglais appliqué aux sciences du langage.

Seront travaillées dans ce cours les compétences écrites et orales, dans leur phase de compréhension et de

production. Les cours en présentiel seront complétés par des séances en auto-formation obligatoires au Centre de

Ressources en Langues (CRL).

Les étudiants seront répartis en groupes de niveau, après avoir passé un test de positionnement en début d'année.

Ils pourront préparer le CLES (Certificat de Compétences en langues de l'Enseignement Supérieur).

Les étudiants de l’international hors programme (Erasmus, Crepuq, etc.) pourront suivre un enseignement de

français langue étrangère au titre de la langue vivante.

UE 6

MÉMOIRE DE RECHERCHE (ÉTAPE 2)

Responsable : Nathalie GASIGLIA

6 ECTS – Coeff 2

Deuxième étape de la rédaction du mémoire (suite de l’UE6 du S1) : élaboration d’une recherche ou d’un projet

original en (méta)lexicographie, en terminographie, en traitement automatique des corpus, en linguistique ou en

TAL.

Le mémoire de M1 LTTAC pourra constituer le socle d’une recherche de plus grande ampleur pour la rédaction

du mémoire de projet ou du mémoire de recherche du M2 LTTAC (selon que l’étudiant ambitionne en fin de M2

une insertion professionnelle ou une poursuite d’étude en recherche donnant lieu à la préparation d’un doctorat –

qui peut être réalisé avec une insertion professionnelle, dans le cadre d’un contrat CIFRE).

Modalités de contrôle M1 En complément des indications ci-dessous, merci de consulter les modalités de contrôle communes à la mention

ainsi que la note sur le plagiat valable pour l’ensemble des spécialités de la mention.

Le M1 LTTAC ne sera validé que si chacune des 12 UE l’a été, c’est-à-dire si la note obtenue en évaluation pour

chacune est supérieure à 10, et que donc les 60 crédits sont cumulés. En cas d’échec à une ou plusieurs UE, si la

moyenne pondérée des notes est supérieure à 10, une attestation d’équivalence de maîtrise pourra être délivrée.

Les contrôles des connaissances relatifs aux enseignements (UE1 à UE5 du semestre 1 et UE2 à UE5 du

semestre 2) se font en contrôle continu, au moyen de devoirs sur table, d’exposés et/ou de dossiers.

Le stage (UE1 du semestre 2) est évalué sur la base d’un rapport circonstancié du tuteur de stage (en fonction

d’une grille d’évaluation), d’un mémoire de rapport de stage rédigé par l’étudiant et d’une soutenance.

Le mémoire de recherche (UE6 de chaque semestre) est évalué en fonction de la qualité de la recherche

engagée : celle de l’avancement de l’état de l’art et de la présentation du projet à la fin du semestre 1, puis celle

du mémoire et de sa soutenance à la fin du semestre 2.

Poursuite des études après le M1 LTTAC Les maquettes d’enseignements depuis la réforme dite “LMD” (Licence, Master, Doctorat) regroupent en un

Master les 4e et 5e années de formation universitaire post-baccalauréat. En conséquence, les parcours qui vous

sont proposés sont conçus de manière à ce que les enseignements dispensés pendant ces deux années s’articulent

et s’enchaînent de façon pleinement cohérente, tout en préservant une identité spécifique à chacune des deux

années.

À l’issue du M1 LTTAC, qui fixe un socle fondamental de connaissances théoriques et de savoir-faire pratiques

en sciences du langage et en traitement automatique des langues et des corpus, les étudiants pourront choisir

entre plusieurs voies pour mener à terme leur master :

– le M2 LTTAC, formation professionnalisante unique en France, qui peut constituer une bonne formation

également pour ceux qui se destinent à un doctorat dont le sujet s’inscrit dans l’un des domaines de la

formation ;

– le M2 Linguistique, formation de la mention SDL plus spécifiquement orientée vers la recherche en

linguistique ;

– un M2 de langue, à l’université Lille 3 ou dans une autre université ;

– un M2 de sciences du langage dans une autre université ;

– un M2 de TAL dans une autre université.

2. Master 2 spécialité LTTAC

Pour plus d’informations consultez le site de la formation : http://stl.recherche.univ-

lille3.fr/siteheberges/LTTAC/M2LTTAC.htm ou le site du département : http://www.univ-lille3.fr/ufr-

humanites/sciences-langage/formations/masters/lttac/

Le M2 Lexicographie, Terminographie et Traitement Automatique des Corpus (LTTAC) est une formation

unique en France qui a pour objectif

– de développer les compétences professionnelles utiles pour :

• l’exercice de la lexicographie monolingue et bilingue, traditionnelle et électronique, dans tous ses

compartiments, chez des éditeurs de dictionnaires privés ou publics ;

• la pratique de la terminographie, monolingue, bilingue et multilingue, traditionnelle et électronique, dans des

organismes officiels, des grandes entreprises industrielles ou commerciales et dans l’édition privée ;

• l’insertion dans différents secteurs des industries de la langue pour la conception et le développement d’outils

bureautiques à forte composante lexicale (dictionnaires électroniques, systèmes de traduction automatique ou

assistée par ordinateur, logiciels de recherche documentaire, correcteurs grammaticaux ou orthographiques,

bases de données linguistiques, bases de connaissances, etc.).

– de former à la recherche les étudiants désireux d’engager un doctorat dont le sujet s’inscrirait dans l’un des

domaines de la formation, que la recherche soit théorique ou appliquée (impliquant alors une entreprise où

l’étudiant serait salarié dans le cadre d’un contrat CIFRE).

Le M2 LTTAC bénéficie d’une expérience de 22 années et de la participation de professionnels représentant les

intervenants majeurs des domaines couverts : maisons d’édition de dictionnaires généraux et spécialisés,

établissements publics impliqués dans la création de ressources lexicographiques et terminologiques, entreprises

développant des outils informatiques à composante linguistique.

Pour réaliser ses objectifs, le M2 LTTAC articule 5 composantes, distribuées en 12 UE (unités d’enseignement)

réparties sur 2 semestres :

– un panorama complet des différentes composantes de l’activité lexicographique et de l’ensemble des pratiques

mises en œuvre dans la rédaction de dictionnaires, de répertoires terminologiques et d’encyclopédies, et dans

l’élaboration de lexiques pour des applications informatiques ;

– une initiation méthodique aux principes et au maniement des différents outils informatiques pertinents pour

l’ensemble des applications concernées par le traitement du lexique (langages de structuration de documents,

bases de données, outils d’extraction d’information, certains types de programmation) ;

– un enseignement de linguistique fondamentale orienté vers les besoins des traitements pratiques du lexique ;

– la rédaction d’un mémoire développant et illustrant un projet original de répertoires, de ressources ou de

produits multimédias susceptible de déboucher sur une application concrète ;

– un stage de 3 mois minimum dans une entreprise ou un établissement public spécialisé, pour renforcer

l’expérience pratique et approfondir la connaissance des réalités de la vie professionnelle.

Conditions d’admission Public : Le M2 LTTAC s’adresse à tous les étudiants ayant une excellente maîtrise de leur langue maternelle et une

bonne connaissance d’au moins une langue étrangère, qui veulent consolider leurs acquis et renforcer leurs

compétences en sciences du langage et en traitement automatique des langues, et développer leur qualification en

vue d’une insertion professionnelle dans une des diverses branches d’activité qui recourent à un outillage

informatique pour traiter des données linguistiques.

À tous ceux qui veulent s’investir dans la lexicographie, la terminologie, l’élaboration d’outils de navigation et

d’exploration de ressources informatisées, la traduction automatique ou assistée par ordinateur, la didactique

outillée des langues ou les métiers de l’édition, le M2 LTTAC apporte les connaissances théoriques et pratiques

avancées nécessaires pour l’identification des objectifs, la familiarisation avec les méthodes et les outils de

description et de formalisation linguistiques typiques de la large gamme des activités professionnelles

concernées :

– rédaction de répertoires lexicaux, généraux ou spécialisés, monolingues ou bilingues ;

– développement de dictionnaires électroniques ou d’encyclopédies multimédias ;

– gestion de bases de données ;

– structuration, exploration et indexation de documents ;

– conception d’ontologies ;

– élaboration d’agents conversationnels.

Prolongement naturel du M1 LTTAC de Lille 3 dans une perspective professionnalisante ou de recherche, le M2

LTTAC offre aux étudiants issus de cette première année de master réellement motivés et de bon niveau

l’opportunité d’un approfondissement des savoirs et des savoir-faire nécessaire pour une insertion

professionnelle réussie à l’issue du M2, dans le cadre d’un doctorat réalisé avec un contrat CIFRE, ou

éventuellement différée après la soutenance d’une thèse engagée en fin de M2.

Son statut de formation professionnalisante d’excellence prédispose aussi le M2 LTTAC à accueillir comme par

le passé un large vivier d’étudiants venant d’autres universités françaises et étrangères désireux d’acquérir les

compétences professionnelles auxquelles il prépare. La diversité des qualifications à acquérir ouvre cette

formation à des étudiants se recrutant dans un large éventail de formations : lettres, sciences du langage, français

langue étrangère (FLE), toutes langues vivantes ou anciennes, philosophie, documentation, informatique, etc.,

sans exclure des spécialistes de toute discipline scientifique ou technique qui seraient intéressés par l’élaboration

de dictionnaires de spécialité pour leur domaine. En conséquence, même si certains Masters 1e année (ou

équivalence) prédisposent mieux que d’autres à préparer ce diplôme, les critères d’admission déterminants sont

la qualité du dossier et la nature de la motivation.

Les étudiants à disponibilité réduite (salariés ou autres) pourront suivre la formation en échelonnant sur plus

d’une année l’assistance aux enseignements et la validation des contrôles.

Enfin, le M2 LTTAC est ouvert, au titre de la formation continue, aux professionnels de la lexicographie et de la

terminographie désireux de compléter leur formation théorique, aux spécialistes de disciplines scientifiques et

techniques qui souhaitent s’initier à la méthodologie d’élaboration de répertoires disciplinaires et aux

professionnels des industries de la langue impliqués dans la constitution et la manipulation de ressources

lexicales structurées et de corpus.

Conditions de candidature : L’entrée en M2 LTTAC fait l’objet d’une sélection.

Le dossier de candidature que vous adresserez à la responsable de la spécialité (et par son intermédiaire à

l’équipe pédagogique) est donc une déclaration d’intention, un projet d’engagement argumenté dans une

formation en vue d’une insertion professionnelle dont vous vous faites probablement déjà une représentation,

même si celle-ci est sujette à évoluer.

Ce dossier nous permettra en outre de connaître votre parcours de formation et vos éventuelles expériences

professionnelles afin que, dès l’entretien de sélection, nous puissions évaluer ensemble votre motivation et vos

chances de réussite en formation d’abord, dans le monde professionnel ensuite.

Pour présenter votre candidature, vous devez télécharger l’un des trois dossiers2 ou le demander à N. Gasiglia,

l’imprimer, le remplir, et l’adresser à N. Gasiglia (à l’adresse indiquée sur le dossier), accompagné des

documents utiles, avant l’une des deux dates suivantes :

– 1e session de recrutement : dernier vendredi de juin (28 juin 2013),

– 2e session de recrutement : premier vendredi de septembre (6 septembre 2013).

Un accusé de réception sera adressé à chaque candidat(e) dans les quelques jours suivant l’arrivée de son dossier

(sauf durant la fermeture estivale de l’université). Si cet accusé de réception tarde, n’hésitez pas à contacter N.

Gasiglia.

Attention, selon votre situation, le dossier de candidature peut devoir être accompagné d’un dossier administratif.

Vérifiez bien que vous ne relevez pas d’un des cas appelant des démarches particulières (étudiants ayant débuté

leurs études supérieures à l’étranger, en reprise d’études désireux de demander une validation VAP 85 ou en

formation continue).

Les entretiens se dérouleront téléphoniquement.

– Thèmes abordés :

• Parcours universitaire et/ou professionnel.

• Objectifs professionnels et motivation.

• Connaissances en sciences du langage, en

lexicographie, en terminographie, en informatique,

en langues, sur les métiers de l’édition et des

industries de la langue.

– Critères intervenant dans la sélection :

• Qualité du dossier.

• Motivation.

• Projets professionnels.

Une réponse sera donnée à chaque dossier reçu dans les quelques jours suivant la date limite de recrutement de la

session pour laquelle il aura été envoyé. Si cette réponse tarde, n’hésitez pas à contacter N. Gasiglia.

Si vous avez besoin d’une réponse plus rapide (pour l’obtention d’une bourse ou d’un visa par exemple), il est

impératif que vous ayez mentionné cette contrainte sur votre dossier de candidature.

Structure des enseignements Les unités de formation et les contrôles couvrent toute la gamme des opérations constitutives de l’élaboration de

ressources lexicales, avec utilisation de l’informatique à tous les niveaux de celle-ci.

2 Cf. : http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/index.html, menu de bas de page

intitulé « Comment s’inscrire ».

La formation comporte 390 heures de cours (de septembre à mai), un stage de 3 mois minimum et la rédaction

d’un mémoire de projet professionnel ou de recherche.

Les 12 unités d’enseignement représentent 60 crédits ECTS (Système Européen de Transfert de Crédits) : 30

ECTS par semestre.

Une présence assidue à tous les cours est indispensable. Les étudiants qui exercent une activité professionnelle

pourront bénéficier d’un régime aménagé et valider leur M2 sur plus d’une année.

Les cours débuteront par deux journées intensives durant lesquelles les étudiants des nouvelles promotions

assisteront entre autres choses aux soutenances de rapports de stage des étudiants qui terminent leur M1 ou leur

M2. La présence à ces deux journées est strictement nécessaire pour une prise de repères professionnels.

Pour chaque constituant d’UE, la structure ci-après indique le cas échéant s’il est emprunté au M1 LTTAC. Ces

enseignements ont des contenus d’enseignement différents chaque année.

Attention : Les étudiants d’autres formations désireux de suivre des cours du M1 ou du M2 LTTAC sont tenus

de contacter N. GASIGLIA avant le début des cours. Si cette démarche n’a pas été réalisée avant la 2e séance du

programme de formation choisi, celui-ci ne sera plus accessible.

Semestre 3 Semestre 4

Intitulé heures ECTS Intitulé heures ECTS

S3 UE1 Conditions de

production des répertoires

lexicographiques et

terminographiques

–a– Typologie des

répertoires lexicaux et

conditions économiques de

leur production (18 h)

–b– Gestion de la production

de répertoires lexicaux (36 h)

54 h 6 S4 UE1 Stage de 3 mois

minimum

6

S3 UE2 Linguistique

–a– Profilage linguistique

des répertoires lexicaux (12

h)

–b– Linguistique pour la

lexicographie et la

terminographie (24 h)

36 h 6 S4 UE2 Manipulation /

Édition de descriptions

lexicales monolingues,

bilingues et multilingues

–a– Analyse des

corrélations entre

structuration et

présentation des

répertoires lexicaux (18 h)

–b– Manipulation /

édition informatiques (48

h)

66 h 6

Semestre 3 Semestre 4

Intitulé heures ECTS Intitulé heures ECTS

S3 UE3 Traitement

Automatique des Corpus

–a– Approche des corpus

comme ressources

documentaires (12 h)

–b– Familiarisation avec des

outils existants d’extraction

d’informations en corpus

électroniques (18 h)

–c– Programmation pour

l’extraction d’informations 3

(JavaScript) [emprunté au

M1 LTTAC S1 UE3 –c–] (18

h)

–d– Structuration de textes

pour l’analyse ou la

publication 2 [emprunté au

M1 LTTAC S1 UE3 –d1–]

(18 h)

66 h 6 S4 UE3 Traitement

Automatique des Corpus

–c– Programmation pour

l’extraction

d’informations 4

(JavaScript) (18 h)

–d– Manipulations de

textes structurés pour

l’analyse ou la publication

2 (12 h)

30 h 3

S3 UE4 Structuration de

répertoires lexicaux

monolingues, bilingues et

multilingues

–a– Analyse structurelle des

répertoires lexicaux imprimés

et sur support électronique

(24 h)

–b– Structurations

informatiques 1 (30 h)

54 h 6 S4 UE4 Structuration de

répertoires lexicaux

monolingues, bilingues et

multilingues

–b– Structurations

informatiques 2 (24 h)

24 h 3

S3 UE5 Rédaction de

descriptions lexicales

monolingues, bilingues et

multilingues

–a– Dérivation de textes (18

h)

18 h 3 S4 UE5 Rédaction de

descriptions lexicales

monolingues, bilingues et

multilingues

–b– Rédaction de textes

originaux pour divers

types de répertoires (42 h)

42 h 6

Semestre 3 Semestre 4

Intitulé heures ECTS Intitulé heures ECTS

S3 UE6 Mémoire de projet

professionnel ou de

recherche (étape 1)

3 S4 UE6 Mémoire de

projet professionnel ou de

recherche (étape 2)

6

Total 228 h 30 Total 162 h +

stage 30

Programmes M2 semestre 3

UE 1

CONDITIONS DE PRODUCTION DES RÉPERTOIRES LEXICOGRAP HIQUES ET

TERMINOGRAPHIQUES

Responsable : Nathalie GASIGLIA

Volume horaire : 18 h plus 36 h soit 54 h

6 ECTS – Coeff 2

2 enseignements obligatoires :

–a– TYPOLOGIE DES RÉPERTOIRES LEXICAUX ET

CONDITIONS ÉCONOMIQUES DE LEUR PRODUCTION

Enseignante : Pierre CORBIN

Les répertoires lexicaux peuvent être accessibles au grand public (ils sont alors appelés dictionnaires) mais ils

peuvent également être employés dans le cadre de certaines activités professionnelles (il peut s’agir alors de

dictionnaires ou de répertoires ne décrivant que les usages de spécialistes d’un domaine, les terminologies), et ils

peuvent être intégrés à des applications informatiques (ce qui implique des adaptations des modes de

présentation des informations qu’ils contiennent). L’enseignement vise à présenter les types de répertoires

lexicaux existants et les services qu’ils rendent en fonction des informations qu’ils fournissent et de leur mode

d’utilisation.

–b– GESTION DE LA PRODUCTION

DE RÉPERTOIRES LEXICAUX

Enseignants : Intervenants professionnels et Nathalie GASIGLIA

Après une présentation générale, qui permettra de cadrer les notions de lexicologie et lexicographie, de

terminologie et terminographie, cet enseignement traitera des conditions économiques de production des

dictionnaires et des composantes et les techniques d’élaboration d’un projet éditorial.

Bibliographie :

Béjoint H. & Thoiron P. (sous la direction de) (1996), Les dictionnaires bilingues, Louvain-la-Neuve, Duculot.

Cabré M. T. (1998), La terminologie, Paris, Armand Colin.

Corréard M.-H. (ed.) (2002), Lexicography and Natural Language Processing. A festschrift in honour of B.T.S.

Atkins, Euralex.

L’homme M.-C. (2004), La terminologie : principes et techniques, Montréal, Presses de l’Université de

Montréal.

Rey A. (1982), Dictionnaires et encyclopédies, Que sais-je ? 2000, Paris, Presses Universitaires de France.

Richaudeau F. & Binisti O. (2005), Manuel de typographie et de mise en page, nouvelle édition, Paris, Éditions

Retz.

UE 2

LINGUISTIQUE

Responsable : Nathalie GASIGLIA

Volume horaire : 36 h

6 ECTS – Coeff 2

2 enseignements obligatoires :

–a– PROFILAGE LINGUISTIQUE DES RÉPERTOIRES LEXICAUX

Enseignante : Delphine TRIBOUT

Dans le cadre de cet enseignement, une analyse des informations linguistiques fournies par une sélection

d’articles de différents dictionnaires ou lexiques et de leur mode de présentation sera conduite dans le but de

définir des principes de stockage de ces description d’une sélection de propriétés linguistiques dans une base de

données relationnelle (base SQL) puis d’élaborer celle-ci et ses interfaces de consultation et d’enrichissement

(des scripts PHP).

–b– LINGUISTIQUE POUR LA LEXICOGRAPHIE ET LA TERMIN OGRAPHIE

Enseignante : Danièle VAN DE VELDE

Programme de sémantique consacré en 2013-2014 à l’analyse des prépositions.

Un tiers du temps de travail sera consacré à l’examen critique de quelques articles de dictionnaire à la lumière

des propositions théoriques avancées dans le cours.

UE 3

TRAITEMENT AUTOMATIQUE DES CORPUS

Responsable : Nathalie GASIGLIA

Volume horaire : 12 h plus 3 fois 18 h soit 66 h

6 ECTS – Coeff 2

4 enseignements obligatoires :

–a– APPROCHE DES CORPUS COMME RESSOURCES DOCUMENTAIRES

Enseignants : Delphine TRIBOUT et intervenants professionnels

Cet enseignement vise à aider les étudiants à mieux connaître la diversité des sources documentaires (sources

linguistiques vs métalinguistiques, ressources écrites vs orales, corpus textuels imprimés vs informatisés). Le

propos se concentre ensuite sur les problèmes posés par la constitution de corpus électroniques et leurs

explorations comparées au moyen de méthodes statistiques, linguistiques ou mixtes.

Bibliographie:

Bowker L. & Pearson J. (2002), Working with Specialized Language. A practical guide to using corpora,

London / New York, Routledge.

Habert B. (2005), Instruments et ressources électroniques pour le français, Paris, Ophrys.

Habert B., Nazarenko A. & Salem A. (1997), Les linguistiques de corpus, Paris, Armand Colin.

Habert B., Fabre C. & Issac F. (1998), De l’écrit au numérique. Constituer, normaliser et exploiter les corpus

électroniques, Paris, InterÉditions.

Silberztein M. (1993), Dictionnaires électroniques et analyses automatiques de textes. Le système Intex, Paris,

Masson.

Véronis J. (sous la direction de) (2005), « Le traitement automatique des corpus oraux », TAL 45/2.

Véronis J. (éd.) (2000), Parallel Text Processing: alignment and use of translation corpora, Dordrecht, Kluwer

Academic Publishers.

–b– FAMILIARISATION AVEC DES OUTILS EXISTANTS D’EXT RACTION D’INFORMATIONS

EN CORPUS ÉLECTRONIQUES

Enseignants : Intervenants professionnels

Dans le prolongement de ce qui est abordé en M1 LTTAC UE3, cet enseignement ambitionne d’aider les

étudiants à se familiarisation avec les outils existants d’extraction d’informations en corpus électroniques

(analyseurs morphosyntaxiques, concordanciers, extracteurs de candidats termes) à travers les expériences

d’emploi de ces outils relatées par les partenaires professionnels qui interviennent.

–c– PROGRAMMATION POUR L’EXTRACTION D’INFORMATIONS 3 : JAVA SCRIPT

Enseignant : Fabien TORRE

Cet enseignement propose une découverte de la programmation avec le langage JavaScript et une introduction à

la manipulation automatique de documents semi-structurés.

JavaScript est un langage intrinsèquement lié aux documents (x)html (c’est-à-dire en particulier la grande

majorité des documents présents sur le web), a priori documents statiques que JavaScript permet de rendre

dynamiques. JavaScript se différencie des autres langages de programmation car la programmation se fait dans le

document lui-même et l’exécution du programme se fait côté client, c’est-à-dire par le navigateur de l’utilisateur.

Ces caractéristiques autorisent l’utilisateur à interagir avec le document dans son navigateur, sans aller-retour

avec le serveur web.

JavaScript a récemment connu un regain d’intérêt avec :

– le soutien déclaré en 2009 du W3C au web multimédia avec html5 et au détriment de xhtml,

– le refus par Apple en 2010 d’utiliser Flash sur ses appareils, le couple html5-JavaScript apparaît alors comme

la seule alternative,

– la volonté des éditeurs traditionnels de proposer leurs livres sous forme d’e-books (dont les formats majeurs

comme epub ou kindle sont basés sur html), en profitant du passage papier-numérique pour les rendre

dynamiques ou interactifs.

Le cours commencera par une mise à niveau sur html, puis passera en revue les sujets suivants :

– mise en œuvre en JavaScript du cours d’algorithmique,

– interaction entre JavaScript et l’objet graphique canvas de html5,

– modification des documents html à travers l’API DOM de JavaScript.

Des réalisations concrètes illustreront le cours et seront demandées aux étudiants : productions automatiques de

phrases, jeux graphiques et ludiques, manipulation de textes, aide à l’étiquetage de textes, extraction et

visualisation automatique d’informations, etc.

Cet enseignement pourra servir de bases à d’éventuels apprentissages dans le cursus des étudiants ou dans leur

future carrière professionnelle :

– l’algorithmique et la découverte du langage JavaScript faciliteront l’apprentissage de tout autre langage de

programmation,

– la modification de documents à travers l’API DOM pourra être mise en œuvre avec un autre langage de

programmation que JavaScript, et pour des documents xml non nécessairement html.

Les compétences acquises pendant ce cours sont également reconnues dans le monde professionnel, en

particulier avec l’utilisation de html5/JavaScript dans les formats e-book.

Les supports de cours et exercices seront disponibles en ligne.

–d– STRUCTURATION DE TEXTES POUR L’ANALYSE OU LA PU BLICATION 2

Enseignante : Nathalie GASIGLIA

Pour être explorés avec efficacité, les documents textuels réunis en corpus gagnent souvent à être enrichis

d’annotations de natures diverses (étiquetage grammatical des mots, indications sémantiques, etc.). Pour que ces

annotations ne se mêlent pas indûment aux données, il est important de structurer les corpus, et, à cette fin, le

langage XML fournit des solutions techniques dont des chercheurs ont su tirer profit pour proposer des principes

de structuration de corpus : la TEI (“Text Encoding Initiative”).

Par ailleurs, les éditeurs désireux de pouvoir utiliser les mêmes contenus textuels dans différentes publications

proposées sur supports imprimés comme électroniques structurent leurs productions textuelles directement ou en

convertissant les styles mis en œuvre dans les documents.

Nous chercherons à appliquer les propositions de la TEI comme les structurations à partir de styles hérités des

traitements de textes pour élaborer des corpus balisés en XML en travaillant par exemple sur des textes

scientifiques de linguistes dont nous souhaitons analyser l’expression et le vocabulaire, sur des textes traduits à

aligner pour constituer un corpus bilingue au sein desquels nous souhaitons étudier les équivalences

traductionnelles, ou encore sur des éditions différentes de textes anciens alignés.

Cet enseignement étant mutualisé avec le M1 LTTAC, les traitements mis en œuvre diffèrent d’une année sur

l’autre de manière à permettre à tous les étudiants d’en découvrir de nouveaux chaque année.

Bibliographie introductive :

Burnard L. & Sperberg-McQueen C.M. (1996), « La TEI simplifiée : une introduction au codage des textes

électroniques en vue de leur échange », Cahiers GUTenberg n° 24.

Ray E.T. (2001), Introduction à XML, traduction d’Alain Ketterlin, Paris, O’Reilly.

TEIP5 : http://www.tei-c.org/Guidelines/P5/

UE 4

STRUCTURATION DE RÉPERTOIRES LEXICAUX MONOLINGUES, BILINGUES ET

MULTILINGUES

Responsable : Nathalie GASIGLIA

Volume horaire : 24 h plus 30 h soit 54 h

6 ECTS – Coeff 2

2 enseignements obligatoires :

–a– ANALYSE STRUCTURELLE DES RÉPERTOIRES LEXICAUX I MPRIMÉS ET SUR SUPPORT

ÉLECTRONIQUE

Enseignante : Nathalie GASIGLIA

Les analyses structurelles développées dans le cadre de cet enseignement se situeront à différents niveaux :

– La structure des ouvrages : texte et paratexte.

– La structure des nomenclatures : choix des adresses en fonction de plusieurs paramètres (nature des projets,

critères linguistiques et extralinguistiques).

– La structure d’adressage : macrostructures simples ou complexes, adressages microstructurels.

– La structure d’accès et les dispositifs de fléchage (titres courants, lettrines, renvois).

– La structure des articles : linéarité et hiérarchie.

Bibliographie:

Hausmann F. J. & Wiegand H. E. (1989), “Componen parts and structures of general monolingual dictionaries: a

survey”, in Hausmann Franz Josef, Reichmann Oskar, Wiegand Herbert Ernst. & Zgusta Ladisav (eds),

Wörterbücher / Dictionaries / Dictionnaires. Ein internationales Handbuch zur Lexikographie / An international

encyclopedia of lexicography / Encyclopédie internationale de lexicographie, Berlin / New York, Walter de

Gruyter, tome 1, art. 36, pp. 328-360.

Pruvost J. & Sablayrolles J.-F. (2003), Les néologismes, Que sais-je ? 3674, Paris, Presses Universitaires de

France.

Rey-Debove J. (1971), Étude linguistique et sémiotique des dictionnaires français contemporains, Paris / La

Haye, Mouton.

–b– STRUCTURATIONS INFORMATIQUES 1

Enseignants : Intervenants professionnels

En écho aux analyses structurelles conduites dans le cadre des analyses de dictionnaires, cet enseignement

présentera deux modes de traitement des structurations de textes dictionnairiques : le balisage, au moyen

d’éléments XML, des textes des articles et la distribution de leur contenu dans des bases de données SQL :

– pratique du balisage d’articles de dictionnaires en XML : élaboration de DTD, rédaction d’articles balisés,

rétroconversion de dictionnaires imprimés ;

– conception et élaboration de bases de données relationnelles en vue du stockage structuré de données

lexicographiques.

Bibliographie :

Amann B. & Rigaux P. (2002), Comprendre XSLT, Paris, O’Reilly.

Habert B. (2009), Construire des bases de données pour le français. Tome 1. Notions, coll. L’essentiel français,

Paris, Ophrys.

Corréard M.-H. (ed.) (2002), Lexicography and Natural Language Processing. A festschrift in honour of B.T.S.

Atkins, Euralex.

Mangano S. (2003), XSLT en action, traduction d’É. Jacobini & A. Ketterlin, Paris, O’Reilly.

Ray E. T. (2001), Introduction à XML, traduction d’A. Ketterlin, Paris, O’Reilly.

Roman S. (1998), Bases de données MS-Access. Conception et programmation, traduction de J. Guérin, Paris,

O’Reilly.

UE 5

RÉDACTION DE DESCRIPTIONS LEXICALES MONOLINGUES, BI LINGUES ET MULTILINGUES

Responsable : Nathalie GASIGLIA

Volume horaire : 18 h

3 ECTS – Coeff 1

1 enseignement :

–a– DÉRIVATION DE TEXTES

Enseignante : Nathalie GASIGLIA

Le plus souvent, les créations de dictionnaires ne donnent pas lieu à des rédactions intégrales de leur texte, mais

à la reprise de texte d’articles existants, voire de segments de textes issus d’une sélection de sources

dictionnairiques. Le travail d’harmonisation des sources textuelles avec ce qu’il faut élaborer dans le cadre d’un

nouveau projet implique cependant souvent des réécritures locales. Cet enseignement sensibilise les étudiants à

cet art de la retouche textuelle.

UE 6

MÉMOIRE DE PROJET PROFESSIONNEL OU DE RECHERCHE (ÉT APE 1)

Responsable : Nathalie GASIGLIA

3 ECTS – Coeff 1

Première étape de la rédaction d’un mémoire relatif à une question de (méta)lexicographie, de terminographie,

de traitement automatique des corpus, de linguistique ou de TAL : bibliographie, fiches de lectures et, selon ce

qui est pertinent, état de l’art ou état du marché des ouvrages ou des outils logiciels.

À ce stade du travail, la différence entre un mémoire de projet professionnel et un mémoire de recherche peut

n’être perceptible que par la nature du sujet traité et la couverture relative des recherches bibliographiques. Dans

le cadre d’un mémoire de projet professionnel, qui défend un projet éditorial par exemple, il convient d’établir

un état de la concurrence et des sources documentaires, dans le cadre d’un mémoire de recherche, il convient de

constituer une bibliographie scientifique aussi exhaustive et analytique que le permet le sujet traité.

La réalisation de ce travail implique le choix d’un directeur de projet ou de recherche, puis, avec ce dernier, celui

d’un sujet de mémoire (ce choix pouvant conduire à envisager une co-direction de mémoire et donc à solliciter la

direction d’un second directeur). Vous devrez déterminer votre choix de directeur(s) de projet ou de recherche en

tout début d’année, ce sera fait avec l’aide de la responsable de la spécialité et, naturellement, du ou des

directeurs pressentis.

Le sujet de mémoire doit impérativement être différent du sujet de stage.

Programmes M2 semestre 4

UE1

STAGE

Responsable : Nathalie GASIGLIA

Volume horaire : 3 mois équivalent temps plein minimum

6 ECTS – Coeff 2

Stage en entreprise ou dans un établissement public.

Exécution de missions correspondant aux contenus de formation.

Ce stage constituera une seconde expérience concrète dans le secteur éditorial, les industries de la langue ou un

laboratoire de recherche. Il permettra à chaque étudiant de construire un projet professionnel adapté à ses

motivations.

Le sujet de stage doit différer du sujet de mémoire.

Le stage pourra être réalisé après la fin des cours (en fin de second semestre) ou à temps partiel parallèlement

aux cours (pour un équivalent temps plein de 3 mois minimum).

UE 2

MANIPULATION / ÉDITION DE DESCRIPTIONS LEXICALES

MONOLINGUES, BILINGUES ET MULTILINGUES

Responsable : Nathalie GASIGLIA

Volume horaire : 18 h plus 48 h soit 66 h

6 ECTS – Coeff 2

2 enseignements obligatoires :

–a– ANALYSE DES CORRÉLATIONS ENTRE STRUCTURATION ET PRÉSENTATION DES

RÉPERTOIRES LEXICAUX

Enseignants : Pierre CORBIN et Nathalie GASIGLIA

La lisibilité des textes dictionnairique dépend de la bonne articulation entre lieux et modes d’expression des

informations linguistiques qui sont fournies. Chaque type d’information n’étant généralement pas fourni dans un

seul composant d’article ni d’une seule manière, il est important que de futurs lexicographes ou utilisateurs de

ressources lexicales aient une représentation de la diversité des usages observables et de l’incidence des choix

éditoriaux opérés sur le confort des lecteurs, voire sur la compréhensibilité des textes.

–b– MANIPULATION / ÉDITION INFORMATIQUES

Enseignants : Nathalie GASIGLIA et intervenants professionnels

Structurer les textes constitue pour les éditeurs un moyen de prévoir des réemploi de ceux-ci. Encore faut-il que

les structurations mises en œuvre permettent les manipulations à venir, et donc qu’elles soient conçues en

fonction des futurs projets ou au moins de manière conservatoire. Outre les connaissances techniques relatives à

la manipulation de documents structurés en XML au moyen de transformation XSLT et dans un éditeur de mise

en page professionnel (InDesign), c’est l’expérience concrète la plus actuelle des intervenants professionnels

invités qu’il nous importe de transmettre afin que les futurs porteurs de projets éditoriaux soient capables, le

moment venu, de prévoir des éditions multiples pour leurs productions.

UE 3

TRAITEMENT AUTOMATIQUE DES CORPUS

Responsable : Nathalie GASIGLIA

Volume horaire : 18 h plus 12 h soit 30 h

3 ECTS – Coeff 1

2 enseignements obligatoires :

–c– PROGRAMMATION POUR L’EXTRACTION D’INFORMATIONS 4 : JAVA SCRIPT

Enseignant : Fabien TORRE

Voir M2 LTTAC UE3 du S1 composant “–c– Programmation pour l’extraction d’informations 3 : JavaScript”.

–d– MANIPULATIONS DE TEXTES STRUCTURÉS POUR L’ANALY SE OU LA PUBLICATION 2

Enseignante : Nathalie GASIGLIA

Prolongement de l’enseignement de M2 LTTAC S1 UE3 composant “–d– Structuration de textes pour l’analyse

ou la publication 1”.

Utilisation de la structuration en XML des corpus constitués afin d’extraire des données au moyen de

transformation XSLT.

Les références bibliographiques utiles seront indiquées en cours.

UE 4

STRUCTURATION DE RÉPERTOIRES LEXICAUX

MONOLINGUES, BILINGUES ET MULTILINGUES

Responsable : Nathalie GASIGLIA

Volume horaire : 24 h

3 ECTS – Coeff 1

1 enseignement :

–b2– STRUCTURATIONS INFORMATIQUES 2

Enseignants : Intervenants professionnels

Quand il ne s’agit pas d’éditions imprimées mais électroniques, qui permettent d’offrir les mêmes segments

informationnels dans plusieurs combinaisons textuelles, il peut être plus opératoire de ne pas rédiger des textes

d’articles suivis, mais des segments de textes stockés dans des bases de données SQL. En s’appuyant sur la

connaissance des principes de structuration d’article déjà acquise par les étudiants en particulier durant les cours

d’UE3 du S3 et sur la sensibilisation aux problèmes de lisibilité des textes traités en UE2 du S4, l’objectif de cet

enseignement est d’envisager la création d’une base dictionnairique et l’élaboration de son interface de

consultation en ligne (au moyen de scripts PHP).

UE 5

RÉDACTION DE DESCRIPTIONS LEXICALES

MONOLINGUES, BILINGUES ET MULTILINGUES

Responsable : Nathalie GASIGLIA

Volume horaire : 42 h

6 ECTS – Coeff 2

1 enseignement :

–b– RÉDACTION DE TEXTES ORIGINAUX POUR DIVERS TYPE S DE RÉPERTOIRES

Enseignants : Nathalie GASIGLIA et intervenants professionnels

Bien que les créations de répertoires sans exploitation de données textuelles préexistantes soient actuellement

rares dans les maisons d’édition généralistes, elles peuvent s’observer et mobiliser les compétences

rédactionnelles d’auteurs pour des projets d’ambitions plus modestes (en particulier des répertoires thématiques

ou spécialement consacrés à certains types d’informations, comme les étymologies, les expressions, etc.). La

compétence rédactionnelle des collaborateurs est également cruciale en cas d’amplification d’un ouvrage pour

lequel des articles et/ou des sélections d’informations viendront enrichir ceux qui sont déjà existant. Si les

créations discursives de certains composants d’articles qui reçoivent des textes codifiés ne présentent pas de

difficultés rédactionnelles particulières, d’autres, dont en particulier les définitions et les exemples, impliquent

un savoir faire tout particulier.

UE 6

MÉMOIRE DE PROJET PROFESSIONNEL OU DE RECHERCHE (ÉT APE 2)

Responsable : Nathalie GASIGLIA

6 ECTS – Coeff 2

Deuxième étape de la rédaction du mémoire (suite de l’UE6 du S1) : élaboration d’un projet professionnel ou

d’une recherche original(e) en (méta)lexicographie, en terminographie, en traitement automatique des corpus ou

en TAL.

Selon que, en fin de M2, l’étudiant ambitionne une insertion professionnelle ou une poursuite d’étude en

recherche dans le cadre d’un doctorat – qui peut être réalisé avec une insertion professionnelle, dans le cadre

d’un contrat CIFRE –, le mémoire de M2 LTTAC pourra consister en un projet éditorial ou de développement de

logiciel suffisamment avancé dans sa conception et soigné dans le texte de sa présentation pour être susceptible

d’être soumis à un éditeur ou offert en ligne, ou le fruit d’une recherche théorique ou appliquée qui prépare le

projet de thèse par le choix du sujet, la méthodologie d’étude mise en œuvre, le travail bibliographique réalisé, et

le cas échéant les démarches engagées auprès des entreprises qui pourraient être les meilleurs partenaires en cas

de projet de thèse avec contrat CIFRE.

Modalités de contrôle M2 En complément des indications ci-dessous, merci de consulter les modalités de contrôle communes à la mention

ainsi que la note sur le plagiat valable pour l’ensemble des spécialités de la mention.

Le M2 LTTAC ne sera validé que si chacune des 12 UE l’a également été, c’est-à-dire si la note obtenue en

évaluation pour chacune est supérieure à 10, et que donc les 60 crédits sont cumulés.

Les contrôles des connaissances relatifs aux enseignements (UE1 à UE5 du semestre 3 et UE2 à UE5 du

semestre 4) se font en contrôle continu, au moyen de devoirs sur table, d’exposés et/ou de dossiers.

Le stage (UE1 du semestre 4) est évalué sur la base d’un rapport circonstancié du tuteur de stage (en fonction

d’une grille d’évaluation), d’un mémoire de rapport de stage rédigé par l’étudiant et d’une soutenance.

Le mémoire de projet professionnel ou de recherche (UE6 de chaque semestre) est évalué en fonction de

l’avancement de l’analyse des produits conscurrents ou de l’état de l’art, et de la présentation du projet à la fin du

semestre 3, puis celle du mémoire et de sa soutenance à la fin du semestre 4.