(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?
-
Upload
thierry-chanier -
Category
Education
-
view
68 -
download
3
Transcript of (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?
séminaire "Recherches linguistiques et corpus" STIH de l’Université Paris-Sorbonne
mercredi 8 avril 2015
Thierry Chanier
LETECMulce
2
3
(Liégeois, 2014)
5
6
7
8
Collecte des données
Contrats de consentement
éclairé
ou
Licence d'utilisationsur données récoltées
Anonymisation
- Préserver informations essentielles- Identifier utilisateur sur toute la banque de corpus
Poser licenced'utilisation
9
Corpus PFC, 15 ans d'études
10
Loic Liegeois (2014). Usage des variables phonologiques dans un corpus d'interactions naturelles parents-enfant : impact du bain linguistique et dispositifs cognitifs d'apprentissage.Humanities and Social Sciences.Clermont Ferrand 2. French.
<tel-01108764>
http://tel.archives-ouvertes.fr/tel-01108764
11
12
13
Acquisition de la liaison
• Objet d’un débat entre une approche constructionniste,« basée sur l’usage » (Dugua, 2006 ; Chevrot et al.,2007 ; Chevrot et al., 2009) et une approche « baséesur des principes abstraits » (Wauquier-Gravelines etBraud, 2005).
• Divergence théorique, accord sur les faits observés etrelevés dans des études de corpus.
Modèles d’acquisition de la liaison
14
Annotation Contexte Exemple
A Dét - N Un ours
B Pro - V Ils aiment
C Expression figée Tout à l'heure
D V - Pro Prends-en
E Adj - N Petit oiseau
F N(pluriel) - X Des pommes et …
G Avoir - X Ils ont appris
H Être - X C'est un
I V - X Prends un verre
J Inv - X Pas appris
P « Poubelle » En orange
Z Hors contexte Le -n- âne
Annotation des données
Liaisons
catégoriques
Liaisons
variables
Acquisition de la liaison variable et catégorique : ce que nous apprend le DAE
15
Répartition des adresses équivalente chez les parents de Prune et de Salomé.
Dominance des énoncés adressés à l'enfant.
Nombre suffisant des deux types d'énoncé pour pouvoir les comparer.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Prune Salomé
Adressé à tous
Adressé àl'enfant
Adressé àl'adulte
Distribution des contextes de liaison dans les corpus (chez les parents)
16
La liaison variable : analyse à partir des mots1 après lesquels la liaison est réalisée au moins une fois.
17.30%19.60%
29% 28.20%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
Prune Salomé
Discours adressé àl'adulte
Discours adressé àl'enfant
17
Le schwaUne voyelle pouvant alterner avec zéro dans un
même contexte lexical en fonction de différents
critères.
Cinq contextes d’apparition :
monosyllabe,
syllabe interne d'un polysyllabe
première ou la dernière syllabe d'un polysyllabe et
dans la métathèse.
Taux d’élision en DAA et DAE en FrL1
ParentsTemps de recueil
et âge de l’enfant
Taux d’élision en
DAA
Taux d’élision en
DAEχ² P
Parents de
BaptisteT1 : 2;4 ans
65,1% 31,7%Chi2=75.9812 p<0,0001
T2 : 3;0 ans49,4% 34,2%
Chi2=21.8028 p<0,0001
Parents de SaloméT1 : 3;0 ans
62,1% 37,0%Chi2=95.0865 p<0,0001
T2 : 3;7 ans58,2% 56,1%
Chi2=0 p>0,05
Parents de PruneT1 : 3;4 ans
67,8% 31,6%Chi2=95.0865 p<0,0001
T2 : 4;0 ans50,0% 51,2%
Chi2=0 p>0,05
65.1%
49.4%
62.1%58.2%
67.8%
50.0%
31.7%34.2% 37.0%
56.1%
31.6%
51.2%
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
T1 T2 T1 T2 T1 T2
Parents de Baptiste Parents de Salomé Parents de Prune
DAA
DAE
Élision chez l’enfant et développement
linguistique
9.2% 10.8%
44.2%
19.1%
44.9%51.9%
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
Baptiste Salomé Prune
T1
T2
EnfantTemps de recueil
et âge de l’enfantTaux d’élision χ² P
Salomé
T1 : 2;4 ans 10,81%
χ² = 216.0006 P<0,0001
T2 : 3;0 ans 44,91%
Baptiste
T1 : 3;0 ans 9,2%
χ² = 6.7688 P<0,01
T2 : 3;7 ans 19,02%
Prune T1 : 3;4 ans 44,19%
χ² = 7.3637 P<0,01
Enfant T2 : 4;0 ans 51,9%
Élision en DAE en FrL1
Les parents tendent à davantage maintenir le schwa
lorsqu’ils s’adressent à leur enfant et ajustent leur
production en fonction des performances de celui-
ci.
Chez les parents de Salomé et Prune, au T2, plus
de différence significative DAA/DAE. Au T2,
Salomé et Prune élident le schwa dans des
proportions proches de celles des adultes.
L’élision du schwa en DAE est modulée selon le
développement linguistique de l’enfant.
22
• Corpus audio d’interactions parents-enfant recueillis ensituation naturelle (bain, jeu, repas…).
• Deux temps (voire 3) d’enregistrement afin d’observer lavitesse et la qualité de l’acquisition de la variationphonologique.
• Enregistrement audio géré par les parents :
• méthode peu intrusive : le chercheur n’est pas présent au domicilefamilial,
• méthode qui demande peu d’intervention des parents.
• Nouvelles collectes, après réutilisation d'un corpus (malstructuré) venant d'une ANR
• Recherche de parents, contrat de consentement éclairé)
Constitution et diffusion du corpus ALIPE
24
Avant, projet ANR Phonlex
Réalisées par Loic seul
25
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme de conversion
26
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme de conversion
27
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme de conversion
28
Vocabulaires contrôlés
TEI > Métadonnées > Acteurs
29
<w>mais</w>
<w>la</w>
<w>politique</w>
<w>à</w>
<fs type="anonymisation">
<f name="Identity" fVal=”Place"/>
<f name="Original"
fVal=”PlaceName"/>
</fs>
<w>[_Lieu-de-travail-de-mot-Prune_]</w>
<w>c'est</w>
TranscriptionMétadonnées
Métadonnées
TEI > Métadonnées > Anonymisation
30
<w>elle</w>
<w>a</w>
<w>pas</w>
<w>de</w>
<fs type="liaison">
<f name="Word1" fVal="de"/>
<f name="Word2" fVal="oreilles"/>
<f name="SynctacticContext" fVal="Z"/>
<f name="ExpectedConsonnant" fVal="o"/>
<f name="ProducedConsonnant" fVal="z"/>
<f name="ObligatoryOptional" fVal="2"/>
</fs>
<w>oreilles</w>
Transcription Métadonnées
Possibilité de futures annotations de part l’extensivité du format
31
32
Zip pour corpus distinguable :- Transcription TEI- Transcription avec
alignement CLAN : CHAT- Fichier audio- Fiche descriptive HTML
http://lrl-diffusion.univ-bpclermont.fr/alipe/
Base de corpus en ligne
33
Affichage « simplifié » des transcriptions
généré à partir du fichier XML-TEI :
- Affichage des liaisons
- Affichage des évènements para-
et extralinguistique
Lecture en ligne (streaming) des fichiers
audio téléchargeables
34
http://hdl.handle.net/11041/alipe-000853
35
Ciara R. Wigham (2012). The interplay between nonverbal and verbal interaction in synthetic worldswhich supports verbal participation and production in a foreign language.. Linguistics. Université Blaise Pascal -Clermont-Ferrand II. English. <tel-00762382v2>
http://tel.archives-ouvertes.fr/tel-00762382
36
Interplay nonverbal & verbal
• 1A: During a collaborative building activity, are nonverbal acts autonomous in the synthetic world or does interplay exist between the nonverbal and verbal modes?
Analyses 37
Characterisation of SL modalities
Methodology 38
• Literature review of classifications of nonverbal mode used in SLA & CSCW domains
• Classification of verbal & nonverbal modalities in Second Life
• Elaboration of transcription methodology
Interplay textchat & voicechat
• 3D: Can the textchat serve for L2 feedback provision?
Analyses 39
An example of modality interplay 40
European project with architects: course Environments
face-
to-face
distance
VoiceForum Second Life
Paris Malaquais
UBP Languagetutor
UBP Languagetutor
ENSAPM Architecture teachersENSAPM Architecture teachers
UBP Languagetutors
4 workgroups GA, GE, GL, GS
Presentation
environment
Research protocol
Methodology 42
DesignData
collection
Data
organisationPost research
Data collection and coverage
Data collected
Pre-questionnaires
Session data Post questionnaires
Semi-directive
interviews
Environment
Kwiksurveys Second Life VoiceForum Kwiksurveys Skype
Data type Spreadsheetfile
Video screencaptures
Audio recordings
Spreadsheet file Audio recordings
Quantity&
coverage of data
17 student questionnaires
20 group sessions & 2 presentation
sessions19h40m
64 forum messages
16 student questionnaires
5 student interviews
2h30
MultimodalTranscription
7 sessions 5h15m
2238 verbal2659 nonverbal
Methodology 43
pre-course post-courseduring course
Multimodal transcription using ELAN
video screen capture
multimodal transcription aligned using timeline
participants & modality
view of annotations for one participant in
one modality
Max Planck Institute for Psycholinguistics (2001). ELAN [software]. The Netherlands: Max Planck Institute for Psycholinguistics. [http://www.lat-mpi.eu/tools/elan/]
44
Aperçu du
code de
transcription
pour non
verbal
45
An example of modality interplay 46
Annotations du chercheur
47
Un type de corpus défini dans projet MULCE
précédent : corpus d’apprentissage LETEC
Instantiation
Pedagogical scenario
Researchprotocol
Public licence
Privatelicence
Analyses
C
o
n
t
e
x
t
48
"A LETEC corpus collects in a systematic and structured way all the data frominteractions which occur during a course which is partially or entirely online.These data are enriched by technical, pedagogical and scientific information as well asinformation about the participants and are organized to allow contextualizedanalyses to be performed.“ (Mulce-documentation, 2013)
ethics & rights
Organisation des données dans LETEC
49
50
Simuligne(2001)
UK-FR
fre
Copéas(2005)
eng
UK-FR
Tridem(2005-06)
UK-FR-USA
eng, fre
Ecofralin(2008)
CO-FR
fre,spa
VMT-teamC(2006)
math
UK-USA-SG
INFRAL (2009)
deu,fra
DE-FR
FR
FAVI (2006-08)
fra
ARCHI21 (2011)
eng,fra
FR
SLIC (2013)
USA-FR
fra
http://mulce.org http://repository.mulce.org
Nouveaux corpus
apportés par
chercheur(se)
51
52
Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from the Internet. These
heterogeneous corpora will be structured and processed in a uniform way,
complemented with metadata. CoMeRe will be released as OpenData
through the national infrastructure Ortolang, following constraints which will
be reused for the forthcoming “Corpus de Référence du Français”.
Project supported by the national
consortium Corpus-écrits, sub-part of
Huma-Num, and Ortolang
Variety + Standards + Open Access
Consortium Corpus-écrits
http://comere.orghttp://hdl.handle.net/11403/comere
54
55
New macro-level elements
56
57