Données issues des interactions en ligne en situation d'apprentissage : Quels sont les moyens du...
-
Upload
lucie-jarry -
Category
Documents
-
view
104 -
download
0
Transcript of Données issues des interactions en ligne en situation d'apprentissage : Quels sont les moyens du...
Données issues des interactions en ligne en situation d'apprentissage :
Quels sont les moyens du partage ?
Christophe ReffayChercheur de l’IFÉ,STEF, ENS Cachan
Séminaire TIC, STEF, ENS-Cachan – 13 juin 2013
Séminaire TIC, ENS-Cachan, 13/06/20132
Publication = Part visible
Analyse
Séminaire TIC, ENS-Cachan, 13/06/20133
Contexte international
• CODATA: Physique, Géosciences… (Paris,1966)– Revue "Data Science Journal"
• Processus de Berlin : Open Access
• Science Commons => Creative Commons / Data– 10 obstacles au partage (livre blanc J. Rees, 2010)
• The DataVerse Network (G. King, 2007)– Archive, Estampille, Reconnaissance, Partage ou non.
• NSF : Data Management Plan
• Datacite : Liste des (647) repositories (juin 2013)
• PSLC DataShop : une initiative exemplaire
10
Séminaire TIC, ENS-Cachan, 13/06/20134
Initiatives nationales
• ADONIS (TGE) + IR Corpus => TGIR pour les humanités numériques – Le CLEO (Hypothèses, Revues.org, Calenda)– beQuali ?– Datapublication (lien avec revues) ?
• Mulce (ANR Corpus) : mulce.org • CALICO (données et outils)• IPOL : Une initiative exemplaire
Mulce (ANR 2007-2010) MUltimodal Learning Corpus
ExchangeLaboratoire d’Informatique de l’UFC
Laseldi puis LRL (T. Chanier)
Open University (CREEK)
http://mulce.org
Projet Mulce soutenu par
Informatique
Ingénierie pédagogiqueApprentissage des langues
Séminaire TIC, ENS-Cachan, 13/06/20136
Contexte : Analyse des interactions en ligne
Scénariopédagogique
HypothèsesQuestionsrecherche
Analyses
Traces
Prod.
Descrip.Acteurs
HypothèsesQuestionsrecherche
t0 t1Instanciation
Communauté de recherche
Publi.
Dispositif
outil
Séminaire TIC, ENS-Cachan, 13/06/20137
Aujourd’hui…
Une autre vision du partage
Questions Traces Résultat1Dispositif
TracesDisposit
if Résultat2
=?=
Partage
Questions
Analyses
Analyses
Partage
Résultat3
Résultat4
Demain ?
Séminaire TIC, ENS-Cachan, 13/06/20138
Ce qui est problématique
• Pour interpréter les interactions situées : cadre pédagogique, temporel, acteurs, médium, … => Contexte – Scénario pédagogique– Protocole de recueil des données– Questions de recherche
• Pour automatiser certaines analyses=> Format d’échange / Structuration des données– Normes et standards
• Pour protéger les acteurs => Droit et éthique– Consentement éclairé et droits d’auteurs, image– Données personnelles => anonymisation– Licences d’utilisation des données
Séminaire TIC, ENS-Cachan, 13/06/20139
- Questions- Objet- Problématique- Observables- Protocole de recueil des donnés
Schéma simplifié des parties d’un corpus de base
Instanciation
Scénario pédagogique
Protocole de recherche
Licence publique
Licence privée
Analyses
Contexte
- Activités- Rôles - Environnements
- Acteurs- Outils- Traces
-Interactions-Logs-produits
Observations du contexte
- Termes cession des droits- Contrats d’utilisation- Lien propriétaire
- Transcriptions- Analyses
Séminaire TIC, ENS-Cachan, 13/06/201310
Scénario Pédagogique
ProtocoleRecherche Instanciation Licence
Index
Donnéesprimaires
ApprochePédagogique
_______ActivitésRôlesEnvironnements
QuestionsMéthodologie,recueil_______Activités, rôles &Environnements (recherche)
ObservationsAgenda
_______Acteurs / groupes (codes acteurs)OutilsInteractions structurées
Licences-Utilisation-Dépôt_______EditeursDroits accèsContrat cession acteursAnonymisation
ConsignesAidesRessources
QuestionsGrilles d’entretien
Recherche : questionnaires réflexifs, entretiensPédagogique :Produits, tracesFichier suivi
Procédure d’anonymisationContrat de Cession des droits
LicencePrivée
ContratsCessionCodes,Noms acteurs
Package (IMS-CP) pour Mulce
Identification des ressources
Tableau anonymisationContrat de cession des droits
Description
Méta données Méta données
Méta données générales sur le corpus
Méta donnéesMéta données
Séminaire TIC, ENS-Cachan, 13/06/201311
Plateforme Mulce
Chercheurauthentifié
Client
Outils d’aideà la
l’analyse
Serveur
Internaute
ComparerAnalyser
Consulter / Télécharger
Transcrire
Outils d’aideà la
transcription
Corpus
Scénario pédagogique
Protocole deRecherche
LicenceInstanciation
-Description-Index
Ressources
-Description-Index
-Description-Index
-Description-Index
ServeurOLAC**
ServeurOAI*
Metadata
* Open Archive Initiative** Open Language Archive Community
?
Séminaire TIC, ENS-Cachan, 13/06/201312
La plateforme Mulce actuelle…
Séminaire TIC, ENS-Cachan, 13/06/201313
Mulce… 3 ans après
• 45 corpus déposés (dont 4 globaux)
• Quelques réutilisations de corpus
• Toujours pas de dépôt « externe » malgré plusieurs intentions exprimées
• Quelques leçons :– Format sophistiqué => coût d’entrée– Métadonnées bien documentées => visibilité– Nécessité d’outiller : exploration et analyse
Séminaire TIC, ENS-Cachan, 13/06/201314
Difficultés surmontées pour la réutilisation :Bilan du projet Mulce
1. The author must be professionally motivated to publish the data
2. The effort and economic burden of publication must be acceptable
3. The data must become accessible to potential users
4. The data must remain accessible over time
5. The data must be discoverable by potential users
6. The user’s use of the data must be permitted
7. The user must be able to understand what was measured and how (materials and methods)
8. The user must be able to understand all computations that were applied and their inputs
9. The user must be able to apply standard tools to all file formats
10. The user must be able to understand the data in detail (units, symbols)
Surmontée Pas observé Non surmontée
CALICO (ERTÉ 2006-2010) Communautés d'apprentissage en ligne, instrumentation, collaboration
STEF, CREAD : Sciences de l’Éducation LIUM, LIFC - GREYC : Informatique - LinguistiqueCURAPP : Administration et PolitiqueCEDITEC : Communication
http://www.stef.ens-cachan.fr/calico/calico.htm
ERTÉ CALICO soutenue par
Séminaire TIC, ENS-Cachan, 13/06/201316
Plateforme CALICO : Principes
• Plateforme avec interface multilingue
• Dépôt & partage de données d’interactions en ligne (Forums, Blogs, mailing lists, etc.)
• Outils d’exploration et d’analyse– Indépendants de la langue– Visualisations variées (volumes, périodes…)– Extraction du lexique, marquage, repérage
Séminaire TIC, ENS-Cachan, 13/06/201317
CALICO : Les documents
Séminaire TIC, ENS-Cachan, 13/06/201318
CALICO : Les outils
Séminaire TIC, ENS-Cachan, 13/06/201319
CALICO : Les outils
Séminaire TIC, ENS-Cachan, 13/06/201320
CALICO : Les outils
Séminaire TIC, ENS-Cachan, 13/06/201321
CALICO : Les outils
Séminaire TIC, ENS-Cachan, 13/06/201322
CALICO : Bilan des usages
• Beaucoup d’intérêt
• Des essais assez nombreux
• Des dépôts « externes »
• Assez peu de partage de données
• Plutôt une réutilisation des outils
Séminaire TIC, ENS-Cachan, 13/06/201323
Difficultés surmontées pour la réutilisation :Bilan pour CALICO
1. The author must be professionally motivated to publish the data
2. The effort and economic burden of publication must be acceptable
3. The data must become accessible to potential users
4. The data must remain accessible over time
5. The data must be discoverable by potential users
6. The user’s use of the data must be permitted
7. The user must be able to understand what was measured and how (materials and methods)
8. The user must be able to understand all computations that were applied and their inputs
9. The user must be able to apply standard tools to all file formats
10. The user must be able to understand the data in detail (units, symbols)
Surmontée Pas observé Non surmontée
Data PublicationDirection du projet
Thierry Chanier, Professor, Director of LRL Eric Bruillard, Professor, Director of STEF Christophe Reffay, Ass. Professor, UMR STEF
Directeur de publicationJean-Luc Pinol, Professor, TGE-Adonis
Plateforme : conception et developpementGérald Foliot: IR CNRS, IT Manager of TGE-Adonis
http://datapublication.tge-adonis.fr/
Séminaire TIC, ENS-Cachan, 13/06/201325
Data publication : objectifs
• Pour les revues et conférences:– Relecture AVEC accès aux données
• Pour les lecteurs– Accès à la réplication des analyses
• Pour l’auteur : un double référencement– Article– Ensemble de données (permalien)
Séminaire TIC, ENS-Cachan, 13/06/201326
Data Publication…
• Plusieurs essais– Co-publication des données après article– Un essai « complet » : lors de la soumission
• Plateforme : prototype quasi opérationnel– Processus un peu rigide pour l’instant– Nécessite d’être documenté
• Affaire à suivre A voir selon TGIR Humanités numérique
Séminaire TIC, ENS-Cachan, 13/06/201327
Difficultés surmontées pour la réutilisation :Attendu pour Data Publication
1. The author must be professionally motivated to publish the data
2. The effort and economic burden of publication must be acceptable
3. The data must become accessible to potential users
4. The data must remain accessible over time
5. The data must be discoverable by potential users
6. The user’s use of the data must be permitted
7. The user must be able to understand what was measured and how (materials and methods)
8. The user must be able to understand all computations that were applied and their inputs
9. The user must be able to apply standard tools to all file formats
10. The user must be able to understand the data in detail (units, symbols)
Améliore Pas concerné Accentue le problème
Séminaire TIC, ENS-Cachan, 13/06/201328
2 initiatives exemplaires
• PSLC Datashop : Pittsburgh Science of Learning Center
– Un Modèle pour les ITS– Une plateforme de dépôt des traces– Un outil de représentation/évaluation
• IPOL : Image Processing On Line – Article + Code source + Demo en ligne– Article et code source sont évalués
“Open Science and Reproducible Research”
Séminaire TIC, ENS-Cachan, 13/06/201329
Quelques points clés retenus
• Dépôt/Publication = Antériorité
• Contribution : réputation, citation
• Valoriser le dépôt :– Définition du contexte– Organisation/Structuration des données
• Visibles (Repository, Metadata, OAI)
• Réutilisables : Accessibles, Inter opérables
• Réplicables : Outillées, documentées
Séminaire TIC, ENS-Cachan, 13/06/201330
Perspectives
• Le partage de données devient réalité
• Pour certaines communautés permet :– Maturation/Convergence/Comparaison des
méthodes – Réplication des analyses ou ré-analyse– Meilleure évaluation de la recherche
• Toute donnée n’est cependant pas partageable
Séminaire TIC, ENS-Cachan, 13/06/201331
Questions éthiques
Protection des participants en SHS(ex: situations d’apprentissage, entretiens):
• Droits à l’image
• Droits d’auteur
• Protection des données personnelles
• Protection des données sensibles
Séminaire TIC, ENS-Cachan, 13/06/201332
Anonymisation (données textuelles)
• Débat:– Données non anonymes => non partageables– Anonymisation trop coûteuse– Anonymisation automatisable ?– Limiter l’accès ?
• Propositions– Outiller le processus d’anonymisation ?– Maîtriser la diffusion ?
Séminaire TIC, ENS-Cachan, 13/06/201333
MERCI !
Questions ? Réactions ?
Témoignages ?
Séminaire TIC, ENS-Cachan, 13/06/201334
Déclaration Berlin (Open Access) 5° conférence (Padoue, 2007)
Workshop on policies and practices of research organisations on open access to research data.
Objectifs : 1. to get research organizations in Europe acquainted
with on-going and planned initiatives for open access to research data
2. to present and discuss policies and practices on open access to research data of organisations and
3. to identify areas in which research organisations could collaborate on this issue.
Les 19 premiers cosignataires du 22/10/2003
Berlin ProcessBerlin Process
Signataires récents
Séminaire TIC, ENS-Cachan, 13/06/201335
National Science Fondation (depuis janvier 2013)
Data Management Plan : Pour une bourse de la NFS, un document supplémentaire de 2 pages
intitulé « plan de gestion des données » doit indiquer :
• Le type de données (extraits, collections, logiciels, contenus, ou produits du projet)
• Les standards utilisés pour les données et les métadonnées;• Politique d’accès et de partage incluant les précautions pour le
respect de la vie privée, de la confidentialité, de la sécurité et des propriétés intellectuelles;
• Politique de réutilisation, redistribution, et produits dérivés• Plans pour l’archivage des données, extraits, et autre produits de
la recherche, et pour la préservation de leur accès.
Séminaire TIC, ENS-Cachan, 13/06/201336
CODATA : Créée à Paris en 1966 !
• Constantes physiques
• 23 Conf.• 30 Nations• 20 Sociétés
scientifiques• 57 Task
Groups
1970
1980
1990
2000
2010
1970
1980
1990
2000
2010
Codata@45 years(Lide & Wood, 2010)
Séminaire TIC, ENS-Cachan, 13/06/201337
Difficultées à surmonter pour la réutilisation (Jonathan Rees, Science Commons, white paper Creative Commons, March 2010)
1. The author must be professionally motivated to publish the data
2. The effort and economic burden of publication must be acceptable
3. The data must become accessible to potential users
4. The data must remain accessible over time
5. The data must be discoverable by potential users
6. The user’s use of the data must be permitted
7. The user must be able to understand what was measured and how (materials and methods)
8. The user must be able to understand all computations that were applied and their inputs
9. The user must be able to apply standard tools to all file formats
10. The user must be able to understand the data in detail (units, symbols)
=> Data paper genre
Séminaire TIC, ENS-Cachan, 13/06/201338
Autres Initiatives/Relais
• Open Notebook Science (J.-C Bradley)– Transparence complète (Drexel University)