Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour...
Transcript of Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour...
![Page 1: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/1.jpg)
Traitement et analyse des corpus hétérogènes pour les SHS
Carmen BrandoPhD en informatique
Géomatique & Traitement automatique des languesCentre de recherches historiques (CRH UMR 8558), EHESS
Plateforme Géomatique de l’Ehess : https://psigehess.hypotheses.org/
Matinée ADBS « Tu fais quoi de tes données ? »Campus Condorcet, 23 mars 2018
1
![Page 2: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/2.jpg)
Une plateforme en géomatique et humanités numériques : formations
❖ Séminaires hebdomadaires Master TES et Master PSL Humanités Numériques : Traitement et analyse de l’information spatialisée, séminaire méthodologique hebdomadaire au 1e semestre
❖ Ateliers mensuels en SIG (sur QGIS : https://www.qgis.org) : formation initiale en SIG et espace participatif et collaboratif ouvert permettant à chacun d’avancer sur des problématiques spatiales propres à chacun
❖ Atelier cartes sensibles (2e semestre) : Besoins d’une approche sensible pour la cartographie de données en sciences sociales
❖ Atelier réguliers en traitement automatique des langues (TAL) et aussi dans le contexte du master PSL Humanités numériques
2
![Page 3: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/3.jpg)
Motivation & contexte● Les données en SHS sont fortement hétérogènes : textes, documents web,
XML/TEI, données tabulaires, images
● Besoin grandissant des chaînes de traitements adaptés et réutilisables pour permettre l'analyse de ces données à partir des outils informatiques
● Il faut s’appuyer sur :
○ des outils open source et les meilleures pratiques d’interopérabilité du Web de Données (FAIR : Findable, Accessible, Interoperable, Re-usable)
○ les infrastructures européennes de recherche en SHS : CLARIN, DARIAH, PARTHENOS
● Quelques expériences de projets et outils issus des humanités numériques à l’EHESS
3
![Page 4: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/4.jpg)
HN: Humanités numériquesTAL: Traitement automatique des languesSIG : Sciences de l’information géographique
TAL SIG
HN
![Page 5: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/5.jpg)
5
corpus hétérogènes numérisation
corpus numérisés
corpus annotées + métadonnées
données liées
Un chaîne de traitement pour l’analyse des données dans un projet en HN
liage
description et annotation
Données cartographiées pour l’analyse
visualisationDonnées accessibles
dépôt / diffusion
![Page 6: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/6.jpg)
Dépôt de corpus textuels (sur Ortolang/VLO de Clarin)
6
![Page 7: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/7.jpg)
Numérisation de documents textuels
7
![Page 8: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/8.jpg)
http://transkribus.eu/Transkribus/
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
![Page 9: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/9.jpg)
Permettre à la machine de transcrire et rechercher dans des documents historiques – de n’importe quelle date, dans n’importe quelle langue et quelle que soit la mise en page !
Pourquoi utiliser Transkribus ?
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
![Page 10: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/10.jpg)
Transkribus à l’Ehess
❖ Expériences en cours sur deux projets :
➢ édition numérique du journal intime d'Eugène Wilhelm (1885-1951) coordonné par Régis Schlagdenhauffen
➢ projet PSL Les Réveillées : édition en ligne d'enquêtes en ethnomusicologie coordonné par François Gasnault, Marie-Barbara Le Gonidec, Florence Neveux
10
![Page 11: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/11.jpg)
HTR : transcrire des textes manuscrits
• Apprentissage automatique grâce aux réseaux neuronaux
• Algorithmes développés par l’Université polytechnique de Valencia et l’Université de Rostock
• l’analyse du document est faite ligne par ligne et non par caractère
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
![Page 12: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/12.jpg)
Fonctionnement des réseaux neuronaux :
> Première étape : Reconnaissance
• L’algorithme n’essaie pas de reconnaître les caractères dans les images, comme l’OCR
• Il traite les images à plusieurs reprises et lit dans tous les sens afin de collecter toute information de contexte contenue dans l’image
• Il est influencé par la mise en page, le style d’écriture et la langue du document
• Les données extraites sont intégrées dans une séquence mathématique
HTR : transcrire des textes manuscrits
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
![Page 13: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/13.jpg)
> Deuxième étape : Décodage
• Décoder les séquences mathématiques en texte
• Mesurer la probabilité d’apparition de chaque caractère
• Les dictionnaires spécifiques à une langue peuvent aider
HTR : transcrire des textes manuscrits
D’après la présentation de Louise Seaward, le 19/01/2018 à l’EHESS
![Page 14: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/14.jpg)
Numérisation de corpus oraux
14
![Page 15: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/15.jpg)
Transcription à partir des enregistrements audio
15
Ch_MB1 : [euh] de parents comment s'appelaient vos parents ?
JE09 : [lg=espagnol-]JE09PER y JE09MER[-lg=espagnol] [trad-]JE09PER et JE09MER[-trad]
Ch_MB1 : Et que faisaient-ils en Espagne ?
JE09 : Mon père il était responsable [lg=espagnol-][repetition-]de[-repetition] de fabricación[-lg=espagnol] [trad-]de fabrication[-trad] [euh] à l'usine des ciments [pron=pi] [euh] [repetition-]une[-repetition] une société Anglaise. Et il était chef de [lg=espagnol-]fabricación[-lg=espagnol] [trad-]fabrication[-trad].
(selon la qualité de l’enregistrement, automatisable avec le logiciel Transcriber) Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
![Page 16: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/16.jpg)
16
Signal et texte alignés
Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
![Page 17: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/17.jpg)
Interopérabilité : XML/TEI CORPO
17Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
![Page 18: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/18.jpg)
Numérisation et géoréférencement de cartes anciennes
18
![Page 19: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/19.jpg)
19Projet PSL BERTIN (EHESS)
Fond numérisé d’environ 200 cartes sur l’Afrique mis en ligne sur Omeka-S
![Page 20: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/20.jpg)
20Projet PSL BERTIN (EHESS)
Géoréférencement des fonds - Difficulté : diversité de systèmes de projections à prendre en compte
![Page 21: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/21.jpg)
21
corpus hétérogènes numérisation
corpus numérisés
corpus annotées + métadonnées
données liées
Un chaîne de traitement pour l’analyse des données dans un projet en HN
liage
description et annotation
Données cartographiées pour l’analyse
visualisationDonnées accessibles
dépôt / diffusion
![Page 22: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/22.jpg)
22Projet PSL BERTIN (EHESS)
Fond numérisé d’environ 200 cartes sur l’Afrique mis en ligne sur Omeka-S
Vocabulaires pour la description des métadonnées : Dublin Core et INSPIRE
![Page 23: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/23.jpg)
Annotation du contenu des textes
23
![Page 24: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/24.jpg)
Entité nommée (EN): une expression linguistique, typiquement un nom propre, se réfèrent à un objet ou existant dans le monde.
● une personne ou groupe de personnes, ● un lieu, ● une institution, ...
Mention: une instance d’entité nommée dans le texte
Base de connaissance (BdC): une ressource informatique qui contient information structurée sur une ou plusieurs types d’ENs. Pour les lieux, cette ressource peut être appelée gazetier sémantisé
Lien : un identifiant unique, ajouté à une mention pour identifier l’EN référée dans une BdC
24
![Page 26: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/26.jpg)
26https://named-entity.data.istex.fr/
![Page 27: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/27.jpg)
27
![Page 28: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/28.jpg)
28
![Page 29: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/29.jpg)
Entité nommée (EN): une expression linguistique, typiquement un nom propre, se réfèrent à un objet ou existant dans le monde.
● une personne ou groupe de personnes, ● un lieu, ● une institution, ...
Mention: une instance d’entité nommée dans le texte
Base de connaissance (BdC): une ressource informatique qui contient information structurée sur une ou plusieurs types d’ENs. Pour les lieux, cette ressource peut être appelée gazetier sémantisé
Lien : un identifiant unique, ajouté à une mention pour identifier l’EN référée dans une BdC
29
![Page 30: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/30.jpg)
Entités spatiales nommées ● Lieux ayant changé d’utilisation, localisation, ... dans le temps
○ Notre Dame des Tables, Montpellier
○ Gare d’Orsay > Musée d’Orsay
○ Empire Romain
● Distinction entre
○ Concept de “lieu”, construction culturelle
○ et sa localisation(s), usages(s)extension(s), qui peuvent changerdans le temps
30
![Page 31: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/31.jpg)
Comment le TAL traite les noms de lieux dans les textes ?
“Elle partit, le 28, de Ruffec”
● Reconnaissance
○ Elle partit, le 28, de <placeName>Ruffec</placeName>
31
![Page 32: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/32.jpg)
Reconnaissance d’entités nommées
LATTICE ENS - http://apps.lattice.cnrs.fr/sem/
![Page 33: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/33.jpg)
LATTICE ENS - http://apps.lattice.cnrs.fr/sem/
![Page 34: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/34.jpg)
LATTICE ENS - http://apps.lattice.cnrs.fr/sem/
![Page 35: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/35.jpg)
Le ventre de Paris d’Emile Zola
Annotation manuelle de textes pour créer des corpus d’apprentissage(domaine : roman du XIX où les actions se passent à Paris)
Brat : http://brat.nlplab.org/
Collaboration avec le Laboratoire LATTICE
![Page 36: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/36.jpg)
36
corpus hétérogènes numérisation
corpus numérisés
corpus annotées + métadonnées
données liées
Un chaîne de traitement pour l’analyse des données dans un projet en HN
liage
description et annotation
Données cartographiées pour l’analyse
visualisationDonnées accessibles
dépôt / diffusion
![Page 37: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/37.jpg)
37
Liage (linking) d’entités nommées grâce au Web de données (Linked Data)
![Page 38: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/38.jpg)
38State of the LOD cloud (excerpt, 2014): http://lod-cloud.net/
TEI document
Header
Body<placeName ref= “http://fr.dbpedia.org/resource/Gare_du_Musée_d’Orsay”...>
![Page 39: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/39.jpg)
Comment le TAL traite les noms de lieux dans les textes ?
“Elle partit, le 28, de Ruffec”
● Recognition
○ Elle partit, le 28, de <placeName>Ruffec</placeName>
● Disambiguation
○ Elle partit, le 28, de <placeName ref=”#RuffecCharente”>Ruffec</placeName>
● Linking
○ Elle partit, le 28, de <placeName ref=”http://www.geonames.org/2982217”> Ruffec</placeName>
39
(and not Ruffec in Indre)
![Page 40: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/40.jpg)
![Page 41: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/41.jpg)
Noms alternatifsNoms dans autres langues
Hierarchie administrative
Population
Typologie de lieu
Identifiant unique
Geo-localisation
41Internationalized Resource Identifier (IRI) : http://sws.geonames.org/2982217/
![Page 42: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/42.jpg)
42
Données échangeable en RDF entre les machines sur le Web
![Page 43: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/43.jpg)
43fr.dbpedia.org - IRI : http://fr.dbpedia.org/page/Ruffec_(Charente)
![Page 44: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/44.jpg)
44
Wikidata.org - IRI https://www.wikidata.org/wiki/Q730659
Liage à d’autres sources de données sur le Web
![Page 45: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/45.jpg)
<placeName ref=“https://www.wikidata.org/wiki/Q730659”>Ruffec</placeName> est une ville en ...
Liage de noms de lieux
45
WIKIDATA
GEONAMES...
![Page 46: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/46.jpg)
REDEN
http://obvil-dev.paris-sorbonne.fr/reden/RedenOnline/site/input-tei.html
Résolution et désambiguïsation d'entités nommées.
Un outil capable de reconnaître automatiquement le référent d’une mention ambiguë à partir du contexte textuel et de le lier à une base de connaissance :
● entrée en TEI● adaptable à plusieurs domaines
46Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)
![Page 47: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/47.jpg)
47
Désambiguïsation du candidat grâce à l'utilisation de la centralité de graphes à partir des prédicats en commun
dbpedia-fr: 8e_ arrondissement_ de_Paris
dbpedia:Boulevard_Malesherbes dbpedia:Rue_des_Mathurinsfoaf:SpatialThing
prop-fr:arrondissement
dbpedia:Place_Saint-Augustin
prop-fr:arrondissement
rdf:type
rdf:type
rdf:type
prop-fr:quartier
dbpedia-fr: Quartier_de_la_Madeleineprop-fr:quartier
REDEN : résolution d’entités nommées
“ Voilà ! J’avais eu affaire, rue de la Pépinière, près de la place Saint-Augustin, et je revenais par le boulevard Malesherbes en l’intention de prendre l’omnibus à la Madeleine. Tout à coup, au coin de la rue des Mathurins, un homme se dressa devant moi en criant : “Madame ou mademoiselle, [...]. ” (Le passant de Prague, Guillaume Apollinaire)
Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)
![Page 48: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/48.jpg)
Extension de REDENPrise en compte des relations spatiales
48Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)
![Page 49: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/49.jpg)
49
Relations spatiales explicites
Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)
![Page 50: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/50.jpg)
50
Deux extraits concernent la Champagne et le Sud Ouest :
“Sa puissance émotive, qui fut grande, demeura intacte jusqu'à la fin. Elle partit, le 28, de Ruffec, dans les circonstances qu'on connaît. Vers l'Ouest, elle gagna les forêts de Chizé et d'Aulnay, semble-t-il, à moins que celles-ci n'aient constitué un centre d'émotion locale. ”
« La grande peur de 1789 » de Georges Lefebvre
Collaboration avec le LaSTIG de l’IGN, le CNAM, et le LADEHIS (EHESS)
![Page 51: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/51.jpg)
Mais dans la plupart des cas, le nom, le localisation et la fonction des lieux changent
dans le temps..Il est donc nécessaire d'établir un lien vers la
“bonne” ressource dans le Web décrivant le lieu
![Page 52: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/52.jpg)
Des bases qui non seulement décrivent la géographie ancienne, mais qui tracent l’évolution dans le temps
52
![Page 53: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/53.jpg)
53
Unités administratives qui varient dans le temps
TGN Getty - www.getty.edu
![Page 54: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/54.jpg)
54
Atelier Campus Condorcet : gazetiers historiques sémantisés pour les humanités
Collaboration avec l’Ecole Nationale des chartes, l’ENSG et l’IGN - https://github.com/geoTirroirs/geoSnippets/
![Page 55: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/55.jpg)
Mesurer la perception des lieux dans les textes
![Page 56: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/56.jpg)
Identification automatique
● lieux noms propres (gazetiers)● lieux noms communs (apprentissage automatique –
Stanford NER)● sentiments (lexiques)
56Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
![Page 57: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/57.jpg)
57Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
![Page 58: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/58.jpg)
58
corpus hétérogènes numérisation
corpus numérisés
corpus annotées + métadonnées
données liées
Un chaîne de traitement pour l’analyse des données dans un projet en HN
liage
description et annotation
Données cartographiées pour l’analyse
visualisationDonnées accessibles
dépôt / diffusion
![Page 59: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/59.jpg)
REDEN ONLINE
Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)
![Page 60: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/60.jpg)
REDEN ONLINE
Collaboration avec Francesca Frontini (Univ. Paul Valéry Montpellier 3)
![Page 61: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/61.jpg)
61Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
avec le SIG QGIS
![Page 62: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/62.jpg)
62
Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
avec le SIG QGIS
![Page 63: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/63.jpg)
63
Projet PEPS UPE-CNRS MATRICIEL (IGN, EHESS)
avec le SIG QGIS
![Page 64: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/64.jpg)
Outils prêts à l'emploi (ou presque)SEM (LATTICE CNRS/ENS/Paris 3) : http://apps.lattice.cnrs.fr/sem/
REDEN ONLINE (Obvil, Ehess, Univ Paul Valéry Montpellier) :
http://obvil-dev.paris-sorbonne.fr/reden/RedenOnline/site/input-tei.html
BRAT (University of Tokyo) : http://brat.nlplab.org
Transkribus (READ project) : http://transkribus.eu/Transkribus/
Gate (University of Sheffield) : https://gate.ac.uk/
CLAN (TalkBank) : http://alpha.talkbank.org/clan/
![Page 65: Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des](https://reader034.fdocument.pub/reader034/viewer/2022042921/5f6932cfbf743a489a0f150f/html5/thumbnails/65.jpg)
MerciFrancesca Frontini, Nathalie Abadie, Catherine Dominguès, Thierry Poibeau,
Jean-Gabriel Ganascia, Pierre-Henri Paris, Marion Cargill, Vincent Jolivet, Stéphane Baciocchi, Eric Mermet, Benoit Pandolfi, Marion Brunet, Guillaume
Guebin ...
65