Séminaire «!document numérique!», INTD-CNAM
23 novembre 2010 (Paris)
Julien VELCIN, laboratoire ERIC
Fouille de données :
quelques applications en SHS
Informatique et humanités numériques
!!Université Lumière Lyon 2 !!De nombreux corpus et bases de données à exploiter
!! BD historiques, interactions orales, discussions sur le Web, etc.
!! Laboratoire ERIC !!Axe ENA-DC
!!Axe FODA
!!Axe DECO
!! Fouille de données complexes !!Traiter de grands volumes de données
!!Aider les experts à trouver «!de la connaissance!»
!!Améliorer la réutilisabilité des corpus de données
Julien Velcin 2 INTD-CNAM - 23/11/2010 (Paris)
Corpus de données historiques
!! SyMoGIH !! Système Modulaire de Gestion de l’Information Historique
LARHRA, pôle méthode (F. Beretta, P. Vernus…)
!! SI développé en collaboration avec ERIC (J. Darmont, O. Boussaïd…)
!! Exemple : la base des «!photo-cartes postales!»
Julien Velcin 3 INTD-CNAM - 23/11/2010 (Paris)
ID: 22 Titre : Deux petites filles en pied l'une portant
un panier Support: Carton Fin
Taille: Photo-carte de Visite Nature: Noir et Blanc Legende Verso: Ethel and Grace
Photographe(s) : 1:Nom: WADE G
Thématique(s) : Cadrage --> En pied Genre et âges de la vie --> Enfants
Photographe ID: 10891 Nom: WADE Prénom: G
Sexe: Homme Pays: Angleterre Technique: Plaque Sèche
Activité Principale: Photographe de studio Stock: Oui
Date début activité: 1880
Corpus d’interactions orales
!!CLAPI !! Corpus de Langues Parlées en Interaction
Laboratoire ICAR (C. Etienne, C. Plantin, L. Mondada…)
!! SI développé en collaboration avec ERIC (F. Bentayeb, S. Loudcher…)
!! Exemple : réunion de publicitaires
Julien Velcin 4 INTD-CNAM - 23/11/2010 (Paris)
Discussions en ligne (forums, blogs…)
Julien Velcin 5 INTD-CNAM - 23/11/2010 (Paris)
(Stavrianou et al.,2009)
Julien Velcin INTD-CNAM - 23/11/2010 (Paris) 6
Cycle de l’ECD
6 Base / Entrepôt de données
Données cibles
Données
préparées
Informations
extraites
Connaissances
SELECTION
PREPARATION
FOUILLE
INTERPRETATION
VISUALISATION
!! Apprentissage automatique
!!apprentissage supervisé !!catégorisation/segmentation
!! Extraction de règles !! Analyses factorielles
(…)
Quelques challenges en Fouille de Données
!!Modélisation des données complexes !! Extraction des attributs pertinents
!! Indexation multi points de vue
!!Comparer des objets (malédiction de la dimension)
!! Fusion de données !! Plusieurs modalités : texte, image, index, annotations, etc.
!! Sources diverses et hétérogènes, confiance, traçabilité
!! Enrichissement sémantique
!! Intégrer la connaissance du domaine (ex. : ontologies)
!!Recherche d’information, analyse des données, apprentissage
!! Franchir le «!gap semantic!» : rôle de la validation
Julien Velcin 7 INTD-CNAM - 23/11/2010 (Paris)
Modélisation et analyse de
discussions en ligne (thèse d’A. Stavrianou)
!! Nouvelle représentation plus appropriée
!! Opinion échange !! Navigation efficace
!! Application de mesures / critères
!! Messages influentes !! Evolution de l’opinion !! Recommandation
Julien Velcin 8 INTD-CNAM - 23/11/2010 (Paris)
Construction de réseaux sociaux
à partir du Web (thèse de M. Forestier)
!! Objectif : synthétiser l’information contenue dans les discussions du point de vue des acteurs
!! Plus précisément, identifier des communautés et des rôles, analyser la dynamique des thèmes et des opinions, etc.
!! Une approche naturelle : les réseaux sociaux [Jing et al., 2007] [Culotta et al., 2005]
!! Deux types d’information : !! les acteurs
!! les relations
Julien Velcin 9 INTD-CNAM - 23/11/2010 (Paris)
!! Approche semi-supervisée, connaissances fournies par des experts (souvent sous forme de tags)
Julien Velcin INTD-CNAM - 23/11/2010 (Paris) 11
Enrichissement de documents historiques (thèse de M.A. Rizoiu)
!! Décrire les images dans un langage compatible avec les textes [Pham et al., 2009]
!! Parallèle entre les textes et les images
!! Trois étapes envisagées : 1) Extraction de points d'intérêt et leur description en SIFT
2) Création du «!vocabulaire visuel!»
3) Traduction des images dans ce nouveau langage visuel
Julien Velcin
INTD-CNAM - 23/11/2010 (Paris) 12
Notre approche
Julien Velcin INTD-CNAM - 23/11/2010 (Paris) 13
Chaîne de traitement visuel
Détection
points intérêt, description
SIFT
Collection photos Photos avec
point d'intérêt
t1 t2, t4 t1,
t3
Vocabulaire visuel
Génération des
mots visuels
Traduction
dans le nouveau
langage
Photos décrites par
un vocabulaire visuel
Connaissances
expertes
Autres travaux en cours à ERIC
!! Fouille de données dans les corpus d’interactions orales ERIC-ICAR
!! Nouveaux outils de fouille de données dans les grandes bases de données historiques ERIC-LARHRA
!! Construction et test d’outils semi-automatiques pour l’étude de la dynamique des discours ERIC-ELICO
Julien Velcin 14 INTD-CNAM - 23/11/2010 (Paris)
Références !! Blei, D. M., Ng, A. Y., Jordan, M. I., & Lafferty, J. (2003). Latent dirichlet allocation. In: Journal of
Machine Learning Research, 3, 2003.
!! Culotta, A., A. McCallum, and R. Bekkerman, Extracting Social Networks and Contact Information From Email and the Web, 2005.
!! Forestier, M., Velcin, J. and Ganascia, J.G., Un cadre formel pour la veille numérique sur la presse en ligne. In: Atelier Veille Numérique (EGC-VN 09), Strasbourg, Janvier 2009.
!! Jing, H., N. Kambhatla, and S. Roukos, Extracting social networks and biographical facts from conversational speech transcripts, 45th Annual Meeting of the Association of Computational Linguistics, vol. 45, 2007, pp. 1040-1047.
!! Pham N.K., Morin A., Gros P.. CAViz, exploration interactive des résultats de l'analyse factorielle des correspondances pour des images. RSTI série RIA, Série Visualisation et extraction des connaissances, Hermès Lavoisier, 22(3):473-488, 2008.
!! Rizoiu, M.A., Velcin, J. and Chauchat, J.H.. Regrouper les données textuelles et nommer les groupes à l'aide de classes recouvrantes, In: Actes des 10ème journées francophones en Extraction et Gestion des Connaissances (EGC 10), Hammamet, Tunisie 2010.
!! Stavrianou, A., Velcin, J. and Chauchat, J.H., A combination of opinion mining and social network techniques for discussion analysis. In: Revue des Nouvelles Technologies de l'Information, Cepadues 2009.
Julien Velcin Séminaire GAMA, 26 mars 2010 16
Top Related