Post on 29-Nov-2014
description
INHA - InVisuParis – mardi 29 mai 2012
http://culturevisuelle.org/dejavu
Images numériques et métadonnées
Patrick PeccatteChercheur associé au Laboratoire d'histoire visuelle contemporaine
(Lhivic/EHESS)
peccatte@softexperience.com
Twitter: @ppeccatte
Facebook: patrick.peccatte
Google+: Patrick PeccatteFlickr: patrickpeccatte et photosnormandie
Tumblr: dubruitausignal.tumblr.com
Deux parties
Métadonnéesun peu technique (mais pas trop...)
Indexation collaborative, redocumentarisation, crowdsourcingexemple sur une collection historique,applicabilité à l'image d'actualité
Images numériques et métadonnées
I. Métadonnées
wenzday01/FlickrCreative Commons
Il était une fois...L'album de photos
Une histoireancienneet bien connue
lizjones112/FlickrCreative Commons
on ajoutait des légendesaux photos...
Yume Photo/FlickrCreative Commons
mais attentionau déclassement...
Guanatos Gwyn/FlickrCreative Commons
la solution ?la légende au verso
Détail d'un tirage deSuzuki Shin.ichi II,années 1880.(c) collection Claude Estèbe
Le panneau titre inclusdans cette photographiea été posé par l'opérateur
lui-même pourla prise de vue
Documenter"au plus près"de la photo,une préoccupationconstante
Mario Groleau/FlickrCreative Commons
Le système Autographicpermettait au photographe
d’ajouter des informations écrites sur le film au moment
de l’exposition
Mario Groleau/FlickrCreative Commons
Photo légendée selon le procédéAutographic (Nico Redlich, 1931).
Trois-Rivières, Canada
Avec le numérique...
Une métadonnée est littéralement une donnée sur une donnée✔ Dans le domaine des métadonnées [metadata], on parle de
données sur une ressource✔ Mais une ressource n'est pas toujours sous forme numérique
Plus précisément, c'est un ensemble structuré de données décrivant une ressource quelconque
Une métadonnée peut être utilisée à des fins diverses…✔ la description et la recherche de ressources✔ la gestion de collections de ressources✔ la préservation des ressources
Légendes Métadonnées
Métadonnées "métiers" [1/2]
Les ressources décrites par des métadonnées ne sont pas nécessairement sous forme digitale✔ un catalogue de bibliothèque ou de musée contient
aussi des métadonnées qui référencent des objets physiques
De nombreuses communautés s'intéressent aux métadonnées✔ bibliothécaires, documentalistes, archivistes,
iconographes, conservateurs de musées, …✔ …gèrent de nombreux types de ressources
ressources: monographies, publications en série, articles, photos, archives, pièces de musée, séquences audio ou vidéo, etc.✔ on ne décrit pas toutes ces variétés de ressources de la même façon
apparition de standards de métadonnées "métiers"…
Métadonnées "métiers" [2/2]
IPTC/IIM (Information Interchange Model) Exif (Exchangeable Image File Format) MARC (Machine-readable cataloging) ISBD (International Standard Bibliographic Description) Dewey Decimal Classification system EAD (Encoded Archival Description) CIMI consortium (Computer Interchange of Museum Information) RKMS (Recordkeeping Metadata Schema) MPEG-7 (Multimedia Content Description Interface) LOM (IEEE - Learning Object Metadata) SCORM (Sharable Content Object Reference Model)
bibliothèques
archives
musées
audio
éducation
catalogage (Marc) indexation (ISBD) classification (Dewey)
images
Où sont les métadonnées ?
Considérons la ressource suivante :http://www.liberation.fr/medias,62
Cette ressource contient plusieurs métadonnées✔ site liberation.fr✔ page Web de la rubrique medias
Les noms informatiques sont des métadonnées✔ Plus généralement :
nom, chemin d'accès, extension, taille, attributs, date decréation, date de modification, propriétaire, droits d'accès, etc. sont des métadonnées
Mais cela ne suffit pas, d'autres informations sont nécessaires :description longue, mots-clés, copyright, etc.
nom ≈ descriptionchemin d'accès ≈ plan de classement
Où sont les métadonnées ?Dans une base de données ou un fichier indépendant
associé aux données (sidecar file).Les métadonnées sont externes aux ressources.
Titre principal: El Greco, Begräbnis des Conde de OrgazDescription: El Greco, Domenikos Theotokopoulos, dit ; 1541-1614. .- 'L'Enterrement du comte d'Orgaz', v. 1586. (Saint Augustin et saint Etienne enterrent Don Gonzalo Ruyz de Toledo, Conde de Orgáz, mort en 1327). Huile sur toile, H. 4,60 ; L. 3,60. Tolède, église Santo Tomé. Année de l'évènement: 1586. Année de l'oeuvre: 1586.Mots-clés: 16E SIECLE; AME; ANGE; ART; ART ESPAGNOL; CHRIST; ENTERREMENT; ESPAGNE; GRECO, LE; HUILE SUR TOILE; INHUMATION; MANIERISME; MORT; ORGAZ, DON GONZALO RUYZ; PEINTURE; PERSONNE; ROYAUME DES CIEUX; SAINT AUGUSTIN D'HIPPONE; SAINT ETIENNE; SAINT JEAN-BAPTISTE; TABLEAU; TOLEDE; VIERGE MARIE; DEESIS, vertical
Fichier El Greco.docFichier El Greco.jpg
Où sont les métadonnées ?
Dans les données elles-mêmes.Les métadonnées sont internes, "embarquées" dans les ressources numériques.
Les informations EXIF (et GPS) et IPTC/IIM des images numériques sont des métadonnéesinternes
Les métadonnées XMP peuvent êtresoit internes, soit externes
Fichier image numérique
Où sont les métadonnées ?
Exif IPTC/IIM
GPS
Autres informations...
XMP XMP
Vignetteintégrée
informationsexternesexplicites
exploitationcopie externe
contexte depublication
(sans métadonnées)
Contexte de publication ... pas besoin de métadonnées
Çà marche...
Contexte de publication ... pas besoin de métadonnées [really ?]
Les informations du contexte de publication ne suffisent pas
Contexte de publication ... pas besoin de métadonnées [really ?]
C'est mieux.Mais même avec le Sort by subject
les informations généréesà partir du contexte de publication
ne suffisent pas!
Contexte de publication ... pas besoin de métadonnées [really ?]
Catégories ignorées
Où sont les métadonnées ?
Avantage des métadonnées internes :l'échange est facilité; la ressource numérique transporte avec elle ses propres métadonnées lorsqu'elle est téléchargée, copiée, renommée, compactée, etc.
Inconvénient des métadonnées internes :il est nécessaire de copier les métadonnées dans une base de données pour exploiter une grande collection de ressources numériques.
Pour lire les métadonnées internes des images, pas besoin d'outils onéreux ou compliqués
● En local : il existe des outils gratuits, par exemple XnView
● Sur le Web, il n'est même pas nécessaire de télécharger l'image, utiliser Jeffrey's Exif Viewer http://regex.info/exif.cgi
Image de Wikimedia Commonshttp://commons.wikimedia.org/wiki/File:Statue_Berthold-Brecht-Platz_(Mitte)_Berthold_Brecht.jpg
Lire les métadonnées internes des images
http://upload.wikimedia.org/wikipedia/commons/f/f9/Statue_Berthold-Brecht-Platz_(Mitte)_Berthold_Brecht.jpg
http://regex.info/exif.cgi appliqué sur l'image
Métadonnées textuelles
Coordonnées GPS
Vignetteintégrée
Une métadonnée n'est pas obligatoirement textuelle
Une vignette intégrée peut (parfois)fournir beaucoup d'informations.
C'est une métadonnée...
Métadonnées textuellesVignetteintégrée
Ce que les métadonnéesne sont pas....
● Contrôle des usages et droits,DRM [Digital Rights Management]
● Tatouage invisible [watermarking]● Stéganographie: dissimuler un message dans un
autre message (en particulier une image numérique)
● Digital forensics: analyse technique des retouches, examen de l'authenticité ["diplomatique numérique"]
Métadonnées et images – EXIF EXIF est une abréviation de EXchangeable Image File. Ce format définit les
informations d'ordre technique contenues dans les fichiers des images.Ce sont donc des métadonnées de type interne.
Le format EXIF a été développé en octobre 1995 par le JEIDA(Japan Electronic Industry Development Association).La version 2.0 date de novembre 1997, la révision 2.1 de juin 1998 et la révision 2.2 d'avril 2002.
Ce n'est pas un standard, mais il est supporté par tous les fabricants d'APN (avec des variantes propriétaires)
Les informations EXIF concernent les paramètres de prise de vue et lesréglages de l'appareil au moment de la capture numérique :
✔ fabricant et modèle de l'appareil✔ hauteur et largeur de l'image✔ date et heure de la prise de vue✔ orientation✔ résolution, temps d'exposition, ouverture✔ présence d'un flash✔ coordonnées GPS sur certains appareils hauts de gamme récents✔ etc. [30 éléments environ]
Géolocalisation des images ? Très simple...
adresse postaleLe Mont-Saint-Michel, 50116, Manche, France
latitude / longitude48° 38' 10'' N, 1° 30' 41'' W
localisation
geotags
Opérationsdocumentaireséquivalentes ?
Pour exprimer en geotags cette localisation:✔ Distinguer entre localisation du sujet et localisation de la prise de vue✔ Utiliser d'autres geotags également indispensables: altitude et direction
Crédit El Guanche sur FlickrLicence Creative Commons
Le Mont-Saint-Michel et le rocher de Tombelaine vus d'avion
Géolocalisation des images ? Pas si simple...
Sujet : descriptions multiples(ici avant-plan et arrière-plan distants de 100 km environ)
La tour de Tokyo (35° 41' N, 139° 46' E)et le mont Fuji (35° 21' 29" N, 138° 43' 52" E)
Crédit mafleen sur FlickrLicence Creative Commons
Géolocalisation des images ? Pas si simple...
Sujet / localisation:Detroit, Michigan, USA
Prise de vue / localisation:Riverside Park, Windsor, Ontario, Canada
localisationstrès différentes
(Géo)localisation des images ? Pas si simple...
Relations "floues"(non biunivoques)
Prise de vue / localisation ≈ adresse: voie, ville, pays
précisions sur la localisation du photographe
Prise de vue / geotagslatitude, longitude, altitude, direction
Sujet / localisation≈ adresse: voie, ville, pays
précisions sur la localisation du sujet
Sujet / geotagslatitude, longitude, altitude, direction
les sujets peuventêtre multiples
Géolocalisation des images ? Pas si simple...
Geotags Exif
Source: ExifTool by Phil Harvey
Plus de 30 champsseuls 5 ou 6 sont couramment utilisés
Géocodage des imagesMéthodes les plus répandues
APN pourvu d'un GPS intégré Saisir les coordonnées GPS à la main
✔ voir les sites www.geonames.org et www.tageo.com
Associer une image à une localisation sur une carte telle que Google Earth
✔ programmes: Geotag, RoboGeo, Picasa, Panorado Flyer (extension de l'explorateur Windows), etc.
Exploiter par interpolation les tracks d'un GPS actif lors des prise de vues en fonction des timestamps des images fournis par l'APN; les horloges de l'APN et du GPS doivent être aussi synchrones que possible.
✔ programmes: Geotag (GPL), RoboGeo, etc.
● Sur le dossier Exemples IPTC XMP Exif● Afficher les métadonnées de la photo
ColloqueVisualStudies.jpg● Modifier
Démonstration : "hacker" les métadonnées Exif
Non recommandé.... sauf parfois pour corriger:date/heure de prise de vueet/oucoordonnées GPS
Exif – autre exemple d'application
Recherche de photos selon le numéro de caméra Exif
www.stolencamerafinder.com Exemples de photos sur le groupe Flickrwww.flickr.com/groups/stolencamerafinder/Numéros: 2131301027, 2321301928
Indexation des photos
Deux grandes catégories Photos d'actualités
Editorial, News✔ titre, description/légende, (parfois mots-clés)
Photos d'illustrationCreative, Illustration, Documentaire, Stocken général atemporelles✔ Mots-clés, (parfois légendes)
Les historiques sont traitées comme l'éditorial
Photo d'actualité ou photo historique
Champs IPTClégende (n° 120)mots-clés (n° 25)
Photo d'illustration
Attention à l'indexation!
Attention à l'indexation!
surindexation
Attention à l'indexation!
Métadonnées et images – IPTC/IIM
L'IPTC (International Press and Telecommunications Council) est une organisation internationale qui développe des standards d'échange de données pour la presse
L'IPTC et la NAA (Newspaper Association of America) ont créé en 1991 le modèle global de données appelé Information Interchange Model [IIM]
Sous-ensemble de l'IIM utilisé par Adobe dès 1994 pour définir dans Photoshop les informations associées à une image
C'est ce sous-ensemble composé de 33 champs qui est communément appelé métadonnées IPTC
Métadonnées IPTC = ensemble de champs textuels (Titre, Légende, Mots-clés, Copyright, etc.) stockés dans le fichier image
Très utilisé dans la presse et l'édition
Métadonnées et images – IPTC/IIM
Métadonnées et images – IPTC/IIM Privilégier un ensemble restreint de champs gérés par la
plupart des programmes d'édition IPTC. Par exemple:✔ n° 25, Keywords (Mots-clés) champ répétable
✔ 55, Date Created (Date de création)
✔ 80, By-line (Auteur)
✔ 90, City (Ville)
✔ 101, Country/Primary Location Name (Pays)
✔ 105, Headline (Titre)
✔ 120, Caption/Abstract (Description/Légende)le plus long champ du standard (2000 caractères maximum)
Respecter le standard en ce qui concerne la répétabilité et la longueur maximale des champs
Afficher le documentChamps IPTC - préconisations et correspondances.pdf
Métadonnées et images – IPTC/IIM
Inconvénients majeurs La structure IPTC/IIM est figée Longueurs limitées des champs Problèmes de caractères accentués
(Windows / Macintosh) Inadaptée à la rédaction des descriptions
multilingues
Métadonnées et images – IPTC/IIM et Exif
IPTC/IIM : métadonnées ayant trait à la sémantique ou au droit de l'image et nécessitant l'intervention d'un opérateur humain pour être renseignées :By-line, Headline, Caption/Abstract, Copyright, etc.
EXIF : métadonnées techniques relatives à la prise de vue et fournies automatiquement par un appareil numérique.
Conséquences :
Prohiber l'usage des champs EXIF ImageDescription, Artist et Copyright.
Privilégier la date EXIF par rapport à la date IPTC/IIM(puisque la date de prise de vue est fournie automatiquement par l'appareil numérique)
Démonstration du portail d'agences PixPalace
Démonstration
Systèmes de vocabulaires contrôlés
Les DAM (Digital Asset Management)
● Algoba Orphea Studio
● Armadillo
● Orkis Ajaris
● ConfessMedia
● Profium Metadata Server & News Solution
● Xinet
The Controlled Vocabulary Keyword Cataloghttp://www.controlledvocabulary.com/products/index.html
Pour: Apple Aperture 1.5 or later, AntZero AtomicView 1.2 or later, Breeze Systems Breezebrowser 1.5 or later, Adobe Bridge 2.1 or later, FotoWare FotoStation, IDimager Systems, Inc. IDimager 4.0 or later, BlueBox Image Info Toolkit, iView Media Pro 3/Expression Media 1.0 or later, Adobe Lightroom 1.1 or later, Camera Bits Photo Mechanic 4.5 or later, HindSight Ltd. StockView 5 & METAMachine 1.0 or later
Liste indicative, non exhaustive et non prescriptive
Dublin Core Metadata Initiative [1/3] Prolifération de besoins "métiers" variés (musées, bibliothèques, archives, etc.)
Diversité et non-interopérabilité des nomenclatures, des structures, des techniques de stockage
Recherche d'un standard
NCSA (National Center for Supercomputing Applications) OCLC (Online Computer Library Center) réunis en 1995 au siège de l'OCLC à Dublin, Ohio
Définition d'un ensemble de métadonnées communes à diverses communautés : le Dublin Core Metadata Initiative (DCMI).
Dublin Core Metadata Initiative [2/3]
Le Dublin Core est un ensemble de 15 éléments de métadonnées ayant trait :✔ au Contenu
Title, Description, Subject, Source,Coverage, Type, Relation
✔ à la Propriété intellectuelleCreator, Contributor, Publisher, Rights
✔ à la VersionDate, Format, Identifier, Language
DC définit un vocabulaire de métadonnées commun à plusieurs communautés
Creator et non pas Author
Le Dublin Core ne prétend pas répondre aux besoins et à la complexité de tous les métiers
Le Dublin Core est un ensemble simple et très utilisé de métadonnées, mais il n'est passuffisant
Dans la plupart des besoins professionnels, il doit être complété par d'autres schémas demétadonnées
Le Dublin Core est une norme ISO (n° 15836) Pour en savoir plus: www.dublincore.org
Dublin Core Metadata Initiative [3/3]
XMP – Extensible Metadata Platform
Créé par Adobe (septembre 2001) Utilise une version simplifiée de RDF
(Resource Description Framework)● Développé par le W3C, base du Web sémantique
● Permet d'encoder, échanger et réutiliser des métadonnées structurées
● Peut s'exprimer en XML
Utilise le schéma Dublin Core comme fondation(préfixe de l'espace de noms XML: dc:)
Standardisation ISO (DIS 16684-1) en cours de finalisation
XMP – Extensible Metadata Platform
Les espaces de noms XMP sont des conteneurs
Source: Fotoware
XMP – Extensible Metadata Platform
Les champs appartiennent à un espace de noms
Source: Fotoware
XMP – Extensible Metadata Platform
Les espaces de noms permettent d'éviter les collisions
Source: Fotoware
Utilisation de XnView (logiciel gratuit) pour afficher les données XMPhttp://www.xnview.com/
Démonstration
Ne pas utiliser des outils non XMPaprès avoir travaillé avec des outils XMP
Bien connaître vos outils dans les workflows complexes
IPTC n°120: ChatonsXMP dc:description: Chatons
Indexation avec un outil XMP
IPTC n°120: Deux chatonsXMP dc:description: Chatons
Modification à l'aide d'un outil uniquement IPTC/IIM (non XMP)
IPTC n°120: Deux chatonsXMP dc:description: Chatons
Retour à un outil XMP
Perspectives ouvertes par XMPEn quoi XMP est-il plus performant que l'IIM ?
Adapté aux légendesmultilingues
Inadapté aux légendesmultilingues
XMPIPTC/IIM
Extensible et évolutifStatique
Extensibilité documentée (Namespaces)
Extensibilité non documentée (champs non standards)
Types de données et types structurés
Pas de types de données
Pas de problèmes d'accents (codage Unicode)
Problèmes d'accents
Lisible (XML)Binaire (non facilement lisible)
Extensibilité (démonstration sur Photoshop)
Observer le panneau Avancé
Ajouter les Custom panels contenus dans le dossierCustom panels XMP\AVM (Astronomy Visualization Metadata Standard)
Démonstration
Panneaux standards sur Photoshop [version CS ; semblable sur les versions plus récentes]
Le panneau Avancé
Le panneau Avancé. Détail des informations dans l'espace de nom avm
Extensibilité. Ajout de panneaux personnalisés [Custom panels]. Liste des panneaux.
Extensibilité. Ajout panneaux personnalisés [Custom panels]. Le panneau Astro Creator.
Extensibilité. Ajout panneaux personnalisés [Custom panels]. Le panneau Astro Content.
Avec XnView...
Démonstration
Flickr et les métadonnées
Flickr et les métadonnées
Métadonnées de la haute définition (taille: originale)Renseignement automatique de champs Flickr à partir des champs IPTC lors du téléchargement d'une photo
Flickr et les métadonnées
Afficher les métadonnées des photos à l'aide du suffixe meta
Avantages de la méthode de codage desmétadonnées dans les photos
La description textuelle de l'image esttoujours disponible avec l'image etfacilement réutilisable
L'utilisateur reste libre de la technologie de base de données utilisée pour l'exploitation de son corpus d'images
Les données vous appartiennent,elles n'appartiennent pas à votre prestataire de service
Analyser la circulation des images sur Internet
Distinguer les images d'actualité ... et les autres
Pour les "autres" images
✔ TinEye et Google Search By Images✔ Banques d'images générales: Getty, Corbis, Flickr,
etc.✔ Et/ou banques d'images spécialisées
Analyser la circulation des images sur Internet
Pour les images d'actualité, recherche avec Google News
Puis rechercher le nom du photographe ou la légende de l'agence (très souvent reproduite par les médias)avec Google Images et Google News
Dans tous les cas (actualités ou non), cela demande:
✔ Un peu de méthode✔ Un peu de chance✔ Du temps (et parfois beaucoup de temps)
Images d'actualité, un exemple: article d'Olivier Beuvelet sur CV
Images d'actualité: retrouver l'article d'origine sur lemonde.fr
Images d'actualité: Analyser l'image avec Jeffrey's Exif Viewerpas de chance, il n'y a pas de métadonnées embarquées dans l'image
Images d'actualité: Retour sur le site lemonde.fr.Le curseur sur l'image fait apparaître un crédit: AP/Marius Roeer
Images d'actualité: recherche "Marius Roeer" sur Google Images
Images d'actualité: recherche "Marius Roeer" sur Google News, affichage uniquement des sites avec des images
Images d'actualité: Analyse de l'image publiée sur cfnews13.comavec Jeffrey's Exif Viewer
Images d'actualité: Recherche de "In this picture taken May 26, 2011 cucumbers from Spain, tomatoes and other vegetables are on display on a market in Hamburg northern Germany"
Pour en savoir plus
Métadonnées: une initiationpeccatte.karefil.com/software/Metadata.htmLe site de l'IPTCwww.iptc.orgAdobe Extensible Metadata Platform (XMP)www.adobe.com/products/xmp/main.htmlControlled Vocabularywww.controlledvocabulary.com