Post on 21-May-2015
Archivage du Web :Quelle mise en œuvre ?
Mercredi 25 septembre 2012 ADBS, Paris
Chloé Martin chloe@internetmemory.netLeïla Medjkoune leila.medjkoune@internetmemory.net
1
vendredi 19 octobre 2012
Internet Memory
Leïla MedjkouneResponsable des services d’archivage
Depuis 2007
Chloé MartinResponsable des partenariats et du développement
Depuis 2010
2
Deux entités pour une même cause, l’archivage du Web :
✓ Internet Memory Foundation, 2005 (anciennement European Archive)
✓ Internet Memory Research, spin-off d’IMF, 2011➡ 150 To de données, une douzaine d’institutions partenaires,
plusieurs projets de recherche, 20+ ETP motivés !
vendredi 19 octobre 2012
Archivage du Web :Quelle mise en œuvre ?
• Etat des lieux
• Vous avez dit Archivage du Web ?
• Cas Pratiques
• Pour aller plus loin...
3
vendredi 19 octobre 2012
Etat des lieux
• Omniprésence du Web et de ses contenus
• Pourquoi archiver le Web ?
• Qui archive le Web ?
• Enquête
4
vendredi 19 octobre 2012
Le Web ? Ici, là et ailleurs...
OmniprésentDynamique
Contenu Webdiversité des formats
Ephémèreprécieux
5
vendredi 19 octobre 2012
Omniprésence du Web• De 50 millions de sites actifs (déc.06) à 190
millions (sept.11) • 2,3 milliards d’utilisateurs Internet en déc.11
pour une population mondiale de 6,9 milliards• Boom des Média sociaux
• Facebook (n°1): 250 millions de photos par jour• YouTube (n°2): 830 millions de vidéos par jour • Twitter (n°15): 175 millions de Tweets par jour• LinkedIn (n°29):135 millions de profils
• E-gouvernement : 44% des procédures administratives des entreprises eur. sont traitées par voie électronique
!"#!"$!"%!"&!"'!"(!")!"*!"+!"
,-./0"
1232456.74"
189-:0"
;-<38=0"6.7"
>??0=3@.0"
A93.B0"
C3:-."
!"#$%&'%()*)+,"-.*%/%
6
vendredi 19 octobre 2012
Etat des lieux
• Omniprésence du Web et de ses contenus
• Pourquoi archiver le Web ?
• Qui archive le Web ?
• Enquête
7
vendredi 19 octobre 2012
• Patrimoine: le Web, un nouveau media• Contraintes légales
• dépôt légal, • e-gouvernement, • publications en ligne, • corporate
• Recherche• Knowledge Management, Data mining
Pourquoi archiver le Web ?8
vendredi 19 octobre 2012
Etat des lieux
• Omniprésence du Web et de ses contenus
• Pourquoi archiver le Web ?
• Qui archive le Web ?
• Enquête
9
vendredi 19 octobre 2012
Qui archive le Web?• Institutions privées
(Fondations) • Institutions publiques à
vocation patrimoniale• Archives nationales et régionales• Bibliothèques nationales, régionales
et universitaires• Musées• Organisations internationales
➡ IIPC
• Sociétés commerciales
10
vendredi 19 octobre 2012
Quelques initiatives...
๏ Internet Archive Foundation
๏ Bibliothèque du Congrès
๏ Archives Nationales UK
๏ ...
๏ International Internet Preservation Consortium
๏ International Web Archiving Workshop
๏ En France
‣ Bibliothèque nationale de France (BnF)
‣ Institut national de l’Audiovisuel (InA)
‣ Quelques initiatives universitaires : IEP, université de Lorraine,...
11
vendredi 19 octobre 2012
Etat des lieux
• Omniprésence du Web et de ses contenus
• Pourquoi archiver le Web ?
• Qui archive le Web ?
• Enquête
12
vendredi 19 octobre 2012
Enquête 2010 (Europe)74 réponses sur 365 institutions
8%7%1%7%
23%
5%19%
30%
Yes, fully operationalYes, operational but still experimentingYes, just starting a Web Archiving projectNo, but we plan to do itNo, no fundingNo, not in our mandateNo, an other institution is already in chargeanswered question
Legal Aspects % NbYes, law is enacted or passed 50% 34Yes, law is expected 16,2% 11Lobbying are in progress 7,4% 5No, we do not applicable law 26,5% 18Answered question 68
Access restriction % NbAccess is online for anyone 41% 25Access is online with restrictions 28% 17Access is on site for anyone 18% 11Access is on site with restrictions 21% 13We do not have access: contents are in a completely dark archive 21% 13
Answered questionAnswered question 61
Archive policy % Nb
Domain crawls - TLD (.uk, .eu, .com…) 23% 12
Thematic/selective crawls 71% 37
Only our Websites and associated Websites 30,8% 16
Answered questionAnswered question 52
13
vendredi 19 octobre 2012
Archivage du Web :Quelle mise en œuvre ?
• Etat des lieux
• Vous avez dit Archivage du Web ?
• Cas Pratiques
• Pour aller plus loin...
14
vendredi 19 octobre 2012
Vous avez dit Archivage Web ?
• L’archivage du Web en un clin d’oeil
• Besoin de compétences particulières ?
• Solutions : en interne ou en externe ? Quid du Retour sur Investissement
15
vendredi 19 octobre 2012
Quid ?Qu’est-ce qu’une archive Web ?
Une copie d’un site web enregistrée par un robot (crawler)
à une date et heure spécifiquesur lequel on peut naviguer
comme un site en ligne(vs copie d’écran et back-up)
Ex: http://collections.europarchive.org/tna/*/www.tate.org.uk
16
vendredi 19 octobre 2012
Défis d’un projet d’Archive Web
• Sélectionner ce qui sera préservé
• Définir des frontières
• Relever des défis technologiques
• Préserver un contenu non stable
• Rendre accessible
17
vendredi 19 octobre 2012
Comment ? Workflow18
vendredi 19 octobre 2012
CollecteCollection horizontale (extensif)
vs. Collection verticale (intensif)
19
vendredi 19 octobre 2012
Vous avez dit Archivage Web ?
• L’archivage du Web en un clin d’oeil
• Besoin de compétences particulières ?
• Solutions : en interne ou en externe ? Quid du Retour sur Investissement
20
vendredi 19 octobre 2012
Compétences
• Mettre en place une équipe multi-disciplinaire‣ Sélection/contrôle qualité: Bibliothécaire / Conservateur /
Archiviste, Assistant qualité, Chef de projet‣ Capture de contenu Web/développements: Ingénieur, technicien‣ Création et administration de l’infrastructure: Ingénieur,
administrateur système
➡ L’archivage du Web nécessite des compétences et une expérience cruciales, surtout dans le cas d’une solution entièrement en interne.
21
vendredi 19 octobre 2012
Vous avez dit Archivage Web ?
• L’archivage du Web en un clin d’oeil
• Besoin de compétences particulières ?
• Solutions : en interne ou en externe ? Quid du Retour sur Investissement
22
vendredi 19 octobre 2012
ArchiveWeb
+ -
solution interne
Contrôle de tout le processusBudgets internesEquipe en interneAutonome
Ressources humainesInfrastructures
solutionexterne
Déploiement rapideCoûts adaptables aux volumes collectés Economie d’échelle Etat de l’art
Dépendance à une société Problèmes organisationnels (langue, décalage horaire, IP,...)
En interne ou en externe ?23
vendredi 19 octobre 2012
Outils d’archivage24
• Netarchivesuite (http://netarchive.dk/suite/)
‣ Open source, développé au Danemark par la Royal Library et la State and University Library
• Web curator tool: (http://webcurator.sourceforge.net)
‣ Open source, développé par la National Library of New Zealand, la British Library, à l’initiative de IIPC (International Internet Preservation Consortium)
• Archive-it (http://www.archive-it.org/)
‣ service payant d’archivage Web, développé par Internet Archive
vendredi 19 octobre 2012
ArchivetheNet
• Software-as-a-Service ergonomique et intuitif• 3 modules de gestion automatisés :
• Administration• Collection• Rapports
• Processus entièrement automatisé (montée en charge)• Personnalisation du services grâce à des options (QA,...)• Actualisation en continu de l’outils
➡ Rapide déploiement➡ Bon Retour sur Investissement (ROI)
25
vendredi 19 octobre 2012
Archivage du Web :Quelle mise en œuvre ?
• Etat des lieux
• Vous avez dit Archivage du Web ?
• Cas Pratiques
• Pour aller plus loin...
26
vendredi 19 octobre 2012
Cas pratiques • Préservation
• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites
• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.
• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage
• Recherche
27
vendredi 19 octobre 2012
Préservation
• Garder une trace de l'information en ligne au fil des ans ✓ Parlement du Royaume-Uni ✓ CERN (où le Web est né il y a plus de 20 ans!)
• Construire une mémoire thématique de contenus en ligne✓ Bibliothèque nationale d'Irlande
• Fin de projets de recherche, disparition du site et du domaine ✓ Retour sur les projets de recherche européens, ✓ Inside Installations
• Refonte complète de sites✓ RTS
28
vendredi 19 octobre 2012
Pour une institutionArchives Web du Parlement anglais
29
vendredi 19 octobre 2012
Pour un événementBibliothèque nationale d’Irlande
146 sites archivés, avant, pendant et après la campagne électorale
30
vendredi 19 octobre 2012
Projets de recherche• FP6 (2000-2007): 10’000+ projets
financés, soit 17+ milliards d’€• Analyse de 200 projets (avril 2012)• 65% des projets ont fait l’objet d’un
site Web :➡ Tous les sites de projets finis depuis
moins de 2 ans sont encore accessibles
➡ 23% des sites de projets finis depuis 3 ans ont disparu
➡ 32% des sites de projets finis depuis 6 ans ont disparu
31
vendredi 19 octobre 2012
RTS: Refonte de siteD’une refonte de site à un changement d’identité
2010 début 2012 aujourd’hui version archivée version archivée version en ligne
32
vendredi 19 octobre 2012
Cas pratiques • Préservation
• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites
• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.
• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage
• Recherche
33
vendredi 19 octobre 2012
Multimedia & Réseaux sociaux
• Constituer des archives Web contextualisées
✓ Südwestrundfunk (SWR)
• Résoudre les difficultés d’Accès pour les réseaux sociaux
✓ YouTube ✓ Twitter
34
vendredi 19 octobre 2012
SWR: Festival Rock am RingContexte
- Evénement sur 3 jours
Taille de la campagne- Site officiel- Site de la TV- Sites des médias sociaux- Forum - Sites des médias traditionnels
Fréquence: 5 fois- 3 jour avant l’événement- les 3 jours de l’événement- 3 jour après l’événement
Profondeur- Complète pour 1re et 5e captures- Partiellement pour 2,3 et 4
Limites- Budget- Limites techniques- Restrictions légales- Ressources humaines
Bénéfices- une vue d’ensemble - suivre l’événement en temps réel
- garder une trace de la présence médiatique
Festival Rock-am-Ring
CompleteCrawl
CompleteCrawlPartial
CrawlPartialCrawl
PartialCrawl
35
vendredi 19 octobre 2012
SWR: Festival Rock am Ring36
vendredi 19 octobre 2012
Défi: Video37
• Développement d’une méthode de capture
• Remplacement du player utilisé
•Modification de l’outil d’accès pour reproduire l’accès en ligne
vendredi 19 octobre 2012
Défi : You Tube 38
Capture archivée Solution générique
vendredi 19 octobre 2012
Défi : Twitter 39
Capture archivée Solution générique
vendredi 19 octobre 2012
Cas pratiques • Préservation
• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites
• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.
• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage
• Recherche
40
vendredi 19 octobre 2012
Usages : Cas des Archives Nationales du Royaume Uni
• Transparence et visibilité :
✓ Redirection automatique ✓ Memento
• Alléger le poids de son site
✓ Redirection des Archives des sites vers l’Archive Web
• Statistiques d'usage
✓ Exemple de l’Archive Web d’Irlande
41
vendredi 19 octobre 2012
Visibilité
•Accès public •Recherche
• par URL et par date de capture• plein texte• navigation par catégorie
•Personnalisation• Logo• Bannière• Catégorie dans la recherche avancée
42
vendredi 19 octobre 2012
D’un site qui n’est plus en ligne43
vendredi 19 octobre 2012
aux archives du web44
vendredi 19 octobre 2012
et retour au web vivant45
vendredi 19 octobre 2012
Memento• Développement piloté
par le Los Alamos National Laboratory et
financé par la Bibliothèque du Congrès
• Vise à intégrer les archives Web à la navigation Web
vendredi 19 octobre 2012
Usage et Presse
0
100
200
300
400
500
600
700
800
900
1000
May 11
June
11
July
11
Augus
t 11
Sept. 1
1
Oct. 11
Nov. 1
1
Dec. 1
1
Jan.
12
Feb. 1
2
March 1
2
April 1
2
May 12
Unique visitors per month
• 21/09/2011: Lancement officiel de l’archive Web (Tweets)
• 26/10/2011: Post sur le Blog nli.ie/blog et article dans thejournal.ie
• 25/11/2011: article dans irishtimes.com• 20/01/2012: article dans irishtimes.com• 17/03/2012: post sur
soundofthearchives.wordpress.com• 04/05/2012: article dans irisheconomy.ie
Communication de la Bibliothèque nationale d’Irlande (NLI) sur son archive Web
47
vendredi 19 octobre 2012
Cas pratiques • Préservation
• Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites
• Multimedia et réseaux sociaux• Archives Web contextualisées dans l'audiovisuel• Capture et accès: You Tube, Twitter, etc.
• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage
• Recherche
48
vendredi 19 octobre 2012
Exemples - Recherche
Projet de recherche thématique : enpolitique.com• Etude de l'évolution des sites web politiques lors de
campagnes nationales (France & Québec)• Pertinence du projet face à la disparition des sites
Ex: http://toushollande.fr fermé et redirigé vers la page Facebook du candidat élu
49
vendredi 19 octobre 2012
Archivage du Web :Quelle mise en œuvre ?
• Etat des lieux
• Vous avez dit Archivage du Web ?
• Cas Pratiques
• Pour aller plus loin...
50
vendredi 19 octobre 2012
Pour aller plus loin...
... face aux nombreux challenges du Web et de son archivage
• Web caché & profond• Spams & boucles• Sites dynamiques• Média sociaux• Multimedia• Web Mining
51
vendredi 19 octobre 2012
Internet Memory relève le défi
• Crawl sélectif : ✓ LiWA (2007-2010)
✓ ARCOMEM (2010-2013)
• Préservation :
✓ SCAPE (2010-2013)
• Big Data et traitement de l’information Web : ✓ LK (2009-2012)
✓ LAWA (2010-2013)
✓ TrendMiner (2011-2014)
✓ DOPA (2012-2014)
✓ AnnoMarket (2012-2014)
... et s’engage dans des projets de recherche
52
vendredi 19 octobre 2012
Internet MemoryInternet Memory Foundation
Amsterdam - Paris
• Fondation à but non lucratif
• Préservation & Open Access
http://internetmemory.org
@InternetMemory
Internet Memory ResearchParis
• Services d’Archivage
http://archivethe.net
@ArchivetheNet
• Services de traitement de l’information à grande échelle
http://mignify.com
@mignify
53
vendredi 19 octobre 2012
Merci de votre attention54
vendredi 19 octobre 2012