Il nuovo servizio di produzione di statistiche d'uso, compatibili COUNTER, dell'Emeroteca Virtuale
description
Transcript of Il nuovo servizio di produzione di statistiche d'uso, compatibili COUNTER, dell'Emeroteca Virtuale
Il nuovo servizio di produzione di Il nuovo servizio di produzione di statistiche d'uso, compatibili statistiche d'uso, compatibili
COUNTER, dell'Emeroteca VirtualeCOUNTER, dell'Emeroteca Virtuale
Seminario Residenziale CIBER 2006Seminario Residenziale CIBER 2006
Messina, Messina, Villa Pace Villa Pace – – 12-14 Giugno 200612-14 Giugno 2006
Ugo Contino – [email protected] Contino – [email protected]
Sommario
Promissio boni viri… Analisi della struttura di
generazione delle nuove statistiche Statistiche d’uso per il CIBER: un
esempio concreto di nuove sinergie Ulteriori sviluppi Conclusioni
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Napoli – 10 Novembre 2005…
Proposta di adesione allo standard COUNTER (2)
Generazione di report mensili con informazioni di accesso alle riviste full-text sull’Emeroteca (Journal_report_1 -> Number of Successful Article Requests by Month and Journal)
Generazione di report mensili con informazioni sui turnaways alle riviste full-text sull’Emeroteca (Journal_report_2 -> Turnaways by Month and Journal)
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
…Messina 14 giugno 2006!
Statistiche Counter (2) disponibili (a partire dal mese di dicembre 2005 sull’area di Repository del CIBER e sull’Area Riservata -> http://www.uniciber.it/areaciber/index.php?id=185)
Analisi retrospettiva del 2005 Lacuna sulle statistiche del maggio
2005… Report disponibili (sull’Area Riservata)
in formato csvSe
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Uno sguardo al dettaglio…
Journal_report_1
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Intestazione
Profondità analisiEnte
Data generazione report
Totali su tutte le riviste
Dettaglio singola rivista
Journal_report_2
Uno sguardo al dettaglio…
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Informazioni: http://www.uniciber.it/areaciber/fileadmin/area_ciberdoc/COUNTER_MANUALE_STATISTICHE_corretto.pdfhttp://www.uniciber.it/areaciber/fileadmin/area_ciberdoc/CounterRepIstruzioni1maria-1.pdf
I turnaways nell’Emeroteca Virtuale
Definizione Counter: “A turnaway (rejected session) is defined as an unsuccessful log-in to an electronic service due to exceeding the simultaneous user limit allowed by the licence”
Definizione Emeroteca: ”Un turnaway (accesso all’articolo non consentito) è definito come evento nel quale all’utente non è consentito accedere (per il particolare tipo di licenza dell’ateneo al quale appartiene) ad un ben determinato articolo in formato full-text
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Stastistiche@CASPUR (classic version…)
Basate sul software SAS “Granularità giornaliera” Disponibili in formato rapporto (PDF o HTML) Metriche disponibili:
Distribuzioni giornaliere di accesso ai contenuti (aggregate sull’editore e sulle riviste)
Distribuzioni medie orarie di accesso ai contenuti (aggregate sull’editore e sulle riviste)
Valori aggregati per rivista ed editore di accesso agli indici di riviste e di fascicolo sia in abbonamento che fuori abbonamento (aggregate sul periodo temporale)
Dettaglio accessi ad indici di rivista, di fascicolo, di abstract e full-text (sia html che pdf) suddivisi per editore e per tipologia in abbonamento che fuori abbonamento (aggregate sul periodo temporale)
Andamento giornaliero accessi full-text (sia html e pdf) aggregati sull’editore e sulla rivista
Top 10 journals (sia Abs che FT) per tipologia in abbonamento che fuori abbonamento che in UTL (se prevista); aggregazione sul periodo temporale
Elenco accessi riviste (sia Abs che FT) per tipologia in abbonamento che fuori abbonamento che in UTL (se prevista); aggregazione sul periodo temporale
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
L’Ambiente di produzione “classico”
Servizio di Emeroteca Virtuale
ApacheLog files
Page view
Server delle statistiche
Ogni mese
Sottomissionedellarichiesta via WEB
Informazionistatisticheper ateneo o cumulative
Riviste &Abbonamenti
Lista IPistituzione
PDF HTML
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Aggiornamentimensili
Utenti “classici”
L’Ambiente di produzione “attuale”
Servizio di Emeroteca Virtuale
ApacheLog files
Page view
Server delle Statistiche(softwareOpen-source)
Ogni mese
Generazioneautomaticadei 2 JRC
Informazionistatisticheper ateneo o cumulative
Riviste &Abbonamenti
Lista IPistituzione
CSV
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Aggiornamentimensili
XML
…a breve
Utenti “classici”
Utenti “remoti”
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Black box unveiled…
Primo passo: analisi del file di log dell’Emeroteca e identificazione delle righe utili
“Marcatore” di un accesso ad un PDF
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Black box unveiled…
Secondo passo: identificazione dei gruppi di analisi
LOG FILES(basati su IP+Remoti)
Accesso ai PDF
Accesso ai PDFda utenza
remota
Accesso agli HTML
Accesso agliHTML da
Utenza remotaScript di parsing
Turnaways sui PDF
Turnaways sui PDF da
utenza remota
Turnways sugli HTML
Turnaways sugliHTML da
Utenza remota
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Black box unveiled…
Terzo passo: eliminazione dei doppi click
Accesso ai PDF
Accesso ai PDFda utenza
remota
Accesso agli HTML
Accesso agliHTML da
Utenza remota
Turnaways sui PDF
Turnaways sui PDF da
utenza remota
Turnways sugli HTML
Turnaways sugliHTML da
Utenza remota
Applicazione del criterio del “doppio-click”
secondo la direttiva COUNTER
HTML consec. > 10 secPDF consec. > 10 sec
SI
Dati senza doppi-click
NO
Curiosità…
Esistono dei fenomeni di doppi-click anche sui turnaways…
193.204.17.XXX - - [01/Sep/2005:10:07:44 +0200] "GET /cgi-bin/sciserv.pl?collection=journals&journal=09445013&issue=v157i0004&article=267_iaioyaorgamd&form=pdf&file=file.pdf HTTP/1.1" 200 182
192.84.152.XXX - - [01/Sep/2005:10:11:46 +0200] "GET /cgi-bin/sciserv.pl?collection=journals&journal=00191035&issue=v77i0001&article=171_pooa3262a8&form=pdf&file=file.pdf HTTP/1.1" 200 182
192.84.152.XXX - - [01/Sep/2005:10:11:58 +0200] "GET /cgi-bin/sciserv.pl?collection=journals&journal=00191035&issue=v77i0001&article=171_pooa3262a8&form=pdf&file=file.pdf HTTP/1.1" 200 182
192.84.152.XXX - - [01/Sep/2005:10:12:06 +0200] "GET /cgi-bin/sciserv.pl?collection=journals&journal=00191035&issue=v77i0001&article=187_asmocbp&form=pdf&file=file.pdf HTTP/1.1" 200 182
192.84.152.XXX - - [01/Sep/2005:10:12:17 +0200] "GET /cgi-bin/sciserv.pl?collection=journals&journal=00191035&issue=v77i0001&article=109_ae5sou&form=pdf&file=file.pdf HTTP/1.1" 200 182
192.84.152.XXX - - [01/Sep/2005:10:12:45 +0200] "GET /cgi-bin/sciserv.pl?collection=journals&journal=00191035&issue=v81i0002&article=314_alof1&form=pdf&file=file.pdf HTTP/1.1" 200 182
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Black box unveiled… Quarto passo: popolamento del Data Base sugli
accessi/turnaways (vengono utilizzati i file di supporto sulla lista dei titoli, la lista degli IP/username, la lista della data di pubblicazione, aggiornati mensilmente)
Tipologia di materiale (html/pdf)
Turnaways si(1), no(0)
Data di pubblicazioneTipologia di accesso (locale/remoto)
Base dati “Statistiche2XXX”
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Black box unveiled…
Quinto passo: costruzione delle statistiche sugli accessi
Accesso art. in formato PDF=18Accesso art. in formato HTML=8Accesso in remoto art. in formato PDF=1Accesso in remoto art. in formato HTML=0Turnaways su art. in formato PDF=2Turnaways su art. in formato HTML=0Turnaways in remoto su art. in formato PDF=0Turnaways in remoto su art. in formato HTML=0
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Black box unveiled…
Sesto passo: generazione delle statistiche Counter
Black box unveiled…
Ultimo passo: pubblicazione sull’area riservata
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Caratteristiche riassuntive
Pienamente compatibile con le direttive COUNTER (1/2)
Generazione dei report off-line e non onerosa in termini di tempo/risorse macchina
Disponibile su base mensile e per tutti gli enti che accedono all’Emeroteca
Disponibile la statistica cumulativa dell’ente Ciber
Report facilmente accessibili e convertibili in formato Excel grazie ad una procedura documentata sull’A.R.
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
PRO…
Caratteristiche riassuntive
Non sono disponibili Report in formato XLS (Excel) nativo
Non è attualmente disponibile un formato aperto (XML) di esportazione delle statistiche d’uso
Molte delle informazioni disponibili all’interno del DB delle statistiche d’uso non vengono utilizzate
Assenza di report ulteriori (Journal_Report_3, Number of Successfull Item Requests and Turnaways…, e Journal_Report_4, Total Searches Run…) => modifiche pesanti alle procedure di estrazione dell’informazione dai log files Apache
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
CONTRO…
Nuovi scenari di collaborazione
Esiste un’attività di collaborazione tra il CAB dell’Università di Messina ed il settore dei servizi di automazione delle biblioteche del CASPUR, finalizzata alla messa a punto di un portale dinamico sulle statistiche d’uso dell’Emeroteca
Estrazione periodica (mensile) dell’intera base dati (base dati “Statistiche2XXX) con le statistiche d’uso generali per tutto il CIBER
Inoltro dei file aggiornati di supporto alla generazione delle statistiche (lista dei titoli, IP/username per Ateneo, lista delle date di pubblicazione in funzione del fascicolo)
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Proposta evolutiva
Generazione di Report in formato Excel nativo
Produzione di Journal_Report_1/2 in formato XML (propedeutico a SUSHI)
Eventuale produzione di ulteriori Journal_Report (3/4) => necessario ripensamento dei filtri di estrazione dei dati dai log files di Apache
…per il resto… c’è il nuovo portale!
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Conclusioni
Genesi del nuovo portale sulle statistiche d’uso del CIBER: un interessante esempio di sinergia all’interno del CIBER
Grande aspettativa su tool di supporto all’ERM
Necessità di avviare un percorso di auditing per le statistiche d’uso del CIBER (direttiva COUNTER)
Apertura ai nuovi standard (SUSHI) Tempo limite?
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no
Grazie per la vostra attenzione!
Se
min
ario
Re
sid
en
zia
le C
IBE
R 2
00
6 –
Vill
a P
ace
– M
ess
ina
- 1
2.1
4 G
iug
no