Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di:...
-
Upload
marietta-puglisi -
Category
Documents
-
view
212 -
download
0
Transcript of Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di:...
Indici per la valutazionedella QoS
di applicazioni Web
POLITECNICO DI MILANOTesina di Laurea di:
Andrea Ferrari - Matr.: 638853
Milano, 20 aprile 2004
Relatore: Prof. Giuseppe SerazziCorrelatore: Ing. Giuliano Casale
Internet oggi…
Sviluppo di Internet cambia le tradizionali regole di comunicazione.
“Darwinismo progettuale”.
Necessità e desiderio di analizzare le applicazioni Web dal punto di vista dell’utente.
Obiettivi
Rappresentare e misurare il Web. Analizzare le caratteristiche cognitive ed il
comportamento degli utenti. Ricavare informazioni da un sito Web:
– Analisi topologica– Analisi dei file di log
del Sito del Politecnico di Milano
Metodologie perrappresentare il Web*
Necessità di rappresentare globalmente un sito Web
Sviluppo di diagrammi per il Web (metafore)
Internet è basato su una struttura globale non consistente.
Veloce sviluppo del Web
alla portata di tutti. Disorientamento degli
utenti. Usabilità critica sia per
l’utente che per il web-designer. * B. Wong, G. Marsden, 2000, Visualizing the Web:
why we should abandon graphs and trees.
Metodologie perrappresentare il Web (2)
Grafi ciclici:Rete di nodi connessi.
Disordine e difficoltà di lettura.
Alberi gerarchiciStruttura gerarchica (aggiunta
iterativa di nodi “figli”) Struttura del Web
implicitamente non gerarchica
Metodologie perrappresentare il Web (3)
ConiAlberi gerarchici 3D
(o artifici per migliore rappresentazione 2D) Critica la
rappresentazione dei legami non gerarchici
Metodologie perrappresentare il Web (4)
Alberi iperboliciAlberi in geometria non euclidea
(lente “a occhio di pesce”) Difficoltà a contestualizzare
la rappresentazione
Metodologie perrappresentare il Web (5)
Metafore moderne – Struttura 3D su una colonna verticale (barra di navigazione)
Metodologie perrappresentare il Web (6)
Metafore moderne – A diverse quote ventagli (sottoinsiemi di pagine)
Metodologie perrappresentare il Web (7)
Metafore moderne – Agevole rappresentazione di link non gerarchici
– Facile rappresentazione di sottositi.
Il concetto di metricanell’ambiente Web*
È importante misurare gli attributi degli oggetti che studiamo.
È necessario definire metriche per il Web.
Metriche banali (hop-count, frequenza di accessi, distribuzione dei click, ecc.)
Analisi metrica attraverso i grafi:
– Grafo di N nodi è rappresentabile con una matrice delle distanze C di dimensioni N x N.
– L’elemento cij rappresenta la distanza fra la pagina i e la pagina j del Sito.
– Nodi irraggiungibili sono posti a distanza K (costante arbitraria).
* D. Dhyani, Wee Keong Ng, S.S. Bhowmick, 2002, A survey of Web metrics.
Il concetto di metricanell’ambiente Web: la centralità
Rappresenta la connettività di un nodo
Il nodo centrale è quello col valore maggiore di ROC o di RIC.
Da esso è possibile costruire una gerarchia all’interno dell’ipertesto e migliorarne la navigabilità.
j
iji COD j
jii CID
jij
i jij
iC
C
ROC
jji
i jij
iC
C
RIC
Il concetto di metricanell’ambiente Web: metriche globali
Metriche di compattezza Metriche di classe– Valuta l’ordine lineare del
grafo– Siti altamente lineari sono
spesso difficili da navigareminmax
max
i j
ij
P
C
C
KNN 2max NN 2min
– Su una scala da 0 a 1 indica l’estensione dei rimandi all’interno dell’ipertesto.
– Valori distanti dagli estremi denotano buona usabilità e navigabilità.
LAP
CC
Si j j
jiij
altrimenti4
N
pari 4
3
3
N
NN
LAP
Analisi topologica del sito Webdel Politecnico di Milano
Dati del problema:– Matrice d’incidenza
(ricavata dal web-server o con download con spider)
– Matrice delle distanze (ricavata con un algoritmo in backtracking che calcola il cammino minimo tra due nodi
Indici calcolati:– Centralità– Compattezza e classecon script C++
Limitazioni e problemi:– Sito Web = 12.000 pagine
Matrici di 144 milioni di elementi!
Tempo di calcolo per generare la matrice delle distanze: qualche anno!!!
– Limitazione: grafo delle 100 pagine più visitate
Dal file di log dei giorni 1, 2 e 3 aprile 2002
– Cammino massimo tra due nodi = 10 pagine
Analisi topologica del sito Webdel Politecnico di Milano (2)
Centralità:– Home Page non è la
pagina più connessa– Pagine centrali
http://www.polimi.it/ eventiIniziative/settimana.php
http://www.polimi.it/facolta/ing/leonardo/didattica/ric_clit.html
Metriche globali:– Compattezza CP = 0,48
Ottimo compromesso che garantisce una buona usabilità
– Classe S = 0,045 Scarsa linearità
garantisce una semplice navigabilità per Siti molto ampi.
1 5 9
13 17 21 25 29 33 37 41 45
ROC
RIC
0
20
40
60
80
100
120
Cen
tral
ità
rela
tiva
Indice della pagina Web
Differenze cognitivenegli utenti del Web*
Il Web è un ampio sistema non-lineare. Occorre valutare sempre
– performance del sistema– abilità degli utenti
Le differenze individuali fra gli utenti del Web sono le variabili più importanti da considerare per stabilire criteri di usabilità (Nielsen).
Distinzioni di tipo cognitivo fra individui:
– Field-Independent (FI)– Field-Dependent (FD)
Distinzioni fra gli utenti dovute all’esperienza.
Altre distinzioni (non interessanti).
Stile cognitivo: modo abituale e
prevalente che una persona
ha di percepire, memorizzare,
imparare, prendere decisioni
e risolvere problemi.
* Kyung-Sun Kim, Individual differences and information retrieval: implications on Web design; H. Habieb Mammar, F. Tarpin Bernard, Incorporating cognitive styles into adaptive multimodal interface.
Differenze cognitivenegli utenti del Web (2)
Esperimento con 4 categorie di utenti.
Utenti senza esperienza:– FI impiegano meno tempo– FI visitano meno pagine– FD utilizzano spesso il
comando “Home” e i link ipertestuali
Utenti con esperienza:– Non vi sono differenze fra
FI e FD in termini di tempo– Non vi sono differenze fra
FI e FD nell’uso dei comandi di navigazione
– Marcato utilizzo di jump: FI navigano in modo ancora più non-lineare della natura stessa dell’ipertesto.
L’esperienza degli utenti è fondamentale per lo sviluppo di stili di navigazione e ricerca on-line.
La QoS percepitadagli utenti del Web*
QoS orientata non solo al sistema ma alle aspettative degli utenti.
Valutiamo la tolleranza degli utenti al ritardo:
– è misurabile?– dipende dal compito da
eseguire?– ha conseguenze per il
business?– è influenzata dal design?
Valutazione del ritardo dà 3 soglie di tolleranza:
• < 0,1 sec.: risp. immediata• 1 sec.: dialogo• 10 sec.: ritardo inaccettab.
Controllo della latenza non significativo
– Forte dipendenza dalle abitudini degli utenti
Valutazione velocità
Latenza(non increment.)
Latenza(incrementale)
Alta 0 – 5 sec. 0 – 39 sec.
Media > 5 sec. > 39 sec.
Bassa > 10 sec. > 56 sec.
* N. Bhatti, A. Bouch, A. Kuchinsky, Integrating user-perceived quality into Web server desing.
La QoS percepitadagli utenti del Web (2)
La tolleranza al ritardo diminuisce con l’aumentare della durata della sessione.
La tolleranza al ritardo dipende dall’attività che l’utente sta svolgendo e dall’idea che egli ha del modo in cui il web-server la deve eseguire.
La tolleranza al ritardo aumenta quando l’utente in attesa riceve feedback continui da parte del web-server.
0
5
10
15
20
25
30
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Num. di pagine nella sessione
Rita
rdo
(sec
.)
Ritardo massimo Tolleranza massima
La QoS percepitadagli utenti del Web (3)
È possibile ottenere una funzione di utilità per la QoS:
La scarsa QoS percepita ha effetti negativi
– sulla stima verso l’azienda rappresentata dal Sito
– sui prodotti e servizi offerti anche fuori dal Web
– sulla stima dell’impegno profuso per il Web
non vengono imputati altri elementi penalizzanti: traffico, ISP, modem, ecc.
– sulla percezione di sicurezza (transazioni)
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Num. di pagine nella sessione
Ute
nti t
olle
rant
i (in
%)
Ritardo di 6 sec. Ritardo di 10 sec. Ritardo di 16 sec.
Analisi dei file di log del sito Webdel Politecnico di Milano
Analizziamo lo spezzone di log (1, 2 e 3 aprile ’02)
Common Extended LogFile Format:
Utilizzo di Microsoft Access per gestire il database e ricavare le misure d’interesse.
remotehost rfc authuser date request status bytes referer user_agent
12.140.45.83 - - 2002/04/01:23:14:46 GET http://www.polimi.it/english/menu.html HTTP/1.0 200 8078 http://www.polimi.it/english/ Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705)
12.140.45.83 - - 2002/04/01:23:14:47 GET http://www.polimi.it/counter/ HTTP/1.0 200 43 http://www.polimi.it/english/home.html Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705)
12.140.45.83 - - 2002/04/01:23:14:47 GET http://www.polimi.it/english/images/fpoli_blu.jpg HTTP/1.0 200 24829 http://www.polimi.it/english/home.html Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705)
Analisi dei file di log del sito Webdel Politecnico di Milano (2)
Per ogni pagina del Sito ricaviamo dal log le seguenti misure:
– Dimensione (nominale e cumulativa)
– Tempo permanenza (medio e cumulativo)
– Entropia– Numero di back uscenti– Numero di richieste usc.– Numero di primi accessi
Calcoliamo le correlazioni fra tutte le possibili coppie di misure
Rappresentiamo il diagramma di dispersione con gli assi in scala logaritmica
i iii
iii
yyxx
yyxxr
22
Analisi dei file di log del sito Webdel Politecnico di Milano (3)
Home Page:– dati oltremodo elevati
sconsigliano il confronto con le altre pagine del Sito
valori non veritieri per misurare l’interesse degli utenti verso il suo contenuto:
– url mnemonico– accesso preferenziale– spesso pagina
predefinita di avvio amplificazione eccessiva
delle correlazioni0,0001
0,001
0,01
0,1
1
10
100
1000
1 10 100 1000 10000 100000
Num. di accessi alla pagina
Dim
en
sio
ne
de
lla
pa
gin
a (
MB
)
con HomePage5437,0r9588,0r
senza HomePage
Analisi dei file di log del sito Web del Politecnico di Milano (4)
Tempo medio di permanenza
– completa incorrelazione da tutti gli altri parametri
– valutare l’interesse degli utenti col tempo di permanenza non sembra quindi metrica valida.
Tempo cumulativo di permanenza
– correlato al 94% con num. di richieste uscenti
1
10
100
1000
10000
0,1 1 10 100 1000 10000 100000
Tempo cumul. di permanenza (sec.)
Nu
m.
di
ric
hie
ste
us
ce
nti
0,01
0,1
1
10
100
1000
10000
1 10 100 1000
Numero di back
Te
mp
o c
um
ul.
di
pe
rma
ne
nza
(s
ec
.)
0,1
1
10
100
1000
10000
100000
1 10 100 1000 10000 100000
Numero di accessi
Te
mp
o c
um
ul.
di
pe
rma
ne
nza
(s
ec
.)
– correlato al 60% col num. di back uscenti
– correlato al 70% col num. di primi accessi
– Risultati in linea con le aspettative (profilo utente di tipo “professionale”)
Analisi dei file di log dei sito Web del Politecnico di Milano (5)
Entropia– elevata per pagine
“indice”– entropia nulla per pagine
re-indirizzate automaticamente
– entropia nulla per pagine “foglia” del grafo
– completa incorrelazione da ogni altro parametro
Accessi e uscite– correlaz. del 73% fra primi
accessi e richieste uscenti
– correlaz. del 65% fra primi accessi e back uscenti
1
10
100
1000
10000
1 10 100 1000 10000 100000
Num. di accessi alla pagina
Nu
m.
di
ric
hie
ste
us
ce
nti
1
10
100
1000
10000
1 10 100 1000 10000 100000
Num. di accessi alla pagina
Nu
me
ro d
i b
ac
k
Dimensione pagine– sostanziale
incorrelazione con gli altri parametri
– lascia spazi ad affinamenti futuri