Nguyen cuu ve phan mem phan tich truy cap Website

Post on 14-Jul-2015

84 views 0 download

Transcript of Nguyen cuu ve phan mem phan tich truy cap Website

Nghiên cứu về phần mềm phân tích truy cập website

Thự c hiệ n: Lê Kiế n Trúc

Nội dung

Về web analytics....................................................................................................... 1

Phân loạ i ......................................................................................................... 1

Danh sách các phầ n mề m web analytic mã nguồ n mở sử dụ ng page tag................. 2

Phân tích về kiế n trúc và mô hình hoạ t độ ng củ a page tag Web analytic ................ 2

Phân tích Google Analytics........................................................................................... 2

Cookies ........................................................................................................... 2

Tracking code .................................................................................................... 3

Dashboard......................................................................................................... 3 Hệ thố ng nề n................................................................................................ 4

Nhậ n xét đánh giá ..................................................................................................... 4

Các đề nghị cho dự án ........................................................................................... 4

Các dữ liệ u sử dụ ng đư ợ c từ OWA và Piwik .......................................... 6 Các thông tin truyề n về từ file JS củ a OWA gử i đế n log.php: ............. 6

Các thông tin truyề n về từ file JS củ a Piwik gử i đế n piwik.php: ........... 6

Các thông tin truyề n về từ file JS củ a GA gử i đế n __utm.gif: ............... 7

Glossary ................................................................................................................... 9

Về web analytics

Web analytic là mộ t công cụ dùng để thu thậ p, đo, phân tích và báo cáo các dữ liệ u củ a

website nhằ m mụ c đích hiể u và tố i ư u, ngoài ra có thể dùng cho các nghiên cứ u kinh

doanh và thị trư ờ ng

Phân loại

Có 2 phân loạ i web analytic chính: phân tích tậ p tin nhậ t kí (logfile) và gắ n nhúng vào trang

(pagetag). Ngoài ra còn có dạ ng phầ n mề m lai sử dụ ng cả 2 nguồ n thông tin để đư a ra

dữ liệ u chính xác. (ý tư ở ng kế t hợ p logfile và pagetage để phát hiệ n và chố ng chọ i

vớ i ddos).

Mỗ i hư ớ ng tiế p cậ n có ư u điể m riêng như ng cách sử dụ ng page tag đang rấ t phổ

biế n. Tuy nhiên vớ i xu hư ớ ng web 2.0 sử dụ ng các công nghệ mớ i như Ajax, việ c sử

dụ ng page tag đem lạ i nhiề u thông tin hơ n ví dụ biế t đư ợ c ngư ờ i dùng hay chú ý di

chuyể n chuộ t ở chỗ nào. Hoặ c thờ i gian để xác đị nh di chuyể n đế n nơ i quan tâm, thờ i gian ở lạ i trang... Tuy nhiên có thể bị phả n đố i khi theo dõi quá mứ c ngư ờ i

dùng.

Vì vậ y việ c sử dụ ng pagetag là yêu cầ u cầ n thiế t. Google Analytic cũng sử dụ ng page

tag.

Danh sách các phần mềm web analytic mã nguồn mở sử dụng page tag

CrawlTrack: chỉ sử dụ ng PHP để lấ y thông tin.

Open web Analytics:

Giấ y phép sử dụ ng: GPL v2.

Giao diệ n trự c quan giố ng và gầ n gũi vớ i Google Analytic.

Tính năng nổ i bậ t “Click Heatmaps”, “Mouse Movements”, “DOM Click Tracking”.

Kiế n trúc framework hỗ trợ viế t thêm các tính năng plugin.

Piwik Web Analytics:

Giấ y phép sử dụ ng: GPL v3

Phầ n mề m hỗ trợ hiể n thị trên điệ n thoạ i di độ ng. Kiế n trúc framework hỗ trợ viế t thêm các tính năng plugin.

Phân tích về kiến trúc và mô hình hoạt động của page tag Web analytic

Phân tích Google Analytics

Cookies

(http://code.google.com/apis/analytics/docs/concepts/gaConceptsCookies.html)

Plugin colects info on tracking site

Receive and store data on server

Query, analysis and

display useful informations

__utma: Cookie này cho phép theo dõi số lầ n mộ t ngư ờ i khác đế n trang. Lúc nào là lầ n

đầ u tiên và lầ n cuố i cùng họ đế n. Cookies này hế t hạ n sau 2 năm kể từ lúc gán, cậ p

nhậ t - đư ợ c xem là sẽ tồ n tạ i mãi mãi.

__utmb và __utmc: làm việ c cùng vớ i nhau để tính toán ngư ờ i dùng truy cậ p trong bao lâu.

__utmb lấ y thờ i gian chính xác khi ngư ờ i dùng vào mộ t trang trong khi đó __utmc lấ y thờ i gian chính xác khi ngư ờ i dùng rờ i trang. __utmb sẽ hế t hạ n khi kế t thúc session. __utmc

đợ i ba mư ơ i phút và sau đó sẽ hế t hạ n. Trong phiên bả n mớ i củ a ga.js không còn dùng

__utmc.

__utmz: theo dõi nơ i ngư ờ i dùng đế n, search engine nào mà họ đã sử dụ ng, link nào đã nhấ n vào, keyworkd nào họ đã sử dụ ng, và nơ i họ ở . Nó sẽ hế t hạ n trong sau 6

tháng và đư ợ c cậ p nhậ t mỗ i khi ngư ờ i dùng truy cậ p

__utmv: nế u sử dụ ng user-defined report. __utmv cookie sẽ sử dụ ng trên máy ngư ờ i

dùng. Dùng để đánh giá xế p hạ ng. Đây là dạ ng cookie tồ n tạ i mãi mãi.

__utmx: cookie đư ợ c sử dụ ng bở i Google Website Optimizer

Tracking code

http://code.google.com/apis/analytics/docs/concepts/gaConceptsOverview.html Cách Google lấ y và truyề n thông tin củ a ngư ờ i truy cậ p website:

Bở i vì javascript không cho phép việ c cross domain. Nên GA request đế n tậ p tin ả nh giả

cùng vớ i các tham số cầ n thiế t bao gồ m cả cookies để gử i thông tin về cho server.

Tậ p tin có tên __utm.gif.

- Thông tin User Agent còn đư ợ c lấ y thông qua HTTP header.

Đây là nhữ ng thông tin mà GA lấ y để đư a vào cơ sở dữ liệ u.

Dashboard

Là nơ i hiể n thị các báo cáo, phân tích củ a GA dự a trên dữ liệ u thu thậ p đư ợ c. Các

chứ c năng mà GA cung cấ p.

Standard Report củ a GA gồ m:

Tổ ng thể báo cáo về ngư ờ i truy cậ p: lư ợ ng truy cậ p, lư ợ ng khách truy cậ p duy nhấ t, số trang xem, số trang mỗ i lúc truy cậ p, thờ i gian trung bình trên trang,

Bounce Rate (tỷ lệ chỉ truy cậ p 1 trang duy nhấ t trong 1 lầ n xem), lư ợ ng

ngư ờ i truy cậ p mớ i.

Các báo cáo về đị a lý, khu vự c, ngôn ngữ .

Báo cáo về hành vi: lư ợ ng ngư ờ i truy cậ p mớ i và quay lạ i. Độ thư ờ ng xuyên

quay lạ i. Thờ i gian ở lạ i + số lư ợ ng trang truy cậ p.

Báo cáo về công nghệ : trình duyệ t và hệ điề u hành.

Cụ m chứ c năng về mạ ng xã hộ i. Thông tin thố ng kê khi ngư ờ i dùng click vào

nút share like trên các mạ ng xã hộ i.

Thố ng kê truy cậ p trên các thiế t bị di độ ng.

Visitors flow: thố ng kê về các luồ ng, trang truy cậ p củ a ngư ờ i dùng.

Thố ng kê dùng cho quả ng cáo, sử dụ ng chung vớ i Adwords

Thố ng kê nguồ n truy cậ p: các từ khóa dùng để tìm kiế m, máy tìm kiế m, các trang

dẫ n đế n và trang truy cậ p đế n nhiề u nhấ t.

Thố ng kê dùng để tố i ư u tìm kiế m vớ i thông tin tìm kiế m củ a Google.

Thố ng kê về nộ i dung trang gồ m: tên trang, từ khóa tìm kiế m đế n trang, Content

Drilldown (cấ p độ các đị a chỉ ), trang đế n và trang thoát. Tố c độ tả i trang theo từ ng trang kế t hợ p vớ i tỉ lệ rờ i trang đó.

Thố ng kê thông tin tìm kiế m trên trang dùng máy tìm kiế m củ a website.

Thố ng kê sự kiệ n (events), khi ngư ờ i dùng tư ơ ng tác lên vớ i trang sử dụ ng

Ajax, flash hoặ c java, ví dụ khi nhấ n nút play mộ t tậ p tin nhạ c. Thố ng kê adsense dành cho việ c đặ t quả ng cáo trên trang.

In page analytics. Thố ng kê theo từ ng trang truy cậ p. Có thố ng kê số lư ợ ng click

từ ng khu vự c.

Phân tích về xu hư ớ ng. Có thể đặ t ra các mụ c tiêu ngư ờ i dùng đạ t đư ợ c và

giá trị củ a chúng.

Phân tích thư ơ ng mạ i điệ n tử dự a vào sả n phẩ m, doanh số và giao dị ch.

Ngoài ra GA cũng có 1 trang theo dõi phân tích cụ thể về truy cậ p thờ i gian thự c:

Khách truy cậ p hiệ n tạ i, số lư ợ ng mớ i cũ. Số lư ợ ng trang xem, nhữ ng trang

đư ợ c xem nhiề u. Các thông tin cơ bả n tư ơ ng tự như báo cáo chuẩ n như ng

đư ợ c thự c hiệ n thờ i gian thự c.

Phân tích về các sự kiệ n, dự a vào các con số thố ng kê đư a ra sự tăng giả m

củ a các chỉ số qua từ ng giai đoạ n và độ quan trọ ng củ a chỉ số ấ y.

Thêm các dashboard chứ a các widget tùy thích để xem đư ợ c các thông tin dễ dàng

và có ý nghĩa nhấ t.

Hệ thống nền

Không có thông tin chính thứ c về hệ thố ng nề n sử dụ ng cho dị ch vụ Google analytics

củ a Google. Tuy nhiên có nhiề u phỏ ng đoán rằ ng họ sử dụ ng BigTable cho việ c lư u

trữ và thuậ t toán MapReduce, Hadoop để xử lý đồ ng thờ i lư ợ ng lớ n dữ liệ u.

Nhận xét đánh giá

Việ c thu thậ p và lư u trữ dữ liệ u là quan trọ ng, như ng việ c dùng nhữ ng dữ

liệ u ấ y phân tích đánh giá và đư a ra các quyế t đị nh không phả i là dễ dàng.

Nế u chỉ vớ i nhữ ng con số sẽ không nói lên đư ợ c vấ n đề . Chúng ta cầ n có

thêm nhữ ng báo cáo riêng biệ t củ a mỗ i website dự a vào các phép toán, thư ớ c đo

để phân tích đúng theo tình huố ng cùng bả n chấ t củ a website.

Việ c nên làm không phả i là xây dự ng mộ t hệ thố ng riêng mớ i từ đầ u mà phả i

làm sao cho hệ thố ng mớ i sử dụ ng đư ợ c hiệ u quả nhấ t và dầ n dầ n có thể

phá triể n thông hệ thố ng độ c lậ p. GA hiệ n nay thiế u về Business Intelligent

cũng như chư a có nhữ ng phân tích đầ y đủ cụ thể hữ u ích cho mộ t trang tin

điệ n tử như vnexpress.

Các đề nghị cho dự án

Vẫ n tiế p tụ c sử dụ ng Google Analytics cho việ c thu thậ p và lư u trữ thông tin.

Như ng cũng đồ ng thờ i lư u lạ i tấ t cả nhữ ng thông tin mà Google có đư ợ c để

sử dụ ng. Bư ớ c ban đầ u xây dự ng mộ t hệ thố ng lư u lạ i các thông tin đó

chư a cầ n thiế t phả i tố i ư u dữ liệ u hay thuậ t toán lư u trữ . (Thự c hiệ n

trong vòng 1,2 tuầ n). Dữ liệ u có thể dùng để so sánh hoặ c tách và tự phát triể n

hệ thố ng riêng sau này.

Xây dự ng các báo cáo đánh giá dữ liệ u riêng. Có thể thự c hiệ n dư ớ i dạ ng lý

thuyế t qua các chuyên gia phân tích thố ng kê. Thờ i gian cầ n thiế t để thự c hiệ n

chư a xác đị nh.

Nghiên cứ u các Web Analytics nguồ n mở hiệ n tạ i để họ c hỏ i về cấ u trúc, mô

hình và các thành phầ n có thể sử dụ ng lạ i trong dự án nế u tư ơ ng thích và phù

hợ p. Có thể dùng như mộ t framework phát triể n.

Hiệ n thự c hệ thố ng hiể n thị các báo cáo cầ n thiế t ấ y bằ ng mộ t hệ thố ng

báo cáo riêng sử dụ ng các API cung cấ p dữ liệ u lư u trữ từ Google Analytics.

Dự ng mộ t Presentation layer cho hệ thố ng. Cho phép các nhà quả n trị , quả n lý

truy cậ p theo từ ng view và có góc nhìn phù hợ p dễ hiể u nhấ t. Quan trọ ng nhấ t

vẫ n là cung cấ p thông tin phù hợ p chứ không phả i làm y hệ t như GA.

Xây dự ng lớ p Business cho hệ thố ng sử dụ ng raw data để cung cấ p các dữ liệ u qua API cho Presentation layer. Tố i ư u hóa việ c lư u trữ và thuậ t toán truy

vấ n để xử lý nhanh hơ n tố t hơ n. Thờ i gian thự c hiệ n trong vòng 2 tháng.

Các dữ liệu sử dụng được từ OWA và Piwik

Các thông tin truyền về từ file JS của OWA gửi đến log.php:

timestamp (thờ i gian ngư ờ i dùng truy cậ p)

page_url (đị a chỉ truy cậ p)

event_type (loạ i truy cậ p: vd: page request).

HTTP_REFERER ( truy cậ p từ đâu).

(các thông tin lư u và lấ y từ cookies truyề n về server): visitor_id (id củ a ngư ờ i truy cậ p lấ y từ Cookies)

fsts (thờ i gian truy cậ p lầ n đầ u tiên)

dsfs (ngày từ lầ n truy cậ p lầ n đầ u tiên)

last_req (request cuố i cùng lúc)

session_id (id củ a session mà ngư ờ i dùng đang truy cậ p)

nps (số session đã dùng).

dps (ngày từ lầ n truy cậ p cuố i).

medium (cách truy cậ p: direct, referal, organic-search)

source (nguồ n nế u medium là referal hoặ c organic-search).

search_terms (từ khóa tìm kiế m nế u medium là organic-search). session_referer (???)

site_id (id củ a site)

Các thông tin lấ y đư ợ c từ request header:

User-Agent:Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko)

Chrome/17.0.963.56 Safari/535.11

Các thông tin truyền về từ file JS của Piwik gửi đến piwik.php:

Idsite: id củ a site

rec: (1 nế u muố n track, 0 nế u không muố n track)

r:(1 chuỗ i số ngẫ u nhiên?)

h,m,s: giờ phút giây.

Url: đị a chỉ truy cậ p

_id: user id

_idts: ngày truy cậ p đầ u

_idvc: số lầ n truy cậ p

_idn: (0 nế u là ngư ờ i dùng mớ i, hiệ n tạ i chư a dùng).

_refts: referal timestamp

_viewts: lầ n truy cậ p cuố i cùng/

_ref: url giớ i thiệ u

pdf: (1

- hỗ trợ pdf)

qt: (1 - hỗ trợ quicktime)

realp: (1 nế u hỗ trợ realplayer)

wma: (1 nế u hỗ trợ wmp)

dir: (1 nế u hỗ trợ x-director)

fla: (1 nế u hỗ trợ flash)

java: (1 nế u hỗ trợ java)

gears: (1 nế u hỗ trợ googlegears)

ag: (1 nế u hỗ trợ siverlight)

res: (độ phân giả i màn hình)

cookie:(1 nế u hỗ trợ cookie)

_cvar: (custom variable bên ngoài)

Các thông tin truyền về từ file JS của GA gửi đến __utm.gif:

'utmhn' # Host Name, which is a URL-encoded string.

'utmp' # Page request of the current page.

'utmr' # Referral, complete URL.

'utmvid' => 'visitor_id', #

'utmip' => 'remote_ip', #

'utmcs' # Language encoding for the browser. Some browsers don't set this, in which

case it is set to "-"

'utmul' # Browser language.

'utmje' # Indicates if browser is Java-enabled. 1 is true.

'utmsc' # Screen color depth

'utmsr' # Screen resolution

'utmfl' # Flash Version

Glossary

- first party cookie: Cookies đư ợ c lư u trữ vớ i tên domain củ a website đang theo dõi.