Nghiên cứu về phần mềm phân tích truy cập website
Thự c hiệ n: Lê Kiế n Trúc
Nội dung
Về web analytics....................................................................................................... 1
Phân loạ i ......................................................................................................... 1
Danh sách các phầ n mề m web analytic mã nguồ n mở sử dụ ng page tag................. 2
Phân tích về kiế n trúc và mô hình hoạ t độ ng củ a page tag Web analytic ................ 2
Phân tích Google Analytics........................................................................................... 2
Cookies ........................................................................................................... 2
Tracking code .................................................................................................... 3
Dashboard......................................................................................................... 3 Hệ thố ng nề n................................................................................................ 4
Nhậ n xét đánh giá ..................................................................................................... 4
Các đề nghị cho dự án ........................................................................................... 4
Các dữ liệ u sử dụ ng đư ợ c từ OWA và Piwik .......................................... 6 Các thông tin truyề n về từ file JS củ a OWA gử i đế n log.php: ............. 6
Các thông tin truyề n về từ file JS củ a Piwik gử i đế n piwik.php: ........... 6
Các thông tin truyề n về từ file JS củ a GA gử i đế n __utm.gif: ............... 7
Glossary ................................................................................................................... 9
Về web analytics
Web analytic là mộ t công cụ dùng để thu thậ p, đo, phân tích và báo cáo các dữ liệ u củ a
website nhằ m mụ c đích hiể u và tố i ư u, ngoài ra có thể dùng cho các nghiên cứ u kinh
doanh và thị trư ờ ng
Phân loại
Có 2 phân loạ i web analytic chính: phân tích tậ p tin nhậ t kí (logfile) và gắ n nhúng vào trang
(pagetag). Ngoài ra còn có dạ ng phầ n mề m lai sử dụ ng cả 2 nguồ n thông tin để đư a ra
dữ liệ u chính xác. (ý tư ở ng kế t hợ p logfile và pagetage để phát hiệ n và chố ng chọ i
vớ i ddos).
Mỗ i hư ớ ng tiế p cậ n có ư u điể m riêng như ng cách sử dụ ng page tag đang rấ t phổ
biế n. Tuy nhiên vớ i xu hư ớ ng web 2.0 sử dụ ng các công nghệ mớ i như Ajax, việ c sử
dụ ng page tag đem lạ i nhiề u thông tin hơ n ví dụ biế t đư ợ c ngư ờ i dùng hay chú ý di
chuyể n chuộ t ở chỗ nào. Hoặ c thờ i gian để xác đị nh di chuyể n đế n nơ i quan tâm, thờ i gian ở lạ i trang... Tuy nhiên có thể bị phả n đố i khi theo dõi quá mứ c ngư ờ i
dùng.
Vì vậ y việ c sử dụ ng pagetag là yêu cầ u cầ n thiế t. Google Analytic cũng sử dụ ng page
tag.
Danh sách các phần mềm web analytic mã nguồn mở sử dụng page tag
CrawlTrack: chỉ sử dụ ng PHP để lấ y thông tin.
Open web Analytics:
Giấ y phép sử dụ ng: GPL v2.
Giao diệ n trự c quan giố ng và gầ n gũi vớ i Google Analytic.
Tính năng nổ i bậ t “Click Heatmaps”, “Mouse Movements”, “DOM Click Tracking”.
Kiế n trúc framework hỗ trợ viế t thêm các tính năng plugin.
Piwik Web Analytics:
Giấ y phép sử dụ ng: GPL v3
Phầ n mề m hỗ trợ hiể n thị trên điệ n thoạ i di độ ng. Kiế n trúc framework hỗ trợ viế t thêm các tính năng plugin.
Phân tích về kiến trúc và mô hình hoạt động của page tag Web analytic
Phân tích Google Analytics
Cookies
(http://code.google.com/apis/analytics/docs/concepts/gaConceptsCookies.html)
Plugin colects info on tracking site
Receive and store data on server
Query, analysis and
display useful informations
__utma: Cookie này cho phép theo dõi số lầ n mộ t ngư ờ i khác đế n trang. Lúc nào là lầ n
đầ u tiên và lầ n cuố i cùng họ đế n. Cookies này hế t hạ n sau 2 năm kể từ lúc gán, cậ p
nhậ t - đư ợ c xem là sẽ tồ n tạ i mãi mãi.
__utmb và __utmc: làm việ c cùng vớ i nhau để tính toán ngư ờ i dùng truy cậ p trong bao lâu.
__utmb lấ y thờ i gian chính xác khi ngư ờ i dùng vào mộ t trang trong khi đó __utmc lấ y thờ i gian chính xác khi ngư ờ i dùng rờ i trang. __utmb sẽ hế t hạ n khi kế t thúc session. __utmc
đợ i ba mư ơ i phút và sau đó sẽ hế t hạ n. Trong phiên bả n mớ i củ a ga.js không còn dùng
__utmc.
__utmz: theo dõi nơ i ngư ờ i dùng đế n, search engine nào mà họ đã sử dụ ng, link nào đã nhấ n vào, keyworkd nào họ đã sử dụ ng, và nơ i họ ở . Nó sẽ hế t hạ n trong sau 6
tháng và đư ợ c cậ p nhậ t mỗ i khi ngư ờ i dùng truy cậ p
__utmv: nế u sử dụ ng user-defined report. __utmv cookie sẽ sử dụ ng trên máy ngư ờ i
dùng. Dùng để đánh giá xế p hạ ng. Đây là dạ ng cookie tồ n tạ i mãi mãi.
__utmx: cookie đư ợ c sử dụ ng bở i Google Website Optimizer
Tracking code
http://code.google.com/apis/analytics/docs/concepts/gaConceptsOverview.html Cách Google lấ y và truyề n thông tin củ a ngư ờ i truy cậ p website:
Bở i vì javascript không cho phép việ c cross domain. Nên GA request đế n tậ p tin ả nh giả
cùng vớ i các tham số cầ n thiế t bao gồ m cả cookies để gử i thông tin về cho server.
Tậ p tin có tên __utm.gif.
- Thông tin User Agent còn đư ợ c lấ y thông qua HTTP header.
Đây là nhữ ng thông tin mà GA lấ y để đư a vào cơ sở dữ liệ u.
Dashboard
Là nơ i hiể n thị các báo cáo, phân tích củ a GA dự a trên dữ liệ u thu thậ p đư ợ c. Các
chứ c năng mà GA cung cấ p.
Standard Report củ a GA gồ m:
Tổ ng thể báo cáo về ngư ờ i truy cậ p: lư ợ ng truy cậ p, lư ợ ng khách truy cậ p duy nhấ t, số trang xem, số trang mỗ i lúc truy cậ p, thờ i gian trung bình trên trang,
Bounce Rate (tỷ lệ chỉ truy cậ p 1 trang duy nhấ t trong 1 lầ n xem), lư ợ ng
ngư ờ i truy cậ p mớ i.
Các báo cáo về đị a lý, khu vự c, ngôn ngữ .
Báo cáo về hành vi: lư ợ ng ngư ờ i truy cậ p mớ i và quay lạ i. Độ thư ờ ng xuyên
quay lạ i. Thờ i gian ở lạ i + số lư ợ ng trang truy cậ p.
Báo cáo về công nghệ : trình duyệ t và hệ điề u hành.
Cụ m chứ c năng về mạ ng xã hộ i. Thông tin thố ng kê khi ngư ờ i dùng click vào
nút share like trên các mạ ng xã hộ i.
Thố ng kê truy cậ p trên các thiế t bị di độ ng.
Visitors flow: thố ng kê về các luồ ng, trang truy cậ p củ a ngư ờ i dùng.
Thố ng kê dùng cho quả ng cáo, sử dụ ng chung vớ i Adwords
Thố ng kê nguồ n truy cậ p: các từ khóa dùng để tìm kiế m, máy tìm kiế m, các trang
dẫ n đế n và trang truy cậ p đế n nhiề u nhấ t.
Thố ng kê dùng để tố i ư u tìm kiế m vớ i thông tin tìm kiế m củ a Google.
Thố ng kê về nộ i dung trang gồ m: tên trang, từ khóa tìm kiế m đế n trang, Content
Drilldown (cấ p độ các đị a chỉ ), trang đế n và trang thoát. Tố c độ tả i trang theo từ ng trang kế t hợ p vớ i tỉ lệ rờ i trang đó.
Thố ng kê thông tin tìm kiế m trên trang dùng máy tìm kiế m củ a website.
Thố ng kê sự kiệ n (events), khi ngư ờ i dùng tư ơ ng tác lên vớ i trang sử dụ ng
Ajax, flash hoặ c java, ví dụ khi nhấ n nút play mộ t tậ p tin nhạ c. Thố ng kê adsense dành cho việ c đặ t quả ng cáo trên trang.
In page analytics. Thố ng kê theo từ ng trang truy cậ p. Có thố ng kê số lư ợ ng click
từ ng khu vự c.
Phân tích về xu hư ớ ng. Có thể đặ t ra các mụ c tiêu ngư ờ i dùng đạ t đư ợ c và
giá trị củ a chúng.
Phân tích thư ơ ng mạ i điệ n tử dự a vào sả n phẩ m, doanh số và giao dị ch.
Ngoài ra GA cũng có 1 trang theo dõi phân tích cụ thể về truy cậ p thờ i gian thự c:
Khách truy cậ p hiệ n tạ i, số lư ợ ng mớ i cũ. Số lư ợ ng trang xem, nhữ ng trang
đư ợ c xem nhiề u. Các thông tin cơ bả n tư ơ ng tự như báo cáo chuẩ n như ng
đư ợ c thự c hiệ n thờ i gian thự c.
Phân tích về các sự kiệ n, dự a vào các con số thố ng kê đư a ra sự tăng giả m
củ a các chỉ số qua từ ng giai đoạ n và độ quan trọ ng củ a chỉ số ấ y.
Thêm các dashboard chứ a các widget tùy thích để xem đư ợ c các thông tin dễ dàng
và có ý nghĩa nhấ t.
Hệ thống nền
Không có thông tin chính thứ c về hệ thố ng nề n sử dụ ng cho dị ch vụ Google analytics
củ a Google. Tuy nhiên có nhiề u phỏ ng đoán rằ ng họ sử dụ ng BigTable cho việ c lư u
trữ và thuậ t toán MapReduce, Hadoop để xử lý đồ ng thờ i lư ợ ng lớ n dữ liệ u.
Nhận xét đánh giá
Việ c thu thậ p và lư u trữ dữ liệ u là quan trọ ng, như ng việ c dùng nhữ ng dữ
liệ u ấ y phân tích đánh giá và đư a ra các quyế t đị nh không phả i là dễ dàng.
Nế u chỉ vớ i nhữ ng con số sẽ không nói lên đư ợ c vấ n đề . Chúng ta cầ n có
thêm nhữ ng báo cáo riêng biệ t củ a mỗ i website dự a vào các phép toán, thư ớ c đo
để phân tích đúng theo tình huố ng cùng bả n chấ t củ a website.
Việ c nên làm không phả i là xây dự ng mộ t hệ thố ng riêng mớ i từ đầ u mà phả i
làm sao cho hệ thố ng mớ i sử dụ ng đư ợ c hiệ u quả nhấ t và dầ n dầ n có thể
phá triể n thông hệ thố ng độ c lậ p. GA hiệ n nay thiế u về Business Intelligent
cũng như chư a có nhữ ng phân tích đầ y đủ cụ thể hữ u ích cho mộ t trang tin
điệ n tử như vnexpress.
Các đề nghị cho dự án
Vẫ n tiế p tụ c sử dụ ng Google Analytics cho việ c thu thậ p và lư u trữ thông tin.
Như ng cũng đồ ng thờ i lư u lạ i tấ t cả nhữ ng thông tin mà Google có đư ợ c để
sử dụ ng. Bư ớ c ban đầ u xây dự ng mộ t hệ thố ng lư u lạ i các thông tin đó
chư a cầ n thiế t phả i tố i ư u dữ liệ u hay thuậ t toán lư u trữ . (Thự c hiệ n
trong vòng 1,2 tuầ n). Dữ liệ u có thể dùng để so sánh hoặ c tách và tự phát triể n
hệ thố ng riêng sau này.
Xây dự ng các báo cáo đánh giá dữ liệ u riêng. Có thể thự c hiệ n dư ớ i dạ ng lý
thuyế t qua các chuyên gia phân tích thố ng kê. Thờ i gian cầ n thiế t để thự c hiệ n
chư a xác đị nh.
Nghiên cứ u các Web Analytics nguồ n mở hiệ n tạ i để họ c hỏ i về cấ u trúc, mô
hình và các thành phầ n có thể sử dụ ng lạ i trong dự án nế u tư ơ ng thích và phù
hợ p. Có thể dùng như mộ t framework phát triể n.
Hiệ n thự c hệ thố ng hiể n thị các báo cáo cầ n thiế t ấ y bằ ng mộ t hệ thố ng
báo cáo riêng sử dụ ng các API cung cấ p dữ liệ u lư u trữ từ Google Analytics.
Dự ng mộ t Presentation layer cho hệ thố ng. Cho phép các nhà quả n trị , quả n lý
truy cậ p theo từ ng view và có góc nhìn phù hợ p dễ hiể u nhấ t. Quan trọ ng nhấ t
vẫ n là cung cấ p thông tin phù hợ p chứ không phả i làm y hệ t như GA.
Xây dự ng lớ p Business cho hệ thố ng sử dụ ng raw data để cung cấ p các dữ liệ u qua API cho Presentation layer. Tố i ư u hóa việ c lư u trữ và thuậ t toán truy
vấ n để xử lý nhanh hơ n tố t hơ n. Thờ i gian thự c hiệ n trong vòng 2 tháng.
Các dữ liệu sử dụng được từ OWA và Piwik
Các thông tin truyền về từ file JS của OWA gửi đến log.php:
timestamp (thờ i gian ngư ờ i dùng truy cậ p)
page_url (đị a chỉ truy cậ p)
event_type (loạ i truy cậ p: vd: page request).
HTTP_REFERER ( truy cậ p từ đâu).
(các thông tin lư u và lấ y từ cookies truyề n về server): visitor_id (id củ a ngư ờ i truy cậ p lấ y từ Cookies)
fsts (thờ i gian truy cậ p lầ n đầ u tiên)
dsfs (ngày từ lầ n truy cậ p lầ n đầ u tiên)
last_req (request cuố i cùng lúc)
session_id (id củ a session mà ngư ờ i dùng đang truy cậ p)
nps (số session đã dùng).
dps (ngày từ lầ n truy cậ p cuố i).
medium (cách truy cậ p: direct, referal, organic-search)
source (nguồ n nế u medium là referal hoặ c organic-search).
search_terms (từ khóa tìm kiế m nế u medium là organic-search). session_referer (???)
site_id (id củ a site)
Các thông tin lấ y đư ợ c từ request header:
User-Agent:Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko)
Chrome/17.0.963.56 Safari/535.11
Các thông tin truyền về từ file JS của Piwik gửi đến piwik.php:
Idsite: id củ a site
rec: (1 nế u muố n track, 0 nế u không muố n track)
r:(1 chuỗ i số ngẫ u nhiên?)
h,m,s: giờ phút giây.
Url: đị a chỉ truy cậ p
_id: user id
_idts: ngày truy cậ p đầ u
_idvc: số lầ n truy cậ p
_idn: (0 nế u là ngư ờ i dùng mớ i, hiệ n tạ i chư a dùng).
_refts: referal timestamp
_viewts: lầ n truy cậ p cuố i cùng/
_ref: url giớ i thiệ u
pdf: (1
- hỗ trợ pdf)
qt: (1 - hỗ trợ quicktime)
realp: (1 nế u hỗ trợ realplayer)
wma: (1 nế u hỗ trợ wmp)
dir: (1 nế u hỗ trợ x-director)
fla: (1 nế u hỗ trợ flash)
java: (1 nế u hỗ trợ java)
gears: (1 nế u hỗ trợ googlegears)
ag: (1 nế u hỗ trợ siverlight)
res: (độ phân giả i màn hình)
cookie:(1 nế u hỗ trợ cookie)
_cvar: (custom variable bên ngoài)
Các thông tin truyền về từ file JS của GA gửi đến __utm.gif:
'utmhn' # Host Name, which is a URL-encoded string.
'utmp' # Page request of the current page.
'utmr' # Referral, complete URL.
'utmvid' => 'visitor_id', #
'utmip' => 'remote_ip', #
'utmcs' # Language encoding for the browser. Some browsers don't set this, in which
case it is set to "-"
'utmul' # Browser language.
'utmje' # Indicates if browser is Java-enabled. 1 is true.
'utmsc' # Screen color depth
'utmsr' # Screen resolution
'utmfl' # Flash Version
Glossary
- first party cookie: Cookies đư ợ c lư u trữ vớ i tên domain củ a website đang theo dõi.
Top Related