Nguyen cuu ve phan mem phan tich truy cap Website

9
Nghiên cứu về phần mềm phân tích truy cập website Thc hin: Lê Kiế n Trúc Nội dung Vweb analytics....................................................................................................... 1 Phân loi ......................................................................................................... 1 Danh sách các phn mm web analytic mã ngun msdng page tag................. 2 Phân tích vkiế n trúc và mô hình hot đng ca page tag Web analytic ................ 2 Phân tích Google Analytics........................................................................................... 2 Cookies ........................................................................................................... 2 Tracking code .................................................................................................... 3 Dashboard......................................................................................................... 3 Hthng nn ................................................................................................ 4 Nhn xét đánh giá ..................................................................................................... 4 Các đnghcho dán ........................................................................................... 4 Các dliu sdng đượ c tOWA và Piwik .......................................... 6 Các thông tin truy n vtfile JS ca OWA gi đế n log.php: ............. 6 Các thông tin truy n vtfile JS ca Piwik gi đế n piwik.php: ........... 6 Các thông tin truy n vtfile JS ca GA gi đế n __utm.gif: ............... 7 Glossary ................................................................................................................... 9 Về web analytics Web analytic là mt công cdùng đthu thp, đo, phân tích và báo cáo các dliu ca website nhm mc đích hiu và ti ư u, ngoài ra có thdùng cho các nghiên cu kinh doanh và thtrườ ng Phân loại Có 2 phân loi web analytic chính: phân tích tp tin nht kí (logfile) và gn nhúng vào trang (pagetag). Ngoài ra còn có dng phn mm lai sdng c2 ngun thông tin đđư a ra dliu chính xác. (ý tưở ng kế t hp logfile và pagetage đphát hin và chng chi vi ddos). Mi hướ ng tiế p cn có ư u đim riêng như ng cách sdng page tag đang rt phbiế n. Tuy nhiên vi xu hướ ng web 2.0 sdng các công nghmi như Ajax, vic sdng page tag đem li nhiu thông tin hơ n ví dbiế t đượ c ngườ i dùng hay chú ý di chuyn chut chnào. Hoc thi gian đxác đnh di chuyn đế n nơ i quan tâm, thi gian li trang... Tuy nhiên có thbphn đi khi theo dõi quá mc ngườ i

Transcript of Nguyen cuu ve phan mem phan tich truy cap Website

Page 1: Nguyen cuu ve phan mem phan tich truy cap Website

Nghiên cứu về phần mềm phân tích truy cập website

Thự c hiệ n: Lê Kiế n Trúc

Nội dung

Về web analytics....................................................................................................... 1

Phân loạ i ......................................................................................................... 1

Danh sách các phầ n mề m web analytic mã nguồ n mở sử dụ ng page tag................. 2

Phân tích về kiế n trúc và mô hình hoạ t độ ng củ a page tag Web analytic ................ 2

Phân tích Google Analytics........................................................................................... 2

Cookies ........................................................................................................... 2

Tracking code .................................................................................................... 3

Dashboard......................................................................................................... 3 Hệ thố ng nề n................................................................................................ 4

Nhậ n xét đánh giá ..................................................................................................... 4

Các đề nghị cho dự án ........................................................................................... 4

Các dữ liệ u sử dụ ng đư ợ c từ OWA và Piwik .......................................... 6 Các thông tin truyề n về từ file JS củ a OWA gử i đế n log.php: ............. 6

Các thông tin truyề n về từ file JS củ a Piwik gử i đế n piwik.php: ........... 6

Các thông tin truyề n về từ file JS củ a GA gử i đế n __utm.gif: ............... 7

Glossary ................................................................................................................... 9

Về web analytics

Web analytic là mộ t công cụ dùng để thu thậ p, đo, phân tích và báo cáo các dữ liệ u củ a

website nhằ m mụ c đích hiể u và tố i ư u, ngoài ra có thể dùng cho các nghiên cứ u kinh

doanh và thị trư ờ ng

Phân loại

Có 2 phân loạ i web analytic chính: phân tích tậ p tin nhậ t kí (logfile) và gắ n nhúng vào trang

(pagetag). Ngoài ra còn có dạ ng phầ n mề m lai sử dụ ng cả 2 nguồ n thông tin để đư a ra

dữ liệ u chính xác. (ý tư ở ng kế t hợ p logfile và pagetage để phát hiệ n và chố ng chọ i

vớ i ddos).

Mỗ i hư ớ ng tiế p cậ n có ư u điể m riêng như ng cách sử dụ ng page tag đang rấ t phổ

biế n. Tuy nhiên vớ i xu hư ớ ng web 2.0 sử dụ ng các công nghệ mớ i như Ajax, việ c sử

dụ ng page tag đem lạ i nhiề u thông tin hơ n ví dụ biế t đư ợ c ngư ờ i dùng hay chú ý di

chuyể n chuộ t ở chỗ nào. Hoặ c thờ i gian để xác đị nh di chuyể n đế n nơ i quan tâm, thờ i gian ở lạ i trang... Tuy nhiên có thể bị phả n đố i khi theo dõi quá mứ c ngư ờ i

Page 2: Nguyen cuu ve phan mem phan tich truy cap Website

dùng.

Vì vậ y việ c sử dụ ng pagetag là yêu cầ u cầ n thiế t. Google Analytic cũng sử dụ ng page

tag.

Danh sách các phần mềm web analytic mã nguồn mở sử dụng page tag

CrawlTrack: chỉ sử dụ ng PHP để lấ y thông tin.

Open web Analytics:

Giấ y phép sử dụ ng: GPL v2.

Giao diệ n trự c quan giố ng và gầ n gũi vớ i Google Analytic.

Tính năng nổ i bậ t “Click Heatmaps”, “Mouse Movements”, “DOM Click Tracking”.

Kiế n trúc framework hỗ trợ viế t thêm các tính năng plugin.

Piwik Web Analytics:

Giấ y phép sử dụ ng: GPL v3

Phầ n mề m hỗ trợ hiể n thị trên điệ n thoạ i di độ ng. Kiế n trúc framework hỗ trợ viế t thêm các tính năng plugin.

Phân tích về kiến trúc và mô hình hoạt động của page tag Web analytic

Phân tích Google Analytics

Cookies

(http://code.google.com/apis/analytics/docs/concepts/gaConceptsCookies.html)

Plugin colects info on tracking site

Receive and store data on server

Query, analysis and

display useful informations

Page 3: Nguyen cuu ve phan mem phan tich truy cap Website

__utma: Cookie này cho phép theo dõi số lầ n mộ t ngư ờ i khác đế n trang. Lúc nào là lầ n

đầ u tiên và lầ n cuố i cùng họ đế n. Cookies này hế t hạ n sau 2 năm kể từ lúc gán, cậ p

nhậ t - đư ợ c xem là sẽ tồ n tạ i mãi mãi.

__utmb và __utmc: làm việ c cùng vớ i nhau để tính toán ngư ờ i dùng truy cậ p trong bao lâu.

__utmb lấ y thờ i gian chính xác khi ngư ờ i dùng vào mộ t trang trong khi đó __utmc lấ y thờ i gian chính xác khi ngư ờ i dùng rờ i trang. __utmb sẽ hế t hạ n khi kế t thúc session. __utmc

đợ i ba mư ơ i phút và sau đó sẽ hế t hạ n. Trong phiên bả n mớ i củ a ga.js không còn dùng

__utmc.

__utmz: theo dõi nơ i ngư ờ i dùng đế n, search engine nào mà họ đã sử dụ ng, link nào đã nhấ n vào, keyworkd nào họ đã sử dụ ng, và nơ i họ ở . Nó sẽ hế t hạ n trong sau 6

tháng và đư ợ c cậ p nhậ t mỗ i khi ngư ờ i dùng truy cậ p

__utmv: nế u sử dụ ng user-defined report. __utmv cookie sẽ sử dụ ng trên máy ngư ờ i

dùng. Dùng để đánh giá xế p hạ ng. Đây là dạ ng cookie tồ n tạ i mãi mãi.

__utmx: cookie đư ợ c sử dụ ng bở i Google Website Optimizer

Tracking code

http://code.google.com/apis/analytics/docs/concepts/gaConceptsOverview.html Cách Google lấ y và truyề n thông tin củ a ngư ờ i truy cậ p website:

Bở i vì javascript không cho phép việ c cross domain. Nên GA request đế n tậ p tin ả nh giả

cùng vớ i các tham số cầ n thiế t bao gồ m cả cookies để gử i thông tin về cho server.

Tậ p tin có tên __utm.gif.

- Thông tin User Agent còn đư ợ c lấ y thông qua HTTP header.

Đây là nhữ ng thông tin mà GA lấ y để đư a vào cơ sở dữ liệ u.

Dashboard

Là nơ i hiể n thị các báo cáo, phân tích củ a GA dự a trên dữ liệ u thu thậ p đư ợ c. Các

chứ c năng mà GA cung cấ p.

Standard Report củ a GA gồ m:

Tổ ng thể báo cáo về ngư ờ i truy cậ p: lư ợ ng truy cậ p, lư ợ ng khách truy cậ p duy nhấ t, số trang xem, số trang mỗ i lúc truy cậ p, thờ i gian trung bình trên trang,

Bounce Rate (tỷ lệ chỉ truy cậ p 1 trang duy nhấ t trong 1 lầ n xem), lư ợ ng

ngư ờ i truy cậ p mớ i.

Các báo cáo về đị a lý, khu vự c, ngôn ngữ .

Báo cáo về hành vi: lư ợ ng ngư ờ i truy cậ p mớ i và quay lạ i. Độ thư ờ ng xuyên

quay lạ i. Thờ i gian ở lạ i + số lư ợ ng trang truy cậ p.

Báo cáo về công nghệ : trình duyệ t và hệ điề u hành.

Cụ m chứ c năng về mạ ng xã hộ i. Thông tin thố ng kê khi ngư ờ i dùng click vào

nút share like trên các mạ ng xã hộ i.

Thố ng kê truy cậ p trên các thiế t bị di độ ng.

Visitors flow: thố ng kê về các luồ ng, trang truy cậ p củ a ngư ờ i dùng.

Thố ng kê dùng cho quả ng cáo, sử dụ ng chung vớ i Adwords

Page 4: Nguyen cuu ve phan mem phan tich truy cap Website

Thố ng kê nguồ n truy cậ p: các từ khóa dùng để tìm kiế m, máy tìm kiế m, các trang

dẫ n đế n và trang truy cậ p đế n nhiề u nhấ t.

Thố ng kê dùng để tố i ư u tìm kiế m vớ i thông tin tìm kiế m củ a Google.

Thố ng kê về nộ i dung trang gồ m: tên trang, từ khóa tìm kiế m đế n trang, Content

Drilldown (cấ p độ các đị a chỉ ), trang đế n và trang thoát. Tố c độ tả i trang theo từ ng trang kế t hợ p vớ i tỉ lệ rờ i trang đó.

Thố ng kê thông tin tìm kiế m trên trang dùng máy tìm kiế m củ a website.

Thố ng kê sự kiệ n (events), khi ngư ờ i dùng tư ơ ng tác lên vớ i trang sử dụ ng

Ajax, flash hoặ c java, ví dụ khi nhấ n nút play mộ t tậ p tin nhạ c. Thố ng kê adsense dành cho việ c đặ t quả ng cáo trên trang.

In page analytics. Thố ng kê theo từ ng trang truy cậ p. Có thố ng kê số lư ợ ng click

từ ng khu vự c.

Phân tích về xu hư ớ ng. Có thể đặ t ra các mụ c tiêu ngư ờ i dùng đạ t đư ợ c và

giá trị củ a chúng.

Phân tích thư ơ ng mạ i điệ n tử dự a vào sả n phẩ m, doanh số và giao dị ch.

Ngoài ra GA cũng có 1 trang theo dõi phân tích cụ thể về truy cậ p thờ i gian thự c:

Khách truy cậ p hiệ n tạ i, số lư ợ ng mớ i cũ. Số lư ợ ng trang xem, nhữ ng trang

đư ợ c xem nhiề u. Các thông tin cơ bả n tư ơ ng tự như báo cáo chuẩ n như ng

đư ợ c thự c hiệ n thờ i gian thự c.

Phân tích về các sự kiệ n, dự a vào các con số thố ng kê đư a ra sự tăng giả m

củ a các chỉ số qua từ ng giai đoạ n và độ quan trọ ng củ a chỉ số ấ y.

Thêm các dashboard chứ a các widget tùy thích để xem đư ợ c các thông tin dễ dàng

và có ý nghĩa nhấ t.

Hệ thống nền

Không có thông tin chính thứ c về hệ thố ng nề n sử dụ ng cho dị ch vụ Google analytics

củ a Google. Tuy nhiên có nhiề u phỏ ng đoán rằ ng họ sử dụ ng BigTable cho việ c lư u

trữ và thuậ t toán MapReduce, Hadoop để xử lý đồ ng thờ i lư ợ ng lớ n dữ liệ u.

Nhận xét đánh giá

Việ c thu thậ p và lư u trữ dữ liệ u là quan trọ ng, như ng việ c dùng nhữ ng dữ

liệ u ấ y phân tích đánh giá và đư a ra các quyế t đị nh không phả i là dễ dàng.

Nế u chỉ vớ i nhữ ng con số sẽ không nói lên đư ợ c vấ n đề . Chúng ta cầ n có

thêm nhữ ng báo cáo riêng biệ t củ a mỗ i website dự a vào các phép toán, thư ớ c đo

để phân tích đúng theo tình huố ng cùng bả n chấ t củ a website.

Việ c nên làm không phả i là xây dự ng mộ t hệ thố ng riêng mớ i từ đầ u mà phả i

làm sao cho hệ thố ng mớ i sử dụ ng đư ợ c hiệ u quả nhấ t và dầ n dầ n có thể

phá triể n thông hệ thố ng độ c lậ p. GA hiệ n nay thiế u về Business Intelligent

cũng như chư a có nhữ ng phân tích đầ y đủ cụ thể hữ u ích cho mộ t trang tin

điệ n tử như vnexpress.

Page 5: Nguyen cuu ve phan mem phan tich truy cap Website

Các đề nghị cho dự án

Vẫ n tiế p tụ c sử dụ ng Google Analytics cho việ c thu thậ p và lư u trữ thông tin.

Như ng cũng đồ ng thờ i lư u lạ i tấ t cả nhữ ng thông tin mà Google có đư ợ c để

sử dụ ng. Bư ớ c ban đầ u xây dự ng mộ t hệ thố ng lư u lạ i các thông tin đó

chư a cầ n thiế t phả i tố i ư u dữ liệ u hay thuậ t toán lư u trữ . (Thự c hiệ n

trong vòng 1,2 tuầ n). Dữ liệ u có thể dùng để so sánh hoặ c tách và tự phát triể n

hệ thố ng riêng sau này.

Xây dự ng các báo cáo đánh giá dữ liệ u riêng. Có thể thự c hiệ n dư ớ i dạ ng lý

thuyế t qua các chuyên gia phân tích thố ng kê. Thờ i gian cầ n thiế t để thự c hiệ n

chư a xác đị nh.

Nghiên cứ u các Web Analytics nguồ n mở hiệ n tạ i để họ c hỏ i về cấ u trúc, mô

hình và các thành phầ n có thể sử dụ ng lạ i trong dự án nế u tư ơ ng thích và phù

hợ p. Có thể dùng như mộ t framework phát triể n.

Hiệ n thự c hệ thố ng hiể n thị các báo cáo cầ n thiế t ấ y bằ ng mộ t hệ thố ng

báo cáo riêng sử dụ ng các API cung cấ p dữ liệ u lư u trữ từ Google Analytics.

Dự ng mộ t Presentation layer cho hệ thố ng. Cho phép các nhà quả n trị , quả n lý

truy cậ p theo từ ng view và có góc nhìn phù hợ p dễ hiể u nhấ t. Quan trọ ng nhấ t

vẫ n là cung cấ p thông tin phù hợ p chứ không phả i làm y hệ t như GA.

Xây dự ng lớ p Business cho hệ thố ng sử dụ ng raw data để cung cấ p các dữ liệ u qua API cho Presentation layer. Tố i ư u hóa việ c lư u trữ và thuậ t toán truy

vấ n để xử lý nhanh hơ n tố t hơ n. Thờ i gian thự c hiệ n trong vòng 2 tháng.

Page 6: Nguyen cuu ve phan mem phan tich truy cap Website

Các dữ liệu sử dụng được từ OWA và Piwik

Các thông tin truyền về từ file JS của OWA gửi đến log.php:

timestamp (thờ i gian ngư ờ i dùng truy cậ p)

page_url (đị a chỉ truy cậ p)

event_type (loạ i truy cậ p: vd: page request).

HTTP_REFERER ( truy cậ p từ đâu).

(các thông tin lư u và lấ y từ cookies truyề n về server): visitor_id (id củ a ngư ờ i truy cậ p lấ y từ Cookies)

fsts (thờ i gian truy cậ p lầ n đầ u tiên)

dsfs (ngày từ lầ n truy cậ p lầ n đầ u tiên)

last_req (request cuố i cùng lúc)

session_id (id củ a session mà ngư ờ i dùng đang truy cậ p)

nps (số session đã dùng).

dps (ngày từ lầ n truy cậ p cuố i).

medium (cách truy cậ p: direct, referal, organic-search)

source (nguồ n nế u medium là referal hoặ c organic-search).

search_terms (từ khóa tìm kiế m nế u medium là organic-search). session_referer (???)

site_id (id củ a site)

Các thông tin lấ y đư ợ c từ request header:

User-Agent:Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko)

Chrome/17.0.963.56 Safari/535.11

Các thông tin truyền về từ file JS của Piwik gửi đến piwik.php:

Idsite: id củ a site

rec: (1 nế u muố n track, 0 nế u không muố n track)

r:(1 chuỗ i số ngẫ u nhiên?)

h,m,s: giờ phút giây.

Url: đị a chỉ truy cậ p

_id: user id

_idts: ngày truy cậ p đầ u

Page 7: Nguyen cuu ve phan mem phan tich truy cap Website

_idvc: số lầ n truy cậ p

_idn: (0 nế u là ngư ờ i dùng mớ i, hiệ n tạ i chư a dùng).

_refts: referal timestamp

_viewts: lầ n truy cậ p cuố i cùng/

_ref: url giớ i thiệ u

pdf: (1

- hỗ trợ pdf)

qt: (1 - hỗ trợ quicktime)

realp: (1 nế u hỗ trợ realplayer)

wma: (1 nế u hỗ trợ wmp)

dir: (1 nế u hỗ trợ x-director)

fla: (1 nế u hỗ trợ flash)

java: (1 nế u hỗ trợ java)

gears: (1 nế u hỗ trợ googlegears)

ag: (1 nế u hỗ trợ siverlight)

res: (độ phân giả i màn hình)

cookie:(1 nế u hỗ trợ cookie)

_cvar: (custom variable bên ngoài)

Các thông tin truyền về từ file JS của GA gửi đến __utm.gif:

'utmhn' # Host Name, which is a URL-encoded string.

'utmp' # Page request of the current page.

'utmr' # Referral, complete URL.

'utmvid' => 'visitor_id', #

'utmip' => 'remote_ip', #

'utmcs' # Language encoding for the browser. Some browsers don't set this, in which

Page 8: Nguyen cuu ve phan mem phan tich truy cap Website

case it is set to "-"

'utmul' # Browser language.

'utmje' # Indicates if browser is Java-enabled. 1 is true.

'utmsc' # Screen color depth

'utmsr' # Screen resolution

'utmfl' # Flash Version

Page 9: Nguyen cuu ve phan mem phan tich truy cap Website

Glossary

- first party cookie: Cookies đư ợ c lư u trữ vớ i tên domain củ a website đang theo dõi.