Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016
-
Upload
hyunjeong-lee -
Category
Technology
-
view
183 -
download
2
Transcript of Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016
Unsupervised Clickstream Clustering for User Behavior Analysis+ CHI 2016-Gang Wang et al./이현정x 2016 Spring
PAPER
Unsupervised ClickStream Clustering for User Behavior
Analysis
PAPER
PAPER
??
INTRODUCTION
User participation 이 미래 인터넷 서비스의 핵심이다 .
그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.
User Behavior 에 관심을 가지는 것에 대한 정당성
User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음
INTRODUCTION
User participation 이 미래 인터넷 서비스의 핵심이다 .
그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.
User Behavior 에 관심을 가지는 것에 대한 정당성
User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점
대안적인 접근 방식Clickstream
data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )
INTRODUCTION
User participation 이 미래 인터넷 서비스의 핵심이다 .
그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.
User Behavior 에 관심을 가지는 것에 대한 정당성
User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점
대안적인 접근 방식Clickstream
data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )
clickstream
INTRODUCTION
User participation 이 미래 인터넷 서비스의 핵심이다 .
그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.
User Behavior 에 관심을 가지는 것에 대한 정당성
User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점
대안적인 접근 방식Clickstream
data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )
기존 ClickStream연구의 한계 Navigation Path Within a website 에 머물고 있음 혹은 Markov Chain Models 에 의존하여 popular webpage를 예측한다 .
요구사항 1. large noisy clickstream dataset 에도 잘 돌아가야한다요구사항 2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다요구사항 3. help others understand 할 수 있도록 interactive해야한다 .
한계를 극복하기 위한 시스템 요구사항
clickstream
What they made
요구사항 1. large noisy clickstream dataset 에도 잘 돌아가야한다요구사항 2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다요구사항 3. help others understand 할 수 있도록 interactive해야한다 .
한계를 극복하기 위한 시스템 요구사항Clickstream tool
Interactive Visualisation
Clickstream Analysis- hierarchical clustering approach- iterative feature pruning
Clickstream Visualization
How they made it- Clickstream Analysis
How they made it- Clickstream Analysis
Sybil 은 Fake identities and user accounts
How they made it- Clickstream Analysis
dataset= Σ event event = Σdata?
Clickstream Datasets- Server side
How they made it- Clickstream Analysis
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
포스팅을 눈팅 Heart 누르기한 유저 친구요청 보내기
Formatting User Clickstream
How they made it- Clickstream Analysis
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
A(t1) B(t2)한 유저 C(t3)
t1 t2 t3
Formatting User Clickstream
3m 40s 10s
How they made it- Clickstream Analysis
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
A(t1) B(t2)한 유저 C(t3)
g1 g2 g3
Formatting User Clickstream
3m 40s 10s
range of time gap = bucket
Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
edge = similarity distance
Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
edge = similarity distance
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
edge = similarity distance
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
Iterative Feature Pruning & Clustering
How they made it- Clickstream Analysis
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
-> fine grained user behavior clusters 를 찾아내기 위해서
full feature set (union of all k-grams)parent cluster 탄생 !!
Iterative Feature Pruning & Clustering
How they made it- Clickstream Analysis
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
-> fine grained user behavior clusters 를 찾아내기 위해서
C2 이고 아니고를 결정하는 top feature(K-grams) 를 제외하고 돌림C5-6-7 탄생 !!
How they made it- Clickstream Analysis
Iterative Feature Pruning & Clustering
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
-> fine grained user behavior clusters 를 찾아내기 위해서
대한민국 국민
여성낫 여성 no insight
How they made it- Clickstream Analysis
Iterative Feature Pruning & Clustering
Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering
-> fine grained user behavior clusters 를 찾아내기 위해서
대한민국 국민
여성낫 여성
귀염 도발청순 some insight
How they made it- Clickstream Analysis
Application
User Study Results
해석가능한 정보인가 ? “ 왜”를 알 수 있는가 ?• 컴공과 대학원생 15 명을 대상으로 함• each level 에서 dominant 한 cluster 를 보여줌 -> 한문장으로 해석해봐라• 사전에 app 을 써보게 해서 , 대략의 기능을 익힘• 사전에 visualization 이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session 을 함
User Study Results
해석가능한 정보인가 ? “ 왜”를 알 수 있는가 ?• 컴공과 대학원생 15 명을 대상으로 함• each level 에서 dominant 한 cluster 를 보여줌 -> 한문장으로 해석해봐라• 사전에 app 을 써보게 해서 , 대략의 기능을 익힘• 사전에 visualization 이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session 을 함
• 총 555 개의 description 을 받음• 그 중에서 530 개에 사람들이 “해석가능 -> 한문장으로 표현” , 25 개 “해석 불가능 -> 해석못하겠다고 표현”• 한 cluster 당 평균 46 초 만에 답함• 외부전문가들에게 consistency 를 검증함
기존 ClickStream연구의 한계 3) 기존의 clustering methods 들은 largely supervised 혹은 semi-supervised4) 왜 그렇게 행동하는가 ? 에 관한 답은 black box 로 놔둠
Q3. Supervised 의 의미는 무엇인가 Q4. 그럼 이 시스템은 “왜”그런지도 분석해주는가 ?
[ 정답이 없음 =exploratory] Unsupervised learning is the machine learning task of inferring a function to describe hidden structure from unlabeled data.
[ 정답이 있음 ] Supervised learning is the machine learning task of inferring a function from labeled training data.
vs.
not exactly.visualization 을 통해 human 의 해석을 도울뿐
DISCUSSION
DISCUSSION
기존 ClickStream연구의 한계 1) Navigation Path Within a website 에 머물고 있음 2) Markov Chain Models 에 의존하여 popular webpage 를 예측한다 .
Q1. Navigation Path 하고 Clickstream 이 어떻게 다른가
이동Action
-> Markov Chain Model 이 문제가 아니라 , popular webpage 가 한계였던것
Dependent Condition 이어도 converge on predictable
distribution
@=0.85
Q2. Markov Chain Model 에 의존하여 Popular Webpage 를 예측하는것이 왜 한계인가
DISCUSSION
machine 이 잘하는 일 human 이 잘하는 일
How can machines help humans?
How can/should machines and humans cooperate?
DISCUSSION
machine 이 잘하는 일 human 이 잘하는 일
Unsupervised Clickstream Clustering for User Behavior Analysis+ CHI 2016-Gang Wang et al./이현정x 2016 Spring
Thank You!