Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social...

113
Introduction to Social Network Mining 刘淇 [email protected] 语义计算与数据挖掘实验室 计算机学院、语音国家工程实验室

Transcript of Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social...

Page 1: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

Introduction to Social Network Mining

刘 淇[email protected]

语义计算与数据挖掘实验室计算机学院、语音国家工程实验室

Page 2: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

内容大纲

社交网络概述 结点重要性评估 社交影响力分析 社团挖掘

2

社交文本分析 社会化推荐 资料推荐

Page 3: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交网络概述

社交网络 即社交网络服务(SNS,Social Networking Services),是指以

一定社会关系或共同兴趣为纽带、以各种形式为在线聚合的用户提供沟通、交互服务的互联网应用。这种以人与人关系为核心的方式建立的社会关系网络映射在互联网上就形成了以用户为中心、以人为本的互联网应用。

3

为中心 以人为本的互联网应用。

Facebook, MSN, Google+, Twitter 腾讯QQ,微信,微博

Page 4: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交网络概述4

网络:是描述复杂数据、复杂关系的通用语言(general language)

Page 5: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交网络概述5

Page 6: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交网络发展趋势6

Page 7: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交网络的性质

幂律分布Power Law 自然界与社会生活中存在各种各样性

质迥异的幂律分布现象有时也叫长尾现象(如右图)

7

网络中的幂律分布现象 一个网络中的度分布服从Power Law 即有N(k)=k(‐r)。

若k 表示度为k的节点,Nk 表示度为k的节点的个数,则Nk在k上的Power Law分布如右图

Page 8: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交网络的性质

小世界现象 Small World phenomenon 小世界现象指世界上的每个人之间都可以通过很短的社会关系链联系起来。

小世界网络,引伸了小世界现象,不仅是社会关系网络,可以指任何网络。 小世界网络就是对这种现象(也称为小世界现象)的数学描述。用数学中图

论的语言来说,小世界网络就是一个由大量顶点构成的图,其中任意两点之间的平均路径长度比顶点数量小得多。

8

六度分隔理论 六度分隔理论: 假设世界上所有互不相识的人只需要很少中

间人就能建立起联系。

后来1967年哈佛大学的心理学教授斯坦利·米尔格拉姆根据这概念做过一次连锁信实验,尝试证明平均只需要5个中间人就可以联系任何两个互不相识的美国人,见右图。

Page 9: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

内容大纲

社交网络概述 结点重要性评估结点重要性评估 社交影响力分析 社团挖掘

9

社交文本分析 社会化推荐 资料推荐

Page 10: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

结点重要性评估

社交网络中的重要性评估 用户影响力排名 用户活跃度排名 热门话题排名 热门关键字排名

10

一般网络中的重要性评估 网站排名或网页排名 根据一些客观的、公正的衡量标准,对网页的重要性或权威性进行排序

。如网页按访问流量排名,按权威性排名(PageRank)等

Page 11: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

结点重要性评估

微信排名 微信传播力指数 wci指数

总阅读数R、总点赞数Z、发布文章数N、该账号当期最高阅读数Rmax、该账号最高点赞数Zmax。采用指标:总阅读数R、平均阅读数R/N,最高阅读数Rmax,总点赞数Z,平均阅读数Z/N 最高点赞数Zmax 点赞率Z/R

11

阅读数Z/N,最高点赞数Zmax,点赞率Z/R。

最优的发微信策略是什么?

Page 12: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:HITS

HITS算法是一个经典的结点排名算法,它有两个基本定义 “Authority”结点:是指与某个领域或者某个话题内容相

关的高质量结点 “Hub”结点:指的是包含了很多指向高质量“Authority”

12

结点链接的结点

两个基本假设 一个好的“Authority”结点会被很多好的“Hub”结点指向; 一个好的“Hub”结点会指向很多好的“Authority”结点;

每个结点都有两个得分(score) hub 得分和 authority得分 表示成向量h和a

Page 13: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:HITS13

Page 14: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

数据挖掘十大经典算法(2006 ICDM) C4.5 K‐Means SVM Aprior

14

EM PageRank AdaBoost KNN Naïve Bayes CART

Page 15: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

PageRank算法最初是用于计算Web中网页的权威值 (或重要性),认为一个网页的权威值可以通过网络的链接结构来传递。在Web的链接图中, 如果存在一个页面q指向另一个页面P的链接,则表明q对P的认可(vote),即q将自己的权威值部分传递给了P。

15

网络上所有结点的重要性是不相等的 指向一个结点P的结点越多,则该结点得到的权威值越高; 指向结点P的结点的权威值越高,则P得到的权威值也越高。 这是一个迭代问题

Page 16: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

随机游走模型——最简单的方法 每一个链接获得的投票程度与其链接的来源结点的重要性成正比 如果一个权威性为r结点P,有d条出度边(out‐links),那么每条边获取对

应的投票为:r/d 网页P自己的权威性等于所有指向它的链接的投票的和

16

迭代计算方法 初始化:每个节点的权威值 R0=[1/n, 1/n,...., 1/n]。 对于每个节点按如下公式 循环迭代计算:

循环计算,直到 |Rk+1 –Rk|<e 停止

Page 17: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

举例 如右图的网络链接图, 节点数n=3 令d=0.85,PageRank公式为

17

y

a m

y a m

y ½ ½ 0

a ½ 0 ½

m 0 1 0

iteration

Node

1 2 3 4 ... ... …

y 1/3 1/3 5/12 3/8 ... .... 2/5

a 1/3 1/2 1/3 11/24 ... ... 2/5

m 1/3 1/6 1/4 1/6 ... ... 1/5

Page 18: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

疑问

公式会不会收敛 收敛效果是不是我们想要的

18

y a m

y ½ ½ 0

a ½ 0 ½

m 0 1 0

收敛结果是否合理 y

a m

Page 19: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

疑问

公式会不会收敛 收敛效果是不是我们想要的

19

收敛结果是否合理

a m 举例1

Ra = 1 0 1 0 Rm = 0 1 0 1iteration 0, 1, 2, ...

a m

举例2

Ra = 1 0 0 0 Rm = 0 1 1 1iteration 0, 1, 2, ...

Page 20: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

问题 Sprider traps

一个节点的出边都指向自己 一个节点集的出边都只指向这个节点集内的节点 导致这个Spider traps吸收了所有的权威性

20

y

a m

y a m

y ½ ½ 0

a ½ 0 ½

m 0 0 1

Page 21: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

问题:Spider traps21

y a m

y ½ ½ 0

a ½ 0 ½

m 0 0 1

计算公式:

y

a m

例子:Ry = 1/3 2/6 3/12 5/24 .... 0Ra = 1/3 1/6 2/12 3/24 … 0Rm = 1/3 3/6 7/12 16/24 ... 1

Iteration 0, 1, 2, …

Page 22: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

随机游走模型——解决spider traps问题 理解:用户在任意的网络结点开始游走到下一个结点时,有可能是点击了这个

网页内的某个链接,也有可能是直接从地址栏里面输入了要给网页地址。 因此一个网页被访问一部分来源于其他网页内指向它链接(概率为d),一部

分来源于用户直接输入其网页地址的可能性(概率为1‐d)。 所以一个用户的权威值计算公式为:

22

以上公式不断迭代,直到收敛。稳定状态下的各结点概率分布即为每个结点的权威值。

y

a m

Page 23: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

算法:PageRank

举例 如右图的网络链接图, 节点数n=3 令d=0.85,PageRank公式为

23

y

a m

y a m

y ½ ½ 0

a ½ 0 ½

m 0 1 0

iteration

Node

1 2 3 4 ... ... n

y 1/3 0.3333 0.3935 0.4006 ... .... 0.3817

a 1/3 0. 4750 0.4313 0.4186 ... ... 0.3988

m 1/3 0.2519 0.2333 0.2279 ... ... 0.2195

Page 24: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

主题敏感的PageRank

主题敏感Topic‐Sensitive PageRank 主题敏感PageRank是PageRank算法的改进版本,该算法已被Google使用在个性化搜索服务中。

PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别。

主题敏感P R k的做法是预定义几个话题类别 例如体育

24

主题敏感PageRank的做法是预定义几个话题类别,例如体育、娱乐、科技等等,为每个话题单独维护一个向量,然后想办法关联用户的话题倾向,根据用户的话题倾向排序结果。

基本思想 通过离线计算出一个与某一主题相关的PageRank向量集合,即

计算某个页面关于不同主题的得分。主要分为两个阶段:主题相关的PageRank向量集合的计算和在线查询时主题的确定(即在线相似度的计算)。

Page 25: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

主题敏感的PageRank

算法流程实例【 HAVELIWALA et. al 2003】

首先定义选出16个主题(t1,t2,...t16),如体育、科技、财经等 然后根据下面的迭代公式计算在每个主题下,每个网页的权威

值,得到16个权威值向量。PR1,PR2,...,PR16。

25

当用户输入查询词query后,计算query与每个主题的相关性,即w1, w2,...,w16.

最后得到最终的主题相关的权威值向量

Page 26: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

多样性排序

多样性排序 在寻找authority最大的前k个网页节点问题中,Pagerank只考虑

了节点的权威值,而忽略了网页节点之间所属的领域。 而我们有时更需要找的前K个网页节点的权威值最大并且网页节点也属于不同的领域。如图

26

Diversified Ranking [Tong et al. KDD 2011]

能够找出K个网页节点的权威值和最大并且属于网页属于的领域也多样化

Page 27: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

结点重要性评估

PageRank 不但在网页排名中应用广泛,在社交网络分析的其他应用中也得到了广泛的应用。

PageRank with Priors[Xiang, Liu et al. IJCAI 2013] PageRank with Priors这篇论文将社会影响力线性模型与

27

PageRank with Priors这篇论文将社会影响力线性模型与Pagerank进行了比较分析。发现PageRank就是一个带先验的社会影响力线性模型。也佐证了为何PageRank在影响力传播模型中可以作为基准的对比方法。

Page 28: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

结点重要性评估

《这就是搜索引擎:核心技术详解》 Page L, Brin S, Motwani R, et al. The PageRank citation ranking:

bringing order to the web[J]. 1999. HAVELIWALA, T. H. Topic‐sensitive pagerank: A context‐sensitive

ranking algorithm for web search. Knowledge and Data Engineering, IEEE Transactions on 15, 4 (2003), 784–796

28

Tong H, He J, Wen Z, et al. Diversified ranking on large graphs: an optimization viewpoint[C]//KDD. 2011, 11: 1028‐1036.

Xiang, B.; Liu, Q.; Chen, E.; Xiong, H.;Zheng, Y.; and Yang, Y. 2013. Pagerank with priors: An influence propagation perspective. In IJCAI.

Page 29: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

内容大纲

社交网络概述 结点重要性评估 社交影响力分析社交影响力分析 社团挖掘

29

社交文本分析 社会化推荐 资料推荐

Page 30: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交影响力分析

动机 背景与应用

问题 影响力传播模型 影响力最大化问题

解决方案

30

解决方案 算法

资料推荐

Page 31: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交影响力‐定义31

如用户买了一部新手机,在新浪微博平台发布一条微博“Note3的屏好大哦”,其好友看到后,将会成为三星手机的潜在用户,这就是社交影响力,即在社交网络中,一个用户的行为会对其好友的决策造成影响。

Page 32: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

信息传播方式(媒介)变迁32

Page 33: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交影响力传播举例33

Beijing is great

Beijing is greatBeijing is great

Beijing is great

Beijing is great

Beijing is great

Beijing is great

Page 34: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交影响力在现实世界中的应用34

Page 35: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交影响力的应用‐病毒营销35

病毒营销是由欧莱礼媒体公司(O‘Reilly Media)总裁兼CEO提姆·奥莱理(Tim O’Reilly)提出,其讯息传递策略是通过公众将信息廉价复制,告诉给其它受众,从而迅速扩大自己的影响。

传播快,成本低

Page 36: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

病毒营销案例

Hotmail 在每一封免费发出的信息底部附加一个简单标签:ʺGet your private, free email at http://www.hotmail.com

1年半时间里,就吸引了1200万注册用户;每天超过15万新用户的速度发展 在网站创建的12个月内 H t il只花费很少的营

36

的速度发展;在网站创建的12个月内,Hotmail只花费很少的营销费用,还不到其直接竞争者的3%。

凡客体

Page 37: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

病毒营销案例

三星的大手笔事件营销:奥斯卡史上最昂贵的自拍照 2014,艾伦∙德杰尼勒斯带领梅丽尔∙斯特里普、茱莉亚∙罗伯

茨和布拉德∙皮特等

37

Page 38: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

病毒营销案例38

江南Style的传播 奥巴马总统竞选

15万名奥巴马支持者在Facebook安装了“奥巴马2012”应用,而通过这个程序,总统竞选团队可以间接得到这些支持者数百万的Facebook好友信息。

影响力扩散

《江南style》被放到youtube上后,被汤姆汤姆··克鲁斯克鲁斯等明星在

社交帐户中强烈推荐,随后引来模仿恶搞,然后又开始了新一轮的推荐、恶搞,最终将这首歌推向“全球神曲”的地位。

病毒营销

Page 39: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

主要内容

动机 背景与应用

问题问题 影响力传播模型影响力传播模型 影响力最大化问题

39

解决方案 算法

资料推荐

Page 40: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

影响力传播模型

独立级联(Independent Cascade)模型40

0.3 0.2

0.6

0.2未激活节点

已激活节点

vw 0.5

0.3 0.20.5

0.10.4刚刚被激活的节点

激活成功

激活失败

终止!

UX

Page 41: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

影响力传播模型(续)

线性阈值(Linear Threshold)模型41

未激活节点

已激活节点0 2

0.6

0 2 已激活节点

阈值

邻居施加的影响力

vw 0.5

0.30.20.5

0.10.4

0.3 0.2 0.2

终止!

U

X

Page 42: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

主要内容

动机 背景与应用

问题问题 影响力传播模型

影响力最大化问题影响力最大化问题

42

解决方案 算法

资料推荐

Page 43: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

影响力最大化问题定义

给定影响力传播模型和图G=<V,E>,选取k个节点,使得选出的节点集合的影响力最大

43

????

影响力?

Page 44: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

影响力最大化问题定义

给定影响力传播模型和图G=<V,E>,选取k个节点,使得选出的节点集合的影响力最大

44

迭代次数 激活点数

0 4

1 9

2 13

... ...

总影响力 4+9+13+...

Page 45: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

主要内容

动机 背景与应用

问题 影响力传播模型 影响力最大化问题

解决方案解决方案

45

解决方案解决方案 算法算法

资料推荐

Page 46: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

贪心算法

算法流程图(右)46

优点:保证63%最优!(Submodularity)

缺点:需要大量蒙特卡罗模拟,速度慢

Page 47: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

其他算法

Baselines Degree‐‐‐选取度最大的K个节点 PageRank‐‐‐选取PageRank值最大的K个节点

CELF (Leskovec et al. KDD 2007) 利用次模性质为每个节点维护一个上界,以减少计算量

47

DegreeDiscount (Wei Chen et al. KDD 2009)

按照度降序选择节点,每选中一个节点,将其邻居节点的度减小一定值

PMIA (Wei Chen et al. KDD 2010)

利用最大影响力路径,用树结构代替图,加速影响力计算

IRIE (Jung Kyomin et al. ICDM 2012)

将影响力排序和影响力估计结合起来

UBLF (Zhou et al. ICDM 2013) 在CELF的基础上,利用上界函数减少CELF算法初始化阶段的计算量

Page 48: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交影响力最大化48

目的: 在传播模型中,寻找核心的种子节点,使得信息扩散最大化传播模型:独立级联模型和线性阈值模型

问题提出 问题定义 百家争鸣

核心技术:Submodularity

Domingos et al., 2001提出用户的网络价值

Kempe et al., 2003使用IC、LT传播模型,并证明为NP-complete,给出了满意解 Leskovec et al., 2007

提出贪婪算法CELF

Kimura et al., 2006提出了最短路模型

Chen et al., 2010提出了最大影响路线Narayanam et al., 2010基于熵的传播模型Aristides et al., 2013利用博弈模型求解稳定解

问题提出 问题定义 百家争鸣

Page 49: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

我们的工作一:带先验的PageRank(IJCAI’13)

提出线性影响力模型 研究该模型与PageRank的关系

49

Page 50: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

线性影响力模型

信息传播过程建模 基本假设: 每一次信息的传播均有一个(若干)个传播的起点;

每一个用户所接收的每一条传播中的信息均来自他的邻居。 一种基于线性作用方式的信息传播模型——线性影响力模型:

50

结点i对全网的影响力

Self-confidence

Iterative Process

先验

Biao Xiang, Qi Liu, Enhong chen, Hui Xiong, Yi Zheng, PageRank with Priors: An Influence Propagation Perspective. In Proceedings of 23rd Internationa Joint Conference on Artificial Intelligence (IJCAI 2013): 2740-2746, 2013.

Page 51: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

线性影响力模型

信息传播过程建模 线性影响力模型是否合理 PageRank模型是该线性影响力模型的一个特例

带先验知识的PageRank (PageRank with Priors) 先验αi = 1 ?

51

线性影响力模型是否高效 当计算一个点的影响力时,利用Gauss‐Seidel方法可以在数十次迭

代内收敛,即求解fij (j=1,2,… n)的时间复杂度为O(|A|) ——线性时间内计算影响力(类似于PageRank) PageRank可以在O(|A|) 内计算出所有点的重要性(影响力) 如何加快计算?

Page 52: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

线性影响力模型

信息传播过程建模 如何加快线性模型的计算速度? 寻找每个结点影响力的快速估计(影响力的上界)方法

该上界的时间复杂度与PageRank相同

52

通常,只关注于Top有影响力的结点 利用该上界可以快速找到Top‐K有影响力的结点

Page 53: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

实验设定

数据:DBLP 科学家合作网络(53,872 个节点, 160,968 条边)

53

方法:选择不同的先验

Page 54: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

实验结果54

Page 55: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

实验结果

Top‐50有影响力的科学家55

先验αi设置越合理,所找出的科学家越有影响力

搜索的结点数

影响力上界非常紧凑

Page 56: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

实验结果(续)56

PageRank选择的先验 as 并无规律可循并无规律可循

12/16/2015

Page 57: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

工作二:基于线性影响力模型的口碑营销

基于线性影响力模型的口碑营销

NP‐难问题 解决方案

57

贪心算法

如何计算 都满足增益递减(Submodular)性质---有63%的质量保证

Qi Liu, Biao Xiang, Enhong chen, Hui Xiong, Fangshuang Tang, Jeffrey Xu Yu, Influence Maximization over Large-Scale Social Networks: A Bounded Linear Approach. CIKM 2014.

Page 58: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

基于线性影响力模型的口碑营销

实验结果 期望被影响的结点数 在独立级联模型(IC)下进行MC模拟

58

Linear和BoundLinear和Bound方法所选择的种子结点可以产生最大的影响力

Page 59: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交影响力分析与口碑营销

实验结果 口碑营销方法的效率

59

Bound与PageRank的时间复杂度类似;Linear次之;

Page 60: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

实验结果(续)

有影响力的微博用户推荐 数据集(新浪微博实名认证用户) 用户(17,428) 好友关系(1,410,807) 用户标签、所发微博

60

以“爱吼网”为主题以“数据挖掘”为主题 以“爱吼网”为主题

Page 61: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

我们的工作三:独立影响力61

观察:

影响力增益

节点3是一个真正有影响力的节点吗?

如何衡量一个节点对种子集合总体影响力的贡献?

Page 62: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

我们的工作三:独立影响力

影响力重叠(Overlap)62

vs

Page 63: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

独立影响力模型

定义63

物理意义:移除种子集中其他结点后,当前结点的影响力

计算方式:类似于线性影响力模型,利用上界加速计算

Page 64: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

实验结果64

Page 65: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

实验

案例分析

65

贪心算法不能保证每个节点的影响力都很大!

Page 66: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

实验

影响力排序66

独立影响力模型的排序结果最接近于真实排序结果独立影响力模型的排序结果最接近于真实排序结果

独立影响力模型很高效独立影响力模型很高效

Page 67: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

Submodularity子模性质

Submodularity ‐‐diminishing returns (增益递减)67

S

B

A

S

+

+

Large improvement

Small improvement

B A

Theorem [Nemhauser et al ‘78]Greedy algorithm gives constant factor approximation

F(Agreedy) >= (1‐1/e) F(Aopt)

~63%

should be submodular and

Page 68: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

将Submodularity应用于推荐系统

面向多样性的用户兴趣建模及推荐方法 新的目标:REC (相关度+覆盖度,Relevance +Coverage)

68

Le Wu, Qi Liu, Enhong Chen, Nicholas Jing Yuan, Guangming Guo, and Xing Xie. Relevance meets Coverage: A Unified Framework to Generate Diversified Recommendations. ACM Trans. IST

Submodularity可以用来选择多样化的项目进行推荐,提高对用户兴趣覆盖度

Page 69: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

主要内容

动机 背景与应用

问题 影响力传播模型 问题定义

解决方案

69

解决方案 算法

资料推荐资料推荐

Page 70: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

资料推荐

专著 Information and Influence Propagation in Social Networks, Wei Chen, Laks V.S. Lakshmanan, and Carlos Castillo, Synthesis Lectures on Data Management 2013 5:4, 1‐177

论文 Kempe, D.; Kleinberg, J.; and Tardos, ´ E. 2003. Maximizing the spread of influence through a social network. In

Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining 137 146

70

Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 137–146. ACM.

Y. Yang, E. Chen, Q. Liu, B. Xiang, T. Xu, and S. Shad. On approximation of real‐world influence spread. Machine Learning and Knowledge Discovery in Databases, pages 548–564, 2012.

Qi Liu, Biao Xiang, Lei Zhang, Enhong Chen, Ji Chen. Linear Computation for Independent Social Influence. IEEE ICDM 2013, Accepted for regular paper(94/809=11.6%).

Biao Xiang, Qi Liu, Enhong Chen, Hui Xiong, Yi Zheng, Yu Yang. PageRank with Priors: An Influence Propagation Perspective. IJCAI 2013, pages: 2740‐2746,2013.

Le Wu, Qi Liu, Enhong Chen, Nicholas Jing Yuan, Guangming Guo, and Xing Xie. Relevance meets Coverage: A Unified Framework to Generate Diversified Recommendations. ACM Trans. IST

Qi Liu, Biao Xiang, Enhong chen, Hui Xiong, Fangshuang Tang, Jeffrey Xu Yu, Influence Maximization over Large‐Scale Social Networks: A Bounded Linear Approach. CIKM 2014.

Qi Liu, Zheng Dong, Chuanren Liu, Xing Xie, Enhong Chen, Hui Xiong. Social Marketing Meets Targeted Customers: A Typical User Selection and Coverage Perspective. IEEE ICDM 2014.

Page 71: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

内容大纲

社交网络概述 结点重要性评估 社交影响力分析 社团挖掘社团挖掘

71

社交文本分析 社会化推荐 资料推荐

Page 72: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘72

• 尚无统一数学定义,普遍认为,社区是内部连接紧密、与外部连接的相对

什么是社团(community)

疏松的顶点集合• 复杂网络三大特征:幂率分布、小世

界、强社区结构

Page 73: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团广泛存在

社会里有很多自然形成的社团:家庭,工作圈和朋友圈,城镇,国家。

因特网的发展导致很多虚拟在线社团的产生。 社团存在于很多网络系统中,生物学、计算机科学、工程、

经济、政治等。

73

蛋白质交互网络 社会关系网络

Page 74: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘的重要性

学术方面社团挖掘在社会网络分析、数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等领域有广泛的应用。

实用价值1. 商品的精准营销

74

1. 商品的精准营销2. SNS中好友的推荐3. 公共安全和舆情控制4. 控制疾病传播5. ……

Page 75: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:技术发展脉络75

聚类分析聚类分析 社区划分社区划分 社区抽取社区抽取 大图计算大图计算

认为数据间独立同分布

数据之间有链接不独立

基于原型

基于密度

基于邻近度

基于图

……

硬划分

软划分

概率结构

……

划分产生的社

区往往还是非

常大而复杂,

抽取是一个解

决的思路!

超大规模社交

网络计算瓶颈

Tan et al., 2005

Fortunato, 2010

Tang & Liu, 2010 Zhao et al., 2011Wu et al., 2013

Papadopoulos et al., 2012

Rajaraman et al., 2013

Page 76: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:Girvan‐Newman算法

假设:社团之间所存在的少数几个连接应该是社团间通信的瓶颈,是社团间通信时通信流量的必经之路。如果我们考虑网络中某种形式的通信并且寻找到具有最高通信流量(比如最小路径条数)的边,该边就应该是连接不同社团的通道。

边介数(Edge Betweenness)

76

一条边的边介数为任意两个节点间的最短路径通过该边的次数。在图G中,给定一条边e,假设图G中任意两个节点间的最短路径的集合为P,并且P中有m条最短路径经过边e,那么边e的边介数为m。

根据上面的假设,社团间的边有很高的边介数。

Page 77: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:Girvan‐Newman算法

Girvan‐Newman算法的流程1. 计算网络中每条边的边介数;2. 删除边介数最高的边;3. 重新计算所有边的边介数;

77

自上而下

4. 重复第二步和第三步,直到所有的边都被删除。

但是在不知道社团数目的情况下,该算法不能判断算法终止位置。因此Newman等人引入了模块度(Modularity)。

Page 78: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:模块度(Modularity)

78

Page 79: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:模块度(Modularity)

79

Page 80: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:Girvan‐Newman算法

1. 计算网络中每条边的边介数;2. 删除边介数最高的边,计算此时的模块度;3. 重新计算所有边的边介数;4. 重复第二步和第三步,直到所有的边都被删除。

80

当算法执行完毕,比较所有中间过程的模块度的值,取最大模块度的中间划分结果,作为社团挖掘最终的划分结果。

Page 81: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:Girvan‐Newman算法

比较经典的社团研究案例包括对空手道俱乐部(karate club),科学家合作网络(Collaboration network) 和斑马群体(zebras) 的社交行为研究等。如下图:

81

Page 82: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:Girvan‐Newman算法

其中,著名的空手道俱乐部社团已经成为通常检验社团挖掘算法效果的标准之一。下图是Girvan‐Newman算法在空手道俱乐部上的运行结果。

82

Page 83: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社团挖掘:Girvan‐Newman算法

83

Page 84: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

资料推荐

Santo Fortunato, Community detection in graphs, Physics Review, 2010.

84

Page 85: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

内容大纲

社交网络概述 结点重要性评估 社交影响力分析 社团挖掘

85

社交文本分析社交文本分析 社会化推荐 资料推荐

Page 86: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本

随着社交网络的发展,产生了大量的文本信息 微博 人人网的状态 豆瓣的广播 …

86

Page 87: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析

用户兴趣分布识别 精准营销、广告

热门事件发现 比如清华铊中毒朱令事件

用户观点挖掘、预测事件走向

87

用户观点挖掘、预测事件走向 比如美国总统大选

用户情感分析

Page 88: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本的特点

社交文本主要用于表达某种观点或者分享自己的生活信息等

社交文本有着跟传统文本不同的特点 用语很随意 字数不确定,可多可少

88

字数不确定,可多可少 内容较短 产生速度快,数量多 …

Page 89: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析

社交文本跟传统文本(新闻等)差别很大,从分析的角度,既有优点,也有缺点

优点 情景信息较多 时间

89

地点 发送设备 …

社交信息可以利用 好友关系 转发评论 用户资料 …

Page 90: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析(续)

缺点 噪音大,不相干信息多 用语不规范,词汇表大 词汇的产生和消亡速度较快 文本内容短,缺乏结构信息

90

数据很稀疏,统计强度低

针对性措施 充分利用社交信息 融合情景信息 数据预处理 降维 …

Page 91: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析方法

社交网络的兴起,吸引了大量研究者的兴趣,因此诞生了很多社交文本分析方法

常用的社交文本分析方法 NLP工具 概率主题模型

91

概率主题模型 矩阵分解 频繁项集挖掘 …

Page 92: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析举例一

Labeled LDA 将hashtag的内容当成监督信息,学习twitter中的隐含主题 4S analysis of two users: @w3c (left) and @oprah (right).

92

Ramage, Daniel, Susan T. Dumais, and Daniel J. Liebling. ʺCharacterizing Microblogs with Topic Models.ʺ ICWSM. 2010.

Page 93: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析举例二93

0 1 0 1 0

1 0 1 0 1

1 1 0 1 0

1 0 1 0 0

1 1 0 1 0

+

--

+

+

--缺点:缺点: 需要标注部分文本的情感(评论的打分、表情符号) 对时间、话题、领域较为敏感

异常事件检测 实时情绪监控 地域情感分布MoodLens:首个中文微博情感分析系统

Page 94: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析举例二(续)

基于主题模型的twitter用户观点摘要 综合运用NLP、LDA等文本分析工具,分析twitter用户对某个

名人的观点 A case study of the opinion summary for Obama

94

Meng, Xinfan, et al. ʺEntity‐centric topic‐oriented opinion summarization in twitter.ʺ Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012.

Page 95: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析举例二(续)95

+hashtag

+社交网络

+用户信息+表情符号

+好友评论

文本信息

+地理信息

+好友评论

+时间信息

Page 96: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析举例三

观点挖掘96

Page 97: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析举例四(续)97

商品评论分析

市场预测 市场预测

社会调查

Page 98: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社交文本分析的未来

社交网络方兴未艾,社交文本分析更是吸引了众多研究者的兴趣

未来的社交文本分析 工具上 更多的基于概率主题模型的生成模型

98

多的基 概率 模 的 成模 更好的NLP工具用于文本的数据预处理 更好的基础模型用于文本的数学表示 深度神经网络在文本上的应用

应用上 同外部网站的整合,构建异构网络 建立用户的兴趣模型和画像 更好的用户观点摘要 更好的事件发现和追踪

Page 99: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

内容大纲

社交网络概述 结点重要性评估 社交影响力分析 社团挖掘

99

社交文本分析 社会化推荐社会化推荐 资料推荐

Page 100: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐100

狭义:将在线社会关系(信任关系、朋友关系、关注

关系等)作为辅助信 息的推荐技术;利用社

会媒体特有的社交关系信号扩展推荐技术。会媒体特有的社交关系信号扩展推荐技术。

广义:面向社会媒体领域的所有推荐问题

Items:标签,人,社区...

sources:在线社交关系,社会化标签,

用户 间交互,用户点击行为…

Page 101: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐

社交信号对推荐的积极效用:用户的决策受其社交网络中好友的影响更大

建立链接关系的用户与计算出的相似用户提供的推荐结果不同 可以提

101

-建立链接关系的用户与计算出的相似用户提供的推荐结果不同,可以提

高推荐的多样性(diversity),发现意外兴趣(senrendipity)

-减少冷启动(cold‐start)用户数量,缓解稀疏性问题对推荐的影响

-提高推荐结果对item覆盖的比例

Page 102: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐102

发展历程:

Co-occurrence Communication More Social of names Network Signals

个人主页链接

论文合作

组织部门网页

……

Kautz et al., 1997

Email交互

用户网络新闻组

……

McDonald et al., 2003

Nardi et al., 2002

明显链接关系

用户生成内容

交互(@,转发)

……

Jiang et al., 2008

Page 103: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐103

主流技术-只利用社会关系的CF(协同过滤)模型

社会化CF模型=基本CF模型+社会化信息模型

基于近邻的社会化推荐系统不同的系统使用不同的方法获得近邻用户集合N:

直接链接的用户作为近邻用户 N(i) = u_j |A(i, j) = 1一定传播范围内用户之间的信任值大于临界值 N(i) = u_j |Tij ≥ τ

Golbeck et al., 2006

Page 104: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐104

主流技术-只利用社会关系的CF(协同过滤)模型

基于模型的社会化推荐系统

统一框架:

S i l(T S Ω) 基于社交网络信息的模型

Co-factorization:Ma et al., 2008

Social(T, S, Ω) :基于社交网络信息的模型T: 链接关系 S:链接强度 Ω: 参数α: 控制社交信息在推荐中的分量W: 已知评分的权重

Page 105: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐105

主流技术-同时利用社会关系和其他异质关联关系

随机游走

在网络上随机游走到状态矩阵收敛

依据平稳状态分布进行推荐

Jiang et al., 2008考虑因素:

用户提供的标签

用户间朋友关系

领域内及领域间节点关系

Page 106: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐106

应用– 内容推荐 e.g. 推荐热门图片 Sha, 2012

采集用户属性(内容、行为、网络)进行分类(trend maker, trend spotter, neither)

确定热门图片资源(logit 回归)确定热门图片资源(logit 回归)

使用SVD方法进行推荐

– 用户推荐 e.g. 推荐@用户 Wang, 2013

根据用户档案历史微博获取用户兴趣资料(描述性属性+微博文本tf-idf)根据用户交互历史(转发等)获取用户影响力资料(网络结构属性+转发用户文本tf-idf)当前编辑文本

计算与备选用户内容匹配度;链接强度;影响力

排序函数,产生推荐@用户列表

Page 107: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐107

应用– 群体推荐 e.g. 推荐兴趣群组 Zhang, 2013

U-G矩阵分解

U-T矩阵分解,G-T矩阵分解group活跃程度用户与group关系

(地点、社会关系)

矩阵分解

Page 108: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

社会化推荐

社交情境下的用户消费模式建模 提出一个有监督的、多因子模型,整合不同因素对建模的影响

并量化其权重

108

Le Wu, Qi Liu, Enhong Chen, Xing Xie, Chang Tan. Product Adoption Rate Prediction: A Multi-factor View. SDM 2015

Page 109: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

内容大纲

社交网络概述 结点重要性评估 社交影响力分析 社团挖掘

109

社交文本分析 社会化推荐 资料推荐资料推荐

Page 110: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

资料推荐

其他可能的研究问题 用户画像与用户识别 用户分类‐‐‐僵尸用户? 社交网络演化研究 群组行为分析

110

网络抽样 专家发现 隐私保护 可视化 缺失信息预测 社交标注及应用 。。。 Charu C. Aggarwal(Editor)

Social Network Data Analysis Social Network Data Analysis -- Spring2011 (1)

Page 111: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

资料推荐—工具和数据

Stanford Network Analysis Platform (SNAP) is a general purpose, high‐performance system for analysis and manipulation of large networks http://snap.stanford.edu

Scales to massive networks with hundreds of

111

Scales to massive networks with hundreds of millions of nodes and billions of edges

 SNAP software Snap.py for Python, SNAP C++ Tutorial on how to use SNAP: http://snap.stanford.edu/proj/snap‐icwsm

Page 112: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

资料推荐—工具和数据

Want to learn more about networks? Social and Information Networks lectures: http://cs224w.stanford.edu

Mining Massive Datasets lectures: http://cs246.stanford.edu

112

p // a o e u Books (fee PDFs): Mining Massive Datasets http://infolab.stanford.edu/~ullman/mmds.html

Networks, Crowds and Markets http://www.cs.cornell.edu/home/kleinber/networks‐book

Page 113: Introduction to Network Mining - USTChome.ustc.edu.cn/~zengxy/dm/courseware/Introduction to Social Net… · 热门话题 排名 热门 ... 随机游走模型——解决spider traps

113