微 博挖掘综述

25
微微微微微微 微微微 微微微 2014.4.23

description

微 博挖掘综述. 报告人:王菁菁 2014.4.23. 大纲. 微 博特点 文本挖掘 微 博检索 微 博摘要 情感分析 结构挖掘 链接预测 节点排序 应用 微 博推荐 挑战. 微 博特点. 内容特点 短文 本性:小于 140 个文字 Hashtag: # topic # 结构特点 幂律 分布: follower,followee 传播即时 : 可以通过 Web,WAP 各种客户端发送 结构 洞: 1% 的用户控制 25% 的信息传播 用户特点 用户发文:广播,分享信息 交友模式:关注有相同兴趣爱好的用户. 文本挖掘:微博检索. - PowerPoint PPT Presentation

Transcript of 微 博挖掘综述

Page 1: 微 博挖掘综述

微博挖掘综述

报告人:王菁菁2014.4.23

Page 2: 微 博挖掘综述

大纲微博特点文本挖掘

◦ 微博检索◦ 微博摘要◦ 情感分析

结构挖掘◦ 链接预测◦ 节点排序

应用◦ 微博推荐

挑战2

Page 3: 微 博挖掘综述

3

微博特点内容特点

◦短文本性:小于 140 个文字◦Hashtag: #topic#

结构特点◦幂律分布: follower,followee◦传播即时 : 可以通过 Web,WAP 各种客户端发送◦结构洞: 1% 的用户控制 25% 的信息传播

用户特点◦用户发文:广播,分享信息◦交友模式:关注有相同兴趣爱好的用户

Page 4: 微 博挖掘综述

4

文本挖掘:微博检索检索:根据用户提交的查询返回相关

的微博检索内容

◦动态信息:事件检索◦人◦Hashtag 、救援事件、跨社交媒体检索等

与其他技术结合◦聚类分析:分面搜索◦事件检测、摘要技术:结果展示

Page 5: 微 博挖掘综述

5

文本挖掘:微博检索检索两大关键技术

◦索引◦排序

索引◦TI: 实时索引◦Pollux: 分布式可扩展实时索引

Page 6: 微 博挖掘综述

6

文本挖掘:微博检索排序特征选择

◦文本特征: TF-IDF◦相关性◦发表时间 : 时效性的最有效特征◦微博质量 : 例如,有趣性◦可信度◦用户影响力

Page 7: 微 博挖掘综述

7

文本挖掘:微博摘要话题摘要:一个话题的文档集合摘要,

能代表话题的核心语义事件检测内容

◦发现新兴爆发的主题◦持久讨论的事件◦特定的事件

事件检测的方法◦聚类:对关键词聚类、社团聚类

Page 8: 微 博挖掘综述

8

文本挖掘:微博摘要摘要的类别

◦对事件的描述◦观点摘要:对一个实体的观点倾向◦多微博文本摘要: timeline 摘要,如体育

比赛的进程摘要方法

◦抽取式摘要◦生成式摘要

Page 9: 微 博挖掘综述

9

文本挖掘:微博摘要抽取式摘要方法对每个子句评分,选取得分的 top-k的子句作为

摘要矩阵分解 SVD ,选择排序较高的子句

◦ 构建词 -- 句子矩阵 A ,矩阵的元素是每个词在句子中出现的次数

◦ SVD : ◦ 最终选择向量中值比较大的句子作为摘要。

聚类 (SNMF) 聚类中心◦ 实时摘要系统:增量式的聚类,抽取质心

数据重构,选出的摘要可以最大限度地还原原始数据。

子句的重要性

Page 10: 微 博挖掘综述

10

文本挖掘:微博摘要抽取式摘要:抽取文本信息,嵌入到

预定模版中例 1

◦分类:对语言行为进行分类◦抽取最具代表性的短语◦嵌入模版中

例 2◦对词序列建索引◦抽取频率最高的短语作为摘要

Page 11: 微 博挖掘综述

11

文本挖掘:情感分析基于分类的方法

◦ 类别:中性,积极,消极◦ 特征:

表情(最直观) N-gram Hashtag Part-Of-speech :( adv + adj ) 二值特征:是否包含链接(中性,非中性)

◦ 分类方法: SVM 朴素贝叶斯 等等

Page 12: 微 博挖掘综述

12

文本挖掘:情感分析基于词典的方法

◦ 积极词典、消极词典◦ 对每个句子计算得分 :

积极:得分 >0 中性:得分 =0 消极:得分 <0

◦ 情感强度分析统计结论

◦ 在 Sina 和 Twitter 上,积极情感多于消极情感

◦POS 在情感表达中很常见

Page 13: 微 博挖掘综述

13

结构挖掘:链接预测网络结构中,未连接的两点是否会相

应用场景◦推荐系统:好友推荐,商品推荐◦生物信息学:预测基因与蛋白质的关系◦安全领域:犯罪团伙的发现◦等等

Page 14: 微 博挖掘综述

14

结构挖掘:链接预测结构性的方法

◦局部结构(两个节点的相似性) 共同邻居的数目 Jaccard 系数 Preferential attachment (优先连接)

◦全局结构 传递性

Page 15: 微 博挖掘综述

15

结构挖掘:链接预测随机游走

◦无监督 概率:

◦有监督 结合顶点和边的信息指导随机游走

分类方法:预测是否存在链接◦基于拓扑结构的特征

两个节点邻居的总数◦非拓扑结构特征

两个用户兴趣的重叠度◦基于 PageRank思想,把顶点集合分成两个

subset (可能链接,不可能链接)

l setps

Page 16: 微 博挖掘综述

16

用户顶点排序用户顶点排序

◦影响力:信息的传播能力◦可选特征

粉丝数 转发数 被提到的次数 链接结构 结构洞(意见领袖)

Page 17: 微 博挖掘综述

17

用户顶点排序 用户影响力计算

◦ Degree :节点的度数

直接影响力,开销小◦ Closeness :与所有其他点的最短距离之和

衡量间接影响力,开销大

◦ Betweenness 节点处于其他节点最短路径上的能力

j 与 k之间最短路径的数目 j 与 k之间最短路径,且通过 i 的数目

节点对信息传播的影响 时间、空间开销大

Page 18: 微 博挖掘综述

18

用户顶点排序用户影响力计算PageRank

◦只考虑了节点影响力的传播,未考虑节点自身的特征

Personalized PageRank

如:

Page 19: 微 博挖掘综述

19

结构挖掘:顶点排序微博顶点排序

◦根据用户转发该微博的概率,越高,信息越有价值

◦微博的质量◦作者的权威度◦微博的可信度

应用场景◦微博推荐

用户自身的喜好可作为另一个特征

Page 20: 微 博挖掘综述

20

应用:微博推荐推荐内容

◦推荐内容 标签 音乐 新闻:动态性,时效性 微博

◦推荐人 朋友

Page 21: 微 博挖掘综述

21

应用:微博推荐推荐技术

◦ 基于内容◦协同过滤◦混合推荐

基于内容的推荐◦ 根据用户以前喜欢的项目,给用户的阅读偏好建模

项目的特征矩阵(内容)协同过滤

◦ 基于近邻的推荐(寻找相似用户;相似 Item ) Item-user 评分矩阵

◦ 基于模型的方法 矩阵分解:建立用户和项目两个因子模型 概率矩阵分解:用户兴趣和项目主题分布中的不确定性

Page 22: 微 博挖掘综述

22

应用:微博推荐微博推荐新方向

◦ 社交推荐模型:将社交关系加入到推荐中。 User-user 矩阵, User-Item 矩阵,同时进行分解 信任关系上的矩阵分解

◦ 动态推荐:推荐在特定时间内用户感兴趣的主题 发现用户兴趣在用户主题上的动态概率分布 项目和用户兴趣进行动态匹配

◦ 实时推荐 在线协同过滤,增量式更新近邻的相似度 矩阵分解的改进: matrix sketching 算法,用于实

时推荐中的矩阵近似

Page 23: 微 博挖掘综述

23

微博挖掘挑战微博检索

◦有效特征的选择事件摘要的深度挖掘

◦不仅考虑摘要的覆盖性和多样性◦产生具有语义结构的代表事件发展的摘要

实时事件的深度挖掘◦大数据分析技术◦整合流处理 /批处理的分布式平台

Page 24: 微 博挖掘综述

24

总结微博特点文本挖掘

◦ 微博检索◦ 微博摘要◦ 情感分析

结构挖掘◦ 链接预测◦ 节点排序

应用◦ 微博推荐

挑战

Page 25: 微 博挖掘综述

25

谢谢