微 博挖掘综述
-
Upload
rockwell-kolby -
Category
Documents
-
view
64 -
download
0
description
Transcript of 微 博挖掘综述
微博挖掘综述
报告人:王菁菁2014.4.23
大纲微博特点文本挖掘
◦ 微博检索◦ 微博摘要◦ 情感分析
结构挖掘◦ 链接预测◦ 节点排序
应用◦ 微博推荐
挑战2
3
微博特点内容特点
◦短文本性:小于 140 个文字◦Hashtag: #topic#
结构特点◦幂律分布: follower,followee◦传播即时 : 可以通过 Web,WAP 各种客户端发送◦结构洞: 1% 的用户控制 25% 的信息传播
用户特点◦用户发文:广播,分享信息◦交友模式:关注有相同兴趣爱好的用户
4
文本挖掘:微博检索检索:根据用户提交的查询返回相关
的微博检索内容
◦动态信息:事件检索◦人◦Hashtag 、救援事件、跨社交媒体检索等
与其他技术结合◦聚类分析:分面搜索◦事件检测、摘要技术:结果展示
5
文本挖掘:微博检索检索两大关键技术
◦索引◦排序
索引◦TI: 实时索引◦Pollux: 分布式可扩展实时索引
6
文本挖掘:微博检索排序特征选择
◦文本特征: TF-IDF◦相关性◦发表时间 : 时效性的最有效特征◦微博质量 : 例如,有趣性◦可信度◦用户影响力
7
文本挖掘:微博摘要话题摘要:一个话题的文档集合摘要,
能代表话题的核心语义事件检测内容
◦发现新兴爆发的主题◦持久讨论的事件◦特定的事件
事件检测的方法◦聚类:对关键词聚类、社团聚类
8
文本挖掘:微博摘要摘要的类别
◦对事件的描述◦观点摘要:对一个实体的观点倾向◦多微博文本摘要: timeline 摘要,如体育
比赛的进程摘要方法
◦抽取式摘要◦生成式摘要
9
文本挖掘:微博摘要抽取式摘要方法对每个子句评分,选取得分的 top-k的子句作为
摘要矩阵分解 SVD ,选择排序较高的子句
◦ 构建词 -- 句子矩阵 A ,矩阵的元素是每个词在句子中出现的次数
◦ SVD : ◦ 最终选择向量中值比较大的句子作为摘要。
聚类 (SNMF) 聚类中心◦ 实时摘要系统:增量式的聚类,抽取质心
数据重构,选出的摘要可以最大限度地还原原始数据。
子句的重要性
10
文本挖掘:微博摘要抽取式摘要:抽取文本信息,嵌入到
预定模版中例 1
◦分类:对语言行为进行分类◦抽取最具代表性的短语◦嵌入模版中
例 2◦对词序列建索引◦抽取频率最高的短语作为摘要
11
文本挖掘:情感分析基于分类的方法
◦ 类别:中性,积极,消极◦ 特征:
表情(最直观) N-gram Hashtag Part-Of-speech :( adv + adj ) 二值特征:是否包含链接(中性,非中性)
◦ 分类方法: SVM 朴素贝叶斯 等等
12
文本挖掘:情感分析基于词典的方法
◦ 积极词典、消极词典◦ 对每个句子计算得分 :
积极:得分 >0 中性:得分 =0 消极:得分 <0
◦ 情感强度分析统计结论
◦ 在 Sina 和 Twitter 上,积极情感多于消极情感
◦POS 在情感表达中很常见
13
结构挖掘:链接预测网络结构中,未连接的两点是否会相
连
应用场景◦推荐系统:好友推荐,商品推荐◦生物信息学:预测基因与蛋白质的关系◦安全领域:犯罪团伙的发现◦等等
?
14
结构挖掘:链接预测结构性的方法
◦局部结构(两个节点的相似性) 共同邻居的数目 Jaccard 系数 Preferential attachment (优先连接)
◦全局结构 传递性
15
结构挖掘:链接预测随机游走
◦无监督 概率:
◦有监督 结合顶点和边的信息指导随机游走
分类方法:预测是否存在链接◦基于拓扑结构的特征
两个节点邻居的总数◦非拓扑结构特征
两个用户兴趣的重叠度◦基于 PageRank思想,把顶点集合分成两个
subset (可能链接,不可能链接)
l setps
16
用户顶点排序用户顶点排序
◦影响力:信息的传播能力◦可选特征
粉丝数 转发数 被提到的次数 链接结构 结构洞(意见领袖)
17
用户顶点排序 用户影响力计算
◦ Degree :节点的度数
直接影响力,开销小◦ Closeness :与所有其他点的最短距离之和
衡量间接影响力,开销大
◦ Betweenness 节点处于其他节点最短路径上的能力
j 与 k之间最短路径的数目 j 与 k之间最短路径,且通过 i 的数目
节点对信息传播的影响 时间、空间开销大
18
用户顶点排序用户影响力计算PageRank
◦只考虑了节点影响力的传播,未考虑节点自身的特征
Personalized PageRank
如:
19
结构挖掘:顶点排序微博顶点排序
◦根据用户转发该微博的概率,越高,信息越有价值
◦微博的质量◦作者的权威度◦微博的可信度
应用场景◦微博推荐
用户自身的喜好可作为另一个特征
20
应用:微博推荐推荐内容
◦推荐内容 标签 音乐 新闻:动态性,时效性 微博
◦推荐人 朋友
21
应用:微博推荐推荐技术
◦ 基于内容◦协同过滤◦混合推荐
基于内容的推荐◦ 根据用户以前喜欢的项目,给用户的阅读偏好建模
项目的特征矩阵(内容)协同过滤
◦ 基于近邻的推荐(寻找相似用户;相似 Item ) Item-user 评分矩阵
◦ 基于模型的方法 矩阵分解:建立用户和项目两个因子模型 概率矩阵分解:用户兴趣和项目主题分布中的不确定性
22
应用:微博推荐微博推荐新方向
◦ 社交推荐模型:将社交关系加入到推荐中。 User-user 矩阵, User-Item 矩阵,同时进行分解 信任关系上的矩阵分解
◦ 动态推荐:推荐在特定时间内用户感兴趣的主题 发现用户兴趣在用户主题上的动态概率分布 项目和用户兴趣进行动态匹配
◦ 实时推荐 在线协同过滤,增量式更新近邻的相似度 矩阵分解的改进: matrix sketching 算法,用于实
时推荐中的矩阵近似
23
微博挖掘挑战微博检索
◦有效特征的选择事件摘要的深度挖掘
◦不仅考虑摘要的覆盖性和多样性◦产生具有语义结构的代表事件发展的摘要
实时事件的深度挖掘◦大数据分析技术◦整合流处理 /批处理的分布式平台
24
总结微博特点文本挖掘
◦ 微博检索◦ 微博摘要◦ 情感分析
结构挖掘◦ 链接预测◦ 节点排序
应用◦ 微博推荐
挑战
25
谢谢