第三节 应用广泛的数表 矩阵 - math.miami.edudzgao/8-3-slides.pdf · 第三节 应用广泛的数表 矩阵 主要内容: 一、矩阵的概念与运算 二、逆矩阵
基于矩阵分解模型利用社交网络、物品标签、浏览历史数据预测电影评分的算法...
-
Upload
karen-ware -
Category
Documents
-
view
32 -
download
5
description
Transcript of 基于矩阵分解模型利用社交网络、物品标签、浏览历史数据预测电影评分的算法...
基于矩阵分解模型利用社交网络、物品标签、浏览历史数据预测电影评分的算法
adaziw 王紫 清华计算机大三
VVVV
V
社交网络 !
历史记录!
物品标签
模型融合
社交网络 物品标签
历史记录 模型融合
1 2 3 4
• Data Analysis
• Same Interest Model
• Same Fans Model
• Data Analysis
• User CF Model
• Movie CF Model
• Data Analysis
• Only Tag Model
• Topic of Tag Model
• Linear Combine
• All the Models
• Final Result
社交网络数据分析 !
图 1 社交网络用户影响力分布
社交网络数据分析 !
图 2 社交网络用户活跃度分布
把这个社交网络中目标用户关注的人当做和这个人有相同兴趣的群体
保留社交网络中入度较高的被关注者,作为用户的标签
利用社交信息对不同的用户进行区分训练
一些社交网
络信息相关
的 Model
用户历史记录数据分析 !
图 3 用户活跃度分布
图 4 电影流行度分布
用户历史记录数据分析 !
基于用户的协同过滤 A. 找到和目标用户行为相似的用户集合 B. 综合该集合中的用户对目标电影的评价
基于电影的协同过滤 A.计算电影与电影的相似度 B.把与目标电影相似度高的电影作为物品特征加入模型
用 Topic Model 来训练每个人的历史记录?
克服用户数
据稀疏的问
题!
历史记录得到的
用 LDA 训练用户浏览记录数据得到的 50 个 topic 中的前5 个下出现概率最高的 20 部电影
Topic0 Topic1 Topic2 Topic3 Topic4
518661888782633006863201618034897136275412310411982003755074
456400397398696899310411275412250272585307202362982003441324
717879736512608884325721845142343755202362438265512414397398
144718219560907975776002885390770309242057962729413181424691
397398608884741844845142325721438265696899343755512414202362
标签信息数据分析 !
图 5 标签流行度分布
不同的 tag对于电影内容的贡献应该是不一样的,从而会影响打分的预测
按 tag的流行程度分用 LDA把 tag分成了 5类
标签也存在着数据稀疏性
利用标签信
息克服评分
预测时数据
的稀疏性
标签信息数据分析 !
用 LDA 训练出的 5 个话题下出现最多的 10 个 tag
Topic0 Topic1 Topic2 Topic3 Topic4
4770751563912099923083978250939745726796
6796940896742099492331351303939757935794
6067639164495085102357397014236139242080
9230639127113924975573369844606783974572
5896579339244528733660672211579466119840
Step 1
Step 2
Step 3
•Get the train and predict input
•Train on basic model
•Combine the result with others
运用社交信息
运用标签信息
运用历史记录
线性模型融合
Thank you !