王守崑 - 豆瓣在推荐领域的实践和思考

32
豆瓣在推荐领域的 实践与思考 胖子@豆瓣 2009.12.19

Transcript of 王守崑 - 豆瓣在推荐领域的实践和思考

Page 1: 王守崑 - 豆瓣在推荐领域的实践和思考

豆瓣在推荐领域的

实践与思考

胖子@豆瓣

2009.12.19

Page 2: 王守崑 - 豆瓣在推荐领域的实践和思考
Page 3: 王守崑 - 豆瓣在推荐领域的实践和思考

豆瓣的推荐引擎--豆瓣猜

Page 4: 王守崑 - 豆瓣在推荐领域的实践和思考

豆瓣猜的产品形态

• 喜欢XX的也喜欢

• 豆瓣猜你会喜欢

• 今日推荐

• 围绕推荐设计的产品

Page 5: 王守崑 - 豆瓣在推荐领域的实践和思考

什么样的产品适合推荐?

• 具有媒体性的产品(Media Product)

– 口味(taste)很重要

– 单位成本不重要

– 有瀑布效应 (information cascade)

– 多样性

Page 6: 王守崑 - 豆瓣在推荐领域的实践和思考

媒体类产品的数据特征

用户数 条目数 稀疏性 多样性 时效性 反馈 推荐效果

图书 3,000,000 3,000,000 < 0.5% 高 低 慢 B

电影 5,000,000 100,000 1% ~5% 低 中 中 C

唱片 1,500,000 400,000 < 1% 低 低 中 C

小组 5,000,000 200,000 %1 中 中 中 B

人 5,000,000 5,000,000 < 0.5% 高 低 慢 D

文章 500,000 10,000,000 < 0.1% 高 高 快 C

单曲 5,000,000 1,000,000 5% ~ 10% 低 低 快 A

广告 30,000,000 50,000 1% 低 高 中 D

Page 7: 王守崑 - 豆瓣在推荐领域的实践和思考

用户数

条目数

广

Page 8: 王守崑 - 豆瓣在推荐领域的实践和思考

时效性

稀疏性

广

Page 9: 王守崑 - 豆瓣在推荐领域的实践和思考

时效性

多样

广

Page 10: 王守崑 - 豆瓣在推荐领域的实践和思考

反馈

多样

广

Page 11: 王守崑 - 豆瓣在推荐领域的实践和思考

什么样的产品适合推荐?

• 条目增长相对稳定

• 能够获得快速反馈

• 稀疏性、多样性和时效性的平衡

Page 12: 王守崑 - 豆瓣在推荐领域的实践和思考

豆瓣的成长

通过算法分析应对高成长性

Page 13: 王守崑 - 豆瓣在推荐领域的实践和思考

推荐系统的可扩展性

• User-Item矩阵 ,平均每行的非零元素

个数是L个,考虑 的计算复杂性

– 假设A的非零元均匀分布,求S的非零元素个数

– S中任一元素非零的概率为,

TAAS

nnA

n

n

L))(1(1

2

Page 14: 王守崑 - 豆瓣在推荐领域的实践和思考

• 则S的非零元素个数

))1(1()))(1(1(2

2

222

n

Lnn

n

Ln

n

2nL

Page 15: 王守崑 - 豆瓣在推荐领域的实践和思考

• 考虑A中的元素非均匀分布的情况

n

iLp

1 n

p

p

n

i

1let

according to Cauchy-Schwarz Inequality

n

n

ipp

1

22)1()1(

so2

nLS

Page 16: 王守崑 - 豆瓣在推荐领域的实践和思考

推荐系统的可扩展性

• 降低存储空间

• 近似算法/分块

• 并行/分布式计算

Page 17: 王守崑 - 豆瓣在推荐领域的实践和思考

推荐系统面临的挑战

• 产品形态

– 推荐是一项技术还是一种产品/功能?

– 推荐能否有独立的产品形态?

Page 18: 王守崑 - 豆瓣在推荐领域的实践和思考

用户收藏

推荐质

冷启动

兴趣过多

Page 19: 王守崑 - 豆瓣在推荐领域的实践和思考

评价指标

• Hit-rate / RMSE

• 点击率

• 如何形成闭环?

Page 20: 王守崑 - 豆瓣在推荐领域的实践和思考

黑盒推荐的问题

• 倾向于给出平庸的推荐

• 放大噪声

• 有信息,无结构

• 缺乏对用户的持续关注

Page 21: 王守崑 - 豆瓣在推荐领域的实践和思考

下一代推荐系统

Prediction Forecasting Recommendation

Page 22: 王守崑 - 豆瓣在推荐领域的实践和思考

Prediction

• 明确的优化指标

• 静态模型/系统

• 由数据形成信息

Page 23: 王守崑 - 豆瓣在推荐领域的实践和思考

Forecasting

• 闭环的系统

• 动态模型

• 由信息形成知识

Page 24: 王守崑 - 豆瓣在推荐领域的实践和思考

Recommendation

• 以用户为中心,建立用户行为模型

• 有记忆的,进化的系统

• 由知识形成系统结构

Page 25: 王守崑 - 豆瓣在推荐领域的实践和思考

下一代推荐系统

• 技术准备

– 云计算

– Open ID

– Semantic Web

– …

Page 26: 王守崑 - 豆瓣在推荐领域的实践和思考

个性化技术

推荐Anti-

Spammer信息过滤 广告

机器学习 用户模型

协同过滤 矩阵分解 分类器 聚类…

Page 27: 王守崑 - 豆瓣在推荐领域的实践和思考
Page 28: 王守崑 - 豆瓣在推荐领域的实践和思考

个性化推荐与非个性化推荐

• 人人都需要过滤器?

Tier I

Tier II

Tier III

Page 29: 王守崑 - 豆瓣在推荐领域的实践和思考

如何发现信息

• 排序 (Ranking)

• 关联 (Correlation)

• 聚类/分类 (Clustering/Classification)

• 过滤 (Filtering)

Page 30: 王守崑 - 豆瓣在推荐领域的实践和思考

一些有用的方法

Correlation

EM

Boosting

Eigen Vector Bayes

Meta-Heuristics

Page 31: 王守崑 - 豆瓣在推荐领域的实践和思考

Algorithms should facilitate rather than replace social

processes.

Page 32: 王守崑 - 豆瓣在推荐领域的实践和思考

Q & A

Thanks