沪交医基金〔2016 - firsthospital.cn · 推荐方式 学生推荐( ) 单位推荐( ) 个人自荐( ) 单位地址 邮 编 E-mail 工作简历 时 间 所在单位
王守崑 - 豆瓣在推荐领域的实践和思考
-
Upload
gu-wendong -
Category
Technology
-
view
30.392 -
download
0
Transcript of 王守崑 - 豆瓣在推荐领域的实践和思考
豆瓣在推荐领域的
实践与思考
胖子@豆瓣
2009.12.19
豆瓣的推荐引擎--豆瓣猜
豆瓣猜的产品形态
• 喜欢XX的也喜欢
• 豆瓣猜你会喜欢
• 今日推荐
• 围绕推荐设计的产品
什么样的产品适合推荐?
• 具有媒体性的产品(Media Product)
– 口味(taste)很重要
– 单位成本不重要
– 有瀑布效应 (information cascade)
– 多样性
媒体类产品的数据特征
用户数 条目数 稀疏性 多样性 时效性 反馈 推荐效果
图书 3,000,000 3,000,000 < 0.5% 高 低 慢 B
电影 5,000,000 100,000 1% ~5% 低 中 中 C
唱片 1,500,000 400,000 < 1% 低 低 中 C
小组 5,000,000 200,000 %1 中 中 中 B
人 5,000,000 5,000,000 < 0.5% 高 低 慢 D
文章 500,000 10,000,000 < 0.1% 高 高 快 C
单曲 5,000,000 1,000,000 5% ~ 10% 低 低 快 A
广告 30,000,000 50,000 1% 低 高 中 D
用户数
条目数
人
图
书
电
影
唱
片
小
组
文
章
广
告
单
曲
时效性
稀疏性
人
图
书
电
影
唱
片
小
组
文
章
广
告
单
曲
时效性
多样
性
人
图
书
电
影
唱
片
小
组
文
章
广
告
单
曲
反馈
多样
性
人
图
书
电
影
唱
片
小
组
文
章
广
告
单
曲
什么样的产品适合推荐?
• 条目增长相对稳定
• 能够获得快速反馈
• 稀疏性、多样性和时效性的平衡
豆瓣的成长
通过算法分析应对高成长性
推荐系统的可扩展性
• User-Item矩阵 ,平均每行的非零元素
个数是L个,考虑 的计算复杂性
– 假设A的非零元均匀分布,求S的非零元素个数
– S中任一元素非零的概率为,
TAAS
nnA
n
n
L))(1(1
2
• 则S的非零元素个数
))1(1()))(1(1(2
2
222
n
Lnn
n
Ln
n
2nL
• 考虑A中的元素非均匀分布的情况
n
iLp
1 n
p
p
n
i
1let
according to Cauchy-Schwarz Inequality
n
n
ipp
1
22)1()1(
so2
nLS
推荐系统的可扩展性
• 降低存储空间
• 近似算法/分块
• 并行/分布式计算
推荐系统面临的挑战
• 产品形态
– 推荐是一项技术还是一种产品/功能?
– 推荐能否有独立的产品形态?
用户收藏
推荐质
量
冷启动
兴趣过多
评价指标
• Hit-rate / RMSE
• 点击率
• 如何形成闭环?
黑盒推荐的问题
• 倾向于给出平庸的推荐
• 放大噪声
• 有信息,无结构
• 缺乏对用户的持续关注
下一代推荐系统
Prediction Forecasting Recommendation
Prediction
• 明确的优化指标
• 静态模型/系统
• 由数据形成信息
Forecasting
• 闭环的系统
• 动态模型
• 由信息形成知识
Recommendation
• 以用户为中心,建立用户行为模型
• 有记忆的,进化的系统
• 由知识形成系统结构
下一代推荐系统
• 技术准备
– 云计算
– Open ID
– Semantic Web
– …
个性化技术
推荐Anti-
Spammer信息过滤 广告
机器学习 用户模型
协同过滤 矩阵分解 分类器 聚类…
个性化推荐与非个性化推荐
• 人人都需要过滤器?
Tier I
Tier II
Tier III
如何发现信息
• 排序 (Ranking)
• 关联 (Correlation)
• 聚类/分类 (Clustering/Classification)
• 过滤 (Filtering)
一些有用的方法
Correlation
EM
Boosting
Eigen Vector Bayes
Meta-Heuristics
Algorithms should facilitate rather than replace social
processes.
Q & A
Thanks