数据和算法驱动的本地生活推荐

13
数数数数数数数数 数数数数数数 数数数数数 · 数数

description

数据和算法驱动的本地生活推荐

Transcript of 数据和算法驱动的本地生活推荐

Page 1: 数据和算法驱动的本地生活推荐

数据和算法驱动的本地生活推荐

大众点评网 · 李新

Page 2: 数据和算法驱动的本地生活推荐

内容提要• 本地生活推荐的广泛应用场景• 推荐的原料:数据 -聚沙成金• 推荐的内核:挖掘• 推荐的引擎:算法• 推荐的地基:架构• 推荐的立场:公正、分享、多赢

Page 3: 数据和算法驱动的本地生活推荐

点评的起源就是推荐• Web2.0 推荐:

• 我为人人,人人为我• 上传商户信息、商品图片• 描述性和结构化评价

• 大众推荐:个人点评的有机聚合• 星级• 商户简介• 推荐菜• 代表性点评

• 个性化推荐:个性化消费 starting for future

Page 4: 数据和算法驱动的本地生活推荐

本地生活的推荐场景• 旅游到外地

• 喜好相近的人在当地的选择:避险• 白领午餐

• 基于签到和朋友兴趣等:极速决策• 附近有啥好吃的

• 附近推荐菜:决策,尝新• 10 个团购邮件, 9 个与我无关

• 基于过往购买、签到、浏览等:精准推广

Page 5: 数据和算法驱动的本地生活推荐

附近推荐菜

Page 6: 数据和算法驱动的本地生活推荐

附近推荐菜

Page 7: 数据和算法驱动的本地生活推荐

点评的推荐特点• 与电商比:

• 地域性:区域热点未必是全国热点 • 非标准化:服务可比性差• 品牌:商户品牌重于商品品牌• 质量:被推荐的商户也是用户上传• 推荐理由:基于 web 2.0 ,还要概括总结群众智慧

• 与广告比:• Impulse & Intent :即时冲动 意愿预测 • 长期兴趣未必是此时此地的消费决策结果

• 与团购网站比:• 数据来源:主站、手机 APP 、团购网,多样• 推荐形式:团购网、邮件、手机 APP 、主站,多样• 推荐内容:自然结果、团购、优惠券 ,多元

Page 8: 数据和算法驱动的本地生活推荐

推荐的原料:数据 -聚沙成金• 类型:

• 消费过程 : 查找、决策、签到、消费、支付、评价、分享• 用户页面行为 : 浏览、搜索、收藏、标签、照片、签到、点评、社交图• 消费对象:商户、服务、商品信息

• 采集: GA ? 性能,准确性• 存储:海量,安全• 即刻:当次访问的处理• 清洗:去爬虫,去重,反作弊,去广告,去小号等 • 抽取:结构化信息• 串连:跨时间 跨平台

Page 9: 数据和算法驱动的本地生活推荐

推荐的内核:挖掘• 用户画像• 用户分群• 商户画像 • 商户 / 产品的分类和聚类• 点评的情感分析• 上传图片的分类、聚类、识别• 理由:综合性 准确性 代表性

Page 10: 数据和算法驱动的本地生活推荐

推荐的引擎:算法• 特征表达:

• 计数或类别• 非常稀疏而且正反馈不足• 颗粒度的掌握 vs 概念漂移

• 建模:• 基于内容• 协同过滤:基于用户 vs 基于内容项• 行为定向• 基于传导• 增量学习

• 评估:• 线下评估• 线上 A/B 测试

Page 11: 数据和算法驱动的本地生活推荐

推荐的地基:架构• 海量数据的采集、存储、处理、分析• 端到端的 A/B框架 • 多优化目标• 多算法支持• 算法并行化• 增量建模• 实时性与互动• 当次访问的处理• 邮件系统的模板数

Page 12: 数据和算法驱动的本地生活推荐

推荐的立场:公正 · 平衡 · 多赢

广告

诚信

推荐

搜索

坚持用户利益至上的多方博弈

Page 13: 数据和算法驱动的本地生活推荐

Q & A

联系方式:[email protected]

新浪微博: 谷民李新