周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf ·...

18
周报告 多源数据融合的协同过滤算法研究 刘四平 2016.6.22 指导老师:李仁发教授

Transcript of 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf ·...

Page 1: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

周报告

多源数据融合的协同过滤算法研究

刘四平 2016.6.22

指导老师:李仁发教授

Page 2: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

主要工作

公司项目的维护和修改

企业级数据分析平台的搭建和测试

需求调研和测试数据处理、分析流程

实现论文的实验以及评价方法

基于物品、物品的协同过滤实现

矩阵分解方法改进实现

Page 3: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

1、公司项目的维护和修改

以业务驱动的一整套web管理系统项目

1.1、图片、音、视频采集:下载队列管理

1.2、云管理:vmare虚拟化平台管理和监控

1.3、音、视频转码:提供接口服务和界面管理

1.4、单点登录验证系统

Page 4: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

1.1CAS单点登录

Page 5: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

1.2下载队列管理

网络资源下载队列——下载任务管理器

图片,音频,视频

Page 6: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

1.3云管理

vmare虚拟化平台管理和服务程序的监控

Page 7: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

1.4音视频转码

提供转码接口

Page 8: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

2、企业级数据分析平台搭建和测试

Cloudera公司基于Hadoop数据分析平台(CDH)

Hadoop:基础存储和集群资源管理和调度

Spark:分布式计算

Hive:数据仓库

Sqoop:数据迁移工具

Page 9: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

3、企业需求调研和实施

多源数据融合处理和分析

显式反馈、隐式反馈

数据来源分析整合:

微信:S1*P1

微博:S2*P2

主页:S3*P3

RSS订阅:S4*P4

Rating=S1*P1+S2*P2+S3*P3+P4*P4 for unique id

Page 10: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

4、数据分析流程

(1)定义输入数据源:HDFS/数据库

(2)抽取、转换、加载(ETL)操作

(3)定义输出操作:HDFS/数据库

(4)评测结果

Page 11: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

4、数据分析流程的管理

方案1、基于Spark的作业管理 Spark-Jobserver

管理Spark程序和作业

功能单一完善

方案2、Oozie工作流引擎

管理Hive,Spark,Sqoop等

Page 12: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

4、程序和作业的管理

定义程序执行流程

运行过程状态

Page 13: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

4、上传程序操作

上传编写好的Spark程序

作程序说明和参数说明

Page 14: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

协同过滤算法改进实现

采用ALS矩阵分解模型

结合基于物品的协同过滤

训练得到隐因子模型参数

根据评分,作正、负反馈评估

计算用户、物品向量之间的相似度

综合得到TOP-N的推荐结果

作计算方法的评估

Precision at 1 = 0.045033112582781455

Precision at 3 = 0.131401766004415

Precision at 5 = 0.16364238410596074

Page 15: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

Top-N推荐问题评测

对用户u推荐N个物品(记为R(u)),令用户u在测试集上喜欢的物品集合为T(u),然后可以通

过准确率/召回率评测推荐算法的精度:

Page 16: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

准确率、召回率和覆盖率的实现

Page 17: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

后期计划

小论文

软件著作权

关于实习

Page 18: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授

谢谢