周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf ·...
Transcript of 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf ·...
周报告
多源数据融合的协同过滤算法研究
刘四平 2016.6.22
指导老师:李仁发教授
主要工作
公司项目的维护和修改
企业级数据分析平台的搭建和测试
需求调研和测试数据处理、分析流程
实现论文的实验以及评价方法
基于物品、物品的协同过滤实现
矩阵分解方法改进实现
1、公司项目的维护和修改
以业务驱动的一整套web管理系统项目
1.1、图片、音、视频采集:下载队列管理
1.2、云管理:vmare虚拟化平台管理和监控
1.3、音、视频转码:提供接口服务和界面管理
1.4、单点登录验证系统
1.1CAS单点登录
1.2下载队列管理
网络资源下载队列——下载任务管理器
图片,音频,视频
1.3云管理
vmare虚拟化平台管理和服务程序的监控
1.4音视频转码
提供转码接口
2、企业级数据分析平台搭建和测试
Cloudera公司基于Hadoop数据分析平台(CDH)
Hadoop:基础存储和集群资源管理和调度
Spark:分布式计算
Hive:数据仓库
Sqoop:数据迁移工具
3、企业需求调研和实施
多源数据融合处理和分析
显式反馈、隐式反馈
数据来源分析整合:
微信:S1*P1
微博:S2*P2
主页:S3*P3
RSS订阅:S4*P4
Rating=S1*P1+S2*P2+S3*P3+P4*P4 for unique id
4、数据分析流程
(1)定义输入数据源:HDFS/数据库
(2)抽取、转换、加载(ETL)操作
(3)定义输出操作:HDFS/数据库
(4)评测结果
4、数据分析流程的管理
方案1、基于Spark的作业管理 Spark-Jobserver
管理Spark程序和作业
功能单一完善
方案2、Oozie工作流引擎
管理Hive,Spark,Sqoop等
4、程序和作业的管理
定义程序执行流程
运行过程状态
4、上传程序操作
上传编写好的Spark程序
作程序说明和参数说明
协同过滤算法改进实现
采用ALS矩阵分解模型
结合基于物品的协同过滤
训练得到隐因子模型参数
根据评分,作正、负反馈评估
计算用户、物品向量之间的相似度
综合得到TOP-N的推荐结果
作计算方法的评估
Precision at 1 = 0.045033112582781455
Precision at 3 = 0.131401766004415
Precision at 5 = 0.16364238410596074
Top-N推荐问题评测
对用户u推荐N个物品(记为R(u)),令用户u在测试集上喜欢的物品集合为T(u),然后可以通
过准确率/召回率评测推荐算法的精度:
准确率、召回率和覆盖率的实现
后期计划
小论文
软件著作权
关于实习
谢谢