数据分析系统架构设计

7
1 数据分析系统架构设计 司学峰 2012.3 1. 对乐视业务模式的理解........................................................................................................... 1 2. 乐视数据分析体系建设的原则与目标................................................................................... 2 3. 数据分析的三个阶段............................................................................................................... 2 4. 乐视数据分析现状................................................................................................................... 2 5. 下一步工作规划....................................................................................................................... 4 以用户为中心........................................................................................................................... 5 以视频为中心........................................................................................................................... 5 以三屏为中心........................................................................................................................... 6 以全站运维为中心................................................................................................................... 6 具体工作建议........................................................................................................................... 6 1. 对乐视业务模式的理解 “第一重要的是,保持信心,获得尊重,吸引读者---为他们提供有价值的新闻。研究民 意。熟悉你的专业。科学建设。印刷好一点的报纸,满足你想象中的公众需求。”---埃德温- 格罗泽(美国) 我们的业务核心是通过我们的产品或服务向用户提供内容,我们的内容主要以影视剧、 乐视制造为主,我们的用户主要为广大网民,其中部分转化为我们的付费用户,我们的业务 通过持续提升品牌影响力、提升网站内容、提高用户量以及付费用户量。 根据我们向用户提供的产品或服务形式可以进行不同类别的划分, 1) 按乐视提供给用户的业务平台可以分为: WEB :当前业务流量的主力 移动端:移动互联网时代的宠儿 盒子端:核心而特色的竞争力所在 2) 按乐视提供给用户的内容: 影视剧内容:电影、电视剧、动漫、纪录片等 自制节目:乐视制造、娱乐新闻等 电视台节目:卫视直播、快乐大本营、非你莫属等 其他:网友上传等 3) 按投出成本划分为:带宽成本、影视剧版权非要、推广费用、制作费用、人力资源成本 等; 4) 按收入类型划分:广告收入、版权分销收入、付费用户收入、盒子收入等 5) 按用户是否付费划分:免费用户、在线付费客户以及购买盒子的客户 6) 按用户价值划分:高质量高忠诚、高质量低忠诚、低质量高忠诚、低质量低忠诚

description

数据分析平台及专题分析报告中新增的分析指标越来越多,体系建设越来越完善,但随着业务的发展、分析的深入,乐视数据分析指标体系建设仍将是未来一段时间的工作重点,对于分析指标特别的KPI指标的构建我们将围绕三个原则进行展开:  可量化:“可量化的才是可管理的”,这里是指我们要围绕我们的核心业务、用户、流程管理进行可量化的指标体系建设,我们把它划分为分为成本量化(时间成本、带宽成本、硬件成本、软件成本)、效益量化(流量效益、播放量效益、用户量效益)、效率量化(效益与成本比)、重点产品及功能可度量、关键业务流程可度量。  可评价:是指建立的指标能够对用户、产品或运维等优劣、好坏等进行综合评价  可优化:通过量化与评价体系确定产品状况与提升目标,建立优化目标并跟踪优化效果 数据部的工作目标是希望通过我们努力工作以及与相关部门的通力合作,力求达到以下几点目标:  分析并提升用户体验  分析并优化页面布局  分析与提升视频价值  分析并助力运维效果  为高层决策提供价值信息

Transcript of 数据分析系统架构设计

Page 1: 数据分析系统架构设计

1

数据分析系统架构设计

司学峰 2012.3 1. 对乐视业务模式的理解 ........................................................................................................... 1 2. 乐视数据分析体系建设的原则与目标 ................................................................................... 2 3. 数据分析的三个阶段 ............................................................................................................... 2 4. 乐视数据分析现状 ................................................................................................................... 2 5. 下一步工作规划 ....................................................................................................................... 4

以用户为中心 ........................................................................................................................... 5 以视频为中心 ........................................................................................................................... 5 以三屏为中心 ........................................................................................................................... 6 以全站运维为中心 ................................................................................................................... 6 具体工作建议 ........................................................................................................................... 6

1. 对乐视业务模式的理解

“第一重要的是,保持信心,获得尊重,吸引读者---为他们提供有价值的新闻。研究民

意。熟悉你的专业。科学建设。印刷好一点的报纸,满足你想象中的公众需求。”---埃德温-格罗泽(美国)

我们的业务核心是通过我们的产品或服务向用户提供内容,我们的内容主要以影视剧、

乐视制造为主,我们的用户主要为广大网民,其中部分转化为我们的付费用户,我们的业务

通过持续提升品牌影响力、提升网站内容、提高用户量以及付费用户量。 根据我们向用户提供的产品或服务形式可以进行不同类别的划分, 1) 按乐视提供给用户的业务平台可以分为: WEB 端:当前业务流量的主力 移动端:移动互联网时代的宠儿 盒子端:核心而特色的竞争力所在 2) 按乐视提供给用户的内容: 影视剧内容:电影、电视剧、动漫、纪录片等 自制节目:乐视制造、娱乐新闻等 电视台节目:卫视直播、快乐大本营、非你莫属等 其他:网友上传等 3) 按投出成本划分为:带宽成本、影视剧版权非要、推广费用、制作费用、人力资源成本

等; 4) 按收入类型划分:广告收入、版权分销收入、付费用户收入、盒子收入等 5) 按用户是否付费划分:免费用户、在线付费客户以及购买盒子的客户 6) 按用户价值划分:高质量高忠诚、高质量低忠诚、低质量高忠诚、低质量低忠诚

Page 2: 数据分析系统架构设计

2

2. 乐视数据分析体系建设的原则与目标

当前数据分析平台及专题分析报告中新增的分析指标越来越多,体系建设越来越完善,

但随着业务的发展、分析的深入,乐视数据分析指标体系建设仍将是未来一段时间的工作重

点,对于分析指标特别的 KPI 指标的构建我们将围绕三个原则进行展开: 可量化:“可量化的才是可管理的”,这里是指我们要围绕我们的核心业务、用户、流程

管理进行可量化的指标体系建设,我们把它划分为分为成本量化(时间成本、带宽成本、

硬件成本、软件成本)、效益量化(流量效益、播放量效益、用户量效益)、效率量化(效

益与成本比)、重点产品及功能可度量、关键业务流程可度量。 可评价:是指建立的指标能够对用户、产品或运维等优劣、好坏等进行综合评价 可优化:通过量化与评价体系确定产品状况与提升目标,建立优化目标并跟踪优化效果

数据部的工作目标是希望通过我们努力工作以及与相关部门的通力合作,力求达到以下

几点目标: 分析并提升用户体验 分析并优化页面布局 分析与提升视频价值 分析并助力运维效果 为高层决策提供价值信息

3. 数据分析的三个阶段

数据分析是一个系统的过程,涉及不同部门,数据分析结果乃至数据分析报告的产生不是一

撮而就的事情,需要相关部门针对分析结果进行流程、页面布局、视频内容等等的再造与优

化的过程。分析三流程可以分为是什么、为什么、怎么样三个阶段。 是什么:是什么主要是对问题的识别和定义。比如:全站流量几何?全站用户的数量及

其特征是什么?全站视频播放质量如何?用户的体验如何?是什么的问题主要依赖数据

分析平台,通过数据平台丰富的分析指标和分析主题能够快速定位问题;当然是什么的

问题定义也需要业务部门的配合,他们需求的提出是数据平台分析主题完善的源泉。 为什么:为什么是对于是什么问题的原因的解释,为什么主要是数据分析人员以现有分

析平台数据为基础,并根据需要对数据乃至原始数据进行多方位再处理再加工并最终定

位问题原因的过程。例如搜索来源用户入口弹出率为什么高?为什么网址流量突然之间

异常偏高?等等 怎么样:是什么识别问题,为什么定位问题的影响元素,那么怎么样就是找到原因后解

决问题的过程了。怎么样的问题需要相关业务部门根据问题的原因进行页面数据优化或

流程再造。

4. 乐视数据分析现状

数据部自今年 7 月份筹备以来,在公司领导的关怀下,在兄弟部门的紧密配合下,完成

Page 3: 数据分析系统架构设计

3

了从团队组建,系统架构建设、数据分析平台开发,其中数据分析平台从分析指标、分析专

题、展现方式在团队成员努力工作及各方配合下日臻完善,业务部门提出的新需求正在得到

进一步的满足。 从数据部团体成员构成看,主要分为两个组:

面向后台数据运维与系统开发的系统开发组,主要负责海量数据的处理、数据分析

平台建设等工作; 面向全站业务数据分析与挖掘建模的数据分析组,主要负责业务数据的分析、用户

行为挖掘建模等工作。 目前数据部提供的内容主要有四大块:

在线数据分析平台:面向全员的提供在线实时统计分析数据 数据分析日报:面向公司高层提供日报深度统计分析数据 不定期数据分析报告:面向公司高层提供专题性的深度分析报告 临时性需求统计数据:面向业务部门提出的临时性数据需求

另外,全站播放数与播放时长统计分析、广告效果统计分析、播放质量统计分析的开发

工作正在进行中。 下面重点介绍一下数据分析平台的内容,当前数据分析平台提供的数据指标主要是主站

非付费产品的流量数据,涉及的指标有浏览量 PV、用户量 UV、IP 量 UIP、用户在线时长、

访问深度、用户弹出率、访问深度、用户地区分布、单 URL 查询等。平台系统模块主要分

为真实数据、推广数据、播放数据、部门数据、专题分析、直播数据、运维数据、系统设置

等八大模块。 1) 真实数据:主要对非推广数据进行统计分析,涉及的分析指标主要有浏览量、访客数、

新访客数、新访客比率、IP 数、跳出率、人均访问时长、平均访问页数;涉及的分析主

要主题由今日统计、我的频道、;栏目分类、来路分类、访问排、搜索关键词、以及区

域分析等 7 大分析专题; 2) 推广数据:主要对推广数据进行统计分析,推广数据涉及到的分析指标与分析主题与真

实数据类似,但其主要侧重推广数据的统计分析。 3) 播放数据:主要针对播放数据进行统计分析,涉及的分析指标有播放数、播放错误数、

成功率、高质量播放量数、移动平台播放量等;分析的主题有主站播放数统计、播放广

告曝光统计、播放质量统计、播放缓冲统计、播放渠道统计、移动播放数统计、移动播

放 TOP50、主站播放数统计、鸭梨播放数统计、暴风播放数统计等。 4) 部门统计:主要满足按部门划分的差异化需求,涉及的分析指标有浏览量、访客数、平

均页面数、广告播放 PV、广告播放 UV 等;按部门进行划分查看部门需求数据流量,主

要有全频道统计、广告统计、专题统计、推广来源统计、推广渠道统计、推广网盟统计

等。 5) 专题分析:主要满足特定主题的统计分析需求,涉及的分析指标有 URL、最小时间、最

大时间、PV、UV、真实 UV、推广 UV 等;分析主题有焦点图统计、URL 明细查询、按

周统计独立 UV 和、UIP、按月统计独立 UV 和 UIP。 6) 直播数据:主要对直播数据进行实时统计分析,涉及的指标有新播放数、在线人数、播

放人数、缓冲人数、缓冲次数、缓冲率、初始化数等;分析主题有在线用户、播放数统

计、错误信息统计。 7) 运维数据:主要对运维数据进行统计分析,涉及的指标主要有错误代码、省、市、调度

节点、调度次数、耗费时间等;涉及的专题有播放器失败日志、上传文件、播放错误统

Page 4: 数据分析系统架构设计

4

计、调度错误统计等。 8) 系统设置:主要用于管理员增加、删除用户、设置权限以及用户修改密码等。

关于数据分析报告,我们主要从用户分类、焦点图效果、热播影视剧特征、推广效

果等方面进行了有益的尝试和探索,主要有: 1) 用户分类分析:依据用户入口特征把用户区分为搜索用户、内生用户、推广用户等

几类,针对每类用户的入口弹出率进行了分析,并研究了站内错误页用户体验,形

成了用户入口来源分类报告和站外搜索用户特征行为分析报告。 2) 焦点图效果分析:分析了首页焦点图分析效果及其影响因素,形成了焦点图初步分

析报告。 3) 热播影视剧分析:分析报告有新水浒传分析报告、热播电视剧分析报告等,其中新

水浒分析报告以新水浒传为例分析了乐视与竞争对手在此剧受众用户量、产品交互

功能、用户体验方面进行了探讨。 4) 乐视制造栏目分析:从魅力研习社第一期上线跟进分析形成了三期分析报告,系统

分析了乐视制造用户特征和行为、乐视制造视频生命周期规律以及页面布局对用户

体验的影响,形成的报告有魅力研习社初步分析、乐视造专题分析、乐视制造视频

生命周期等报告 5) 重大事件分析:乐视盛典直播完成后马上给出了乐视直播数据简报,随后又对用户

和直播运维进行了深入分析,形成了乐视盛典用户特征与运维分析。 6) 节假日影响分析:以中秋节为契机,分析了中秋期间用户的行为特征,形成了中秋

假期分析报告。 7) 推广效果分析:分析了网吧、新网盟等形式推广页用户转化率及其深入访问效果,

以及推广对全站非推广流量的影响,形成了推广效果及其影响报告。

目前数据分析平台在数据分析指标、数据分析专题建设有有了一定的成果,但对于全站

复杂的分析尚需要深入的研究,全站数据分析体系建设尚待完善。另外,从目前看数据分析

报告发布后,相关部门的交流、互动尚待加强。后续数据分析组一方面会主动与各业务部门

进行不定期交流,把我们的研究成果进行多方沟通,使分析报告的价值能够切实转换为现实

生产力,服务于产品结构优化升级,提升用户体验;另外我们也希望相关部门能够及时反馈、

提出他们的需求。相信数据部与业务部门进一步的密切合作,我们的数据价值将更多的发挥

出来。

5. 下一步工作规划

虽然当前数据分析平台在一定程度上满足了业务部门的统计需求,但在用户行为特征、

视频运营价值、全站投入与收益分析上仍然有大量的工作要做。后续的工作将更多侧重用户、

视频、收益的深入分析,更多依赖数据分析后续相关部门的联动工作,力求做到持续改进页

面布局、持续优化全站流程、持续提升用户体验、持续提升视频价值周期等。对数据部未来

数据分析的规划我们考虑在数据平台现有分析指标和主题的基础上,后续重点围绕用户、视

频、运维、运营为中心,密切与相关部门深入合作,进行更广泛、更深入、更有针对性的分

析。 下一步我们考虑的工作目标主要有以下四点

1) 构建与完善播放数统计系统

Page 5: 数据分析系统架构设计

5

2) 收集与构建用户交互统计(用户行为)系统 3) 收集与构建业务流程统计系统 4) 尝试建立数据分析模型

从围绕用户、视频、运维、运营四个视角进行展开,进一步的工作内容将从以下几个方

面展开:

以用户为中心

1) 在用户特征方面:需要根据用户基本属性、首次访问入口页特征、用户的回访频度、用

户地域等构建用户属性,并从多方面进行用户分类。比如当前正在研究的以用户入口页

特征进行分类,把用户分为搜索来源用户、内生用户、推广用户、土豆合作用户、导航

用户、360-暴风用户等,这样对分类用户的行为研究更有针对性和策略性。 2) 在用户行为方面:重点分析用户的入口弹出行为、用户长/短视频观看行为、站内搜索

行为、注册行为、交互行为如评论转帖等。以用户入口弹出行为为例,分析不同类型用

户入口弹出导致的原因是什么,比如近期的分析报告我们知道搜索用户入口错误页弹出

率远高于起来类型用户入口弹出率,进一步分析发现可能的原因是我们错误页风格有很

大改进空间,那么通过改进错误页风格我们就可以降低这部分用户的入口弹出率,提升

他们的体验。 3) 在用户价值方面:根据用户的历史及最近观看行为、用户回访频度、用户忠诚度、用户

点击广告行为等进行用户价值评估并建立用户价值模型,根据不同的用户价值可以进行

用户全生命周期的价值管理,通过视频个性化推荐、新片推送等方式降低用户流失率,

开发、提升用户价值。 4) 在用户付费方面:建立付费用户漏斗模型、分析付费用户特征和行为、续费用户频度及

特征。以付费用户漏斗模型为例,通过分析用户访问院线、高清频道的流程,分析用户

从对付费感兴趣开始到最终付费过程中,哪一个过程导致了用户大量流失,导致用户放

弃付费的因素是什么,是否可以改进付费流程和方式可以大幅提高用户付费成功率。

以视频为中心

1) 视频资产现状:分析当前视频资产现状,分析模块有新增视频、播放视频、活跃视频、

沉睡视频、视频总量、建立视频生命周期模型以及视频活跃模型。以视频生命周期模型

为例在视频基本属性基础上,按着其上线时间、历史播放量、最近播放数据等分析出电

影、电视剧、动漫、乐视制造、综艺等长视频节目的周期性,以及影响他们周期性的因

素有哪些等等。 2) 视频价值模型:分析热播影视剧特征与受众用户群体特征和行为,找到高价值视频的一

般属性,评估视频的投入与产出收益;对应冷门视频或沉睡视频采取差异化策略进行唤

醒,提升或延伸视频价值。 3) 视频推荐模型:研究建立首页栏目布局、焦点图视频推荐规则、面向回访用户的协同过

滤推荐以及面向新用户的视频关联推荐策略。以焦点图推荐规则为例,通过分析焦点图

受众视频的影响因素找到其一般规则,充分发挥焦点图作为稀奇资源的最大效用。 4) 视频广告投放:视频广告特征、视频广告前贴片、中贴片、后贴片、角标展现及点击量、

视频广告点击效果差异分析、视频广告投放模型。通过视频广告投放模型建立高价值投

Page 6: 数据分析系统架构设计

6

放的一般模式,吸引用户点击,提升乐视广告体验和乐视广告价值的体验。

以三屏为中心

按着 WEB、手机端、盒子端等三屏进行分类,在整体分析三屏流量的基础上重点对手

机端、盒子端进行有差异的分析。并针对每一端进行差异化分析: 1) WEB 端:如上所述重点分析用户特征和行为、视频价值,在提升用户体验上下功夫。 2) 手机端:在手机端方面围绕手机客户端下载量及下载用户的特征、手机用户的特征行为

进行分析,并紧紧围绕提升用户体验开展工作。 3) 盒子端:在盒子端重点分析盒子产品用户使用习惯以及盒子用户的特征属性,为提升盒

子的产品优化和产品推广提供数据支持。

以全站运维为中心

重点分析当前服务器应用现状,视频上传、转码、以及调度效果,播放质量印象因素等。 1) 设备资产现状:当前设备资产型号分类、设备的地区、机房分布、设备的利用效果。 2) 视频流程管理:从视频上传、转码以及视频调度到用户的最终观看进行流程管理,重点

分析视频各个环节中容易出现问题的点以及影响因素,提升运维质量和效果。 3) 播放质量管理:缓冲次数、缓冲人数、失败次数等进行深入分析,建立低质量播放的预

警策略和机制,尽可能低降低低质量播放概率,提升用户体验。

具体工作建议

结合数据分析系统现状以及各部门的需求,建议下一步具体功能内容如下: 1. 重新梳理业务流程与产品功能点

a) 问题:目前统计系统遇到的主要问题是产品功能目标不明确,我们现在的产品

设计是因为设计而设计的功能,业务流程更加重视的是实现而不是效果。因此在

数据统计时,很多时候业务流程不清晰、产品功能不明确、,产品设计与运营使

用脱节、忽视数据采集进行必要的数据准备,导致很多统计项很难实现甚至无法

实现。

b) 现状:计划中

c) 涉及部门:产品部、内容部、数据部

d) 主要产品:用户中心;主站内容、移动内容、盒子内容、收费内容的业务功能

定义

2. 播放器业务流程梳理与日志上报 a) 问题:三屏播放器甚至主站播放器都处理流程都不能够统一业务流程标准;统

计上报功能不能部署在全部播放器中。

b) 现状:进行中。站内播放器上报过程基本完成,需要推广到站外播放器、专题

播放器;盒子播放器上报标准已经讨论完成,还没有进行处理;移动应用播放设

计完成,等待开发工作完成

c) 涉及部门:技术支持部、运维、数据部

Page 7: 数据分析系统架构设计

7

3. 上传、转码、分发、调度过程统计 a) 问题:上传、转码、分发、调度是视频网站的核心业务功能,目前由运维部牵

头实现新系统,数据分析部将在数据云存储与数据分析提供支持

b) 现状:方案讨论中

c) 涉及部门:运维部、技术支持部、数据部

d) 计划时间:12 月底前提供上传客户端、原片上传与存储功能,其它部分根据运

维部

4. 移动客户端用户行为分析 a) 问题:移动客户端用户使用情况与功能使用情况一直是困扰移动产品与移动运

营的问题,因为移动客户端系统环境复杂、上报手段不成熟,所以一直处于无法

处理状态。

b) 现状:移动产品牵头,组织移动开发与数据分析部门,已经有了初步上报方案。

下一步主要工作是开发实现一期目标。主要实现主要用户行为与播放情况的上报。

例如用户使用、主要功能使用、播放过程等的数据上报与分析。

c) 涉及部门:移动产品、数据部

d) 计划时间:上报部分在 11 月底前完成;一期数据处理与展现部分在 12 月中旬

完成

5. 主站重点页面点击图分析

a) 问题:对主要页面(播放页、专题页、频道首页)各个功能模块的用户使用行

为进行统计。

b) 现状:进行中

c) 涉及部门:产品部、技术支持部、数据部

d) 计划时间:本月底完成对播放页的点击地图功能