最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf ·...

44
最新hadoop大数据行业应用案例集

Transcript of 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf ·...

Page 1: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

最新hadoop大数据行业应用案例集

Page 2: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

目录

第一章 当大数据遇上SSD 01

广东移动运用Hadoop创新应用 04

08

10

13

18

22

25

28

30

32

34

37

39

41

如何利用大数据分析提升垃圾短信过滤效果

广东电信用大数据重构室内网优

江苏银行大数据技术平台选型分析

大数据技术在江苏邮储银行的创新应用

大数据助力平安银行数据仓库全面升级

恒丰银行打造基于hadoop大数据的数据仓库平台

中泰证券的大数据创新应用

大数据提升互联网金融风险管控能力的应用实践

第二章

第三章

第四章

第五章

第六章

第七章

第八章

第九章

第十章

大数据挖掘技术实现电力配网故障自动化和智能化第十一章

大数据助力佛山电力需求侧管理第十二章

大数据技术助力中国石化智能工厂第十三章

华数传媒实现Hadoop广电应用第十四章

EMS用大数据迎战“双十一”第十五章

Ver 1.0版本

Page 3: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

当大数据遇上SSD 大数据时代,人们越来越清楚地意识到数据中蕴藏的价值。海量数据的拥有者——运营商,银行,物流公司等等——

都在积极地寻求方法利用手中的数据。然而,爆发式增长的数据量正在超出传统数据库的处理能力。为了应对这样的增

长,企业需要对数据库进行升级。基于小型机DB2或Oracle架构的传统数据库升级依靠纵向扩展,也就是通过提升服务器

本身的性能来提高处理能力。更大更强的服务器价格高昂,但性能的提升却是有限的。企业为自己的传统数据库做纵向扩

展只会钱越花越多,收效越来越少。

Hadoop架构很好地解决了扩展的瓶颈,它设计部署在经济实惠的硬件上,通过横向扩展,便可无限地提升数据处理

能力。基于Hadoop的大数据软件因为其强大的处理能力和高性价比在数据分析市场崭露头角。星环信息科技(上海)有

限公司(以下简称星环科技)的企业级一站式大数据综合平台Transwarp Data Hub (以下简称TDH)是Hadoop发行版中的

佼佼者。它在国内拥有最多的上线案例,已经为众多企业解决了棘手的大数据难题。TDH下的分布式内存分析引擎

Transwarp Inceptor将数据和计算中间结果放在内存中,依靠内存的高速读写,克服了大数据处理中常见的I/O瓶颈,加

上它对SQL和R的全面支持,可以轻松地应对海量数据的复杂计算,极大地提高了数据处理的效率,解放了企业的生产

力。然而,星环科技的开发人员并不满足于此。

一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC的影响非常严重,用户体验不够平滑;另一方

面,完全使用内存作为存储介质价格较高。星环科技的开发人员发现,随着硬件技术的发展,SSD的读写速度已经远远甩

开机械硬盘,向内存靠拢,但在价格上,SSD相对昂贵的内存有巨大的优势,这让SSD成为了内存强有力的竞争者。“我

们相信,大数据分析应该朝着更经济更普及的方向发展,”星环科技的CTO孙元浩说道,“我们的产品为企业提高生

产力,而将内存替换为SSD可以在不影响性能的情况下提升用户体验并且降低成本。”

在为某省级移动通信运营商部署大数据解决方案时,星环科技第一次将SSD作为内存的替代应用在了生产中。在比较

市场上各品牌型号的固态盘的信息之后,星环科技最终选择了具备高稳定性技术的英特尔 固态盘DC S3500系列来构建新

的解决方案。对于固态盘而言,影响读写能力的最大因素在于固态盘的控制芯片和固件算法。英特尔在芯片技术和固件算

法上的优势让英特尔 固态盘DC S3500系列在处理读写任务时拥有得天独厚的优势。英特尔 固态盘DC S3500系列具有

50微秒的顺序读取延迟,在 99.9% 的时间内 500 微秒的最大读取延迟,以及4KB 随机读取性能高达75,000的每秒输入输

出操作次数(IOPS)。同时具备较低的有功读取 功率(小于 1.3 瓦)。这些特点保证了英特尔 固态盘数据存储和读取的

出色能力以及在频繁操作情况下的性能稳定性。作为一款优秀的企业级固态盘,除了高性能优势之外,英特尔 固态盘DC

S3500系列还具备防止数据丢失和损坏的特性。英特尔 固态盘DC S3500系列提能够供端到端数据安全性保护,使数据从

进入硬盘到离开硬盘时刻处于保护之中。此外,英特尔还将固态盘将NAND、SRAM和DRAM内存的高级错误纠正方案结

合起来,通过奇偶校验、循环冗余检查(CRC),以及逻辑块地址(LBA)标记验证来保护传输中的数据。它还使用高级

加密标准(AES)和增强的电源损耗保护进一步增强数据的安全性。英特尔 固态盘DC S3500系列产品稳定的高性能使

星环科技的解决方案得到了有效的保障。而英特尔固态盘技术人员专业而严谨的前期产品测试、积极响应的售后服务方案

和强大的渠道供货能力,更是为项目提供了强有力的后盾。

与传统方案相比,星环科技的解决方案有如下几点优势:

01

Page 4: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

该省级移动运营商单月清单数量在1000亿条左右,每月数据量达100TB,完全超出了原有数据库架构的处理能力,无

法为用户提供优质服务。星环科技的解决方案使用了800G英特尔 固态盘DC S3500替换了256G的内存。测试环境下,在

单张表统计操作中,传统方案需耗时230秒,Transwarp Inceptor仅耗时3秒,查询速度是原有方案的76倍。而在多张数据

表关联操作中,传统方案需耗时414秒,Transwarp Inceptor耗时仅为26秒,原有方案的效率仅是新方案的6%。可见,在

处理大数据量、复杂账单等情况的环境下,新解决方案完胜传统方案,能够应对移动通信行业爆发式的大数据需求,支持

数百万用户同时在线查询,极大地提高用户体验。跟完全使用内存的Transwarp Inceptor相比,这套解决方案的性能也不

遑多让,英特尔 固态盘 DC S3500表现出了与内存极其接近的反应速度:

从成本上来看,256G内存成本在2万元左右,而5000元左右便能买到800G的DC S3500,绝对成本大约下降了75%;

从价格容量比来看,内存所需成本约为78元/GB,而DC S3500 800G仅为6.25元/GB,单位容量成本大约下降了92%,大大

降低方案成本。这个项目中,SSD显示了其极大的优越性——在极少影响性能的情形下,SSD可以为企业节省开支。

DC S3500

RAM

160

140

7.56 7.3

133127

138

121

141 131

61 58

120

100

80

60

40

20

0

简单扫描 去重分组 大表连结 简单分组 滑动窗口统计

SQL操作

花费

时间

(秒

02

Page 5: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

“我们已经习惯了用SSD来替代传统硬盘。现在我们欣喜地看到SSD的技术已经发展到可以在某些场景取代内存。”英

特尔非易失性存储解决方案事业部中国区市场总监刘钢说道,“大数据是现在最热门的应用之一,大数据分析处理所需要

的持续、多路并发、快速读写对计算平台带来了极大的挑战,基于传统硬盘的存储方案已成为瓶颈。英特尔 固态盘具备

快速稳定的并发读写能力、出色的可靠性以及数据保护功能,尤其是最新发布的基于NVMe的PCIe SSD是大数据分析处理

的完美搭配。我们很高兴能够和星环科技合作,提供一流的大数据解决方案。希望在未来,使用SSD作为缓存的大数据解

决方案会成为行业标准。”随着SSD技术的成熟,其性价比优势将继续增强。未来,星环科技还将继续与英特尔紧密合

作,借助性能出色的企业级固态盘来有效增强解决方案,为用户提供更优质、更可靠的服务。请拭目以待!

03

Page 6: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

广东移动运用Hadoop

运营商之困

移动互联网时代的今天,手机不再仅仅是个通讯工具,它是钱包(手机支付),是商店(手机淘宝),是地图(手

机导航),是资讯来源(新闻订阅),是社交工具(微信微博)⋯⋯手机角色的变化丰富了人们的生活,却颠覆了运营商

的世界。不久前,运营商还靠着语音和短信服务垄断着移动通讯市场,现在却不得不和微信等APP共分一杯羹。运营商投

资提供了高速稳定的3G/4G网络,却是为百度、阿里、腾讯等互联网公司在OTT领域玩得风生水起做嫁衣。智能手机用户

在手机上消费越来越多,三大运营商的收入增长率却从常年的两位数降至了一位数。缺少竞争带来的高利润高增长模式已

经被打破。运营商面临着一个抉择:是满足于在移动互联网市场中充当管道,还是充分利用拥有网络设备和海量用户的优

势扭转局面,继续做行业的领头羊?运营商心中应该已经有了决定,但是运营商该如何利用优势?其实答案一直都只有一

个,那就是深刻地理解用户,深刻地理解自己。

困境的出路—精细化经营

互联网公司大获成功的一大原因是它们深刻地理解用户的各种需求和习惯。它们的产品具有极大的多样性,这意味着

大量的创收方式。运营商虽然也通过调整通话、短信、流量的比例推出不同的套餐,相较五花八门的APP便显得单调许

多,收入增长点极少。想要增加收入,运营商必须放眼用户在通讯之外的活动,关注过去不曾关注的用户细节,洞察用户

的潜在需求甚至创造和引导用户的需求。

基础网络设备是运营商的核心竞争力,也是巨额投资的地方。在传统优势语音和短信业务受到巨大侵蚀的情况下,运

营商更应该发挥它拥有网络的优势,提供高覆盖率、高质量的网络服务,以此来保有老客户吸引新客户。同时,运营商也

应该通过优化网络的铺设,在保证网络覆盖率的情况下避免建设多余基站,提高投资效益。

要做到理解客户和优化网络,运营商需要高度关注生产中的细节,换言之就是精细化经营。而精细化经营的方向都蕴藏在

运营商手中的海量的运营数据,用户行为数据和网络数据中。这些数据可以为经营分析和网络分析提供有力的决策支撑。

运营商的第一步

广东移动下的某地级市分公司(以下称分公司)为了集中处理手中数据建立了统一的数据分析系统,汇聚了包括CRM

(客户关系管理)、计费、经营分析和网络信令四个方面的数据,总量达80TB。分公司根据业务需求用SQL设计编写了

很多复杂模型,交给该系统来运行。该系统的分析模块像一颗精密的大脑,从经营管理数据、用户行为数据和网络优化

数据中计算出各种指标用于支撑经营和网络分析的决策。然而,运营商业务繁杂,近年来增长的3G/4G业务带来的海量

数据更是增加了数据分析的难度。这些指标不但数量大(近千个指标,而且数量还在增长),而且涉及到的表数目多

(接近300张),很多表还涉及到十多个月份的数据,导致计算量浩大。数据分析系统使用Oracle作为计算引擎,对所

有指标的一次计算至少要用两天时间,一些复杂的指标甚至无法得出结果。决策的制定具有很高的时效性,如此有限

的计算能力让该系统完全无法发挥其应有的分析作用,大大限制了的生产力。为了让该系统能够正常运转,分公司将目光

投向了在海量数据计算上有极大优势的大数据技术。

运营商的选择

近年来,随着大数据技术的发展,大数据解决方案的市场涌现了很多产品,主要分为MPP数据库和Hadoop发行版两

种。分公司应该选择MPP还是Hadoop呢?在MPP或Hadoop下,它又应该选择哪一个具体产品呢?分公司的技术人员对

市场上的产品进行了仔细的调研。他们发现,MPP数据库支持经营和网络分析模型使用的SQL,但是计算性能不够,不能

快速完成运算。而基于Hadoop的产品大多对SQL支持不足。分公司尝试过某著名北美厂商的Hadoop发行版。然而,这家

北美厂商的Hadoop发行版支持的SQL很少,不支持分公司的大多数经营和网络模型。向这个Hadoop发行版迁移需要对大

量模型进行改写,意味着极高的知识成本。而使用混合架构——只改写尤其复杂的模型放在Hadoop上计算,简单一些的

模型依旧使用Oracle—会导致数据分析系统业务过于复杂,带来大量的后期管理维护成本。最后,分公司发现了星环科技

的Hadoop发行版一站式大数据平台Transwarp Data Hub(TDH)。TDH平台下的交互式内存分析引擎Transwarp

Inceptor使用Spark作为计算框架速度极快,而且全面支持SQL,完美满足数据分析系统的运算需求。然而,分公司对

TDH这个完全由国内团队研发的Hadoop发行版还持保留态度,了解了TDH在国内的多个成功案例后,才决定一试。

问题解决了

经过部署,TDH的工作流程为:先用平台自带的数据导入工具将分公司原本存储在Windows文件系统,Linux文件系统

和Oracle中的数据导入至TDH下的分布式文件系统HDFS中;数据导入完成后,Transwarp Inceptor利用分布式内存计算得

出结果并通过TDH自带的JDBC接口传输到客户端或者其他BI和报表工具。

部署了TDH方案后,分公司的问题迅速得到了解决。原先使用Oracle花两天时间都不能完全计算得出的上千个指标

Transwarp Inceptor用了8小时便全部计算完成。从Oracle可以完成计算的指标中随机选取四个与TDH做性能对比,可以得到下图

(每个指标对应的两个条柱中,左边的是TDH所花时间,右边的是Oracle所花时间,都以秒为单位),TDH的计算优势一览无余:

04

Page 7: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

运营商之困

移动互联网时代的今天,手机不再仅仅是个通讯工具,它是钱包(手机支付),是商店(手机淘宝),是地图(手

机导航),是资讯来源(新闻订阅),是社交工具(微信微博)⋯⋯手机角色的变化丰富了人们的生活,却颠覆了运营商

的世界。不久前,运营商还靠着语音和短信服务垄断着移动通讯市场,现在却不得不和微信等APP共分一杯羹。运营商投

资提供了高速稳定的3G/4G网络,却是为百度、阿里、腾讯等互联网公司在OTT领域玩得风生水起做嫁衣。智能手机用户

在手机上消费越来越多,三大运营商的收入增长率却从常年的两位数降至了一位数。缺少竞争带来的高利润高增长模式已

经被打破。运营商面临着一个抉择:是满足于在移动互联网市场中充当管道,还是充分利用拥有网络设备和海量用户的优

势扭转局面,继续做行业的领头羊?运营商心中应该已经有了决定,但是运营商该如何利用优势?其实答案一直都只有一

个,那就是深刻地理解用户,深刻地理解自己。

困境的出路—精细化经营

互联网公司大获成功的一大原因是它们深刻地理解用户的各种需求和习惯。它们的产品具有极大的多样性,这意味着

大量的创收方式。运营商虽然也通过调整通话、短信、流量的比例推出不同的套餐,相较五花八门的APP便显得单调许

多,收入增长点极少。想要增加收入,运营商必须放眼用户在通讯之外的活动,关注过去不曾关注的用户细节,洞察用户

的潜在需求甚至创造和引导用户的需求。

基础网络设备是运营商的核心竞争力,也是巨额投资的地方。在传统优势语音和短信业务受到巨大侵蚀的情况下,运

营商更应该发挥它拥有网络的优势,提供高覆盖率、高质量的网络服务,以此来保有老客户吸引新客户。同时,运营商也

应该通过优化网络的铺设,在保证网络覆盖率的情况下避免建设多余基站,提高投资效益。

要做到理解客户和优化网络,运营商需要高度关注生产中的细节,换言之就是精细化经营。而精细化经营的方向都蕴藏在

运营商手中的海量的运营数据,用户行为数据和网络数据中。这些数据可以为经营分析和网络分析提供有力的决策支撑。

运营商的第一步

广东移动下的某地级市分公司(以下称分公司)为了集中处理手中数据建立了统一的数据分析系统,汇聚了包括CRM

(客户关系管理)、计费、经营分析和网络信令四个方面的数据,总量达80TB。分公司根据业务需求用SQL设计编写了

很多复杂模型,交给该系统来运行。该系统的分析模块像一颗精密的大脑,从经营管理数据、用户行为数据和网络优化

数据中计算出各种指标用于支撑经营和网络分析的决策。然而,运营商业务繁杂,近年来增长的3G/4G业务带来的海量

数据更是增加了数据分析的难度。这些指标不但数量大(近千个指标,而且数量还在增长),而且涉及到的表数目多

(接近300张),很多表还涉及到十多个月份的数据,导致计算量浩大。数据分析系统使用Oracle作为计算引擎,对所

有指标的一次计算至少要用两天时间,一些复杂的指标甚至无法得出结果。决策的制定具有很高的时效性,如此有限

的计算能力让该系统完全无法发挥其应有的分析作用,大大限制了的生产力。为了让该系统能够正常运转,分公司将目光

投向了在海量数据计算上有极大优势的大数据技术。

运营商的选择

近年来,随着大数据技术的发展,大数据解决方案的市场涌现了很多产品,主要分为MPP数据库和Hadoop发行版两

种。分公司应该选择MPP还是Hadoop呢?在MPP或Hadoop下,它又应该选择哪一个具体产品呢?分公司的技术人员对

市场上的产品进行了仔细的调研。他们发现,MPP数据库支持经营和网络分析模型使用的SQL,但是计算性能不够,不能

快速完成运算。而基于Hadoop的产品大多对SQL支持不足。分公司尝试过某著名北美厂商的Hadoop发行版。然而,这家

北美厂商的Hadoop发行版支持的SQL很少,不支持分公司的大多数经营和网络模型。向这个Hadoop发行版迁移需要对大

量模型进行改写,意味着极高的知识成本。而使用混合架构——只改写尤其复杂的模型放在Hadoop上计算,简单一些的

模型依旧使用Oracle—会导致数据分析系统业务过于复杂,带来大量的后期管理维护成本。最后,分公司发现了星环科技

的Hadoop发行版一站式大数据平台Transwarp Data Hub(TDH)。TDH平台下的交互式内存分析引擎Transwarp

Inceptor使用Spark作为计算框架速度极快,而且全面支持SQL,完美满足数据分析系统的运算需求。然而,分公司对

TDH这个完全由国内团队研发的Hadoop发行版还持保留态度,了解了TDH在国内的多个成功案例后,才决定一试。

问题解决了

经过部署,TDH的工作流程为:先用平台自带的数据导入工具将分公司原本存储在Windows文件系统,Linux文件系统

和Oracle中的数据导入至TDH下的分布式文件系统HDFS中;数据导入完成后,Transwarp Inceptor利用分布式内存计算得

出结果并通过TDH自带的JDBC接口传输到客户端或者其他BI和报表工具。

部署了TDH方案后,分公司的问题迅速得到了解决。原先使用Oracle花两天时间都不能完全计算得出的上千个指标

Transwarp Inceptor用了8小时便全部计算完成。从Oracle可以完成计算的指标中随机选取四个与TDH做性能对比,可以得到下图

(每个指标对应的两个条柱中,左边的是TDH所花时间,右边的是Oracle所花时间,都以秒为单位),TDH的计算优势一览无余:

TDH和Oracle性能对比9000

8000

7000

6000

5000

4000

3000

2000

1000

060 610 97

1680790

79

8400

59

TDHOracle

指标1 指标3指标2 指标4

计算时间(秒)

05

Page 8: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

部署了大数据平台后,数据分析系统终于可以发挥它的分析作用,将指标传达给决策层,清晰透明地反映经营管理状

况,帮助决策层迅速准确地找出问题和发现新的商机。在此基础上,数据分析系统还可以通过对用户数据的分析建立客户

标签,为客户画像,做到“比客户更了解客户”。这样分公司可以基于客户的行为分析来洞察用户的潜在需求,通过产品

推荐和宣传针对性地刺激和引导用户的需求,使产品多样化、个性化,创造新的收入增长点。根据用户画像,分公司还可

以适当地推出优惠活动和赠送活动来体现客户关怀。另一方面,数据分析系统对经营数据的分析可以帮助领导层进行预算

管控,投资管理,进而提升资源管理的准确性,提高投资效益。而对网络数据的分析可以帮助分公司优化基站选址,减少

重复投资,提高网络质量,最终提升用户体验减少客户流失甚至从竞争对手中赢来客户。

让数据说话

仅仅讨论“精细营销”或许有些抽象。下面,我们来看看分公司具体在如何用新系统做用户数据分析。在这个例子

中,分公司根据用户的手机品牌进行了数据分析。我们将看到,单单从不同品牌的用户习惯上我们就可以得出不少有价值

的结论。

首先,对手机价位分析可以看出,分公司的客户主要集中千元和高端两个价位:

其中,小米占有700-1500元机市场中最高份额(22.9%)和1500-2000元第二的市场份额(21.1%,略低于第一的三

星)。从这点可以看出,小米近年来注重线上销售、针对年轻和资费敏感客户的营销策略取得了巨大的成功,从而在千元

机和中端市场中脱颖而出,作为一个较新的智能终端品牌,发展势头强劲。事实上,2014年的用户数据显示,小米以4%

的市场份额增幅在所有品牌中排名第一,超过3%的苹果,也就是说,给这个年轻品牌一些时间,它可以更加成功。

高端机市场中,不出所料,老牌劲旅苹果以59.02%的市场份额牢牢占据龙头地位,远超第二名三星的30.24%,几乎

是三星市场份额的两倍。苹果手机受欢迎程度我们都不陌生,“果粉”对苹果的忠诚度也不是新闻,那么苹果的品牌粘性

具体有多大呢?让数字说话:

根据对用户数据进行的“换机分析”,也就是统计用户换手机前后使用的品牌,我们看出有超过一半的苹果用户会再次选

择苹果,苹果有着绝对的品牌忠诚度。通过对苹果用户ARPU(每用户平均付费)数据的分析,分公司发现,苹果用户中一

半以上都是高价值用户(ARPU大于80元/月),远远多于全量市场的高端用户。综合来看,不难看出延续对苹果的推广和

手机的价格分布30.00%

25.00%

20.00%

15.00%

10.00%

5.00%

0.00%

6.03%2.77%

18.60%

10.88% 12.26% 11.69%

26.29%

400以下 400-700 700-1500 1500-2000 2000-2500 2500-3000 3000以上

市场占有率

品牌忠诚度60.00%

55.00%

40.00%

30.00%

20.00%

10.00%

0.00%

30.38%27.54%

17.79%

50.60%

苹果 三星 小米 联想

加强对小米的推广都将是分公司近期营销的重点。

此外,分公司还对用户的APP下载、上网搜索关键词、阅读内容进行了分析并制作了用户标签。以苹果用户为例,他

们绝大多数(99%以上)都下载了微信、QQ客户端,上网搜索最偏好购物类关键词(频率超过90%),阅读习惯最喜欢

经管励志的主题(占据一半以上的阅读量)。所以,苹果用户获得了“爱腾讯”、“爱购物”、“爱励志”的标签。利用

类似的标签根据用户的行为习惯进行有针对性的营销,不仅可以获得更高的营销回报,还可以让用户方便得获得他们所

需,提升他们的满意度。

故事还没结束

目前,分公司的数据分析系统仅处理其所在地级市产生的数据。但是系统使用的大数据平台TDH有很强的扩展性,通过

添加服务器便可扩大规模和提升性能,数据分析系统可以轻松推广到广东省移动。对全省用户数据做分析,运营商将得到

更全面更准确的信息。在移动互联网时代,分公司选择大数据解决方案十分有借鉴意义。因为用户的增长和高速网络的普

及,其他运营商都将面临传统数据库无法解决日益增长的数据的难题。但正是这些数据中蕴藏着运营商的潜在问题、解决

方案和新的商机,任何运营商要对这些数据好好利用都必须选择大数据解决方案。

经营和网络分析仅仅是大数据对运营商业务帮助的冰山一角。大数据还可以在很多其他方面助力运营商。比如,大数

据在处理半结构化和非结构化数据上的优势可以帮助运营商处理多媒体手机终端带来的图片、音频和视频数据。大数据对

实时数据进行实时处理的能力可以帮助运营商及时发现网络故障并迅速抢修,还可以根据用户所在地点进行实时wifi热点推

荐。毫不夸张地说,大数据产品将是运营商在移动互联网时代最重要的工具。请我们共同期待大数据技术打造的更智慧的

运营商。

06

Page 9: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

部署了大数据平台后,数据分析系统终于可以发挥它的分析作用,将指标传达给决策层,清晰透明地反映经营管理状

况,帮助决策层迅速准确地找出问题和发现新的商机。在此基础上,数据分析系统还可以通过对用户数据的分析建立客户

标签,为客户画像,做到“比客户更了解客户”。这样分公司可以基于客户的行为分析来洞察用户的潜在需求,通过产品

推荐和宣传针对性地刺激和引导用户的需求,使产品多样化、个性化,创造新的收入增长点。根据用户画像,分公司还可

以适当地推出优惠活动和赠送活动来体现客户关怀。另一方面,数据分析系统对经营数据的分析可以帮助领导层进行预算

管控,投资管理,进而提升资源管理的准确性,提高投资效益。而对网络数据的分析可以帮助分公司优化基站选址,减少

重复投资,提高网络质量,最终提升用户体验减少客户流失甚至从竞争对手中赢来客户。

让数据说话

仅仅讨论“精细营销”或许有些抽象。下面,我们来看看分公司具体在如何用新系统做用户数据分析。在这个例子

中,分公司根据用户的手机品牌进行了数据分析。我们将看到,单单从不同品牌的用户习惯上我们就可以得出不少有价值

的结论。

首先,对手机价位分析可以看出,分公司的客户主要集中千元和高端两个价位:

其中,小米占有700-1500元机市场中最高份额(22.9%)和1500-2000元第二的市场份额(21.1%,略低于第一的三

星)。从这点可以看出,小米近年来注重线上销售、针对年轻和资费敏感客户的营销策略取得了巨大的成功,从而在千元

机和中端市场中脱颖而出,作为一个较新的智能终端品牌,发展势头强劲。事实上,2014年的用户数据显示,小米以4%

的市场份额增幅在所有品牌中排名第一,超过3%的苹果,也就是说,给这个年轻品牌一些时间,它可以更加成功。

高端机市场中,不出所料,老牌劲旅苹果以59.02%的市场份额牢牢占据龙头地位,远超第二名三星的30.24%,几乎

是三星市场份额的两倍。苹果手机受欢迎程度我们都不陌生,“果粉”对苹果的忠诚度也不是新闻,那么苹果的品牌粘性

具体有多大呢?让数字说话:

根据对用户数据进行的“换机分析”,也就是统计用户换手机前后使用的品牌,我们看出有超过一半的苹果用户会再次选

择苹果,苹果有着绝对的品牌忠诚度。通过对苹果用户ARPU(每用户平均付费)数据的分析,分公司发现,苹果用户中一

半以上都是高价值用户(ARPU大于80元/月),远远多于全量市场的高端用户。综合来看,不难看出延续对苹果的推广和

加强对小米的推广都将是分公司近期营销的重点。

此外,分公司还对用户的APP下载、上网搜索关键词、阅读内容进行了分析并制作了用户标签。以苹果用户为例,他

们绝大多数(99%以上)都下载了微信、QQ客户端,上网搜索最偏好购物类关键词(频率超过90%),阅读习惯最喜欢

经管励志的主题(占据一半以上的阅读量)。所以,苹果用户获得了“爱腾讯”、“爱购物”、“爱励志”的标签。利用

类似的标签根据用户的行为习惯进行有针对性的营销,不仅可以获得更高的营销回报,还可以让用户方便得获得他们所

需,提升他们的满意度。

故事还没结束

目前,分公司的数据分析系统仅处理其所在地级市产生的数据。但是系统使用的大数据平台TDH有很强的扩展性,通过

添加服务器便可扩大规模和提升性能,数据分析系统可以轻松推广到广东省移动。对全省用户数据做分析,运营商将得到

更全面更准确的信息。在移动互联网时代,分公司选择大数据解决方案十分有借鉴意义。因为用户的增长和高速网络的普

及,其他运营商都将面临传统数据库无法解决日益增长的数据的难题。但正是这些数据中蕴藏着运营商的潜在问题、解决

方案和新的商机,任何运营商要对这些数据好好利用都必须选择大数据解决方案。

经营和网络分析仅仅是大数据对运营商业务帮助的冰山一角。大数据还可以在很多其他方面助力运营商。比如,大数

据在处理半结构化和非结构化数据上的优势可以帮助运营商处理多媒体手机终端带来的图片、音频和视频数据。大数据对

实时数据进行实时处理的能力可以帮助运营商及时发现网络故障并迅速抢修,还可以根据用户所在地点进行实时wifi热点推

荐。毫不夸张地说,大数据产品将是运营商在移动互联网时代最重要的工具。请我们共同期待大数据技术打造的更智慧的

运营商。

07

Page 10: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

大数据分析提升垃圾短信过滤效果客户背景

通信发展伴生的弊端

移动通信技术的不断发展之下,短信已经成为人们生活中不可或缺的工具之一,但伴随而来的垃圾短信泛滥,不但占

用了电信运营商宝贵的网络资源,而且给人们的生活、工作带来了无尽的烦恼。如何对垃圾短信进行智能识别与实时监

测,从而提高客户满意度与服务质量,成为了当前电信行业亟待解决的问题。

不断加剧的垃圾短信问题

在通讯信息技术不断发达的当今社会,短信作为一种直达用户,成本低廉的方式,不但被越来越多的商业公司用于促

销或宣传目的,甚至成为不法分子实施诈骗的重要手段。中国信息产业部报告显示,2014年,全国移动短信业务量7630.5

亿条,而垃圾短信的数量就占了1/4左右,这些造成了对用户的骚扰甚至财产损失的垃圾短信问题正在变得越来越严重。

面临挑战

增强垃圾短信检测手段:挖掘垃圾短信的隐藏信息,利用更新的技术手段,提升垃圾短信防范效率。

提高垃圾短信检测精度:传统单纯以字符串匹配过滤垃圾短信的方法误检率较高,而且事后增加关键词的手段存在滞后性。

实时监测:对短信实时监测并完成垃圾短信的过滤,不断降低垃圾短信到达率,提高用户满意度。

解决方案

部署垃圾短信实时监测平台:基于分布式消息队列Kafka和流处理引擎实现实时的垃圾短信判断和预警。同时,结合人工确

认垃圾短信数据,加入训练集用于机器自动学习,垃圾短信判断准确率99.9%以上。

垃圾短信实时监测平台,实现垃圾短信的实时过滤:针对短信数据24小时不间断产生、大规模、高并发等特点,星环

科技基于Transwarp Stream流处理计算框架研发垃圾短信实时监测平台,短信数据通过实时消息队列进入计算集群,利

用事先训练好的模型完成数据转换、特征提取、分析及实时判断预警等复杂计算。模型判断出的垃圾短信会通过人工确

认,人工判断确实为垃圾短信的数据会加入训练集用于模型的迭代训练。

流计算引擎实现实时垃圾短信过滤:测试员模拟典型的短信发送场景,对10万条短信数据集连续测试两小时。测试结果显

示,每服务器节点每秒钟可对1000-3000条短信实施过滤计算,正常短信和垃圾短信的识别率均在99.9%以上。

星环科技工程师程大伟说:“在垃圾短信实时监测平台中,网络适配器不但是短信数据传输至流处理引擎的通道,而且是影

响整个平台性能的瓶颈,需要在90%以上高负荷的情况下保持数据传输的稳定性。”

部署垃圾短信实时监测平台后,垃圾短信在到达用户之前即被实时过滤,而机器学习的机制可以不断根据短信内容调

消息队列

消息队列

消息队列

消息队列

垃圾短信实时监测

Kafka 报警

在线预测

Transwarp Stream

离线模型训练

Transwarp Discover

星环科技垃圾短信实时监测平台流程图

08

整或更新训练模型。“显然,垃圾短信到达率的降低将帮助运营商提高用户的满意度。此外,运营商可以根据短信规模灵活

调整计算集群的服务器数量满足过滤需求,更重要的是,运营商原来被垃圾短信占用的网络资源被释放,运营商可借此改

进业务运营。”程大伟补充到。

实施效果

提高用户满意度:99.9%以上的垃圾短信被自动过滤,通信公司的用户对垃圾短信的抱怨和投诉率显著降低,提高其用户满

意度。

提升网络资源利用率:运营商将垃圾短信占用的网络资源用于其它短信业务,改进短信业务市场运营。

实时垃圾短信监控:通过对垃圾短信的实时监控和持续的机器自动学习手段,不断满足越来越复杂的垃圾短信管理和过滤

需求。

提高垃圾短信过滤效率和精度:电信运营商根据垃圾短信的内容整理出特定的关键词,在短信到达用户前,利用字符串匹

配的方式在数据中心实施计算和过滤。

“这种基于字符串匹配的手段存在明显的不足。首先是滞后性,运营商只能在事后整理关键词,然而发送垃圾短信的用

户会不断的测试关键词并调整短信内容,例如:加入特殊符号、利用同音汉字等等,这使得依靠整理和分析关键词的方式

实现垃圾短信过滤效果越来越差。”程大伟说:“其次,伴随关键词的数量不断增加,服务器的计算性能对垃圾短信过滤

效率影响越来越大。”

此外,对于电信运营商而言,这些垃圾短信的传送占用和浪费了大量宝贵的网络资源。

电信运营商急需利用更新的技术手段对海量短信数据实现实时运算和分析,挖掘出有价值的垃圾短信参考依据,形成机

器学习的机制,实现自动化的垃圾短信过滤,从而充分利用网络资源,并提高用户满意度。

星环科技流处理引擎提供强大的流计算表达能力,支持在流数据上进行实时事件检测和批处理、机器学习等复杂的计算

逻辑,是电信运营商提高垃圾短信防范的理想工具。

目标与展望

下一步,星环科技将和电信运营商深入合作,继续挖掘短信发送用户和接受用户之间的关系,利用图的方法进一步提

升垃圾短信过滤效率和质量。

Page 11: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

客户背景

通信发展伴生的弊端

移动通信技术的不断发展之下,短信已经成为人们生活中不可或缺的工具之一,但伴随而来的垃圾短信泛滥,不但占

用了电信运营商宝贵的网络资源,而且给人们的生活、工作带来了无尽的烦恼。如何对垃圾短信进行智能识别与实时监

测,从而提高客户满意度与服务质量,成为了当前电信行业亟待解决的问题。

不断加剧的垃圾短信问题

在通讯信息技术不断发达的当今社会,短信作为一种直达用户,成本低廉的方式,不但被越来越多的商业公司用于促

销或宣传目的,甚至成为不法分子实施诈骗的重要手段。中国信息产业部报告显示,2014年,全国移动短信业务量7630.5

亿条,而垃圾短信的数量就占了1/4左右,这些造成了对用户的骚扰甚至财产损失的垃圾短信问题正在变得越来越严重。

面临挑战

增强垃圾短信检测手段:挖掘垃圾短信的隐藏信息,利用更新的技术手段,提升垃圾短信防范效率。

提高垃圾短信检测精度:传统单纯以字符串匹配过滤垃圾短信的方法误检率较高,而且事后增加关键词的手段存在滞后性。

实时监测:对短信实时监测并完成垃圾短信的过滤,不断降低垃圾短信到达率,提高用户满意度。

解决方案

部署垃圾短信实时监测平台:基于分布式消息队列Kafka和流处理引擎实现实时的垃圾短信判断和预警。同时,结合人工确

认垃圾短信数据,加入训练集用于机器自动学习,垃圾短信判断准确率99.9%以上。

垃圾短信实时监测平台,实现垃圾短信的实时过滤:针对短信数据24小时不间断产生、大规模、高并发等特点,星环

科技基于Transwarp Stream流处理计算框架研发垃圾短信实时监测平台,短信数据通过实时消息队列进入计算集群,利

用事先训练好的模型完成数据转换、特征提取、分析及实时判断预警等复杂计算。模型判断出的垃圾短信会通过人工确

认,人工判断确实为垃圾短信的数据会加入训练集用于模型的迭代训练。

流计算引擎实现实时垃圾短信过滤:测试员模拟典型的短信发送场景,对10万条短信数据集连续测试两小时。测试结果显

示,每服务器节点每秒钟可对1000-3000条短信实施过滤计算,正常短信和垃圾短信的识别率均在99.9%以上。

星环科技工程师程大伟说:“在垃圾短信实时监测平台中,网络适配器不但是短信数据传输至流处理引擎的通道,而且是影

响整个平台性能的瓶颈,需要在90%以上高负荷的情况下保持数据传输的稳定性。”

部署垃圾短信实时监测平台后,垃圾短信在到达用户之前即被实时过滤,而机器学习的机制可以不断根据短信内容调

09

整或更新训练模型。“显然,垃圾短信到达率的降低将帮助运营商提高用户的满意度。此外,运营商可以根据短信规模灵活

调整计算集群的服务器数量满足过滤需求,更重要的是,运营商原来被垃圾短信占用的网络资源被释放,运营商可借此改

进业务运营。”程大伟补充到。

实施效果

提高用户满意度:99.9%以上的垃圾短信被自动过滤,通信公司的用户对垃圾短信的抱怨和投诉率显著降低,提高其用户满

意度。

提升网络资源利用率:运营商将垃圾短信占用的网络资源用于其它短信业务,改进短信业务市场运营。

实时垃圾短信监控:通过对垃圾短信的实时监控和持续的机器自动学习手段,不断满足越来越复杂的垃圾短信管理和过滤

需求。

提高垃圾短信过滤效率和精度:电信运营商根据垃圾短信的内容整理出特定的关键词,在短信到达用户前,利用字符串匹

配的方式在数据中心实施计算和过滤。

“这种基于字符串匹配的手段存在明显的不足。首先是滞后性,运营商只能在事后整理关键词,然而发送垃圾短信的用

户会不断的测试关键词并调整短信内容,例如:加入特殊符号、利用同音汉字等等,这使得依靠整理和分析关键词的方式

实现垃圾短信过滤效果越来越差。”程大伟说:“其次,伴随关键词的数量不断增加,服务器的计算性能对垃圾短信过滤

效率影响越来越大。”

此外,对于电信运营商而言,这些垃圾短信的传送占用和浪费了大量宝贵的网络资源。

电信运营商急需利用更新的技术手段对海量短信数据实现实时运算和分析,挖掘出有价值的垃圾短信参考依据,形成机

器学习的机制,实现自动化的垃圾短信过滤,从而充分利用网络资源,并提高用户满意度。

星环科技流处理引擎提供强大的流计算表达能力,支持在流数据上进行实时事件检测和批处理、机器学习等复杂的计算

逻辑,是电信运营商提高垃圾短信防范的理想工具。

目标与展望

下一步,星环科技将和电信运营商深入合作,继续挖掘短信发送用户和接受用户之间的关系,利用图的方法进一步提

升垃圾短信过滤效率和质量。

Page 12: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

广东电信用大数据重构室内网优 网络是运营商业务的核心——网络基站的修建和维护费用是运营商最主要的成本,而网络质量则直接影响用户体验进

而左右运营商的收入。所以网络优化——以合理的建设和维护成本提高网络质量,从来都是运营商工作的重心之一。由于

大部分的话务和流量使用都发生在室内,专门针对室内的网络优化更是运营商工作的重中之重。室内网络受建筑结构、材

料等影响,容易存在弱场强区甚至盲区。而高层和大型建筑带来的话务高密则容易使局部网络容量不足,形成信道拥塞。

室内网优的主要目标就是发现并解决这两个问题。

传统上,运营商主要利用DT(路测)/CQT(呼叫质量测试)和用户投诉来发现网络问题。在DT中,工作人员持设备

前往测试地点对网络质量的各项参数进行实地测量;在CQT中,工作人员在测试地点进行一系列的拨叫,主叫和被叫各占

一定比例,然后人工评判网络质量。 显而易见的是,DT/CQT需要大量人工操作,所以只能抽样选取时间和地点进行测

试,抽样密度高则人工成本高,但是抽样密度低又会导致测试效果不佳。而在进行室内网络测试时,办公楼、居民楼等场

所通常不允许外部人员随意进出,测试人员需要事先办理出入手续,这又进一步增加了测试成本。这些因素导致DT/CQT

无法大规模、常态化地被应用到网络优化中。用户投诉对网络优化的局限性更加明显。大多用户不会在网络或通话出现问

题时投诉,而是会选择换个地点或者等一段时间重试。而且,投诉发生在网络问题之后,接到投诉时故障场景多已无法重

现。移动互联网的普及让用户对网络质量要求越来越高,运营商必须加快网优的进程和扩大网优的规模。大数据技术的发

展给运营商带来了好消息。

运营商的业务随时都在产生数据,其中,信令数据和CDR(Call Detail Record,通话详单)数据是反映网络质量的绝

佳资源。信令数据记录了信号在通信网络的各个环节(移动终端、基站、移动台和移动控制交换中心等)中传输的情况;

CDR数据则记录了每一次语音、短信或者数据业务的全生命周期的特征信息。相对于DT/CQT的抽查,信令/CDR数据是对

全网质量各地点、全天候的普查。然而,普查的代价是庞大的数据量,以广东省广州电信为例,每天产生的CDR数据在三

千万条左右,而信令数据更是达到了每天四亿条。并不是所有的数据都有意义,要将散落在浩如烟海的数据中的价值提取

出来,运营商必须对数据进行处理和分析,这对运营商的数据处理能力提出了非常高的要求。事实上,运营商虽然深知

信令/CDR数据对网络优化的价值,却受限于技术无法有效地加以利用。大数据技术将改变这一局面。

首先,系统需要对信令/CDR数据进行室内外分离。当广东电信的测试人员在电脑上点击一幢楼宇时,系统会以楼宇作

为中心点,搜索到周围基站的信令/CDR数据,这就是楼宇附近的话务数据。然而,这些话务数据并不区分通信发生在室内

还是室外,所以要进行室内网络质量评估,系统要将室内外数据进行剥离。为了做到这一点,系统要先利用信号传播原理去

掉误差较大的数据(数据清洗),然后对清洗过的数据运用大数据聚类技术进行相似性类别区分,将混合在一起的话务数据

分离成室内数据和室外数据。分离出来的室内数据便可以用来建立针对该楼宇的话务模型。那么当新的海量数据产生时

,只要将新数据和该楼宇的话务模型进行比对,就可以得到楼宇内部的话务数据。

数据处理前:室内外数据混杂 数据处理后:室内外数据分离室内室外

网络是运营商业务的核心——网络基站的修建和维护费用是运营商最主要的成本,而网络质量则直接影响用户体验进

而左右运营商的收入。所以网络优化——以合理的建设和维护成本提高网络质量,从来都是运营商工作的重心之一。由于

大部分的话务和流量使用都发生在室内,专门针对室内的网络优化更是运营商工作的重中之重。室内网络受建筑结构、材

料等影响,容易存在弱场强区甚至盲区。而高层和大型建筑带来的话务高密则容易使局部网络容量不足,形成信道拥塞。

室内网优的主要目标就是发现并解决这两个问题。

传统上,运营商主要利用DT(路测)/CQT(呼叫质量测试)和用户投诉来发现网络问题。在DT中,工作人员持设备前往

测试地点对网络质量的各项参数进行实地测量;在CQT中,工作人员在测试地点进行一系列的拨叫,主叫和被叫各占一定比

例,然后人工评判网络质量。 显而易见1的是,DT/CQT需要大量人工操作,所以只能抽样选取时间和地点进行测试,抽样密

度高则人工成本高,但是抽样密度低又会导致测试效果不佳。而在进行室内网络测试时,办公楼、居民楼等场所通常不允

许外部人员随意进出,测试人员需要事先办理出入手续,这又进一步增加了测试成本。这些因素导致DT/CQT无法大规

模、常态化地被应用到网络优化中。用户投诉对网络优化的局限性更加明显。大多用户不会在网络或通话出现问题时投

诉,而是会选择换个地点或者等一段时间重试。而且,投诉发生在网络问题之后,接到投诉时故障场景多已无法重现。移

动互联网的普及让用户对网络质量要求越来越高,运营商必须加快网优的进程和扩大网优的规模。大数据技术的发展给运

营商带来了好消息。

运营商的业务随时都在产生数据,其中,信令数据和CDR(Call Detail Record,通话详单)数据是反映网络质量的绝佳

资源。信令数据记录了信号在通信网络的各个环节(移动终端、基站、移动台和移动控制交换中心等)中传输的情况;CDR数

据则记录了每一次语音、短信或者数据业务的全生命周期的特征信息。相对于DT/CQT的抽查,信令/CDR数据是对全网质量

各地点、全天候的普查。然而,普查的代价是庞大的数据量,以广东省广州电信为例,每天产生的CDR数据在三千万条左

右,而信令数据更是达到了每天四亿条。并不是所有的数据都有意义,要将散落在浩如烟海的数据中的价值提取出来,运营

商必须对数据进行处理和分析,这对运营商的数据处理能力提出了非常高的要求。事实上,运营商虽然深知信令/CDR数

据对网络优化的价值,却受限于技术无法有效地加以利用。大数据技术将改变这一局面。

前大数据时代,科学家研究出了各种抽样和统计的方法来弥补数据处理能力的不足,尽可能地使样本反映全量数据中的信

息。大数据时代的今天,得益于分布式处理技术的发展,我们能够处理的数据量越来越大,可以在越来越多的场景下不再依

赖于抽样而是直接处理全量数据。在网络优化领域,大数据技术可以帮助运营商快速地处理信令/CDR数据,从而做到对全

网质量的普查。日前,宜通世纪公司便为广东电信开发了一套室内网络质量评估系统,让工作人员在电脑上点击楼宇便

可轻松完成楼宇内网络状况的普查。工作人员动动手指就完成工作的背后是一套复杂的机制。

首先,系统需要对信令/CDR数据进行室内外分离。当广东电信的测试人员在电脑上点击一幢楼宇时,系统会以楼宇作

为中心点,搜索到周围基站的信令/CDR数据,这就是楼宇附近的话务数据。然而,这些话务数据并不区分通信发生在室内

还是室外,所以要进行室内网络质量评估,系统要将室内外数据进行剥离。为了做到这一点,系统要先利用信号传播原理

去掉误差较大的数据(数据清洗),然后对清洗过的数据运用大数据聚类技术进行相似性类别区分,将混合在一起的话务数

据分离成室内数据和室外数据。分离出来的室内数据便可以用来建立针对该楼宇的话务模型。那么当新的海量数据产生

时,只要将新数据和该楼宇的话务模型进行比对,就可以得到楼宇内部的话务数据。

10

Page 13: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

网络是运营商业务的核心——网络基站的修建和维护费用是运营商最主要的成本,而网络质量则直接影响用户体验进

而左右运营商的收入。所以网络优化——以合理的建设和维护成本提高网络质量,从来都是运营商工作的重心之一。由于

大部分的话务和流量使用都发生在室内,专门针对室内的网络优化更是运营商工作的重中之重。室内网络受建筑结构、材

料等影响,容易存在弱场强区甚至盲区。而高层和大型建筑带来的话务高密则容易使局部网络容量不足,形成信道拥塞。

室内网优的主要目标就是发现并解决这两个问题。

传统上,运营商主要利用DT(路测)/CQT(呼叫质量测试)和用户投诉来发现网络问题。在DT中,工作人员持设备

前往测试地点对网络质量的各项参数进行实地测量;在CQT中,工作人员在测试地点进行一系列的拨叫,主叫和被叫各占

一定比例,然后人工评判网络质量。 显而易见的是,DT/CQT需要大量人工操作,所以只能抽样选取时间和地点进行测

试,抽样密度高则人工成本高,但是抽样密度低又会导致测试效果不佳。而在进行室内网络测试时,办公楼、居民楼等场

所通常不允许外部人员随意进出,测试人员需要事先办理出入手续,这又进一步增加了测试成本。这些因素导致DT/CQT

无法大规模、常态化地被应用到网络优化中。用户投诉对网络优化的局限性更加明显。大多用户不会在网络或通话出现问

题时投诉,而是会选择换个地点或者等一段时间重试。而且,投诉发生在网络问题之后,接到投诉时故障场景多已无法重

现。移动互联网的普及让用户对网络质量要求越来越高,运营商必须加快网优的进程和扩大网优的规模。大数据技术的发

展给运营商带来了好消息。

运营商的业务随时都在产生数据,其中,信令数据和CDR(Call Detail Record,通话详单)数据是反映网络质量的绝

佳资源。信令数据记录了信号在通信网络的各个环节(移动终端、基站、移动台和移动控制交换中心等)中传输的情况;

CDR数据则记录了每一次语音、短信或者数据业务的全生命周期的特征信息。相对于DT/CQT的抽查,信令/CDR数据是对

全网质量各地点、全天候的普查。然而,普查的代价是庞大的数据量,以广东省广州电信为例,每天产生的CDR数据在三

千万条左右,而信令数据更是达到了每天四亿条。并不是所有的数据都有意义,要将散落在浩如烟海的数据中的价值提取

出来,运营商必须对数据进行处理和分析,这对运营商的数据处理能力提出了非常高的要求。事实上,运营商虽然深知

信令/CDR数据对网络优化的价值,却受限于技术无法有效地加以利用。大数据技术将改变这一局面。

首先,系统需要对信令/CDR数据进行室内外分离。当广东电信的测试人员在电脑上点击一幢楼宇时,系统会以楼宇作

为中心点,搜索到周围基站的信令/CDR数据,这就是楼宇附近的话务数据。然而,这些话务数据并不区分通信发生在室内

还是室外,所以要进行室内网络质量评估,系统要将室内外数据进行剥离。为了做到这一点,系统要先利用信号传播原理去

掉误差较大的数据(数据清洗),然后对清洗过的数据运用大数据聚类技术进行相似性类别区分,将混合在一起的话务数据

分离成室内数据和室外数据。分离出来的室内数据便可以用来建立针对该楼宇的话务模型。那么当新的海量数据产生时

,只要将新数据和该楼宇的话务模型进行比对,就可以得到楼宇内部的话务数据。

网络是运营商业务的核心——网络基站的修建和维护费用是运营商最主要的成本,而网络质量则直接影响用户体验进

而左右运营商的收入。所以网络优化——以合理的建设和维护成本提高网络质量,从来都是运营商工作的重心之一。由于

大部分的话务和流量使用都发生在室内,专门针对室内的网络优化更是运营商工作的重中之重。室内网络受建筑结构、材

料等影响,容易存在弱场强区甚至盲区。而高层和大型建筑带来的话务高密则容易使局部网络容量不足,形成信道拥塞。

室内网优的主要目标就是发现并解决这两个问题。

传统上,运营商主要利用DT(路测)/CQT(呼叫质量测试)和用户投诉来发现网络问题。在DT中,工作人员持设备前往

测试地点对网络质量的各项参数进行实地测量;在CQT中,工作人员在测试地点进行一系列的拨叫,主叫和被叫各占一定比

例,然后人工评判网络质量。 显而易见1的是,DT/CQT需要大量人工操作,所以只能抽样选取时间和地点进行测试,抽样密

度高则人工成本高,但是抽样密度低又会导致测试效果不佳。而在进行室内网络测试时,办公楼、居民楼等场所通常不允

许外部人员随意进出,测试人员需要事先办理出入手续,这又进一步增加了测试成本。这些因素导致DT/CQT无法大规

模、常态化地被应用到网络优化中。用户投诉对网络优化的局限性更加明显。大多用户不会在网络或通话出现问题时投

诉,而是会选择换个地点或者等一段时间重试。而且,投诉发生在网络问题之后,接到投诉时故障场景多已无法重现。移

动互联网的普及让用户对网络质量要求越来越高,运营商必须加快网优的进程和扩大网优的规模。大数据技术的发展给运

营商带来了好消息。

运营商的业务随时都在产生数据,其中,信令数据和CDR(Call Detail Record,通话详单)数据是反映网络质量的绝佳

资源。信令数据记录了信号在通信网络的各个环节(移动终端、基站、移动台和移动控制交换中心等)中传输的情况;CDR数

据则记录了每一次语音、短信或者数据业务的全生命周期的特征信息。相对于DT/CQT的抽查,信令/CDR数据是对全网质量

各地点、全天候的普查。然而,普查的代价是庞大的数据量,以广东省广州电信为例,每天产生的CDR数据在三千万条左

右,而信令数据更是达到了每天四亿条。并不是所有的数据都有意义,要将散落在浩如烟海的数据中的价值提取出来,运营

商必须对数据进行处理和分析,这对运营商的数据处理能力提出了非常高的要求。事实上,运营商虽然深知信令/CDR数

据对网络优化的价值,却受限于技术无法有效地加以利用。大数据技术将改变这一局面。

前大数据时代,科学家研究出了各种抽样和统计的方法来弥补数据处理能力的不足,尽可能地使样本反映全量数据中的信

息。大数据时代的今天,得益于分布式处理技术的发展,我们能够处理的数据量越来越大,可以在越来越多的场景下不再依

赖于抽样而是直接处理全量数据。在网络优化领域,大数据技术可以帮助运营商快速地处理信令/CDR数据,从而做到对全

网质量的普查。日前,宜通世纪公司便为广东电信开发了一套室内网络质量评估系统,让工作人员在电脑上点击楼宇便

可轻松完成楼宇内网络状况的普查。工作人员动动手指就完成工作的背后是一套复杂的机制。

首先,系统需要对信令/CDR数据进行室内外分离。当广东电信的测试人员在电脑上点击一幢楼宇时,系统会以楼宇作

为中心点,搜索到周围基站的信令/CDR数据,这就是楼宇附近的话务数据。然而,这些话务数据并不区分通信发生在室内

还是室外,所以要进行室内网络质量评估,系统要将室内外数据进行剥离。为了做到这一点,系统要先利用信号传播原理

去掉误差较大的数据(数据清洗),然后对清洗过的数据运用大数据聚类技术进行相似性类别区分,将混合在一起的话务数

据分离成室内数据和室外数据。分离出来的室内数据便可以用来建立针对该楼宇的话务模型。那么当新的海量数据产生

时,只要将新数据和该楼宇的话务模型进行比对,就可以得到楼宇内部的话务数据。

11

Page 14: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

采 集

处 理

呈 现

LTE邻区优化分析

邻区过覆盖度

用户网络质量指标

上行干扰分析

下行干扰分析

模三干扰分析

重叠覆盖指标

边缘弱覆盖度

LTE过覆盖分析

无线网络优化

电子折扣 WAP闲时促销

业务推广

市场营销策略

主动客服

用户生活圈分析

用户消费能力评估

这套室内网络质量评估系统重新定义了广东电信的室内网优,使广东电信的室内网络优化从原来的高度依赖人工、只

能点式抽样检测变为现在的高度自动化、可以大范围普查网络。广东电信的网络检测不再受限于有限的地点、时间,测试

人员可以轻松获得全网、全天候、全生命周期的网络质量状况。室内网络质量评估系统仅7分钟就能完成一栋楼宇的网络

质量普查,在系统上线的短短一个月内,广东电信便完成了一万多栋楼宇的室内网络普查。在这套系统的帮助下,广东电

信可以更加精准地优化网络。比如,广东电信可以从话务数据中分析出高ARPU值客户密集的楼宇,加大对这些楼宇内网络

的关注,以更好地提高高质量用户的满意度。当某栋楼宇突然频繁出现网络拥塞,工作人员可以用系统对这栋楼宇的话务

行为进行分析,判断出网络拥塞是暂时的还是长期的。如果拥塞只是暂时的,则说明该楼宇可能正在举办大型活动,在短

期内吸引了大量人流,广东电信只需在活动期间派出信号车辆来缓解拥塞而不用永久增加新设备,这样可以节省网络建设

投资。信令/CDR数据还能为网络问题的解决方案提供借鉴,帮助广东电信决定是增加基站、更新设备还是调整参数,使投

资更加精细化。

大数据时代的今天,人们越来越清晰地认识到数据的价值。运营商天生具有数据基因,在业务的各个环节都会采集大

量的数据。这里,我们已经看到将大数据在运营商网络优化上的作用,将大数据技术应用到运营商业务的方方面面,势必

为运营商创造更多的价值。

12

Page 15: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

大数据提升互联网金融风险管控能力的应用实践

传统银行业如何借力移动互联网寻求突围,如何在大数据时代持续保持稳健发展的竞争力,降低“互联网+”时代

带来的各种金融风险,将是互联网金融近几年来需要不断探索和实践的课题。

文 | 葛仁余

著名咨询公司波士顿认为,当量级庞大、实时传输、格式多样的全量数据通过某种手段得到利用并创造出商业价

值,且能够进一步推动商业变革时,大数据就诞生了。过去,人们在处理数据时受到数据量和数据处理手段的制约,为

了确保分析结果的准确性,人们偏向于收集可量化的、准确的数据。

而在大数据时代,人们可以获得海量的、非结构化数据,并且利用内存分析、流处理等新兴技术,大幅度提升了对海

量数据的处理能力,人们得以从新的视角重新审视数据的利用和挖掘。大数据的出现,降低了数据分析的成本门槛,实现

了从数据到价值的高效转化。

要加快政府数据开放共享,推动资源整合,依托政府数据统一共享平台,大力推进法人单位信息资源库等国家基础数

据资源,以及金税、金盾等信息系统跨部门、跨区域共享。

如上海市已开放交通大数据,南京市打造了以社保、住房公积金、车辆违章等为基础的大数据平台并在一定范围内向

社会机构开放。据国家发展和改革委员会透露,政府数据统一开放门户有望2018年以前建成,实现面向社会的政府数据资

源一站式开放服务。

除了政府公共数据资源逐步开放外,《纲要》中还特别指出要发展新兴产业大数据,大力培育互联网金融等新业

态。金融行业在发展大数据能力方面具有天然优势:在开展业务的过程中积累了海量的高价值数据,其中包括客户信

息、交易流水等数据。有数据显示,中国大数据应用投资规模以五大行业为最高,其中第一是互联网行业,占28.9%,

第二是电信行业,占19.9%,第三是金融行业,占17.5%。而金融行业中银行业又是重点,占41.1%。

面对着数据宝藏,每一家银行都需要回答这样的问题:如何充分利用外部开放数据和银行自有数据,让数据资产迸发

出能量。

江苏银行在选择一个合适的大数据技术平台之后,积极采用“应用驱动”、“业务与科技紧密协同”、“迭代式开发

和小版本发布”的项目管理方法,结合各个业务条线的业务拓展思路、客户管理和产品设计策略,以开放的思维引入先进

的专家经验和汇聚本行创意,通过打造金融大数据应用平台,实现大数据弯道超车的目标,促进业务创新和管理创新。

一、互联网金融面临的风险和应对措施

移动互联网使商业服务和金融服务得以无形地嵌入到人们生活方方面面,为互联网金融的创新和广泛应用提供了

基础。

我国互联网金融的发展现状从推进主体来看,互联网金融业态可以分为3种类型:

一是由金融机构进行的互联网交易,即传统金融交易方式的网络化和电子化,如手机银行等业务;

二是由互联网企业推出的金融业务,如第三方支付、P2P和众筹等业务;

三是由电子商务企业与金融机构或不同种类金融机构之间进行合作而产生的新兴业态,如余额宝(阿里与天弘基金的合作)

等理财产品。

13

Page 16: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

对应的风险分数,为智能型反交易欺诈授权决策提供科学依据,对欺诈风险高的交易可以拒绝授权和展开调查。

银行业欺诈风险主要集中在注册、登录、借款、提现、支付、修改信息6个业务场景。如注册场景中的虚假注册、垃

圾注册;登录场景中的撞库登录、暴力破解等;借款场景中的多头借贷、信用恶化;提现和支付场景中的欺骗行为等。

4.实时风控技术框架

针对个人线上消费贷款的风控需求,反欺诈系统需具备稳定、快速、准确的的特点,以平衡业务拓展、客户体验和风

险控制三方的关系。通过引入反欺诈风险规则引擎,可以将不断变化的业务规则剥离出来,进行动态管理和多规则多重组

合,从而使系统变得更加灵活,适用范围更加广泛。在交易过程中,通过实时计算当前交易和历史交易特征的偏离值,如

平均交易金额、常用的交易类型等,计算该笔交易发生欺诈的概率。

5.智能决策与业务应用流程结合

基于行内和行外数据,将开发和设计出的智能模型及业务策略统一部署在企业级决策平台之后,需要将这些智能决策

服务嵌入到现有的作业流程中,从而改进传统的作业模式,实现客户服务模式、体验模式及管理模式的创新。

在整个技术实现框架中,数据是基础,智能模型和业务策略是核心和灵魂,与各种业务流程及渠道结合是应用成果的

外在展现。

三、江苏银行在互联网金融业务中应用大数据开展风险管控的探索与实践

从2014年起,江苏银行对互联网金融进行了多方面探索和实践。

为解决产品设计中的风险管控问题,江苏银行基于Hadoop开源式的大数据分布式处理技术平台,整合了内外部海量

14

互联网金融常见的风险主要包括5种:

一是信用风险,由于交易双方基于虚拟的网络进行交易,容易被交易对手利用技术和法律漏洞谋取不当利益,信用

风险较大;

二是信息科技风险,包括信息安全风险、技术选择风险和技术支持风险;

三是操作风险,由于交易主体对互联网金融业务的操作要求不太了解,或信息系统设计缺陷引起的操作风险;

四是声誉风险,互联网金融机构不能与客户建立良好的关系,从而导致其无法有序开展金融业务的风险;

五是法律风险,现有的法律法规都是为传统金融业务设置,不完全适合于互联网金融,如交易者身份认证、资金监

管、市场准入等尚未有明确的监管规定,故在互联网金融的交易过程中容易出现由于交易主体间权利义务模糊而导致法

律风险。

本文主要从信用风险角度展开,并结合江苏银行的实践对互联网金融的大数据风险管控应用实践进行分享。

和传统金融业相比,互联网金融的信用风险的防控具有以下两个关键点:

一是风险管理面临“免担保”模式的冲击,银行必须从更广阔的范围进行信用风险的防范,需要解决信息不对称的问

题,并建立更加全面的客户信用风险量化体系。互联网的普及降低了信息成本,很大程度上解决了信息分散和不对称问

题。互联网金融借鉴传统商业银行的信誉评估标准,整合电商、第三方支付等多平台数据,利用云计算、大数据等技

术,深入挖掘企业信息,减少人力成本,提高风险预判。同时对企业财务经营状况、上下游关系等信息实时监测,方便

违约后不良资产的及时处理变现,打造和谐信贷生态圈(链)。

二是在虚拟的网络进行交易,欺诈风险高,对客户信息的甄别更为重要,需要更先进的技术手段。除了传统数据反欺

诈模型分析外,互联网时代必须引入移动数据的支持,如利用移动设备的位置信息,帮助商业银行验证贷款申请人居住

地,分析贷款用户真实工作地点,识别出现在同一个经纬度的群体性恶意欺诈事件,降低恶意欺诈的风险。

二、大数据在风险管控领域的技术研究

大数据从内涵上看,其特征可归纳为三个方面:

一是数据类型方面,除了包括海量的结构化和半结构化的交易数据,还包括海量非结构化数据和交互数据;

二是技术方法方面,核心是从各种类型的数据中快速获取有价值信息的技术及其集成;

三是分析应用方面,重点是采用大数据技术对特定的数据集合进行分析,及时获得有价值的信息。

与其他行业相比,大数据对银行业更具潜在价值。一方面,大数据决策模式更符合银行发展需求。银行业发展模式转

型、金融创新和管理升级等都需要充分利用大数据技术、践行大数据思维。另一方面,银行业数据特点是量大、类型

多,不仅拥有账户信息和交易信息等结构化数据,还拥有客服音频、网点视频、网上银行记录、电子商城记录等非结构

化数据。

在新的形势下,银行业需要加强大数据应用,如利用大数据图分析与流处理技术,快速统计历史数据、一段时间窗

口的信息流和触发计算的事件,并匹配模型,在百毫秒级别内进行响应;处理非结构化数据,整合网页、文本、JSON、

XML、图像和语音等非结构化数据,转化成结构化字段;通过引入和整合人民银行征信、税务、工商、公安、法院、电信

服务商、P2P平台等网络数据源,实现客户的云数据360度画像标签;探索基于并行数据处理技术环境下R语言的运用,实现

客户担保圈关系的自动挖掘,自动标识预警担保圈的形成。

Page 17: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

对应的风险分数,为智能型反交易欺诈授权决策提供科学依据,对欺诈风险高的交易可以拒绝授权和展开调查。

银行业欺诈风险主要集中在注册、登录、借款、提现、支付、修改信息6个业务场景。如注册场景中的虚假注册、垃

圾注册;登录场景中的撞库登录、暴力破解等;借款场景中的多头借贷、信用恶化;提现和支付场景中的欺骗行为等。

4.实时风控技术框架

针对个人线上消费贷款的风控需求,反欺诈系统需具备稳定、快速、准确的的特点,以平衡业务拓展、客户体验和风

险控制三方的关系。通过引入反欺诈风险规则引擎,可以将不断变化的业务规则剥离出来,进行动态管理和多规则多重组

合,从而使系统变得更加灵活,适用范围更加广泛。在交易过程中,通过实时计算当前交易和历史交易特征的偏离值,如

平均交易金额、常用的交易类型等,计算该笔交易发生欺诈的概率。

5.智能决策与业务应用流程结合

基于行内和行外数据,将开发和设计出的智能模型及业务策略统一部署在企业级决策平台之后,需要将这些智能决策

服务嵌入到现有的作业流程中,从而改进传统的作业模式,实现客户服务模式、体验模式及管理模式的创新。

在整个技术实现框架中,数据是基础,智能模型和业务策略是核心和灵魂,与各种业务流程及渠道结合是应用成果的

外在展现。

三、江苏银行在互联网金融业务中应用大数据开展风险管控的探索与实践

从2014年起,江苏银行对互联网金融进行了多方面探索和实践。

为解决产品设计中的风险管控问题,江苏银行基于Hadoop开源式的大数据分布式处理技术平台,整合了内外部海量

基于大数据的风险管控分为五个步骤。

1.全面风险视图的建立

通过建立数据交互渠道,获得税务、司法、环保、工商等在线信息,通过爬虫等技术手段获得舆情信息,并利用半结

构和非结构化数据加工分析技术,将上述数据转化成结构化数据,加工整合形成全面的客户征信视图。在此基础上,不断

进行迭代设计,完善业务需求。

2.客户线上信息识别

通过人脸识别、反欺诈侦测技术核实客户身份的真实性,判断申请者是否存在欺诈行为。一般来说,人脸识别系统包

括图像摄取、人脸定位、图像预处理以及人脸识别(身份确认或者身份查找)。系统输入的一般为一张或多张含有未确定身

份的人脸图像、人脸数据库中的若干已知身份的人脸图象或者相应的编码,输出的则是一系列相似度得分,表明待识别的

人脸的身份。

在线反欺诈是互联网金融必不可少的一部分,常见的反欺诈系统由用户行为风险识别引擎、征信系统、黑名单系统等

组成,包含五个部分:数据采集、欺诈侦测、系统管理、报表、数据库。为了进一步提升反欺诈能力,设备指纹技术、代

理检测技术、生物探针技术被应用到反欺诈系统中,实现从多维度降低风险。

3.信用评分模型建设以及与之匹配的业务策略设计

智能模型是一种欺诈风险量化的模型,它利用可观察到的交易特征变量,计算出一个分值来衡量该笔交易的欺诈风

险,并进一步将欺诈风险分为不同等级。智能模型会在客户交易的第一个行为开始进行分析,为客户每一个动作赋予相

数据,开发了风险数据集市、资产负债管理集市、监管报送集市等多个内部数据集市,打造了面向全行的开放共享大数据

平台。

针对外部数据,通过统一的外部数据平台采集、转换和存取包括人民银行、银监会、工商、税务、法院、环保、海

关、电信等20余个数据源,多达几千项字段的外部数据,并运用网络爬虫技术和命名实体识别技术,抓取公共网络媒体

舆情信息;

15

互联网金融常见的风险主要包括5种:

一是信用风险,由于交易双方基于虚拟的网络进行交易,容易被交易对手利用技术和法律漏洞谋取不当利益,信用

风险较大;

二是信息科技风险,包括信息安全风险、技术选择风险和技术支持风险;

三是操作风险,由于交易主体对互联网金融业务的操作要求不太了解,或信息系统设计缺陷引起的操作风险;

四是声誉风险,互联网金融机构不能与客户建立良好的关系,从而导致其无法有序开展金融业务的风险;

五是法律风险,现有的法律法规都是为传统金融业务设置,不完全适合于互联网金融,如交易者身份认证、资金监

管、市场准入等尚未有明确的监管规定,故在互联网金融的交易过程中容易出现由于交易主体间权利义务模糊而导致法

律风险。

本文主要从信用风险角度展开,并结合江苏银行的实践对互联网金融的大数据风险管控应用实践进行分享。

和传统金融业相比,互联网金融的信用风险的防控具有以下两个关键点:

一是风险管理面临“免担保”模式的冲击,银行必须从更广阔的范围进行信用风险的防范,需要解决信息不对称的问

题,并建立更加全面的客户信用风险量化体系。互联网的普及降低了信息成本,很大程度上解决了信息分散和不对称问

题。互联网金融借鉴传统商业银行的信誉评估标准,整合电商、第三方支付等多平台数据,利用云计算、大数据等技

术,深入挖掘企业信息,减少人力成本,提高风险预判。同时对企业财务经营状况、上下游关系等信息实时监测,方便

违约后不良资产的及时处理变现,打造和谐信贷生态圈(链)。

二是在虚拟的网络进行交易,欺诈风险高,对客户信息的甄别更为重要,需要更先进的技术手段。除了传统数据反欺

诈模型分析外,互联网时代必须引入移动数据的支持,如利用移动设备的位置信息,帮助商业银行验证贷款申请人居住

地,分析贷款用户真实工作地点,识别出现在同一个经纬度的群体性恶意欺诈事件,降低恶意欺诈的风险。

二、大数据在风险管控领域的技术研究

大数据从内涵上看,其特征可归纳为三个方面:

一是数据类型方面,除了包括海量的结构化和半结构化的交易数据,还包括海量非结构化数据和交互数据;

二是技术方法方面,核心是从各种类型的数据中快速获取有价值信息的技术及其集成;

三是分析应用方面,重点是采用大数据技术对特定的数据集合进行分析,及时获得有价值的信息。

与其他行业相比,大数据对银行业更具潜在价值。一方面,大数据决策模式更符合银行发展需求。银行业发展模式转

型、金融创新和管理升级等都需要充分利用大数据技术、践行大数据思维。另一方面,银行业数据特点是量大、类型

多,不仅拥有账户信息和交易信息等结构化数据,还拥有客服音频、网点视频、网上银行记录、电子商城记录等非结构

化数据。

在新的形势下,银行业需要加强大数据应用,如利用大数据图分析与流处理技术,快速统计历史数据、一段时间窗

口的信息流和触发计算的事件,并匹配模型,在百毫秒级别内进行响应;处理非结构化数据,整合网页、文本、JSON、

XML、图像和语音等非结构化数据,转化成结构化字段;通过引入和整合人民银行征信、税务、工商、公安、法院、电信

服务商、P2P平台等网络数据源,实现客户的云数据360度画像标签;探索基于并行数据处理技术环境下R语言的运用,实现

客户担保圈关系的自动挖掘,自动标识预警担保圈的形成。

内部数据包括行内核心系统、信贷管理系统、网银系统、个贷系统等几十个业务系统中的交易数据、账户数据和客户

基础数据,以及通过线上行为分析系统收集的设备信息和客户行为数据。在丰富的数据基础上,通过流计算引擎和风险规

则库,实时计量互联网金融中的信用风险。

基于大数据平台,江苏银行推出了独具特色的两款互联网金融产品——联网线上个人消费贷款产品“享e融”和小微

金融贷款产品“税e融”。这两款产品均具有“纯线上”、“高效率”的特点。基于大数据技术的决策模型实现系统自动

审批,替代传统人工审批,业务办理效率大大提高。从客户发起申请提交到后台数据搜集、分析、审批,仅需要5~7秒

左右。

1.“享e融”个人纯线上贷款产品

通过从网贷平台调用反欺诈风控系统接口,对申请网贷业务的客户进行反欺诈甄别,并拒绝触犯反欺诈规则的申请

客户。反欺诈引擎的交互如图2所示。

该产品上线两周即收到近6000笔申请,反欺诈风控系统能快速帮助江苏银行识别出风险事件(调用结果反馈约

200ms/次)。其中高风险贷款事件占比约1%,需人工审核确认的贷款事件占比约9%,风险事件统计如图3所示。

Page 18: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

数据,开发了风险数据集市、资产负债管理集市、监管报送集市等多个内部数据集市,打造了面向全行的开放共享大数据

平台。

针对外部数据,通过统一的外部数据平台采集、转换和存取包括人民银行、银监会、工商、税务、法院、环保、海

关、电信等20余个数据源,多达几千项字段的外部数据,并运用网络爬虫技术和命名实体识别技术,抓取公共网络媒体

舆情信息;

在发现的贷款风险事件中,失信风险事件约占8.9%,异常借款事件约占91.1%。决策引擎发现了各类风险情况,如一

天内同一设备或账户借款次数过多(一天37次)、不在手机归属地借款事件、3个月内同一身份证在多个平台进行多头借贷

(同一身份证向17个不同平台申请借款),有效地帮助风控部门识别出潜在欺诈风险,提高决策效率和准确性。

大数据风控系统除了具备贷前阶段的风险事件识别功能,还具备贷后监控功能,针对已放款的借款用户进行监控,通

过批量计算客户风险分值的方式(当借贷人在贷款期间发生逾期记录、重复借贷或者卷入经济法律纠纷等时,其风险评分将

恶化),及时预警客户风险,通知客户经理或后台管理部门,采取有效防范风险措施。

2.“税e融”小微金融贷款

在“税e融”产品中,江苏银行内部系统首先获取国税数据中客户的缴税记录、纳税额、纳税评级等各类数据,并将

其解析成客户模型分析所需的参数,判断授信目标为诚信纳税且纳税额较高的客户;

然后数据采集系统通过爬虫等技术围绕该客户进行一系列的外部资料搜索和获取,如工商信息中的集团关系、担保信

息、关联人信息,法院、公安信息、征信、银监信息、舆论信息等;

最后通过数据整合及完整模型分析,生成客户肖像概况,并计算出违约概率,进而自动对客户进行风险等级评定,确

定可授信金额。

对客户而言,只需要提供营业执照号、组织机构代码号、纳税识别号等信息,即可实现1分钟内贷款审批完成、入

账。“税e融”为小微企业打开了一条便捷融资的“绿色通道”。自2015年6月正式推广,至10月底,已收到贷款申请

40301笔,为4239户小微企业发放39.8亿元信用贷款,赢得了广大小微企业客户的一致赞誉。

此外,江苏银行大数据风险防控系统已走出江苏,通过为甘肃银行提供甘肃地区“税e融”云服务,实现了大数据技

术和业务模式的输出。

互联网金融已经大举进军金融业,并不断冲击着传统金融业务。在以网络化和数据化为特征的新经济时代,金融与大

数据交叉融合。

大数据有助于提升金融市场的透明度,通过从海量的数据中快速获取有价值的信息以支持商业决策,进一步推动金融

业发展;大数据促进互联网金融企业实现精准营销、规避风险、优化经营绩效、提高运营效率,增强企业融资的便捷性和经

济性;同时,利用大数据技术可以逐步解决金融格局演变、信用评估、风险管控、信息安全等的一系列难题。

除了协助传统商业银行建立风险管控体系外,大数据还可以在征信共享服务、寻找新业务和客户价值、实现多渠道协

同精准营销、精细化资本管理、优化产品、改善客户体验及提高决策科学性等方面开展更多的应用。

传统银行业如何借力移动互联网寻求突围,如何在大数据时代持续保持稳健发展的竞争力,降低“互联网+”时代带

来的各种金融风险,将是互联网金融近几年来需要不断探索和实践的课题。

另外在数据共享的同时,也需要保护个人隐私,唯有如此,数据才能可持续地释放正能量。

16

内部数据包括行内核心系统、信贷管理系统、网银系统、个贷系统等几十个业务系统中的交易数据、账户数据和客户

基础数据,以及通过线上行为分析系统收集的设备信息和客户行为数据。在丰富的数据基础上,通过流计算引擎和风险规

则库,实时计量互联网金融中的信用风险。

基于大数据平台,江苏银行推出了独具特色的两款互联网金融产品——联网线上个人消费贷款产品“享e融”和小微

金融贷款产品“税e融”。这两款产品均具有“纯线上”、“高效率”的特点。基于大数据技术的决策模型实现系统自动

审批,替代传统人工审批,业务办理效率大大提高。从客户发起申请提交到后台数据搜集、分析、审批,仅需要5~7秒

左右。

1.“享e融”个人纯线上贷款产品

通过从网贷平台调用反欺诈风控系统接口,对申请网贷业务的客户进行反欺诈甄别,并拒绝触犯反欺诈规则的申请

客户。反欺诈引擎的交互如图2所示。

该产品上线两周即收到近6000笔申请,反欺诈风控系统能快速帮助江苏银行识别出风险事件(调用结果反馈约

200ms/次)。其中高风险贷款事件占比约1%,需人工审核确认的贷款事件占比约9%,风险事件统计如图3所示。

Page 19: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

在发现的贷款风险事件中,失信风险事件约占8.9%,异常借款事件约占91.1%。决策引擎发现了各类风险情况,如一

天内同一设备或账户借款次数过多(一天37次)、不在手机归属地借款事件、3个月内同一身份证在多个平台进行多头借贷

(同一身份证向17个不同平台申请借款),有效地帮助风控部门识别出潜在欺诈风险,提高决策效率和准确性。

大数据风控系统除了具备贷前阶段的风险事件识别功能,还具备贷后监控功能,针对已放款的借款用户进行监控,通

过批量计算客户风险分值的方式(当借贷人在贷款期间发生逾期记录、重复借贷或者卷入经济法律纠纷等时,其风险评分将

恶化),及时预警客户风险,通知客户经理或后台管理部门,采取有效防范风险措施。

2.“税e融”小微金融贷款

在“税e融”产品中,江苏银行内部系统首先获取国税数据中客户的缴税记录、纳税额、纳税评级等各类数据,并将

其解析成客户模型分析所需的参数,判断授信目标为诚信纳税且纳税额较高的客户;

然后数据采集系统通过爬虫等技术围绕该客户进行一系列的外部资料搜索和获取,如工商信息中的集团关系、担保信

息、关联人信息,法院、公安信息、征信、银监信息、舆论信息等;

最后通过数据整合及完整模型分析,生成客户肖像概况,并计算出违约概率,进而自动对客户进行风险等级评定,确

定可授信金额。

对客户而言,只需要提供营业执照号、组织机构代码号、纳税识别号等信息,即可实现1分钟内贷款审批完成、入

账。“税e融”为小微企业打开了一条便捷融资的“绿色通道”。自2015年6月正式推广,至10月底,已收到贷款申请

40301笔,为4239户小微企业发放39.8亿元信用贷款,赢得了广大小微企业客户的一致赞誉。

此外,江苏银行大数据风险防控系统已走出江苏,通过为甘肃银行提供甘肃地区“税e融”云服务,实现了大数据技

术和业务模式的输出。

互联网金融已经大举进军金融业,并不断冲击着传统金融业务。在以网络化和数据化为特征的新经济时代,金融与大

数据交叉融合。

大数据有助于提升金融市场的透明度,通过从海量的数据中快速获取有价值的信息以支持商业决策,进一步推动金融

业发展;大数据促进互联网金融企业实现精准营销、规避风险、优化经营绩效、提高运营效率,增强企业融资的便捷性和经

济性;同时,利用大数据技术可以逐步解决金融格局演变、信用评估、风险管控、信息安全等的一系列难题。

除了协助传统商业银行建立风险管控体系外,大数据还可以在征信共享服务、寻找新业务和客户价值、实现多渠道协

同精准营销、精细化资本管理、优化产品、改善客户体验及提高决策科学性等方面开展更多的应用。

传统银行业如何借力移动互联网寻求突围,如何在大数据时代持续保持稳健发展的竞争力,降低“互联网+”时代带

来的各种金融风险,将是互联网金融近几年来需要不断探索和实践的课题。

另外在数据共享的同时,也需要保护个人隐私,唯有如此,数据才能可持续地释放正能量。

17

Page 20: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

江苏银行大数据技术平台选型分析

江苏银行大数据平台建设起步于2014年底,2015年年中初见成效。目前江苏银行利用大数据技术开发了一系列具有

一定社会影响的大数据应用产品:如“e融”品牌下的“税e融”、“享e融”等线上贷款产品、基于内外部数据整合建模

的对公资信服务报告、以实时风险预警为导向的在线交易反欺诈应用、基于柜员交易画面等半结构化数据的柜面交易行为

检核系统等。

大数据应用的本质是对客户需求的认识和释放,应用效果取决于银行的综合运营服务意识,而选择一个合适的技

术平台也是大数据成功应用的不可或缺的重要因素之一。江苏银行在大数据技术平台建设方面进行了大量探索和思

考,本文重点介绍其大数据技术平台选型思路,以期与同业共同交流、分享、探讨大数据技术在银行业的应用实践。

一、为什么要建设大数据技术平台

截至2015年6月,江苏银行资产规模达到1.2万亿元,一方面,成立8年来,江苏银行积累了大量的内部数据,以往受

限于高性能存储的成本和数据并行化处理能力,占总存储量80%以上的数据是“死”在系统里的。以对私客户的活期账户

为例,一张拉链表的数据量就达数百GB,运行在IBMP6系列小型机上的Oracle数据库统计一下表的行数就要3个小时,若

需要全量回算历史数据,为避免影响生产,需要将数据导出到另外的数据库上,花费几天时间。又如,诸如“柜员操作记

录”这样的半结构化数据每天产生的数据量达几个GB,生产环境只能保留最近几天的数据,其他数据存储在磁带库上,使

用时需花费大量的人力将数据从带库中导出。

另一方面,为减少贷前审查的录入成本,开发纯线上贷款产品等,江苏银行陆续引入税务、法院、工商、黑名单等外

部数据。随着内外部数据量的快速增长,大规模数据处理和实时响应的需求使得传统的数据处理平台遭遇瓶颈,江苏银行

急需探索新的数据架构,采用新的数据处理技术。

当前,银行业面临的挑战主要来自两个方面:利率市场化和互联网金融。利率市场化拉近了传统银行与实体经济的横

向联系,要求银行快速提升数据洞察能力;互联网金融使得银行的数据应用不能局限于传统的查询统计分析应用,还需提供

高效精准的营销,并具备实时风险防控能力。相较于大型商业银行,城商行的竞争更加激烈,传统的数据产品和应用服务

已无法满足新形势下城商行应对市场竞争的需要。

二、大数据技术平台架构分析

经过对主要大数据处理平台的深入研究,江苏银行将关注点聚焦在两个方面:一是选择MPP还是Hadoop;二是选择

开源版Hadoop还是发布版Hadoop。为此,江苏银行更近一步从数据容量和数据处理能力的线性关系分析传统数据平

台、MPP和Hadoop的关系(如图1所示)。

18

Page 21: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

传统观点认为,MPP的适用范围为1TB~100TB数据量,数据量超过100TB,Hadoop更具优势。当前,大中型城

商行的数据量普遍在10TB级别,因此一些城商行选择MPP作为大数据处理平台。

然而,近年来随着Hadoop开源社区的不断发展,特别是Spark2.0的发布让Hadoop焕发了新的活力。Spark2.0具有

RDD(ResilientDistributedDatasets)和DAG(有向无环图)两项核心技术,基于内存计算优化了任务流程,具有更低的框架开

销,使得Hadoop在MPP擅长的100TB以下数据量的处理性能也大为改善。以目前的Hadoop技术,100GB以上的数据量处

理性能不弱于传统关系型数据库和MPP,10TB以上性能优势更为明显。因此,图1所示混合架构的大数据处理平台模式逐

渐淡出,形成如图2所示的新型应用模式。

江苏银行从经济成本和未来数据的非线性增长趋势的角度分析认为,传统的交易系统运用关系型数据库处理OLTP事务

操作,产生的交易数据通过异构数据的批量复制方式或消息队列的准实时方式更新至Hadoop平台,Hadoop平台进行大体

量数据的分析和挖掘,并提供基于大数据的应用系统实时检索的模式,与城市商业银行目前的数据架构相适应,决定选择

Hadoop平台。

选择开源版本的Hadoop还是产品化的发布版Hadoop?众所周知,Hadoop的优势是没有额外的产品费用,技术更新

快,开放程度高,应用服务集成商多。国内很多知名互联网企业在开源版本的Hadoop基础上优化形成了自己的大数据产

品。为此,江苏银行考虑基于Hadoop开源框架自建大数据平台,但测试后发现此方法可行性不高,原因有三:

一是城商行科技力量有限,大部分力量投入在应用研发领域,在基础软件的研究和开发方面的专业能力远远比不上IT

公司,即使只从事集成组件的工作也不一定能达到预估的效果;

二是深入研究平台技术需要一定的时间,城商行在起步阶段已经落后于互联网企业,来自互联网金融的激烈竞争留给

城商行的时间远远不够;

三是行业监管机构对商业银行应用系统的安全性、稳定性和连续运营有着严格要求,开源产品一旦出现重大问题没有

及时修复的保障。

经过慎重分析和实际测试,江苏银行将选择范围集中在符合银行应用需求的成熟的具有高效技术支持的Hadoop发布产

品。

三、大数据平台选型要点

在对产品化的发布版Hadoop平台选型的过程中,江苏银行总结了以下需重点考量的内容。

1.性价比和扩展性

前期江苏银行在IOE传统架构上进行了大量投入,而城商行总体自主可控能力较弱、资产规模较小、盈利能力较低,因

此,不论是从自主可控要求的目标出发,还是从降低软硬件成本投入的角度,都要求大数据产品须支持在x86虚拟化集群搭

19

Page 22: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

20

建开放和高度并行化的处理平台,既要适应高并发低时延的移动互联网实时数据检索需求,又要满足大体量数据的统计分

析与业务建模要求;要求总体技术方案具备高性价比,能够实现在同一服务器集群上针对不同应用动态灵活分配内存、CPU

等硬件资源并支持动态扩展,在出现资源瓶颈时能够快速解决。Hadoop产品具有支持x86和可动态扩展的性能,但目前大

多数Hadoop平台在不同应用间资源有效隔离方面存在一定缺陷。

2.对SQL的兼容性

开源Hadoop对标准SQL及PL/SQL支持程度不高,许多常用函数不支持,需要使用者编写程序实现。而银行以往数据

集市、数据仓库等应用大都基于SQL开发,根据江苏银行的数据架构规划,数据集市、数据仓库将迁移至Hadoop平

台,为避免少则几百行多则上万行的程序编写,SQL兼容性成为Hadoop平台选择不可或缺的考虑因素之一。

3.对于通用开发框架和工具的支持程度

江苏银行应用系统采用数据库+中间件+应用的三层模式,开发环境为JavaHibernate和Spring框架。为此要求Hadoop

平台下的HDFS库、Hbase以及内存数据库等组件能够通过ODBC或JDBC连接,以实现数据库对应用开发人员透明,并支持

诸如BI、ETL、数据挖掘等工具,数据源可以根据实际需要选择配置Oracle或Hadoop。

4.具备事务的基本特性

大数据平台不仅是关系型数据库数据转存储和统计分析工具,更是一些新型应用,如客户线上行为等的原始数据

库。为确保数据准确性,数据操作必须具备事务的基本特性:原子性、一致性、隔离性和持久性。Hadoop分布式计

算的特点,决定其本身不具备事务的基本特性,必须借助插件实现。

5.图分析与流处理能力

银行的实时营销和实时风险预警场景需要大数据平台具有历史数据快速统计、窗口时间内的信息流和触发事件及模型

匹配、百毫秒级事件响应等性能,流处理技术是关键。目前Hadoop平台通用的流处理引擎主要为SparkStreaming和

Storm,两者各有千秋,SparkStreaming由时间窗口内批量事件流触发,Storm由单个事件触发,单笔交易延迟方面

SparkStreaming高于Storm,但在整体吞吐量方面SparkStreaming略有提升。在进行Hadoop产品选型时江苏银行

主要考量了经过优化的流处理引擎是否能够在流上实现统计类挖掘算法。

6.数据存储形式的多样性

要求Hadoop产品至少支持3种数据存储形式:一是行式存储,用于数据由传统数据库向Hadoop数据库过渡;二是基于

键值对的存储,用于大体量、高并发数据的实时查询;三是内存式数据库,用于交互式数据分析和挖掘,可通过构建分布

式cube加速性能,也可部分使用SSD替代,程序自动选择存储层。

7.多用户多数据库的隔离

商业银行对数据安全非常重视,要求不同来源的数据在Hadoop平台上分库存放,并且为不同用户针对库、表、行访

问分配不同的权限。开源Hadoop平台不具有用户权限概念,许多使用者在Hadoop平台只建一个库,所有应用使用同一

个用户名访问资源,数据资源完全开放。这种方式存在严重的安全隐患,预计随着平台重要性的提升,拆分数据库细分

用户权限的需求也将越来越迫切,为避免因前期规划不合理导致的后期巨大的拆分工作量,江苏银行在大数据平台选型

之初就将多用户多数据库的隔离作为重点考量的因素。

8.平台的研发能力和开放性

Hadoop作为创新型技术,与传统数据库相比,技术成熟度不够。江苏银行选择使用产品化的Hadoop,目的在于借助

专业技术厂商的强大的自主研发和服务支持能力,快速修复技术缺陷,在充分理解银行数据应用复杂需求的基础上,充分

发挥产品特性,支持银行业务创新。

9.不同数据规模和应用场景下的性能表现

Page 23: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

银行业的应用场景及需求较其他行业更为复杂,一些典型的应用场景和主要技术包括以下几个。

①用户行为采集分析:数据探头(JS、SDK,Nginx、ICE)、数据分发(Kafka)、离线数据存储及处理(HBase)、运营分析

结果展现(MySQL)。

②跨部门数据整合:数据桥接(Sqoop)、日志接入(Flume)、数据分发(FTP)、离线数据存储及处理(HBase、ES)。

③离线用户画像和用户洞察(支持营销):离线数据存储及处理(HBase、ES)。

④实时用户画像及推荐:实时数据处理(Storm、Spark)、数据存储(Redis、MongoDB)。

⑤实时反欺诈:数据接口(API)、数据分发(MQ)、实时数据处理(Storm)。

此外,风险管理领域的应用场景包括实时反欺诈、反洗钱,实时风险识别、在线授信等;渠道领域的场景包括全渠道实

时监测、资源动态优化配置等;用户管理和服务领域的场景包括在线和柜面服务优化、客户流失预警及挽留、个性化推

荐、个性化定价等;营销领域的场景包括(基于互联网用户行为的)事件式营销、差异化广告投放与推广等。

10.并行数据挖掘能力与R语言支持

目前江苏银行已经采购SAS数据挖掘工具,在风险管控、市场营销、产品定价等领域开展了一系列的模型开发和策略

设计等业务应用,随着Hadoop大数据平台的引入,江苏银行开始积极探索基于并行数据处理技术下R语言运用,R语言

可以直接访问Hadoop数据,为全表、全字段立体式的数据挖掘提供了坚实的技术保障。利用R语言的机器学习算法,如

深度学习算法可以快速从风险、市场营销、差别化服务等角度对客户进行细分。Hadoop平台通常只支持单机版R,在选

型时,江苏银行重点考虑了R算法的支持度问题,要求所选Hadoop平台对R算法支持超过70种以上。

11.非结构化数据处理能力

当前国内各银行已建有数据仓库或数据集市平台,大数据平台的引入往往独立于数据仓库,对于某些场景,将结构化

数据与非结构化数据整体应用具有更好的分析效果。大数据平台和传统数据仓库应如何有效整合?

首先需明确“结构化”和“非结构化”数据概念。狭义的理解,结构化数据指关系型数据,其余都是非结构化数据。

广义的理解,结构化数据是相对于某一个程序来讲的,如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说

就是非结构化的。

基于上述理解,江苏银行认为,无论是语音、影像还是其他“狭义”的非结构化数据,只要和银行的经营管理、业务

发展有关,就可以作为大数据应用的一个数据源,技术上借助特定工具对其进行处理即可使用,如通常HTML网页被认为

是非结构化数据,因为难以从中提取结构化字段,如电商网页上的商品名称、产品价格等,但借助网页抓取工具,可将上

述页面信息转化为结构化字段,那么后续按照结构化数据处理即可。语音、影像也是一样,关键是我们期望从中提取什么

信息,用什么工具提取,一旦提取成功,即可整合到大数据应用中。

在实践中,江苏银行大数据平台已实现网页、文本、JSON、XML等非结构化数据整合以及部分图像和语音数据的整

合,并应用到了业务分析中。

产品化Hadoop独立于开源框架,却不能完全脱离开源框架,对开源框架的兼容和支持,有助于提升平台的开放性,

过于独立的产品不利于在市场上寻找更多的合作伙伴。

江苏银行大数据应用从起步到取得多项成果效,经历了9个多月的时间,其中平台选型和技术调研花费了近半年时

间。然而磨刀不误砍柴工,找对技术方向,后续的整合数据、建立模型、应用开发就成了水到渠成的事情。

星环科技是目前国内极少数掌握大数据核心技术的高科技公司,专注于企业级大数据核心平台数据库软件的研发

与服务。公司产品Transwarp Data Hub (TDH)以其业界最完整的SQL on Hadoop支持; 独特的对分布式ACID数据一

致性支持;以及对SSD优化提高集群性价比等特点,比肩硅谷同行。产品的功能和性能在业界处于领先水平。在全球

去IOE的大背景下,TDH已成为在数据仓库,数据集市等领域替代传统数据库公认的大数据产品。

21

Page 24: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

大数据技术在江苏邮储银行的创新应用

邮储银行江苏省分行现有数据下载平台系统共包含超过1200张数据表,内容涵盖储蓄、汇兑、理财、个人信贷及

对公业务等邮储银行各项主营业务。近五年来共支持完成十多项主题案例分析以及大量日常(临时与例行)数据提取,为

经营管理、业务营销及风险防控等工作提供了强有力的数据信息支持。

然而近年来随着省内数据下载平台数据范围的不断扩展以及日常加载数据量的不断积累,一些问题逐渐积累并显现

出来,其中以下面几个问题尤为突出:

首先是存储空间紧张,目前下载平台共约1200张数据表,占据约12T存储空间,并且以每日增加约10G的速度

快速增长。经过多次清理,磁盘使用率仍然接近警戒线,经常需要不定期突击清理,以避免影响源业务数据的正常

加载。

其次是数据质量参差不齐,在数据信息服务过程中常常出现表间字段异常匹配、数据字典缺乏等问题。

最后是由于生产系统数据表结构限制,对于大部分数据表无法保留并追溯其历史变动,无法获取特定时点的状态,

导致需要经常向总行申请数据或者在月初时点手动备份数据,严重影响数据信息服务效率。

前述三项问题目前较为严重,已经影响到数据下载平台的日常运行维护,并给数据分析团队的日常工作带来了较大

压力,是目前亟待解决的主要问题。

同时,当前省级机构建立数据中心的必要性也是一直都被考虑的问题。以往的模式不便于数据的加工处理,数据统

一集中管理与自主掌握数据能使机构具有更高的主动性。而在时代和数据不断变化的前提下,自主掌握数据仓库也能极大

提高平台与机构对数据的适应力。

自建数据中心,可以做到更加快速的响应,更好的解决地市的数据需求。地市及以下机构的科技力量薄弱,无法完

全依赖总行,需要省行据有一定的“开发能力”以支撑地市分行、支行的业务发展。

由此背景,希望建成以省分行数据集市为核心,具备数据存储、数据处理、信息加工、信息发布和数据安全管理等

功能的企业级数据分析平台。并且以历史数据集中管理平台项目(数据下载系统部分)项目建设为切入点,缓解目前下

载平台数据存储压力,建立数据分层管理,强化数据质量管理,着重解决存储空间紧张、数据质量参差不齐、数据表无

法追溯历史变动、提高数据安全等近期亟待解决的几项主要问题,同时也解决档案管理系统、云盘系统的数据存储问题。

在平台建设上,历史数据集中管理平台,通过统一的数据控制和管理平面,面向上层应用提供数据存储和查询接

口,提供标准的SQL接口并保证分布式事务处理一致性,业务操作人员也可以通过RStudio工具直接连接到历史数据

集中管理平台进行分析挖掘 ,同时通过分布式ETL工具从下载平台和其他系统完成数据采集,并根据数据存储和分析

要求,选择HDFS、TDH Hyperbase进行数据存储 。

与传统数据仓库相比,一般Hadoop大数据平台更适合从价值密度低的数据中挖掘金子,更适合作为数据仓库和

OLAP分析体系最基础的平台构建。但是,TDH Inceptor基于Hadoop平台通过对于SQL 2003以及PL/SQL的高度支

持以及内置高性能的内存计算引擎,并能够支持分布式事务处理保证CRUD操作的ACID特性,是新一代数据仓库的

代表产品。

尤其是这个应用场景中,增量的从总行同步数据,要求大数据系统能够支持分布式事务处理保证CRUD操作的ACID

特性,来做到增量同步,保证数据一致性,这个技术能力至关重要。

而大数据技术平台的应用优势具体可体现在四大方面。

首先是扩展性上,平台可无缝扩展,支持不停机扩容,满足企业不同时期数据增长对数据平台的应用需求,这种扩

展对上层应用完全透明。

将数据仓库中处理数据抽取到Holodesk分布式内存列式存储中,提供秒级上亿数据的交互式探索。相比较于,传统的数

据集市,可以提供不确定模型的即席秒级分析,业务人员通过报表工具随意拖拽业务维度,后台秒级完成计算,交互式

进行数据探索。

同时,Discover中提供统计类和机器学习类函数和算法,并与R语言良好结合,提供各类算法的R语言接口,完成各

类数据的挖掘探索。对于各类全量数据的挖掘分析计算,当通过R提交统计分析算法时,系统自动转换成分布式任务并执

行。

这三方面的改变使得平台对操作员来说更容易掌握与运维。

22

其次是多样性,除了结构化数据外,Hadoop还能够对非结构化数据进行处理和分析,例如weblog、syslog、音

视频等 ,Hadoop对数据类型不敏感,为了海量数据的分析应用所专门设计 。

完整性方面,Hadoop可以存储完整的原始详单,提供高并发低延时检索查询,同时可以在TDH Discover中进行分

析挖掘以及在Inceptor中进行数仓类应用,并能结合分布式内存列式存储进行交互式分析,能够挖掘更多有价值的信

息,回溯分析、趋势预测 。此外,Hadoop提供了完整的数据库导入导出和各类ETL工具。

最后则是高性能,Hadoop被百度、Google、阿里等互联网公司广泛应用,主要在于基于Hadoop提供了一个整合

的数据平台,使得计算更靠近存储,同时所有的任务都可以并行执行,并结合Inceptor分布式内存计算引擎,大大提升

数据分析挖掘的性能。

平台分层的架构设计如下图所示。

相比以往的数据平台,有三方面的改变。首先是各类数据库导入,包括通过ETL、数据采集工具等进行批量导入,导

入过程中结构化数据、非结构化数据、流水数据直接存储到HDFS中,在Hadoop平台中利用其高性能计算,进行数据清

洗转换整合,变传统的ETL为ELT。

主要的数据来源为从邮储总行增量的同步数据,在数据校验后,将总行同步数据,通过Inceptor中对于分布式事务

处理的支持保证新老数据批量合并过程中的数据一致性。在MERGE INTO、INSERT、UPDATE等CRUD语法对于数据可能

同时多样的操作中,必须保证整个事务操作的ACID特性(原子性、一致性、隔离性以及持久性)来保证整个数据仓库中

的数据最终一致性。如果不具备分布式事务处理特性,就无法上线数据仓库业务,所以目前开源Hadoop产品无法有效

应用于真正数据仓库领域。在处理规整后的数据,可方便的通过SQL Bulkload批量加载到Hyperbase中,同时建立

索引,提供检索查询;也可以通过各类业务逻辑进行进一步数据处理与汇总。

其次,基于Inceptor计算框架,对于Hyperbase的中数据,支持建立二级索引,通过SQL提供高并发低延时的检索

查询;对于Inceptor数据仓库中事务表进行数据整合汇总,同时可以将汇总数据供数给数据集市;通过简单的SQL语句

Page 25: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

自建数据中心,可以做到更加快速的响应,更好的解决地市的数据需求。地市及以下机构的科技力量薄弱,无法完

全依赖总行,需要省行据有一定的“开发能力”以支撑地市分行、支行的业务发展。

由此背景,希望建成以省分行数据集市为核心,具备数据存储、数据处理、信息加工、信息发布和数据安全管理等

功能的企业级数据分析平台。并且以历史数据集中管理平台项目(数据下载系统部分)项目建设为切入点,缓解目前下

载平台数据存储压力,建立数据分层管理,强化数据质量管理,着重解决存储空间紧张、数据质量参差不齐、数据表无

法追溯历史变动、提高数据安全等近期亟待解决的几项主要问题,同时也解决档案管理系统、云盘系统的数据存储问题。

在平台建设上,历史数据集中管理平台,通过统一的数据控制和管理平面,面向上层应用提供数据存储和查询接

口,提供标准的SQL接口并保证分布式事务处理一致性,业务操作人员也可以通过RStudio工具直接连接到历史数据

集中管理平台进行分析挖掘 ,同时通过分布式ETL工具从下载平台和其他系统完成数据采集,并根据数据存储和分析

要求,选择HDFS、TDH Hyperbase进行数据存储 。

与传统数据仓库相比,一般Hadoop大数据平台更适合从价值密度低的数据中挖掘金子,更适合作为数据仓库和

OLAP分析体系最基础的平台构建。但是,TDH Inceptor基于Hadoop平台通过对于SQL 2003以及PL/SQL的高度支

持以及内置高性能的内存计算引擎,并能够支持分布式事务处理保证CRUD操作的ACID特性,是新一代数据仓库的

代表产品。

尤其是这个应用场景中,增量的从总行同步数据,要求大数据系统能够支持分布式事务处理保证CRUD操作的ACID

特性,来做到增量同步,保证数据一致性,这个技术能力至关重要。

而大数据技术平台的应用优势具体可体现在四大方面。

首先是扩展性上,平台可无缝扩展,支持不停机扩容,满足企业不同时期数据增长对数据平台的应用需求,这种扩

展对上层应用完全透明。

将数据仓库中处理数据抽取到Holodesk分布式内存列式存储中,提供秒级上亿数据的交互式探索。相比较于,传统的数

据集市,可以提供不确定模型的即席秒级分析,业务人员通过报表工具随意拖拽业务维度,后台秒级完成计算,交互式

进行数据探索。

同时,Discover中提供统计类和机器学习类函数和算法,并与R语言良好结合,提供各类算法的R语言接口,完成各

类数据的挖掘探索。对于各类全量数据的挖掘分析计算,当通过R提交统计分析算法时,系统自动转换成分布式任务并执

行。

这三方面的改变使得平台对操作员来说更容易掌握与运维。

23

其次是多样性,除了结构化数据外,Hadoop还能够对非结构化数据进行处理和分析,例如weblog、syslog、音

视频等 ,Hadoop对数据类型不敏感,为了海量数据的分析应用所专门设计 。

完整性方面,Hadoop可以存储完整的原始详单,提供高并发低延时检索查询,同时可以在TDH Discover中进行分

析挖掘以及在Inceptor中进行数仓类应用,并能结合分布式内存列式存储进行交互式分析,能够挖掘更多有价值的信

息,回溯分析、趋势预测 。此外,Hadoop提供了完整的数据库导入导出和各类ETL工具。

最后则是高性能,Hadoop被百度、Google、阿里等互联网公司广泛应用,主要在于基于Hadoop提供了一个整合

的数据平台,使得计算更靠近存储,同时所有的任务都可以并行执行,并结合Inceptor分布式内存计算引擎,大大提升

数据分析挖掘的性能。

平台分层的架构设计如下图所示。

相比以往的数据平台,有三方面的改变。首先是各类数据库导入,包括通过ETL、数据采集工具等进行批量导入,导

入过程中结构化数据、非结构化数据、流水数据直接存储到HDFS中,在Hadoop平台中利用其高性能计算,进行数据清

洗转换整合,变传统的ETL为ELT。

主要的数据来源为从邮储总行增量的同步数据,在数据校验后,将总行同步数据,通过Inceptor中对于分布式事务

处理的支持保证新老数据批量合并过程中的数据一致性。在MERGE INTO、INSERT、UPDATE等CRUD语法对于数据可能

同时多样的操作中,必须保证整个事务操作的ACID特性(原子性、一致性、隔离性以及持久性)来保证整个数据仓库中

的数据最终一致性。如果不具备分布式事务处理特性,就无法上线数据仓库业务,所以目前开源Hadoop产品无法有效

应用于真正数据仓库领域。在处理规整后的数据,可方便的通过SQL Bulkload批量加载到Hyperbase中,同时建立

索引,提供检索查询;也可以通过各类业务逻辑进行进一步数据处理与汇总。

其次,基于Inceptor计算框架,对于Hyperbase的中数据,支持建立二级索引,通过SQL提供高并发低延时的检索

查询;对于Inceptor数据仓库中事务表进行数据整合汇总,同时可以将汇总数据供数给数据集市;通过简单的SQL语句

Page 26: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

数据仓库

 

数据集市

基础指标

DWD 轻度汇总层

DWA 明细层

派生指标

KPI指标

管理驾驶舱(实时报表等)历史查询

数据总线

统一展现平台

ODS 贴源层

ETL

邮储总行数据 储蓄 个贷 对公 客管

外部渠道 客服系统 中间业务 其他 ĊĊ

挖掘分析(客户画像等)

基础数据存储(HDFS)汇集各类数据,集中统一存储

明细数据管理(Inceptor 、Hyperbase)

数据质量管理与校验、处理规整数据数据开放提取、提供历史明细查询

主题数据轻度汇总(Inceptor with Transaction)

新老数据合并(分布式事务支持 MERGE)主题业务逻辑处理

数据集市(Inceptor with Holodesk)KPI指标数据、自助报表分析

固话报表分析应用

数据挖掘(Discover)

、 、指标趋势分析 客户画像 关联分析深度学习等

本期平台按照200TB的整体容量进行规划,考虑数据存储三个副本,在线数据采用Snappy压缩,近线数据采用

Erasure code进行压缩,数仓从ODS到DWA的收敛比为20%,DWA到DWD的收敛比为10%,这里考虑原始数据在ODS

层尽可能存储较长的时间,并且预留30%的数据膨胀空间 。预期在未来五年达到54T的增量。

平台的建成将消除各源业务系统的信息孤岛,有效减少数据冗余,保证数据的准确性与唯一性,并能够实现安全的

数据资源共享,为各业务部门和各地市分行提供高效、立体、及时的数据信息支持。。

24

Page 27: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

大数据助力平安银行数据仓库全面升级 去年九月,银监会发布了39号文,中心思想要求银行信息技术“安全可控”。它要求2015年起,各银行业金融机构对

安全可控信息技术的应用以不低于15%的比例逐年增加,直至2019年达到不低于75%的总体占比。虽然没有明确指出,但

是“安全可控”的要求显然对国产IT产品更有利。事实上,39号文提出的指导方向,包括“优先选择愿意在核心知识和关

键技术领域进行合作的机构,避免对单一产品或技术的依赖,”“有序推进整体架构自主设计、核心应用自主研发、核心

知识自主掌握、关键技术自主应用”也证实了银监会的态度——鼓励银行使用国产技术,国外厂商要在银行有一席之地则

必须要愿意分享核心技术。

现阶段,我国银行的IT系统高度依赖“IOE”(以IBM为代表的小型机,以Oracle为代表的数据库软件、以EMC为代表的

高端存储)等国外厂商。39号文的发布让大家认为银行业的信息技术立刻就要掀起国产化的大浪,但是今年四月,银监会

宣布了暂缓39号文新规的决定。这个决定并不出乎意料。首先,国外IT厂商不会对39号文新规无动于衷。事实上,包括美

国商会在内的多个国外商业团体向我国政府提出了抗议,声称新规违反了WTO承诺,干涉了商业机构的采购活动。然

而,对39号文新规的阻力还来自于我国银行业本身。众所周知,银行业对IT系统的可靠性和稳定性要求极高,系统故

障常常意味着直接的金钱损失。所以,银行对IT产品的故障抱着“零容忍”的态度。我国的信息技术因为起步晚,确

实和国外还存在着差距,尤其在操作系统和数据库这样的基础软件领域。同时,我国的银行业正在高速发展,不断地推出新

产品新服务,还要应对互联网金融等各种变化,更需要稳定可靠的IT系统作为业务的保障。银行愿意使用经过长期验证的

“IOE”配备情有可原。在政策上要求银行冒业务风险选用在先进性、可靠性、稳定性以及成熟度方面还和国外有差距的自

主产品是不现实的,选用什么样的产品还需要银行依据业务情况自己来决定。

如此看来,我国的IT厂商似乎短期内无法得到银行业的青睐。然而,大数据时代的到来改变了这一格局。随着网上银

行、手机银行的发展和银行新业务、新产品、新用户的增多,银行的数据量出现了爆发。数据分析的规模和复杂度都超过

了传统数据库的处理能力,本应该提供坚实后盾的“IOE”配备在海量数据面前渐渐显得力不从心。一天一次的常规“跑

批”(批量数据计算)正在花费越来越多的时间,面临着无法在当天完成的可能。为了解决这样的问题,银行需要对数据

处理系统进行升级。以“IOE”为代表的架构采用纵向扩展(提升单机性能)的策略来升级,单机性能不可能无限提高,这

样的策略有着显而易见的瓶颈。而银行的数据量每天都在增长,对系统不断的升级是必然的。可以预见的是,在高性能

端,数据处理系统的升级将越来越困难,同等资金换来的性能将越来越少。在这样的情形下,银行需要采用完全不同的

数据处理技术。近年来得到长足发展的大数据技术就是为了体量巨大且不断增长的数据而生的,而大数据技术就是国内IT

厂商的机会。计算机技术发展时,我国远远落在国外之后,这个差距在互联网发展时已经得到了大大缩短。今天,在大数

据时代的开端,我国已经有了不输国外的经济土壤、政策环境和人才储备,国外的技术不再有不可望其项背的优势。事实

上,我国已经有了性能比肩甚至超越硅谷同行的大数据产品。

日前,平安银行便面临着将数据仓库业务从传统数据库迁移到大数据平台的任务。在大数据平台的选择上,平安银行

进行了多方考量。平安银行的首要目标是解决现有数据库处理能力不足的问题。所以,采购的大数据平台必须有极强的数

据处理能力,它需要能够轻松应对涉及超宽表(宽度在几万字节)、多张表(多达几十张)的关联和聚合,需要能够快

速地完成银行每天TB级别数据量的分析。第二,平安银行原先使用Oracle数据库,所以业务逻辑由SQL和Oracle的过程语

言PL/SQL写就,这也是银行的分析人员最熟悉的数据分析语言。所以,大数据平台需要提供SQL和PL/SQL的支持,以便银

行将分析业务直接迁移到新的平台运行,否则,银行将需要对业务进行大量改写,银行员工也需要重新学习和适应,迁移

成本过高。第三,大数据平台需要良好的扩展性。银行的数据还在快速增长中,可预见的是,银行需要对数据处理系统进

行进一步的扩容和处理能力的升级。银行要求采购的大数据平台的存储和计算能力能够方便地扩展,为未来更大的数据量

做好准备。平安银行对市场上常见的大数据数据仓库产品的可用性、架构优势和平台依赖性三个方面就银行的数据仓库场

景——数据量在TB级别的分析场景——进行了调研。可用性的内容包括对SQL和PL/SQL的支持以及是否有界面化的运维工

具。架构优势的内容包括产品的扩展性、性能和容错性。平台依赖性描述该产品是否必须在特殊的硬件设备上运行。

调研中,平安银行发现,主流大数据数据仓库各有其优势和劣势,不依赖平台(可以部署在通用商业服务器上)的产

品可用性和架构优势往往较低。而可用性高而架构优势明显的产品往往对平台依赖较高,必须使用自有的小型机或者一体

机,直接导致硬件成本高昂。经过多方调研和全面测试,平安银行选择了具有综合优势的Transwarp Inceptor,它是上海

星环科技开发的Transwarp Data Hub(TDH)分布式一站式大数据处理平台下的交互式内存分析引擎,具有高可用性和明

显的架构优势,同时不依赖特殊平台,可以直接部署在商用服务器上。产品虽然年轻,但是在交通、物流、电信、能源等

行业已经有很多落地案例,经过了大量的验证,加上在测试中稳定而出色的表现,打消了该银行对国产IT产品可靠性、稳定

性方面的担忧。

25

Page 28: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

去年九月,银监会发布了39号文,中心思想要求银行信息技术“安全可控”。它要求2015年起,各银行业金融机构对

安全可控信息技术的应用以不低于15%的比例逐年增加,直至2019年达到不低于75%的总体占比。虽然没有明确指出,但

是“安全可控”的要求显然对国产IT产品更有利。事实上,39号文提出的指导方向,包括“优先选择愿意在核心知识和关

键技术领域进行合作的机构,避免对单一产品或技术的依赖,”“有序推进整体架构自主设计、核心应用自主研发、核心

知识自主掌握、关键技术自主应用”也证实了银监会的态度——鼓励银行使用国产技术,国外厂商要在银行有一席之地则

必须要愿意分享核心技术。

现阶段,我国银行的IT系统高度依赖“IOE”(以IBM为代表的小型机,以Oracle为代表的数据库软件、以EMC为代表的

高端存储)等国外厂商。39号文的发布让大家认为银行业的信息技术立刻就要掀起国产化的大浪,但是今年四月,银监会

宣布了暂缓39号文新规的决定。这个决定并不出乎意料。首先,国外IT厂商不会对39号文新规无动于衷。事实上,包括美

国商会在内的多个国外商业团体向我国政府提出了抗议,声称新规违反了WTO承诺,干涉了商业机构的采购活动。然

而,对39号文新规的阻力还来自于我国银行业本身。众所周知,银行业对IT系统的可靠性和稳定性要求极高,系统故

障常常意味着直接的金钱损失。所以,银行对IT产品的故障抱着“零容忍”的态度。我国的信息技术因为起步晚,确

实和国外还存在着差距,尤其在操作系统和数据库这样的基础软件领域。同时,我国的银行业正在高速发展,不断地推出新

产品新服务,还要应对互联网金融等各种变化,更需要稳定可靠的IT系统作为业务的保障。银行愿意使用经过长期验证的

“IOE”配备情有可原。在政策上要求银行冒业务风险选用在先进性、可靠性、稳定性以及成熟度方面还和国外有差距的自

主产品是不现实的,选用什么样的产品还需要银行依据业务情况自己来决定。

如此看来,我国的IT厂商似乎短期内无法得到银行业的青睐。然而,大数据时代的到来改变了这一格局。随着网上银

行、手机银行的发展和银行新业务、新产品、新用户的增多,银行的数据量出现了爆发。数据分析的规模和复杂度都超过

了传统数据库的处理能力,本应该提供坚实后盾的“IOE”配备在海量数据面前渐渐显得力不从心。一天一次的常规“跑

批”(批量数据计算)正在花费越来越多的时间,面临着无法在当天完成的可能。为了解决这样的问题,银行需要对数据

处理系统进行升级。以“IOE”为代表的架构采用纵向扩展(提升单机性能)的策略来升级,单机性能不可能无限提高,这

样的策略有着显而易见的瓶颈。而银行的数据量每天都在增长,对系统不断的升级是必然的。可以预见的是,在高性能

端,数据处理系统的升级将越来越困难,同等资金换来的性能将越来越少。在这样的情形下,银行需要采用完全不同的

数据处理技术。近年来得到长足发展的大数据技术就是为了体量巨大且不断增长的数据而生的,而大数据技术就是国内IT

厂商的机会。计算机技术发展时,我国远远落在国外之后,这个差距在互联网发展时已经得到了大大缩短。今天,在大数

据时代的开端,我国已经有了不输国外的经济土壤、政策环境和人才储备,国外的技术不再有不可望其项背的优势。事实

上,我国已经有了性能比肩甚至超越硅谷同行的大数据产品。

日前,平安银行便面临着将数据仓库业务从传统数据库迁移到大数据平台的任务。在大数据平台的选择上,平安银行

进行了多方考量。平安银行的首要目标是解决现有数据库处理能力不足的问题。所以,采购的大数据平台必须有极强的数

据处理能力,它需要能够轻松应对涉及超宽表(宽度在几万字节)、多张表(多达几十张)的关联和聚合,需要能够快

速地完成银行每天TB级别数据量的分析。第二,平安银行原先使用Oracle数据库,所以业务逻辑由SQL和Oracle的过程语

言PL/SQL写就,这也是银行的分析人员最熟悉的数据分析语言。所以,大数据平台需要提供SQL和PL/SQL的支持,以便银

行将分析业务直接迁移到新的平台运行,否则,银行将需要对业务进行大量改写,银行员工也需要重新学习和适应,迁移

成本过高。第三,大数据平台需要良好的扩展性。银行的数据还在快速增长中,可预见的是,银行需要对数据处理系统进

行进一步的扩容和处理能力的升级。银行要求采购的大数据平台的存储和计算能力能够方便地扩展,为未来更大的数据量

做好准备。平安银行对市场上常见的大数据数据仓库产品的可用性、架构优势和平台依赖性三个方面就银行的数据仓库场

景——数据量在TB级别的分析场景——进行了调研。可用性的内容包括对SQL和PL/SQL的支持以及是否有界面化的运维工

具。架构优势的内容包括产品的扩展性、性能和容错性。平台依赖性描述该产品是否必须在特殊的硬件设备上运行。

调研中,平安银行发现,主流大数据数据仓库各有其优势和劣势,不依赖平台(可以部署在通用商业服务器上)的产

品可用性和架构优势往往较低。而可用性高而架构优势明显的产品往往对平台依赖较高,必须使用自有的小型机或者一体

机,直接导致硬件成本高昂。经过多方调研和全面测试,平安银行选择了具有综合优势的Transwarp Inceptor,它是上海

星环科技开发的Transwarp Data Hub(TDH)分布式一站式大数据处理平台下的交互式内存分析引擎,具有高可用性和明

显的架构优势,同时不依赖特殊平台,可以直接部署在商用服务器上。产品虽然年轻,但是在交通、物流、电信、能源等

行业已经有很多落地案例,经过了大量的验证,加上在测试中稳定而出色的表现,打消了该银行对国产IT产品可靠性、稳定

性方面的担忧。

星环科技为平安银行提供的解决方案如下图所示:

Transwarp Data Hub

准实时采集 <5分钟 深度挖掘

深度汇总

定期ELT每天/每小时/每10分钟

数据汇总/粗加工

现有关系数据库

前台展现库

系统日志

网银日志

Oracle

Oozie

SAS 数据实验室内存/SSD缓存HolodeskRStudio

Azkaban

PL/SQLPL/SQL

DB2 Cognos

Tableau

OBIEEOracle

定制程序

MySQL

DB2

账单文件

Flume

FTP

Sqoop

Pentaho

使用TDH下的交互式SQL分析引擎Transwarp Inceptor支持平安银行的数据仓库业务。Transwarp Inceptor全面支

L2003,且支持80%PL/SQL语法,经测试,Transwarp Inceptor 100%支持平安银行数据仓库业务,银行的数据分析任务不

需要经过改写便可轻松迁移至TDH平台。

Transwarp Inceptor采用分布式内存计算方式,将涉及海量数据的复杂任务分割成小任务交给多台机器同时处理,加

快计算速度。同时,Transwarp Inceptor将计算中间结果放在内存中,利用内存的高速随机读写进一步提升计算速度。

TDH平台处理银行的数据仓库业务相对于平安银行原系统速度有了十几倍的提高,使平安银行可以轻松完成每天的分析

任务。

不同于传统数据库的纵向扩展策略,TDH采用向计算集群添加服务器的方式来横向扩展处理能力,这样的策略保证

投入和处理能力的提升是线性关系——多少投入就带来多少提升。横向扩展的策略让TDH的扩展性极佳,可以无限提升存

储和计算能力。

锦上添花的是TDH计算集群无须超高性能的服务器,经济的通用服务器便可以用于搭建TDH集群,使得TDH解决方

案具有极高的性价比。而且TDH配备的JDBC接口完美对接上层报表系统,平安银行的数据分析人员只需按照以往的工

作习惯继续使用上层应用,无需重新适应新的系统。下面是一张贷款销售分析截图:

26

Page 29: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

平安银行在业务中对一家国内厂商产品的选择无疑是对国产信息技术的鼓励,更值得一提的是这个选择并不是政策要

求的,而是基于业务的需求和产品的先进性做出的。几年前,国产的个人IT产品还仅仅是“廉价低质量”的代名词。现

在,联想、小米、华为等品牌不仅被国人青睐,还在世界范围内广受欢迎。这些品牌的成功不在于政策的扶持,而是真

正做出了客户需要的产品。在企业级的IT产品上,国产厂商和国外厂商虽然还有一定差距,但是在技术不断革新的今

天,这个差距在不断缩短。相信我国会有越来越多的企业级IT厂商做出客户需要的优秀产品,跻身世界一流的行列。

名单总量131广东省 佛山市

广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市

广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 佛山市广东省 潮州市

131 21 93 16 110

15 13 0 10 0 1313 13 0 70 23 5621 0 19 0 2110 10

100 8 0 10

38 38 1 34 1 3741 41 0 37 0 4124 24 0 23 0 2457 57 0 52 0 5716 16 0 9 0 1654 54 23 43 18 31116 116 1 89 1 11520 20 0 14 0 2050 50 50 37 37 09 9 0 5 0 93 3 0 3 0 36 6 6 4 4 0

60 60 0 45 0 606 76 28 76 28 48

123 123 0 106 0 123

首播名单量所属省份 城市 拨打完成名单量 接触名单量 拨打完成接触名单量 剩余跟踪名单量

销售日报

27

Page 30: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

恒丰银行打造基于hadoop大数据的数据仓库平台

28

Page 31: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

29

Page 32: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

中泰证券大数据创新应用 中泰证券是经中国证监会批准设立的大型综合类创新试点证券公司,集证券、基金、期货、直投为一体的综合性证券

控股集团。多年来,公司积极致力于为广大投资者提供证券代理买卖、投资咨询、财务顾问、证券发行与承销、收购兼

并、资产重组、资产管理、融资融券、证券投资基金代销、股指期货中间介绍、向保险机构投资者提供综合服务等全方位

的专业化证券投、融资服务。

凭借良好的专业能力和业绩表现,中泰证券得到了社会各界的广泛认可。2007年以来,公司多次被山东省政府

授予“山东省金融创新奖”、“山东省金融发展贡献奖”;公司先后荣获“金钥匙奖”、“中国最具成长性证券经纪

商”、“中国最佳证券经纪商”、“最具成长性投行”、“最佳套利服务券商”、“最具创新力证券公司”、“优秀

保荐机构”、“金牛投行进步奖”等称号;在2011年中国证监会证券行业分类评价中,公司成为16家A类AA级券商

之一。

而近年来,随着业务的发展与规模的扩张,中泰证券数据呈指数级增长,各类IT系统数据量已经达到20多TB的规

模。每日还有大量新增的日志数据、交易数据需要存储和处理。中泰证券的IT系统也面临着一些问题的困扰。

首先是数据存储量庞大。现有系统存储了5年的数据,总共20多TB,日志数据超过一半,使用分区存储方式,历

史数据采用离线存储方式,存储资源紧缺,存储扩展花费非常高。

其次是现有系统计算负载高、延迟长。现有系统在运行中跨历史范围查询延迟长,一次计算的数据量大,计算和

存储资源都存在瓶颈;大范围查询时,对生产业务影响较大,例如:持仓分析、对账流水情况、区间查询等应用,严

重影响日常业务的正常运行。

同时,历史数据服务请求带来额外工作负担。历史数据查询时需要额外将离线的历史数据导入,再等到系统资源

空闲时进行查询,不仅效率低,而且工作负担繁重,也极易出错。

最后,现有系统的资源已经严重紧缺,CPU负载高、存储空间不足,已经影响到业务的正常发展。

由此背景,本着不断发展、不断进步的原则,中泰证券力求解决现有IT系统的这四大问题,并据此做了一些解决

方案的调研。希望能够建设具有高效数据处理能力,同时兼具性价比的新平台。

调研结果发现,在解决分布式存储、计算问题上,Hadoop技术近年来得到了广泛的应用。Hadoop是一个由Apache

基金会所开发的分布式系统基础架构。它是针对大规模分布式数据而开发的软件框架,目前已经成为企业管理大数据的基

础支撑技术,是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。

现在物联网、多媒体、移动互联时代,Hadoop最适合用于解决由于数据爆发式增长所带来的传统架构下存储和计算

瓶颈的问题。

Hadoop技术发展迅速,同时也有众多国内、外厂商为企业客户提供了的成熟度一站式的大数据平台产品,个别技术

领先的厂商也已经将Hadoop平台用于了金融客户的数据仓库系统,经调研,恒丰银行、民生银行、平安银行等金融机

构,就已经在用Hadoop技术解决现有数据仓库存储、计算、分析等问题。

从行业内成功经验及案例来看,Hadoop平台已成为现有数据仓库平台的必要补充,主要体现在以下五个方面。

首先是数据类型支持,Hadoop平台扩展了企业数据平台对数据处理类型的支持。传统的数据仓库仅仅能够处理结构

化数据,而对半结构化、非结构化数据的处理,只能依赖于Hadoop平台,例如:来自新闻的个股/主题新闻聚合、智能研

报,情感指数,热度统计、事件研究、主题跟踪和发现等等。

其次是数据处理能力方面,Hadoop平台使得企业数据处理平台的处理能力变得更强大,它能够处理从中小数据量到

大数据量的数据。能够作为传统数据仓库之前的数据统一存储和计算平台,将大规模的数据先进行清洗、计算、建模、汇

总等,并将最终的精细化数据传递给数据仓库。例如恒丰银行就已经将数据仓库中复杂的、高负载的拉链表程序迁移至

30

Hadoop平台。

同时,在业务应用的支持方面,相比于传统的数据仓库平台,大数据平台可以完成更多的体现企业特质的有价

值的应用,例如:通过数据挖掘、机器学习算法和模型,结合相关数据,完成财经新闻搜索、新闻类型分析、新闻聚

Page 33: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

凭借良好的专业能力和业绩表现,中泰证券得到了社会各界的广泛认可。2007年以来,公司多次被山东省政府

授予“山东省金融创新奖”、“山东省金融发展贡献奖”;公司先后荣获“金钥匙奖”、“中国最具成长性证券经纪

商”、“中国最佳证券经纪商”、“最具成长性投行”、“最佳套利服务券商”、“最具创新力证券公司”、“优秀

保荐机构”、“金牛投行进步奖”等称号;在2011年中国证监会证券行业分类评价中,公司成为16家A类AA级券商

之一。

而近年来,随着业务的发展与规模的扩张,中泰证券数据呈指数级增长,各类IT系统数据量已经达到20多TB的规

模。每日还有大量新增的日志数据、交易数据需要存储和处理。中泰证券的IT系统也面临着一些问题的困扰。

首先是数据存储量庞大。现有系统存储了5年的数据,总共20多TB,日志数据超过一半,使用分区存储方式,历

史数据采用离线存储方式,存储资源紧缺,存储扩展花费非常高。

其次是现有系统计算负载高、延迟长。现有系统在运行中跨历史范围查询延迟长,一次计算的数据量大,计算和

存储资源都存在瓶颈;大范围查询时,对生产业务影响较大,例如:持仓分析、对账流水情况、区间查询等应用,严

重影响日常业务的正常运行。

同时,历史数据服务请求带来额外工作负担。历史数据查询时需要额外将离线的历史数据导入,再等到系统资源

空闲时进行查询,不仅效率低,而且工作负担繁重,也极易出错。

最后,现有系统的资源已经严重紧缺,CPU负载高、存储空间不足,已经影响到业务的正常发展。

由此背景,本着不断发展、不断进步的原则,中泰证券力求解决现有IT系统的这四大问题,并据此做了一些解决

方案的调研。希望能够建设具有高效数据处理能力,同时兼具性价比的新平台。

调研结果发现,在解决分布式存储、计算问题上,Hadoop技术近年来得到了广泛的应用。Hadoop是一个由Apache

基金会所开发的分布式系统基础架构。它是针对大规模分布式数据而开发的软件框架,目前已经成为企业管理大数据的基

础支撑技术,是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。

现在物联网、多媒体、移动互联时代,Hadoop最适合用于解决由于数据爆发式增长所带来的传统架构下存储和计算

瓶颈的问题。

Hadoop技术发展迅速,同时也有众多国内、外厂商为企业客户提供了的成熟度一站式的大数据平台产品,个别技术

领先的厂商也已经将Hadoop平台用于了金融客户的数据仓库系统,经调研,恒丰银行、民生银行、平安银行等金融机

构,就已经在用Hadoop技术解决现有数据仓库存储、计算、分析等问题。

从行业内成功经验及案例来看,Hadoop平台已成为现有数据仓库平台的必要补充,主要体现在以下五个方面。

首先是数据类型支持,Hadoop平台扩展了企业数据平台对数据处理类型的支持。传统的数据仓库仅仅能够处理结构

化数据,而对半结构化、非结构化数据的处理,只能依赖于Hadoop平台,例如:来自新闻的个股/主题新闻聚合、智能研

报,情感指数,热度统计、事件研究、主题跟踪和发现等等。

其次是数据处理能力方面,Hadoop平台使得企业数据处理平台的处理能力变得更强大,它能够处理从中小数据量到

大数据量的数据。能够作为传统数据仓库之前的数据统一存储和计算平台,将大规模的数据先进行清洗、计算、建模、汇

总等,并将最终的精细化数据传递给数据仓库。例如恒丰银行就已经将数据仓库中复杂的、高负载的拉链表程序迁移至

31

类、情感分析、知识图谱等等。

技术架构上,基于x86服务器集群的Hadoop平台,通过横向扩展的方式,线性扩展存储和计算资源,避免基于传统

IOE架构的下只能进行基于硬件资源的纵向扩展。从而避免计算资源的瓶颈和IO资源的瓶颈。

最后,仅花费40%左右价格,便可以达到甚至超越传统IOE架构的性能。在性价比方面也极具可行性。

经过对国、内外各个厂商的技术调研,中泰证券选取了星环科技的TDH(Transwarp Data Hub)大数据平台。星环科

技是目前国内极少数掌握企业级大数据基础软件技术的数据库厂商。在全球大数据去IOE的大背景下,Hadoop已成为公认

的传统数据库的替代品。星环产品Transwarp Data Hub ( TDH ) 功能比肩硅谷同行, 五大组件Hyperbase, Stream,

Inceptor,discovery,和TOS的性能和SQL兼容性在业界处于领先水平。

测试结果显示,针对海量数据的统计型业务需求,星环科技的产品TDH Inceptor能够提供快速的查询支持,查询时间

在秒级或分钟级,大大提高了查询效率。

针对海量数据的多维度查询业务需求,TDH Hyperbase能提供极快的查询支持,测试数据显示,查询结果基本在10s

以内,极大的提高相应业务场景的查询效率。而星环科技的TDH平台 能够提供很好的存储过程支持,以满足中泰证券的业

务需求。

经过对现有成熟Hadoop产品、技术,以及金融行业相关应用的调研,星环科技的TDH平台技术领先、性能优越、功

能全面、运行稳定,能够很好的解决现有平台存储、计算、分析等问题,同时能够满足中泰证券未来业务发展的需

要。利用星环大数据平台,将为打造中泰证券新一代数据平台,为上层应用提供更高效、可扩展的数据服务。利用

整体规划、分布实施的策略,依托星环大数据平台改造和提升现有数据仓库系统以及历史数据查询系统的性能和

稳定性,同时建设财经新闻搜索、新闻类型分析、新闻聚类、情感分析、知识图谱等基于大数据的分析、挖掘应

用,让数据真正发挥价值。

Hadoop平台。

同时,在业务应用的支持方面,相比于传统的数据仓库平台,大数据平台可以完成更多的体现企业特质的有价

值的应用,例如:通过数据挖掘、机器学习算法和模型,结合相关数据,完成财经新闻搜索、新闻类型分析、新闻聚

Page 34: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

大数据挖掘技术实现电力配网故障自动化和智能化研究背景

随着配电自动化和信息技术的发展,各地市调控中心EMS已涵盖了所有配网相关运行数据,包括故障信息。江苏电科

院通过不断探索和尝试,从EMS海量数据中可发现故障信息的特征——以事故跳闸记录为主线,搜索该断路器或其所在间

隔在跳闸发生前后一定时间范围内对应的遥信变位、保护、遥测、遥控、遥信SOE等辅助数据,根据遥测电流波动情况、

分合闸顺序以及保护关键字等信息可以初步判断出故障的性质和类别。此外,PMS中的工作票和操作票可甄别是否由于设

备试验或检修而导致误判,OMS中的调度操作票和厂站投运状态信息可对故障信息起到有效校核作用。

随着配网故障信息不断积累,这些数据结合线路过负荷、运行操作、检修试验、雷电、气象、重大活动和节假日等内

外部影响因素,通过运用分类、聚类、关联分析等技术进行深度挖掘和分析,可探寻出一些隐含的有价值的规律或现象,

最终可以为配网运行维护提供有效的指导。

系统架构

配网故障辅助分析系统自底向上可以分为三层,依次为数据采集子系统、智能分析子系统和综合展示子系统。数据采

集子系统依据一定的规则分别从PMS、OMS以及各地市EMS的数据库采集故障分析所需的原始数据。智能分析子系统负责

对原始数据进行预处理和二次利用,包含故障智能关联模块、线路故障智能分析模块和大数据挖掘与分析模块。综合展示子

系统将配网故障及辅助分析数据集成展示,为用户提供方便易用的图形界面,它包含地理视图展示模块、故障分析模块、

故障校核模块和报表导出等模块。

垃圾短信实时监测

地理视图展现模块 故障分析模块 故障校核模块 报表导出模块

智能分析电子系统

故障智能关联模块 线路故障智能分析模块 大数据挖掘与分析模块

数据采集子系统配网故障数据库

EMS数据库(城市1)

EMS数据库(城市2)

PMS数据库

PMS数据库

配网故障辅助分析系统架构

关键技术

数据采集与关联

系统使用PMS、OMS和各地市EMS等多个数据库的数据,需要将各地市EMS数据通过以事故分闸为索引的数据采集和

以遥信分位为主索引的数据采集2个过程抽取到配网故障数据库中,然后进行故障智能关联。关联的方法是以事故分闸记录

的四元组{地市名称,厂站名称,断路器调度编号,事故时间}为条件到PMS、OMS数据中进行匹配,如果前3个条件一致而

事故时间又在给定的时间窗口(大小为5min)内,即可建立关联关系。

断路器类型自动识别

根据断路器两侧终端设备类型的不同将断路器分为主变断路器、线路断路器、电容器断路器和母联/分段/旁路断路器

等多种类型,实现了断路器类型智能识别技术。在变电站一次接线图中对指定断路器两侧分别进行深度优先搜索,当遇到

刀闸、接地刀闸和断路器等连接型设备时跨过该设备并继续递归搜索,当遇到变压器、母线、负荷、线段端点、电容器等

32

Page 35: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

终端设备时结束递归并返回,最终根据断路器两侧设备类型确定断路器的类型。算法的实施为后续的故障自动化和智能化

分析奠定了坚实的基础。

线路故障智能分析和大数据挖掘分析

通过长期分析与统计发现了线路故障重合闸情况与原始数据的关联关系,开发实现了基于时序信息的线路故障智能判

断算法,通过智能预处理大大提高了专业人员后续处理的效率。此外还开展了主变和母联/分段/旁路类断路器故障智能分析

技术的研究。

通过将配网故障信息与线路过负荷、运行操作、检修试验、雷电、气象、重大活动和节假日等内外部因素结合起来,利用

K-means等聚类算法分析雷电、暴雨和飓风等灾害气象频发区域的故障情况,利用Apriori等关联分析算法分析故障与线路

过负荷程度、气象格点数据(含温湿度、风速、气压等)等因素的相关性,探寻出了一些隐含的有价值的规律或现象。

关键技术

配网故障辅助分析系统有效提高了配网故障分析处理的效率和准确率,这对全面了解配网运行情况和提高配网运营水

平有积极的促进作用。下一步,计划开发电容器/电抗器故障和变电站直流系统告警监测分析专题页面来丰富系统的功能,

研究主变、母线类故障研判算法来提高系统的自动化和智能化水平,并进一步运用大数据技术探寻故障深层次原因。

大数据平台技术

本项目采用了星环科技提供的基于Hadoop和Spark的分布式内存分析引擎平台TDH,完成了从原始数据到分布式文件

系统的采集存储,运用分类、聚类、关联分析等算法进行分析挖掘,智能调度各类分析任务,实现故障研判的自动化和智

能化。

作者介绍

陈锦铭(1985–)男 福建莆田人 工程师 从事大数据、智能配网应用研究工作;

朱卫平(1985–)男 江苏常熟人 工程师 从事配网及新能源接入分析技术研究工作;

郭雅娟(1975–)女 山西汾阳人 高级工程师(研究员级)从事电力信息管理工作;

李斌(1984–)男 湖南永州人 工程师 从事继电保护故障信息系统、电能质量技术研究工作;

张小易(1978–)男 河南许昌人 高级工程师 从事电力系统调度自动化、继电保护技术研究工作;

袁宇波(1975–)男 江苏丹阳人 高级工程师 从事电力系统继电保护及智能变电站技术研究工作

33

Page 36: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

对应的风险分数,为智能型反交易欺诈授权决策提供科学依据,对欺诈风险高的交易可以拒绝授权和展开调查。

银行业欺诈风险主要集中在注册、登录、借款、提现、支付、修改信息6个业务场景。如注册场景中的虚假注册、垃

圾注册;登录场景中的撞库登录、暴力破解等;借款场景中的多头借贷、信用恶化;提现和支付场景中的欺骗行为等。

4.实时风控技术框架

针对个人线上消费贷款的风控需求,反欺诈系统需具备稳定、快速、准确的的特点,以平衡业务拓展、客户体验和风

险控制三方的关系。通过引入反欺诈风险规则引擎,可以将不断变化的业务规则剥离出来,进行动态管理和多规则多重组

合,从而使系统变得更加灵活,适用范围更加广泛。在交易过程中,通过实时计算当前交易和历史交易特征的偏离值,如

平均交易金额、常用的交易类型等,计算该笔交易发生欺诈的概率。

5.智能决策与业务应用流程结合

基于行内和行外数据,将开发和设计出的智能模型及业务策略统一部署在企业级决策平台之后,需要将这些智能决策

服务嵌入到现有的作业流程中,从而改进传统的作业模式,实现客户服务模式、体验模式及管理模式的创新。

在整个技术实现框架中,数据是基础,智能模型和业务策略是核心和灵魂,与各种业务流程及渠道结合是应用成果的

外在展现。

三、江苏银行在互联网金融业务中应用大数据开展风险管控的探索与实践

从2014年起,江苏银行对互联网金融进行了多方面探索和实践。

为解决产品设计中的风险管控问题,江苏银行基于Hadoop开源式的大数据分布式处理技术平台,整合了内外部海量

大数据助力佛山电力需求侧管理

稳定的电能供给是现代工业的基石。我国工业的快速发展给电力企业的供电能力提出了一次又一次的挑战。应对

这些挑战最直接的方法是增建发电厂来提高发电能力。改革开放以来,我国的发电厂一度如雨后春笋般出现,但是随着

时间的推移和经验的积累,我们认识到电厂会给环境带来一定影响。我国的一些小型火电厂良莠不齐,未达处理标准的

排污让附近居民苦不堪言,燃煤电厂产生的粉尘则是雾霾问题的罪魁祸首。在我国经济由高耗能、高排放、低效率的粗

放发展方式向低耗能、低排放、高效率的绿色和谐发展方式转变的趋势下,电力企业应当严格地管理发电过程,关闭低

效率高污染的电厂,建设规范高效的电厂并利用水力、风能、太阳能等清洁能源。然而,这些发电侧的优化将是一个长

期的过程,如何在短期内缓解供电压力并满足工业生产的需求呢?电力企业将目光投向了对用电侧的管理。

用电侧管理,在电力术语中称为需求侧管理(Demand Side Management, DSM),是通过管理用电方式来减少

电力需求达到电力使用效率最大化的管理活动。这样形容比较抽象,但DSM对于我们其实不陌生——实行已久的峰谷

电价和分时电价就是DSM的例子。供电局通过提高用电高峰时段的电价促使我们将一些用电活动安排到低谷时段,这

样便可减少峰值用电量,减轻发电压力。同样的思想在对工业用电的管理中也大量使用,称为“错峰”,但工业用电的

错峰和生活用电错峰不同,仅仅使用峰谷电价等市场调节“软”手段在工业用电中是不够的,因为工业生产的用电量极大,

一旦错峰不成功,会出现巨大的电力缺口,所以供电局需要为其供电范围内的工厂制订错峰计划,将工厂的生产安排在不

同时间段,降低峰值需求。制订错峰计划并不简单,不同类型的工厂用电方式截然不同,而同一家工厂在不同时期的用电

方式也不一样,要使错峰计划合乎工厂的生产规律,就不能“一刀切”地制定计划。而且工厂用电设备繁多、各个环节相

互依赖,不合理的安排会对生产过程产生牵一发而动全身的影响。那么,供电局该如何制订合理的错峰计划,在保障工业

生产的前提下降低电力需求峰值呢?空谈无用,我们看看这两年在需求侧管理颇有成果的佛山供电局是怎么做的。

佛山市是传统制造业名城,拥有几千家工厂,无一不是能耗大户,给佛山的供电能力带来了极大的挑战。工业用电错

峰在佛山实行已久,但是随着佛山制造业的发展,原有的错峰机制已经无法弥补电力缺口,还给工业生产带来了巨大的压

力。电力缺口和土地、环境一道成为了制约佛山制造业进一步发展的瓶颈。2012年,佛山成为全国首批四个之一,也是南

方电网首个电力需求侧管理综合试点城市。 在这次试点中,佛山供电局携手广东卓维网络建立了电力需求侧管理平台(以

下简称DSM平台),由佛山供电局提供电力专业知识,广东卓维网络提供信息技术。DSM平台上线的首要任务便是改善错

峰机制、弥补电力缺口,同时使错峰计划更符合工厂的生产规律。然而,在第一步——制订错峰计划时,佛山供电局就遭

了当头一棒——佛山的制造业涵盖陶瓷业、纺织业、有色金属业、电器制造业、装备制造业等多种类型的产业,它们各有

各的用电方式和周期,要让一套错峰计划适应所有的工业用户太难了!卓维网络和佛山供电局的技术专家没有就此退缩,

他们想到了近年来快速发展的大数据技术——既然电商们可以利用大数据技术细分人群,为差异化极大的消费者提供精准

的个性化推荐服务,为什么不利用同样的技术为工业用户制订“个性化”的错峰计划呢?按照这个思路,卓维网络在DSM

平台上建立了佛山供电局的用户信息库,其中包含了各工业用户的行业、变压器、用能设备(电动机、通风机、电锅炉、

照明设备等)等信息。利用这个信息库,佛山供电局可以将工业用户进行粗略的划分,但这离准确描述用户的用电行为还

很远。对电商来说,个性化推荐的核心是通过对购买和浏览记录数据的挖掘,找出数据中的规律和关联。对电力企业,这

个思路依然适用,制订个性化错峰计划的核心应当是用电过程中产生的量测数据的挖掘。

量测数据是工业用户用电设备或设备群上安装的各类电表记录的数据。但是,电表仅记录电压、电流、电量等原始数

据,对用电行为的描述并不直观,而且单个表计只能记录一家工厂部分设备的用电情况,那么为了对一家工厂乃至一个地

区、一个行业的用电行为获得更好的认识,DSM系统必须整合、分析原始数据,让原始数据变得有意义,才能加以利用。

怎样才能让数据变得有意义呢?根据电力原理和多年工作经验,佛山供电局总结出了一系列模型,将原始量测数据变为更

34

具描述性的近二十个指标,包括单厂的月用电量、月平均负荷、月最大负荷出现时段、用能设备平均负荷、用能设备负荷

占比、电能单耗等等。单企业指标和企业所在行业有直接关系,孤立地看单企业指标会导致描述偏差,所以佛山供电局还

需要计算各个行业中这些指标的均值、单企业和行业的对标(指标对比)以及在行业内的单企业指标排名。将原始量测数

据变成指标需要一整套数据的处理:将数据从电表处采集、写入存储系统、从系统中读取、进行计算以及展现计算结果。

这些任务需要一个功能强大的数据库,在这一步,佛山供电局遇到了第二道障碍。佛山的制造业每天都要产生上亿条各类

用电数据,DSM平台不仅需要对日积月累达到海量的历史数据进行分析,还要能够处理每天新增的数据。卓维网络原先为

DSM选择了老牌数据库Oracle进行数据处理和指标生成,然而投产不久后,Oracle便显示出了计算能力的不足,在计算指

标时,往往耗时过长,降低了错峰计划生成的效率,为了解决这个问题,卓维网络选择了为处理海量数据而生的大数据技

术。

近年来,大数据技术得到了长足的发展。卓维网络选择了上海星环科技开发的一站式大数据处理平台Transwarp Data

Hub下的实时数据库Hyperbase做为DSM平台全新的数据支撑系统。卓维网络为什么选择星环科技的Hyperbase呢?首

先,DSM平台每天都要增加新的用电数据。而且为了更准确地评估用电行为,佛山供电局可能会提高数据采集频度

(目前的频度是15分钟采集一次,可以提高到5分钟一次),数据量会成倍增长。将来,佛山供电局还考虑对居民用电

数据进行分析,届时,数据量会再一次爆发。所以,存储系统适应数据量增长的能力是必须的。星环科技的Hyperbase是

一个分布式的存储系统,可以在经济的商用服务器上搭建大规模存储集群,并且通过向集群中添加服务器便可以增加存

储空间,有着极好的横向扩展能力,这是DSM平台需要的特性。第二,因为用电数据在源源不断地产生,DSM平台有大量

的写入任务,目前每天的写入达到近一亿条,将来只会更多。Hyperbase有极高的并发写能力,可以批量写入数据,适合

DSM平台的应用场景。第三,DSM系统需要大量读取用电数据,包括一个、一批、一个地区或一个行业内的电表在一个、

多个时间点或时间段的量测数据,这些数据将直接被用于计算用电行为描述的相关指标。Hyperbase有极高的并发读能

力,而且还配备了高效的二级索引,使得DSM平台可以对任意键进行快速查询,将直接提高指标计算的效率。卓维网络

在DSM平台上部署Hyperbase后,实时的量测数据将从生产企业侧通过RabbitMQ接入Hyperbase,Hyperbase中的数

据再通过调用卓维网络设计的API进行计算、分析和展现,如下图所示:

配备了这套数据处理系统的DSM平 台可以快速高效地从Hyperbase中获取数据,生成错峰计划所需要的指标,例如一个表

计在一段时间内记录数据的极值、一批表计在某个时间段内记录的所有数据、一批表计在多个不同时间段分别记录的所有

数据以及极值等等。

有了大数据的帮助,佛山供电局得以准确地描述用电企业的属性和用电行为,将工业用户细分,最终制订了一套详细

的错峰计划,规定了不同组别的用电企业在各个错峰需求等级(由电力缺口决定)下的错峰时间和用电频率。而且这个错

峰计划不会一成不变,企业会变,生产方式也会变,佛山供电局会根据数据的变化不断调整计划,使其更好地配合企业

生产。试点以来,新的错峰机制已经帮助佛山降低、转移了几十万千瓦的峰值负荷。用电数据分析价值的不仅在于生成和

改进错峰计划,佛山供电局还在用这些数据发现发现产能单耗低的企业并对其进行奖励,发现产能单耗高的企业,帮助它

们分析生产方式中的问题并为其提供节能诊断。类似的工作将为佛山带来长远的积极影响。据统计,在试点结束后,佛山

市将每年节电量约13.5亿千瓦时,相当于2012年佛山全社会用电量的2.7%;减少新建电厂投资约20亿元;每年减少标

煤消耗约56万吨;每年减少二氧化碳排放约135万吨;每年减少二氧化硫排放约290万吨;每年减少氮氧化物排放约580

万吨;每年减少悬浮物颗粒约115万吨。

传统的粗放式生产让我国经济腾飞的同时留下了能源、环境方面的“后遗症”。今天,为了治疗这些顽疾,我们常常

需要花费大量的金钱和人力。通过佛山的例子,我们看到用大数据的思想和技术来管理企业的用电方式,不需要巨额的投

资,不需要浩大的工程,却起到了四两拨千斤的效果,这就是大数据的力量。这并不是说节能环保的投资没有意义,而是

说在节能环保和工业生产中充分地利用大数据,将大数据的精细化思维带入每一个环节,可以起到事半功倍的效果,我们

离青山绿水也就更近了一步。

互联网金融常见的风险主要包括5种:

一是信用风险,由于交易双方基于虚拟的网络进行交易,容易被交易对手利用技术和法律漏洞谋取不当利益,信用

风险较大;

二是信息科技风险,包括信息安全风险、技术选择风险和技术支持风险;

三是操作风险,由于交易主体对互联网金融业务的操作要求不太了解,或信息系统设计缺陷引起的操作风险;

四是声誉风险,互联网金融机构不能与客户建立良好的关系,从而导致其无法有序开展金融业务的风险;

五是法律风险,现有的法律法规都是为传统金融业务设置,不完全适合于互联网金融,如交易者身份认证、资金监

管、市场准入等尚未有明确的监管规定,故在互联网金融的交易过程中容易出现由于交易主体间权利义务模糊而导致法

律风险。

本文主要从信用风险角度展开,并结合江苏银行的实践对互联网金融的大数据风险管控应用实践进行分享。

和传统金融业相比,互联网金融的信用风险的防控具有以下两个关键点:

一是风险管理面临“免担保”模式的冲击,银行必须从更广阔的范围进行信用风险的防范,需要解决信息不对称的问

题,并建立更加全面的客户信用风险量化体系。互联网的普及降低了信息成本,很大程度上解决了信息分散和不对称问

题。互联网金融借鉴传统商业银行的信誉评估标准,整合电商、第三方支付等多平台数据,利用云计算、大数据等技

术,深入挖掘企业信息,减少人力成本,提高风险预判。同时对企业财务经营状况、上下游关系等信息实时监测,方便

违约后不良资产的及时处理变现,打造和谐信贷生态圈(链)。

二是在虚拟的网络进行交易,欺诈风险高,对客户信息的甄别更为重要,需要更先进的技术手段。除了传统数据反欺

诈模型分析外,互联网时代必须引入移动数据的支持,如利用移动设备的位置信息,帮助商业银行验证贷款申请人居住

地,分析贷款用户真实工作地点,识别出现在同一个经纬度的群体性恶意欺诈事件,降低恶意欺诈的风险。

二、大数据在风险管控领域的技术研究

大数据从内涵上看,其特征可归纳为三个方面:

一是数据类型方面,除了包括海量的结构化和半结构化的交易数据,还包括海量非结构化数据和交互数据;

二是技术方法方面,核心是从各种类型的数据中快速获取有价值信息的技术及其集成;

三是分析应用方面,重点是采用大数据技术对特定的数据集合进行分析,及时获得有价值的信息。

与其他行业相比,大数据对银行业更具潜在价值。一方面,大数据决策模式更符合银行发展需求。银行业发展模式转

型、金融创新和管理升级等都需要充分利用大数据技术、践行大数据思维。另一方面,银行业数据特点是量大、类型

多,不仅拥有账户信息和交易信息等结构化数据,还拥有客服音频、网点视频、网上银行记录、电子商城记录等非结构

化数据。

在新的形势下,银行业需要加强大数据应用,如利用大数据图分析与流处理技术,快速统计历史数据、一段时间窗

口的信息流和触发计算的事件,并匹配模型,在百毫秒级别内进行响应;处理非结构化数据,整合网页、文本、JSON、

XML、图像和语音等非结构化数据,转化成结构化字段;通过引入和整合人民银行征信、税务、工商、公安、法院、电信

服务商、P2P平台等网络数据源,实现客户的云数据360度画像标签;探索基于并行数据处理技术环境下R语言的运用,实现

客户担保圈关系的自动挖掘,自动标识预警担保圈的形成。

Page 37: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

对应的风险分数,为智能型反交易欺诈授权决策提供科学依据,对欺诈风险高的交易可以拒绝授权和展开调查。

银行业欺诈风险主要集中在注册、登录、借款、提现、支付、修改信息6个业务场景。如注册场景中的虚假注册、垃

圾注册;登录场景中的撞库登录、暴力破解等;借款场景中的多头借贷、信用恶化;提现和支付场景中的欺骗行为等。

4.实时风控技术框架

针对个人线上消费贷款的风控需求,反欺诈系统需具备稳定、快速、准确的的特点,以平衡业务拓展、客户体验和风

险控制三方的关系。通过引入反欺诈风险规则引擎,可以将不断变化的业务规则剥离出来,进行动态管理和多规则多重组

合,从而使系统变得更加灵活,适用范围更加广泛。在交易过程中,通过实时计算当前交易和历史交易特征的偏离值,如

平均交易金额、常用的交易类型等,计算该笔交易发生欺诈的概率。

5.智能决策与业务应用流程结合

基于行内和行外数据,将开发和设计出的智能模型及业务策略统一部署在企业级决策平台之后,需要将这些智能决策

服务嵌入到现有的作业流程中,从而改进传统的作业模式,实现客户服务模式、体验模式及管理模式的创新。

在整个技术实现框架中,数据是基础,智能模型和业务策略是核心和灵魂,与各种业务流程及渠道结合是应用成果的

外在展现。

三、江苏银行在互联网金融业务中应用大数据开展风险管控的探索与实践

从2014年起,江苏银行对互联网金融进行了多方面探索和实践。

为解决产品设计中的风险管控问题,江苏银行基于Hadoop开源式的大数据分布式处理技术平台,整合了内外部海量

稳定的电能供给是现代工业的基石。我国工业的快速发展给电力企业的供电能力提出了一次又一次的挑战。应对

这些挑战最直接的方法是增建发电厂来提高发电能力。改革开放以来,我国的发电厂一度如雨后春笋般出现,但是随着

时间的推移和经验的积累,我们认识到电厂会给环境带来一定影响。我国的一些小型火电厂良莠不齐,未达处理标准的

排污让附近居民苦不堪言,燃煤电厂产生的粉尘则是雾霾问题的罪魁祸首。在我国经济由高耗能、高排放、低效率的粗

放发展方式向低耗能、低排放、高效率的绿色和谐发展方式转变的趋势下,电力企业应当严格地管理发电过程,关闭低

效率高污染的电厂,建设规范高效的电厂并利用水力、风能、太阳能等清洁能源。然而,这些发电侧的优化将是一个长

期的过程,如何在短期内缓解供电压力并满足工业生产的需求呢?电力企业将目光投向了对用电侧的管理。

用电侧管理,在电力术语中称为需求侧管理(Demand Side Management, DSM),是通过管理用电方式来减少

电力需求达到电力使用效率最大化的管理活动。这样形容比较抽象,但DSM对于我们其实不陌生——实行已久的峰谷

电价和分时电价就是DSM的例子。供电局通过提高用电高峰时段的电价促使我们将一些用电活动安排到低谷时段,这

样便可减少峰值用电量,减轻发电压力。同样的思想在对工业用电的管理中也大量使用,称为“错峰”,但工业用电的

错峰和生活用电错峰不同,仅仅使用峰谷电价等市场调节“软”手段在工业用电中是不够的,因为工业生产的用电量极大,

一旦错峰不成功,会出现巨大的电力缺口,所以供电局需要为其供电范围内的工厂制订错峰计划,将工厂的生产安排在不

同时间段,降低峰值需求。制订错峰计划并不简单,不同类型的工厂用电方式截然不同,而同一家工厂在不同时期的用电

方式也不一样,要使错峰计划合乎工厂的生产规律,就不能“一刀切”地制定计划。而且工厂用电设备繁多、各个环节相

互依赖,不合理的安排会对生产过程产生牵一发而动全身的影响。那么,供电局该如何制订合理的错峰计划,在保障工业

生产的前提下降低电力需求峰值呢?空谈无用,我们看看这两年在需求侧管理颇有成果的佛山供电局是怎么做的。

佛山市是传统制造业名城,拥有几千家工厂,无一不是能耗大户,给佛山的供电能力带来了极大的挑战。工业用电错

峰在佛山实行已久,但是随着佛山制造业的发展,原有的错峰机制已经无法弥补电力缺口,还给工业生产带来了巨大的压

力。电力缺口和土地、环境一道成为了制约佛山制造业进一步发展的瓶颈。2012年,佛山成为全国首批四个之一,也是南

方电网首个电力需求侧管理综合试点城市。 在这次试点中,佛山供电局携手广东卓维网络建立了电力需求侧管理平台(以

下简称DSM平台),由佛山供电局提供电力专业知识,广东卓维网络提供信息技术。DSM平台上线的首要任务便是改善错

峰机制、弥补电力缺口,同时使错峰计划更符合工厂的生产规律。然而,在第一步——制订错峰计划时,佛山供电局就遭

了当头一棒——佛山的制造业涵盖陶瓷业、纺织业、有色金属业、电器制造业、装备制造业等多种类型的产业,它们各有

各的用电方式和周期,要让一套错峰计划适应所有的工业用户太难了!卓维网络和佛山供电局的技术专家没有就此退缩,

他们想到了近年来快速发展的大数据技术——既然电商们可以利用大数据技术细分人群,为差异化极大的消费者提供精准

的个性化推荐服务,为什么不利用同样的技术为工业用户制订“个性化”的错峰计划呢?按照这个思路,卓维网络在DSM

平台上建立了佛山供电局的用户信息库,其中包含了各工业用户的行业、变压器、用能设备(电动机、通风机、电锅炉、

照明设备等)等信息。利用这个信息库,佛山供电局可以将工业用户进行粗略的划分,但这离准确描述用户的用电行为还

很远。对电商来说,个性化推荐的核心是通过对购买和浏览记录数据的挖掘,找出数据中的规律和关联。对电力企业,这

个思路依然适用,制订个性化错峰计划的核心应当是用电过程中产生的量测数据的挖掘。

量测数据是工业用户用电设备或设备群上安装的各类电表记录的数据。但是,电表仅记录电压、电流、电量等原始数

据,对用电行为的描述并不直观,而且单个表计只能记录一家工厂部分设备的用电情况,那么为了对一家工厂乃至一个地

区、一个行业的用电行为获得更好的认识,DSM系统必须整合、分析原始数据,让原始数据变得有意义,才能加以利用。

怎样才能让数据变得有意义呢?根据电力原理和多年工作经验,佛山供电局总结出了一系列模型,将原始量测数据变为更

量测数据来源

写入 提供

数据消费

Rabbit-m

q

电网接口库

Hyperbase

实时数据展现 统计数据展现

历史数据展现

数据分析

读取 计算 展现

星 环 科 技

35

具描述性的近二十个指标,包括单厂的月用电量、月平均负荷、月最大负荷出现时段、用能设备平均负荷、用能设备负荷

占比、电能单耗等等。单企业指标和企业所在行业有直接关系,孤立地看单企业指标会导致描述偏差,所以佛山供电局还

需要计算各个行业中这些指标的均值、单企业和行业的对标(指标对比)以及在行业内的单企业指标排名。将原始量测数

据变成指标需要一整套数据的处理:将数据从电表处采集、写入存储系统、从系统中读取、进行计算以及展现计算结果。

这些任务需要一个功能强大的数据库,在这一步,佛山供电局遇到了第二道障碍。佛山的制造业每天都要产生上亿条各类

用电数据,DSM平台不仅需要对日积月累达到海量的历史数据进行分析,还要能够处理每天新增的数据。卓维网络原先为

DSM选择了老牌数据库Oracle进行数据处理和指标生成,然而投产不久后,Oracle便显示出了计算能力的不足,在计算指

标时,往往耗时过长,降低了错峰计划生成的效率,为了解决这个问题,卓维网络选择了为处理海量数据而生的大数据技

术。

近年来,大数据技术得到了长足的发展。卓维网络选择了上海星环科技开发的一站式大数据处理平台Transwarp Data

Hub下的实时数据库Hyperbase做为DSM平台全新的数据支撑系统。卓维网络为什么选择星环科技的Hyperbase呢?首

先,DSM平台每天都要增加新的用电数据。而且为了更准确地评估用电行为,佛山供电局可能会提高数据采集频度

(目前的频度是15分钟采集一次,可以提高到5分钟一次),数据量会成倍增长。将来,佛山供电局还考虑对居民用电

数据进行分析,届时,数据量会再一次爆发。所以,存储系统适应数据量增长的能力是必须的。星环科技的Hyperbase是

一个分布式的存储系统,可以在经济的商用服务器上搭建大规模存储集群,并且通过向集群中添加服务器便可以增加存

储空间,有着极好的横向扩展能力,这是DSM平台需要的特性。第二,因为用电数据在源源不断地产生,DSM平台有大量

的写入任务,目前每天的写入达到近一亿条,将来只会更多。Hyperbase有极高的并发写能力,可以批量写入数据,适合

DSM平台的应用场景。第三,DSM系统需要大量读取用电数据,包括一个、一批、一个地区或一个行业内的电表在一个、

多个时间点或时间段的量测数据,这些数据将直接被用于计算用电行为描述的相关指标。Hyperbase有极高的并发读能

力,而且还配备了高效的二级索引,使得DSM平台可以对任意键进行快速查询,将直接提高指标计算的效率。卓维网络

在DSM平台上部署Hyperbase后,实时的量测数据将从生产企业侧通过RabbitMQ接入Hyperbase,Hyperbase中的数

据再通过调用卓维网络设计的API进行计算、分析和展现,如下图所示:

配备了这套数据处理系统的DSM平 台可以快速高效地从Hyperbase中获取数据,生成错峰计划所需要的指标,例如一个表

计在一段时间内记录数据的极值、一批表计在某个时间段内记录的所有数据、一批表计在多个不同时间段分别记录的所有

数据以及极值等等。

有了大数据的帮助,佛山供电局得以准确地描述用电企业的属性和用电行为,将工业用户细分,最终制订了一套详细

的错峰计划,规定了不同组别的用电企业在各个错峰需求等级(由电力缺口决定)下的错峰时间和用电频率。而且这个错

峰计划不会一成不变,企业会变,生产方式也会变,佛山供电局会根据数据的变化不断调整计划,使其更好地配合企业

生产。试点以来,新的错峰机制已经帮助佛山降低、转移了几十万千瓦的峰值负荷。用电数据分析价值的不仅在于生成和

改进错峰计划,佛山供电局还在用这些数据发现发现产能单耗低的企业并对其进行奖励,发现产能单耗高的企业,帮助它

们分析生产方式中的问题并为其提供节能诊断。类似的工作将为佛山带来长远的积极影响。据统计,在试点结束后,佛山

市将每年节电量约13.5亿千瓦时,相当于2012年佛山全社会用电量的2.7%;减少新建电厂投资约20亿元;每年减少标

煤消耗约56万吨;每年减少二氧化碳排放约135万吨;每年减少二氧化硫排放约290万吨;每年减少氮氧化物排放约580

万吨;每年减少悬浮物颗粒约115万吨。

传统的粗放式生产让我国经济腾飞的同时留下了能源、环境方面的“后遗症”。今天,为了治疗这些顽疾,我们常常

需要花费大量的金钱和人力。通过佛山的例子,我们看到用大数据的思想和技术来管理企业的用电方式,不需要巨额的投

资,不需要浩大的工程,却起到了四两拨千斤的效果,这就是大数据的力量。这并不是说节能环保的投资没有意义,而是

说在节能环保和工业生产中充分地利用大数据,将大数据的精细化思维带入每一个环节,可以起到事半功倍的效果,我们

离青山绿水也就更近了一步。

互联网金融常见的风险主要包括5种:

一是信用风险,由于交易双方基于虚拟的网络进行交易,容易被交易对手利用技术和法律漏洞谋取不当利益,信用

风险较大;

二是信息科技风险,包括信息安全风险、技术选择风险和技术支持风险;

三是操作风险,由于交易主体对互联网金融业务的操作要求不太了解,或信息系统设计缺陷引起的操作风险;

四是声誉风险,互联网金融机构不能与客户建立良好的关系,从而导致其无法有序开展金融业务的风险;

五是法律风险,现有的法律法规都是为传统金融业务设置,不完全适合于互联网金融,如交易者身份认证、资金监

管、市场准入等尚未有明确的监管规定,故在互联网金融的交易过程中容易出现由于交易主体间权利义务模糊而导致法

律风险。

本文主要从信用风险角度展开,并结合江苏银行的实践对互联网金融的大数据风险管控应用实践进行分享。

和传统金融业相比,互联网金融的信用风险的防控具有以下两个关键点:

一是风险管理面临“免担保”模式的冲击,银行必须从更广阔的范围进行信用风险的防范,需要解决信息不对称的问

题,并建立更加全面的客户信用风险量化体系。互联网的普及降低了信息成本,很大程度上解决了信息分散和不对称问

题。互联网金融借鉴传统商业银行的信誉评估标准,整合电商、第三方支付等多平台数据,利用云计算、大数据等技

术,深入挖掘企业信息,减少人力成本,提高风险预判。同时对企业财务经营状况、上下游关系等信息实时监测,方便

违约后不良资产的及时处理变现,打造和谐信贷生态圈(链)。

二是在虚拟的网络进行交易,欺诈风险高,对客户信息的甄别更为重要,需要更先进的技术手段。除了传统数据反欺

诈模型分析外,互联网时代必须引入移动数据的支持,如利用移动设备的位置信息,帮助商业银行验证贷款申请人居住

地,分析贷款用户真实工作地点,识别出现在同一个经纬度的群体性恶意欺诈事件,降低恶意欺诈的风险。

二、大数据在风险管控领域的技术研究

大数据从内涵上看,其特征可归纳为三个方面:

一是数据类型方面,除了包括海量的结构化和半结构化的交易数据,还包括海量非结构化数据和交互数据;

二是技术方法方面,核心是从各种类型的数据中快速获取有价值信息的技术及其集成;

三是分析应用方面,重点是采用大数据技术对特定的数据集合进行分析,及时获得有价值的信息。

与其他行业相比,大数据对银行业更具潜在价值。一方面,大数据决策模式更符合银行发展需求。银行业发展模式转

型、金融创新和管理升级等都需要充分利用大数据技术、践行大数据思维。另一方面,银行业数据特点是量大、类型

多,不仅拥有账户信息和交易信息等结构化数据,还拥有客服音频、网点视频、网上银行记录、电子商城记录等非结构

化数据。

在新的形势下,银行业需要加强大数据应用,如利用大数据图分析与流处理技术,快速统计历史数据、一段时间窗

口的信息流和触发计算的事件,并匹配模型,在百毫秒级别内进行响应;处理非结构化数据,整合网页、文本、JSON、

XML、图像和语音等非结构化数据,转化成结构化字段;通过引入和整合人民银行征信、税务、工商、公安、法院、电信

服务商、P2P平台等网络数据源,实现客户的云数据360度画像标签;探索基于并行数据处理技术环境下R语言的运用,实现

客户担保圈关系的自动挖掘,自动标识预警担保圈的形成。

Page 38: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

稳定的电能供给是现代工业的基石。我国工业的快速发展给电力企业的供电能力提出了一次又一次的挑战。应对

这些挑战最直接的方法是增建发电厂来提高发电能力。改革开放以来,我国的发电厂一度如雨后春笋般出现,但是随着

时间的推移和经验的积累,我们认识到电厂会给环境带来一定影响。我国的一些小型火电厂良莠不齐,未达处理标准的

排污让附近居民苦不堪言,燃煤电厂产生的粉尘则是雾霾问题的罪魁祸首。在我国经济由高耗能、高排放、低效率的粗

放发展方式向低耗能、低排放、高效率的绿色和谐发展方式转变的趋势下,电力企业应当严格地管理发电过程,关闭低

效率高污染的电厂,建设规范高效的电厂并利用水力、风能、太阳能等清洁能源。然而,这些发电侧的优化将是一个长

期的过程,如何在短期内缓解供电压力并满足工业生产的需求呢?电力企业将目光投向了对用电侧的管理。

用电侧管理,在电力术语中称为需求侧管理(Demand Side Management, DSM),是通过管理用电方式来减少

电力需求达到电力使用效率最大化的管理活动。这样形容比较抽象,但DSM对于我们其实不陌生——实行已久的峰谷

电价和分时电价就是DSM的例子。供电局通过提高用电高峰时段的电价促使我们将一些用电活动安排到低谷时段,这

样便可减少峰值用电量,减轻发电压力。同样的思想在对工业用电的管理中也大量使用,称为“错峰”,但工业用电的

错峰和生活用电错峰不同,仅仅使用峰谷电价等市场调节“软”手段在工业用电中是不够的,因为工业生产的用电量极大,

一旦错峰不成功,会出现巨大的电力缺口,所以供电局需要为其供电范围内的工厂制订错峰计划,将工厂的生产安排在不

同时间段,降低峰值需求。制订错峰计划并不简单,不同类型的工厂用电方式截然不同,而同一家工厂在不同时期的用电

方式也不一样,要使错峰计划合乎工厂的生产规律,就不能“一刀切”地制定计划。而且工厂用电设备繁多、各个环节相

互依赖,不合理的安排会对生产过程产生牵一发而动全身的影响。那么,供电局该如何制订合理的错峰计划,在保障工业

生产的前提下降低电力需求峰值呢?空谈无用,我们看看这两年在需求侧管理颇有成果的佛山供电局是怎么做的。

佛山市是传统制造业名城,拥有几千家工厂,无一不是能耗大户,给佛山的供电能力带来了极大的挑战。工业用电错

峰在佛山实行已久,但是随着佛山制造业的发展,原有的错峰机制已经无法弥补电力缺口,还给工业生产带来了巨大的压

力。电力缺口和土地、环境一道成为了制约佛山制造业进一步发展的瓶颈。2012年,佛山成为全国首批四个之一,也是南

方电网首个电力需求侧管理综合试点城市。 在这次试点中,佛山供电局携手广东卓维网络建立了电力需求侧管理平台(以

下简称DSM平台),由佛山供电局提供电力专业知识,广东卓维网络提供信息技术。DSM平台上线的首要任务便是改善错

峰机制、弥补电力缺口,同时使错峰计划更符合工厂的生产规律。然而,在第一步——制订错峰计划时,佛山供电局就遭

了当头一棒——佛山的制造业涵盖陶瓷业、纺织业、有色金属业、电器制造业、装备制造业等多种类型的产业,它们各有

各的用电方式和周期,要让一套错峰计划适应所有的工业用户太难了!卓维网络和佛山供电局的技术专家没有就此退缩,

他们想到了近年来快速发展的大数据技术——既然电商们可以利用大数据技术细分人群,为差异化极大的消费者提供精准

的个性化推荐服务,为什么不利用同样的技术为工业用户制订“个性化”的错峰计划呢?按照这个思路,卓维网络在DSM

平台上建立了佛山供电局的用户信息库,其中包含了各工业用户的行业、变压器、用能设备(电动机、通风机、电锅炉、

照明设备等)等信息。利用这个信息库,佛山供电局可以将工业用户进行粗略的划分,但这离准确描述用户的用电行为还

很远。对电商来说,个性化推荐的核心是通过对购买和浏览记录数据的挖掘,找出数据中的规律和关联。对电力企业,这

个思路依然适用,制订个性化错峰计划的核心应当是用电过程中产生的量测数据的挖掘。

量测数据是工业用户用电设备或设备群上安装的各类电表记录的数据。但是,电表仅记录电压、电流、电量等原始数

据,对用电行为的描述并不直观,而且单个表计只能记录一家工厂部分设备的用电情况,那么为了对一家工厂乃至一个地

区、一个行业的用电行为获得更好的认识,DSM系统必须整合、分析原始数据,让原始数据变得有意义,才能加以利用。

怎样才能让数据变得有意义呢?根据电力原理和多年工作经验,佛山供电局总结出了一系列模型,将原始量测数据变为更

36

具描述性的近二十个指标,包括单厂的月用电量、月平均负荷、月最大负荷出现时段、用能设备平均负荷、用能设备负荷

占比、电能单耗等等。单企业指标和企业所在行业有直接关系,孤立地看单企业指标会导致描述偏差,所以佛山供电局还

需要计算各个行业中这些指标的均值、单企业和行业的对标(指标对比)以及在行业内的单企业指标排名。将原始量测数

据变成指标需要一整套数据的处理:将数据从电表处采集、写入存储系统、从系统中读取、进行计算以及展现计算结果。

这些任务需要一个功能强大的数据库,在这一步,佛山供电局遇到了第二道障碍。佛山的制造业每天都要产生上亿条各类

用电数据,DSM平台不仅需要对日积月累达到海量的历史数据进行分析,还要能够处理每天新增的数据。卓维网络原先为

DSM选择了老牌数据库Oracle进行数据处理和指标生成,然而投产不久后,Oracle便显示出了计算能力的不足,在计算指

标时,往往耗时过长,降低了错峰计划生成的效率,为了解决这个问题,卓维网络选择了为处理海量数据而生的大数据技

术。

近年来,大数据技术得到了长足的发展。卓维网络选择了上海星环科技开发的一站式大数据处理平台Transwarp Data

Hub下的实时数据库Hyperbase做为DSM平台全新的数据支撑系统。卓维网络为什么选择星环科技的Hyperbase呢?首

先,DSM平台每天都要增加新的用电数据。而且为了更准确地评估用电行为,佛山供电局可能会提高数据采集频度

(目前的频度是15分钟采集一次,可以提高到5分钟一次),数据量会成倍增长。将来,佛山供电局还考虑对居民用电

数据进行分析,届时,数据量会再一次爆发。所以,存储系统适应数据量增长的能力是必须的。星环科技的Hyperbase是

一个分布式的存储系统,可以在经济的商用服务器上搭建大规模存储集群,并且通过向集群中添加服务器便可以增加存

储空间,有着极好的横向扩展能力,这是DSM平台需要的特性。第二,因为用电数据在源源不断地产生,DSM平台有大量

的写入任务,目前每天的写入达到近一亿条,将来只会更多。Hyperbase有极高的并发写能力,可以批量写入数据,适合

DSM平台的应用场景。第三,DSM系统需要大量读取用电数据,包括一个、一批、一个地区或一个行业内的电表在一个、

多个时间点或时间段的量测数据,这些数据将直接被用于计算用电行为描述的相关指标。Hyperbase有极高的并发读能

力,而且还配备了高效的二级索引,使得DSM平台可以对任意键进行快速查询,将直接提高指标计算的效率。卓维网络

在DSM平台上部署Hyperbase后,实时的量测数据将从生产企业侧通过RabbitMQ接入Hyperbase,Hyperbase中的数

据再通过调用卓维网络设计的API进行计算、分析和展现,如下图所示:

配备了这套数据处理系统的DSM平 台可以快速高效地从Hyperbase中获取数据,生成错峰计划所需要的指标,例如一个表

计在一段时间内记录数据的极值、一批表计在某个时间段内记录的所有数据、一批表计在多个不同时间段分别记录的所有

数据以及极值等等。

有了大数据的帮助,佛山供电局得以准确地描述用电企业的属性和用电行为,将工业用户细分,最终制订了一套详细

的错峰计划,规定了不同组别的用电企业在各个错峰需求等级(由电力缺口决定)下的错峰时间和用电频率。而且这个错

峰计划不会一成不变,企业会变,生产方式也会变,佛山供电局会根据数据的变化不断调整计划,使其更好地配合企业

生产。试点以来,新的错峰机制已经帮助佛山降低、转移了几十万千瓦的峰值负荷。用电数据分析价值的不仅在于生成和

改进错峰计划,佛山供电局还在用这些数据发现发现产能单耗低的企业并对其进行奖励,发现产能单耗高的企业,帮助它

们分析生产方式中的问题并为其提供节能诊断。类似的工作将为佛山带来长远的积极影响。据统计,在试点结束后,佛山

市将每年节电量约13.5亿千瓦时,相当于2012年佛山全社会用电量的2.7%;减少新建电厂投资约20亿元;每年减少标

煤消耗约56万吨;每年减少二氧化碳排放约135万吨;每年减少二氧化硫排放约290万吨;每年减少氮氧化物排放约580

万吨;每年减少悬浮物颗粒约115万吨。

传统的粗放式生产让我国经济腾飞的同时留下了能源、环境方面的“后遗症”。今天,为了治疗这些顽疾,我们常常

需要花费大量的金钱和人力。通过佛山的例子,我们看到用大数据的思想和技术来管理企业的用电方式,不需要巨额的投

资,不需要浩大的工程,却起到了四两拨千斤的效果,这就是大数据的力量。这并不是说节能环保的投资没有意义,而是

说在节能环保和工业生产中充分地利用大数据,将大数据的精细化思维带入每一个环节,可以起到事半功倍的效果,我们

离青山绿水也就更近了一步。

Page 39: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

大数据技术助力中国石化智能工厂

炼油和化工行业是是典型的流程型生产模式,工艺过程高度依赖设备的长期、稳定、安全和高效运行。因此,设备维

护对炼油化工企业至关重要,任何一台关键设备的故障停机都可能导致数以百万甚至千万级的经济损失。

设备维护分为预防性维护、预知性维护和事后维护。流程型行业的特点决定了对于非关键类的设备可以采取事后维修

的方式,以降低维护成本;对于关键类的设备必须采取预防性维护和预知性维护相结合的方式,保证设备能够长期可靠运行。

对于预防性维护,通常利用3年到4年一次的生产装置大修机会对设备进行解体维修。在设备运行期间,主要依靠每月的计

划维护工作开对设备进行预知性维护。

目前在中国石化北京燕山分公司制定月度维护计划的依据主要是设备管理人员的经验,现场设备运行过程中表现出来

的故障现象,以及公司规定的强制保养项目。我们知道,人为经验是有局限性的,是缺乏继承性的,这就导致了企业的维

护计划不能够完全满足设备安全可靠运行的要求,“过修”和“失修”情况并存。而如何能够利用设备运行状态数据,通

过数据分析、数据挖掘等技术制定科学合理的检修维护计划,成为企业急需要解决的问题。另一方面,当设备出现运行异

常情况时,如何能够通过对其状态数据的分析判断进而在设备真正发生故障之前能够捕捉到设备的故障征兆,为提前安排

停车检修争取到更长的时间,也是企业一直面临的难题。提前发现设备故障,提前进行生产计划调整和物资准备,就意味

着减少非计划停车时间,进而为企业避免数额巨大的经济损失。

面对燕山石化提出的问题,极晨智道提出应用大数据技术结合振动分析技术为企业建设设备全生命周期预知维修系统

解决方案。由燕山石化、极晨智道和上海星环科技三家单位组建联合项目组,历经1年半的技术开发和现场实施服务,系统

成功上线并达到预期的效果。

设备全生命周期预知维修系统从现场设备状态监测系统和实时数据库系统中获取轴承振动、温度、压力、流量等数据。

大型机组主要在线采集轴瓦位移的时域波形数据和温度数据,数据采集周期为3-5秒;机泵以在线或离线方式采集振动速度

或加速度数据和温度数据,在线监测方式的数据采集周期为1小时,离线监测方式的数据采集周期为1-7天;系统从实时数据

库系统中获取设备所对应的工艺参数,包括压力、温度、流量、液位、介质组分等等,数据采集周期为1-5秒。依据该数据

采集策略和中石化集团的设备总量,预计数据规模可以达到1-5PB/年。利用传统的关系型数据库已经无法处理如此大规模

的数据,所以在该项目中引入了上海星环的大数据平台作为数据获取、转换和计算平台。

设备全生命周期预知维修系统构建了基于规则的故障诊断、基于案例的故障诊断、设备状态劣化趋势预测、部件剩余

寿命预测等应用。基于规则的故障诊断利用了经典诊断分析技术和专家系统理论,通过对所获取的数据进行故障征兆提取,

再依据诊断规则,自动输出设备将要或已经发生的故障情况以及处理措施;基于案例的故障诊断功能在系统中构建了案例模

型,并且从企业历史故障记录中提炼总结了若干故障案例作为原案例保存在大数据平台中,设备当前运行状态作为目标案

例实时与原案例进行相似度计算,当相似度达到预设值时,系统给出与设备当前状态相似的历史故障案例及相似度;劣化趋

势预测功能应用大数据平台中提供的若干算法,包括聚类、分类、回归、神经网络、灰度模型等,对所采集到的数据进行

分析预测,系统自动给出设备所处的状态类别和参数达到报警的时间;劣化趋势预测功能还引入了自适应报警的概念,通过

自适应报警算法模型进行计算,系统能够针对每个设备的每个测点给出符合当前工况的报警阈值,当然这种自适应报警阈

值一定是在符合相关企业和国家标准的前提下才能发挥其作用;部件剩余寿命预测功能利用设备启停和历史部件更换信息以

及设备故障诊断和预测结果,系统通过计算得到部件的剩余寿命并对小于预设值的部件进行报警提醒。

燕山石化目前的数据量约为1000万条/天,每年的数据规模达到20-30TB。设备全生命周期预知维修系统利用5台服务

器组成的集群部署了星环大数据平台,包括内存计算、Hbase和流处理模块。系统架构如下图所示:

37

Page 40: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

用户首页

业务层

通用服务/工具层

数据层

外部系统

用户首页 图形展示 表单展示

数据管理 故障诊断趋势预测分析

检修维护计划

部件寿命周期管理

分布式NoSql数据库

关系型数据库

日志服务 算法服务模型服务内存分析引擎

图形工具

权限服务 监控服务接口服务实时处理引擎

表单工具

ERP 实时数据库 S8000 MII 巡检 .........

利用星环大数据平台,系统实现了对数据的实时分析计算,使设备故障诊断和趋势预测等功能的延迟控制在5秒之

内,完全满足的客户对实时性的要求;通过对各类数据的分析,颠覆了传统中人们的经验思维,看似很多无关的数据,但却

对设备故障产生着实实在在的影响,例如设备运行效率过低时设备故障发生的概率增大,这就要求做好工艺参数控制;利用

大数据分析自动生成的检修维护计划,保证了设备维护更有针对性,减少了“过修”和“失修”现象;大数据分析最有价值

之处在于能够在设备出现故障隐患时就发现设备的潜在故障,大大减少了生成装置的非计划停车,从经济方面和安全方面

为企业带了了巨大的价值。下图为系统自动给出的故障诊断结论:

设备全生命周期预知维修系统在国内乃至国际上首次将大数据技术应用到流程型生产行业的设备诊断和预测中,取得

了初步成效,但仍有很多业务和技术问题需要进行攻关。例如,如何利用数据挖掘技术自动创建故障征兆算法,使系统更

具智能性,拜托故障诊断专家的支持;如何利用进行大数据的预处理,并且是这种预处理模型化,让系统自动完成;如何在对

设备劣化趋势进行预测时能够结合失效机理的因素,使得预测的结果更加符合客观现实等等。这些问题需要数据科学家、

故障诊断专家和设备管理专业人员共同攻关解决,希望通过各类专业人员的努力,让设备全生命周期预知维修系统发挥出

更大的价值,彻底解决企业设备管理人员所面临的种种难题,让设备管理不再是企业中“费力不讨好”的工作。

38

Page 41: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

华数传媒实现Hadoop广电应用

当下大数据之热使得技术界对Hadoop的话题热火朝天。但在日常工作中,企业往往还是遵循既有模式,对于Hadoop

到底能否真正帮到企业的应用依然心存顾虑。Hadoop是不是很年轻?这个开源的事物能否符合公司业务级的严谨要求?

有没有企业真的应用过?一系列问题萦绕人们心头。这可以理解,毕竟任何一个新生事物出来都要有一个接受过程。

对于Hadoop,其实这些都不是问题。专业人士都知道,Hadoop到现在已有15个年头,这对于一个实用技术的稳定发

展已足够长久。 事实上,虽然“大数据”一词才出来二三年,但它实际指称的海量的、多类型的数据现象早就有了,不但

在互联网领域,更在工业、商业、通信、金融、传媒等存在久远。比如,生产线上巨量传感器数据的接收分析、通信系统

全程全网的实时日志文件采集与分析、医疗系统密集数据采集与分析从而帮助快速的科学诊断⋯⋯所有这些都需要新型的

数据处理技术来支撑。Hadoop在这些领域突显了强大竞争力,并在国内外的相关实践中获得广泛应用。

在Hadoop还是开源的时候, 众多非 IT 型企业不具备自我开发条件,由此限制了Hadoop在企业里的普及。但随着专

注于企业级市场的Hadoop发行版的技术公司出现,这个问题迎刃而解。从此, 各类型企业终于可以安心驾驭真正的企业

化“大数据浪潮”了。

在中国,广电系统正经历着数字化浪潮的冲击,基于网络化的影视播放给传统广电运营商很大挑战。 在此背景下,广

电系统的生力军华数传媒敏锐地意识到,要想获得未来网络化传媒的生存与竞争优势,现在就必需向用户倾斜,以适应未

来发展的数据基础架构为依托,才能打造“精准型”广电内容及传播运营商。

2013年,华数传媒的大数据系统完成了从无到有的基础建设,实现了基本应用。然而,华数大数据仍面临很多挑战:

数据量增加带来的服务性能压力、数据分析无法满足高时效性业务、业务支撑功能无法满足复杂的商用需求、对网络和服

务器质量等数据分析仍为空白、等等。为此,华数传媒亟需解决方案以解决如下几个问题:

数据采集、存储和转发。通过大数据技术满足海量、多 来源、多样性数据的存储、管理要求,支持平台硬件的线性扩

展,并提供快速实时的数据分析结果,并迅速作于业务。

个性化用户推荐。不仅限于数据本身的分析和决策价值,通过构建在大数据平台之上整合业务能力,为用户提供融

合、个性化的内容服务。

从内容传输到内容制造。使用大数据挖掘技术提前先于观众知道他们需求,预知将受到追捧的电视。另外, 还可通过

观众对演员、情节、基调、类型等元数据的标签化,来了解受众偏好,从而进行分析观测,为后续的影视制作等内容开发

做好准备。

作为众多广电运营商其中的重要一员,华数传媒的这些需求,也是广电运营商们的共同诉求。

针对华数传媒的需要,国内首家专业的企业级Hadoop发行版厂商星环科技给出了令人满意的答卷。 星环科技基于自

主研发的一站式Hadoop发行版Transwarp Data Hub (TDH),综合运用了其中的TDH Hadoop、Inceptor分布式内存引擎、

Hyperbase实时数据库等技术产品组件,为华数传媒提供了如下的综合方案:

数字电视分析系统

TDH平台用以整合各个相关数据源数据,包括Portal、CA、CDN、SRM日志、用户使用浏览信息、AAA、BOSS结构化

数据、用户基本信息、消费数据、用户上网流量数据、网管数据等。通过TDH的快速分布式数据查询引擎,实现海量数据

的秒级查询。为用户提供智能推荐、实时榜单和新媒体指数分析。

提供基于全量数据的实时榜单。以时间(小时/天/周)、 用户等维度,对点播节目、直播节目、节目类别、搜索关键

词等进行排名分析、同比环比分析、趋势分析等。地区风向标主要以城市和时间等维度分析点播排行、剧集排行、分类排

行、热搜排行及用户数量的变化。另外,从时间、频道、影片类型、剧集等维度, 根据在看数量、新增数量、结束观看

数量、完整看完等分析用户走向。

新媒体指数分析。通过对用户行为分析获取很多的隐性指标,从侧面反映用户对业务的认可度、用户的使用行为习惯

等。在此基础之上,TDH大数据分析可帮助华数传媒构建规范的指标分析和衡量体系,为业务运营提供强有力的指导。

智能推荐。运用星环科技大数据基础架构,通过对用户行为数据的采集分析,进行精准画像,使用智能推荐引擎,实

现信息的个性化推荐(TV屏、手机、PC),个性化营销(个性化广告、丰富产品组合、市场分析)。

基于可持续扩展和优化智能推荐算法,以及大数据带来的实时数据交互能力,为每一个用户量身定做的推荐节目极

大提高了产品的到达率,增强了用户忠诚度。

结语:

对于包括广电运营商在内的众多企业而言,精细化的用户需求掌控是未来发展不可变更的趋势。在此,Hadoop发行版

系统再次证明了其业务价值,这是传统数据管理系统力所不能及的。星环科技是国内鲜有的掌握企业级Hadoop和Spark核

心技术的高科技创业公司,在电信、金融、交通、政府等领域的落地应用拥有丰富经验。相信通过类似星环科技

的Hadoop发行版系统,企业级大数据应用将更能顺应业务发展要求,企业也可更从容面对市场竞争。

39

Page 42: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

当下大数据之热使得技术界对Hadoop的话题热火朝天。但在日常工作中,企业往往还是遵循既有模式,对于Hadoop

到底能否真正帮到企业的应用依然心存顾虑。Hadoop是不是很年轻?这个开源的事物能否符合公司业务级的严谨要求?

有没有企业真的应用过?一系列问题萦绕人们心头。这可以理解,毕竟任何一个新生事物出来都要有一个接受过程。

对于Hadoop,其实这些都不是问题。专业人士都知道,Hadoop到现在已有15个年头,这对于一个实用技术的稳定发

展已足够长久。 事实上,虽然“大数据”一词才出来二三年,但它实际指称的海量的、多类型的数据现象早就有了,不但

在互联网领域,更在工业、商业、通信、金融、传媒等存在久远。比如,生产线上巨量传感器数据的接收分析、通信系统

全程全网的实时日志文件采集与分析、医疗系统密集数据采集与分析从而帮助快速的科学诊断⋯⋯所有这些都需要新型的

数据处理技术来支撑。Hadoop在这些领域突显了强大竞争力,并在国内外的相关实践中获得广泛应用。

在Hadoop还是开源的时候, 众多非 IT 型企业不具备自我开发条件,由此限制了Hadoop在企业里的普及。但随着专

注于企业级市场的Hadoop发行版的技术公司出现,这个问题迎刃而解。从此, 各类型企业终于可以安心驾驭真正的企业

化“大数据浪潮”了。

在中国,广电系统正经历着数字化浪潮的冲击,基于网络化的影视播放给传统广电运营商很大挑战。 在此背景下,广

电系统的生力军华数传媒敏锐地意识到,要想获得未来网络化传媒的生存与竞争优势,现在就必需向用户倾斜,以适应未

来发展的数据基础架构为依托,才能打造“精准型”广电内容及传播运营商。

2013年,华数传媒的大数据系统完成了从无到有的基础建设,实现了基本应用。然而,华数大数据仍面临很多挑战:

数据量增加带来的服务性能压力、数据分析无法满足高时效性业务、业务支撑功能无法满足复杂的商用需求、对网络和服

务器质量等数据分析仍为空白、等等。为此,华数传媒亟需解决方案以解决如下几个问题:

数据采集、存储和转发。通过大数据技术满足海量、多 来源、多样性数据的存储、管理要求,支持平台硬件的线性扩

展,并提供快速实时的数据分析结果,并迅速作于业务。

个性化用户推荐。不仅限于数据本身的分析和决策价值,通过构建在大数据平台之上整合业务能力,为用户提供融

合、个性化的内容服务。

从内容传输到内容制造。使用大数据挖掘技术提前先于观众知道他们需求,预知将受到追捧的电视。另外, 还可通过

观众对演员、情节、基调、类型等元数据的标签化,来了解受众偏好,从而进行分析观测,为后续的影视制作等内容开发

做好准备。

作为众多广电运营商其中的重要一员,华数传媒的这些需求,也是广电运营商们的共同诉求。

针对华数传媒的需要,国内首家专业的企业级Hadoop发行版厂商星环科技给出了令人满意的答卷。 星环科技基于自

主研发的一站式Hadoop发行版Transwarp Data Hub (TDH),综合运用了其中的TDH Hadoop、Inceptor分布式内存引擎、

Hyperbase实时数据库等技术产品组件,为华数传媒提供了如下的综合方案:

数字电视分析系统

TDH平台用以整合各个相关数据源数据,包括Portal、CA、CDN、SRM日志、用户使用浏览信息、AAA、BOSS结构化

数据、用户基本信息、消费数据、用户上网流量数据、网管数据等。通过TDH的快速分布式数据查询引擎,实现海量数据

的秒级查询。为用户提供智能推荐、实时榜单和新媒体指数分析。

提供基于全量数据的实时榜单。以时间(小时/天/周)、 用户等维度,对点播节目、直播节目、节目类别、搜索关键

词等进行排名分析、同比环比分析、趋势分析等。地区风向标主要以城市和时间等维度分析点播排行、剧集排行、分类排

行、热搜排行及用户数量的变化。另外,从时间、频道、影片类型、剧集等维度, 根据在看数量、新增数量、结束观看

数量、完整看完等分析用户走向。

新媒体指数分析。通过对用户行为分析获取很多的隐性指标,从侧面反映用户对业务的认可度、用户的使用行为习惯

等。在此基础之上,TDH大数据分析可帮助华数传媒构建规范的指标分析和衡量体系,为业务运营提供强有力的指导。

智能推荐。运用星环科技大数据基础架构,通过对用户行为数据的采集分析,进行精准画像,使用智能推荐引擎,实

现信息的个性化推荐(TV屏、手机、PC),个性化营销(个性化广告、丰富产品组合、市场分析)。

基于可持续扩展和优化智能推荐算法,以及大数据带来的实时数据交互能力,为每一个用户量身定做的推荐节目极

大提高了产品的到达率,增强了用户忠诚度。

结语:

对于包括广电运营商在内的众多企业而言,精细化的用户需求掌控是未来发展不可变更的趋势。在此,Hadoop发行版

系统再次证明了其业务价值,这是传统数据管理系统力所不能及的。星环科技是国内鲜有的掌握企业级Hadoop和Spark核

心技术的高科技创业公司,在电信、金融、交通、政府等领域的落地应用拥有丰富经验。相信通过类似星环科技

的Hadoop发行版系统,企业级大数据应用将更能顺应业务发展要求,企业也可更从容面对市场竞争。

40

Page 43: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

EMS迎战“双十一”

近年来,我国快递行业的规模随着电子商务的井喷出现了快速的扩张。据统计,全国现在已有上百万快递从业人员、

十几万营业网点、几十万辆快递货车和一年近百亿件业务量。这些数字还在以每年超过40%的速率增长。天文数字的市场

需求给快递公司带来了巨大的商机和前所未有的挑战。

首先,快递行业公司众多,彼此竞争极为激烈,在人工价格上升的趋势下还要维持服务的低价并且盈利,就必须严格

控制成本。而每年的“双十一”会给公司的处理能力施加远高于平时的压力。想必各位买家都已经历了今年“双十一”后

长达数天乃至一二周的漫长等待。因此,怎样缓解“双十一”的爆仓、避免快件变“慢件”是每个快递公司的难题。

“老问题新办法”,星环科技和华胜天成联手为国内EMS物流公司打造了面向未来的大数据Hadoop系统。依靠该系统

强大的实时数据处理能力,物流公司的“双十一”效率明显比往年高很多。

在项目研究阶段,星环科技和华胜天成的开发人员发现快递的效率其实在于流程管理,而当流程全部计算机化后,快

递公司面临的难题的答案其实就在自己手中 —— 它就是快递的每一个生产环节都会产生的大量数据。监控这些数据进而对

全国各处理中心的收寄和运载能力、出班投递计划做优化调整,公司就能降低成本。分析这些数据来对“双十一”的趋势

做出预测,公司就能做好准备应对暴涨的需求。然而,快递生产环节中的数据具有数据量大、类型复杂、结构杂乱的特

点,而上层应用对实时性要求很高,传统数据库在这样的情况下捉襟见肘,所以快递公司需要大数据解决方案。

问题与需求:

客户需要搭建一个大数据平台来对它在全国的揽投部、处理中心和集散中心的数据(包括已接收、留存件、已下段、

未下段、已投递、未投递、揽收员、地址、已封发、已发运、未发运等等)进行处理。大数据平台需要将ESB(企业生产

总线)流来的数据实时动态加载进数据库,进行处理和统计并且实现实时数据查询。客户原先的技术在每次处理数据时都

需要对所有数据进行一次全面ETL(萃取-转置-加载),查询延时在二十分钟以上,完全无法进行实时查询。

星环Hadoop发行版TDH方案实施效果

Transwarp Manager

星环专有 Apache 项目

(内置Transwarp Extension)资源管理 YARN

(内置Transwarp Erasure Code)优化存储 HDFS 2

Elastic Search 1.3.1Pig 0.13

批处理

Mahout 0.9机器学习

Oozie 4.0.1工作流

Sqoop 1.99.4数据集成

Flume 1.4日志采集 全文搜索

Map/Reduce 2批处理框架

Zookeeper 3.4.5协作服务

HUE 3.8.1交互工具

Inceptor

PL/SQL批处理

交互式引擎

Discover

数据挖掘

机器学习

Hyperbase

NoSQL数据库

搜索、图计算

Stream

流处理

引擎框架

上图为TDH平台中的所有组件。在快递公司项目中,这些组件中起主要作用的是Transwarp Stream,

Transwarp Hyperbase和Transwarp Inceptor。

Transwarp Stream 实时流处理引擎以Spark Streaming为基础提供强大的流处理能力,它拥有:

更强的表达能力:支持DAG计算模型

丰富的输出方式:HBase,告警页面,实时展示页面

广泛的应用场景:传感器网络处理,服务监控,反作弊

41

Page 44: 最新hadoop大数据行业应用案例集 - transwarp.io Hadoop应用案例大全.pdf · 第十二章大数据助力佛山电力需求侧管理 ... 一方面,Transwarp Inceptor运行在JVM上,使用大内存的时候,对GC

42

TCP

Transwarp Stream 集群

Hyperbase 集群

Inceptor Server 集群JDBC

ApI 查询

HTTPESB总线 网络文件

J2EE 应用

J2EE应用

TDH通过此项目在国内乃至全球的快递行业中首次用大数据Hadoop发行版实现了生产环节数据的实时监控。效果如

下:

数据实现实时导入:数据从ESB总线上流入、TDH处理完毕到查询结果显示的整个过程不超过1秒,导入平均速度为每秒

1700条,仅需要用到TDH最高性能的1/500。

数据处理时间迅速:Transwarp Stream对单条数据的处理在毫秒级完成,平均一条记录从处理到进入Transwarp Hyper-

base只需要1-2毫秒左右。

数据查询简单高效:合作方的J2EE应用要求的秒级查询能由TDH平台轻松胜任。而TDH提供的JavaAPI和JDBC接口可以非

常简单地与现有系统进行集成从而实现数据查询,对于现有的企业级开发环境极其友好,应用迁移难度很小,快递公司的

工作人员可以无学习成本地上手使用。

TDH可毫无延迟地反映快递公司遍布全国的海量业务的最真实情况,给了快递公司简单易用的工具来对业务的每个环

节实时监控,使得快递公司在海量的快递业务中都可以快速精准地发现问题,如快件的积压、遗失、破损等,进而提高服

务质量。TDH也可以根据最新的生产数据帮助快递公司随时调整优化投递计划,为公司降低成本。TDH更可以帮助快递公

司分析趋势,为“双十一”和其他节假日带来的压力提前做好准备。

Transwarp Hyperbase 实时在线数据处理引擎以Apache HBase为基础,是企业建立高并发的在线业务系统的最佳选择。

它拥有:

多种数据类型的支持: 支持结构化、半结构化和非结构化数据

高速处理能力: 延时在数毫秒到数百毫秒级,上亿并发

OLAP和批量统计: 支持高速的OLAP统计和SQL离线批处理

高效的图形计算: 提供图形构造API和专有的高效图算法

Transwarp Inceptor 内存分析引擎提供大数据的高速交互式SQL统计和R语言挖掘。它拥有:

更快的性能: 比Hadoop快10倍到100倍,比MPP快2倍到10倍

更强SQL支持: 兼容Oracle PL/SQL和HiveQL语法

更强分析能力: 支持R语言,提供更多的并行化算法

BI和报表工具:支持Tableau,SAP BO, Oracle OBIEE

超高扩展能力:线性扩展,支持GB到PB数据的快速处理

超强稳定性:经过验证的稳定版本,7x24小时不间断运行

这三大组件在快递公司项目中的工作流程为(如下图所示):从ESB总线和网络文件加载数据到Transwarp Stream 集

群中进行处理;处理完毕后存入Transwarp Hyperbase;提供API给上层J2EE应用实时查询数据;也可以提供JDBC接口给

上层J2EE应用从基于Hyperbase建立的Inceptor外表中实时查询数据。