大数据让企业实现“大智能” - doc.yonyoucloud.com ·...

22
yonyou Network Technology Co., Ltd.. 大数据让企业实现“大智能” ——用友数据处理平台介绍 用友集团iUAP中心 2015年5月5日

Transcript of 大数据让企业实现“大智能” - doc.yonyoucloud.com ·...

yonyou Network  Technology  Co.,  Ltd..

大数据让企业实现“大智能”——用友数据处理平台介绍

用友集团iUAP中心

2015年5月5日

yonyou Network  Technology  Co.,  Ltd..

腾讯

数据范畴的延伸

yonyou Network  Technology  Co.,  Ltd..

数据基础架构思路应该由“一种架构支持所应用转变成多种架构支持多类应用”

—Michael � Stonebraker � 现代数据库的基础架构奠基人,图灵奖获得者

数据基础架构的演进Predicted � usage � swing � 2014-2017

Apache � Cassandra/DataStax

Apache � CouchDB

Apache � Hbase

Redis

PostgreSQL

DB2

Oracle

SQL � Server

MySQL

3.4

3.0

2.9

2.5

2.4

-30.0 �  �  �  �  �  �  � -25.0 �  �  �  �  �  � -20.0 �  �  �  �  �  �  � -15.0 �  �  �  �  �  � -10.0 �  �  �  �  �  �  �  � -5.0 �  �  �  �  �  �  �  �  � 0.0 �  �  �  �  �  �  �  �  �  � 5.0

Analyzing � the � Business � of � EnterpriselT � lnnovation

一种架构支持多类应用

分析

大数据时代

NewSQL分析型系统

OldSQL事务型系统

Hadoop/NoSQL大规模/互联网系统

大规模/互联网

OldSQL

事务

多种架构支持多类应用

-1.5 � 

-5.9

-9.3

-26.4

yonyou Network  Technology  Co.,  Ltd..

应用趋势与大家的挑战

基础架构

组织与管理

分析挖掘

自动化决策面对大数据的最大挑战(%)

0% �  �  �  �  �  �  �  �  � 5% �  �  �  �  �  �  �  �  � 10% �  �  �  �  �  � 15% �  �  �  �  �  �  �  �  � 20% �  �  �  �  �  �  � 25%

缺乏相关的分析人员

决定哪些数据相关

技术基础构架的成本

缺乏足够的IT技能管理大数据项目

难以获得回报/执行很复杂

业务层次

技术差距

来源:IDC软件市场最终用户调研 2014 � (n=750,中国=100)

yonyou Network  Technology  Co.,  Ltd..

数据源 数据采集 组织存储 探索分析 可视化决策

iUAP � Datalnsight

Yonyou � BQ

BQ � Mobile

3rd

iUAP � Dl(数据集成)Data � Integrator

iUAP � CDC(实时数据同步)Change � Data � Capture

数据采集

数据质量 模型管理模型管理

数据转换组件

文件

插件化,可扩展的数据类型支持

JDBC ODBC JMS SOAP Others

实时

增量

push

pull

Yonyou � AE(加速引擎)Accelerstion � Engine

iUAP � UDH(大数据引擎)iUAP � Distribution � for � Hadoop

Cluster � Manager

NoSQLSQL

Hadoop/HDFS

SQL � on � Hadoop

统一建模与管理

海量结构化数据分析

Data � Studio 调度 用户

元数据仓库 日志 监控

OLAP模型 挖掘模型

元数据

语义模型

数据处理技术的阶段

yonyou Network  Technology  Co.,  Ltd..

我们能够做到

• 支持多种类型数据来源的数据集成

• 支持基于DB日志解析的增量数据实时同步

• 支持企业外部数据(互联网)的采集获取

• 支持仓库,分析,挖掘的可视化建模

• 支持模型的统一管理

• 支持10倍以上的分析效率提升

• 支持10倍以上的数据空间压缩

• 支持与分析应用的透明隔离,零成本

• 支持结构化和非结构化数处理

• 支持PB级数据量的分布式并行处理

• 支持离线批量和在线实时的数据处理

数据整合 海量处理 统一建模分析加速

• 支持广泛的数据源类型和算法

• 支持分布式并行架构,提升计算效率

• 支持CRISP-DM和PMML标准规范

• 支持丰富的面向主题的模型和结果可视化组件

• 支持R语言

挖掘预测

yonyou Network  Technology  Co.,  Ltd..

• 支持常见的数据源类型和专有定制来源

• 丰富的数据处理组件,通过流程设计定制处理逻辑

• 支持集群调度管理,提供完善的日志监控服务

• 集成仓库模型,分析模型,提供仓库全局视图,提升建模效率

• 支持对过程质量和结果质量进行监控,评估。

异构数据源集成AE

资源库

ODS

数据仓库

元数据管理数据源 设计器

……

管理控制台

数据库

Excel

扩展接口

WEBXmlRSS

业务接口

定时设计器

作业设计器

任务设计器

元数据存取 元数据集成

数据库 数据库 数据库 数据库 数据库

数据读取接口

数据写入接口

执行参数

执行策略

异常控制

数据抽取

数据转换

数据转换

yonyou Network  Technology  Co.,  Ltd..

iUAP � DI(数据集成)

整合元数据

丰富的组件拖拽式设计

全面的诊断日志集群监控管理,全面掌握调度状态

yonyou Network  Technology  Co.,  Ltd..

AE仓库

控制台

消息缓存日志

消息缓存

挖掘线程

全表加载

增量同步

监控

Socket

增量同步

全表写入

加载线程

管理服务器

消息队列

代理 代理

导出文件 导入文件

• 基于日志解析的增量获取技术• 分布式并行传输,高吞吐量• 容错机制,保证数据一致性• 与AE深度整合,高加载效率

实时数据同步

yonyou Network  Technology  Co.,  Ltd..

iUAP � CDC(数据同步工具)

分布式并行传输

实时状态监控,表对比,异常处理策略等保证数据质量

yonyou Network  Technology  Co.,  Ltd..

结构化数据引擎

yonyou Network  Technology  Co.,  Ltd..

iUAP � AE(结构化数据引擎)性能提升效果

1400

相应时间(秒)

查询响应时间对比场景一.查询

场景二.展开

场景三.排序

场景四.同比分

析场景四.环比分析

场景五.切换指标

场景五.切换维度

场景六.父级占比

场景七.查询

场景八.查询

AE �  �  �  �  �  �  � ORACLE

22.9

848.42

59.51

1192.47

41.55

1008.98

50.68

362.43 363.31

131.26

20.2

875.31

35.29

616.2

37.69

876.84

37.79

342.01

175.68

1364.68

1200

1000

800

600

400

200

0

yonyou Network  Technology  Co.,  Ltd..

大数据引擎UDH

企业管理器 Hadoop组件

安装配置

预警日志

服务管理

运行监控

安全审计

ImpalaMPP架构数据分析引擎

Hue交互式的工作平台

Pig数据处理工具

Zookeeper分布式协调服务

HDFS存储海量结构化,非结构化数据

Oozie

工作流调度

YARN分布式的资源管理

MapReduce基础数据处理

HIVE统计分析

HBASE海量数据的随机存取

UAP � Disturbution � for � Hadoop-UDH

开源 UAP

数据集成

第三方管理系统统一管理集成,接口集成

应用系统BI系统,数据管理系统…

开发平台数据处理,读取服务…

外部数据源业务系统,数据仓库…

yonyou Network  Technology  Co.,  Ltd..

• 面向结构化和非结构化数据处理的完整解决方案

• 利用UDH处理组件的横向扩展,并行处理的能力提升大数据处理的效率

• 统一的SQL查询引擎,屏蔽底层数据架构差异

• 结合yonyou � BQ,iUAP � DataInsight或第三方工具进行海量数据的探索,实现深度分析

海量数据的深度分析

HUE

AE � DW

Hive

HBase

HDFS

AE � DI

SQL-on-Hadoop

数据仓库

OLTP文件

OLTP业务系统

yonyou BQ iUAP � DataInsight 3rd(Qlik,tableau)数据服务

查询引擎 挖掘引擎OLAP引擎

yonyou Network  Technology  Co.,  Ltd..

数据挖掘DataInsight

• 大量预处理组件,可视化拖拽设计,支持完整的挖掘建模流程

• 内置回归,分类,聚类,关联,时间序列等常见算法和分析模型,支持分布式并行计算,高性能的计算引擎

• 集成定制的R引擎,3-5倍的性能提升。

• 丰富的数据可视化组件和部署方式

挖掘预测平台

yonyou Network  Technology  Co.,  Ltd..

丰富的数据可视化

红秀网络金威蛋糕

打豆豆长理乐购长理湘味馆

汉唐华都酒店酒醉粥饱

绝味鸭脖

木桶饭

太和公鱼粉

东门星期吧奶茶咖啡

九九鸭脖

学友家菜馆

好香来重庆酸辣粉店

湘村发现家菜馆7号

蛋糕

大拇指五谷杂粮竹筒饭原香聚园

铭达餐馆

青春年华会所

水木时光公寓酒店 湘村发现

77商务宾馆 chtc范

yaya

常德人家

达菲卡韩国拌饭

卤大师麻辣香锅

抹茶啊hian

思乐客快餐连锁店理工店

微微盖码饭

鑫蔓酒吧0731飞速外卖

爱情公寓

驴肉火烧

台湾水晶锅

西门移动营业厅

心点小滋

365假日客房

80后农庄

uncle罗的小屋 yz爵士餐吧

帝豪娱乐会所

疯狂涮烤屋自助餐

桔子屋

绿色空间

麦乐司

水玲龙

特色面粉馆

甜品小姐一号店西门老食客砂锅煲

西门御鲜斋

校园外cafe中西餐厅

鱼飞瑜伽

至尊宾馆

博鑫图文

假日旅馆

绝味麻辣烫

随心小吃

吾饮良品

伍氏猪脚

西门老四川外卖

8090奶茶店

life网店

rainbow

爱德华

铂爵婚纱皇家会馆

茶树网免费课程学习

查尔斯顿眼镜

楚沩美膳

啡域街头行动咖啡贵哥卤肉卷

韩国skin世锦整形医院

韩国纸上烤肉

杭州小笼包

湖南土特产

华伦宾馆 回味香锅

美乐滋汉堡店

觅恬时光

水无香照相咖啡馆

天骄宾馆

跳跳石锅鱼

無名理发店

五味草堂

西门油炸店

湘园大碗饭

雪飞台球

颐源堂足道养生会所

雨欣图文印刷

八分快印

大光明眼镜

地下铁奶茶

光影水吧果果部落ktv

好呷家菜馆

华贵台球

加拿大木斯西餐吧

交院奶熊奶茶

开胃王泡菜

老同学西北拉面

乐哈哈

美习化妆品

同鑫源麻辣香锅

万斯代理店

旺旺餐馆

旺旺铁锅焖面

无名粉店勿忘我螺蛳粉

兴宇公寓

永捷图文

蒸味道快餐店

中通快递

-­2 0 2 4 6

-­50

510

15

Factor1

Factor2

0 100 200 300

0.0e+00

5.0e+06

1.0e+07

1.5e+07

2.0e+07

Recency

Monetary

yonyou Network  Technology  Co.,  Ltd..

1

32

用友数据处理平台

提升企业的数据管理能力多业务系统,不同数据类型数据,实现统一管理

洞察数据的价值PB级数据存储,计算,分析能力,轻松应

对海量数据处理,提供高效的数据挖掘引擎

实时掌握经营状态,快人一步秒级延迟的数据同步,百倍的分析加速,快速从

海量信数据中提取有价值信息

扩大企业数据的边界实现外部数据(客户,宏观,对手,舆情等)与内

部数据的综合分析

商业价值

yonyou Network  Technology  Co.,  Ltd..

应用案例(一):即席查询应用加速

User User User UserUser User

CDC工具

列式数据库引擎—AE 行式数据库引擎—Oracle

解决方案• 通过CDC工具,实时增量同步数据到列式数据库引擎,剥离应用场景

• 利用采用高压缩比,并行处理,智能索引的列式数据库引擎AE,加速查询分析

即席查询应用特点• 根据条件动态生成查询SQL,非预先定制• 通常需要消耗大量的磁盘I/O导致整个业务系统性能下降

yonyou Network  Technology  Co.,  Ltd..

应用案例(一):优化结果

SQL 期间 AE(优化前)

ORACLE(优化前) 数据结果

SQL(1)查一个月 10.52 秒 60秒 均为1437行查七个月 29.17秒 20分钟以上 均为9400行查2010全年至今 40.15秒 未测试完成 18145行

SQL(2)查一个月 35.21 秒 228秒 均为 236行查七个月 46.15秒 20分钟以上 均为1468行查2010全年至今 26.58秒 未测试完成 2801行

SQL(3)查一个月 82.2秒 87.906秒 均为126485行查七个月 132.27秒 20分钟以上 均为728740行查2010全年至今 236秒 未测试完成 1292748行

SQL(4)查一个月 120秒 66.687秒 均为63行查七个月 251秒 20分钟以上 均为398行查2010全年至今 5分16秒 未测试完成 740行

单表1亿5千万行

表明 数据记录行数

147113

5406098

198695

4324

9197164

4680662

152541214

96017

346041

22493

crm_customer

pub_item_master

pub_item_type_explode

sal_classify_customer

sal_consign_detail

sal_consign_head

sal_org_customer_access_v

sal_return

sal_return_detail

sam_users

结果分析• 小范围查询期间场景性能相当• 大范围查询期间(超过半年)AE优势明显• 更大范围期间oracle完全无法支撑,AE能够从容应付

yonyou Network  Technology  Co.,  Ltd..

应用案例(二):医疗诊断数据中心解决方案

解决方案• 根据数据和业务场景,采用列式数据仓库AE与大数据处理引擎UDH的混合架构

• 通过统一查询层屏蔽底层数据差异

系统需求• 结构化数据和非结构化数据(XML,JSON,文档等)混合存储,统一管理

• 同时支持业务应用与数据分析• 支持大量读操作和少量直接写操作

主题数据库

ODS库 临床文档库 交换信息库

知识库

外部交换库外网应用预约管理..….数据上报运营分析闭环管理院感

基础数据库

渠道应用数据库 外部交换数据库

知识库

数据服务层

医院服务总线(HSB)

应用数据库

基础数据库及服务

应用数据

MPI IDM MDM 数据标准 安全隐私管理

存储服务 查询服务

HIS 麻醉 影响 心电 病历 检验 血透 感染 …

yonyou Network  Technology  Co.,  Ltd..

应用案例(二):数据架构

统一数据服务

数据采集与交换

电子病历 健康档案 医疗文档 医学影像 健康物联网

高价值密度数据(结构化) 低价值密度数据(结构化、非结构化、半结构化)

数据集市 数据模型 批量数据

ODS

DWD

DWA

数据集市 数据集市

列式数据仓库AE

冷数据存储集中存储

列式数据仓库AE结构化高价值数据

大数据处理平台

UDH 手术视频

医疗图像

……

文档文件

个人健康数据

……

电子病历

诊断结果

……

非结构化 半结构化 结构化

yonyou Network  Technology  Co.,  Ltd..

应用案例(三):行业分析行业资讯/动态

行业法律法规

行业指标数据

行业报告

经济数据

企业指标数据

指标数据体系

支持

可视化控件区 选择/切换可视化控件 可视化工具服务输出

用友数据图谱

燃气行业

水泥行业

食品行业

化工行业

航空业

家电行业

地产行业

轨道交通行业

农资行业