大数据让企业实现“大智能” - doc.yonyoucloud.com ·...
Transcript of 大数据让企业实现“大智能” - doc.yonyoucloud.com ·...
yonyou Network Technology Co., Ltd..
数据基础架构思路应该由“一种架构支持所应用转变成多种架构支持多类应用”
—Michael � Stonebraker � 现代数据库的基础架构奠基人,图灵奖获得者
数据基础架构的演进Predicted � usage � swing � 2014-2017
Apache � Cassandra/DataStax
Apache � CouchDB
Apache � Hbase
Redis
PostgreSQL
DB2
Oracle
SQL � Server
MySQL
3.4
3.0
2.9
2.5
2.4
-30.0 � � � � � � � -25.0 � � � � � � -20.0 � � � � � � � -15.0 � � � � � � -10.0 � � � � � � � � -5.0 � � � � � � � � � 0.0 � � � � � � � � � � 5.0
Analyzing � the � Business � of � EnterpriselT � lnnovation
一种架构支持多类应用
分析
大数据时代
NewSQL分析型系统
OldSQL事务型系统
Hadoop/NoSQL大规模/互联网系统
大规模/互联网
OldSQL
事务
多种架构支持多类应用
-1.5 �
-5.9
-9.3
-26.4
yonyou Network Technology Co., Ltd..
应用趋势与大家的挑战
基础架构
组织与管理
分析挖掘
自动化决策面对大数据的最大挑战(%)
0% � � � � � � � � � 5% � � � � � � � � � 10% � � � � � � 15% � � � � � � � � � 20% � � � � � � � 25%
缺乏相关的分析人员
决定哪些数据相关
技术基础构架的成本
缺乏足够的IT技能管理大数据项目
难以获得回报/执行很复杂
业务层次
技术差距
来源:IDC软件市场最终用户调研 2014 � (n=750,中国=100)
yonyou Network Technology Co., Ltd..
数据源 数据采集 组织存储 探索分析 可视化决策
iUAP � Datalnsight
Yonyou � BQ
BQ � Mobile
3rd
iUAP � Dl(数据集成)Data � Integrator
iUAP � CDC(实时数据同步)Change � Data � Capture
数据采集
数据质量 模型管理模型管理
数据转换组件
文件
插件化,可扩展的数据类型支持
JDBC ODBC JMS SOAP Others
实时
增量
push
pull
Yonyou � AE(加速引擎)Accelerstion � Engine
iUAP � UDH(大数据引擎)iUAP � Distribution � for � Hadoop
Cluster � Manager
NoSQLSQL
Hadoop/HDFS
SQL � on � Hadoop
统一建模与管理
海量结构化数据分析
Data � Studio 调度 用户
元数据仓库 日志 监控
OLAP模型 挖掘模型
元数据
语义模型
数据处理技术的阶段
yonyou Network Technology Co., Ltd..
我们能够做到
• 支持多种类型数据来源的数据集成
• 支持基于DB日志解析的增量数据实时同步
• 支持企业外部数据(互联网)的采集获取
• 支持仓库,分析,挖掘的可视化建模
• 支持模型的统一管理
• 支持10倍以上的分析效率提升
• 支持10倍以上的数据空间压缩
• 支持与分析应用的透明隔离,零成本
• 支持结构化和非结构化数处理
• 支持PB级数据量的分布式并行处理
• 支持离线批量和在线实时的数据处理
数据整合 海量处理 统一建模分析加速
• 支持广泛的数据源类型和算法
• 支持分布式并行架构,提升计算效率
• 支持CRISP-DM和PMML标准规范
• 支持丰富的面向主题的模型和结果可视化组件
• 支持R语言
挖掘预测
yonyou Network Technology Co., Ltd..
• 支持常见的数据源类型和专有定制来源
• 丰富的数据处理组件,通过流程设计定制处理逻辑
• 支持集群调度管理,提供完善的日志监控服务
• 集成仓库模型,分析模型,提供仓库全局视图,提升建模效率
• 支持对过程质量和结果质量进行监控,评估。
异构数据源集成AE
资源库
ODS
数据仓库
元数据管理数据源 设计器
……
管理控制台
数据库
Excel
扩展接口
WEBXmlRSS
业务接口
定时设计器
作业设计器
任务设计器
元数据存取 元数据集成
数据库 数据库 数据库 数据库 数据库
数据读取接口
数据写入接口
执行参数
执行策略
异常控制
数据抽取
数据转换
数据转换
yonyou Network Technology Co., Ltd..
AE仓库
控制台
消息缓存日志
消息缓存
挖掘线程
全表加载
增量同步
监控
Socket
增量同步
全表写入
加载线程
管理服务器
消息队列
代理 代理
导出文件 导入文件
• 基于日志解析的增量获取技术• 分布式并行传输,高吞吐量• 容错机制,保证数据一致性• 与AE深度整合,高加载效率
实时数据同步
yonyou Network Technology Co., Ltd..
iUAP � AE(结构化数据引擎)性能提升效果
1400
相应时间(秒)
查询响应时间对比场景一.查询
场景二.展开
场景三.排序
场景四.同比分
析场景四.环比分析
场景五.切换指标
场景五.切换维度
场景六.父级占比
场景七.查询
场景八.查询
AE � � � � � � � ORACLE
22.9
848.42
59.51
1192.47
41.55
1008.98
50.68
362.43 363.31
131.26
20.2
875.31
35.29
616.2
37.69
876.84
37.79
342.01
175.68
1364.68
1200
1000
800
600
400
200
0
yonyou Network Technology Co., Ltd..
大数据引擎UDH
企业管理器 Hadoop组件
安装配置
预警日志
服务管理
运行监控
安全审计
ImpalaMPP架构数据分析引擎
Hue交互式的工作平台
Pig数据处理工具
Zookeeper分布式协调服务
HDFS存储海量结构化,非结构化数据
Oozie
工作流调度
YARN分布式的资源管理
MapReduce基础数据处理
HIVE统计分析
HBASE海量数据的随机存取
UAP � Disturbution � for � Hadoop-UDH
开源 UAP
数据集成
第三方管理系统统一管理集成,接口集成
应用系统BI系统,数据管理系统…
开发平台数据处理,读取服务…
外部数据源业务系统,数据仓库…
yonyou Network Technology Co., Ltd..
• 面向结构化和非结构化数据处理的完整解决方案
• 利用UDH处理组件的横向扩展,并行处理的能力提升大数据处理的效率
• 统一的SQL查询引擎,屏蔽底层数据架构差异
• 结合yonyou � BQ,iUAP � DataInsight或第三方工具进行海量数据的探索,实现深度分析
海量数据的深度分析
HUE
AE � DW
Hive
HBase
HDFS
AE � DI
SQL-on-Hadoop
数据仓库
OLTP文件
OLTP业务系统
yonyou BQ iUAP � DataInsight 3rd(Qlik,tableau)数据服务
查询引擎 挖掘引擎OLAP引擎
yonyou Network Technology Co., Ltd..
数据挖掘DataInsight
• 大量预处理组件,可视化拖拽设计,支持完整的挖掘建模流程
• 内置回归,分类,聚类,关联,时间序列等常见算法和分析模型,支持分布式并行计算,高性能的计算引擎
• 集成定制的R引擎,3-5倍的性能提升。
• 丰富的数据可视化组件和部署方式
挖掘预测平台
yonyou Network Technology Co., Ltd..
丰富的数据可视化
红秀网络金威蛋糕
打豆豆长理乐购长理湘味馆
汉唐华都酒店酒醉粥饱
绝味鸭脖
木桶饭
太和公鱼粉
东门星期吧奶茶咖啡
九九鸭脖
学友家菜馆
好香来重庆酸辣粉店
湘村发现家菜馆7号
蛋糕
大拇指五谷杂粮竹筒饭原香聚园
铭达餐馆
青春年华会所
水木时光公寓酒店 湘村发现
77商务宾馆 chtc范
yaya
常德人家
达菲卡韩国拌饭
卤大师麻辣香锅
抹茶啊hian
思乐客快餐连锁店理工店
微微盖码饭
鑫蔓酒吧0731飞速外卖
爱情公寓
驴肉火烧
台湾水晶锅
西门移动营业厅
心点小滋
365假日客房
80后农庄
uncle罗的小屋 yz爵士餐吧
帝豪娱乐会所
疯狂涮烤屋自助餐
桔子屋
绿色空间
麦乐司
水玲龙
特色面粉馆
甜品小姐一号店西门老食客砂锅煲
西门御鲜斋
校园外cafe中西餐厅
鱼飞瑜伽
至尊宾馆
博鑫图文
假日旅馆
绝味麻辣烫
随心小吃
吾饮良品
伍氏猪脚
西门老四川外卖
8090奶茶店
life网店
rainbow
爱德华
铂爵婚纱皇家会馆
茶树网免费课程学习
查尔斯顿眼镜
楚沩美膳
啡域街头行动咖啡贵哥卤肉卷
韩国skin世锦整形医院
韩国纸上烤肉
杭州小笼包
湖南土特产
华伦宾馆 回味香锅
美乐滋汉堡店
觅恬时光
水无香照相咖啡馆
天骄宾馆
跳跳石锅鱼
無名理发店
五味草堂
西门油炸店
湘园大碗饭
雪飞台球
颐源堂足道养生会所
雨欣图文印刷
八分快印
大光明眼镜
地下铁奶茶
光影水吧果果部落ktv
好呷家菜馆
华贵台球
加拿大木斯西餐吧
交院奶熊奶茶
开胃王泡菜
老同学西北拉面
乐哈哈
美习化妆品
同鑫源麻辣香锅
万斯代理店
旺旺餐馆
旺旺铁锅焖面
无名粉店勿忘我螺蛳粉
兴宇公寓
永捷图文
蒸味道快餐店
中通快递
-2 0 2 4 6
-50
510
15
Factor1
Factor2
0 100 200 300
0.0e+00
5.0e+06
1.0e+07
1.5e+07
2.0e+07
Recency
Monetary
yonyou Network Technology Co., Ltd..
1
32
用友数据处理平台
提升企业的数据管理能力多业务系统,不同数据类型数据,实现统一管理
洞察数据的价值PB级数据存储,计算,分析能力,轻松应
对海量数据处理,提供高效的数据挖掘引擎
实时掌握经营状态,快人一步秒级延迟的数据同步,百倍的分析加速,快速从
海量信数据中提取有价值信息
扩大企业数据的边界实现外部数据(客户,宏观,对手,舆情等)与内
部数据的综合分析
商业价值
yonyou Network Technology Co., Ltd..
应用案例(一):即席查询应用加速
User User User UserUser User
CDC工具
列式数据库引擎—AE 行式数据库引擎—Oracle
解决方案• 通过CDC工具,实时增量同步数据到列式数据库引擎,剥离应用场景
• 利用采用高压缩比,并行处理,智能索引的列式数据库引擎AE,加速查询分析
即席查询应用特点• 根据条件动态生成查询SQL,非预先定制• 通常需要消耗大量的磁盘I/O导致整个业务系统性能下降
yonyou Network Technology Co., Ltd..
应用案例(一):优化结果
SQL 期间 AE(优化前)
ORACLE(优化前) 数据结果
SQL(1)查一个月 10.52 秒 60秒 均为1437行查七个月 29.17秒 20分钟以上 均为9400行查2010全年至今 40.15秒 未测试完成 18145行
SQL(2)查一个月 35.21 秒 228秒 均为 236行查七个月 46.15秒 20分钟以上 均为1468行查2010全年至今 26.58秒 未测试完成 2801行
SQL(3)查一个月 82.2秒 87.906秒 均为126485行查七个月 132.27秒 20分钟以上 均为728740行查2010全年至今 236秒 未测试完成 1292748行
SQL(4)查一个月 120秒 66.687秒 均为63行查七个月 251秒 20分钟以上 均为398行查2010全年至今 5分16秒 未测试完成 740行
单表1亿5千万行
表明 数据记录行数
147113
5406098
198695
4324
9197164
4680662
152541214
96017
346041
22493
crm_customer
pub_item_master
pub_item_type_explode
sal_classify_customer
sal_consign_detail
sal_consign_head
sal_org_customer_access_v
sal_return
sal_return_detail
sam_users
结果分析• 小范围查询期间场景性能相当• 大范围查询期间(超过半年)AE优势明显• 更大范围期间oracle完全无法支撑,AE能够从容应付
yonyou Network Technology Co., Ltd..
应用案例(二):医疗诊断数据中心解决方案
解决方案• 根据数据和业务场景,采用列式数据仓库AE与大数据处理引擎UDH的混合架构
• 通过统一查询层屏蔽底层数据差异
系统需求• 结构化数据和非结构化数据(XML,JSON,文档等)混合存储,统一管理
• 同时支持业务应用与数据分析• 支持大量读操作和少量直接写操作
主题数据库
ODS库 临床文档库 交换信息库
知识库
外部交换库外网应用预约管理..….数据上报运营分析闭环管理院感
基础数据库
渠道应用数据库 外部交换数据库
知识库
数据服务层
医院服务总线(HSB)
应用数据库
基础数据库及服务
应用数据
MPI IDM MDM 数据标准 安全隐私管理
存储服务 查询服务
HIS 麻醉 影响 心电 病历 检验 血透 感染 …
yonyou Network Technology Co., Ltd..
应用案例(二):数据架构
统一数据服务
数据采集与交换
电子病历 健康档案 医疗文档 医学影像 健康物联网
高价值密度数据(结构化) 低价值密度数据(结构化、非结构化、半结构化)
数据集市 数据模型 批量数据
ODS
DWD
DWA
数据集市 数据集市
列式数据仓库AE
冷数据存储集中存储
列式数据仓库AE结构化高价值数据
大数据处理平台
UDH 手术视频
医疗图像
……
文档文件
个人健康数据
……
电子病历
诊断结果
……
非结构化 半结构化 结构化