SDC ETL 融合数据 - 四方伟业-为国家民族软件产业做贡献四方伟业SDC ETL...
Transcript of SDC ETL 融合数据 - 四方伟业-为国家民族软件产业做贡献四方伟业SDC ETL...
SDC ETL 融合数据
产品白皮书 文档版本 02 发布日期 2017-01-23
成都四方伟业软件股份有限公司
Chengdu Sefon Software Co.,LTD
成都四方伟业软件股份有限公司
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
i
版权所有 © 成都四方伟业软件股份有限公司 2017。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传
播。
商标声明 和其他商标均为成都四方伟业软件股份有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意 您购买的产品、服务或特性等应受四方伟业商业合同和条款的约束,本文档中描述的全部或部分产品、服务
或特性可能不在您的购买或使用范围之内。除非合同另有约定,四方伟业对本文档内容不做任何明示或暗示
的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本
文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
成都四方伟业软件股份有限公司
地址: 成都市高新区科园三路 4 号火炬时代 C 区 2F
网址: http://www.sefonsoft.com
客户服务邮箱: [email protected]
客户服务电话: 4000-660-998
成都四方伟业软件股份有限公司
大数据可视化平台 技术白皮书 目录
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
ii
目录
1 用户面临的挑战.............................................................................................................................. 4
2 核心价值 .......................................................................................................................................... 5
2.1 批量采集 ..................................................................................................................................................................... 5
2.2 实时采集 ..................................................................................................................................................................... 5
2.3 网络爬虫 ..................................................................................................................................................................... 5
2.4 集群及高可靠性 ......................................................................................................................................................... 6
2.5 跨平台 ......................................................................................................................................................................... 6
2.6 丰富的组件 ................................................................................................................................................................. 6
3 功能介绍 .......................................................................................................................................... 7
3.1 ETL 设计器 ................................................................................................................................................................. 8
3.1.1 菜单栏 ...................................................................................................................................................................... 8
3.1.1.1 文件 ....................................................................................................................................................................... 8
3.1.1.2 编辑 ....................................................................................................................................................................... 8
3.1.1.3 执行 ....................................................................................................................................................................... 9
3.1.1.4 工具 ..................................................................................................................................................................... 10
3.1.1.5 示例 ..................................................................................................................................................................... 11
3.1.2 工具栏 .................................................................................................................................................................... 12
3.1.2.1 主工具栏 ............................................................................................................................................................. 12
3.1.2.2 转换工具栏 ......................................................................................................................................................... 12
3.1.2.3 作业工具栏 ......................................................................................................................................................... 13
3.1.3 组件库 .................................................................................................................................................................... 14
3.1.3.1 转换组件 ............................................................................................................................................................. 14
3.1.3.1.1 输入 .................................................................................................................................................................. 14
3.1.3.1.2 输出 .................................................................................................................................................................. 15
3.1.3.1.3 清洗 .................................................................................................................................................................. 16
3.1.3.1.4 大数据 .............................................................................................................................................................. 17
3.1.3.2 作业组件 ............................................................................................................................................................. 18
3.1.3.2.1 通用组件 .......................................................................................................................................................... 18
3.1.3.2.2 邮件组件 .......................................................................................................................................................... 18
3.1.3.2.3 文件组件 .......................................................................................................................................................... 19
成都四方伟业软件股份有限公司
大数据可视化平台 技术白皮书 目录
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
iii
3.1.4 新建资源库 ............................................................................................................................................................ 20
3.1.5 转换 ........................................................................................................................................................................ 20
3.1.5.1 转换流程编辑器 ................................................................................................................................................. 20
3.1.5.2 转换设置 ............................................................................................................................................................. 21
3.1.5.3 转换组件选项 ..................................................................................................................................................... 21
3.1.6 作业 ........................................................................................................................................................................ 23
3.1.6.1 作业流程编辑器 ................................................................................................................................................. 23
3.1.6.2 作业设置 ............................................................................................................................................................. 23
3.1.6.3 转换组件选项 ..................................................................................................................................................... 24
3.2 任务管理 ................................................................................................................................................................... 24
3.3 任务监控 ................................................................................................................................................................... 25
3.4 网络爬虫 ................................................................................................................................................................... 26
3.5 实时采集 ................................................................................................................................................................... 27
3.6 服务器管理 ............................................................................................................................................................... 28
3.7 业务配置 ................................................................................................................................................................... 29
3.7.1 ETL 资源库 ............................................................................................................................................................. 29
3.7.2 数据源 .................................................................................................................................................................... 29
3.7.3 报警规则 ................................................................................................................................................................ 30
3.8 系统日志 ................................................................................................................................................................... 30
4 行业应用 ........................................................................................................................................ 32
4.1 通信行业应用 ........................................................................................................................................................... 32
4.2 工业行业应用 ........................................................................................................................................................... 32
4.3 交通行业应用 ........................................................................................................................................................... 33
4.4 金融相关行业应用 ................................................................................................................................................... 34
4.5 电子政务应用 ........................................................................................................................................................... 34
成都四方伟业软件股份有限公司
1 用户面临的挑战
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
4
1 用户面临的挑战
目前,虽然各行业 IT 发展成熟度不一致,但基本已经度过了大批量业务系统建设阶段,
业务系统也经过了几年的运转,积累了不同量级的数据资源。但因早起 IT 业务系统的
很少跨部门、跨单位、跨层级的统一规划和建设,导致业务系统处于分散、独立的状况,
业务间数据资源不仅处于烟囱状态,数据资源的一致性和互用性较差,数据资源的价值
无法充分发挥。此外,各行业自身业务也在逐渐多元化和复杂化,业务产生和所需使用
的数据也就具有不确定和频繁变动性,导致一旦应用发生变化、新增系统或物理数据变
动,一旦无法借助某些手段适应变化,整个应用和数据体系均有较大可能不得不随之修
改。各行业如何通过各种技术手段,把数据转换为信息、知识,已经成为提高其核心竞
争力的主要瓶颈。
四方伟业 SDC ETL 融合数据产品就是解决上述问题的一个行之有效的解决方案,是四
方伟业根据 10 余年各行业集成交付经验,抽象、归纳多种业务应用问题,而推出的一
个基于不同行业、不同使用者交换汇集产品。SDC ETL 融合数据基于大数据基础平台提
供批量采集,网络爬虫,大数据迁移和实时采集等能力。负责将分布的、异构数据源中
的数据进行抽取、清洗、转换、集成,最后加载到数据仓库或数据集市中,整合数据,
把数据转换成信息、知识,成为报表展示、联机分析处理、数据挖掘的基础。
成都四方伟业软件股份有限公司
2 核心价值
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
5
2 核心价值
2.1 批量采集 提供存储过程、触发器、脚本、Sql等方式的批量采集能力;并可对 Oracle、Mysql、
SQLServer等的数据库日志进行分析,数据库日志级别的增量数据抽取,节省数据抽取
时间。
2.2 实时采集 提供实时消息流、消息队列等实时采集能力,通过实时采集数据,能够更好的监控,提
炼出所积累的有价值的数据进行实时评估、决策和处理,对问题的产生和预防达到事半
功倍的效果。
2.3 网络爬虫 根据业务需求,可对网络进行定向抓取,海量检索的爬虫抓取能力;
可自动抓取网页的各类参数和下载过程的各类参数;
支持动态 IP 代理加速,智能过滤无效 IP 代理,提升代理的利用效率和采集质量;
支持自动定时采集,并可对采集任务进行实时监控;
数据采集在本地进行,保证数据安全性。
成都四方伟业软件股份有限公司
2 核心价值
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
6
2.4 集群及高可靠性 具有高可用性,在服务器出现故障时,集群服务可以自动将服务从故障节点切换到另一
个备用节点,保证了业务的持续运行。
对节点提供可扩展性,可以动态加入一个或多个服务节点,既满足了应用的需要,也增
强了集群的整体性能。
支持错误恢复机制,能够对执行失败的服务节点进行任务的接洽,通过错误的重定向,
保证每个执行任务的有效完成。
2.5 跨平台 支持云平台、Windows、Linux、Unix 等主流操作系统厂商的运行环境;平台移植性高,
大大降低了部署成本,并可对多终端的数据进行同步和协调。
2.6 丰富的组件 支持 40 多种主流数据库采集,如:Oracle、Mysql、PostgreSQL、Hadoop 等,能够实现
关系型数据库到 Hadoop 之间的数据迁移。
支持 30 多种数据文件格式,如:数据库、XML、TXT、Excel 等格式
支持 20 种清洗组件,能够对缺失数据处理,数据一致性处理,重复数据处理,逻辑错
误处理,数据比对,支持跨部门数据唯一性处理。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
7
3 功能介绍
SDC ETL 融合数据以元数据驱动的方式提供强大的抽取、转换和加载(ETL) 能力。本身
提供了强大的图形界面设计器,可以大大缩短数据抽取项目的开发周期,并且容易维护。
设计器界面友好,提供了工作流设计模式,能满足各种场景的实现。
SDC ETL 融合数据在传统 ETL 能力基础之上补充了半结构化、非结构化的数据采集的
能力。解决了大数据时代针对文本、音频、视频、电子邮件、网站数据的收集、转换和
存储。
数据存储层
中心存储库
交换库
基础数据库
日志库
监控库 ……
标准规范管理体系
安全保障体系
融合数据 ETL
ETL设计器
作业/转换定义
作业/转换流程
作业/转换执行
基础设施层
服务器 存储 网络设备 防火墙 ……
任务调度
作业封装
作业执行
作业暂停
任务监控 系统管理
资源库
数据源
采集概览
任务监控
任务告警
首页
批量采集任务
实时采集任务
网爬任务
采集组件
流程示例
银行业务 政务业务 交通业务 工商业务 医疗业务
图 1 SDC ETL 功能架构图
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
8
3.1 ETL 设计器
3.1.1 菜单栏 3.1.1.1 文件
创建转换/任务/数据库连接/服务器;
打开本地/资源库中已经存在的转换/任务文件
在最近浏览过的转换/任务文件列表中打开
关闭当前打开的转换/任务
保存或另存为当前修改的转换/任务
打印当前打开的转换/任务
将本地已经存在的转换/任务导入到资源库中
将当前打开的转换/任务导出到指定目录
图 2 文件菜单
3.1.1.2 编辑 撤销前一步操作。
恢复前一步撤销的操作。
剪切当前选中内容。
复制当前选中内容。
将复制内容,粘贴到当前位置。
将当前转换/任务作为图片方式,暂时存放在剪切板中。
清除当前的选择。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
9
全选当前打开的转换/任务的所有组件。
设置环境变量。
设置当前转换/任务的属性。
图 3 编辑菜单
3.1.1.3 执行 执行当前转换/任务
预览当前转换各个组件的运行结果
在当前转换的指定组件上加断点,逐步查看结果
重新运行转换/任务
检验当前转换各个组件的状态
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
10
图 4 执行菜单
3.1.1.4 工具 数据库:
浏览指定数据库连接所连接的数据库
清除数据库缓存。ETL 对于某些使用过的数据,会存入缓存中,比如某个表的的字
段信息等。当再次使用时, ETL 会从缓存中读取这些信息。当实际数据库与数据
库缓存中的信息不一致时,库缓存,重新从实际数据库中读取信息。
资源库
连接指定资源库;断开当前连接的资源库;浏览当前连接的资源库;将当前的资源
库导出成本地文件;导入“导出资源库”所导出的文件,会将其中所有的内容导入到
当前资源库中。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
11
图 5 工具菜单
3.1.1.5 示例 查看设计器中固化的采集流程示例,可点击示例进行运行。
图 6 示例菜单
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
12
3.1.2 工具栏 3.1.2.1 主工具栏
新建转换、作业等
打开已有的转换或作业
查看当前资源库内容
保存当前转换或任务
以不同名字保存当前转换或任务,即另存为
3.1.2.2 转换工具栏 运行当前的转换
暂停当前运行的转换
停止当前运行的转换
预览当前的转换
调式当前的转换
重放当前的转换
校验当前的转换各个组件的状态
查看一个可用的数据库连接
显示执行结果面板
相当与菜单栏里的视图,放大、缩小工作区
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
13
图 7 转换工具栏
3.1.2.3 作业工具栏 运行当前的转换
停止当前运行的转换
查看一个可用的数据库连接
显示执行结果面板
相当与菜单栏里的视图,放大、缩小工作区
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
14
图 8 作业工具栏
3.1.3 组件库 3.1.3.1 转换组件
3.1.3.1.1 输入
Access 输入:已有的 Access 数据库文件作为输入
Excel 输入:为用户提供从 Excel 文件读取数据作为输入的能力
XML 输入:解析固定的 XML 文件,将文件当中的内容解析成记录行发送到后
一个组件。
文本文件输入:解析 CSV 或者固定宽度的文件,将文件当中的内容解析成记
录行发送到后一个组件
表输入:解析结构化数据库表结构,将表结构当中的内容解析成记录行发送到
后一个组件。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
15
图 9 输入组件
3.1.3.1.2 输出
Access 输出:该组件可以将输入流中的数据输出到 Access 数据库的表中,如果
指定的 Access 数据库,文件不存在,将创建一个新的 Acces 数据库文件
Excel 输出:Excel 输出组件将接收到的记录写入 MS Excel 文件
XML 输出:从流中获取到数据,将数据保存到指定 XML 文件中。
文本文件输出:将流中的数据以文件的形式保存到本地文件中,类似于 XML
输出。文本文件的输出格式一般为 CSV(Comma Separated Values)或 txt 格式
表输出:该组件可以将输入流中的数据输出到 Access 数据库的表中。
更新/插入:该组件可以对数据库表进行插入或更新操作,如果匹配,则按照映
射关系更新匹配的记录,否则按照映射关系插入记录
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
16
图 10 输出组件
3.1.3.1.3 清洗
值映射:流中某个字段的值根据映射关系映射成新的字段值或替换原有字段的
值
列拆分为多列:使用分隔符拆分字段
字段值替换:使用另一个字段的值来设置字段的值
字符串剪切:从流中获取某个字段,根据该字段的值下标剪切字符串
字符串替换:字符串替换是一个简单的搜索和替换。它也支持正则表达式。
随机数生成:随机数生成组件,可以生成一个指定类型的随机数。如果存在输
入数据,新生成的随机数会作为一个新的字段追加在输入记录的末尾。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
17
图 11 清洗组件
3.1.3.1.4 大数据
HBASE 输入:该组件从 Hbase 集群数据库读取数据
HBASE 输出:该组件可以将输入流中的数据输出到 HBase 数据库的表中
Hive 输入:该组件从 Hive 数据库读取数据
Hive 输出:该组件可以将输入流中的数据输出到 Hive 数据库的表中
图 12 大数据组件
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
18
3.1.3.2 作业组件
3.1.3.2.1 通用组件
开始组件:任务执行的入口,开始组件也包含简单的定时器功能
任务组件:可以使用任务组件执行一个之前定义的任务
空操作组件:在一个任务中使用空操作组件不做任何事,用于循环
延迟等待组件;可以在使用延迟等待组件,在执行下一个任务组件前等待一定段
时间
成功组件:该组件清除任务中的任何遇到的错误状态,并强制为成功状态
终止任务组件:果你想中断一个任务,可使用这个任务组件
转换组件:可以使用转换任务组件来执行之前定义的一个转换
设置变量组件:设置一个或多个变量
图 13 通用组件
3.1.3.2.2 邮件组件
获取邮件组件:可以使用该组件接收邮件服务器上的邮件并存成一个或多个文
件
邮件组件:邮件任务组件来发送文本或 HTML 格式的可以带附件的电子邮件
邮件验证组件:邮件验证组件检查一个邮件地址是否合法 成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
19
图 14 邮件组件
3.1.3.2.3 文件组件
创建一个目录组件:创建的目录的名称(可以是绝对路径),如果目录存在则失
败
创建文件组件:将文件添加到结果文件名列表,如果文件存在则创建失败
删除一个文件组件:需要删除的文件的名称和路径,如果文件名不存在则失败
图 14 文件组件
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
20
3.1.4 新建资源库 连接相应的资源库来加载一个转换或作业,对转换或作业修改后,生成新的脚本会保存
到资源库中。
图 15 新建资源库
3.1.5 转换 一个完整的 SDC ETL 流程包括一个或多个转换流程(Transformation)和一个作业(Job)调
度流程组成。
转换流程由一个或多个转换组件按照一定的转换逻辑设计而成,括从数据源抽取数据
(Extract)、加工转换数据(Transform)、向目标数据源装载数据(Load)三部分处理组件,完
成一个独立的数据整合业务场景。
支持通过图形化界面设计 ETL 转换过程和作业,支持后台批量运行 ETL 转换。
支持各种数据源,包括数据库、文件系统、Excel、Xml 等各种数据源。支持的数据库
包括 DB2、Oracle、Mysql、SQLServer 等各种主流数据库。支持 Hadoop 大数据环境的
数据采集。
3.1.5.1 转换流程编辑器 可以通过工具栏上的“文件→新建→转换”按钮来创建转换,也可以通过“文件/新建”,或
者快捷方式“CTRL+N”来创建
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
21
3.1.5.2 转换设置 一个转换流程,都可以配置转换属性。可以通过菜单栏“编辑→设置”,性窗口。转换属
性包括:转换基本信息、转换变量和杂项。
图 16 转换设置
3.1.5.3 转换组件选项 连接组件:连接选中的转换组件,需要至少选中 2 个组件
编辑组件:将打开组件对话框,编辑组件设置
编辑组件描述:将打开一个对话框,编辑组件描述信息
数据发送:当选中组件后面有多个分支或者有副本时,该功能有用。可选项包
括“轮流发送模式”和“复制到下个组件” ,当在一个组件上增加多个分支时,会
弹出提示选择使用哪种方式
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
22
改变起始的副本数量:设置同时启动多个组件副本同时运行,前一个组件以轮
流或复制的方式向同时运行的多个副本发送数据。当副本数量大于 1 时,在组
件图标左上角会出现特殊标识
复制到剪切板:将组件的 XML 描述复制到剪贴板
复制组件:将在原先的组件低一点的位置创建一个该组件的副本
删除组件:将从转换中永久的删除组件
分离组件:断开此组件与其他组件的连接
显示输入字段:展示所有的输入字段
显示输出字段:展示所有的输出字段
执行时嗅探测试:查看流中的数据,仅执行时可用
对齐/分散:自动排列组件,选中多个组件时可用
检查所选组件:检查此组件目前的状态
根据目标组件生成映射:将源组件和目标组件的字段进行匹配,完成后自动生
成一个默认组件名为 [目标组件名] Mapping” “字段选择” “的组件,支持手工
映射和按照字段名称自动映射两种方式
定义错误处理:当组件出错时,如何处理
预览:预览当前转换各个组件中的记录
图 17 转换组件选项 成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
23
3.1.6 作业 作业调度流程是一个可以定时或重复执行的一个调度程序,度组件以及一个或多个已经
设计好的转换流程或其他任务调度流程,辑设计而成,实现对数据整合过程的调度管理。
支持通过图形化界面设计 ETL 作业,支持后台批量运行 ETL 作业。
采用并行处理的方式实现数据的高效处理。
提供了丰富的异常处理功能,能满足各种异常处理需求。
支持 GB 级大数据量的数据采集,支持断点续传功能。支持增量采集。
3.1.6.1 作业流程编辑器 可以通过工具栏上的“文件→新建→作业”按钮来创建转换,也可以通过“文件/新建”或者
快捷方式“Ctrl+Alt+N”来创建
3.1.6.2 作业设置 每一个作业流程,都可以配置作业属性。可以通过菜单栏“编辑→设置”性窗口。作业属
性包括:作业基本信息和作业变量
图 18 作业设置
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
24
3.1.6.3 转换组件选项 连接组件:连接选中的任务组件,需要至少选中 2 个组件
打开转换:仅“转换”任务组件可用,打开其中引用的转换
打开作业:仅“任务”任务组件可用,打开其中引用的任务
编辑作业组件:将打开任务组件对话框,编辑任务组件设置
编辑作业组件描述:将打开一个对话框,使你可以输入任务组件的文本描述
并行启动下一作业组件:如果此任务组件后面同时连接着多个任务组件,则并
行启动这些任务组件
复制作业组件:将在原先的任务组件低一点的位置创建一个该任务组件的副本
复制到剪切板:复制任务组件的 XML 描述到剪贴板
对齐/分散:自动排列组件,选中多个任务组件时可用
分离作业组件:断开此任务组件与其他任务组件的连接
删除作业组件:删除所有此任务组件的副本,而不仅仅是这一个
图 19 转换组件选项
3.2 任务管理 调度任务支持批量采集任务,实时采集任务,网络爬虫任务和任务监控。
调度参数维护,对调度的公共参数:期数、进程数、数据日期、本期开始日期和本期结
束日期进行设置和修改。
调度异常处理,对调度过程中出现的异常情况进行处理,提供错误查找、出错重跑功能。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
25
图 20 任务调度管理界面
图 21 任务调度新增界面
3.3 任务监控 采集任务管理员可通过任务监控台账,查看任务采集情况概览,对单个任务进行监控,
并可配置任务告警提示,生成告警通知,通过邮件/短信的方式通知相关人员。
支持可视化的多角度作业运行监控,包括总览全局的总体监控和明细型的计划监控以及
事件监控。
支持查看任务执行过程日志。灵活的作业状态日志查询,支持作业批次的详细日志的查
询,全局查看作业文件日志或执行脚本。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
26
图 21 任务监控
3.4 网络爬虫 集成网络爬虫能力,采用脚本方式,爬取网站内容,并支持存入数据库或 kafka。
图 22 网络爬虫任务管理界面
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
27
图 23 网络爬虫新增界面
3.5 实时采集 基于 flume+kafka 技术,实时采集日志数据,并将日志信息写入 HDFS 或 KAFKA。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
28
图 24 实时采集新增界面
3.6 服务器管理 配置多个服务器,可根据服务器的运行的任务实例情况和空闲情况,自动将批量采集任
务实例在空闲的服务器上运行,达到服务器的负载均衡。
图 25 服务器新增界面
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
29
3.7 业务配置
3.7.1 ETL资源库 管理员在资源库配置中设置数据库表相关信息,如:数据库表名、实例名、服务器 IP、
用户名、密码等。
支持各类数据库的连接,如:Oracle、MySQL、SQLServer 等,能够适应目前大数据的
需求。
图 22 资源库配置
3.7.2 数据源 配置数据源,用于基于日志的 CDC 增量采集。
成都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
30
图 23 数据源新增界面
3.7.3 报警规则 配置报警规则,可邮件,短信通知责任人,任务出现问题或已完成。
图 24 报警规则新增界面
3.8 系统日志 查看用户的操作日志 成
都四方伟业软件股份有限公司
3 功能介绍
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
31
图 25 系统日志界面
成都四方伟业软件股份有限公司
4 行业应用
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
32
4 行业应用
4.1 通信行业应用 大数据时代,公安机关通过全面采集和整合海量数据,对数据进行处理、分析、深度挖
掘,发现数据的内在规律,为预防、打击犯罪提供强有力的支撑。以大数据推动公安信
息化建设,是提高公安工作效率的重要途径,也是公安信息化应用的高级形态。
图 26 公安行业数据采集流程
4.2 工业行业应用 工业大数据信息平台基于互联网,建设工业大数据采集接入、存储、计算、分析、可视
化管理和大数据应用服务一系列软件工具,以降低大数据使用门槛,帮助客户加速大数
据基础建设为使命,为工业经济主管部门、工业企业提供安全、高效、集中的工业大数
据应用支撑环境和辅助决策支持服务
成都四方伟业软件股份有限公司
4 行业应用
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
33
图 27 工业行业数据采集流程
4.3 交通行业应用 基于 ETL 组件采集车辆数据,交通事故数据,路段拥堵数据,。
交通数据:采集海量历史及实时数据,为预测某一路段拥堵级别、拥堵时间,和未来道
路紧急疏导及扩展规划提供数据依据。
图 28 交通行业数据采集流程 成都四方伟业软件股份有限公司
4 行业应用
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
34
4.4 金融相关行业应用 基于 ETL 组件采集资金交易数据。
资金实时流向:采集重点地区资金流向、重点行业资金流向、频繁且相近额度资金流向、
季节资金流向、节假日资金流向、偶尔大额资金流向。
数据辅助征信风控:通过连接大数据(包括 P2P 平台、小额信贷机构、征信机构、银行、
第三支付、互联网大数据等)、连接不同的应用场景,采集虚拟经济形态下的网络和商
务平台数据,提供去中心化分布式查询,打破行业内信息各自孤立而形成信息漏洞的现
状,高效控制风险。
图 29 金融行业数据采集流程
4.5 电子政务应用 基于 ETL 组件采集各行权部门的业务数据。
整合分析发现群众真实需求,并强化数据预测应用功能,助推政府采取更加人性化、便
民化,更有针对性、实效性的服务管理举措。
以人口分析为例:采集人口基础数据,地区人口出生率、年龄结构、性别结构,较为准
确掌握未来区域教育、医疗、卫生、文化等公共基础配套需求,为制定公共服务管理配
套政策提供科学依据。 成都四方伟业软件股份有限公司
4 行业应用
文档版本 01(2016-08-12) 四方伟业专有和保密信息 版权所有 © 成都四方伟业软件股份有限公司
35
图 30 政务行业总体建设框架
成都四方伟业软件股份有限公司