迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200....

26
迟学斌

Transcript of 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200....

Page 1: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

迟学斌

Page 2: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4月20日,一条64K的国际专线从计算机网络中心连入Internet,实现了中国与Internet的全功能连接,从此中国成为第77 个真正拥有全功能Internet的国家。二十余年来,计算机网络信息中心立足支撑与服务全院科研信息化和管理信息化,汇聚管理信息化资源,发挥了科研应用的信息化、学科交叉开放融合、科学思想传播和科研 信息化理念传播的先遣队作用,成为我院信息化基础设施建设、运维和信息化基础服务的一支中坚力量,成为引领中国科研信息化建设和运行服务的一流信息中心。

Page 3: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

计算机网络信息中心现有12个业务部门,分别是信息化基础设施运行与技术发展部、高性能计算技术与应用发展部、大数据技术与应用发展部、管理信息化技术与应用发展部、新媒体技术与应用发展部、网络空间安全技术与应用发展部、物联网信息技术与应用实验室、科研信息化技术与应用实验室、未来网络技术与应用实验室、先进交互式技术与应用实验室、材料基因工程信息技术应用实验室(筹)和信息化资源推广与服务部。计算机网络信息中心还是中国科学院科学新闻中心和中国科学院计算科学应用研究中心两个院级非法人单元的依托单位。

Page 4: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

近年来,计算机网络信息中心牵头承担了国家发改委、科技部、自然科学基金委以及中国科学院等部门在信息化领域部署的一批重要任务,包括发改委电子信息领域提高自主创新能力及高技术产业发展项目“基于下一代互联网的科研信息基础设施建设与应用示范工程”、物联网技术研发及产业化专项、国家信息安全专项“科研数据资源与科研管理信息系统安全保障服务”、高技术服务业专项“基础研究大数据服务平台应用示范”;科技部863计划“高性能计算环境应用服务”、国家科技基础条件平台项目“基础科学数据共享网”、国家科技支撑计划“IPv6过渡机制与管控系统的测试、评价与技术规范研究”;中国科协科普中国专项项目“移动端科普融合创作”;中国科学院“十二五”信息化专项“科技云”与“管理云”、信息化运维保障、中国科技网安全保障与服务、仪器设备共享管理系统、重大科技基础设施共享服务平台、科研生产安全管理系统等。先后荣获国家级二等奖4项、三等奖1项, 省部级特等奖1项,一等奖4项 ,二等奖3项、三等奖1项。截至2015年底,计算机网络信息中心共申请专利223项 ,登记软件著作权300项,注册商标30项,制定标准46项。

Page 5: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

曙光GPU概述

曙光GPU高性能计算机,以GPU作为主体计算资源,将图形处理器引入到高

性能计算领域,系统支持CPU和GPU的混合计算方式。 曙光GPU系统计算卡采

用ATI HD4870x2,在单片显卡上集成了2个RV770的GPU核心,每个GPU核心具

备800个流处理单元。每个GPU核心配配了1GB的GDDR5内存。单块ATI HD4870x

2的理论单精度值为1.2*2=2.4TFlops。集群整体理论峰值(不包含CPU计算能

力)为2.4*42=100.8T Flops。系统安装了ACML-GPU数学库,提供sgemm,dgem

m ,cgemm和zgemm,以及opencl编程环境。目前主要做为VisIt科学数据可视

化平台使用。

系统采用高带宽、低延迟的Infiniband网络和高性能存储系统,保证了系

统的高性能和高效率。以及简单易用的Gridview对计算机系统各方面进行有

效监控。

Page 6: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

该系统上部署的VisIt科学数据可视化平台能够分布式地调用多块显卡加速图像绘制,可以承担海量数据可视化工作。

使用该平台绘制2.38亿个三角形,32块数据,乙肝病毒刨面图像;以及CPU与GPU绘制图像速度的比较。

Page 7: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

技术规格

Page 8: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

深腾7000-联想GPU

联想深腾7000G高性能服务器是基于GPU加速的高性能计算平台。深腾7000G采用Cluster架构、GPU加速服务器节点、Intel处理器、Linux操作系统、Ethernet以及Infiniband互连等。

本系统单精度计算能力为200万亿次,双精度计算能力为15.4万亿次。

在2012年7月系统升级之后,双精度计算能力提高到为20.2万亿次。其中升级的12块GPU卡的双精度计算能力由原来的78 GFlops提高到515GFlops,提高到原来的6.6倍。

Page 9: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

深腾7000G已经成功运行大量应用,包括石化反应模拟、冶金过程模拟、地震数据反演、液态化反应器模拟、气固系统直接模拟、太阳能电池板吸收效率模拟、粘稠液体搅拌槽内流动模拟、晶体硅多体作用材料模拟、从埃到纳米多相纳微流模拟、二次采油动态模拟、蛋白质折叠高分子模拟、搅拌釜模拟、真实岩芯样本模拟、聚乙烯团聚模拟、虚拟过程、碳酸盐岩油藏驱油过程、CT图像实时重构、矩阵运算等,涉及了流体力学、生物信息、石油天然气、气象、地理信息系统、数学库、图像库、分子动力学、电路自动设计、医疗成像、金融计算等多个计算领域。

Page 10: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

“元”超级计算系统

中科院高性能计算部新一代超级计算系统

含义:通过高效的高性能计算支撑平台、并行优化及可视化服务,与广大的高性能计算用户一起开创高性能计算应用的新纪元。

混合架构,异构计算系统

总计算峰值 2.36 Pflops,Linpack性能 1.4 Pflops(预计)

系统内存总量 140 TB

存储总容量6.3PB,可用容量5 PB,聚合I/O带宽124GB/s

分两期建设

“元”超级计算系统

Page 11: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

一期:总峰值303.4Tflops(CPU 152.32,协处理器151.08);存储裸容量2.912PB,可用2.334PB,聚合带宽56.5GB/s

二期总峰值2.056Pflops(CPU 550.45Tflops,协处理器1.506Pflops);存储裸容量3.427PB,可用2.746PB,聚合带宽68GB/s

两期统一管理,独立使用。统一的管理网络,两期IB网络互连。

Page 12: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

一期

Intel IvyBridge Xeon E5-2680v2 单CPU 224Gflops(DP)

Intel Xeon Phi 5110P(1Tflops), 80块

NVIDIA Tesla K20(1.2Tflops), 60块

二期

Intel下一代Hawell架构Xeon E5-2600v3处理器 2.6GHz , 支持AVX2指令集,单CPU约0.5Tflops(DP)

Intel下一代Knights Landing MIC卡,单卡>3Tflops(DP)

NVIDIA下一代Maxwell GPU卡,单卡>3Tflops(DP)

Page 13: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

曙光Gridview集群监控管理和作业调度软件集群软件开发运行环境

Page 14: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

元应用:

集成通用CPU计算能力与高性能加速计算能力

通用计算为主,适应多学科应用需求

利用Intel MIC/NV GPU实现高效能计算,实现应用高速计算

多种计算资源

NUMA架构大内存节点:需要海量共享内存的应用

基于龙芯、申威国产CPU的异构环境:移植、测试,国产自主技术的应用

远程可视化节点:计算过程、计算结果快捷处理

应用开发工作

深度学习与大数据分析

新系统中应用性能大幅提高

异构平台中应用软件的可移植性:标准化、规范化

新型计算资源使用与代码移植优化

众核、CUDA、OpenCL、OpenACC等

程序改写、算法优化

Page 15: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

深度学习与“元”超算机

如今,为了容纳深度学习的超大规模计算需求,超级计算机已经成为训练各种深度神经网络的利器。深度学习技术试图通过大规模的神经网络和大数据提供的海量训练集合,将大脑学习识别的过程加以抽象,从而获得极高的识别准确度,这些都带来了极大的计算需求和吞吐需求。于是,这些以往高性能超级计算机有了用武之地:GPU协处理器、高速InfiniBand网络、RDMA、GPUDirect等成了利器,提供着高吞吐、低延迟、高性能的系统平台。虽然离着无穷还有无穷,但是“元”超算机为分布式大规模的深度学习算法提供了极高的带宽和极低的延迟,使通信的开销最小化,为训练各种深度网络提供了强大的平台。

Page 16: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

高性能计算部为国家天文台提供海量高动态范围时序粒子数据的可视化处理服务。高动态范围由于其值范围过大,很容易丢失科学家关注的细节信息,而时序数据由时间维的加入,值域范围急剧扩大,很难在时间序列上跟踪感兴趣的区域以及细节信息。我们根据数据的特点,提出了基于直方图均衡的时序映射算法和合并树特征跟踪算法,有效解决了相关的技术难题,清晰直观获得了天文学家所重点关注的超级星系团随时间的粒子吸人、喷出和合并演化。

Page 17: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

基于深度学习与多GPU计算的颈部超声图像识别

在颈部B超图像的计算机辅助诊疗分析方面,高性能计算部赵地博士团队使用

深度学习类方法通过自学习的方式提取超声图像中的结构性特征,基于计算机视觉领域内表现突出的SegNet网络,通过对颈部超声图像进行语义图像分

割,使图像中每一个像素分类,完成神经结构的定位,从而识别及划分图像区域中的目标神经结构(肩丛)。

Page 18: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

大数据与深度学习相结合运用于肺癌诊断

高性能计算部赵地博士及其团队在肺癌的诊断上也有相关研究。肺癌分析主要通过对海量已诊断CT图像数据分析,利用多通道三维卷积神经网络与国外竞赛(如Lung Nodule Analysis 2016、Automatic Nodule Detection 2009)的相关资料,结合肺癌不同类型的影像特征,识别出肺部癌变组织肉

眼形态、相关病理特征与部位,如管内型、结节型、中央型、周围型、腺癌、细支气管肺泡癌等。

Page 19: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

超大规模数据可视化与可视分析

宇宙数值模拟数据

◦ 300亿粒子,64个时刻,共90TB

关键可视化算法突破

◦ 数据组织与压缩、并行与GPU加速绘制、色调映射,所见即所得的时序可视分析、基于机器学习的特征发现与跟踪

Page 20: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

移动网络大数据可视分析

群体行为特征可视化(移动轨迹、网络行为、购物行为)

针对个体信息的多属性可视化表达

基站网络结构的负载流动态可视化

面向在线服务应用的高性能可视化软件系统

Page 21: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

用户在深腾7000上开展了湍流问题的高分辨率数值计算及湍流机理研究,使用自主研发的混合网格数值模拟软件CCFD-UG软件对某型民用飞机高升力流场进行了数值模拟。CCFD-UG软件的计算规模最大已经扩展至为2048核,并行效率超过80%。CCFD-UG在大型飞机气动计算方面能够较好地满足工程应用需求,有助于增强我国在大型飞机设计领域的自主创新能力。

Page 22: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

星系尺度上的恒星形成过程和动力学反馈的大规模数值模拟研究。中心高性能计算部承担了软件并行化的工作,最终实现了8192核的高效并行计算,并行效率超过80%。该项目利用联想深腾7000超级计算平台,建立完整的包括暗物质-流体动力学的高效宇宙学数值模拟计算环境WIDGEON。基于该程序开展了大规模宇宙学数值模拟,探讨了宇宙结构形成中的重子物质大尺度速度旋度场和湍流的形成和演化特征,研究了不同星系模型中物质外流的流体动力学过程;而基于GADGET的N体数值模拟则有望获得超大规模的宇宙学数值模拟样本,该样本将对我国的重大科学工程如LAMOST红移巡天计划的科学目标实现,南极天文的科学预研究起到重要的作用。

Page 23: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

汶川地震模拟

防灾减灾的实现需要对地震传播机制的深刻理解,高性能计算部与美国罗德岛大学合作,将罗德岛大学三位地震研究学者的程序移植到深腾7000上,使用上千个核,模拟出汶川地震的地震波传播过程,并通过表面绘制和热图技术完成可视化工作,帮助地震学家更深入直观地分析这一灾害过程。

Page 24: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

掌纹识别

采用特征点对比对的方式为每个备选指纹打分,排序后选取前100个

◦ 第一步耗时约占60-80%,算法相对简单,便于在GPU上并行化

并行难点:多线程并发收集数据并排序

采用原子操作顺序记录数据,后处理中用bitonic并行排序

◦ 第二步内部计算较为复杂,难以在GPU上并行化,适用于OpenMP加速

掌纹数据文件编号(各含1万个掌纹) A1100 A8600 A8900 A9100 A6900

特征点数 3 22 23 25 91

第一步

(特征点初步筛选)

CPU串行计算时间 1.92s 4.71s 6.79s 7.81s 145.20s

GPU并行计算时间 0.48s 0.57s 0.68s 0.72s 6.60s

加速比计算时间 3.7 6.9 11.2 10.8 22.0

第二步

(特征点精确匹配)

CPU串行计算时间 1.16s 1.31s 2.32s 3.04s 78.22s

OpenMP并行计算时间

0.07s 0.10s 0.14s 0.20s 12.80

加速比 16.5 13.1 16.6 15.2 6.1s

CPU串行总运行时间 3.08s 6.02s 9.11s 10.85s 223.42s

GPU/OpenMP加速后总运行时间 0.55s 0.67s 0.82s 0.92s 19.4s

总加速比 5.6 9.0 11.1 11.8 11.5

Page 25: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

应用效果

成立物证超算研究联合实验室

北京市公安局刑侦总队

Page 26: 迟学斌images.nvidia.com/cn/gtc/downloads/pdf/big-data/200. GTC...中国科学院计算机网络信息中心成立于1995年3月,是中国科学院科研信息化与管理信 息化的系统集成、运行和服务保障机构,信息化应用技术的研发和示范基地。1994年4

计算机网络信息中心在我国最早提供超级计算服务,是中国国家网格运行管理中心和北方主节点,是中国超级计算创新联盟的发起单位和中国首家英特尔并行计算中心,在高性能计算领域的算法、软件与应用研发及人才培养方面发挥着重要作用。计算机网络信息中心牵头中国科学院科学数据库的建设、运行和服务,已建成国内最大的科研存储设施和学科最广的基础数据资源,成为服务科技创新的数据资源中心和存储备份中心。

计算机网络信息中心将紧密围绕中国科学院“十三五”信息化发展规划,面向科技创新,整合汇聚院内外优质科技资源,建设中国科技云;助力一流科研院所建设,融合科技业务和管理流程,支撑智慧中科院;贯彻国家大数据战略,深化科学数据应用,建设科学大数据中心。