高性能计算与高性能计算机

57
高高高高高高高高高高高高

description

高性能计算与高性能计算机. 总结. 什么是高性能计算和高性能计算机 什么是集群 ( Cluster ) ,怎么配置集群 什么样的用户需要高性能计算机 高性能用户都关心哪些问题 高性能计算机销售和一般服务器销售的区别. 提纲. 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统. 高性能计算市场. IDC对08年服务器市场的预测: 08 年,全球服务器产业预计以接近 9% 的速度发展, HPC 产业预计的发展速度将会超过 12% 在中国, HPC 市场的发展速度将会超过 20% - PowerPoint PPT Presentation

Transcript of 高性能计算与高性能计算机

Page 1: 高性能计算与高性能计算机

高性能计算与高性能计算机

Page 2: 高性能计算与高性能计算机

总结

什么是高性能计算和高性能计算机 什么是集群 (Cluster) ,怎么配置集群 什么样的用户需要高性能计算机 高性能用户都关心哪些问题 高性能计算机销售和一般服务器销售的区别

Page 3: 高性能计算与高性能计算机

提纲

高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

Page 4: 高性能计算与高性能计算机

高性能计算市场

IDC 对 08 年服务器市场的预测: 08 年,全球服务器产业预计以接近 9% 的速度发展, HPC 产业

预计的发展速度将会超过 12% 在中国, HPC 市场的发展速度将会超过 20%

HPC 市场既是一个传统的市场,又是一个新兴的、高速发展的市场 高:定位高端用户 标杆项目,影响力大 平民化趋势 快速发展

Page 5: 高性能计算与高性能计算机

高性能计算市场

一些厂商的表现例如: Intel

国家的政策自主创新

… … …

技术的发展CPU 多核化的趋势多进程、多线程并行化的

趋势 其他

并行计算机上的广泛应用高端下移

… … …

高性能计算的市场正处于发展阶段

Page 6: 高性能计算与高性能计算机

提纲

高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

Page 7: 高性能计算与高性能计算机

计算所 / 曙光和高性能计算

1956 年成立,我国第一个计算技术研究所,被誉为“我国计算机事业的摇篮”第一台电子管计算机( 103 机)第一台大型晶体管计算机( 109 机)第一台大型集成电路计算机( 111 机)第一台向量计算机( 757 机)第一台大规模并行计算机(曙光 1000 )被国防部门誉为“功勋机” 109 丙机,为两弹一星做

出过重要贡献

Page 8: 高性能计算与高性能计算机

计算所 / 曙光和高性能计算1993.10 曙光一号16 个处理器,每秒 6.4 亿次使中国成为少数能生产制造 MPP的国家之一

1995.5 曙光 100036 个节点机,每秒 25.6 亿次

1998.12 曙光 2000 I68 个节点机,每秒 200 亿次

2000.1 曙光 2000 II164 个 CPU ,每秒 1117 亿次中国第一个 SMP 集群

Page 9: 高性能计算与高性能计算机

计算所 / 曙光和高性能计算2001.10 曙光 3000每秒 4032 亿次SUMA 标准诞生

2003.3 曙光 4000L644 个 CPU ,每秒 3 万亿次

2004.6 曙光 4000A2560 颗 CPU ,每秒 10 万亿次名列世界第十,成为除美日以外第

一个进入世界“ top500” 前 10名的国家

Page 10: 高性能计算与高性能计算机

计算所 / 曙光和高性能计算

运算速度超过百万亿次的曙光 5000 ,将使中国成为美国之后第二个能生产百万亿次超级计算机的国家

曙光 5000 共采用 3 万颗 CPU 核,峰值 230 万亿次, Linpack

效率超过 70% 曙光 5000 计算能力超过曙光 4000A 十多倍,而体积、功耗与

曙光 4000A 相同,代表了中国高性能计算机发展的最高水平

中国登峰造极的最高性能的计算机系统

Page 11: 高性能计算与高性能计算机

计算所 / 曙光和高性能计算

2005 年 2006 年

2007 年

Page 12: 高性能计算与高性能计算机

提纲

高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

Page 13: 高性能计算与高性能计算机

什么是高性能计算?

高性能计算HPC : High Performance Compute

高性能计算 --- 并行计算并行计算 (Parallel Computing )高端计算 (High-end Parallel

Computing)高性能计算 (High Performance

Computing)超级计算 (Super Computing)

Page 14: 高性能计算与高性能计算机

什么是高性能计算?

计算科学与传统的两种科学,即理论科学和实验科学,并立被认为是人类认识自然的三大支柱,他们彼此相辅相成地推动科学发展与社会进步。在许多情况下,或者是理论模型复杂甚至理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成了求解问题的唯一或主要的手段。

Page 15: 高性能计算与高性能计算机

为什么要做高性能计算 ——应用需求

Page 16: 高性能计算与高性能计算机

为什么要做高性能计算

人类对计算及性能的要求是无止境的从系统的角度:集成系统资源,以满足不断增长的对

性能和功能的要求从应用的角度:适当分解应用,以实现更大规模或更细致的计算

问题 : 科学和工程问题的数值模拟与仿真计算密集数据密集网络密集三种混合

Page 17: 高性能计算与高性能计算机

什么人需要高性能计算

高性能计算机都在什么地方使用?都卖到哪儿去?国外状况

国内状况

Page 18: 高性能计算与高性能计算机

提纲

高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

Page 19: 高性能计算与高性能计算机

什么是高性能计算机?

由多个计算单元组成,运算速度快、存储容量大、可靠性高的计算机系统。

也称为:巨型计算机、超级计算机

目前任何高性能计算和超级计算都离不开使用并行技术,所以高性能计算机肯定是并行计算机。

Page 20: 高性能计算与高性能计算机

其发展历程可以简单的分为两个时代 专用时代

包括向量机, MPP系统, SGI NUMA 系统, SUN大型 SMP系统,也包括我国的神威,银河,曙光 1000等。之所以称为“专用”,并不是说它们只能运行某种应用,是指它们的组成部件是专门设计的,它们的 CPU板,内存板, I/O板,操作系统,甚至 I/O系统,都是不能在其它系统中使用的。由于技术上桌面系统与高端系统的巨大差异,和用户群窄小。

普及时代高性能计算机价格下降,应用门槛降低,应用开始普及。两个技术趋势起到重要作用。商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件标准化趋势使得这些部件之间能够集成一个系统中,其中 X86处理器、以太网、内存部件、 Linux都起到决定性作用。机群系统是高性能计算机的一种,它的技术基础和工业基础都是商品化和标准化。

Page 21: 高性能计算与高性能计算机

高性能计算机系统架构

并行向量机 SMP

DSM ( NUMA ) MPP ,节点可以是单处理器的节点,也可以是

SMP , DSM

Cluster

Constellation

Page 22: 高性能计算与高性能计算机

高性能计算机的制造厂商

Cray

SGI

IBM

曙光 银河 神威

Page 23: 高性能计算与高性能计算机

并行计算机系统类型

Flynn分类:SISD, SIMD, MIMD, MISD

结构模型:PVP, SMP, MPP, DSM, COW

访存模型:UMA, NUMA, COMA, CC-NUMA, NORMA

Page 24: 高性能计算与高性能计算机

并行计算机分类

Flynn分类Flynn(1972) 提出指令流、数据流和多倍性概念,把不同的计算机

分为四大类:– SISD ( Single-Instruction Single-Data)– SIMD ( Single-Instruction Multi-Data)– MISD ( Multi-Instruction Single-Data)– MIMD ( Multi-Instruction Multi-Data)

现代高性能计算机都属于 MIMD 。 MIMD 从结构上和访存方式上,又可以分为:– 结构模型: PVP, SMP, MPP, DSM, COW– 访存模型: UMA, NUMA, COMA, CC-NUMA, NORMA

Page 25: 高性能计算与高性能计算机

结构模型

Page 26: 高性能计算与高性能计算机

对称多处理机系统 (SMP)

• SMP– 对称式共享存储 : 任意处理器

可直接访问任意内存地址 , 且访问延迟、带宽、机率都是等价的 ; 系统是对称的;

– 微处理器 : 一般少于 64 个 ;– 处理器不能太多 , 总线和交

叉开关的一旦作成难于扩展;– 例子 : IBM R50, SGI Power Challenge, SUN Enterprise, 曙光一号 ;

Page 27: 高性能计算与高性能计算机

分布式共享存储系统 (DSM)

• DSM– 分布共享存储 : 内存模块物理上局部

于各个处理器内部, 但逻辑上( 用户 ) 是共享存储的 ; 这种结构也称为基于 Cache目录的非一致内存访问(CC-NUMA)结构; 局部与远程内存访问的延迟和带宽不一致 ,3-10倍高性能并行程序设计注意 ;

– 与 SMP的主要区别: DSM在物理上有分布在各个节点的局部内存从而形成一个共享的存储器;

– 微处理器 : 16-128个 , 几百到千亿次 ;

– 代表 : SGI Origin 2000, Cray T3D;

Page 28: 高性能计算与高性能计算机

大规模并行计算机系统 (MPP)

• MPP– 物理和逻辑上均是分布内存– 能扩展至成百上千个处理器 (

微处理器或向量处理器 )– 采用高通信带宽和低延迟的互

联网络 ( 专门设计和定制的 )– 一种异步的 MIMD机器;程序

系由多个进程组成,每个都有其私有地址空间,进程间采用传递消息相互作用;

– 代表 :CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙光 1000

Page 29: 高性能计算与高性能计算机

机群系统 (Cluster)

• Cluster– 每个节点都是一个完整的计算

机– 各个节点通过高性能网络相互

连接– 网络接口和 I/O总线松耦合

连接– 每个节点有完整的操作系统– 曙光 2000、 3000 、 4000, ASCI Blue Mountain

Page 30: 高性能计算与高性能计算机

访存模型

UMA:

NORMA:

NUMA: 多处理机(单地址空间共享存储器)

UMA: Uniform Memory Access

NUMA: Nonuniform Memory Access

多计算机(多地址空间非共享存储器)

NORMA: No-Remote Memory Access

Page 31: 高性能计算与高性能计算机

结构模型--访存模型

UMA: NUMA: NORMA:

Page 32: 高性能计算与高性能计算机

多处理机 && 多计算机

UMA: NUMA: NORMA:

多处理机

(共享存储 )

多计算机

(分布式存储 )

Page 33: 高性能计算与高性能计算机

并行计算机的性能指标

名 称 符 号 含 意 单 位机器规模 n 处理器的数目 无量纲时钟速率 f 时钟周期长度的倒数 MHZ

工作负载 W 计算操作的数目 Mflop

顺序执行时间 T1 程序在单处理机上的运行时间 s (秒)

并行执行时间 T n 程序在并行机上的运行时间 s (秒)

速度 R n = W/T n 每秒百万次浮点运算 Mflop/s

加速 Sn=T1/Tn 衡量并行机有多快 无量纲

效率 En = S n/n 衡量处理器的利用率 无量纲

峰值速度 R peak = n R’ peak 所有处理器峰值速度之积, R’

peak 为一个处理器的峰值速度Mflop/s

利用率 U =R n/R peak 可达速度与峰值速度之比 无量纲

通信延迟 to 传送 0- 字节或单字的时间 Μs

渐近带宽 r∞ 传送长消息通信速率 MB/s

Page 34: 高性能计算与高性能计算机

衡量系统性能的主要指标 (1)

MIPS (百万条指令每秒) 理论计算:处理器的时钟频率与平均每条指令所

需的时钟周期( Cycles Per Instruction )的比值

MIPS = clock rate / CPI = (number of Instructions) / (CPU time)

实际数值:对于一个应用(程序),指令数目与运行时间的比值

MIPS’= (number of Instructions) / (execution time)

Page 35: 高性能计算与高性能计算机

衡量系统性能的主要指标 (2)

MFLOPS (百万次浮点运算每秒) 理论计算:系统的浮点计算部件每秒可以做的浮点计算

次数; MFLOPS = (number of Floating Point compute

Unit)×N N为每个浮点计算部件一个周期内可以做的最多浮点操作数,对于目前常见的微处理器,一般为 1 - 4 ;

实际数值:对于一个应用,浮点运算数目与运行时间的比值;

MFLOPS’ = (number of floating operations) / (execution time)

Page 36: 高性能计算与高性能计算机

两个指标的缺点 都不能全面表征系统的性能

MIPS指标比较适用于事务处理领域;不同系统的指令不同,一条指令的功能和复杂度差别很大, 如 IBM 的大型主机( Mainframe ),价格达到千万元的大型机(含配套软件),其 MIPS 值一般为5 - 10 ,不及价值数千元的 Pentium4 PC;

非计算密集型的应用(事务处理)对 I/O 要求高,计算密集型的应用(图形程序)对主频要求高。用户对可靠性等特殊要求;

应用的需求不同,高性能计算领域也是“通才”难求,各有所长;

某些特殊类型计算机适合特定的应用。

Page 37: 高性能计算与高性能计算机

两个指标的缺点

理论计算和实际测试的差别对于一个具体的应用,可获得的实际性能与理论峰值有相当大的差距,即效率低的问题;

应用效率成为高性能计算的核心问题之一,受到普遍关注。

Page 38: 高性能计算与高性能计算机

加速比定律

在并行计算系统,并行算法(并行程序)的执行速度相对于串行算法(串行程序)加快的倍数,就是该并行算法(并行程序)的加速比;

加速比是衡量“并行收益”的重要指标; Amdahl 定律适用于固定计算规模的加速比性能描述, Gustafson 定律适用于可扩展问题。

Page 39: 高性能计算与高性能计算机

Amdahl 定律

S = (WS+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p))

显然,当 p→∞时, S=1/f ,即对于固定规模的问题,并行系统所能达到的加速上限为 1/f

一度引发了并行界部分人士的悲观情绪

Page 40: 高性能计算与高性能计算机

Gustafson 定律

S‘= ( WS+pwp) / ( WS+WP) =p-f ( p-1 ) =f+p ( 1-f )

并行计算是为了解决大规模并行问题,可并行部分的比例是可扩大的

加速比与处理器数成斜率为( 1-f )的线性关系 这样串行比例 f 就不再是程序扩展性的瓶颈, 当然, f 越低,斜率会越大,加速性能越好。

Page 41: 高性能计算与高性能计算机

Linpack

采用主元高斯消去法求解双精度稠密线性代数方 程组,结果按每秒浮点运算次数( flops )表示。

包含三类测试,问题规模与优化选择各不相同: 100×100测试 ,在该测试中,不允许对 Linpack测试程序

进行任何修改(包括注释行)1000×1000测试,在该测试中,允许对算法和软件进行修改或替换,并尽量利用系统的硬件特点,以达到尽可能高的性能。但是所有的优化都必须保持和标准算法如高斯消去法相同的相对精度,而且必须使用 Linpack 的主程序进行调用。

Page 42: 高性能计算与高性能计算机

Linpack (续)HPL测试

针对大 规 模 并 行 计 算 系 统 的测试, 其 名称为 High Performance Linpack (HPL) ,是第一个标准的公开版本并行 Linpack测试软件包,

用于 TOP500 与国内 TOP100排名依据。使用者可以改变问题规模。有相当大的优化空间。

Page 43: 高性能计算与高性能计算机

NAS Parallel Benchmark

NPB套件由八个程序组成 每个基准测试有五类: A 、 B 、 C 、 D 、 W ( 工作站 )。 A 最小, D 最大

NPB套件以每秒百万次运算为单位输出结果。整数排序 (IS)快速 Fourier变换( FT )多栅格基准测试( MG ) 共轭梯度 (CG) 基准测试 稀疏矩阵分解( LU ) 五对角方程( SP )和块状三角 (BT)求解 密集并行 (EP)

Page 44: 高性能计算与高性能计算机

高性能计算机的最新发展状况

顶天立地高端:低端:

从单纯关注性能到综合评价高性能 vs 高效能性能 vs 使用硬件建设 vs 综合建设

Page 45: 高性能计算与高性能计算机

提纲

高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

Page 46: 高性能计算与高性能计算机

什么是机群系统

• 机群系统( Cluster )利用标准网络将一台台普通服务器或者 PC机连接起来,为使用者提供更高的计算能力和存储能力并为使用者提供单一系统映象的系统。

•单一系统映象使用者在使用机群系统的时候感觉上就象使用一个单独的计算机系统一样。

单一系统映象实现方法:硬件层、操作系统层、软件层

Page 47: 高性能计算与高性能计算机

机群系统的优势

• 极高的性价比• 大型机的主流• 良好的可扩展性• 更高的可管理性• 更低的使用维护成本• 更好的可使用性• 更改的系统鲁棒性• 更多的应用支持

机群使用越来越广泛应用领域越来越多

Page 48: 高性能计算与高性能计算机

机群系统的应用领域

数学

基因信息 气象预报

生物物理 石油勘探

信息服务 汽车制造

船舶制造

Page 49: 高性能计算与高性能计算机

1993—2006 年 高性能计算机在TOP500 中的变化

Page 50: 高性能计算与高性能计算机

机群成为高性能计算机的主流

Architecture Count Share %

Cluster 400 80 %

MPP 98 19.6 %

Constellations 2 0.4 %

Total 500 100%

TOP500排名 (2008 年 6 月 )

Page 51: 高性能计算与高性能计算机

机群系统的分类

高性能机群 负载均衡机群 高可用机群

Page 52: 高性能计算与高性能计算机

高性能机群系统架构

Page 53: 高性能计算与高性能计算机

高性能机群层次架构

应用层应用层

机群操作系统层(机群操作系统层( DCOSDCOS ))

系统软件层(系统软件层( OS, OS, 编译器)编译器)

硬件层(节点硬件层(节点 , , 网络等)网络等)

Page 54: 高性能计算与高性能计算机

曙光 4000 系列机群系统• 节点机• 网络• 存储• 机群支撑系统

• SKVM• 并行环境• 编译环境• 高性能数学库

• 曙光机群操作系统 (DCAS)– 机群管理系统、机群监控系统、机群部署系统、作业管理系统、并行文件系统

Page 55: 高性能计算与高性能计算机

曙光机群十大标准化技术

异构平台整合技术 复杂机群

简易管理技术

一体化监控技术

智能机柜技术

机群安全管理技术

机群并行吞吐技术

机群快速部署技术

远程 /异地操作控制技术行业定制

优化技术

机群负载均衡技术

曙光机群服务器十大标准化

技术

Page 56: 高性能计算与高性能计算机

总结

什么是高性能计算和高性能计算机? 集群 (Cluster) 是当今高性能计算机的主流 什么样的用户需要高性能计算机? 用户都关心哪些问题? 高性能计算机销售和一般服务器销售的区别

Page 57: 高性能计算与高性能计算机