阿里云HPC加速人工智能的发展 -...

28
阿里云HPC加速人工智能的发展 游亮(昀龙) Alibaba Cloud Confidential

Transcript of 阿里云HPC加速人工智能的发展 -...

Page 1: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC加速人工智能的发展 游亮(昀龙)

Alibaba Cloud Confidential

Page 2: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

大纲

• 阿里云HPC介绍 • 阿里巴巴集团深度学习实践 • 阿里云HPC深度学习实践

Alibaba Cloud Confidential

Page 3: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

大纲

• 阿里云HPC介绍 • 阿里巴巴集团深度学习实践 • 阿里云HPC深度学习实践

Alibaba Cloud Confidential

Page 4: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC介绍 • 中国首个推出公共云上的HPC产品

• 中国首个推出云上Maxwell架构的Tesla GPU,单节点单精度计算能力超过16Tflops • 阿里云HPC特点

• 持续高性能,无性能损失,无功能损失,云产品互通,弹性

• 阿里云HPC团队 • 集团内客户GPU集群建设、客服服务和应用优化 • 公共云上HPC运营、客户服务和应用优化 • 异构云平台预研

• 致力于满足深度学习用户的高性能计算需求 • 初创型新兴用户:随着人工智能市场的蓬勃发展,创业企业如雨后春笋般涌现出

来,他们对高性能计算的需求非常强烈 • 互联网企业也加入深度学习的浪潮,对高性能计算的需求与日俱增 • 传统GPU用户 + 深度学习:渲染(虚拟现实)、游戏、图形图像处理、视频处理 • 传统HPC用户 + 深度学习:气象、医疗图像处理、计算金融、碰撞模拟、流体力

学、基因测序等

Alibaba Cloud Confidential

Page 5: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

大纲

• 阿里云HPC介绍 • 阿里巴巴集团深度学习实践 • 阿里云HPC深度学习实践

Alibaba Cloud Confidential

Page 6: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

大纲

• 阿里云HPC介绍 • 阿里巴巴集团深度学习实践 • 阿里云HPC深度学习实践

Alibaba Cloud Confidential

Page 7: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里深度学习业务场景

• 商品分类 • 商品风格预测 • 商品质量控制 • 拍照购 • 反黄 • 人脸识别 • 图像搜索 • OCR

• ICDAR Robust Reading top1

• 语音识别 • 阿里小Ai

Alibaba Cloud Confidential

Page 8: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里深度学习集群

• 业务 • 大规模深度学习训练 • 在线、离线预测

• 建设统一化资源管理、调度、监控 • 规模: 上千片K40/M40 GPU,Infiniband网络 • 资源调度系统 • 弹性: docker容器服务 • 多租户隔离

• 部署自动化训练、预测服务 • 部署针对特定GPU架构的深度学习优化实现

Alibaba Cloud Confidential

Page 9: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里深度学习集群-资源调度系统

• 调度系统特点 • 可灵活配置 • 支持docker容器调度 • 任务迁移 • 轻量高性能 • 控制节点主备

Alibaba Cloud Confidential

Page 10: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

深度学习性能优化

• 系统层面 • 多机多卡训练优化 • 预测的吞吐量优化 • 通信优化(MPI overlap、Direct RDMA)

• 针对GPU优化 • CUDA Kernel优化 • Multi-stream优化 • PTX、Native指令优化 • 显存节约 • 数据传输优化 • 工具增强优化

Alibaba Cloud Confidential

Page 11: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

GPU极致性能优化工具-AsKepler

• 世界唯一公开Kepler原生汇编器

• 目前支持SM35,SM37 • 自由使用原生指令 • 自由寄存器映射 • 自由控制指令调度

• 了解微架构,进而指导人工优化或编译器后端优化

Alibaba Cloud Confidential

Page 12: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

Kepler GPU上2D卷积性能优化

• 目前Kepler GPU上世界最快 • Native指令直接实现Img2col + sgemm,减少数据中转 • 尽量使用shared memory,减少全局内存访问 • 循环展开:增加shared memory的使用,指令并行 • 寄存器数量和shared memory的权衡,提高occupancy • 充分利用dual issue • 边界处理,避免warp内分支 • 性能:

• ourConv_sass vs. cuDNNv2: 2.1倍 • ourConv_sass vs. cuDNNv3_FFT: 1.75倍

Alibaba Cloud Confidential

Page 13: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

语音识别优化案例

• 语音识别应用 • 客服电话语音识别 • YunOS语音识别 • 云栖大会语音识别

• 难点 • 只有CPU代码,需要向GPU移植 • 需要GPU上多路语音并行 • CPU、GPU数据传输频繁 • GPU计算效率低

• 优化方法 • 移植到GPU:创建CUDA相关矩阵类,封装CUDA相关矩阵操作 • 并行优化:不同路语音绑定到不同的CUDA stream上 • 数据传输优化:减少CPU、GPU数据传输次数 • 微架构优化:提高矩阵乘法、矩阵向量乘法效率 • LSTM凑batch优化:把不同请求的语言凑在一起过网络

• 优化结果 • 双M40卡比32核CPU 5倍路数比 • 云栖大会语音识别 • 小Ai机器人

1

5

0

1

2

3

4

5

6

CPU GPU

语音识别路数对比

路数比

Alibaba Cloud Confidential

Page 14: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

大纲

• 阿里云HPC介绍 • 阿里巴巴集团深度学习实践 • 阿里云HPC深度学习实践

Alibaba Cloud Confidential

Page 15: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

大纲

• 阿里云HPC介绍 • 阿里巴巴集团深度学习实践 • 阿里云HPC深度学习实践

Alibaba Cloud Confidential

Page 16: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习基础设施 • CPU + GPU + ECS计算服务 + 阿里云众多产品服务

• OSS,分布式存储 • NAS,并行文件系统 • ODPS,实现高性能计算和大数据计算结合 • ECS,在线预测服务器 • CDN,图像、视频在线、离线预测 • SLB,高吞吐在线预测

深度学习基础设施

CPU + GPU + ECS 计算服务

RDS 数据库

…… ODPS 大数据

SLB

负载均衡

OSS/NAS 存储

CDN

内容分发

Alibaba Cloud Confidential

Page 17: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC加速深度学习 Tesla M40

DNN – all fully connected layers CNN – some convolutional layers RNN – recurrent neural network, LSTM

Alibaba Cloud Confidential

Page 18: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习资源编排 • 一键资源编排 • 打通深度学习上下游,形成数据闭环链路

离线训练

离线预测

在线预测 特征提取 标注

离线训练 训练的模型

分类 分类

分类

训练的模型

原始数据

分类数据

分类数据

Alibaba Cloud Confidential

Page 19: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习应用一键部署

• 通过阿里云容器服务进行一键部署 • 创建镜像:打好深度学习应用镜像

并上传到Docker Hub上

• 创建容器集群:通过容器管理中心起Agent、Routing、Volume、Monitor、Log等容器

• 容器编排:通过Agent容器按照容器编排从Docker Hub下载镜像并起应用服务容器

• 服务请求:通过容器服务的SLB和Routing容器传到相应的应用服务容器上,应用服务处理和响应请求

HPC基础设施

Routing容器

SLB

Routing容器 Routing容器

容器管理中心

…… ……

阿里云Docker

Hub

服务请求

Agent容器 Volume容器 Monitor容器 Log容器

应用服务 容器

应用服务 容器

应用服务 容器

Alibaba Cloud Confidential

Page 20: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习工具开箱即用

• 通过主机自带或者Docker镜像提供 • Caffe • cuDnn v4 • Tensorflow • Mxnet • Torch • Theano

• 易用性高 • 按量计费 • 资源编排 • 一键部署 • 弹性伸缩

Alibaba Cloud Confidential

Page 21: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC加速的领域 • 传统GPU应用领域 + 深度学习

• 视频直播(直播 + 鉴黄、运动员跟踪、游戏人物跟踪、商标识别等) • 智慧城市、数字交通(车牌识别、流量分析、安全监控、交通模拟) • 虚拟现实(VR)、增强现实(AR)(Magic Leap)

• 新兴应用领域 + 深度学习 • 图像识别、语音识别、自然语言理解、智能客服(阿里小Ai、支付宝人脸认证、苹果Siri、微软小冰) • 以图搜图(淘宝拍立淘) • 以音乐搜音乐(Shazam: google app store top5) • 自动驾驶(汽车自动驾驶、无人机) • 大数据分析(Salesforce 利用 GPU 分析Twitter数据) • NoSQL数据库(PostgreSQL扩展PG-Storm) • 网络安全(病毒检测、攻击识别)

• 传统领域 + 深度学习的新发展 • 气象预测(彩云天气、阿里云) • 心脏病识别 • 癌症识别 • 医疗图像识别 • 药物发现

Alibaba Cloud Confidential

Page 22: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习客户 -- Dress+ 衣+

整合全球数千万时装商品 免费API

全网连接图片视频和商品 边看边买 所见所得

碎片化移动购物需求

计算机视觉搜索引擎

Alibaba Cloud Confidential

Page 23: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习客户 -- Dress+ 衣+

• 业务架构 • 基于HPC的预测 • 基于SLB负载均衡 • 多实例提高冗余程度

Alibaba Cloud Confidential

Page 24: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习客户 -- Dress+ 衣+

• 从AWS迁移到阿里云HPC

Alibaba Cloud Confidential

Page 25: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习客户 -- DEEPIR深图智服

• DEEPIR 深图智服科技简介 • DeepIR (“Deep Image Recognition”) ,深度学习图像识别智能服务, 简称

“深图智服”

• 专注于研发深度学习、图像识别和计算机视觉的原创技术,在各种公开数据集上取得非常优异的结果

• 广泛运用于视频直播智能审核、图片鉴黄、人脸识别、物体识别、图像搜索、智能电商、智能监控和医疗健康等众多领域

Alibaba Cloud Confidential

Page 26: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

阿里云HPC深度学习客户 -- DEEPIR深图智服

SaaS服务接入层

阿里云HPC

基础设施、运维、监控

Browser GUI RESTFUL API Others

智能审核 图像搜索 人脸识别

个人中心

支付系统

统计系统

公共基础层

分类算法 识别算法 身份权限

管理 数据交换 存储服务

场景识别

数据层

业务数据 用户数据 文件存储 ……

Alibaba Cloud Confidential

Page 27: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

总结

• 阿里云HPC介绍 • 阿里巴巴集团深度学习实践 • 阿里云HPC深度学习实践

阿里云HPC致力于加速人工智能的发展

希望更多人工智能企业、研究者、师生能使用好阿里云HPC这个人工智能加速器

Alibaba Cloud Confidential

Page 28: 阿里云HPC加速人工智能的发展 - images.nvidia.comimages.nvidia.com/cn/gtc/downloads/pdf/deep-learning/106 阿里云HPC... · • 传统gpu应用领域 + 深度学习 •

谢谢! https://www.aliyun.com/product/hpc

[email protected]

Alibaba Cloud Confidential