Nvidia Pascal

Abstract—Este es un documento informativo y se tratara de

abarcar y explicar, al mismo tiempo algunas de las novedades

más importantes de la nueva micro arquitectura GPU

desarrollada por NVIDIA llamada “Pascal”, también se podrá

verlos cambios más relevantes en base a su anterior micro

arquitectura llamada “Maxwell”, para poder apreciar estos

cambios, se mostrara distintos benchmarkings, llevadas a cabo en

algunas tarjetas gráficas de tope de gama de ambas

arquitecturas.

I. INTRODUCCIÓN

ACE algunos meses atrás, en el “2016 Technology

Conference”, Nvidia anuncia el Tesla P100, donde indican

que esta tarjeta gráfica es la más ambiciosa hasta la fecha dela

compañia.

El P100 cuenta con la GPU (Graphics Processor Unit) de

Nvidia más potente y más compleja que jamás se haya

concebido por la empresa, cuyo nombre en código es GP100.

Fig. 1. Nvidia GPU GP100 de tesla

Esta insignia de la GPU Pascal, es una maravilla de la

ingeniería, y es en base a esta pieza, es que nos basaremos,

para proporcionar una visión general de la arquitectura Pascal,

como también todos los detalles que Nvidia ha revelado acerca

de este espectacular chip grafico.

II. NOVEDADES DE LA NVIDIA GPU GP100 Y TESLA P100

ACCELERATOR

Pascal tuvo un desarrollo de tres años, y también tuvo una

inversión de más de mil millones de dólares, y como resultado

obtuvo un incremento de varias órdenes de magnitud en sus

prestaciones, comparada con su arquitectura anterior,

Maxwell.

En su discurso el Co-Fundador y CEO de Nvidia dijo

“Nvidia never relies on more than one technical miracle with a

given architecture”, traduciendolo “Nvidia no se basa en más

de un milagro técnico con una determinada arquitectura”[1].

Con la GPU GP100, la compañía tuvo un éxito en la

creación de las tarjetas gráficas más potentes hasta la fecha, y

confiando para esto no en uno, sino en cinco “Milagros”

tecnológicos [1]

Fig. 2. “Five Miracles” o bien los “cinco Milagro”, las cuales son las

novedades de Nvidia Pascal.

La nueva generación de arquitectura grafica Pascal

TSMC’s 16nm FinFET tecnología de proceso de

fabricación

La siguiente generación de memoria, apiladas

verticalmente, High Bandwidth Memory (HBM 2)

Nueva forma de interconectar los GPU, NV-Link

Y por último donde sobresale la carga de trabajo

de la GP100, para entornos AI

Arquitectura GPU NVIDA Pascal

J. Pablo Moreira C.

Ingeniería en Telecomunicaciones, Universidad Privada del Valle

Cochabamba, Bolivia

[email protected]

H

A. Arquitectura Pascal de Nvidia y la GP100

Como siempre Nvidia tiene la tradición de entregar mayor

desempeño y eficiencia energética con cada generación de

arquitectura gráfica, y Pascal no será una excepción.

La estructura fundamental de cada GPU pascal, se llama

SM, una abreviatura de Streaming Multiprocesor,

anteriormente Maxwell (arquitectura anterior a pascal) tenía la

SMM, Streaming Maxwell multiprocessor como su estructura

fundamental, y Kepler (arquitectura anterior a ambos) tenía la

SMX.

El Multiprocesor Streaming es el motor que se encarga de

crear, gestionar, programar y ejecutar las instrucciones de

muchos hilos en paralelo.

La GPU GP100 esta conformada por 3840 CUDA cores,

240 unidades de textura y una interfaz de memoria de

4096bits.[2]

Fig. 3. Nvidia Pascal GPU GP100 Diagrama de Bloques.

Los 3840 CUDA cores constituyen seis clusters de

procesamiento de gráficos o también abreviado GPCs, cada

uno de estos tiene 10 Streaming Multiprocesor de Pascal.[2]

El GPU GP100 es realmente grande, llegando

aproximadamente a medir 610mm2 y 15 billones de

transistores, más o menos el doble de una GPU GM200 de una

Nvidia GTX Titan y una tarjeta gráfica GTX 980Ti.

La GP100 tiene significativamente mas SM (Streaming

Multiprocesor) de Pascal, o bloques de CUDA cores, en

comparacion con la GM200, por que cada SM (Streaming

Multiprocesor) de Pascal solo se compone de 64 CUDA cores

en comparacion a los 128 de Maxwell.[2]

Ademas que, cada SM (Streaming Multiprocesor) de Pascal

tiene el mismo número de registros de Maxwell 128 CUDA

cores SMM.

Esto quiere decir que cada CUDA core de Pascal, tiene un

acceso a los registros de dos veces, esto a su ves significa que

las GP100 tienen menos hilos (throughput), que anteriores

GPUs, pero que cada hilo interior tiene acceso a mas registros

y por tanto se tiene mucho más rendimiento.

Como siempre el objetivo de Nvidia fue ofrecer un mayor

rendimiento y al mismo tiempo una eficiencia energética

mejorada, Como tal Pascal se basa en los cambios que se

implementaron en Maxwell después de Kepler.[3]

Fig. 4. Pascal Streaming Multiprocessor SM.

El combinado de 14MB de archivos de registro y 4MB de

memoria global compartida a través de la GPU GP100 dan

como resultado un aumento del doble ancho de banda general

dentro del chip, comparación a la GM200.[3]

Fig. 5. Pascal Streaming Multiprocessor SM.

El resultado final es que cada SM Pascal realmente requiere

menos energía y área para gestionar la transferencia de datos

incluso en comparación con una SMX de Kepler.[3]

Mejora el rendimiento y eficiencia de consumo energético.

Pascal también incluye un planificador actualizado que no

sólo mejora la utilización de SM sino que también es más

inteligente en lo que respecta al consumo de energía.

Por último, cada programador puede despachar dos

instrucciones por reloj.

B. Tecnología de fabricación TSMC 16nm FinFET

Es un Nuevo proceso de fabricación que recien, tendrá una

producción en masa. [4]

Arquitecto Senior de NVIDIA, Lars Nyland de Nvidia

admite que el proceso de 16nm FinFET[5] proveniente de la

compañía taiwanesa TSMC (Taiwan Semiconductor

Manufacturing Company), desempeño un papel importante en

la obtención de los objetivos de la eficiencia energética del

equipo, pero sostiene que numerosas mejoras arquitectónicas

ayudaron a reducir aún más el consumo de energía de la

arquitectura.

Fig. 6. Nvidia Tesla GPU P100 accelerator (front)

Fig. 7. Nvidia Tesla GPU P100 accelerator (back)

Un rápido vistazo a la siguiente tabla muestra una de las

maravillosas ventajas de FinFET, además de la zona y las

mejoras energéticas y tiene un proceso de conmutación de

transistores mucho más rápido .[5]

Obviamente esto se ha traducido con significativamente

mayores velocidades de reloj para Nvidia con la GPU Pascal

GP100, en comparación de los 28nm de sus predecesores.

El Tesla P100 realmente ofrece un impulso a la frecuencia

de 1480mhz, muy cerca de tocar 1,5 Ghz. y manteniendo la

misma eficiencia energética.

Como bien se puede observar en la tabla de arriba, se tiene

una ganancia enorme del 33% en velocidades de reloj en

comparación a la arquitectura Maxwell.[5]

Considerando que las tarjetas graficas Geforce GTX 900

series pueden ser overclockeadas a 1.5Ghz, mas allá de todo

estoy muy seguro que los aficionados al overclocking llegaran

con sus tarjetas gráficas Pascal (GTX series 1000) a los 2 Ghz

sin muchos problemas.

A todo esto que es un GFLOP, o un TFLOP que siempre

están en los benchmarking de CPU o GPU?, pues un PC es

capaz de realizar cálculos sobre dos tipos de números.

Los primeros y más sencillos son los enteros, es decir por

ejemplo sumar 56 y 37.

Existen otros más interesantes denominados números con

coma flotante.

Este nombre se refiere a aquellos números que pueden ser

expresados usando decimales como por ejemplo el 3,2 o el

4,5. Muchísimas aplicaciones trabajan con estos.

“Flops” indica el número de operaciones de coma flotante

que es capaz de realizar un dispositivo o PC por segundo.

Por tanto un Gigaflops indica 1000 millones de operaciones

por segundo de coma flotante.

TABLA I

TABLA COMPARATIVA DEL TESLA P100 CON GENERACIONES ANTERIORES

Tesla Products Tesla K40 Tesla M40 Tesla P100

GPU GK110

(Kepler)

GM200

(Maxwell)

GP100

(Pascal)

SMs 15 24 56 TPCs 15 24 28

FP32 CUDA Cores /

SM 192 128 64

FP32 CUDA Cores /

GPU 2880 3072 3584

FP64 CUDA Cores / SM

64 4 32

FP64 CUDA Cores /

GPU 960 96 1792

Base Clock 745Mhz 948Mhz 1328Mhz

GPU Boost Clock 810/875Mhz 1114Mhz 1480Mhz

Compute

Performance - FP32 5.04TFLOPS 6.82TFLOPS 10.6TFLOPS

Compute

Performance - FP64 1.68TFLOPS 0.21TFLOPS 5.3TFLOPS

Texture Units 240 192 224

Memory Interface 384Bits

GDDR5

384Bits

GDDR5

4096Bits

HBM2 Memory Size Up to 12GB Up to 24GB 16GB

L2 Cache Size 1536 KB 3072 KB 4096 KB

Register File Size /

SM 256 KB 256 KB 256 KB

Register File Size / GPU

3840 KB 6144 KB 14336 KB

TDP 325 Watts 250 Watts 300 Watts

Transistors 7.1 Billon 8 Billon 15.3 Billon

GPU Die Size 551 mm2 601 mm2 610 mm2

Manufacturing

Process 28-nm 28-nm 16-nm

C. Tecnología de Memoria de próxima generación – HBM2

HBM 2 (High Bandwidth Memory 2) si bien fue un

desarrollo de AMD y SK Hynix en el cual trabajaron 7 años

para desarrollar un nuevo estándar de memoria, HBM (high

bandwidth memory) nació.[6]

Los estándares de memoria tradicionales simplemente

llegaron a un punto donde, arquitectónicamente y

económicamente ya no son viables.

Los estándares de memoria como GDDR5 llegaron a un

punto donde ya no son una alternativa viable, tanto en

desempeño como en eficiencia energética. Por ejemplo para

mejorar la frecuencia y lograr mas ancho de banda, se requiere

un mayor consumo energético.

Por tanto el diseño de procesadores con más interfaces de

memoria GDDR5 , ya no son viables económicamente, ya que

hoy en día estas memorias inflaron los costos y al mismo

tiempo el consumo energético.

La distribución de la memoria HBM es de forma “apilada”,

y es por esto que el apilamiento vertical permite mucha mayor

integración, por tanto se ahorra un área inmensa en la placa de

circuito impreso.[6]

Fig. 8 Comparativa de la dimensión de GDDR5 y HBM

Fig. 9 Ahorro de espacio masivo en GDDR5

Esto indica que HBM requiere un voltaje mas bajo para

funcionar y está conectado a través de interfaces mucho mas

amplias, teniendo así aumentos significativos del ancho de

banda y al mismo manteniendo las frecuencias bajas para así

lograr un consume energético eficiente.[6]

Fig. 10 Comparativa de la dimensión de GDDR5 y HBM

Por tanto se obtiene una mejora del 300% en el ancho de

banda por vatio, alcanzando así un mayor ancho de banda y

reduciendo considerablemente el consume energético.[7]

El Tesla P100 incluye cuatro 4-HI HBM2 stack, y así

teniendo un total de 16 GB de memoria y 720 Gb/s de ancho

de banda máximo.

Es tres veces mas el ancho de banda, que la anterior

generación de Nvidia la M40 de Tesla.[8]

Fig. 11 SC15 (Super Computing 2015)

III. CONCLUSIONES

Para tener una mejor perspectiva acerca del rendimiento real

de esta arquitectura, que mejor que ver un review completo de

la Nvidia GTX 1080 que esta basado en arquitectura pascal,

aquí dispongo el link (http://www.guru3d.com/articles-

pages/nvidia-geforce-gtx-1080-review.html)[9], en ahí se puede

apreciar, mediante los distintos benchamarking y otras pruebas

que llevan a cabo con la tarjeta gráfica.

Viendo distintos sitios, donde realizan un review al tope de

gama que es la Nvidia GTX 1080 basada en pascal [10] se

puede apreciar que es aun muy temprano para sacar un

conclusión final, ya que esta arquitectura recién fue lanzada y

aun faltan distintas versión de algunos ensambladores como

ser ASUS o Gygabit, etc, ya que estos realmente si explotan y

optimizan mas aun la nueva arquitectura, claro ejemplo con

las GTX 980Ti Strix de ASUS que mejoro enormemente el

consumo energético y el calor generado por esta tarjeta de

video.

Por ultimo indicar también, que en el 2017 se realizara una

mejora a esta arquitectura, ya se filtraron noticias acerca de

una Nvidia GTX 1080Ti, habrá que esperar a ver cuáles serán

las novedades de esta actualización, y si realmente se mejora

más aun las GP100 de pascal.

Referencias

[1] M a r k H a r r i s . ( 2 0 1 6 , J u n i o . ) . In s id e Pa sca l : NV ID IA Newes t c omp u t in g p la t a fo rm [Online]. Available:

http://blogs.nvidia.com/parallelforall/inside-pascal/

[2] S t e v e B u r k e . ( 2 0 1 6 , Mayo . ) . NV ID IA Pasca l GP1 0 0

Arch i t ec tu r e D eep -Di v e [Online]. Available:

http://www.gamersnexus.net/guides/2423-nvidia-pascal-gp100-architecture-deep-dive-specs

[3] J a r r e d W a l t o n . ( 2 0 1 6 , ab r i l . ) . Nvid i a Pasca l P1 0 0 a rch i t ec tu r e d eep d iv e [Online]. Available:

http://www.pcgamer.com/nvidia-pascal-p100-architecture-deep-dive/

[4] L u c i a n A r m a s u . ( 2 0 1 4 , Agosto . ) . Ap p le An d Nvid i a

To Get 1 6 n m Fin FE T Ch ip s Fr om TSMC On e Qu ar t er

Ea r l i e r N ext Y ea r [Online]. Available: http://www.tomshardware.com/news/tsmc-apple-nvidia-denver-

finfet,27538.html

[5] T i f f a n y T r a d e r . ( 2 0 1 6 , Ab ri l . ) . NV ID IA Un leash es

Mon s t e r Pasca l GP U Card a t GTC1 6 [Online]. Available: https://www.hpcwire.com/2016/04/05/nvidia-monster-pascal-gpu-card-

gtc16/

[6] K h a l i d M o a m m e r . ( 2 0 1 5 , Sept i emb re . ) . AMD

An n ou n c es High Ban d wid th Memo r y – In n o va t i v e

Ver t i ca l l y S t ack ed Mem o r y S t an d a rd [Online]. Available: http://wccftech.com/amd-releases-official-hbm-presentation-3d-stacked-

high-bandwidth-memory-cornerstone-gen-gpus-apus/

[7] A l b e r t o L u q u e R i v a s . ( 2 0 1 6 , En ero . ) . Pasca l s er í a la

s i gu i en t e g en erac i ón d e t a r j e t a s d e Nvid i a , y d i cen

p rom et er d es emp eñ o [Online]. Available: http://es.blastingnews.com/tecnologia/2016/09/league-of-legends-

cambios-radicales-para-la-pre-temporada-2017-001113687.html

[8] N V I D I A C o r p o r a t i o n . ( 2 0 1 6 , A b r i l . ) . G P 1 0 0 P a s c a l

W h i t e p a p e r - F l u i D y n a G m b H . [Online]. Available:

[9] H i l b e r t H a g e d o o r n . ( 2 0 1 6 , Mayo . ) . Nvid i a GeFo rc e

GTX 1 0 8 0 rev i ew [Online]. Available:

http://www.guru3d.com/articles-pages/nvidia-geforce-gtx-1080-

review.html

[10] C h r i s A n g e l i n i . ( 2 0 1 6 , Mayo . ) . N vid i a GeFo rc e GTX

1 0 8 0 Pasca l Revi ew [Online]. Available: http://www.tomshardware.com/reviews/nvidia-geforce-gtx-1080-

pascal,4572.html

http://www.guru3d.com/articles-pages/nvidia-geforce-gtx-1080-review.html


http://www.amdahl.com/doc/products/bsg/intra/infra/html

http://blogs.nvidia.com/parallelforall/inside-pascal/





http://www.pcgamer.com/nvidia-pascal-p100-architecture-deep-dive/


http://www.tomshardware.com/news/tsmc-apple-nvidia-denver-finfet,27538.html

http://www.tomshardware.com/news/tsmc-apple-nvidia-denver-finfet,27538.html


https://www.hpcwire.com/2016/04/05/nvidia-monster-pascal-gpu-card-gtc16/

https://www.hpcwire.com/2016/04/05/nvidia-monster-pascal-gpu-card-gtc16/


http://wccftech.com/amd-releases-official-hbm-presentation-3d-stacked-high-bandwidth-memory-cornerstone-gen-gpus-apus/

http://wccftech.com/amd-releases-official-hbm-presentation-3d-stacked-high-bandwidth-memory-cornerstone-gen-gpus-apus/


http://es.blastingnews.com/tecnologia/2016/09/league-of-legends-cambios-radicales-para-la-pre-temporada-2017-001113687.html

http://es.blastingnews.com/tecnologia/2016/09/league-of-legends-cambios-radicales-para-la-pre-temporada-2017-001113687.html





http://www.tomshardware.com/reviews/nvidia-geforce-gtx-1080-pascal,4572.html

http://www.tomshardware.com/reviews/nvidia-geforce-gtx-1080-pascal,4572.html

Nvidia Pascal

Technology

Transcript of Nvidia Pascal