Nvidia Pascal
Click here to load reader
-
Upload
pablo-moreira -
Category
Technology
-
view
49 -
download
0
Transcript of Nvidia Pascal
Abstract—Este es un documento informativo y se tratara de
abarcar y explicar, al mismo tiempo algunas de las novedades
más importantes de la nueva micro arquitectura GPU
desarrollada por NVIDIA llamada “Pascal”, también se podrá
verlos cambios más relevantes en base a su anterior micro
arquitectura llamada “Maxwell”, para poder apreciar estos
cambios, se mostrara distintos benchmarkings, llevadas a cabo en
algunas tarjetas gráficas de tope de gama de ambas
arquitecturas.
I. INTRODUCCIÓN
ACE algunos meses atrás, en el “2016 Technology
Conference”, Nvidia anuncia el Tesla P100, donde indican
que esta tarjeta gráfica es la más ambiciosa hasta la fecha dela
compañia.
El P100 cuenta con la GPU (Graphics Processor Unit) de
Nvidia más potente y más compleja que jamás se haya
concebido por la empresa, cuyo nombre en código es GP100.
Fig. 1. Nvidia GPU GP100 de tesla
Esta insignia de la GPU Pascal, es una maravilla de la
ingeniería, y es en base a esta pieza, es que nos basaremos,
para proporcionar una visión general de la arquitectura Pascal,
como también todos los detalles que Nvidia ha revelado acerca
de este espectacular chip grafico.
II. NOVEDADES DE LA NVIDIA GPU GP100 Y TESLA P100
ACCELERATOR
Pascal tuvo un desarrollo de tres años, y también tuvo una
inversión de más de mil millones de dólares, y como resultado
obtuvo un incremento de varias órdenes de magnitud en sus
prestaciones, comparada con su arquitectura anterior,
Maxwell.
En su discurso el Co-Fundador y CEO de Nvidia dijo
“Nvidia never relies on more than one technical miracle with a
given architecture”, traduciendolo “Nvidia no se basa en más
de un milagro técnico con una determinada arquitectura”[1].
Con la GPU GP100, la compañía tuvo un éxito en la
creación de las tarjetas gráficas más potentes hasta la fecha, y
confiando para esto no en uno, sino en cinco “Milagros”
tecnológicos [1]
Fig. 2. “Five Miracles” o bien los “cinco Milagro”, las cuales son las
novedades de Nvidia Pascal.
La nueva generación de arquitectura grafica Pascal
TSMC’s 16nm FinFET tecnología de proceso de
fabricación
La siguiente generación de memoria, apiladas
verticalmente, High Bandwidth Memory (HBM 2)
Nueva forma de interconectar los GPU, NV-Link
Y por último donde sobresale la carga de trabajo
de la GP100, para entornos AI
Arquitectura GPU NVIDA Pascal
J. Pablo Moreira C.
Ingeniería en Telecomunicaciones, Universidad Privada del Valle
Cochabamba, Bolivia
H
A. Arquitectura Pascal de Nvidia y la GP100
Como siempre Nvidia tiene la tradición de entregar mayor
desempeño y eficiencia energética con cada generación de
arquitectura gráfica, y Pascal no será una excepción.
La estructura fundamental de cada GPU pascal, se llama
SM, una abreviatura de Streaming Multiprocesor,
anteriormente Maxwell (arquitectura anterior a pascal) tenía la
SMM, Streaming Maxwell multiprocessor como su estructura
fundamental, y Kepler (arquitectura anterior a ambos) tenía la
SMX.
El Multiprocesor Streaming es el motor que se encarga de
crear, gestionar, programar y ejecutar las instrucciones de
muchos hilos en paralelo.
La GPU GP100 esta conformada por 3840 CUDA cores,
240 unidades de textura y una interfaz de memoria de
4096bits.[2]
Fig. 3. Nvidia Pascal GPU GP100 Diagrama de Bloques.
Los 3840 CUDA cores constituyen seis clusters de
procesamiento de gráficos o también abreviado GPCs, cada
uno de estos tiene 10 Streaming Multiprocesor de Pascal.[2]
El GPU GP100 es realmente grande, llegando
aproximadamente a medir 610mm2 y 15 billones de
transistores, más o menos el doble de una GPU GM200 de una
Nvidia GTX Titan y una tarjeta gráfica GTX 980Ti.
La GP100 tiene significativamente mas SM (Streaming
Multiprocesor) de Pascal, o bloques de CUDA cores, en
comparacion con la GM200, por que cada SM (Streaming
Multiprocesor) de Pascal solo se compone de 64 CUDA cores
en comparacion a los 128 de Maxwell.[2]
Ademas que, cada SM (Streaming Multiprocesor) de Pascal
tiene el mismo número de registros de Maxwell 128 CUDA
cores SMM.
Esto quiere decir que cada CUDA core de Pascal, tiene un
acceso a los registros de dos veces, esto a su ves significa que
las GP100 tienen menos hilos (throughput), que anteriores
GPUs, pero que cada hilo interior tiene acceso a mas registros
y por tanto se tiene mucho más rendimiento.
Como siempre el objetivo de Nvidia fue ofrecer un mayor
rendimiento y al mismo tiempo una eficiencia energética
mejorada, Como tal Pascal se basa en los cambios que se
implementaron en Maxwell después de Kepler.[3]
Fig. 4. Pascal Streaming Multiprocessor SM.
El combinado de 14MB de archivos de registro y 4MB de
memoria global compartida a través de la GPU GP100 dan
como resultado un aumento del doble ancho de banda general
dentro del chip, comparación a la GM200.[3]
Fig. 5. Pascal Streaming Multiprocessor SM.
El resultado final es que cada SM Pascal realmente requiere
menos energía y área para gestionar la transferencia de datos
incluso en comparación con una SMX de Kepler.[3]
Mejora el rendimiento y eficiencia de consumo energético.
Pascal también incluye un planificador actualizado que no
sólo mejora la utilización de SM sino que también es más
inteligente en lo que respecta al consumo de energía.
Por último, cada programador puede despachar dos
instrucciones por reloj.
B. Tecnología de fabricación TSMC 16nm FinFET
Es un Nuevo proceso de fabricación que recien, tendrá una
producción en masa. [4]
Arquitecto Senior de NVIDIA, Lars Nyland de Nvidia
admite que el proceso de 16nm FinFET[5] proveniente de la
compañía taiwanesa TSMC (Taiwan Semiconductor
Manufacturing Company), desempeño un papel importante en
la obtención de los objetivos de la eficiencia energética del
equipo, pero sostiene que numerosas mejoras arquitectónicas
ayudaron a reducir aún más el consumo de energía de la
arquitectura.
Fig. 6. Nvidia Tesla GPU P100 accelerator (front)
Fig. 7. Nvidia Tesla GPU P100 accelerator (back)
Un rápido vistazo a la siguiente tabla muestra una de las
maravillosas ventajas de FinFET, además de la zona y las
mejoras energéticas y tiene un proceso de conmutación de
transistores mucho más rápido .[5]
Obviamente esto se ha traducido con significativamente
mayores velocidades de reloj para Nvidia con la GPU Pascal
GP100, en comparación de los 28nm de sus predecesores.
El Tesla P100 realmente ofrece un impulso a la frecuencia
de 1480mhz, muy cerca de tocar 1,5 Ghz. y manteniendo la
misma eficiencia energética.
Como bien se puede observar en la tabla de arriba, se tiene
una ganancia enorme del 33% en velocidades de reloj en
comparación a la arquitectura Maxwell.[5]
Considerando que las tarjetas graficas Geforce GTX 900
series pueden ser overclockeadas a 1.5Ghz, mas allá de todo
estoy muy seguro que los aficionados al overclocking llegaran
con sus tarjetas gráficas Pascal (GTX series 1000) a los 2 Ghz
sin muchos problemas.
A todo esto que es un GFLOP, o un TFLOP que siempre
están en los benchmarking de CPU o GPU?, pues un PC es
capaz de realizar cálculos sobre dos tipos de números.
Los primeros y más sencillos son los enteros, es decir por
ejemplo sumar 56 y 37.
Existen otros más interesantes denominados números con
coma flotante.
Este nombre se refiere a aquellos números que pueden ser
expresados usando decimales como por ejemplo el 3,2 o el
4,5. Muchísimas aplicaciones trabajan con estos.
“Flops” indica el número de operaciones de coma flotante
que es capaz de realizar un dispositivo o PC por segundo.
Por tanto un Gigaflops indica 1000 millones de operaciones
por segundo de coma flotante.
TABLA I
TABLA COMPARATIVA DEL TESLA P100 CON GENERACIONES ANTERIORES
Tesla Products Tesla K40 Tesla M40 Tesla P100
GPU GK110
(Kepler)
GM200
(Maxwell)
GP100
(Pascal)
SMs 15 24 56 TPCs 15 24 28
FP32 CUDA Cores /
SM 192 128 64
FP32 CUDA Cores /
GPU 2880 3072 3584
FP64 CUDA Cores / SM
64 4 32
FP64 CUDA Cores /
GPU 960 96 1792
Base Clock 745Mhz 948Mhz 1328Mhz
GPU Boost Clock 810/875Mhz 1114Mhz 1480Mhz
Compute
Performance - FP32 5.04TFLOPS 6.82TFLOPS 10.6TFLOPS
Compute
Performance - FP64 1.68TFLOPS 0.21TFLOPS 5.3TFLOPS
Texture Units 240 192 224
Memory Interface 384Bits
GDDR5
384Bits
GDDR5
4096Bits
HBM2 Memory Size Up to 12GB Up to 24GB 16GB
L2 Cache Size 1536 KB 3072 KB 4096 KB
Register File Size /
SM 256 KB 256 KB 256 KB
Register File Size / GPU
3840 KB 6144 KB 14336 KB
TDP 325 Watts 250 Watts 300 Watts
Transistors 7.1 Billon 8 Billon 15.3 Billon
GPU Die Size 551 mm2 601 mm2 610 mm2
Manufacturing
Process 28-nm 28-nm 16-nm
C. Tecnología de Memoria de próxima generación – HBM2
HBM 2 (High Bandwidth Memory 2) si bien fue un
desarrollo de AMD y SK Hynix en el cual trabajaron 7 años
para desarrollar un nuevo estándar de memoria, HBM (high
bandwidth memory) nació.[6]
Los estándares de memoria tradicionales simplemente
llegaron a un punto donde, arquitectónicamente y
económicamente ya no son viables.
Los estándares de memoria como GDDR5 llegaron a un
punto donde ya no son una alternativa viable, tanto en
desempeño como en eficiencia energética. Por ejemplo para
mejorar la frecuencia y lograr mas ancho de banda, se requiere
un mayor consumo energético.
Por tanto el diseño de procesadores con más interfaces de
memoria GDDR5 , ya no son viables económicamente, ya que
hoy en día estas memorias inflaron los costos y al mismo
tiempo el consumo energético.
La distribución de la memoria HBM es de forma “apilada”,
y es por esto que el apilamiento vertical permite mucha mayor
integración, por tanto se ahorra un área inmensa en la placa de
circuito impreso.[6]
Fig. 8 Comparativa de la dimensión de GDDR5 y HBM
Fig. 9 Ahorro de espacio masivo en GDDR5
Esto indica que HBM requiere un voltaje mas bajo para
funcionar y está conectado a través de interfaces mucho mas
amplias, teniendo así aumentos significativos del ancho de
banda y al mismo manteniendo las frecuencias bajas para así
lograr un consume energético eficiente.[6]
Fig. 10 Comparativa de la dimensión de GDDR5 y HBM
Por tanto se obtiene una mejora del 300% en el ancho de
banda por vatio, alcanzando así un mayor ancho de banda y
reduciendo considerablemente el consume energético.[7]
El Tesla P100 incluye cuatro 4-HI HBM2 stack, y así
teniendo un total de 16 GB de memoria y 720 Gb/s de ancho
de banda máximo.
Es tres veces mas el ancho de banda, que la anterior
generación de Nvidia la M40 de Tesla.[8]
Fig. 11 SC15 (Super Computing 2015)
III. CONCLUSIONES
Para tener una mejor perspectiva acerca del rendimiento real
de esta arquitectura, que mejor que ver un review completo de
la Nvidia GTX 1080 que esta basado en arquitectura pascal,
aquí dispongo el link (http://www.guru3d.com/articles-
pages/nvidia-geforce-gtx-1080-review.html)[9], en ahí se puede
apreciar, mediante los distintos benchamarking y otras pruebas
que llevan a cabo con la tarjeta gráfica.
Viendo distintos sitios, donde realizan un review al tope de
gama que es la Nvidia GTX 1080 basada en pascal [10] se
puede apreciar que es aun muy temprano para sacar un
conclusión final, ya que esta arquitectura recién fue lanzada y
aun faltan distintas versión de algunos ensambladores como
ser ASUS o Gygabit, etc, ya que estos realmente si explotan y
optimizan mas aun la nueva arquitectura, claro ejemplo con
las GTX 980Ti Strix de ASUS que mejoro enormemente el
consumo energético y el calor generado por esta tarjeta de
video.
Por ultimo indicar también, que en el 2017 se realizara una
mejora a esta arquitectura, ya se filtraron noticias acerca de
una Nvidia GTX 1080Ti, habrá que esperar a ver cuáles serán
las novedades de esta actualización, y si realmente se mejora
más aun las GP100 de pascal.
Referencias
[1] M a r k H a r r i s . ( 2 0 1 6 , J u n i o . ) . In s id e Pa sca l : NV ID IA Newes t c omp u t in g p la t a fo rm [Online]. Available:
http://blogs.nvidia.com/parallelforall/inside-pascal/
[2] S t e v e B u r k e . ( 2 0 1 6 , Mayo . ) . NV ID IA Pasca l GP1 0 0
Arch i t ec tu r e D eep -Di v e [Online]. Available:
http://www.gamersnexus.net/guides/2423-nvidia-pascal-gp100-architecture-deep-dive-specs
[3] J a r r e d W a l t o n . ( 2 0 1 6 , ab r i l . ) . Nvid i a Pasca l P1 0 0 a rch i t ec tu r e d eep d iv e [Online]. Available:
http://www.pcgamer.com/nvidia-pascal-p100-architecture-deep-dive/
[4] L u c i a n A r m a s u . ( 2 0 1 4 , Agosto . ) . Ap p le An d Nvid i a
To Get 1 6 n m Fin FE T Ch ip s Fr om TSMC On e Qu ar t er
Ea r l i e r N ext Y ea r [Online]. Available: http://www.tomshardware.com/news/tsmc-apple-nvidia-denver-
finfet,27538.html
[5] T i f f a n y T r a d e r . ( 2 0 1 6 , Ab ri l . ) . NV ID IA Un leash es
Mon s t e r Pasca l GP U Card a t GTC1 6 [Online]. Available: https://www.hpcwire.com/2016/04/05/nvidia-monster-pascal-gpu-card-
gtc16/
[6] K h a l i d M o a m m e r . ( 2 0 1 5 , Sept i emb re . ) . AMD
An n ou n c es High Ban d wid th Memo r y – In n o va t i v e
Ver t i ca l l y S t ack ed Mem o r y S t an d a rd [Online]. Available: http://wccftech.com/amd-releases-official-hbm-presentation-3d-stacked-
high-bandwidth-memory-cornerstone-gen-gpus-apus/
[7] A l b e r t o L u q u e R i v a s . ( 2 0 1 6 , En ero . ) . Pasca l s er í a la
s i gu i en t e g en erac i ón d e t a r j e t a s d e Nvid i a , y d i cen
p rom et er d es emp eñ o [Online]. Available: http://es.blastingnews.com/tecnologia/2016/09/league-of-legends-
cambios-radicales-para-la-pre-temporada-2017-001113687.html
[8] N V I D I A C o r p o r a t i o n . ( 2 0 1 6 , A b r i l . ) . G P 1 0 0 P a s c a l
W h i t e p a p e r - F l u i D y n a G m b H . [Online]. Available:
[9] H i l b e r t H a g e d o o r n . ( 2 0 1 6 , Mayo . ) . Nvid i a GeFo rc e
GTX 1 0 8 0 rev i ew [Online]. Available:
http://www.guru3d.com/articles-pages/nvidia-geforce-gtx-1080-
review.html
[10] C h r i s A n g e l i n i . ( 2 0 1 6 , Mayo . ) . N vid i a GeFo rc e GTX
1 0 8 0 Pasca l Revi ew [Online]. Available: http://www.tomshardware.com/reviews/nvidia-geforce-gtx-1080-
pascal,4572.html