Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...

Manycores: Hardware und Low-Level Programmierung

Florian Sattler

Universitat Passau

18. Juni 2014

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Ubersicht

Einfuhrung

Neue Architekturen

Programmierung

Supercomputing

2 / 29

Top 500

3 / 29

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Erdmodelle

4 / 29

Erdmodelle

4 / 29

Erdmodelle

4 / 29

Erdmodelle

4 / 29

Erdmodelle

4 / 29

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Tianhe-2

Energieproblem!

5 / 29

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Energieproblem

3 Atomkraftwerke

Losung?

6 / 29

Energieproblem

3 Atomkraftwerke

Losung?

6 / 29

Energieproblem

3 Atomkraftwerke

Losung?

6 / 29

Energieproblem

3 Atomkraftwerke

Losung?

6 / 29

Energieproblem

3 Atomkraftwerke

Losung?

6 / 29

Energieproblem

3 Atomkraftwerke

Losung?

6 / 29

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Benchmark mit verschiedenen Problemgroßen

8 / 29

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Vor-/Nachteile

keine Losung!

9 / 29

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

Neue Architekturen

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Grundung 2008

Board: Parallella

10 / 29

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

50 GFLOPS/Watt

12 / 29

50 GFLOPS/Watt

12 / 29

50 GFLOPS/Watt

12 / 29

50 GFLOPS/Watt

12 / 29

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Epiphany

50 GFLOPS/Watt

13 / 29

Epiphany

50 GFLOPS/Watt

13 / 29

Epiphany

50 GFLOPS/Watt

13 / 29

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

eMesh Netzwerk

Leseoperationen

15 / 29

eMesh Netzwerk

Leseoperationen

15 / 29

eMesh Netzwerk

Leseoperationen

15 / 29

eMesh Netzwerk

Leseoperationen

15 / 29

eMesh Netzwerk

Leseoperationen

15 / 29

eMesh Netzwerk

Leseoperationen

15 / 29

eMesh Netzwerk

Leseoperationen

15 / 29

eMesh Netzwerk

Leseoperationen

15 / 29

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

eMesh Netzwerk

off-Chip Schreiben

weitere Boards

16 / 29

eMesh Netzwerk

off-Chip Schreiben

weitere Boards

16 / 29

eMesh Netzwerk

off-Chip Schreiben

weitere Boards

16 / 29

eMesh Netzwerk

off-Chip Schreiben

weitere Boards

16 / 29

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

eMesh Routing

mit cMesh/xMesh

17 / 29

eMesh Routing

mit cMesh/xMesh

17 / 29

eMesh Routing

mit cMesh/xMesh

17 / 29

eMesh Routing

mit cMesh/xMesh

17 / 29

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Programmierung MPPA

SigmaC

Compiler

Debug Board

18 / 29

Programmierung MPPA

SigmaC

Compiler

Debug Board

18 / 29

Programmierung MPPA

SigmaC

Compiler

Debug Board

18 / 29

Programmierung MPPA

SigmaC

Compiler

Debug Board

18 / 29

Programmierung MPPA

SigmaC

Compiler

Debug Board

18 / 29

Programmierung MPPA

SigmaC

Compiler

Debug Board

18 / 29

Programmierung Parallella

C Syntax

Simulator

19 / 29

C Syntax

Simulator

19 / 29

C Syntax

Simulator

19 / 29

C Syntax

Simulator

19 / 29

C Syntax

Simulator

19 / 29

C Syntax

Simulator

19 / 29

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Cij =N−1∑k=0

(Aik Bkj)

90% Peakperformance

20 / 29

Cij =N−1∑k=0

(Aik Bkj)

90% Peakperformance

20 / 29

Cij =N−1∑k=0

(Aik Bkj)

90% Peakperformance

20 / 29

Cij =N−1∑k=0

(Aik Bkj)

90% Peakperformance

20 / 29

Cij =N−1∑k=0

(Aik Bkj)

90% Peakperformance

20 / 29

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Probleme

22 / 29

Probleme

22 / 29

Probleme

22 / 29

Probleme

22 / 29

Probleme

22 / 29

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Losungen

23 / 29

Losungen

23 / 29

Losungen

23 / 29

Losungen

23 / 29

Supercomputing mit den neuen Architekturen

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

574’080’000 Kerne

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Moglich Losung:

26 / 29

Moglich Losung:

26 / 29

Moglich Losung:

26 / 29

Moglich Losung:

26 / 29

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Energieeffizienz

27 / 29

Energieeffizienz

27 / 29

Energieeffizienz

27 / 29

Energieeffizienz

27 / 29

Energieeffizienz

27 / 29

Schritt in die richtige Richtung aber keine finale Losung

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Braucht:

Codegenerator

28 / 29

Braucht:

Codegenerator

28 / 29

Braucht:

Codegenerator

28 / 29

Braucht:

Codegenerator

28 / 29

Braucht:

Codegenerator

28 / 29

Braucht:

Codegenerator

28 / 29

Braucht:

Codegenerator

28 / 29

Fragen?

29 / 29

Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...

Documents

Transcript of Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...