Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...
Transcript of Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...
Manycores: Hardware und Low-Level Programmierung
Florian Sattler
Universitat Passau
18. Juni 2014
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Ubersicht
Einfuhrung
Neue Architekturen
Programmierung
Supercomputing
Fazit
2 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Top 500
3 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Motivation fur Exascale Computing
Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.
Fusionsenergie Simulation/Auswertung
Erdmodelle
Viele Forschungsbereiche benotigen Exascale Performance oder hoher
4 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Motivation fur Exascale Computing
Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.
Fusionsenergie Simulation/Auswertung
Erdmodelle
Viele Forschungsbereiche benotigen Exascale Performance oder hoher
4 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Motivation fur Exascale Computing
Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.
Fusionsenergie Simulation/Auswertung
Erdmodelle
Viele Forschungsbereiche benotigen Exascale Performance oder hoher
4 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Motivation fur Exascale Computing
Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.
Fusionsenergie Simulation/Auswertung
Erdmodelle
Viele Forschungsbereiche benotigen Exascale Performance oder hoher
4 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Motivation fur Exascale Computing
Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.
Fusionsenergie Simulation/Auswertung
Erdmodelle
Viele Forschungsbereiche benotigen Exascale Performance oder hoher
4 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Motivation fur Exascale Computing
Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.
Fusionsenergie Simulation/Auswertung
Erdmodelle
Viele Forschungsbereiche benotigen Exascale Performance oder hoher
4 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Tianhe-2
Tianhe-2
Peakperformance 54,9 petaFLOPS
Linpack Performance 33,8 petaFLOPS
Energieverbrauch 17,8MW/24MW
Exascale Supercomputer
Peakperformance 10 exaFLOPS
Energieverbrauch 3294MW/4416MW
Energieproblem!
5 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieproblem
Verbrauch von 4416MW
Atomkraftwerk Isar 2 produziert 1410MW
3 Atomkraftwerke
ein Raspberry Pi verbraucht nur 3.5 Watt
Losung?
6 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieproblem
Verbrauch von 4416MW
Atomkraftwerk Isar 2 produziert 1410MW
3 Atomkraftwerke
ein Raspberry Pi verbraucht nur 3.5 Watt
Losung?
6 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieproblem
Verbrauch von 4416MW
Atomkraftwerk Isar 2 produziert 1410MW
3 Atomkraftwerke
ein Raspberry Pi verbraucht nur 3.5 Watt
Losung?
6 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieproblem
Verbrauch von 4416MW
Atomkraftwerk Isar 2 produziert 1410MW
3 Atomkraftwerke
ein Raspberry Pi verbraucht nur 3.5 Watt
Losung?
6 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieproblem
Verbrauch von 4416MW
Atomkraftwerk Isar 2 produziert 1410MW
3 Atomkraftwerke
ein Raspberry Pi verbraucht nur 3.5 Watt
Losung?
6 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieproblem
Verbrauch von 4416MW
Atomkraftwerk Isar 2 produziert 1410MW
3 Atomkraftwerke
ein Raspberry Pi verbraucht nur 3.5 Watt
Losung?
6 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieproblem
Verbrauch von 4416MW
Atomkraftwerk Isar 2 produziert 1410MW
3 Atomkraftwerke
ein Raspberry Pi verbraucht nur 3.5 Watt
Losung?
6 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Irdis Pi
64 Pi’s
64×700 MHz ARMv6
16GB RAM
224 Watt
7 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Irdis Pi
64 Pi’s
64×700 MHz ARMv6
16GB RAM
224 Watt
7 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Irdis Pi
64 Pi’s
64×700 MHz ARMv6
16GB RAM
224 Watt
7 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Irdis Pi
64 Pi’s
64×700 MHz ARMv6
16GB RAM
224 Watt
7 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Irdis Pi
64 Pi’s
64×700 MHz ARMv6
16GB RAM
224 Watt
7 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Benchmark mit verschiedenen Problemgroßen
8 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Vor-/Nachteile
Vorteilegeringe Anschaffungskosten
Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL
keine Losung!
9 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Neue Architekturen
MPPAMulti-Purpose Processor Array
von Kalray
Hauptsitz Paris
Grundung 2008
Board: MPPA256
Epiphany
von Adapteva
Hauptsitz Lexington (Boston)
Grundung 2008
Board: Parallella
10 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
I/O Subsysteme
16 Cluster
16 Rechenkerne
1 Systemkern
11 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
I/O Subsysteme
16 Cluster
16 Rechenkerne
1 Systemkern
11 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
I/O Subsysteme
16 Cluster
16 Rechenkerne
1 Systemkern
11 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
I/O Subsysteme
16 Cluster
16 Rechenkerne
1 Systemkern
11 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
I/O Subsysteme
16 Cluster
16 Rechenkerne
1 Systemkern
11 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
verschiedene Varianten mit MPPA 64/256/1024
Energieverbrauch 1,8/5/7 Watt
50 GFLOPS/Watt
Steigerung auf 100 GFLOPS/Watt
12 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
verschiedene Varianten mit MPPA 64/256/1024
Energieverbrauch 1,8/5/7 Watt
50 GFLOPS/Watt
Steigerung auf 100 GFLOPS/Watt
12 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
verschiedene Varianten mit MPPA 64/256/1024
Energieverbrauch 1,8/5/7 Watt
50 GFLOPS/Watt
Steigerung auf 100 GFLOPS/Watt
12 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
verschiedene Varianten mit MPPA 64/256/1024
Energieverbrauch 1,8/5/7 Watt
50 GFLOPS/Watt
Steigerung auf 100 GFLOPS/Watt
12 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
MPPA
verschiedene Varianten mit MPPA 64/256/1024
Energieverbrauch 1,8/5/7 Watt
50 GFLOPS/Watt
Steigerung auf 100 GFLOPS/Watt
12 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Epiphany
eingesetzt in Parallella
Chip mit 16/64 Kernen
50 GFLOPS/Watt
13 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Epiphany
eingesetzt in Parallella
Chip mit 16/64 Kernen
50 GFLOPS/Watt
13 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Epiphany
eingesetzt in Parallella
Chip mit 16/64 Kernen
50 GFLOPS/Watt
13 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Epiphany
eingesetzt in Parallella
Chip mit 16/64 Kernen
50 GFLOPS/Watt
13 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Memory
230 32-bit words
4096 Kerne
6-bit column ID
6-bit row ID
off-Chip RAM
14 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Memory
230 32-bit words
4096 Kerne
6-bit column ID
6-bit row ID
off-Chip RAM
14 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Memory
230 32-bit words
4096 Kerne
6-bit column ID
6-bit row ID
off-Chip RAM
14 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Memory
230 32-bit words
4096 Kerne
6-bit column ID
6-bit row ID
off-Chip RAM
14 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Memory
230 32-bit words
4096 Kerne
6-bit column ID
6-bit row ID
off-Chip RAM
14 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Memory
230 32-bit words
4096 Kerne
6-bit column ID
6-bit row ID
off-Chip RAM
14 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
cMesh (On-chip write)
Schreibvorgangezwischen Mesh Knoten
8-Byte/Cycle in jedeRichtung
gesamt Durchsatz 62.5GB/s
rMesh (Read request)
Leseoperationen
1 alle 8 Cycle in jedeRichtung
15 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
xMesh (Off-chip write)
off-Chip Schreiben
weitere Boards
off-Chip I/O 8GB/sec
Sud-Nord / Ost-WestAufteilung
16 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
xMesh (Off-chip write)
off-Chip Schreiben
weitere Boards
off-Chip I/O 8GB/sec
Sud-Nord / Ost-WestAufteilung
16 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
xMesh (Off-chip write)
off-Chip Schreiben
weitere Boards
off-Chip I/O 8GB/sec
Sud-Nord / Ost-WestAufteilung
16 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
xMesh (Off-chip write)
off-Chip Schreiben
weitere Boards
off-Chip I/O 8GB/sec
Sud-Nord / Ost-WestAufteilung
16 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Netzwerk
xMesh (Off-chip write)
off-Chip Schreiben
weitere Boards
off-Chip I/O 8GB/sec
Sud-Nord / Ost-WestAufteilung
16 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Routing
1 Kern 32,32 schicktLeseanfrage
2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten
mit cMesh/xMesh
17 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Routing
1 Kern 32,32 schicktLeseanfrage
2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten
mit cMesh/xMesh
17 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Routing
1 Kern 32,32 schicktLeseanfrage
2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten
mit cMesh/xMesh
17 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Routing
1 Kern 32,32 schicktLeseanfrage
2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten
mit cMesh/xMesh
17 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
eMesh Routing
1 Kern 32,32 schicktLeseanfrage
2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten
mit cMesh/xMesh
17 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung MPPA
SigmaC
IDE basierend auf Eclipse
Compiler
GDB integriert in Eclipse
Spezielle Analyse Tools
Debug Board
18 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung MPPA
SigmaC
IDE basierend auf Eclipse
Compiler
GDB integriert in Eclipse
Spezielle Analyse Tools
Debug Board
18 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung MPPA
SigmaC
IDE basierend auf Eclipse
Compiler
GDB integriert in Eclipse
Spezielle Analyse Tools
Debug Board
18 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung MPPA
SigmaC
IDE basierend auf Eclipse
Compiler
GDB integriert in Eclipse
Spezielle Analyse Tools
Debug Board
18 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung MPPA
SigmaC
IDE basierend auf Eclipse
Compiler
GDB integriert in Eclipse
Spezielle Analyse Tools
Debug Board
18 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung MPPA
SigmaC
IDE basierend auf Eclipse
Compiler
GDB integriert in Eclipse
Spezielle Analyse Tools
Debug Board
18 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung MPPA
SigmaC
IDE basierend auf Eclipse
Compiler
GDB integriert in Eclipse
Spezielle Analyse Tools
Debug Board
18 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung Parallella
C Syntax
IDE basierend auf Eclipse
E-GCC
E-GDB
Simulator
19 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung Parallella
C Syntax
IDE basierend auf Eclipse
E-GCC
E-GDB
Simulator
19 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung Parallella
C Syntax
IDE basierend auf Eclipse
E-GCC
E-GDB
Simulator
19 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung Parallella
C Syntax
IDE basierend auf Eclipse
E-GCC
E-GDB
Simulator
19 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung Parallella
C Syntax
IDE basierend auf Eclipse
E-GCC
E-GDB
Simulator
19 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Programmierung Parallella
C Syntax
IDE basierend auf Eclipse
E-GCC
E-GDB
Simulator
19 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation
Cij =N−1∑k=0
(Aik Bkj)
Blocked by row and column
Matrix A wird nach untenverschoben
Matrix B verschoben nach rechts
90% Peakperformance
20 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation
Cij =N−1∑k=0
(Aik Bkj)
Blocked by row and column
Matrix A wird nach untenverschoben
Matrix B verschoben nach rechts
90% Peakperformance
20 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation
Cij =N−1∑k=0
(Aik Bkj)
Blocked by row and column
Matrix A wird nach untenverschoben
Matrix B verschoben nach rechts
90% Peakperformance
20 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation
Cij =N−1∑k=0
(Aik Bkj)
Blocked by row and column
Matrix A wird nach untenverschoben
Matrix B verschoben nach rechts
90% Peakperformance
20 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation
Cij =N−1∑k=0
(Aik Bkj)
Blocked by row and column
Matrix A wird nach untenverschoben
Matrix B verschoben nach rechts
90% Peakperformance
20 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation
Cij =N−1∑k=0
(Aik Bkj)
Blocked by row and column
Matrix A wird nach untenverschoben
Matrix B verschoben nach rechts
90% Peakperformance
20 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation Code
1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);
1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }
21 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation Code
1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);
1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }
21 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation Code
1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);
1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }
21 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation Code
1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);
1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }
21 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Matrixmultiplikation Code
1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);
1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }
21 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Probleme
Struktur des eMesh Netzwerks
Unterschied zwischen xMesh und cMesh
einzelnes eMesh maximal 4096 Kerne
Initialkosten von MPI bei sehr vielen Kernen zu hoch
MPI zu schwer fur einzelne Kerne
22 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Probleme
Struktur des eMesh Netzwerks
Unterschied zwischen xMesh und cMesh
einzelnes eMesh maximal 4096 Kerne
Initialkosten von MPI bei sehr vielen Kernen zu hoch
MPI zu schwer fur einzelne Kerne
22 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Probleme
Struktur des eMesh Netzwerks
Unterschied zwischen xMesh und cMesh
einzelnes eMesh maximal 4096 Kerne
Initialkosten von MPI bei sehr vielen Kernen zu hoch
MPI zu schwer fur einzelne Kerne
22 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Probleme
Struktur des eMesh Netzwerks
Unterschied zwischen xMesh und cMesh
einzelnes eMesh maximal 4096 Kerne
Initialkosten von MPI bei sehr vielen Kernen zu hoch
MPI zu schwer fur einzelne Kerne
22 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Probleme
Struktur des eMesh Netzwerks
Unterschied zwischen xMesh und cMesh
einzelnes eMesh maximal 4096 Kerne
Initialkosten von MPI bei sehr vielen Kernen zu hoch
MPI zu schwer fur einzelne Kerne
22 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Probleme
Struktur des eMesh Netzwerks
Unterschied zwischen xMesh und cMesh
einzelnes eMesh maximal 4096 Kerne
Initialkosten von MPI bei sehr vielen Kernen zu hoch
MPI zu schwer fur einzelne Kerne
22 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Losungen
effiziente Integration von eMesh in libs/APIs
schlanke Version von MPI (MPI lite)
Zwei-Schichten-Modell mit MPI+SubProgramm
automatische Code Generierung
23 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Losungen
effiziente Integration von eMesh in libs/APIs
schlanke Version von MPI (MPI lite)
Zwei-Schichten-Modell mit MPI+SubProgramm
automatische Code Generierung
23 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Losungen
effiziente Integration von eMesh in libs/APIs
schlanke Version von MPI (MPI lite)
Zwei-Schichten-Modell mit MPI+SubProgramm
automatische Code Generierung
23 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Losungen
effiziente Integration von eMesh in libs/APIs
schlanke Version von MPI (MPI lite)
Zwei-Schichten-Modell mit MPI+SubProgramm
automatische Code Generierung
23 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Losungen
effiziente Integration von eMesh in libs/APIs
schlanke Version von MPI (MPI lite)
Zwei-Schichten-Modell mit MPI+SubProgramm
automatische Code Generierung
23 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen Architekturen
Exascale Supercomputer
ahnlich zu Tianhe-2
10 exaFLOPS
3294MW
2’944’000 Rechenknoten
574’080’000 Kerne
bestehend aus Boards
10 exaFLOPS
200MW 6% (800MW 24%)
98 Millionen Boards
6’272’000’000 Kerne
24 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Probleme
Platzverbrauch
Kuhlung
Wartung
25 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Probleme
Platzverbrauch
Kuhlung
Wartung
25 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Probleme
Platzverbrauch
Kuhlung
Wartung
25 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Probleme
Platzverbrauch
Kuhlung
Wartung
25 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Probleme
Platzverbrauch
Kuhlung
Wartung
25 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Probleme
Platzverbrauch
Kuhlung
Wartung
25 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Moglich Losung:
Konstruktion eine PCIe Karte ahnlich zu Xeon Phi
Board mit mehreren Chips
Wurfel mit mehreren Boards
26 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Moglich Losung:
Konstruktion eine PCIe Karte ahnlich zu Xeon Phi
Board mit mehreren Chips
Wurfel mit mehreren Boards
26 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Moglich Losung:
Konstruktion eine PCIe Karte ahnlich zu Xeon Phi
Board mit mehreren Chips
Wurfel mit mehreren Boards
26 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Moglich Losung:
Konstruktion eine PCIe Karte ahnlich zu Xeon Phi
Board mit mehreren Chips
Wurfel mit mehreren Boards
26 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Supercomputing mit den neuen ArchitekturenProbleme
Moglich Losung:
Konstruktion eine PCIe Karte ahnlich zu Xeon Phi
Board mit mehreren Chips
Wurfel mit mehreren Boards
26 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieeffizienz
Tianhe-2 1,9 GFLOPS/Watt
Piz Daint 3,1 GFLOPS/Watt
Xeon Phi 9 GFLOPS/Watt
Nvidia GT 630(GK208) 27,7 GFLOPS/Watt
Epiphany/MPPA 50 GFLOPS/Watt
Zukunft MPPA bis zu 100 GFLOPS/Watt
27 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieeffizienz
Tianhe-2 1,9 GFLOPS/Watt
Piz Daint 3,1 GFLOPS/Watt
Xeon Phi 9 GFLOPS/Watt
Nvidia GT 630(GK208) 27,7 GFLOPS/Watt
Epiphany/MPPA 50 GFLOPS/Watt
Zukunft MPPA bis zu 100 GFLOPS/Watt
27 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieeffizienz
Tianhe-2 1,9 GFLOPS/Watt
Piz Daint 3,1 GFLOPS/Watt
Xeon Phi 9 GFLOPS/Watt
Nvidia GT 630(GK208) 27,7 GFLOPS/Watt
Epiphany/MPPA 50 GFLOPS/Watt
Zukunft MPPA bis zu 100 GFLOPS/Watt
27 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieeffizienz
Tianhe-2 1,9 GFLOPS/Watt
Piz Daint 3,1 GFLOPS/Watt
Xeon Phi 9 GFLOPS/Watt
Nvidia GT 630(GK208) 27,7 GFLOPS/Watt
Epiphany/MPPA 50 GFLOPS/Watt
Zukunft MPPA bis zu 100 GFLOPS/Watt
27 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieeffizienz
Tianhe-2 1,9 GFLOPS/Watt
Piz Daint 3,1 GFLOPS/Watt
Xeon Phi 9 GFLOPS/Watt
Nvidia GT 630(GK208) 27,7 GFLOPS/Watt
Epiphany/MPPA 50 GFLOPS/Watt
Zukunft MPPA bis zu 100 GFLOPS/Watt
27 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Energieeffizienz
Tianhe-2 1,9 GFLOPS/Watt
Piz Daint 3,1 GFLOPS/Watt
Xeon Phi 9 GFLOPS/Watt
Nvidia GT 630(GK208) 27,7 GFLOPS/Watt
Epiphany/MPPA 50 GFLOPS/Watt
Zukunft MPPA bis zu 100 GFLOPS/Watt
27 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fazit
Schritt in die richtige Richtung aber keine finale Losung
Hat:
gute Energieeffizienz
Braucht:
bessere Integration in Software Libraries
einfache Programmierkonzepte
Codegenerator
bessere Umsetzung fur Cluster
28 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fazit
Schritt in die richtige Richtung aber keine finale Losung
Hat:
gute Energieeffizienz
Braucht:
bessere Integration in Software Libraries
einfache Programmierkonzepte
Codegenerator
bessere Umsetzung fur Cluster
28 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fazit
Schritt in die richtige Richtung aber keine finale Losung
Hat:
gute Energieeffizienz
Braucht:
bessere Integration in Software Libraries
einfache Programmierkonzepte
Codegenerator
bessere Umsetzung fur Cluster
28 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fazit
Schritt in die richtige Richtung aber keine finale Losung
Hat:
gute Energieeffizienz
Braucht:
bessere Integration in Software Libraries
einfache Programmierkonzepte
Codegenerator
bessere Umsetzung fur Cluster
28 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fazit
Schritt in die richtige Richtung aber keine finale Losung
Hat:
gute Energieeffizienz
Braucht:
bessere Integration in Software Libraries
einfache Programmierkonzepte
Codegenerator
bessere Umsetzung fur Cluster
28 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fazit
Schritt in die richtige Richtung aber keine finale Losung
Hat:
gute Energieeffizienz
Braucht:
bessere Integration in Software Libraries
einfache Programmierkonzepte
Codegenerator
bessere Umsetzung fur Cluster
28 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fazit
Schritt in die richtige Richtung aber keine finale Losung
Hat:
gute Energieeffizienz
Braucht:
bessere Integration in Software Libraries
einfache Programmierkonzepte
Codegenerator
bessere Umsetzung fur Cluster
28 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fazit
Schritt in die richtige Richtung aber keine finale Losung
Hat:
gute Energieeffizienz
Braucht:
bessere Integration in Software Libraries
einfache Programmierkonzepte
Codegenerator
bessere Umsetzung fur Cluster
28 / 29
Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit
Fragen?
29 / 29