Einführungs-Workshop Februar 2013 - HHLR · Einführungs-Workshop Februar 2013 Kurs I: „Die...
Transcript of Einführungs-Workshop Februar 2013 - HHLR · Einführungs-Workshop Februar 2013 Kurs I: „Die...
Vormittag Workshop• 9:00 Christian Iwainsky – SC: „Best Practise Tuning“• 9:30 Dr.-Ing. Dörte C. Sternell – FNB: „FASTEST“• 10:00 Kurs I: „Die ersten Schritte“
- Hardware - Software
• 11:00 Pause• 11:15 Kurs II: „Rechnen im Batchsystem“
- Befehle des Batchsystems - Beispiel: Programm und Batchscript für MPI und OpenMP - „Was kann schiefgehen“ – Tricks für Performance
• 12:15 Gemeinsames Mittagessen „Pizzeria DaNino“ (Selbstzahlung)Nachmittag Praxisteil
• 14:00 „Fragen der Nutzer und Hilfestellung bei praktischer Anwendung“ - Beispielprogramme und eigene Programme - Kommerzielle Programme z.B. Comsol, Fastest, Ansys, Matlab
• 15:30 Pause• 15:45 Kurs III: „Crash-Kurs OpenMP“
ca. 17:15 Ende der Veranstaltung
Programm 27.2.2013
227.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
Vormittag Workshop (Essenzielle HPC-Werkzeuge)• 9:00 Dr. Sergey Boldyrev – HRZ: „Totalview“ (englisch)
- Debugger - Programm-Fehlersuche
• 10:00 Christian Iwainsky – SC: „Vampir“ - MPI-Performance Analyse
• 11:00 Pause• 11:15 Michael Burger – SC: „Intel Cluster Studio“
- OpenMP- und Serielle-Performance Analyse• 12:15 Gemeinsames Mittagessen „Pizzeria DaNino“ (Selbstzahlung)
Nachmittag Praxisteil• 14:00 „Fragen der Nutzer und Hilfestellung bei praktischer Anwendung“
- Tuning und Analyse eigener Programme - Debugging Experience - Performace Optimierung im Batchbetrieb - Batchscipt-Optimierung kommerzieller Programme z.B. Matlab
ca 17:00 Ende der Veranstaltung
Programm 28.2.2013
327.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
Einführungs-Workshop Februar 2013
Kurs I: „Die ersten Schritte“
27.02.2013
Hardware
UCluster & ICluster
Dr. Andreas Wolf
Was wir haben seit Anfang 2012 – ICluster
SMP…
…
Infiniband
Ethernet
HOME
32 SMP-Knoten● 4 Prozessoren , AMD Interlagos ● Je 12 „Kerne“ mit 2,6 GHz● 64 GByte bzw. 128 GByte
Platten● Nur Home: 750 MByte, 100 MB/s
Infiniband● QDR, 32 Gbit/s, ca. 1 µs Latenz
527.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
• Zuschlag hat IBM bekommen, Ausschreibungssumme 13,5 Mio €• Lieferung von IBM in zwei Phasen I und II
– Phase I (2012): heterogenes System - verschiedene Sektionen
● Rund 800 Rechenknoten● Über 200 TFlops (peak) durch Prozessoren● Rund 128 TFlops (peak) durch Beschleunigerkarten (GPU, MIC)
• Unabhängig von Rechnerhardware – Wasserkühlung so ausgelegt, dass Abwärme für Gebäudeheizung nutzbar
• ABER: es gab Verzögerungen !
Ursprünglicher Plan neuer Hochleistungsrechner
627.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
• Ein Teilsystem der Phase I HW wurde im alten Serverraum der TU Darmstadt installiert
– Aufbau abgeschlossen– 5 Inseln mit je 32 Rechenknoten und Home-Filesystem
(NetApp)– Kosten-Minimierung– Risiko-Minimierung– Mehr Unabhängigkeit von weiteren Bau-Verzögerungen– Konsequenz: Abschaltung des alten auf Power 6 & 5
basierenden HHLR Anfang ist letztes Jahr erfolgt● Daten bleiben erhalten und sind derzeit weiter zugänglich
Schnelle und gute Übergangslösung
827.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
Was wir haben jetzt – UCluster
MPI…
…
Infiniband
Ethernet
HOME
5x32 MPI● 2 Prozessoren , Intel Sandybridge ● Je 8 Kerne mit 2,6 GHz● 32 GByte
Platten● Home: 500 TByte, ca. 2 GB/s
Infiniband (Teilsystem - nur Insel-intern)● FDR-10, 54 Gbit/s, ca. 1 µs Latenz
927.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
SMP…
…
Infiniband
Ethernet
Was wir bekommen 2013 – Phase I
SCRATCH
MEM
MPI…
…
ACC…
…
Infiniband
Ethernet
HOME
704 x MPI (inkl. 5x32 von Dez. 2012)● 2 Prozessoren , Intel Sandybridge ● Je 8 Kerne mit 2,6 GHz● 32 GByte (10% 64 GByte)
4 x MEM● 8 Prozessoren, je 8 Kerne● 1024 GByte
64 x ACC● 2 Prozessoren + 2 Acceleratoren
● Nvidia Kepler, Intel Xeon Phi (ehem. MIC)
● 32 GBytePlatten
● Scratch: 768 TByte, 20 GB/s● Home: 500 TByte, 5 GB/s
Infiniband● FDR-10, 54 Gbit/s, ca. 1 µs Latenz
1027.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
Was wir bekommen Ende 2014 – Phase II
SCRATCH
MPI…
…
ACC…
…
Infiniband
Ethernet
HOME
Zusätzliche MPI● 2 Prozessoren
● Nachfolge Architektur
4 zusätzliche MEM● 4 Prozessoren
● Nachfolge Architektur● 1024 GByte
Zusätzliche ACC● 2 Prozessoren● 2 Acceleratoren
● Nachfolge Architektur
Platten● Scratch: +768 TByte
● Summe 1,5 PByteInfiniband
● FDR
MEM MEM
MPI…
…
ACC…
…
SCRATCH
1127.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
Hardware Details
MPI…
…
● Details sind wichtig für effiziente Nutzung● Im Folgenden
● Was macht die Rechner schnell● Heute: Anzahl Rechenkerne statt Takt
● Was muss man unbedingt beachten● Als Anwender
● Welche Ressourcen fordere ich an● Als Programmierer
● Was muss ich bei der Programmierung beachten
1227.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
SMP…
…
Vom einfachen Computer zum Hochleistungsrechner
1327.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
FM
P
FM
P
Vom einfachen Computer zum Hochleistungsrechner
1427.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
FM
P
FM
P
FM
P
FM
P
FM
P
···
Vom einfachen Computer zum Hochleistungsrechner
1527.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
Statt vieler normaler PC's:
● Große Rechner mit mehren Prozessoren
● Viele besonders kleine Rechner
M
P
F
P P
P P P···
MP
FMP
MP
MP
MP
MP
MP···
FM
P
FM
P
FM
P
FM
P
···
Vom einfachen Computer zum Hochleistungsrechner
1627.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
FM
P
FM
P
FM
P
FM
P
···
Mehrprozessor-System
MPI…
…
1727.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
SMP…
…
M
P
F
P
P P
M
P
F
P
P P ···
FM
P P
FM
P P
FM
P P
FM
P P
···
Hardware Details
MPI…
…
1827.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
SMP…
…
FM
P P
M
FM
P P
M F
M
P P
M
NUMA-Systeme
MPI…
…
1927.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
SMP…
…
MM M M
Kern
Kern
Kern
Kern
Kern Kern
Kern
Kern
Kern
Kern
MM M M
Kern
Modul
Modul
Modul Kern
Modul
Modul
Modul
NUMA-Systeme
MPI…
…
2027.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
SMP…
…
MM M M
Kern
Kern
Kern
Kern
Kern Kern
Kern
Kern
Kern
Kern
MM M M
Kern
Modul
Modul
Modul Kern
Modul
Modul
Modul
● Eine AVX Einheit pro Kern● Ein Kern = zwei Hyperthreads● Ein NUMA-Node pro
Prozessor
● Eine AVX Einheit pro Modul● Ein Modul = zwei Kerne● Zwei NUMA-Nodes pro
Prozessor
NUMA-Systeme
MPI…
…
2127.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
SMP…
…
● 16 Kerne (AVX-Einheiten) pro Knoten● Zwei NUMA-Nodes pro Knoten
● 48 Module (AVX-Einheiten) pro Knoten
● Acht NUMA-Nodes pro Knoten
Einführungs-Workshop Februar 2013
Kurs I: „Die ersten Schritte“
27.02.2013
Software
UCluster & ICluster
Dr. Andreas Wolf
System-Werkzeuge• GCC: 4.4.6, 4.6.2 ,4.7.0 und 4.7.2• Intel: 12.1.0, 13.0.1 inkl. Analyser (morgen mehr)• ACML und Intel-MKL, SCALAPACK etc.• OpenMPI, IntelMPI, ...• Totalview (morgen mehr)• Vampir (morgen mehr)
Anwendungen• Ansys v140• Abaqus (verschiedene Versionen)• Matlab 2012a• COMSOL 4.3
Software auf dem Cluster
2327.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
● ICluster
– E-Mail an [email protected]
● Name● TU-ID● Eigene E-Mail Adresse
– Man erhält E-Mail mit Instruktionen für das Setzen des Passworts
– Login-Knoten: icluster.hrz.tu-darmstadt.de
● per SSH
Zugriff auf den ICluster
2427.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
● E-Mail an [email protected]
– Man erhält E-Mail mit neuer Nutzerordnung● Namen, TU-ID, E-Mail Adresse, Instituts-Zugehörigkeit,
Staatsangehörigkeit● Projekt-Thema
– Berichte● Keine pers. Daten● Nicht kommerziell● Daten-Lagerzeit● Unterschriften von Nutzer und Institutsleiter
– Grund: Größe des Systems Beachtung der Export-→Beschränkungen
● Login-Knoten: ucluster1.hrz.tu-darmstadt.deucluster2.hrz.tu-darmstadt.de
Zugriff auf den UCluster
2527.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
● E-Mail an [email protected]
– Man erhält E-Mail mit neuer Nutzerordnung● Namen, TU-ID, E-Mail Adresse, Instituts-Zugehörigkeit,
Staatsangehörigkeit● Projekt-Thema
– Berichte● Keine pers. Daten● Nicht kommerziell● Daten-Lagerzeit● Unterschriften von Nutzer und Institutsleiter
– Grund: Größe des Systems Beachtung der Export-→Beschränkungen
● Login-Knoten: ucluster1.hrz.tu-darmstadt.deucluster2.hrz.tu-darmstadt.de
Zugriff auf den UCluster
2627.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
● E-Mail an [email protected]
– Man erhält E-Mail mit neuer Nutzerordnung● Namen, TU-ID, E-Mail Adresse, Instituts-Zugehörigkeit,
Staatsangehörigkeit● Projekt-Thema
– Berichte● Keine pers. Daten● Nicht kommerziell● Daten-Lagerzeit● Unterschriften von Nutzer und Institutsleiter
– Grund: Größe des Systems Beachtung der Export-→Beschränkungen
● Login-Knoten: ucluster1.hrz.tu-darmstadt.deucluster2.hrz.tu-darmstadt.de
Zugriff auf den UCluster
2727.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
Praktikum heute und morgen nurspezielle Workshop Nutzerordnung
> module avail
– Zeigt alle verfügbaren Software-Module an.
Modulares Laden & Entladen
2827.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
> module list
– Zeigt die derzeit für den User geladenen Software-Module an.
> module load <Modul-Name>
– Lädt Software-Modul für das genannte Programmpaket
● Erst nach dem Laden des Moduls steht die Software zur Verfügung!
> module load <Modul-Name>
– Entlädt Software-Modul
Modulares Laden & Entladen
2927.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf
● Viele Nutzer wollen rechnen
– Allerdings nicht gleichzeitig auf dem selben Rechner
– Bei hunderten von Rechenknoten wäre die Suche nach einem freien Rechner mühselig
➔ Batchsystem
● Managed automatisch die freien Rechner (Ressourcen)– Unterschiedliche Prozessoren (Typ und Art)– Unterschiedlich viel freier Hauptspeicher– Unterschiedliche spezial Hardware (Akzeleratoren)
● ICluster: SLURM (Open Source)● UCluster (und zukünftige): LSF (IBM kommerziell)
Nutzung eines HPC-Systems
3027.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf