Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit...
Transcript of Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit...
![Page 1: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/1.jpg)
Exponentielles et Murs
Daniel EtiembleDaniel EtiembleLRI – Université Paris Sud
![Page 2: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/2.jpg)
Exponentielles et mursExponentielles et murs
10000
100000
100
100060%
1
10 Ne pas franchir7%
0 5 10 15 20 25 30
A f hi !A franchir !
2Archi15 (8 Juin) D. Etiemble
![Page 3: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/3.jpg)
Des équations fondamentalesDes équations fondamentales
• Temps d’exécution d’un programme
• Puissance dissipée CMOS
= 0 (autrefois !) 0= 0 (autrefois !) 0Archi15 (8 Juin) D. Etiemble
![Page 4: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/4.jpg)
Plan (en vrac)Plan (en vrac)
Exponentielles– Technologie
Murs• Chaleur
– Moore– Performances
• IPC• Mémoire
– Puissance dissipée– Coûts de fabrication
• Conception• Programmation parallèle ?
– ….• …
Relations entre exponentielles et mursRelations entre exponentielles et murs
4Archi15 (8 Juin) D. Etiemble
![Page 5: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/5.jpg)
Les exponentiellesLes exponentielles
fi• En profiter– Utilisation dans les applications
• Puissance de calcul, capacité mémoire, etc.• Exemple : la traduction automatique
L b tt• Les combattre– Continuer à réaliser la progression exponentielle
f i hi hi• Performances : microarchitecture et architecture• Traitement : explosion de la taille des données…
• Les deux à la fois• Les deux à la fois– Exemple : calcul scientifique
![Page 6: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/6.jpg)
La loi de MooreLa loi de Moore
• Version correcte– Le nombre de transistors par ppuce double tous les ans / 18 mois / 2 ans/
• Versions « incorrectes »D bl l d– Doublement tous les deux ans
• De la performance• Du nombre de cœurs par puce• Etc
6Archi15 (8 Juin) D. Etiemble
![Page 7: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/7.jpg)
La loi de MooreLa loi de Moore
7Archi15 (8 Juin) D. Etiemble
![Page 8: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/8.jpg)
Les « nœuds » technologiquesLes « nœuds » technologiquesGrille G
Source
S
Drain
D
GrilleOxyde
(Si O )S D
substrat (bulk)
Semiconducteur(Si O )2
Silicium dopé
• Une fin ?– Il est difficile de faire des prévisions (surtout pour le futur)
• Voir les prévisions passées et la réalitéVers les limites physiques– Vers les limites physiques
– Quand ?
88Archi15 (8 Juin) D. Etiemble
![Page 9: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/9.jpg)
Remarques sur les prévisionsRemarques sur les prévisions
• Paolo Gardini (Intel Fellow – ITRS Chairman)– http://www.ewh.ieee.org/r6/scv/eds/slides/2014‐Mar‐11‐Paolo.pdf
• Lesson 2 – « Predictors of Engineering Limits have Always« Predictors of Engineering Limits have Alwaysbeen Proven Wrong by The Right Improvements »
• Lesson 3• Lesson 3‐ « It Would be Wrong to Believe that the Right Fundamental Limits Don’t Exist »
9Archi15 (8 Juin) D. Etiemble
![Page 10: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/10.jpg)
« Predictors of Engineering Limits have Always been Proven Wrong by The Right Improvements »
• Un exemple – Transistor 3D et Technologie FinFETg
Vitesse Courant de fuite
10Archi15 (8 Juin) D. Etiemble
![Page 11: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/11.jpg)
« It Would be Wrong to Believe that the Right FundamentalLimits Don’t Exist »
Nœuds et longueur de grille
Nœuds
11Archi15 (8 Juin) D. Etiemble
![Page 12: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/12.jpg)
Coûts de fabricationCoûts de fabrication
![Page 13: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/13.jpg)
Fonderies pour les autres (14 13)Fonderies pour les autres (14 13)
Revenus (millions $USD) 2013
Croissance exponentielle des coûts de fonderie (loi de Rock)
100
1000
10000
1
10
GLOBALFOUNDRIES TO ACQUIRE IBM'S MICROELECTRONICS BUSINESSGLOBALFOUNDRIES TO ACQUIRE IBM S MICROELECTRONICS BUSINESS Acquisition Enables GLOBALFOUNDRIES to Become a World Leader in Semiconductor Foundry Technology;
13Archi15 (8 Juin) D. Etiemble
![Page 14: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/14.jpg)
Vitesse des portesVitesse des portesT transit (ps)
1000
T transit (ps)
100Inverseurs
10
1101001000
Noeud technologique (nm)Sources : STmicroelectronics
1414Archi15 (8 Juin) D. Etiemble
![Page 15: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/15.jpg)
Nombre de transistors (microprocesseurs)
10 000 000 000
Xeon Phi
1 000 000 000
Xeon Phi
100 000 000
1 000 000
10 000 000
80486
1 000 0001 µm 0.8 µm 0.5 µm 0.35 µm 0.25 µm 180 nm 130 nm 90 nm 65 nm 45 nm 40 nm 32 nm 22 nm
15Archi15 (8 Juin) D. Etiemble
![Page 16: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/16.jpg)
Nombre de transistorsNombre de transistors10000
stors
GPU
100
1000
de tran
sis GPU
1
10
350 nm 250 nm 250 nm 220 nm 180 nm 130 nm 110 nm 90 nm 90 nm 80 nm 65 nm 55 nm 40 nm 28 nm
Millions d
sistors
FPGA
10000ns de tran
FPGA
100
1000
Million
10130 nm 90 nm 65 nm 40 nm 28 nm 20 nm
16Archi15 (8 Juin) D. Etiemble
![Page 17: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/17.jpg)
Surface de puceSurface de puceSPARC T3
300
350
400
PentiumPentium Pro
SPARC‐T3
200
250
300
AMD‐K10
50
100
150mm2
386P ti III
Core i7
0
50
1500 nm1000 nm 800 nm 500 nm 350 nm 250 nm 180 nm 130 nm 90 nm 65 nm 45 nm 40 nm 32 nm 22 nm
Pentium III
Surfaces entre 1 et 7 cm2Neon Nehalem – 45 nm – 685 mm2
Power8 – 22 nm – 650 mm2
17Archi15 (8 Juin) D. Etiemble
![Page 18: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/18.jpg)
Une ou deux pucesUne ou deux pucesO é t fl tt t• Opérateurs flottants– Coprocesseurs (ex : x87)…– Intégrés
Du coprocesseur à l’intégrationg
• Caches– Externes
I (L1 i L1 L2 i )
l intégrationdans la même puce
– Internes (L1 puis L1‐L2 puis…)• CPU et GPU
– 2 puces distinctes De puces distinctes2 puces distinctes– GPU intégré (APU)
• Multi‐cœurs
De puces distinctes à une seule puce
– 1 puce– Cluster de multi‐cœurs
18Archi15 (8 Juin) D. Etiemble
![Page 19: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/19.jpg)
Evolution des cachesEvolution des cachescache CPU
MémoireCacheCPU MémoireL2 Cache
L3L1-ID
cache L2
CPUL1-ID
cache D - L1 Cache
386L2
Power6
MémoireD L1 Cache
L2cache I – L1
CPU
cache D L1 Cache
Pentium
8 cœurs Mémoire
cache L2
CacheL4
CPUL1-ID
cache L3
MémoireMémoireD - L1
cache I – L1
CacheL2
unifiéCPU
MémoireL4
cache L2
CPUL1-ID
cache L3
Pentium 4 Power 819Archi15 (8 Juin) D. Etiemble
![Page 20: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/20.jpg)
Un ou plusieurs circuits intégrésUn ou plusieurs circuits intégrésE l GPU APU• Exemple : GPU ou APU– APU = CPU + GPU dans la même puce.p
20Archi15 (8 Juin) D. Etiemble
![Page 21: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/21.jpg)
Performance microprocesseurs (1980 2005)Performance microprocesseurs (1980‐2005) NI
d l
NI
IPC * FTexécution = NI * CPI * Tc =
Nombre de cycles/Instruction
Temps de cycle
1000
10000 Microarchitecture
10
100
1000CPUF(MHz)
(IPC)
1
80 84 88 92 9620
00 Technologie
21Archi15 (8 Juin) D. Etiemble
![Page 22: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/22.jpg)
Exponentielles ( l ti ll d’ t )Exponentielles…(plus exponentielles que d’autres)
• Evolution / anCapacité DRAM
1/Latence DRAM
P f è 86
Débit DRAM
Performance avant 87
Performance après 86
0% 10% 20% 30% 40% 50% 60% 70%
Fréquence
0% 10% 20% 30% 40% 50% 60% 70%
22Archi15 (8 Juin) D. Etiemble
![Page 23: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/23.jpg)
Mur de l’IPCMur de l IPC• Parallélisme d’instructions
– Nombre d’instructions exécutables/cycle
• Evolution très limitée de 1990 à 2015
256
ROB µop/cycle Station réservation
Registres physiques entiers Registres physiques flottants
32
64
128
4
8
16
µop fusionnées (10 à 35%)Renommage ROB
Renommage registres
1
2
4
i i S d id ll
1995 2000 2011 2013Pentium Pro Pentium 4 Sandy Bridge Haswell
23Archi15 (8 Juin) D. Etiemble
![Page 24: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/24.jpg)
Algorithme de TomasuloAlgorithme de TomasuloRECHERCHE ASSOCIATIVE
Instructions à exécuter
RECHERCHE ASSOCIATIVE
@ @Ra Rb @ @Ra Rb
OP1 OP2
@ @Ra Rb @ @Ra RbRegistres
OP1 OP2
@ R @ R
24Archi15 (8 Juin) D. Etiemble
![Page 25: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/25.jpg)
o‐o‐o : simplifier les recherches associatives
Renommage + ROBRenommage + ROB
Pentium Pro, PIII, Nehalem
Netburst (P4)… Sandy Bridge, Haswell
Recherches associatives complexes‐ Bibliothèques versus « full custom » (cas ARM)
( ) y g ,
25Archi15 (8 Juin) D. Etiemble
![Page 26: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/26.jpg)
Banc de registres multi portsBanc de registres multi‐ports
i d bl è• Registres double accès
• Registres N ports– Temps accès proportionnel à NTemps accès proportionnel à N– Surface proportionnelle à N2
![Page 27: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/27.jpg)
Le mur de la chaleurLe mur de la chaleur1000
RéacteurRéacteur nucléairenucléaireRéacteurRéacteur nucléairenucléaire Traîne
s/cm
2 100 Pentium® 4Pentium® 4Traînefusée
Watts
10Pentium® ProPentium® Pro
Pentium® IIPentium® IIPentium® IIIPentium® IIIHot plateHot plate
i386i386i486i486
Pentium® Pentium® Pentium® ProPentium® Pro
1
* “New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies” * “New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies” ––F d P ll k I t l C Mi 32 f k tF d P ll k I t l C Mi 32 f k t 19991999Fred Pollack, Intel Corp. Micro32 conference key note Fred Pollack, Intel Corp. Micro32 conference key note -- 1999.1999.
27Archi15 (8 Juin) D. Etiemble
![Page 28: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/28.jpg)
Puissance dissipée GPUPuissance dissipée ‐ GPU
28Archi15 (8 Juin) D. Etiemble
![Page 29: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/29.jpg)
Puissance dissipée en CMOSPuissance dissipée en CMOS• Pd = Pdstatique + Pddynamique
• Puissance statique– Courants de fuite
• Puissance dynamique
– Pdyn = .Ci.Vdd2.f dyn i dd– Fréquence– Tension d’alimentation
29Archi15 (8 Juin) D. Etiemble
![Page 30: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/30.jpg)
Puissance statique : technologiePuissance statique : technologie
• Technologie– Ex : Technologie SoI
(IBM) réduit les(IBM) réduit les capacités
– Ex : transistor 3D (Intel)
30Archi15 (8 Juin) D. Etiemble
![Page 31: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/31.jpg)
Puissance statique : circuiteriePuissance statique : circuiterie
• Circuiterie– Ex : Masses
virtuellesvirtuelles (caches du Xeon)
31Archi15 (8 Juin) D. Etiemble
![Page 32: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/32.jpg)
Puissance dynamiquePuissance dynamique
Ci i i• Circuiterie– « clock gating » : n’activer que les parties utiles– Plusieurs tensions d’alimentation– Transistors rapides, moyens et lents (tension de seuil V )Vt)
• Architecture– Fréquence d’horloge (F)– Complexité du circuit
• Processeur• Caches
32Archi15 (8 Juin) D. Etiemble
![Page 33: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/33.jpg)
N’activer que les parties utilesN activer que les parties utilesPlusieurs modes de fonctionnementPlusieurs modes de fonctionnement
33Archi15 (8 Juin) D. Etiemble
![Page 34: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/34.jpg)
5ème génération Intel Core5ème génération Intel Core
Core MPentiumPentiumCeleron
LES DIFFERENTS ETATS
![Page 35: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/35.jpg)
Mur de la chaleurMur de la chaleur
ê d l’ i d• Arrêt de l’augmentation de F– Fin du « free lunch »– Haut et milieu de gamme
• Tournant vers les multi‐cœursd– Bas de gamme
• Simplification des architectures
Utili ti d lléli• Utilisation du parallélisme– Parallélisme de données dans les monoprocesseurs (SIMD t SIMT)(SIMD et SIMT)
– Multi‐cœurs
35Archi15 (8 Juin) D. Etiemble
![Page 36: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/36.jpg)
Parallélisme de données : réduire NIParallélisme de données : réduire NITex = NI * CPI* Tc
X0X1X2X3
Y0Y1Y2Y3
source 1/dest.
source 2CPU
SIMDà
op op op op
X0 op Y0X1 op Y1X2 op Y2X3 op Y3 source 1/dest.
1 instruction àplusieurs données
SSE2/3/4 – Neon ‐ Altivec
Instruction Decoder and Warp SchedulerGPU
SIMT1 instruction pourplusieurs threads
GPU
registers
plusieurs threads
registers registers registers registers registersregisters registers registers g g
thread
![Page 37: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/37.jpg)
Multiprocesseurs et puissance (d’après F Ancea )Multiprocesseurs et puissance (d’après F. Anceau)
37Archi15 (8 Juin) D. Etiemble
![Page 38: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/38.jpg)
Multi cœurs haut de gammeMulti‐cœurs haut de gammeIvy‐bridge
2013201322 nm1,86 109 T2,57 cm22,57 cm
38Archi15 (8 Juin) D. Etiemble
![Page 39: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/39.jpg)
Et le « petit » dernierEt le « petit » dernier …
• 14 nm14 nm• D1540
– 8 cœurs– 15 Mo caches L3– 2 GHz45 W– 45 W
Archi15 (8 Juin) D. Etiemble
![Page 40: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/40.jpg)
Cc NUMA (exemple AMD)Cc‐NUMA (exemple AMD)
40Archi15 (8 Juin) D. Etiemble
![Page 41: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/41.jpg)
Embarqué : des processeurs très différentsEmbarqué : des processeurs très différents
Mi t ôl 8 bit9000
1998 2003 2008
• Microcontrôleurs 8 bits– 8051 !D 32 bit
4000
5000
6000
7000
8000
ns d
e do
llars
• Des processeurs 32 bits• Des multi‐cœurs 0
1000
2000
3000
4 bits 8 bits 16 bits 32 bits
Mill
ion
• Des SoC
• Contraintes– Taille du code– Consommation– Surface de puce
41Archi15 (8 Juin) D. Etiemble
![Page 42: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/42.jpg)
Intel Atom x3 c3440Intel Atom x3 c3440
‐CPU 4 cœurs‐Modem 4G‐Vidéo
‐WiFi‐ Bluetooth‐ Radio FM
![Page 43: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/43.jpg)
Kalray MPPA‐256y
400 MHz 5 voies400 MHz 5 voies
Monte‐Carlo Option Pricing
43Archi15 (8 Juin) D. Etiemble
![Page 44: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/44.jpg)
Modification des « moteurs »Modification des « moteurs »
![Page 45: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/45.jpg)
La logique synchroneLa logique synchroneLOGIQUE
• Temps de cycle fixé
LOGIQUECOMBINATOIRE(n niveaux)
p y– Mur de la chaleur
• Avec les nœuds CLK
Temps cycle
technologiques successifs
i i i ibl
1000
T transit (ps) Nb portes à 1 GHz
– Diminution possible du nombre d’étages de pipelines10
100
1101001000
Noeud technologique (nm)
45Archi15 (8 Juin) D. Etiemble
![Page 46: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/46.jpg)
Des pipelines plus courts ?Des pipelines plus courts ?
d’é d l• Moins d’étages de pipeline– Structures matérielles plus simplesP édi i d b h i i– Prédiction de branchement moins importante
– Applicables à tous les types de processeursP i li d’ é ti ?????• Processeurs sans pipelines d’exécution ?????– Suppression des aléas (structurel, données,
branchement))– Moins de registres– Contrôle plus simple– Consommation réduite– Simplification de la hiérarchie mémoire
46Archi15 (8 Juin) D. Etiemble
![Page 47: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/47.jpg)
Multi cœurs et FPGAMulti‐cœurs et FPGA
• Réduction du différentiel de fréquences entre processeurs et FPGAp– Altera : 1 GHz en 14 nm Intel
![Page 48: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/48.jpg)
CPU BA20 (IP Cast)CPU BA20 (IP Cast)
VERSION MODERNE DU 8051
48Archi15 (8 Juin) D. Etiemble
![Page 49: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/49.jpg)
Fréquence Etages de pipelineFréquence – Etages de pipelineComparaison de différents processeurs scalaires
C té i ti BA20 BA21 BA22 (CE/AP) BA25
Comparaison de différents processeurs scalaires (jeu d’instructions BA2)
Caractéristiques BA20 BA21 BA22 (CE/AP) BA25
NB étages 1 2 5 7/12
CoreMarks/MHz 3,41 2,77 2,93 2,51CoreMarks/MHz 3,41 2,77 2,93 2,51
FMAX @TMSC65LP
75 MHz 150 MHz 400 MHz 800 MHz
CoreMarks 256 415 1175 2000
Portes équivalentes
> 10 K > 10 K >25 K>35 K
> 150 K
Caches ‐ ‐ L0 /L0 L0 et L1
MMU ‐ ‐ ‐/L0 L0 et L1
49Archi15 (8 Juin) D. Etiemble
![Page 50: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/50.jpg)
Mur mémoire : NUMASMur mémoire : NUMAS
Mémoire
cache D - L1
RegsCache
L3cache I L1
disqueCache
L2unifié
Hiérarchie de caches
Processeur I – L1 caches
Clusters
STRUCTURATION DES DONNEES EN FONCTION DE LA HIERARCHIE MEMOIREMODELES DE PROGRAMMATION : Mémoire partagée / Mémoire distribuée
50Archi15 (8 Juin) D. Etiemble
![Page 51: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/51.jpg)
Caches privés ou partagésCaches privés ou partagés
Complexification des problèmes de cohérenceComplexification des problèmes de cohérence
51Archi15 (8 Juin) D. Etiemble
![Page 52: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/52.jpg)
Mur mémoire : débitsMur mémoire : débits
SERVEURSSERVEURSDELL
52Archi15 (8 Juin) D. Etiemble
![Page 53: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/53.jpg)
Mur mémoire : débitsMur mémoire : débits
10000
GB/s GFLOPS GPU Nvidia
1000 X20
100
2007 20142010
X9
PCIe3.0 x 16PCIe2.0 x 16PCIe1.0 x 16
GPUs
102007 20142010
65 55 65 40 40 28 28 28 nm
53Archi15 (8 Juin) D. Etiemble
![Page 54: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/54.jpg)
Mur mémoire : CPU et GPUMur mémoire : CPU et GPU
CPU GPUEviter PCIeP dé
MP ‐ CPU MémoireGPU
PCI express‐ Puces soudées‐ APU
• Débit maximum PCIe
G U
– PCIe 1.0 x 16 : 4 Go/s– PCIe 2.0 x 16 : 8 Go/s
PCIe 3 0 x 16 : 16 Go/s– PCIe 3.0 x 16 : 16 Go/s– PCIe 4.0 (2016)
• Contrôleur mémoire « pinned » du CPU
54Archi15 (8 Juin) D. Etiemble
![Page 55: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/55.jpg)
Example: The Memory Capacity GapExample: The Memory Capacity GapCore count doubling ~ every 2 years DRAM DIMM capacity doubling ~ every 3 years
• Memory capacity per core expected to drop by 30% every two years• Trends worse for memory bandwidth per core!
55
![Page 56: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/56.jpg)
Hétérogénéité : CPU + accélérateursHétérogénéité : CPU + accélérateurs
• Superordinateurs – Multi‐cœurs et GPUs– Multi‐cœurs et Xeon‐PhiMulti cœurs et FPGA– Multi‐cœurs et FPGA
• MPSoC– CPU / Multi‐cœurs/DSP/ FPGA
56Archi15 (8 Juin) D. Etiemble
![Page 57: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/57.jpg)
Et la programmation ?Et la programmation ?
Cl t d lti• Clusters de multi‐cœurs– Mémoire partagée (OpenMP – Pthreads)Mémoire distribuée (MPI)– Mémoire distribuée (MPI)
• + GPUCuda / OpenCL– Cuda / OpenCL
• + DSP + FPGA + …
D. A. Paterson (IEEE Spectrum – Juin 2010)“The Trouble With Multicore Chipmakers are busy– “The Trouble With Multicore ‐ Chipmakers are busy designing microprocessors that most programmers can't handle”
57Archi15 (8 Juin) D. Etiemble
![Page 58: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/58.jpg)
Un autre différentielUn autre différentiel
É• Évolution comparée du temps de conception d’un circuit et du nombre de portes disponibles
É é10,0001 000
100,00010 000
Écart de productivité de conception
1,00010010
1Transistors par
puce
10,0001000100
10Productivité
(K)Transistors par
Capacité des circuits intégrés
Ecart
0.1
0.010.001
p(en millions) 1
0.10.01
(K)Transistors parHomme‐Mois.
productivité
58Archi15 (8 Juin) D. Etiemble
![Page 59: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/59.jpg)
Conclusions (1)Conclusions (1)
E ti ll iété °1 d l’ hit t• Exponentielles : propriété n°1 de l’architecture des processeurs / ordinateurs
• Les exponentielles provoquent des murs• Les exponentielles provoquent des murs, infranchissables ou à contourner
• Complexification• Complexification– Hétérogénéité matérielle
• Les accélérateurs disparaissent (on‐chip) et réapparaissentLes accélérateurs disparaissent (on chip) et réapparaissent plus nombreux (GPU, FPGA…)
• Complexification de la hiérarchie mémoireHété é éité l i i ll– Hétérogénéité logicielle
• Modèles de programmation différents
59Archi15 (8 Juin) D. Etiemble
![Page 60: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/60.jpg)
Conclusion (2) : exponentielle et thèseConclusion (2) : exponentielle et… thèse‐PerformanceC ût
Performance10000
‐Coût‐Conditions d’utilisation
D é thè
Progression « normale »« j’oublie l’exponentielle »
100Durée thèse
Années
1
• Le référentiel (état de l’art) évolue exponentiellement.
60Archi15 (8 Juin) D. Etiemble
![Page 61: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/61.jpg)
Recherche en archi : masochisme ?Recherche en archi : masochisme ?
P i i h i i i f / hi ?• Pourquoi avoir choisi info/archi ?– Référentiel à évolution rapide ou exponentielle
• Architecture des ordinateurs• Architecture des ordinateurs• Données massives
• Et non un domaine à référentiel fixe ou à évolution très lente ?
• Science de la terre• Physique ‐ Chimie• Biologie (végétale – animale)Biologie (végétale animale)• Recherche médicale• Ou… Mathématiques…
61Archi15 (8 Juin) D. Etiemble
![Page 62: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/62.jpg)
Dernier théorème de FermatDernier théorème de Fermat
• Formulé par Fermat vers 1630xn + yn = zn
n’a pas de solutions entières non nulles quand n > 2n a pas de solutions entières non nulles quand n > 2.
• Démontré par Andrew Wiles en 1995– Plus de 350 ans plus tardPlus de 350 ans plus tard
• Problèmes et… conditions de recherche sont immuables dans le temps
62Archi15 (8 Juin) D. Etiemble
![Page 63: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/63.jpg)
Questions ?Questions ?
• En évitant, dans la mesure du possible, les questions sur le futur …! {joke}q {j }
63Archi15 (8 Juin) D. Etiemble
![Page 64: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs](https://reader033.fdocument.pub/reader033/viewer/2022042417/5f32845f229a0a0bb90294a0/html5/thumbnails/64.jpg)
Exécution o o o = recherches associativesExécution o‐o‐o = recherches associativesExemple : « ROB » dans Metaflow (DRISS)
Op source 1 Op source 2 Destination
V N° reg ID V N° reg ID D ? N° reg RésultatN°
R2 V R1 D ? R1ID1 DIV R1,R2,R1V
R7V R1 ID1 D ? R3ID2 ADD R3,R7,R1
R8 V R2 D ? R1ID3 SUB R1,R8,R2V
R3 R1 ID3 D ? R4ID4 MUL R4,R3,R1ID2 , ,
R6V R5 D ? R4ID5 XOR R4,R6,R5V
64Archi15 (8 Juin) D. Etiemble