Architecture & bits significatifs

Thèse de doctorat

Olivier Rochecouste

sous la direction d’André Seznec

Projet CAPS / IRISA

Lundi 24 Octobre 2005

Problématique

Évolution de la taille des mots traités par le processeur :– Intel 4004 (1971) : 4-bit– Intel Itanium (2000) : 64-bit

Usage restreint des données 64-bit dans les applications :– applications multimédia (audio/vidéo 8-/16-bit)– 50% des données entières sont sur 16-bit à l’exécution

[Brooks’99]

Surdimensionnement de la microarchitecture ?

Impacts sur la consommation, la surface de silicium et la fréquence du processeur

Améliorer les performances :– parallélisme de données (SIMD*) [Nakra’00, Loh’02]

Optimiser la consommation d’énergie :– matériel reconfigurable [Brooks’99, Canal’00]

État de l’artExploiter le format des données

*Single-Instruction Multiple-Data

+ + + + +

64-bit 64-bit16-bit 16-bit

64-bit64-bit

+16-bit16-bit

État de l’artIdentifier le format des données

Approche dynamique [Brooks’99, Choi’00]– détection cycle par cycle – repose sur un mécanisme matériel

Approche « compilateur » [Stephenson’00, Budiu’00]– analyse du flot de données – doit préserver la sémantique du programme

uint16 i = 0;for (i = 0; i < 25; i++) { x += i;

uint32 x = 0;

uint16 x = 0;

/* 8-bit : 88%, 16-bit : 12% */

Contributions de la thèse

Exploiter le format des données pour réduire la complexité du processeur

Première contribution :– technique matérielle / logicielle de redimensionnement du

chemin de données– contexte embarqué

Seconde contribution :– traitement découplé des opérations tronquées (16-bit) sur des

opérateurs dédiés– contexte hautes performances

Technique matérielle / logicielle de redimensionnement du chemin de

données

Motivations

60% de données entières 16-bit à l’exécution opportunité pour réduire la consommation d’énergie redimensionner le chemin de données

0%20%40%60%80%

32-bit16-bit8-bit

Distribution du format des données dynamiques [Powerstone]

Notre approche

Approche dynamique Approche compilateur

éviter le recours à un support matériel pour identifier le format des données : complexe

Spéculer sur la taille des données par logiciel pour redimensionner le chemin de données

renforcer le compilateur avec une connaissance dynamique : profiling

s’appuyer sur le compilateur pour

identifier le format des données : adéquate

s’appuyer sur le compilateur pour

identifier le format des données : adéquate

éviter le recours à une analyse statique pour optimiser la taille des données : restrictive

8-bit mode8-bit mode16-bit mode16-bit mode32-bit mode32-bit mode

Support matériel (1)

Chemin de données redimensionnable [Brooks’99]– mode d’exécution 8,16 ou 32-bit : « clock-gating »

Fichier de registres en tranches : « nouvelle approche »– mode 8, 16 ou 32-bit : « drowsy mode » [Flautner’02]

données préservées

– « tag bits » : dimension effective des données

column decodercolumn decoder

00110000

11001100

110011000101110101011101

11001100

16-bit

01011101

tagbits

mise à jour

des tag bits

Support matériel (2)

Instruction de reconfiguration :– changer le mode d’exécution

Mécanisme de recouvrement : – Identifier :

comparer le mode d’exécution à la largeur des opérandes (tag bits)

– Corriger : vider le pipeline redimensionner le chemin de données rejouer les instructions

Spéculation du format des données par logiciel

Redimensionnement du chemin de données– granularité utilisée : bloc de base (ou région)

Identifier le format d’exécution des blocs de base :– prédire sur la base des données du profiling

fonction du taux d’utilisation en données 16-bit (> 80%)

Insérer les instructions de reconfiguration :– formation de régions

add r1, r2 r3

mode 16

xor r2, r3 r4

mode 32

région 16-bit

instructions de reconfiguration

Environnement expérimental

Benchmarks : – 14 applications Powerstone [M.core]

Configuration simulée :– architecture VLIW 4 x 32-bit– 64 registres généraux 32-bit– 4 ALUs, 1 unité load/store

Estimer la consommation d’énergie (analytique) :– ALU : énergie(32-bit) ~ 2 x énergie(16-bit) – fichier de registres :

CACTI : énergie dynamique par accès Hotleakage : énergie statique par accès

Évaluation expérimentale

Consommation d’énergie :– chemin de données :

gains en dynamique : 17%

– fichier de registres : gains en statique : 22%

Performances :– Pénalité de recouvrement

5 cycles pénalité : - 2% 25 cycles pénalité : - 5%

adpcm auto bffo compr. des avg.

dynamic savings (datapath) static savings (RF)

adpcm auto bffo compr. des avg.

dynamic savings (datapath) static savings (RF)

0%adpcm auto bffo compr. des avg.

5-cycle penalty 25-cycle penalty

0%adpcm auto bffo compr. des avg.

5-cycle penalty 25-cycle penalty

consommationconsommation

performancesperformances

Récapitulatif

Technique matérielle / logicielle de redimensionnement du chemin de données

Spéculation par logiciel du format d’exécution des blocs de base

Support matériel : – mécanisme de recouvrement– chemin de données et fichier de registres 8/16/32-bit

Réduction de la consommation d’énergie :– chemin de données (dynamique) : 17%– fichier de registres (statique) : 22%

Comment adapter l’approche pour un modèle à exécution dans le désordre ?

exécution atomique des régions inadéquation d’une approche par profiling

Traitement découplé des opérations tronquées sur des opérateurs dédiés

Le modèle à clusters WPM

« Width-Partitioned Microarchitecture »

Le modèle à clusters

partitionner les ressources de calcul entre différents groupes (clusters) pour réduire la complexité du processeur

Nécessite :

– mécanisme pour distribuer le programme sur les clusters

– mécanisme pour communiquer les données entre les clusters

decode

decoderename

dispatch

rename

dispatch

issueissue

executeexecute

write-backwrite-back

issueissue

executeexecute

commitcommit

ressources

centralisées

cluster

Motivations

Caractérisation du format des opérations dynamiques Notation :

– N : narrow-width (16-bit)– F : full-width (64-bit)– [16, 16 64] NNF

40% en opérations NNN

cjpeg epic ghostscript bzip2 gcc mcf average

FFFFFNNFFNFNNNFNNN

Découpler sur des opérateurs dédiés :

le modèle WPM

Découpler sur des opérateurs dédiés :

le modèle WPM

Mediabench SPEC2000

Modèle WPM

64-bit

decode

rename

dispatch

rename

dispatch

issueissue

executeexecute

issueissue

executeexecute

commitcommit

FFFNNN

Modèle à clusters classique 64-bit

16-bit

decode

rename

dispatch

rename

dispatch

issueissue

executeexecute

issueissue

executeexecute

commitcommit

FFFNNN

découpler

cluster 16-bit

Modèle WPM

Modèle WPM Implémentation basique

bypassbypass

64-bitALU

load/store+ ALU

64-bit RF64-bit RF duplicata16-bit RFduplicata16-bit RF

bypassbypass

16-bitALU

16-bit RF16-bit RF

16-bitALU

cache de donnéescache de données

cluster 64-bit cluster 16-bit Communications inter-cluster :– duplicata RF 16-bit

réduire la complexité du RF 64-bit

– ALUs 16-bit reliées au duplicata

– Load/store reliée au 16-bit RF

64-bit RF64-bit RF

Pour optimiser la connexité

opérations FFN et FNN : 3%– opportunités

Mise à jour à la demande :– instruction de copie

générée par le matériel

Duplicata 16-bit : – ports écriture / 2

Modèle WPM Implémentation optimisée

bypassbypass

64-bitALU

load/store+ ALU

64-bit RF64-bit RF duplicata16-bit RFduplicata16-bit RF

bypassbypass

16-bitALU

16-bit RF16-bit RF

16-bitALU

cache de donnéescache de données

cluster 64-bit cluster 16-bit

Basée sur un prédicteur de largeur– exposer les opérations NNN

Mauvaises prédictions :– « effectives » : largeur prédite < largeur produite– « conservatrices » : largeur prédite > largeur produite

Schéma bimodal avec compteur RAZ– prédit 16-bit quand saturé sinon 64-bit– remis à zéro quand 64-bit

Distribution des instructions

16-bit

64-bit

16-bit

prédit 16-bitprédit 64-bit

Mécanisme de recouvrement

Détection des mauvaises prédictions à l’étage d’exécution :– logique de détection des zéros [Brooks’99]

Correction : mauvaises prédictions effectives – vider pipeline– rejouer instructions sur le cluster 64-bit– mettre à jour tables de prédiction

Correction : mauvaises prédictions conservatrices – mettre à jour tables de prédiction

Environnement expérimental

Benchmarks : 7 Mediabench et 7 SPEC2000

Modèles simulés : WPM basique, WPM optimisé 80 registres par RF prédicteur de largeur bimodal avec 4096 compteurs RAZ 3-bit

MP effective < 0.1%

Estimation de la consommation d’énergie (analytique) :– ALU : énergie(64-bit) ~ 4 x énergie(16-bit) – fichier de registres : CACTI – interconnexions : énergie(16-bit) ~ 0.84 énergie(64-bit) [Bala’05]

Modèle de référence

Cluster 0 :– 1 ALU 64-bit / 1 load/store

Cluster 1 :– 2 ALUs 64-bit

1 copie RF 64-bit / cluster – mise à jour systématique

– délai inter-cluster

Distribution des instructions [Canal’00]– minimiser communications inter-cluster

– préserver l’équilibrage des charges

decode

decoderename

dispatch

rename

dispatch

issueissue

executeexecute

issueissue

executeexecute

commitcommit

64-bit

cluster 0 cluster 1

Complexité du fichier de registres

Surface de silicium : analytique [Zyuban’98] Temps d’accès et énergie par accès : CACTI [Jouppi’00]

référence WPM basique WPM optimisé

position du cluster 0 1 0 1 0 1

largeur du registre (bits) 64 64 64/16 16 64/16 16

# registres 80 80 80/80 80 80/80 80

ports d’accès (lecture/écriture)

(4,4) (4,4) (4,2) / (2/4) (4,3) (4,2) / (2/2) (4,3)

réduction de la surface - - 34% 81% 43% 81%

réduction du temps d’accès

- - 6% / 16% 15% 6% / 22% 15%

réduction énergie - - 21% / 63% 35% 21% / 71% 35%

Réseau d’interconnexion

Interconnexions inter-cluster (16-bit) :– surface de silicium / 4– consommation d’énergie - 20%

Interconnexions hétérogènes [Bala’05]– (largeur & espacement) = délai

espacement

longueur

largeur hauteur

interconnexions

classiques

optimisées pour

le délai

Consommation d’énergie

WPM basique

– ALU : 20 % – RF : 50% – interconnexions : 60%

cjpeg djpeg epic bzip2 gcc gzip avg.

WPM basique

WPM optimisé

ALUALU

interconnexionsinterconnexions

consommationd’énergie

WPM optimisé :

– ALU : 13% – RF : 50% – interconnexions : 80%

Performances

Oracle : prédicteur de largeur parfait Bimodal : prédicteur bimodal 3-bit 4096 entrées Interconnexions hétérogènes : délai / 2 [Bala’05]

cjpeg djpeg epic bzip2 gcc gzip avg.

25% WPM basique + oracle

WPM basique + bimodal

WPM optimisé + bimodal

WPM basique + int. hétér.

WPM optimisé + int. hétér.

performancesperformances

Modèle WPM Récapitulatif

Modèle WPM « Width-Partitioned Microarchitecture » :

– découpler le traitement des opérations NNN pour réduire la complexité du processeur

– aucun mécanisme matériel nécessaire pour redimensionner

– gains en énergie : fichier de registres : 50% interconnexions inter-cluster : 60 à 80%

– dégradation des performances : 7%

Conclusion générale

Surdimensionnement du chemin de données

Exploiter le format des données pour réduire la complexité

Deux contributions :

– technique matérielle / logicielle pour redimensionner le chemin de données

systèmes embarqués

– traitement découplé des opérations tronquées sur des opérateurs dédiés (modèle WPM)

systèmes hautes performances

Directions futures

Appliquer le modèle WPM au contexte VLIW :

– motivations : modèle à clusters populaire – utiliser le compilateur pour distribuer les opérations

Examiner le passage à l’échelle du modèle WPM :

– comment le modèle WPM peut être adapté pour supporter un degré d’exécution et un nombre de clusters plus importants ?

Merci de votre attention.

Questions ?

Backup slides

Sources de consommation

2 sources principales dans la technologie CMOS* :

– consommation dynamique 90% avec géométrie > 0.13µ

– consommation statique 50% avec géométrie < 0.09µ

Consommation dynamique– Pdynamique = a . (CL * Vdd

2 * f)

Consommation statique– Pstatique = Vdd * Ifuite

– Ifuite = Iox + Isub + Idiode

*Complementary Metal Oxyde Silicon

Technique matérielle/logicielle Optimisations logicielles

Benchmarks

Applications Description

epic image compression M

g721 voice compression

ghostscript postscript interpreter

jpeg image compression

mesa 3D graphics library

mpeg2 video compression

pegwit encryption algorithm

bzip2 data compression S

gcc C compiler

gzip data compression

mcf combinatorial optimization

parser word processing

vortex database

vpr FPGA place route

Applications Description

adpcm voice encoding/decoding

auto automotive control code

bcnt bitcount

bffo find first zero

bilv shift, and, or operations

brev bit reverse operations

compress data compression

des data encryption

engine engine control application

fir integer FIR filter

g721 protocol for voice transmission

pocsag communication protocol for paging

qurt root computation of quadratic equations

v42bis modem encoding/decoding

Modèle WPM équilibrage des charges

Métrique :– différence du nombre d’opérations

prêtes à s’exécuter dans chaque cluster à chaque cycle [Canal’00]

– équilibrage parfait : différence = 0– équilibrage correct : différence < 5– Résultats :

équilibrage correct [0-2] : 50% exécution

équilibrage

Modèle WPM analyse de la complexité (3)

Réseau de bypass :– modèle de référence :

5 sources par cluster – WPM basique :

6 sources (cluster 64-bit) – 4 sources (cluster 16-bit)– WPM optimisé :

5 sources (cluster 64-bit) – 4 sources (cluster 16-bit)

Logique de réveil :– modèle de référence :

4 sources par cluster– WPM basique :

4 sources (cluster 64-bit) – 3 sources (cluster 16-bit)– WPM optimisé :

3 sources par cluster

Modèle WPM Distribution des instructions (2)

Heuristique :

Soit i, l’instruction à assigner : Tous les opérandes sources de i appartiennent au RF16 :

Si résultat prédit 16-bit alors i assignée au cluster 16 Sinon i assignée au cluster 64

Au moins un opérande source de i appartient au RF64 : i assignée au cluster 64 Si résultat prédit 16-bit alors résultat écrit dans RF16 Sinon résultat écrit dans RF64

Fichier de registres :

– surface de silicium [Zyuban’98] :

Nregs : nombre de registres

Wregs : largeur du registre en bits

Nread : nombre de ports d’accès en lecture

Nwrite : nombre de ports d’accès en écriture

w : largeur des interconnexions

– temps d’accès et consommation : CACTI

Nregs x Wregs x w² x (Nread+ Nwrite) x (Nread+ 2 x Nwrite)Nregs x Wregs x w² x (Nread+ Nwrite) x (Nread+ 2 x Nwrite)

Conventionnel WPM basique WPM optimisé

numéro du cluster 0 1 0 1 0 1

# RF 1 1 2 1 2 1

largeur de registre (bits) 64 64 64/16 16 64/16 16

# registres 80 80 80/80 80 80/80 80

ports lecture/écriture (4,4) (4,4) (4,2) / (2/4) (4,3) (4,2) / (2/2) (4,3)

surface de silicium 491520 491520 245760 + 76800 89600 245760 + 30720 89600

réduction de la surface - - 34% 81% 43% 81%

temps d’accès (TA) 0.6326 0.6326 0.6000 / 0.5278 0.5342 0.6000 / 0.4916 0.5342

réduction du TA - - 6% / 16% 15% 6% / 22% 15%

énergie nJ/accès 0.5431 0.5431 0.4267 / 0.1977 0.3500 0.4267 / 0.1571 0.3500

réduction énergie - - 21% / 63% 35% 21% / 71% 35%

Architecture & bits significatifs

Documents

Transcript of Architecture & bits significatifs

BITS Minúscula

Making Bits and Atoms Talk Today: A Practical Architecture for Smart Object Interaction

20/16-bit AGC Architecture · Web viewHarvard architecture with a ROM of 32k words of 20 bits for instructions only (6 μsec); a RAM of up to 4k words of 16 bits for data only (6

bits rostro

INITIATION AUX MICROCONTRÔLEURSdemay.iut.lr.free.fr/doc/1A/Informatique/I2-2 - Programmation... · traitement de l'USB. IUT R&T 4 Architecture Les microcontrôleurs 8 bits PIC sont

Barramentos ISA (Industry Standard Architecture): O ISA foi o primeiro barramento de expansão existindo versões de 8 ou 16 bits, sendo dividido em duas.

Guía del usuario - Lenovo€¦ · • Microsoft® Windows® 7 (32 bits o 64 bits) • Microsoft Windows 8.1 (32 bits o 64 bits) • Microsoft Windows 10 (32 bits o 64 bits) • Windows

Architecture interne des · PDF filecircuiterie numérique synchrone présentées dans le cours à la réalisation d’un (petit) microprocesseur 32 bits. Le jeu d’instruction du

ARCHITECTURE D’UNE MACHINE INFORMATIQUE …bacstielectronique.free.fr/fichiers_cours_electronique/68hc11_v2.pdf · capacité d’adressage du 68HC11 est de 16 bits d’adresses.

20/16-bit AGC Architecture - ibiblio › apollo › Documents › AGC_Block_I… · Web viewHarvard architecture with a ROM of 32k words of 20 bits ... Ground controllers use a

ARCHITECTURE ORDINATEURS - rabie-ben … · Les activités des additionneurs 1 bit en fonction ... L’ADDITIONNEUR 4 BITS À PROPAGATION 32 b3 a3 s3 ... 4. réaliser les circuits

SE302 : Architecture matérielle des systèmes embarqués · bits, 64KB d’espace adressable, 2MHz – 3MHz. 1978 : création du Z80, processeur 8 bits ... nécessaire : théorème

Laboratoire 3 : Conception d’une unité arithmétique et …mgarz042/CEG2536/labs/Lab3.pdf · seront les bits les plus significatifs, ... Déterminez comment connecter 4 de ces

Quantification 8 bits 3 bits 1 bit 5 bits. Erreur Erreur sur l'image quantifiée sur 1 bit.

Bits frutas

Manejo de bits -operadores de bits C++

Autocad 2008 32 Bits en Windows 64 Bits

Bits Estaciones

Bits Palabras

Audição musical Bits de matemáticas Hábito: Bits de ... · Bits de inteligência - Obras de Leonardo Da Vinci Bits de linguagem - Palavras da unidade. Bits de matemáticas - Numeração