FPGAによるメニーコアシミュレータScalableCoreシステムの正当性検証

FPGAによるメニーコアシミュレータ ScalableCoreシステムの正当性検証

◎高前田伸也，笹河良介，吉瀬謙二東京工業大学大学院情報理工学研究科

2011-01-18 リコンフィギュラブルシステム研究会@日吉

はじめに

n  FPGAベースシミュレータ ScalableCoreシステムとソフトウェアシミュレータ SimMcの動作比較 l  RTLとソフトウェアシミュレータは振る舞いが一致

l 実機とサイクル数を比較 •  ソフトウェアによる同期を入れた場合，最大2%程度の差異

•  ハードウェアによる同期を入れた場合，完全に一致

SimMc ScalableCore

system (RTL)

ScalableCore system

(SW sync)

ScalableCore system

(HW sync)

≒ 98%

Same Behavior

メニーコアプロセッサの登場です！

Intel Single Chip Cloud Computer 48 cores (x86)

TILERA TILE-Gx100 100 cores (MIPS)

M-Core/SimMc 1.1 [植原ら, IEICEシステム開発論文特集号2010] n  2Dメッシュネットワークにより接続されたNode

l 計算ノードにはコア，ノードメモリ， INCC(ネットワークインターフェース)，ルータ

MemoryNode(0,0)

PathNode(1,0)

PathNode(2,0)

PathNode(0,1)

PathNode(0,2)

PathNode(0,N)

Comp.Node(1,1)

Comp.Node(2,1)

Comp.Node(1,2)

Comp.Node(2,2)

Comp.Node(M,1)

Comp.Node(M,2)

Comp.Node(1,N)

Comp.Node(2,N)

Comp.Node(M,N)

Many-core processor chip

Off chip main memory

PathNode(M,0)

INCCNodeMemory

Router

Comp. Node(X,Y)

Pagebuffer

Router

Mem. Node(0,0)

Router

Path Node(X,Y)

何で評価するのか？ n 柔軟性 vs. 速度

l 大きいベンチマークを高速に走らせたい･･･よね？

Difficulty to construct

ソフトウェアシミュレーション

FPGA シミュレーション

実チップ制作

より実チップに近い構成を高速にシミュレーション

ハードウェア制約のない理想的な構成を

手軽に実現リアルだが高価

多数のFPGAを用いた評価環境ScalableCoreシステム [坂口ら,RECONF2010-09] [高前田ら,IPSJ-ACS32]

n  1つのコアを1つのFPGAにマウント→つなげる！！ l 各FPGAに独立した…

•  コンフィギュレーションROM •  クロックオシレータ •  SRAM

ScalableCore Unit (FPGA) シミュレーション対象の構成要素

Simulation Display: シミュレーション情報を表示

M-Core on ScalableCoreシステム n M-Coreのサイクルアキューレートなシミュレーション環境 l 各UnitにM-Coreの計算ノードを1つ実装

•  MIPSコア,メモリ,ルータ,ネットワークインターフェース l スケーラブルなシミュレーション速度

•  64ノードシミュレーションで14.2倍高速

プログラムローダ

疑問点 n ソフトウェアシミュレータとScalableCoreシステムどの程度の同じ挙動をするのか? l サイクルレベルで同じ？それともわずかに異なる？ l 心配な要素

•  FPGA間同期 –  異なるクロックドメイン・隣接するFPGA間のみ同期

•  ターゲットの1サイクルとFPGA上の1サイクルの違い –  FPGA上の複数サイクルがターゲットの1サイクルに

Sending to Unit 0 Sending to Unit 1 Sending to Unit 2 Sending to Unit 3

Receiving from Unit 0 Receiving from Unit 1

Sending to Unit 0 Sending to Unit 1 Sending to Unit 2 Sending to Unit 3

Cycle 1 Cycle 2

この発表の目標

n  ScalableCoreシステムの振る舞いの正しさを検証する l  ScalableCoreシステムとソフトウェアシミュレータSimMc， 2つの振る舞いを比較

n  2段階の比較・検討 l  ScalableCoreシステム RTL vs. SimMc (1)

•  サイクルレベルで各状態を比較 l  ScalableCoreシステム実機 vs. SimMc

•  シミュレーション実行サイクル数を比較 •  プログラムの実行開始・完了に同期を挿入

–  ソフトウェアによる同期 (2) –  ハードウェアによる同期 (3)

ScalableCoreシステム RTL vs. SimMc n ターゲットプロセッサの構成: M-Core

l ノード数: 最大4×4の16ノード l コア: MIPS32 1命令/1サイクル・シングルサイクル l ローカルメモリ: 512KB・4ポート (IF,MA,INCC-R, INCC-W) l ルータ: 仮想チャネル無し・8ビット幅・入力バッファ4エントリスイッチアロケーションは固定された優先度に従う

MemoryNode(0,0)

PathNode(1,0)

PathNode(2,0)

PathNode(0,1)

PathNode(0,2)

PathNode(0,N)

Comp.Node(1,1)

Comp.Node(2,1)

Comp.Node(1,2)

Comp.Node(2,2)

Comp.Node(M,1)

Comp.Node(M,2)

Comp.Node(1,N)

Comp.Node(2,N)

Comp.Node(M,N)

Many-core processor chip

PathNode(M,0)

INCCNodeMemory

Router

Comp. Node(X,Y)

Pagebuffer

Router

Mem. Node(0,0)

Router

Path Node(X,Y)

RTL vs. SimMc: 実験環境

n  RTL: Icarus Verilog 0.9.3 n  SimMc: 1.0 (ルータ幅 8ビット)

n 各項目をファイルに出力し，grep & diffで比較 l コアID l サイクル番号 l 実行命令 l プログラムカウンタ l  INCC(ネットワークインターフェース)の入出力

RTL vs. SimMc: 検証ベンチマーク

n  7つの検証 l 単一ノード上でのプログラム実行 l  1対1通信 l  1対全通信 l 全対1通信 (Small) l 全対1通信 (Large) l 全対全通信 l  Equation Solver Kernel

•  2次元配列の各要素について，4近傍と自身との平均値を新しい自身の値として採用することを繰り返す

RTL vs. SimMc: 検証結果

n 検証の各段階でSimMcのバグを発見・修正 l 信号の更新のタイミングが(想定と)違う

•  1つのforループの中で解放と割り当てを同時に行ったり

n 修正の結果すべてのベンチマークで毎サイクルの各状態が両者で一致 l プロセッサコアの振る舞い l ネットワークに起因するメモリ状態の変化タイミング l ネットワーク内の調停

ScalableCoreシステム実機 vs. SimMc n 各ノードの起動タイミングが異なる

l  SimMcでは全ノードがいっせいのせいでスタート l  ScalableCoreではNode(0,1)が先に起動他を後から起こす → SimMcと挙動が異なる

•  プログラムロードなどの初期設定

n  2つの方法 l ソフトウェアによる同期

•  DMA転送でフラグの配布 & フラグのスヌーピング l ハードウェアによる同期

•  実行開始時刻の設定と自律的な起動

各ノードのプログラム実行開始を同期したい

ソフトウェアによる同期 n  DMA転送によるフラグの配布とフラグのスヌーピング l  Node(0,1)が send_startflag()で全員にフラグを設定

l その他のNodeは start_flagが 0でなくなるまで待機

volatile static int start_flag = 0; volatile int end_flag [RANKY_MAX][RANKX_MAX]; void send_startflag(int rank) { int rank_x, rank_y; rank_x = getidx(rank); rank_y = getidy(rank);

int dst,x,y; for(y=1;y<=max_rank_y;y++){ for(x=1;x<=max_rank_x;x++){ end_flag[y-1][x-1] = 0; } } for(x=1;x<=rank_x;x++){ for(y=1;y<=rank_y;y++){ if(x==1 && y==1) continue; setidxy(&dst, x, y); MC_dma_put_4b(dst, (int *)&start_flag, 1);

} } } void wait_startflag() { while(!start_flag); }

ハードウェアによる同期

Node (0,1)

Node (0,2)

Node (0,3)

Node (1,1)

Node (2,1)

Node (3,1)

Node (1,2)

Node (2,2)

Node (3,2)

Node (1,3)

Node (2,3)

Node (3,3)

計算ノード全員の起動タイミングを確実に揃えるために Node(0,*)を追加

Node(1,1)~ Node(RX,RY)が

全員同じタイミングで起動する

Node(0,1)がその他全員の

タイミングを設定

起動タイミングは (512KB転送時間)×(ノード数) をベースに，大きめに設定

起動タイミングの設定と自律的なスタート n 仮想サイクル8で3人が同時に起動する場合

0 1 2 3 4 5 6 7 8 9 10 11

Node 0

Node 1

Node 2

起動タイミング設定待ち起動待ち起動完了

検証の構成 n ノード数

l  10×1，5×2，3×3，2×2

n ベンチマーク: 4種 l  do nothing

•  何もしないプログラム l  bottom-right to Node(1,1)

•  右下のノードから左上のノードへの1回のDMA転送 l mm_canon

•  行列積 (行列サイズ: 60, 120, 180) l  random traffic

•  ランダム通信

SW sync: シミュレーションサイクル数の比較

n  3×3構成のランダム通信で2%程度の誤差 l  SimMcで739472サイクル l  ScalableCoreシステムで754695サイクル l 約15000サイクルの差異

•  バタフライ効果

!"#! $#% &#& %#% !"#! $#% &#& %#%'()*(+,-*. !/0 !$1 !$$ !"% !/0 !$1 !$$ !"%

2(++(345-.,+)+()6('78!9!: %!/ %!/ %!& !$1 %!0 %!0 %!& !1"33;<=*(*>)1" 4 4 &$1?!! 1/0&"/ 4 4 &$1?!! 1/0&"033;<=*(*>)!%" 4 4 %&%@%@! /?!&%&1 4 4 %&%@%0? /?!&%&133;<=*(*>)!0" 4 4 ?&$?@"1 !$/&@&%% 4 4 ?&$?@"1 !$/&@&&05=*'(3)+5=AA-< !!011%% 0$?@!? ?&@/?% 100/%& !!0"!?% 01$$!1 ?$/1@$ 100/%1

B-3C< B<=D=2D7E(57)8B(A+F=57)BG*<:HIID-<=+-(*

!"#! $#% &#& %#%"J"""K "J"""K "J"""K "J"""K!J01@K !J01@K "J"""K %J$1/K4 4 "J"""K "J""!K4 4 "J"""K "J"""K4 4 "J"""K "J"""K

4"J$//K "J001K %J"$@K "J"""K

L-AA757*+-=D)M=+7

HW sync: シミュレーションサイクル数の比較

n すべての構成でシミュレーションサイクル数が一致

!"#! $#% &#& %#% !"#! $#% &#& %#%'()*(+,-*. &$ &$ &$ &$ &$ &$ &$ &$

/(++(012-.,+)+()3('45!6!7 !"$ !"! !"! 89 !"$ !"! !"! 8900:;<*(*=)>" 1 1 &$>$&! >?@%&& 1 1 &$>$&! >?@%&&00:;<*(*=)!%" 1 1 %&%8!"9 ?9!&!$9 1 1 %&%8!"9 ?9!&!$900:;<*(*=)!@" 1 1 9&$99&? !$?&8%?9 1 1 9&$99&? !$?&8%?92<*'(0)+2<AA-; !!8!@%% @98?@" 9?!8&? >@@&$& !!8!@%% @98?@" 9?!8&? >@@&$&

B-0C; B;<D</D4E(24)5F<2'G<24)BH*;7IJJD-;<+-(*

!"#! $#% &#& %#%"K"""L "K"""L "K"""L "K"""L"K"""L "K"""L "K"""L "K"""L1 1 "K"""L "K"""L1 1 "K"""L "K"""L1 1 "K"""L "K"""L

"K"""L "K"""L "K"""L "K"""L

M-AA424*+-<D)N<+4

まとめ n  ScalableCoreシステムとSimMcの動作比較

l  ScalableCoreシステム RTL vs. SimMc l  ScalableCoreシステム実機 vs. SimMc

•  with SW synchronization •  with HW synchronization

n  RTLとソフトウェアシミュレータは振る舞いが一致 n 実機とサイクル数を比較

l ソフトウェアによる同期を入れた場合，最大2%程度

l ハードウェアによる同期を入れた場合，完全に一致

SimMc ScalableCore

system (RTL)

ScalableCore system

(SW sync)

ScalableCore system

(HW sync)

≒ 98%

Same Behavior

FPGAによるメニーコアシミュレータScalableCoreシステムの正当性検証

Documents

Transcript of FPGAによるメニーコアシミュレータScalableCoreシステムの正当性検証

ネットワークカメラオプションガイド...システム構成例 アプライアンスサーバー ビデオマネジメントシステム導入セット／NeoFace 顔認証システム導入セット

合成/シミュレーション デザイン ガイド (UG626) - … › support › documentation › sw_manuals...FPGA アーキテクチャを理解すると、FPGAのシステム機能を効率的に使用するHDLコードを作成

バイオメトリック認証技術の基礎...331 Fundamentals of Biometric Authentication Technology. 図1 バイオメトリック認証システムによる本人認証プロセス

指紋認証システム導入ガイド - RATOC Systems指紋認証システム導入ガイド 本製品はWindows10のログオン認証機能である【Windows Hello】、または製品CD-ROMに収

シングルサインオン認証システム（SSO 認証システ …...3 1.1 概要 成蹊大学では、新シングルサインオン認証システム (以下「 SSO認証システム」と表記）を導入します（2020年3月より）。

LSIシステム設計...検証（1） 大規模なシステム LSI では、設計ミスや要求仕様の解釈誤りが必ず発生 → 検証が必須（各設計ステップで検証を実施）

Aerodrome Beacon ヘリポート照明システムAerodrome Beacon ISO9001 認証取得 ISO14001 認証取得 ヘリポート照明システム HELIPORT LIGHTING SYSTEM 必要灯火

FPGAを使った システム開発について考えよう · • モータ制御システム – AlteraSoCを – ARM • モータからの割込み処 • 出処 – FPGA •

バイオメトリック認証技術の基礎 Fundamentals of Biometric Authentication Technology. 図1 バイオメトリック認証システムによる本人認証プロセス

2019/11出荷開始モデル NeoFace 顔認証システム導入セット …...目次 –紹介編-1.NECの顔認証について 2.NeoFace 顔認証システム導入セットについて

電子証明書のスマートフォン搭載に関するシステム構成と 初 …2020 年11月10日 電子証明書のスマートフォン搭載に関するシステム構成と

車両ナンバー認証システム...車両ナンバー認証システム 5 6 画像解析システム 画像解析システム ネットワークシステム I D I S システム

DSFaceSentryM 顔認証＋体温検知システム Face Sentry.pdf2020/05/25 · info@ift-corp.co.jp DSFaceSentryMシリーズ 顔認証＋体温検知システム （税別） Title

地中熱・下水等を利用したヒートポンプ空調システム 実証試 …実証単位（A）システム全体（H21） 「川崎市 南河原こども文化センター」における地中熱利用空調システム

日本市場向け Cisco Unified Communications 9.1 システム検証レ … · 日本市場向け Cisco Unified Communications 9.1 システム検証レ ポート 初版：2013年01月30日

営繕積算システムRIBC2・RIBC 内訳書数量⼊⼒システムLITE … · 営繕積算システムribc2・ribc 内訳書数量⼊⼒システムlite セットアップ＆ライセンス認証

指紋認証システム導入ガイド - RATOC Systems · 認証」となります。指紋認証ソフトウェア「OmniPass SE」の「認 証規則の設定」でパスワード認証と指紋認証の両方にチェックすると、

AIシステムの品質保証 · 2. AIモデル（ディープラーニング）の特徴 3. AIの品質保証の難しさ 4. AIシステムの品質保証 2 *：本資料の「AIシステム」とは，AIモデルを組み込んだシステムとします

FPGAを用いたモータ制御回路の モデルベース開発事例 · → lsi/fpgaの実機検証経験あり ・実機検証に必要な各種計測機器を保有 富士通社内で開発している装置に搭載されるfpgaに関して、各fpgaベンダーと

ホワイト ペーパー : UltraScale FPGA WP466 (v1.1) 2015 - Xilinx...WP466 (v1.1) 2015 年 10 月 15 日 japan.xilinx.com 3 ザイリンクス UltraScale FPGA の実証された消費電力削減効果

ネットワークカメラオプションガイド...システム構成例アプライアンスサーバービデオマネジメントシステム導入セット／NeoFace 顔認証システム導入セット

合成/シミュレーションデザインガイド (UG626) - … › support › documentation › sw_manuals...FPGA アーキテクチャを理解すると、FPGAのシステム機能を効率的に使用するHDLコードを作成

指紋認証システム導入ガイド - RATOC Systems指紋認証システム導入ガイド本製品はWindows10のログオン認証機能である【Windows Hello】、または製品CD-ROMに収

シングルサインオン認証システム（SSO 認証システ …...3 1.1 概要成蹊大学では、新シングルサインオン認証システム (以下「 SSO認証システム」と表記）を導入します（2020年3月より）。

LSIシステム設計...検証（1）大規模なシステム LSI では、設計ミスや要求仕様の解釈誤りが必ず発生 → 検証が必須（各設計ステップで検証を実施）

Aerodrome Beacon ヘリポート照明システムAerodrome Beacon ISO9001 認証取得 ISO14001 認証取得ヘリポート照明システム HELIPORT LIGHTING SYSTEM 必要灯火

FPGAを使ったシステム開発について考えよう · • モータ制御システム – AlteraSoCを – ARM • モータからの割込み処 • 出処 – FPGA •

電子証明書のスマートフォン搭載に関するシステム構成と初 …2020 年11月10日電子証明書のスマートフォン搭載に関するシステム構成と

車両ナンバー認証システム...車両ナンバー認証システム 5 6 画像解析システム画像解析システムネットワークシステム I D I S システム

DSFaceSentryM 顔認証＋体温検知システム Face Sentry.pdf2020/05/25 · info@ift-corp.co.jp DSFaceSentryMシリーズ顔認証＋体温検知システム（税別） Title

地中熱・下水等を利用したヒートポンプ空調システム実証試 …実証単位（A）システム全体（H21）「川崎市南河原こども文化センター」における地中熱利用空調システム

日本市場向け Cisco Unified Communications 9.1 システム検証レ … · 日本市場向け Cisco Unified Communications 9.1 システム検証レポート初版：2013年01月30日

指紋認証システム導入ガイド - RATOC Systems · 認証」となります。指紋認証ソフトウェア「OmniPass SE」の「認証規則の設定」でパスワード認証と指紋認証の両方にチェックすると、

FPGAを用いたモータ制御回路のモデルベース開発事例 · → lsi/fpgaの実機検証経験あり・実機検証に必要な各種計測機器を保有富士通社内で開発している装置に搭載されるfpgaに関して、各fpgaベンダーと

ホワイトペーパー : UltraScale FPGA WP466 (v1.1) 2015 - Xilinx...WP466 (v1.1) 2015 年 10 月 15 日 japan.xilinx.com 3 ザイリンクス UltraScale FPGA の実証された消費電力削減効果