Abstracts of FPGA2017 papers (Temporary Version)

Abstracts of FPGA2017 papers( 暫定版 )

読んだ人 : みよしたけふみ読んだ日 : 6th March, 2017

Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural Networks?Intel 14nm Stratix10 FPGA を使って DNN アクセラレータ作ったGEMM オペレーションを評価． Titan X Pascal GPU と比べて

pruend で 10%Int6 で 50%Binarized DNN で 5.4x

Ternary ResNet で Titan X Pascal GPU の60% の性能2.3x の性能 / 電力

Accelerating Binarized Convolutional Neural Networks with Software-Programmable FPGAs C++ からの合成で BNN やってみた

SDSoC 2016.1Zynq 7Z020

44.2 GOPS/W

Improving the Performance of OpenCL-based FPGA Accelerator for Convolutional Neural Network

CNN classifier kernel のボトルネック部分を解析オンチップメモリのバンド幅に着目OpenCL で実装VGG モデルベースの CNN を Arria10 で実装

Frequency Domain Acceleration of Convolutional Neural Networks on CPU-FPGA Shared Memory System∗

畳み込み層の計算を減らすために FFT と Overlap-and-Add を利用共有メモリのデータレイアウトを工夫VGG16, AlexNet, GoogLeNet を 123.48GFLOPS, 83.00GFLOPS, 96.60GFLOPS

Intel Quick-Assist QPI FPGA Platform を使って評価

Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep Convolutional Neural Networks CNN の畳み込み層では 3 次元 MAC が 4 レベルのループになる

CNN のメモリアクセスなどの実対象を解析，最適化する必要がある

メモリアクセスとメモリ移動を最小化，リソース使用量と性能を最大化

Arria10GX1150 に実装

VGG-16 CNN で 645.25GOPS ， 47.97ms レイテンシを達成

State-of-the-art の 3.2x

An OpenCLTM Deep Learning Accelerator on Arria 10

OpenCL 使ってデータ再利用と外部メモリバンド幅最小化を実現Intel FPGA SDK for OpenCL

Deep Learning Accelerator(DLA)AlexNetCNN ベンチマークで Arria10 使って 1020img/s ， 23img/s/W-> 1382GFLOPS に相当（従来 FPGA の 8.4x の GFLOPS ， 5.8x の効率化）23 img/s/W は nVidia の TitanX GPU と competitive

FINN: A Framework for Fast, Scalable Binarized Neural Network Inference• FINN: 柔軟なヘテロジニアスストリーミングアーキテクチャを使って速く柔軟な

FPGA アクセラレータを構築するフレームワーク• ZC706 でトータル 25W のシステム• MNIST で 12.3M 画像 /s の分類．レイテンシ 0.31us ，精度 95.8%• CIFAR-10 と SVHN の 21906 画像 /s の分類．レイテンシ 283us ，精度はそれぞれ

801.% ， 94.9%

ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA

• Load-balance-aware pruning method で LSTM モデルのサイズを 1/20 に• 複数の PE に，圧縮モデルをエンコードと分割するスケジューラ• Efficient Speech Recognition Engine(ESE) と命名• XCKU060 に実装． 200MHz で動作． 282GOPS ． 41W• Core i7 5930k と比べて 43x 高速，電力効率 40x• Pascal Titan X GPU と比べて 3x 高速，電力効率 11.5x

Quality-Time Tradeoffs in Component-Specific Mapping:How to Train Your Dynamically Reconfigurable Array of Gates with Outrageous Network-delays • Component-specific 適用• A priori なデバイスの特徴とカスタマイズなしで FPGA 毎のマッピングをする• 48-77% のディレイ， 57% のエネルギー効率を 20 秒未満のマッピング時間で

Synchronization Constraints for Interconnect Synthesis

インタコネクト合成．データ転送のサイクルレベルの同期を自動的に．FIFO ベースより 43% 少ない面積使用量になる

Corolla: GPU-Accelerated FPGA Routing Based on Subgraph Dynamic Expansion

A GPU-accelerated FPGA routing methodGPU 向けの FPGA 内の最短パスアルゴリズムの適用を可能にする

FPGA ルーティングのカーネルは singole-source shortest path(SSSP) ソルバーである

Don’t Forget the Memory: Automatic Block RAM Modelling, Optimization, and Architecture Exploration

BlockRAM を自動的に作る話SRAM と MTJ 技術の両方を使用面積，電力を最適化

Automatic Construction of Program-Optimized FPGA Memory Networks

メモリレイテンシは設計時の重要ポイントメモリネットワークの最適化が性能向上のカギフィードバックドリブンのネットワークコンパイラを設計した45% の設計ゲインを達成要は LEAP の話

NAND-NOR: A Compact, Fast, and Delay Balanced FPGA Logic Element

And-Inverter Cone(AIC) は LUT に対する代替として提案された性能とリソースユーティリゼーションを向上

Delay discrepancy problem がある設計手法が最適かされていない→ もっと最適な NAND-NOR と delay-balanced な dual-phased なマルチプレクサなアーキテクチャを提案するよ

120-core microAptiv MIPS Overlay for the Terasic DE5-NET FPGA board

120-core 94MHz の MIPS プロセッサを作った軽量なメッセージパッシング機構で接続されるStratix V GX (5SGXEA7N2F45C2) に実装

A Parallelized Iterative Improvement Approach to Area Optimization for LUT-Based Technology Mapping

ロジックマッピングとデバイスマッピングにはギャップがあるPIMap を提案面積を最小化すべくロジック変換とテクノロジーマッピングを反復的に行うEPFL ベンチに対して最大 14% ，平均で 7% 面積削減を達成

A Parallel Bandit-Based Approach for Autotuning FPGA Compilation

合成ツールオプションの自動チューニングMulti-armed bandit(MAB) でオプションをチューニング

Hardware Synthesis of Weakly Consistent C Concurrency

C からの高位合成で Lock-free アルゴリズムLegUp に sequentially consistent(SC) と weakly consistent(weak) atmics を導入循環バッファの実装で，ロックありの場合と比べて 2.5x 高速化Weak atomics はさらに 1.5x スピードアップ

A New Approach to Automatic Memory Banking using Trace-Based Address Mining

TraceBanking を提案Trace-driven なアドレス最小化アルゴリズム顔検出アルゴリズムに対して area-efficient なメモリ分割を実現できた

コンパイルタイムの静的な最適化ではなアクセスパタンを明示的に指定する必要がない

Dynamic Hazard Resolution for Pipelining Irregular Loops in High-Level Synthesis • HLS のパイプライニングは，規則的でスタティックなメモリアクセスパタンにはむいている -> infrequent data-dependent structural には有効ではない• イレギュラなループに対する高スループットのパイプライン化を実現する• コンパイル時にハザードを解決したアグレッシブなパイプラインを生成• Hazard Resolution Unit(HRU) を導入． D-HRU(data) と S-HUR(structure)

Accelerating Face Detection on Programmable SoC Using C-Based Synthesis • HLS は進化してるけど現実的なベンチマークが不足している• Viola Jones アルゴリズムベースの顔検出アクセラレータのケーススタディ• ソフトウェアベースのデザインから HLS 特化データ構造と最適化を使った合成可能な実装への移植でわかったことをシェア• このデザインは 30FPS で，従来の RTL 設計と comparable である

Packet Matching on FPGAs Using HMC Memory: Towards One Million Rules • Hybrid Memory Cube(HMC) を使った FPGA によるパケット分類• プリフェッチで HMC アクセスレイテンシを隠蔽しメモリからマッチングエンジンにルールを転送• Kintex Ultrascale 060 に実装． 160 パケットを並列に処理． 10Gbps ラインレートで約 1500 ルールを， 16Mbps ラインレートで 1M ルールを処理

Boosting the Performance of FPGA-based Graph Processor using Hybrid Memory Cube: A Case for Breadth First Search• 巨大な実世界グラフを扱うのは難しい

• 単にフットプリントの問題だけでなくて，プアな局所性，アクセスレイテンシのため• HMC 使ってみた• HMC アクセスレイテンシと BFS( 幅優先探索 ) 性能に対する

定量的な評価のための解析的な性能モデルを開発

• 2-level bitmap scheme• Micron の AC-510 開発キットで評価．

• GRAPH500 ベンチマークで ( スケール 25/ ファクタ 16) で評価

• 166M edge traverced/s(MTEPS) を達成

ForeGraph: Exploring Large-scale Graph Processing on Multi-FPGA Architecture

FPGA のオンチップメモリはランダムデータアクセスに高いスループット

単一の FPGA のオンチップメモリには制約がある

複数 FPGA を使った大規模グラフ処理エンジンを提案

Xilinx Virtex UltraScale XVCU190(VCU110 ボード ) を使用

YT,WK,LJ,TW,YH グラフに対して BFS,PR,WCC を処理

TW(41.7M Vertecies, 1.47M Edge) は 4FPGA で処理

State-of-the Art(PowerGraph) に対して 5.04x 高速化を達成

先行 FPGA に対して平均スループットで 2.03 倍を達成

FPGA-Accelerated Transactional Execution of Graph Workloads

• 巨大グラフへのアクセスではメモリコンフリクトが起きる• スケーラブルなコンフリクト検出を示す• Intel Haswel とくらべて 2倍の性能向上， 22倍のエネルギー効率• FPGA Research Infrastructure Cloud[42] を利用

• http://www.openfabric.org

Enabling Flexible Network FPGA Clusters in a Heterogeneous Cloud Data Center • ヘテロジニアスクラウドデータセンタで network FPGA クラスタを作るフレームワーク• FPGA カーネルがどうつながるかの論理的なカーネル定義で FPGA クラスタが作られる• OpenStack でマネジメントされる• GbE でつながっている

Energy Efficient Scientific Computing on FPGAs using OpenCL

• Partial differential equations(PDE; 偏微分方程式 ) の効率的な実装が必要• FPGA のデータ並列性で PDE ソルバを• HDL は難しいので OpenCL で→でも難しい• OpenCL を使った PDE ソルバのための一般的で最適化の特価した包括的なセットを提案

Secure Function Evaluation Using an FPGA Overlay Architecture

SFE 向けのハードウェアアクセラレータ一般的なリコンフィギャラブルハードウェア向きの粗粒度な FPGA オーバーレイアーキテクチャ

FPGA Acceleration for Computational Glass-Free Displays

FPGA アクセラレーションをつかった eyeglasses-free ディスプレイSparse matrix-vector multiplicationL-BFGS iterative optimization algorithmglass-free ディスプレイアプリケーションで 12.78x の高速化

Hardware Acceleration of the Pair-HMM Algorithm for DNA Variant Calling

Pair HMM forward アルゴリズムの FPGA での高速化リング構造の PE で ILP とデータ並列性を考慮して様々な構成をとるC++ ベースの CPU 実行とくらべて 487x 高速，ハードウェア実装と比べて 1.56x 高速

Abstracts of FPGA2017 papers (Temporary Version)

Engineering

Transcript of Abstracts of FPGA2017 papers (Temporary Version)