Abstracts of FPGA2017 papers (Temporary Version)

31
Abstracts of FPGA2017 papers ( 暫暫暫 ) 暫暫暫暫 : 暫暫暫暫暫暫暫 暫暫暫暫 : 6th March, 2017

Transcript of Abstracts of FPGA2017 papers (Temporary Version)

Page 1: Abstracts of FPGA2017 papers (Temporary Version)

Abstracts of FPGA2017 papers( 暫定版 )

読んだ人 : みよしたけふみ読んだ日 : 6th March, 2017

Page 2: Abstracts of FPGA2017 papers (Temporary Version)

Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural Networks?Intel 14nm Stratix10 FPGA を使って DNN アクセラレータ作ったGEMM オペレーションを評価. Titan X Pascal GPU と比べて

pruend で 10%Int6 で 50%Binarized DNN で 5.4x

Ternary ResNet で Titan X Pascal GPU の60% の性能2.3x の性能 / 電力

Page 3: Abstracts of FPGA2017 papers (Temporary Version)

Accelerating Binarized Convolutional Neural Networks with Software-Programmable FPGAs C++ からの合成で BNN やってみた

SDSoC 2016.1Zynq 7Z020

44.2 GOPS/W

Page 4: Abstracts of FPGA2017 papers (Temporary Version)

Improving the Performance of OpenCL-based FPGA Accelerator for Convolutional Neural Network

CNN classifier kernel のボトルネック部分を解析オンチップメモリのバンド幅に着目OpenCL で実装VGG モデルベースの CNN を Arria10 で実装

Page 5: Abstracts of FPGA2017 papers (Temporary Version)

Frequency Domain Acceleration of Convolutional Neural Networks on CPU-FPGA Shared Memory System∗

畳み込み層の計算を減らすために FFT と Overlap-and-Add を利用共有メモリのデータレイアウトを工夫VGG16, AlexNet, GoogLeNet を 123.48GFLOPS, 83.00GFLOPS, 96.60GFLOPS

Intel Quick-Assist QPI FPGA Platform を使って評価

Page 6: Abstracts of FPGA2017 papers (Temporary Version)

Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep Convolutional Neural Networks CNN の畳み込み層では 3 次元 MAC が 4 レベルのループになる

CNN のメモリアクセスなどの実対象を解析,最適化する必要がある

メモリアクセスとメモリ移動を最小化,リソース使用量と性能を最大化

Arria10GX1150 に実装

VGG-16 CNN で 645.25GOPS , 47.97ms レイテンシを達成

State-of-the-art の 3.2x

Page 7: Abstracts of FPGA2017 papers (Temporary Version)

An OpenCLTM Deep Learning Accelerator on Arria 10

OpenCL 使ってデータ再利用と外部メモリバンド幅最小化を実現Intel FPGA SDK for OpenCL

Deep Learning Accelerator(DLA)AlexNetCNN ベンチマークで Arria10 使って 1020img/s , 23img/s/W-> 1382GFLOPS に相当(従来 FPGA の 8.4x の GFLOPS , 5.8x の効率化)23 img/s/W は nVidia の TitanX GPU と competitive

Page 8: Abstracts of FPGA2017 papers (Temporary Version)

FINN: A Framework for Fast, Scalable Binarized Neural Network Inference• FINN: 柔軟なヘテロジニアスストリーミングアーキテクチャを使って速く柔軟な

FPGA アクセラレータを構築するフレームワーク• ZC706 でトータル 25W のシステム• MNIST で 12.3M 画像 /s の分類.レイテンシ 0.31us ,精度 95.8%• CIFAR-10 と SVHN の 21906 画像 /s の分類.レイテンシ 283us ,精度はそれぞれ

801.% , 94.9%

Page 9: Abstracts of FPGA2017 papers (Temporary Version)

ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA

• Load-balance-aware pruning method で LSTM モデルのサイズを 1/20 に• 複数の PE に,圧縮モデルをエンコードと分割するスケジューラ• Efficient Speech Recognition Engine(ESE) と命名• XCKU060 に実装. 200MHz で動作. 282GOPS . 41W• Core i7 5930k と比べて 43x 高速,電力効率 40x• Pascal Titan X GPU と比べて 3x 高速,電力効率 11.5x

Page 10: Abstracts of FPGA2017 papers (Temporary Version)

Quality-Time Tradeoffs in Component-Specific Mapping:How to Train Your Dynamically Reconfigurable Array of Gates with Outrageous Network-delays • Component-specific 適用• A priori なデバイスの特徴とカスタマイズなしで FPGA 毎のマッピングをする• 48-77% のディレイ, 57% のエネルギー効率を 20 秒未満のマッピング時間で

Page 11: Abstracts of FPGA2017 papers (Temporary Version)

Synchronization Constraints for Interconnect Synthesis

インタコネクト合成.データ転送のサイクルレベルの同期を自動的に.FIFO ベースより 43% 少ない面積使用量になる

Page 12: Abstracts of FPGA2017 papers (Temporary Version)

Corolla: GPU-Accelerated FPGA Routing Based on Subgraph Dynamic Expansion

A GPU-accelerated FPGA routing methodGPU 向けの FPGA 内の最短パスアルゴリズムの適用を可能にする

FPGA ルーティングのカーネルは singole-source shortest path(SSSP) ソルバーである

Page 13: Abstracts of FPGA2017 papers (Temporary Version)

Don’t Forget the Memory: Automatic Block RAM Modelling, Optimization, and Architecture Exploration

BlockRAM を自動的に作る話SRAM と MTJ 技術の両方を使用面積,電力を最適化

Page 14: Abstracts of FPGA2017 papers (Temporary Version)

Automatic Construction of Program-Optimized FPGA Memory Networks

メモリレイテンシは設計時の重要ポイントメモリネットワークの最適化が性能向上のカギフィードバックドリブンのネットワークコンパイラを設計した45% の設計ゲインを達成要は LEAP の話

Page 15: Abstracts of FPGA2017 papers (Temporary Version)

NAND-NOR: A Compact, Fast, and Delay Balanced FPGA Logic Element

And-Inverter Cone(AIC) は LUT に対する代替として提案された性能とリソースユーティリゼーションを向上

Delay discrepancy problem がある設計手法が最適かされていない→ もっと最適な NAND-NOR と delay-balanced な dual-phased なマルチプレクサなアーキテクチャを提案するよ

Page 16: Abstracts of FPGA2017 papers (Temporary Version)

120-core microAptiv MIPS Overlay for the Terasic DE5-NET FPGA board

120-core 94MHz の MIPS プロセッサを作った軽量なメッセージパッシング機構で接続されるStratix V GX (5SGXEA7N2F45C2) に実装

Page 17: Abstracts of FPGA2017 papers (Temporary Version)

A Parallelized Iterative Improvement Approach to Area Optimization for LUT-Based Technology Mapping

ロジックマッピングとデバイスマッピングにはギャップがあるPIMap を提案面積を最小化すべくロジック変換とテクノロジーマッピングを反復的に行うEPFL ベンチに対して最大 14% ,平均で 7% 面積削減を達成

Page 18: Abstracts of FPGA2017 papers (Temporary Version)

A Parallel Bandit-Based Approach for Autotuning FPGA Compilation

合成ツールオプションの自動チューニングMulti-armed bandit(MAB) でオプションをチューニング

Page 19: Abstracts of FPGA2017 papers (Temporary Version)

Hardware Synthesis of Weakly Consistent C Concurrency

C からの高位合成で Lock-free アルゴリズムLegUp に sequentially consistent(SC) と weakly consistent(weak) atmics を導入循環バッファの実装で,ロックありの場合と比べて 2.5x 高速化Weak atomics はさらに 1.5x スピードアップ

Page 20: Abstracts of FPGA2017 papers (Temporary Version)

A New Approach to Automatic Memory Banking using Trace-Based Address Mining

TraceBanking を提案Trace-driven なアドレス最小化アルゴリズム顔検出アルゴリズムに対して area-efficient なメモリ分割を実現できた

コンパイルタイムの静的な最適化ではなアクセスパタンを明示的に指定する必要がない

Page 21: Abstracts of FPGA2017 papers (Temporary Version)

Dynamic Hazard Resolution for Pipelining Irregular Loops in High-Level Synthesis • HLS のパイプライニングは,規則的でスタティックなメモリアクセスパタンにはむいている -> infrequent data-dependent structural には有効ではない• イレギュラなループに対する高スループットのパイプライン化を実現する• コンパイル時にハザードを解決したアグレッシブなパイプラインを生成• Hazard Resolution Unit(HRU) を導入. D-HRU(data) と S-HUR(structure)

Page 22: Abstracts of FPGA2017 papers (Temporary Version)

Accelerating Face Detection on Programmable SoC Using C-Based Synthesis • HLS は進化してるけど現実的なベンチマークが不足している• Viola Jones アルゴリズムベースの顔検出アクセラレータのケーススタディ• ソフトウェアベースのデザインから HLS 特化データ構造と最適化を使った合成可能な実装への移植でわかったことをシェア• このデザインは 30FPS で,従来の RTL 設計と comparable である

Page 23: Abstracts of FPGA2017 papers (Temporary Version)

Packet Matching on FPGAs Using HMC Memory: Towards One Million Rules • Hybrid Memory Cube(HMC) を使った FPGA によるパケット分類• プリフェッチで HMC アクセスレイテンシを隠蔽しメモリからマッチングエンジンにルールを転送• Kintex Ultrascale 060 に実装. 160 パケットを並列に処理. 10Gbps ラインレートで約 1500 ルールを, 16Mbps ラインレートで 1M ルールを処理

Page 24: Abstracts of FPGA2017 papers (Temporary Version)

Boosting the Performance of FPGA-based Graph Processor using Hybrid Memory Cube: A Case for Breadth First Search• 巨大な実世界グラフを扱うのは難しい

• 単にフットプリントの問題だけでなくて,プアな局所性,アクセスレイテンシのため• HMC 使ってみた• HMC アクセスレイテンシと BFS( 幅優先探索 ) 性能に対する

定量的な評価のための解析的な性能モデルを開発

• 2-level bitmap scheme• Micron の AC-510 開発キットで評価.

• GRAPH500 ベンチマークで ( スケール 25/ ファクタ 16) で評価

• 166M edge traverced/s(MTEPS) を達成

Page 25: Abstracts of FPGA2017 papers (Temporary Version)

ForeGraph: Exploring Large-scale Graph Processing on Multi-FPGA Architecture

FPGA のオンチップメモリはランダムデータアクセスに高いスループット

単一の FPGA のオンチップメモリには制約がある

複数 FPGA を使った大規模グラフ処理エンジンを提案

Xilinx Virtex UltraScale XVCU190(VCU110 ボード ) を使用

YT,WK,LJ,TW,YH グラフに対して BFS,PR,WCC を処理

TW(41.7M Vertecies, 1.47M Edge) は 4FPGA で処理

State-of-the Art(PowerGraph) に対して 5.04x 高速化を達成

先行 FPGA に対して平均スループットで 2.03 倍を達成

Page 26: Abstracts of FPGA2017 papers (Temporary Version)

FPGA-Accelerated Transactional Execution of Graph Workloads

• 巨大グラフへのアクセスではメモリコンフリクトが起きる• スケーラブルなコンフリクト検出を示す• Intel Haswel とくらべて 2倍の性能向上, 22倍のエネルギー効率• FPGA Research Infrastructure Cloud[42] を利用

• http://www.openfabric.org

Page 27: Abstracts of FPGA2017 papers (Temporary Version)

Enabling Flexible Network FPGA Clusters in a Heterogeneous Cloud Data Center • ヘテロジニアスクラウドデータセンタで network FPGA クラスタを作るフレームワーク• FPGA カーネルがどうつながるかの論理的なカーネル定義で FPGA クラスタが作られる• OpenStack でマネジメントされる• GbE でつながっている

Page 28: Abstracts of FPGA2017 papers (Temporary Version)

Energy Efficient Scientific Computing on FPGAs using OpenCL

• Partial differential equations(PDE; 偏微分方程式 ) の効率的な実装が必要• FPGA のデータ並列性で PDE ソルバを• HDL は難しいので OpenCL で→でも難しい• OpenCL を使った PDE ソルバのための一般的で最適化の特価した包括的なセットを提案

Page 29: Abstracts of FPGA2017 papers (Temporary Version)

Secure Function Evaluation Using an FPGA Overlay Architecture

SFE 向けのハードウェアアクセラレータ一般的なリコンフィギャラブルハードウェア向きの粗粒度な FPGA オーバーレイアーキテクチャ

Page 30: Abstracts of FPGA2017 papers (Temporary Version)

FPGA Acceleration for Computational Glass-Free Displays

FPGA アクセラレーションをつかった eyeglasses-free ディスプレイSparse matrix-vector multiplicationL-BFGS iterative optimization algorithmglass-free ディスプレイアプリケーションで 12.78x の高速化

Page 31: Abstracts of FPGA2017 papers (Temporary Version)

Hardware Acceleration of the Pair-HMM Algorithm for DNA Variant Calling

Pair HMM forward アルゴリズムの FPGA での高速化リング構造の PE で ILP とデータ並列性を考慮して様々な構成をとるC++ ベースの CPU 実行とくらべて 487x 高速,ハードウェア実装と比べて 1.56x 高速