ザイリンクスデバイスでの INT8 に最適化したエン … › support ›...

© Copyright 2017 Xilinx, Inc. Xilinx、 Xilinx のロゴ、 Artix、 ISE、 Kintex、 Spartan、 Virtex、 Vivado、 Zynq、およびこの文書に含まれるその他の指定されたブランドは、米国およびその他各国のザイリンクス社の商標です。すべてのその他の商標は、それぞれの保有者に帰属します。

この資料は表記のバージョンの英語版を翻訳したもので、内容に相違が生じる場合には原文を優先します。資料によっては英語版の更新に対応していないものがあります。日本語版は参考用としてご使用の上、最新情報につきましては、必ず最新英語版をご参照ください。

WP490 (v1.0) 2017 年 3 月 10 日 japan.xilinx.com 1

ザイリンクスデバイスでの INT8 最適化により、深層学習推論と従来のコンピュータービジョン関数を使用するエンベデッドビジョンアプリケーションの演算手法において最適なパフォーマンスと最高水準の電力効率が実現します。ザイリンクスの統合 DSP アーキテクチャでは、 INT8 演算において、ほかの FPGA DSP アーキテクチャと比較してソリューションレベルで 1.75 倍のパフォーマンスが達成されます。

ホワイトペーパー : 16nm および 20nm の All Programmable デバイス

WP490 (v1.0) 2017 年 3 月 10 日

ザイリンクスデバイスでのINT8 に最適化した

エンベデッドビジョンの実装著者 : Yao Fu、 Ephrem Wu、 Varun Santhaseelan、

Kristof Denolf、 Kamran Khan、 Vinod Kathail

概要

この資料では、ザイリンクスの DSP48E2 スライスに実装された深層学習推論とコンピュータービジョン関数を使用するエンベッドビジョンアプリケーションにおける INT8 演算について考察し、ほかの FPGA との比較も行います。ザイリンクスの DSP アーキテクチャは、 INT8 累積乗算 (MACC) 演算において、リソース数が同じほかの FPGA と比較して、ソリューションレベルで最大 1.75 倍のパフォーマンスを達成できます。エンベデッドビジョンアプリケーションでは正確さを損なうことなく下位ビットの精度を利用するため、INT8 を効率的に実装する必要があります。

ザイリンクスの DSP アーキテクチャおよびライブラリは、 INT8 演算向けに最適化されています。この資料では、ザイリンクスの 16nm および 20nm の All Programmable デバイスの DSP48E2 スライスを使用して、同一のカーネルの重みを共有した 2 つの INT8 MACC 演算を同時に処理する方法について説明します。また、この手法を利用するために入力サイズとして 24 ビットが最小限である理由を論じます。この点がザイリンクス独自の発想です。さらに、基本の算術演算に DSP48E2 スライスを SIMD モードで使用する方法を詳しく説明します。深層学習またはその他のコンピュータービジョン処理タスクにおいて、これらの機能をどのようにエンベッドビジョンに利用できるかを示します。

https://japan.xilinx.com

http://japan.xilinx.com/about/feedback.html?docType=White_Papers&docId=WP490&Title=%26%2312470%3B%26%2312452%3B%26%2312522%3B%26%2312531%3B%26%2312463%3B%26%2312473%3B%20%26%2312487%3B%26%2312496%3B%26%2312452%3B%26%2312473%3B%26%2312391%3B%26%2312398%3B%20INT8%20%26%2312395%3B%26%2326368%3B%26%2336969%3B%26%2321270%3B%26%2312375%3B%26%2312383%3B%26%2312456%3B%26%2312531%3B%26%2312505%3B%26%2312487%3B%26%2312483%3B%26%2312489%3B%20%26%2312499%3B%26%2312472%3B%26%2312519%3B%26%2312531%3B%26%2312398%3B%26%2323455%3B%26%2335013%3B&releaseVersion=1.0&docPage=1


ザイリンクスデバイスでの INT8 に最適化したエンベデッドビジョンの実装

INT8 による深層学習およびコンピュータービジョンエンベデッドビジョンとは、実世界に対応するコンピュータービジョンアルゴリズムをエンベデッドプラットフォームに実装することです。コンピュータービジョンアルゴリズムは近年飛躍的に向上してきましたが、この複雑で計算負荷の高いアルゴリズムを消費電力が少ないエンベデッドプラットフォームに移植することは大きな課題です。アルゴリズムはフィルタリングやコーナー検出などの従来のコンピュータービジョン向けまたは深層学習向けであるかにかかわらず、常により多くの演算をより少ない消費電力で処理する必要があります。

深層ニューラルネットワークは、より多くのアプリケーションにおける改革を推進し、人間レベルの人口知能の機能を刷新してきました。このネットワークは、各種アルゴリズムによってより優れた精度が提供されるため、エンベデッドデバイスにおける主要なワークロードとなります。深層学習モデルの精度の向上に伴い、その複雑さに対応するため、高い演算能力と広いメモリ帯域幅が必要とされています。演算密度とメモリ帯域幅を抑えつつ精度とスループットを確保できる新たな深層学習推論モデルの開発では、電力効率が革新の推進力となっています。このオーバーヘッドを削減することが、最終的には電力効率の向上と、必要な総消費電力の節減につながります。

演算時の総消費電力の節減に加えて、演算のビット幅が小さい方が、メモリ帯域幅に必要な消費電力も低減できます。これは、同量のメモリトランザクションでより少ないビットが転送されるからです。

深層学習推論においては、同じレベルの精度を確保するために浮動小数点演算は不要であることが研究により判明しています [参照 1] [参照 2] [参照 3]。また、画像分類など数多くのアプリケーションで推論の許容精度を確保するために必要なのは、INT8 以下の固定小数点演算精度に過ぎません [参照 2] [参照 3]。表 1 に、微調整されたネットワークでの、たたみ込み層と完全接続層での固定小数点の動的なパラメーターと出力を示します。かっこ内の数値は微調整なしの精度を示します。

深層学習用の INT8 演算の最適化は、大規模な一連の従来型コンピュータービジョン関数にも直接適用できます。これらのアルゴリズムは、通常は 8 ビットから 16 ビットの整数表現で動作します。最近提案されたコンピュータービジョンの規格である OpenVX [参照 4] は、チャネルごとに INT8 表現法の使用を指定しています。ほとんどのコンピュータービジョンアプリケーションではある程度のフィルタリングを必要としますが、これは一連のドット積演算に分解できます。ザイリンクス DSP48E2 スライスでの SIMD モードの演算では、ビジョンアルゴリズムに関係する演算を実装するための追加のオプションがあります。

表 1: 固定小数点精度での CNN モデル

層出力CONV

パラメーター

FC パラメーター

32 ビット浮動小数点ベースライン

固定小数点精度

LeNet (Exp1) 4 ビット 4 ビット 4 ビット 99.1% 99.0% (98.7%)

LeNet (Exp2) 4 ビット 2 ビット 2 ビット 99.1% 98.8% (98.0%)

フル CIFAR-10 8 ビット 8 ビット 8 ビット 81.7% 81.4% (80.6%)

SqueezeNet top-1 8 ビット 8 ビット 8 ビット 57.7% 57.1% (55.2%)

CaffeNet top-1 8 ビット 8 ビット 8 ビット 56.9% 56.0% (55.8%)

GoogLeNet top-1 8 ビット 8 ビット 8 ビット 68.9% 66.6% (66.1%)





ザイリンクス DSP スライスでの INT8 演算ザイリンクスの DSP48E2 スライス (UltraScale と UltraScale+ の FPGA、および Zynq UltraScale+ MPSoC (プログラマブルロジック )) は、 1 つの積和演算で、 1 クロックサイクル内に最大で 18x27 ビットの乗算と最大で 48 ビットの累算を効率的に実行するように設計されています。図 1 を参照してください。その DSP スライス自体にループバックすることにより、または複数の DSP48E2 スライスをチェーン接続することにより、ザイリンクスデバイスでは累積乗算 (MACC) を効率的に実行できます。

INT8 演算では、基本的に 27 ビット幅という広い幅が使用されます。従来の利用法では、 (A+B) x C タイプの演算を効率的に実装するために通常は前置加算器が利用されますが、このタイプの演算は、深層学習およびコンピュータービジョンアプリケーションにはあまり見られません。(A+B) x C の結果を A x C と B x C に分けることで、累算を個別のデータフローで実行できます。これにより、深層学習やコンピュータービジョンに関連する一般的な演算に適合できます。

18x27 ビット乗算器を備えていることは、 INT8 MACC 演算にとってメリットです。 1 つの DSP48E2 スライスで 2 つの INT8 MACC を同時に実行するには、乗算器への入力の少なくとも 1 つが最低でも 24 ビットで、キャリーアキュムレータが 32 ビットであることが必要です。 27 ビットの入力と 48 ビットのアキュムレータを組み合わせることにより、ソリューションのパフォーマンスが 1.75 倍に向上しました (INT8 MACC に対する DSP 乗算器の比が 1.75:1)。ほかのベンダーの FPGA では 1 つの DSP ブロックに 18x19 乗算器があるのみで、 INT8 MACC に対する DSP 乗算器の比は 1:1 に限定されています。

スケーラブルな INT8 最適化

目標は、入力 a、 b、 c の間の乗算結果を a x c と b x c に容易に分けることができるように、 a、 b、 c を効率的にエンコードする方法を見つけることです。共通の入力を c とすると、この技法は、単一命令の、共通係数を持つ 2 つのデータと表現できます。

INT8 乗算などの減精度演算では、より精度の高い 10 ビットまたは 19 ビットの入力は 0 または 1 で埋められており、運んでいる情報は 1 ビットのみです。これは、 45 ビットの最終の積の上位 29 ビットでも同じです。そのため、下位の 8 ビットおよび 16 ビットの入力結果に影響を与えずに、上位 19 ビットを使用して別の演算を実行することが可能です。

X-Ref Target - Figure 1

図 1: MACC モードでの DSP48E2 スライス

WP490_01_03

b B

AccumulatedResults

Accumulated resultsloopback or forwardto next DSP

C

D

a A

18 x 27

PatternDetect

W

ALU

Out

put R

egis

ters





未使用の上位ビットを別の演算に利用する際は、一般的に次の 2 つのルールに従う必要があります。

1. 上位ビットが下位ビットの演算に影響を与えてはならない。

2. 下位ビットの演算により上位ビットに影響が生じた場合の検出および回復が可能でなければならない。

上記のルールを満たすため、上位の積の結果の最下位ビットが下位 16 ビットに入らないようにする必要があります。つまり、上位ビットの入力は少なくとも第 17 ビットから始める必要があります。上位が 8 ビットの入力の場合、合計入力サイズは最小で 16 + 8 = 24 ビットが必要です。この 24 ビットの最小入力サイズで保証できるのは、 1 つの乗算器での 2 つの同時乗算のみです。これでは、全体で 1.75 倍の MACC スループットを達成するのに十分ではありません。

1 つの DSP48E2 スライスで ac と bc を並列に計算する手順を次に示します。ここではスライスが 27 ビット前置加算器 (入力も出力も 27 ビット幅) と 27x18 乗算器を持つ演算ユニットとして使用されています。詳細は、図 2 を参照してください。

1. 8 ビットの入力 a と b は、前置加算器を通して DSP48E2 乗算器の 27 ビットポート p にパックされます。これにより、 2 ビットのベクターはできるだけ遠ざけられます。入力 a は 18 ビットだけ左シフトされます。これは、 b < 0 かつ a = –128 である場合に前置加算器でのオーバーフローを防ぐために、最初の項から 27 ビット内に 2 つの符号ビット a を生成するためです。 a のシフト量が 18 であること、つまり DSP48E2 乗算器ポート B の幅は偶然です。

2. パックされた 27 ビットポート p と 18 ビットの c で表される 8 ビット係数の積を 2 の補数フォーマットで計算するために、 DSP48E2 27x18 乗算器が使用されます。この 45 ビットの積は、 2 つの 44 ビット項の和を 2 の補数フォーマットで表したものになります。つまり、 18 ビットだけ左シフトされた ac と bc です。

上述の 45 ビットの積を累算するために後置加算器を使用できます。この積には、上位と下位に分割可能な積項が含まれています。上位項と下位項に対して正しい累算が実行され、単一の 45 ビットの積が累算されます。最終的な累算結果は、オーバーフローが生じていなければ、単純な演算で分割できます。

この手法の限界は、各 DSP48E2 スライスで累算できる積項の数にあります。上位と下位の積項の間には 2 ビットが残っているため (図 3 参照)、下位ビットにオーバーフローを生じさせることなく累算を保証できる積項の数は、最大で 7 つまでです。積項の数が 7 つを超えた場合にこの限界を広げるには、追加の DSP48E2 スライスが必要です。結果として、この 8 つの DSP48E2 スライスは 7x2 INT8 乗算/加算演算を実行します。これは、同じ数の乗算器を持つ競合デバイスと比較して 1.75 倍の INT8 MACC 演算です。


図 2: 8 ビット最適化

WP490_02_020317

c B

AccumulatedResults

Accumulated resultsloopback or forwardto next DSP

C

D

a <<18 A

18 x 27

PatternDetect

W

ALU

Out

put R

egis

ters

b

p





この手法には、実際のユースケースの要件に応じて幅広く応用可能です。 ReLU (正規化線形関数) を使用したたたみ込みニューラルネットワーク (CNN) では、非負のアクティベーションが生成され、符号なしの INT8 フォーマットでは 1 ビットだけ精度が増して、ピークスループットが 1.75 倍に向上します。

DSP48E2 SIMD モード

DSP48E2 スライスの後置加算器は、 4 つの 12 ビット SIMD ALU または 2 つの 24 ビット SIMD ALU に分割され (図 4 を参照)、加算、減算、累算、またはビット単位論理演算を並列で実行します。 SIMD モードでは、 DSP48E2 スライスの前置加算器および乗算器は使用できません。サイクルベースで、 ALUMODE[3:0] コントロールバスは演算を選択し、 OPMODE[8:0] コントロールバスはオペランド W、 X、 Y、 Z を選択します。 24 ビット演算の場合、 DSP48E2 スライスの P レジスタに 2 つの入力アレイの処理結果を格納できます。各アレイについて、サイクルごとに 1 エレメントずつ合計の計算が順次実行されます。したがって、スループットはサイクルごとに 2 つの新しい結果になります。詳細は、『UltraScale アーキテクチャ DSP スライスユーザーガイド』 (キーワード「SIMD」、「ALUMODE」、「OPMODE」 ) (UG579) [参照 5] を参照してください。


図 3: 1 つの DSP48E2 スライスでの 2 つの INT8 乗算のパック

WP490_03_020317

+

+

+

+

=

=

a[0]a[7] . . . . . .

c[0]c[7] . . . . . .

ac[0]ac[15] . . . . . .... . . . . .

bc[0]bc[15] . . . . . .... . . . . .

ac[0]ac[15] . . . . . .... . . . . .

0x0. . . . . .... . . . . .0x0 . ...a[7] . . . . a[0]x

b[0]. . . . . .... . . b[7] b[7] b[7]. . .... . . . . .b[7]

c[0]. . . . . .... . . 0x0 0x0 c[7]. . .... . . . . .0x0

bc[0]. . . . . .... . . . . .bc[15]bc[15] .ac[0]ac[15] ... . . . .... . . . . bc[15]

+

=

b[0]b[7] . . . . . .

c[0]c[7] . . . . . .

bc[0]bc[15] . . . . . .... . . . . .





INT8 最適化の深層学習アプリケーションへの応用最新のニューラルネットワークの多くは、元来のパーセプトロンモデルから派生しています [参照 6]。詳細は、図 5 を参照してください。

深層ニューラルネットワーク (DNN) とも呼ばれる最新の深層学習の基本的な演算は、標準的なパーセプトロン構造から大きく進歩したとは言え、未だにパーセプトロン的な演算を継承しています。ただし、パーセプトロン構造は全体としてより広く、また、より深く積み重なっています。図 5 ではパーセプトロンの基本的な演算を示しています。この演算は複数の層を介して典型的な深層学習推論ごとに究極的には数百万回から数十億回繰り返されます。


図 4: DSP48E2 のデュアル 24 ビット SIMD モード

WP490_04_020917

X

Y

W

Z

0

P

0

1

PCIN

P

C

A:B

C

0

P

RND

CQ

0

[47:0]

P[47:24], CARRYOUT[3]

P[23:0], CARRYOUT[1]

ALUMODE[3:0]

[47:24]

[47:0]

[47:0]

[47:0] [23:0]


図 5: パーセプトロンと深層ニューラルネットワーク

a1

an

w1

wi

wn

∑

w01

Activation Function

WP490_05_020317

Perceptron

ai

an

oj

om

o1a1

Deep Neural Networks

......

......

......

......

...

Convolution

Fully Connected

Input

Input

Output

Output

Input Output

Recurrent

Neural Network Layer

Sum of Product Terms(Dot Product of Vectors A and W)

ai





図 6 に示すように、ニューラルネットワークのある層における m 個のパーセプトロン/ニューロン出力

のそれぞれを計算するための主要な操作は、 n 個の入力サンプル

を取り込み、各入力を対応する次のカーネル重みで乗じて、

その結果を累算します。

ここで、 f(x) は任意のアクティベーション関数です。

との精度が INT8 に制限される場合、この積和は、 INT8 最適化手法で記述した並列の MACC の最初のものになります。

2 番目の積和では同じ入力を使用しますが、別の一連のカーネル重みを使用します。

2 番目のパーセプトロン/ニューロン出力の結果は次のようになります。

詳細は、図 7 を参照してください。


図 6: 深層学習におけるパーセプトロン

WP490_06_020317

a1

ai

Sum of product terms: a1w1,j + ... + aiwi,j + ... + anwn,j + w0

an

O1

Oj

Om

w1,j

wi,j

wn,j

Output/Next Layer

Input/Last Layer





INT8 最適化手法を使用しての値を 18 ビット左シフトすることで、各 DSP48E2 スライスでは最終出力値の一部となる独

立した部分が生成されます。各 DSP48E2 スライスのアキュムレータのビット幅は 48 ビットであり、次のスライスにチェーン

接続されます。これにより、チェーン接続したブロックの数は 7 に制限されます。これを超えると、シフトされたが飽

和して演算に影響します。つまり、合計 n 個の入力サンプルに対して n 個の DSP スライスで MACC は 2n 個になります。

標準的な DNN の各層には数百から数千の入力サンプルがあります。ただし、 7 項を累算した後は、 48 ビットのアキュムレータの下位の項が飽和する可能性があるため、 7 項の和ごとに DSP48E2 スライスが追加で必要になります。これは、 14 の MACC が、 7 つの DSP48E2 スライスと、過飽和を防ぐためのもう 1 つの DSP48E2 スライスで得られることを意味します。結果として、スループットが 7/4、つまり 1.75 倍に向上します。

たたみ込みニューラルネットワーク (CNN) では通常、たたみ込み層で同一の重みが頻繁に再利用されて、 a x w および b x w というタイプの並列 MACC 演算を形成します。したがって、入力の共有に代えて重みの共有も利用できます (図 8 参照)。


図 7: 共通の入力を使用した並列の 2 つの積和項

an

ok

om

o1a1

......

......

...ai

ojInput/Last Layer

Output/Next Layer

WP490_07_020317





INT8 でチェーン接続した MACC を作成するその他の方法

INT8 でチェーン接続した MACC は、使用可能な LUT (デザインのほかの部分で使用されていない LUT) を利用して、DSP48E2 スライスに近い周波数で動作するプログラマブルロジック内に構築することもできます。

使用可能な LUT を利用することで、深層学習のパフォーマンスは大幅に向上させることができ、場合によっては 3 倍になります。 FPGA 以外のほかのアーキテクチャでは多くの場合、使用可能な深層学習演算の実行時に、こうした利用可能な演算リソースが考慮の対象になりません。

ザイリンクスの FPGA および MPSoC のプログラマブルロジックは、さまざまなワークロードを同時かつ効率的に処理できるという点で独特です。たとえば、ザイリンクスの FPGA および MPSoC では、 CNN 画像の分類、ネットワークでの暗号化、データの圧縮を同時に実行できます。この深層学習パフォーマンスの競合分析において、 MACC LUT は考慮に入れていません。これは LUT が通常、 MACC 機能の実行よりも、その他の並行機能の実行に使用した方が有用だからです。


図 8: 重みの共有と入力の共有の比較

13

13

256

WP490_08_020617

Input Feature Maps (IFMs) Out Feature Maps (OFMs)256 Kernel Weights

13

33

13

384

384W

ab

13

13

256

Input Feature Maps (IFMs) Out Feature Maps (OFMs)256 Kernel Weights

13

33

13

384

384Wj

a

a. Weight Sharing: Compute two OFM samples in parallel

b. Input Sharing: Compute two OFMs in parallel

Wk





INT8 最適化のコンピュータービジョン関数への応用Khronos OpenVX 規格では、顔、身体、身体動作の追跡、スマートビデオ監視、先進運転支援システム (ADAS)、オブジェクトとシーンの再構築、拡張現実、外観検査、ロボット工学などのユースケースにおいて特に重要な一連のコンピュータービジョン処理モジュールが定義されています。表 2 に、 INT8 最適化を適用できるコンピュータービジョン関連の関数を示します。

表 2: コンピュータービジョン関数に適用可能な INT8 最適化

画像/ビジョン処理ベンチマークコンポーネント

OpenVX OpenCV スケーラブルな INT8 互換

SIMD 互換

ピクセルレベル: 空間フィルタリングおよび幾何学的空間の変換

絶対値差分 AbsDiff absDiff – ○

画像累積 AccumulateImage accumulate – ○

重み付け累積 AccumulateWeightedImage accumulateWeighted ○ –

算術加算 Add add – ○

算術減算 Substract subtract – ○

ビット単位の And、 Or、 Xor、 Not

And、 Or、 Xor、 Notbitwise_and、 bitwise_or、bitwise_xor、 bitwise_not

– ○

しきい値 Threshold threshold – ○

ボックスフィルター Box3x3 boxFilter ○ –

フィルター 2D (たたみ込み)

Convolve filter2D ○ –

膨張フィルター (形態)、最大

Dilate3x3 dilate – ○

縮小フィルター (形態)、最大

Erode3x3 erode – ○

ガウシアンフィルター Gaussian3x3 GaussianBlur ○ –

ガウシアンピラミッド GaussianPyramid buildPyramid ○ –

ラプラスピラミッド LaplacianPyramid ○ –

メディアン Median3x3 medianBlur ○

Sobel Sobel3x3 Sobel ○ –

スケーリング HalfScaleGaussian、 ScaleImage resize ○ –

オプティカルフロー OpticalFlowPyrLK PyrLKOpticalFlow ○ –

ステレオ視差 (SBM または SGM)

なし FindStereoCorrespondenceBM ○ –

解析および認識

積分画像 IntegralImage integral – ○

平均値標準偏差 MeanStdDev meanStddev – ○

最小/最大ロケーション MinMaxLoc minMaxLoc – ○

Canny エッジ検出 CannyEdgeDetector Canny ○ Y

FAST9 コーナー検出 FastCorners FAST ○ –

Harris コーナー検出 HarrisCorners cornerHarris ○ –

ORB (Oriented FAST and Rotated BRIEF)

特徴検出器なし ORB::ORB – ○





スケーラブルな INT8 最適化では、共有する係数で 2 つのデータを同時に処理するための互換性をチェックします。 SIMD は、DSP48E2 スライス内の 4 つのオペランド演算子の利点を活かすことができるモジュールをチェックします。データと重みが 8 ビット制限を順守するすべてのフィルター関連モジュールは、スケーラブルな INT8 技法の利点を活かすことができます。基本の画像演算 (加算/減算、比較など) に関係するほかのモジュールはほとんど、 DSP48E2 の SIMD 演算を活用できます。

スケーラブルな INT8 最適化を使用するカスタム 2D たたみ込み

コンピュータービジョン関数の場合、大半の事前処理タスクである程度のフィルタリングが必要になります。画像はたいていチャネルあたり 8 ビットで表されるため、深層学習アプリケーションにおける INT8 演算の最適化は、画像処理における 2 次元フィルタリング演算に適用できます。唯一の制約は、フィルター内の係数が 8 ビットの精度でなければならないということです。これは一般に、 Sobel、 Scharr、 Laplacian などの一般的なエッジ検出フィルターに当てはまります。

DSP48E2 スライスの 2 乗算器モードは、次のいずれかの技法を使用して利用できます。

同じチャネルの出力の複数ピクセルに対する演算処理: このモードでは、 2 つの出力ピクセルを並列で演算処理できます。フィルターの係数は画像内の複数のピクセルで共有されているため、ロケーション (x,y) および (x,y+1) のピクセルを同時に計算できます。各フィルターの係数は、フィルター計算の実行順序に応じて、 2 つの異なる入力ピクセルで乗算されます。つまり、プログラマブルロジックで使用可能な量と同じリソースにより、 1.75 倍までパフォーマンスが向上します。

異なるチャネルまたは画像の出力の複数ピクセルに対する演算処理: 処理される画像にチャネルが複数あり、異なるチャネル間でフィルターを共有する場合には、同じロケーション (x,y) のピクセルに対してフィルターの係数を複数のチャネル間で共有できます。同じ技法を、複数の画像に対する同時演算処理にも利用できます。

HOG 検出/ディスクリプター

なし HOGDescriptor ○ –

SVM なし CvSVM::predict ○ –

表 2: コンピュータービジョン関数に適用可能な INT8 最適化 (続き)

画像/ビジョン処理ベンチマークコンポーネント

OpenVX OpenCV スケーラブルな INT8 互換

SIMD 互換





SIMD 演算を使用するメディアンフィルター

メディアンフィルターも画像処理では一般的であり、ノイズ除去に使用されます。画像に対してメディアンフィルターを使用するには、プリセットサイズのウィンドウで画像をスキャンし、そのウィンドウに収まるピクセルの中央値を計算し、中央のピクセルをその中央値で置き換えます。中央値の計算は負荷が高く、値をソートした後にリストの中央に位置する値を検出します。ソートは、一連の比較演算で行われます。

プログラマブルロジックで DSP を使用してメディアンフィルターを実装するために、アルゴリズムを変更できます。各比較演算は、減算と、それに続く符号ビットのチェックに分割できます。 DSP48E2 スライスは、減算ではクワッド 12 ビットまたはデュアル 24 ビットモードで動作できます。 DSP48E2 スライスを十分に活用するために、複数のピクセルを並列で演算処理できます。各ピクセルに 12 ビット未満の深さの単一チャネルを使用する場合、 4 つの出力ピクセルを同時に処理できます。各出力ピクセルでは、 DSP48E2 スライスの減算で使用されるソート演算が複数あります。結果の符号ビットは、 DSP48E2 スライスの外部で最小のロジックによってチェックできます。比較の合計数は、値のソートに使用したアルゴリズムに応じて異なります。


図 9: メディアンフィルターに用いる DSP48E2 動作モード

WP490_09_020917

PRND

Q

0

[47:0]

[47:0]

1C

0

A:BP

0

[47:0]

PCINPC

0

[47:0]

P [47:36]

[47:36]

P [35:24]

[35:24]

P [23:12]

[23:12]

P [11:0]

[11:0]

ALUMODE[3:0]

W

X

Y

Z





競合分析この競合分析では、 Intel 社の (以前は Altera 社の) Arria 10 デバイスとザイリンクスの Zynq® UltraScale+™ MPSoC を比較しています。エンベデッドビジョンアプリケーションにおけるこの計算効率を比較すると、選択された次のデバイスの DSP 集積度とデバイス消費電力は同等です。

• Arria 10 SoC: SX220、 SX270、 SX480

• Zynq UltraScale+ MPSoC: ZU3、 ZU7、 ZU9 デバイス

比較では、深層学習やコンピュータービジョンなど数多くのアプリケーションで使用できる汎用 MACC のパフォーマンスに焦点を当てています。

Intel 社の MACC パフォーマンスは、前置加算器を活用した演算子に基づいています。ただし、この実装で生成されるのは、積項の和であり、個々の独立した積項ではありません。結果的に Intel 社の前置加算器は、深層学習またはコンピュータービジョン向けの効率的な演算には適していません。

この計算効率分析での各デバイスの消費電力は、ザイリンクスの 2016.4 Power Estimator ツールおよび Intel 社の 16.0.1 EPE Power Estimate ツールを使用して、次の前提で見積りました。

1. DSP 使用率: 90%

2. Intel デバイス -2L、 0.9V (FMAX)

3. ザイリンクスデバイス -1L、 0.72V (FMAX)

4. クロックレート DSP FMAX でのロジック使用率: 70%

5. 半分のクロックレート DSP FMAX でのブロック RAM 使用率: 90%

6. DSP トグルレート : 12.5%

7. 消費電力特性評価: 「標準消費電力」

図 10 は、深層学習とコンピュータービジョンの演算における電力効率を比較したものです。深層学習およびコンピュータービジョンの演算において、ザイリンクスデバイスは Intel 社の Arria 10 SoC デバイスと比較して 3 倍から 7 倍高い計算効率を実現します。





まとめこのホワイトペーパーでは、ザイリンクスの DSP48E2 スライスが INT8 深層学習演算およびコンピュータービジョンに最適であり、 1.75 倍のパフォーマンスを達成できることについて論じました。深層学習では、ザイリンクスの DSP48E2 スライスを使用すると、同一のカーネル重みを共有して 2 つの INT8 MACC 演算を同時に実行できます。 INT8 を効率良く実装するには、 24 ビットの入力幅が必要です。この利点をサポートしているのは、ザイリンクスの DSP48E2 スライスのみです。この利点は、コンピュータービジョンでのフィルタリングなどの演算やその他のイメージ操作タスクにも利用できます。ザイリンクスの DSP48E2 スライスの SIMD モードにより、 4 つの 12 ビット SIMD または 2 つの 24 ビット SIMD 操作を実行する手段がさらに追加されます。

要約すると、ザイリンクスの Zynq UltraScale+ MPSoC は INT8 ワークロードに大変適しており、エンベデッドビジョンでの多数のアプリケーションを推進するための非常に優れた選択肢です。ザイリンクスは、今後もエンベデッドビジョン応用分野での深層学習およびコンピュータービジョンの機能を促進するためにハードウェアおよびソフトウェアに基づく新たなメソドロジを開拓していきます。

ザイリンクスデバイスでのエンベデッドビジョンの詳細は、次のサイトを参照してください。

https://japan.xilinx.com/products/design-tools/embedded-vision-zone.html


図 10: INT8 深層学習およびコンピュータービジョンでの電力効率の比較: ザイリンクスと Intel 社

45

Arria 10 SoCSX220

Arria 10 SoCSX270

Arria 10 SoCSX480

XilinxZU3

XilinxZU7

XilinxZU9

150

500

400

300

GO

Ps/

Wat

t

200

100

0

165

340

441481

https://japan.xilinx.com/products/design-tools/embedded-vision-zone.html





参考資料注記: 日本語版のバージョンは、英語版より古い場合があります。

1. Dettmers、『8-Bit Approximations for Parallelism in Deep Learning』、 ICLR 2016 https://arxiv.org/pdf/1511.04561.pdf

2. Gysel ほか、『Hardware-oriented Approximation of Convolutional Neural Networks』、 ICLR 2016 https://arxiv.org/pdf/1604.03168v3.pdf

3. Han ほか、『Deep Compression: Compressing Deep Neural Networks With Pruning, Trained Quantization And Huffman Coding』、ICLR 2016https://arxiv.org/pdf/1510.00149v5.pdf

4. Khronos Group、 https://www.khronos.org/openvx/

5. 『UltraScale アーキテクチャ DSP スライスユーザーガイド』 (UG579: 英語版、日本語版)

6. F. Rosenblatt、『The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain』、Psychological Review 第 65 巻、 No. 6、 1958http://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf

改訂履歴次の表に、この文書の改訂履歴を示します。

免責事項本通知に基づいて貴殿または貴社 (本通知の被通知者が個人の場合には「貴殿」、法人その他の団体の場合には「貴社」。以下同じ ) に開示され

る情報 (以下「本情報」といいます) は、ザイリンクスの製品を選択および使用することのためにのみ提供されます。適用される法律が許容す

る最大限の範囲で、 (1) 本情報は「現状有姿」、およびすべて受領者の責任で (with all faults) という状態で提供され、ザイリンクスは、本通知

をもって、明示、黙示、法定を問わず (商品性、非侵害、特定目的適合性の保証を含みますがこれらに限られません)、すべての保証および条

件を負わない (否認する ) ものとします。また、 (2) ザイリンクスは、本情報 (貴殿または貴社による本情報の使用を含む) に関係し、起因し、関

連する、いかなる種類・性質の損失または損害についても、責任を負わない (契約上、不法行為上 (過失の場合を含む)、その他のいかなる責任

の法理によるかを問わない) ものとし、当該損失または損害には、直接、間接、特別、付随的、結果的な損失または損害 (第三者が起こした行

為の結果被った、データ、利益、業務上の信用の損失、その他あらゆる種類の損失や損害を含みます) が含まれるものとし、それは、たとえ

当該損害や損失が合理的に予見可能であったり、ザイリンクスがそれらの可能性について助言を受けていた場合であったとしても同様です。

ザイリンクスは、本情報に含まれるいかなる誤りも訂正する義務を負わず、本情報または製品仕様のアップデートを貴殿または貴社に知らせ

る義務も負いません。事前の書面による同意のない限り、貴殿または貴社は本情報を再生産、変更、頒布、または公に展示してはなりません。

一定の製品は、ザイリンクスの限定的保証の諸条件に従うこととなるので https://japan.xilinx.com/legal.htm#tos で見られるザイリンクスの販売

条件を参照してください。 IP コアは、ザイリンクスが貴殿または貴社に付与したライセンスに含まれる保証と補助的条件に従うことになりま

す。ザイリンクスの製品は、フェイルセーフとして、または、フェイルセーフの動作を要求するアプリケーションに使用するために、設計さ

れたり意図されたりしていません。そのような重大なアプリケーションにザイリンクスの製品を使用する場合のリスクと責任は、貴殿または

貴社が単独で負うものです。 http://japan.xilinx.com/ legal.htm#tos で見られるザイリンクスの販売条件を参照してください。

自動車用のアプリケーションの免責条項オートモーティブ製品 (製品番号に「XA」が含まれる ) は、 ISO 26262 自動車用機能安全規格に従った安全コンセプトまたは余剰性の機能 (「セーフティ設計」 ) がない限り、エアバッグの展開における使用または車両の制御に影響するアプリケーション ( 「セーフティアプリケーショ

ン」 ) における使用は保証されていません。顧客は、製品を組み込むすべてのシステムについて、その使用前または提供前に安全を目的とし

て十分なテストを行うものとします。セーフティ設計なしにセーフティアプリケーションで製品を使用するリスクはすべて顧客が負い、製品

の責任の制限を規定する適用法令および規則にのみ従うものとします。

この資料に関するフィードバックおよびリンクなどの問題につきましては、 [email protected] まで、または各ページの右下にある

[フィードバック送信] ボタンをクリックすると表示されるフォームからお知らせください。いただきましたご意見を参考に早急に対応させて

いただきます。なお、このメールアドレスへのお問い合わせは受け付けておりません。あらかじめご了承ください。

日付バージョン内容

2017 年 3 月 10 日 1.0 初版

mailto:[email protected]

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=user_guides;d=ug579-ultrascale-dsp.pdf

https://arxiv.org/pdf/1511.04561.pdf

https://arxiv.org/pdf/1604.03168v3.pdf

https://arxiv.org/pdf/1510.00149v5.pdf

https://www.khronos.org/openvx/

https://japan.xilinx.com/support/documentation/user_guides/j_ug579-ultrascale-dsp.pdf

http://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf

http://japan.xilinx.com/legal.htm#tos

http://japan.xilinx.com/legal.htm#tos

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=user_guides;d=j_ug579-ultrascale-dsp.pdf



ザイリンクスデバイスでの INT8 に最適化したエン … › support ›...

Documents

Transcript of ザイリンクスデバイスでの INT8 に最適化したエン … › support ›...

ザイリンクス デバイスでの INT8 に最適化したエン … › support ›...

Documents

Transcript of ザイリンクス デバイスでの INT8 に最適化したエン … › support ›...

ザイリンクスデバイスでの INT8 に最適化したエン … › support ›...

Transcript of ザイリンクスデバイスでの INT8 に最適化したエン … › support ›...