UltraFast 高生産性設計手法ガイド - Xilinx...UltraFast 高生産性設計手法ガイド...

UltraFast 高生産性設計手法ガイド

UG1197 (v2019.2) 2020 年 1 月 6 日

この資料は表記のバージョンの英語版を翻訳したもので、内容に相違が生じる場合には原文を優先します。資料によっては英語版の更新に対応していないものがあります。日本語版は参考用としてご使用の上、最新情報につきましては、必ず最新英語版をご参照ください。

UltraFast 高生産性設計手法ガイド 2UG1197 (v2019.2) 2020 年 1 月 6 日 japan.xilinx.com

改訂履歴

次の表に、この文書の改訂履歴を示します。

セクション改訂内容

2020 年 1 月 6 日バージョン 2019.2

資料全体図をアップデート。

2019 年 5 月 22 日バージョン 2019.1

「Vivado HLS のデザインフロー」 Vivado HLS のデザインフロー図をアップデート。

https://japan.xilinx.com

https://japan.xilinx.com/about/feedback/document-feedback.html?docType=Methodology_Guides&docId=UG1197&Title=UltraFast%20%26%2339640%3B%26%2329983%3B%26%2329987%3B%26%2324615%3B%26%2335373%3B%26%2335336%3B%26%2325163%3B%26%2327861%3B%26%2312460%3B%26%2312452%3B%26%2312489%3B&releaseVersion=2019.2&docPage=2

目次

改訂履歴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

第 1 章: 高生産性設計手法このガイドについて . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

新しい設計手法の必要性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

設計プロセス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

資料およびトレーニングへのアクセス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

第 2 章: システムデザイン概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

システムの分割 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

システム開発 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

第 3 章: シェル開発概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

シェルデザイン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

シェルの検証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

第 4 章: C ベース IP の開発概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

高速 C 検証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

合成の C 言語サポート . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

ハードウェア最適化済み C ライブラリの使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Vivado HLS の理解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

最適化手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

最適化ストラテジ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

RTL 検証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

IP パッケージ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

デザイン解析および最適化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

第 5 章: システム統合概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

初期システム統合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

システム統合の自動化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

将来のための設計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

付録 A: その他のリソースおよび法的通知ザイリンクスリソース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

ソリューションセンター . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Documentation Navigator およびデザインハブ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

参考資料 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64




トレーニングリソース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

お読みください: 重要な法的通知 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65




第 1 章

高生産性設計手法

このガイドについて

ザイリンクスのプログラマブルデバイスには、数百万ものロジックセル (LC) が含まれており、近年市場を伸ばし続

けている複雑な電子システムが統合されています。高生産性設計手法は、このような複雑なシステムを短いデザイン

サイクルで作成できるようにするためのベストプラクティスを提供します。

この設計手法には、次の特徴があります。

• 市場で製品を差別化する付加価値の高いカスタムロジックと、カスタムロジックをエコシステムの残りの部分

に統合するのに使用されるシェルを同時に開発する並列開発フローを使用。

• カスタムロジックの開発に C ベースの IP 開発フローを使用し、シミュレーションを RTL シミュレーションよ

りも数桁倍高速に実行可能、正確にタイミング制約され最適化された RTL を提供。

• 既存の検証済み、ブロック、およびコンポーネントレベル IP を使用して、システムにカスタムロジックを組

み込むシェルを短期間で構築。

• デザインの検証から FPGA のプログラムまで、スクリプトを使用してフローを大幅に自動化。

このガイドに含まれる推奨事項は、過去数年にわたり多数の上級ユーザーから収集されたものです。これらの推奨

事項に従うことにより、従来の RTL 設計手法と比較して、次の向上が見られます。

• デザインの開発期間を 1/4 に短縮。

• 派生デザインの開発期間を 1/10 に短縮。

• QoR (結果の品質) を 0.7 ～ 1.2 倍向上。

このガイドでは大型の複雑なデザインに焦点を置いていますが、説明されているプラクティスは、次を含むすべ

てのタイプのデザインに適しており、うまく適用されています。

• DSP デジタル信号処理:

° イメージ処理

° ビデオ

° レーダー

• オートモーティブ

• プロセッサアクセラレーション

• ワイヤレス

• ストレージ

• 制御システム




第 1 章: 高生産性設計手法

新しい設計手法の必要性

近年複雑さを増し続ける電子製品で使用される高度なデザインにより、集積度、パフォーマンス、消費電力の限界

が押し上げられています。そのため、割り当てられた予算内で目標の時期に製品をリリースするのは簡単なことで

はありません。

これらのデザインの課題に対処する高生産性設計手法は、高速検証を実行可能な抽象度の高い段階で時間をかける

ことにより、生産性を最大限に向上します。

新しい設計手法の必要性を次の図に示します。各領域のサイズは、デザインフローの各段階で費やす開発エフォー

トの割合を表します。

• 従来の RTL 設計手法では、開発エフォートのほとんどがインプリメンテーションの段階で費やされます。

• 高生産性設計手法では、開発エフォートのほとんどは正しいシステムを構築するための設計および検証に費や

されます。

X-Ref Target - Figure 1-1

図 1-1: 従来の設計手法と高生産性設計手法の比較

RTL





従来の設計手法

従来のデザイン開発では、経験のある設計者がデザインを新しいテクノロジにどのようにインプリメントするかを

見積もり、デザインをレジスタトランスファーレベル (RTL) で記述し、合成および配置配線を何回か試して見積も

りを確認した後、デザインの残りの部分に進みます。これには通常、各ブロックを順に合成し、インプリメンテー

ションの詳細が許容できるものであるかどうかを確認します。

デザインが意図したように機能するかを確認する主な方法は、 RTL シミュレーションです。 RTL 記述は詳細なビッ

ト精度およびサイクル精度であり、精度は非常に高いですが、そのためこのプロセスには時間がかかり、エラーが

発生しやすくなります。

デザインのすべてのブロックが RTL で記述されてからでないとシステムの完全な検証は実行できず、通常は RTL の

変更が必要となります。システム内のすべてのブロックが検証された後、それらを共に配置配線してからでないと、

初期のタイミングおよびエリア見積もりが正しいか正しくないかはわかりません。 RTL の変更が必要となることも

多く、そのたびにシステムを再度検証およびインプリメンテーションする必要があります。

通常 1 つのプロジェクトで数十万行の RTL のコードをインプリメントする必要があり、開発の多くの時間はインプ

リメンテーションに費やされます。図 1-1 に示すように、製品の競争力を維持するために必要な新しい革新的なソ

リューションを設計する代わりに、デザインのインプリメンテーションに大部分の時間が使用されます。

新しいテクノロジに移行してパフォーマンスを向上したり、低速のテクノロジに移行して価格を下げたりするには、

RTL の大部分を記述し直すことになるのがほとんどで、レジスタ間のロジックの多くを再インプリメントすること

になります。

高生産性設計手法

高生産性設計手法でも、図 1-1 に示すように、従来の RTL 設計手法と基本的には同じ手順を使用しますが、付加価値

の高いソリューションの設計に多くの時間が費やされます。高生産性設計手法には、次の特徴があります。

• シェルという概念を使用し、カスタムロジックと、 I/O ペリフェラルおよびインターフェイスを、別のデザイ

ンプロジェクトとして並列に開発および検証。

• C ベースの IP シミュレーションを使用し、従来の RTL シミュレーションと比較してシミュレーション時間を数

桁短縮し、理想的なソリューションを設計することに時間をかけることが可能。

• ザイリンクス Vivado® Design Suite で、 C ベースの IP 開発、 IP 再利用、および標準インターフェイスを使用する

ことにより、タイミングクロージャを達成するためのプロセスを大幅に自動化。

° 独自のブロックおよびコンポーネントレベルの IP を簡単に再利用したり、テクノロジで効率的にインプリ

メントされることがわかっている検証済みのザイリンクス IP にアクセスするため Vivado IP カタログを活用。

高生産性設計手法のすべての手順は、インタラクティブに実行するか、コマンドラインスクリプトを使用して実行

できます。手動の操作はすべてスクリプトに保存可能で、デザインのシミュレーションから FPGA のプログラムま

で、フロー全体を完全に自動化することが可能です。デザインおよび RTL システムレベルシミュレーションの実行

時間によっては、 RTL デザインシミュレーションを実行している間に、このフローで FPGA ビットストリームを生

成してデザインをボード上でテストすることも可能です。

派生デザインを作成する場合は、さらに生産性が高くなります。 C ベースの IP は、異なるデバイス、テクノロジ、

クロック速度に、ツールオプションを変更するのと同じくらい簡単に移行できます。 C 合成による自動タイミング

クロージャを含む完全にスクリプト化されたフローを使用すると、派生デザインをすばやく検証してアセンブルで

きます。





設計プロセス

次の図に、設計プロセスの手順を示します。

このデザインフローでは、第 2 章「システムデザイン」に説明されているシステムを分割する初期段階の後は、複

数の手順が並行して実行されます。

• シェル開発フロー : Vivado IP インテグレーターおよび IP カタログを使用することにより、 Vivado Design Suite で

高速で効率的なブロックレベルの統合が可能です。詳細な指向性インターフェイスの作成、検証、ピンプラン

ニングを含むシステムパフォーマンスの重要な側面の多くは、並列開発されます。このフローについては、

第 3 章「シェル開発」で説明しています。

• C ベース IP の開発: RTL シミュレーションを使用すると、デザイン、ホストマシンなどによって、ビデオのフ

ルフレームをシミュレーションするのに 1 ～ 2 日かかります。 C/C++ を使用すると、同じビットレベル精度シ

ミュレーションを実行するのにかかる時間は約 10 秒です。 C ベース開発フローの生産性における利点は、無視

できません。このフローについては、第 4 章「C ベース IP の開発」で説明しています。

• システム作成: Vivado IP インテグレーターおよび IP カタログにより、シェルデザイン、レガシ RTL IP、 System

Generator IP、およびザイリンクス IP を使用するシステムブロックデザインに、 C ベース IP をすばやく結合でき

ます。自動インターフェイス接続やシステム作成のスクリプト化により、 IP 開発プロセス全体を通してシステム

をすばやく生成および再生成できます。このフローについては、第 5 章「システム統合」で説明しています。

• システムインプリメンテーション: 検証済みのシェルデザイン、デバイスおよびクロック周波数に自動的に最

適化された C ベース IP、既存の検証済み IP を使用することにより (IP はすべて業界標準の Arm AMBA® AXI4

プロトコルに準拠したインターフェイスで接続)、デザインクロージャにかかる時間を最小限に抑えることがで

きます。このフローは、システムブロックデザインから数回のクリックで起動するか、またはスクリプト化さ

れたフローを使用して起動できます。このフローについては、第 5 章「システム統合」で説明しています。

• システム検証: ゲートレベル精度 RTL シミュレーションを使用するか、 FPGA をプログラムしてデザインを

ボードで検証することにより実行します。 RTL シミュレーションは、システムを検証するためのもので、開発

中にデザインを検証するための反復シミュレーションではないので、デザインフローの最後に 1 回だけ実行し

ます。このフローについては、第 5 章「システム統合」で説明しています。


図 1-2: 高生産性デザインフロー

C IP

C IPSystem Generator IPRTL IP

IP





資料およびトレーニングへのアクセス

デザインクロージャの短時間での達成およびデザインの総合的な成功のためには、適切な情報にタイムリーにアク

セスできることが重要です。 Vivado Design Suite を使用した設計方法を短期間で理解できるようにするため、リファ

レンスガイド、ユーザーガイド、チュートリアル、ビデオが提供されています。このセクションでは、資料および

トレーニングの入手先を示します。

Documentation Navigator の使用注記: Documentation Navigator では、現在のところ日本語版リソースはサポートされていません。

Vivado Design Suite にはザイリンクス Documentation Navigator (図 1-3) が含まれており、ザイリンクスソフトウェアお

よびハードウェア資料、トレーニング、サポート資料にアクセスし、管理する環境を提供しています。

Documentation Navigator を使用すると、最新および以前のバージョンのザイリンクス資料を参照できます。リリー

ス、資料タイプ、またはデザインタスクに基づいて資料をフィルター表示できます。検索機能を使用すると、必要

な情報をすばやく見つけることができます。 [Document Types] の下にフィルターオプションの 1 つとして

[Methodology Guides] (設計手法ガイド ) が表示されており、設計手法ガイドに即座にアクセスできます。

Documentation Navigator で [Update Catalog] をクリックすると、最新の資料が表示されます。カタログがアップデー

トされている場合はそれが通知され、関連する資料の詳細が示されます。カタログを最新にするようメッセージが

表示された場合は、カタログをアップデートして資料を最新の状態にしておくことをお勧めします。また、資料カ

タログをローカルに作成して特定の資料を管理することもできます。

Documentation Navigator には、 [Design Hub View] というタブがあります。デザインハブには、デザイン制約の適用、

合成、インプリメンテーション、プログラムおよびデバッグなど、デザインでの特定のタスクに関する資料がリス

トされています。資料およびビデオがそのタスクを学びやすいように並べられています。各デザインハブには、

[Getting Started]、 [Support Resources] (そのフローに関してよく寄せられる質問をリスト )、 [Additional Learning

Materials] セクションがあります。新しいユーザーは、まず [Getting Started] を参照することをお勧めします。既にフ

ローを理解している場合は、 [Key Concepts]、 [Frequently Asked Questions (FAQ)] などが Vivado Design Suite の理解を深

めるのに役立ちます。






図 1-3: ザイリンクス Documentation Navigator




第 2 章

システムデザイン

概要

プロジェクトを開始する前に、システムをどのように設計してアセンブルするかを明確に理解しておくことが重要

です。どのような複雑なシステムでも、ソリューションには複数の道筋があります。これらの道筋は、どの IP ブ

ロックを最初から作成するか、どの IP を再利用するか、 IP の検証、 IP のシステムへの統合、およびシステムの検証

に使用するツールと方法などのさまざまな決定事項により左右されます。

この章では、システムの分割について説明し、システム開発のプロセスを自動化するのに役立つ Vivado® Design

Suite の機能を示します。

• 「システムの分割」

• 「システム開発」

システムの分割

典型的なデザインでは、デザインの周辺部にあるロジックは外部デバイスとのインターフェイス専用であり、通常

は標準インターフェイスが使用されます。 DDR、ギガビットイーサネット、 PCIe、 HDMI、 ADC/DAC、および

Aurora インターフェイスなどがその例です。これらをインプリメントするのに使用されるインターフェイスおよび

コンポーネントは、同じ企業内の複数の FPGA デザインに標準的なものです。

高生産性設計手法では、このロジックをカスタムロジックから分離し、シェルと考慮します。次の図に、シェルブ

ロックデザインの例を示します。この図の中央のグレーで示されるエリアは、カスタムロジックまたはシェル検証

IP を追加可能な部分を示します。




第 2 章: システムデザイン

この設計手法の利点は次のとおりです。

• シェルは、デザインの残りの部分から分離して開発および検証されます。

• ボードレベルの統合およびデバイスピンプランニングは、別の専門チームにより並列実行されます。

• シェルは保存および再利用され (再編集される場合もあり )、複数の派生デザインをすばやく構築できます。

• カスタムロジックは、シェルとは別に開発および検証されます。

• 検証済みのシェルおよびカスタムロジックは、システムにすばやく統合されます。

システムを分割する際の最初のタスクは、何をシェルとしてインプリメントし、何をカスタムロジックとしてイン

プリメントするかを決定することです。

シェルデザイン

シェルデザインには、高生産性設計手法において、次の 2 つの利点があります。

• 標準インターフェイスロジックをカスタムロジックから分離することにより、これら両方の開発および検証を

並列実行可能。

• 再利用可能なデザイン (シェル) を作成し、派生デザインの作成に使用可能。シェルには、理想的にはデザイン

インターフェイスやインターフェイス IP など、デザインの標準部分のみを含めます。ただし、前処理または後

処理に使用可能なブロックも含めることができます。処理機能がコアデザイン IP から独立しており、複数のデ

ザインで使用できる場合は、これらのブロックをシェルに含めるのが理想的です。シェルの再利用により、

シェルからブロックを簡単に削除できます。

シェルデザインに含めるロジックにかかわらず、シェルデザインには内部デザイン IP に接続する内部インターフェ

イスを標準インターフェイスを使用してインプリメントする必要があります。 AXI などの標準内部インターフェイ

スを使用すると、次を実行することによりシェルの再利用をさらに向上できます。


図 2-1: シェルデザイン例

DifferentiatedLogic

DMA Engine

AXIInterconnect

Memory I/FGenerator

Tx Unit

AXIInterconnect HDMI

Tx

TimingController

AXI Streamto Video

Video ToAXI-

Stream

HDMIRx

Shell

RS232

DDR

Output

Input

X23582-120619





• シェルをまだ開発されていないデザイン IP に簡単に接続できるようにする。

• シェルの検証により内部インターフェイスも検証されるようにする。

• 「IP インテグレーターおよび標準インターフェイス」に説明されている高生産性統合機能を使用できるようにする。

最初は 1 つのデザインのみを考慮していた場合でも、シェルベースの設計手法により、初期デザインがインプリメ

ントされた後に簡単に派生デザインを作成できます。

シェルの開発および検証の詳細は、第 3 章「シェル開発」を参照してください。

IP デザイン

IP 開発フローには、製品をシェルから差別化する IP のみを含みます。

デザイン IP は標準的なものではなく、開発します。開発の多くの労力は、デザインが正しく機能することを検証す

るシミュレーションの実行に費やされます。開発中の新機能に影響しない標準ブロックを含めないようにすること

により、この労力を最小限に抑えてシミュレーション時間を短縮できます。これらの標準ブロックは、シェルに含

めます。

次の図に、シェルデザインにデザイン IP を追加したシステムを示します。完成したシステムには、次のようなさま

ざまな種類のソースから開発された IP が含まれる可能性があります。

• Vivado HLS を使用して C/C++ から生成された IP

• System Generator から生成された IP

• RTL からの IP

• ザイリンクス IP

• サードパーティ IP


図 2-2: システムデザイン例

Platform IP

RS232

DDR

Output

CBased

IP

U1

CBased

IP

U2

CBased

IP

U3

RTLIP

U4

XilinxIP

U8

CBased

IP

U6SysGenIP

U5

CBased

IP

U7

Input

U123

U67

Design IP

X23583-120619





高生産性設計手法の最大の利点は、 C シミュレーションの検証速度にあります。デザイン作成の観点から見ると、

開発中に C ブロックを一緒にシミュレーションすることにより、生産性が大幅に向上します。

• 高速 C シミュレーションにより、ソリューションをすばやく開発して検証できます。

• 複数の C ブロックを一緒にシミュレーションすると、各ブロックでほかのブロックの出力を検証するのに役立

ちます。

• C シミュレーションで複数の C IP を結合すると、生産性の利点が大きくなります。

図 2-2 では、 C IP を使用する場合に直面する可能性のある問題がハイライトされています。ブロック U1、 U2、およ

び U3 はすべて C IP であり、 1 つの最上位 U123 にグループ化できます。同様に、ブロック U6 および U7 も 1 つの IP

ブロック U67 にグループ化できます。次のいずれかを実行できます。

• U1、 U2、 U3、 U6、 U7 などの小型の C IP ブロックを複数作成する。

• U123、 U67 などの大型の C IP ブロックをいくつか作成する。

デザイン統合の観点から見ると、これら 2 つの方法に違いはありません。 IP ブロックを AXI インターフェイスで生

成すると、 IP インテグレーターを使用して簡単に統合できます。 C ベース IP の開発に慣れていない場合は、小型の

ブロックで作業し、各ブロックを個別に最適化する方法を学んでから、複数の小型 IP を統合する方が理にかなって

いるかもしれません。 C IP の開発に精通している場合は、大型の C IP ブロックをいくつか生成する方がよいかもし

れません。

重要: できるだけ多くの C IP ブロックを 1 つのシミュレーションとしてシミュレーションすることにより、生産性が

高くなります。

上記の場合には、 U1、 U2、および U3 を検証するのと同じ C テストベンチを U123 を検証するのに使用します。 IP

生成における違いは、 Vivado HLS で C 合成の最上位をファンクション U123 として設定するか、ファンクション U1、

その後 U2、最後に U3 として設定するかです。

IP ブロックの作成にどちらの方法を使用しても、各 IP ブロックを次のように個別に検証する必要があります。

• C/C++ で開発された IP は、 Vivado HLS の C/RTL 協調シミュレーション機能を使用して検証し、 C ベースの IP

を検証するのに使用されたのと同じ C テストベンチを使用して RTL を検証できます。

• System Generator で開発された IP は、 System Generator に含まれる MathWorks Simulink デザイン環境を使用して

検証します。 Simulink 環境では、複雑な入力スティミュラスを簡単に生成でき、定義済みのシミュレーション

エレメントを使用して複雑な結果を解析できます。 C/C++ および従来の RTL から生成された IP は、 System

Generator 環境にインポートしてこの検証を活用できます。

• RTL から生成された IP は、 RTL テストベンチを作成して検証する必要があります。

• ザイリンクスおよびサードパーティにより提供される IP は検証済みですが、選択したコンフィギュレーション

パラメーターに基づく動作を確認するためテストベンチを作成することをお勧めします。

IP に標準 AXI インターフェイスを使用することにより、 IP をほかの IP およびシェルデザインにすばやく統合でき

ます。





システム開発

シェルおよび複数の IP ブロックを使用することは FGPA 設計者にとって新しい概念ではありませんが、この設計手

法では通常多数の RTL を開発してシミュレーションし、次の接続を確立するために何百もの RTL 信号を接続する必

要があります。

• シェルから検証 IP

• シェルからコアデザイン IP

• シェルから派生コアデザイン IP

この方法を従来の RTL デザインフローで使用して設計および検証 (テキストエディターで実行すると間違いを起こ

しやすい) にさらに時間を費やす代わりに、通常デザインチームがすべてを設計して統合します。

Vivado IP インテグレーターを使用すると、従来のように RTL ファイルを手動で編集することなく、この設計手法を

使用して IP をすばやく統合できます。

この設計手法で使用する主な機能は次のとおりです。

• Vivado IP カタログ

• IP インテグレーターおよび標準インターフェイス

Vivado IP カタログ

Vivado IP カタログは、 IP を使用および再利用する際の主要なツールです。図 2-3 に、高生産性設計手法のデザイン

プロセスで IP カタログをいつどこで使用するかを示します。

重要: IP カタログを使用することは、高生産性設計手法を可能にするために必須です。


図 2-3: IP カタログと設計プロセス





IP カタログの機能は次のとおりです。

• ザイリンクスからの約 200 個の IP が含まれます。詳細は、ザイリンクスの IP ページ [参照 12] を参照してくだ

さい。

• C ベースの IP 開発からの出力を保存します。

• System Generator、レガシ RTL、およびザイリンクスパートナー IP を追加できます。

• 多数のインターフェイス IP が含まれ、レガシ RTL IP の使用がサポートされており、シェルを作成する際に使用

されます。

• システム統合におけるすべての IP ブロックのソースとなります。

• システムの統合および検証中に使用される RTL インプリメンテーションを供給します。

シェル開発中、シェルは IP カタログからの IP を使用して IP インテグレーターでアセンブルされます。これには、

ザイリンクスが提供するインターフェイス IP (イーサネット、 VGA、 CPRI、シリアルトランシーバーなど)、ザイリ

ンクスパートナーからの IP、 IP カタログの IP として提供されるレガシ RTL パッケージ、または Vivado HLS および

System Generator で作成された IP が含まれます。

レガシ RTL を IP としてパッケージする方法は、『Vivado Design Suite チュートリアル: カスタム IP の作成とパッケー

ジ』 (UG1119) [参照 5] を参照してください。

System Generator から AXI インターフェイスを使用する IP を作成する方法は、『Vivado Design Suite ユーザーガイド :

System Generator を使用したモデルベースの DSP デザイン』 (UG897) [参照 6] を参照してください。

Vivado HLS からのデフォルト出力は、 IP カタログ用にパッケージされた IP です。これについては、「IP パッケージ」

を参照してください。





IP インテグレーターおよび標準インターフェイス

Vivado IP インテグレーターを使用すると、キャンバスに IP ブロックをすばやく追加して接続でき、高生産性設計手

法が可能となります。

重要: Vivado IP インテグレーターを使用して高生産性を達成するには、標準インターフェイスを使用することが重要

です。

図 2-4 に、 IP インテグレーターに表示されたサンプルブロックデザインを示します。

次の接続タイプがあります。

• クロック信号やリセット信号などのピンレベルの接続。

• AXI、 AXI4-Lite、および AXI4-Stream バスなどのバスレベル接続。

• DDR などのボードレベルの接続。

IP インテグレーターでは、各 IP のピンをマウスを使用してグラフィカルに接続します。ビットレベルの基本的な接

続だけでなく、バスレベルの接続もサポートされ、設計アシスタンスが提供されます。


図 2-4: IP インテグレーターブロックデザイン





次の図に、バスレベル接続の利点を示します。この例では、 2 つの AXI マスターインターフェイスが接続されてい

ます。最初のポートを接続すると、すべての有効な接続が緑色のチェックマークで示されます。

重要: IP インテグレーターでは、無効な接続を確立することはできません。これにより、手動の編集により発生する

可能性のある接続エラーを回避できます。

標準 AXI インターフェイスおよび IP インテグレーターを使用すると、 AXI Interconnect IP が自動的に生成され、生産

性がさらに向上します。図 2-6 に、次を接続した結果を示します。

• 1 つのブロック上の 1 つの AXI 出力

• 別のブロック上の 1 つの AXI4-Stream 入力

IP インテグレーターで、マスタータイプのインターフェイスを Stream タイプのインターフェイスに接続するため、

AXI Interconnect IP が自動的に追加されます。


図 2-5: コネクションオートメーション





この AXI Interconnect IP は IP カタログに含まれており、手動で追加できますが、 IP インテグレーターではこのタス

クが自動化されています。最終的なブロックデザインをスクリプトとして保存すると、 Tcl コマンドで単にどのピン

を接続するかが記述されるだけです。

ヒント : Vivado Design Suite およびザイリンクス IP の新しいリリースにアップグレードする際は、スクリプトを再実

行して最新のインターコネクトロジックが使用されるようにしてください。

デザインで標準インターフェイスを使用すると、ボードレベル接続に設計アシスタンスが提供されます。 Vivado

Design Suite では、ターゲットデバイスだけでなく、ターゲットボードを選択できます。 IP インテグレーターでは

ボードが認識され、ボードレベル接続を自動化できます。

設計者が確認すると、 IP インテグレーターにより IP と FPGA ピンが自動的に接続されます (ボード接続)。


図 2-6: AXI Interconnect IP の自動追加





IP インテグレーターでは、 IP が自動的にブロック図に統合されます。ほかにも、 [Validate Design] 機能を使用したデ

ザインルールチェック、 AXI Interconnect IP のクロックおよびリセットロジックの自動追加などの機能があります。

この自動化を活用し、生産性の高いシェル設計手法を使用するには、オンチップの通信に標準インターフェイスお

よび AXI インターフェイスを使用することが重要です。


図 2-7: ブロックオートメーション




第 3 章

シェル開発

概要

シェルの使用は、高生産性設計手法の利点を活かすために重要です。シェルデザインには、コアデザイン IP とシス

テムの残りの部分を接続する標準インターフェイスと処理ブロックすべてが含まれ、コアデザイン IP と並列開発さ

れます。

シェルデザインを利用する設計手法では、次のような生産性の向上が可能です。

• デザインインターフェイスおよび I/O プランニングを、コアデザインとは別に開発できます。

• コアデザイン IP が準備できる前に、デザインインターフェイスを検証できます。

• プラットフォームデザインにはシステムのロジックの大部分を占めるコアデザイン IP が含まれないので、デ

ザインが小型であり、インターフェイスの検証時間を短縮できます。

• 生産性の高いデザイン再利用設計手法が促進され、派生デザインを簡単に作成できます。

図 3-1 に、シェル設計手法の概要を示します。この設計手法の主な特徴は、シェルデザインの再利用にあります。

シェル開発は、シェルの設計およびシェルの検証の 2 つのプロセスで構成されます。


図 3-1: シェル設計手法




第 3 章: シェル開発

シェルデザイン

シェルデザインには、デザインの周辺部のみが含まれ、上図に示すように、デザインを簡単に再利用できるような

形にする必要があります。シェルを保存し、開き直して複数のプロジェクトの基盤として使用します。

上図に示すフローを可能にするために必要なレベルのデザイン再利用を達成するには、シェルデザインを IP インテ

グレーターのブロックデザインとして作成し、ほかのデザインプロジェクトの基盤として簡単に保存および開き直

すことができるようにします。

既存の IP のアセンブル

シェルデザインは、 IP カタログからの IP を使用して、 IP インテグレーターでブロックデザインとしてアセンブル

されます。

重要: シェル作成の準備として、シェルデザインで使用する既存の RTL または企業特定の IP を IP カタログから使用

できるように IP としてパッケージしてください。パッケージした IP は、シェルブロックデザインに追加できます。

IP カタログから使用できるようにブロックをパッケージする方法は、『Vivado® Design Suite チュートリアル: カスタ

ム IP の作成とパッケージ』 (UG1119) [参照 5] を参照してください。

シェルデザインプロジェクト

IP をアセンブルしたら、 Vivado RTL プロジェクトを作成します。

トレーニング: Vivado RTL プロジェクト作成の詳細は、 Vivado Design Suite QuickTake ビデオ: さまざまなタイプのプ

ロジェクトを作成を参照してください。

Vivado プロジェクトを作成する際は、次のようにします。

• プロジェクトを RTL プロジェクトとして指定し、 [Do not specify any sources at this time] をオンにします。シェル

デザインのソースは、 IP カタログ用にパッケージした IP です。

• 可能な場合は、ザイリンクスボードをターゲットとして選択します。ザイリンクスボードで使用されるデバイ

スの I/O は、自動的に設定されます。これにより、カスタムボードを開発している間に最短時間でプラット

フォームデザインを開始でき、 IP インテグレーターの設計アシスタンスを使用して I/O を接続できます。

ザイリンクスボードをターゲットとして指定しない場合は、ターゲットデバイスの I/O 接続をユーザーが指定する

必要があります。詳細は、『UltraFast 設計手法ガイド (Vivado Design Suite 用)』 (UG949) [参照 7] のこのセクションを参

照してください。

開発プロセス中にカスタムボードを使用する場合は、ボード接続を詳細に記述するボードファイルを作成し、 IP イ

ンテグレーターの設計アシスタンスを使用できるようにし、ボードレベルの接続を簡略化することをお勧めします。

ボードファイルの詳細は、『Vivado Design Suite ユーザーガイド : システムレベルデザイン入力』 (UG895) [参照 9] の

このセクションを参照してください。

プロジェクトを作成したら、 Flow Navigator の [Create Block Design] ボタンをクリックし、 IP インテグレーターを開

いて新しいブロックデザインを作成します。 IP インテグレーターウィンドウで、 IP リポジトリのソースを指定し、

[Add IP] ボタンをクリックしてシェルデザインを開始します。


https://japan.xilinx.com/cgi-bin/docs/ndoc?t=video;d=hardware/creating-different-types-of-projects.html


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug949-vivado-design-methodology.pdf;a=BoardAndDevicePlanning

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug895-vivado-system-level-design-entry.pdf;a=xUsingTheVivadoDesignSuiteBoardFlow

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug895-vivado-system-level-design-entry.pdf;a=xUsingTheVivadoDesignSuiteBoardFlow




シェルが完成したら、 write_bd_tcl コマンドを使用してブロックデザイン全体を Tcl スクリプトとして保存しま

す。このスクリプトには、ブロックデザインを一から再生成するのに必要なコマンドがすべて含まれます。ブロッ

クデザインおよび Vivado プロジェクトを保存したら、次の段階の検証およびシステム開発に進むことができます。

ピンプランニング、 IP インテグレーター、および Vivado Design Suite のその他の機能の詳細は、 Documentation

Navigator の [Design Hub View] タブから取得できます。詳細は、「Documentation Navigator の使用」を参照してくだ

さい。

シェルの検証

シェルデザインを作成したら、シェルを検証します。検証プロセスでは、シェルデザインを開き、検証 IP を追加し

て、インターフェイスが正しく機能することを確認します。

シェル検証プロジェクト

シェルデザインを検証するには、まず次のいずれかのオプションを使用して新しい検証プロジェクトを作成します。

• シェルデザインの Vivado プロジェクトを開き、 [File] → [Save Project As] をクリックして新規プロジェクトとし

て保存する。

• 新規 Vivado RTL プロジェクトを RTL ソースなしで同じターゲットデバイスまたはボードを選択して作成し、

[Create Block Design] をクリックして、 write_bd_tcl コマンドを使用して保存した Tcl スクリプトを [Tcl

Console] ウィンドウで実行して新規プロジェクトにシェルブロックデザインを再生成します。

検証デザインの複雑さを管理するため、複数の検証プロジェクトが必要な場合もあります。次の図に、シェル検証

デザインの例を示します。この例では、 1 つのインターフェイスのみがテストされます。


図 3-2: シェル検証の例

DMA Engine

AXIInterconnect

Memory I/FGenerator

Tx Unit

AXIInterconnect HDMI

Tx

TimingController

AXI Streamto Video

AXI Switch

Test PatternGenerator

Video ToAXI-

Stream

HDMIRx

Verification IP Platform IP

RS232

DDR

Output

Input

X23585-120619





検証 IPデザインを検証するには、シェルデザインに Vivado IP カタログから検証 IP を追加します。

検証 IP は、このガイドに説明されているいずれかの方法 (RTL、 System Generator、または C ベース IP) を使用して開

発できます。次の例は、標準 AXI インターフェイス IP を使用し、小型の C ファイルを使用して、 AXI4-Stream イン

ターフェイス上に N 個のサンプルの HANN ウィンドウを作成する方法を示しています。インターフェイス指示子を

axis から m_axi に変更すると、 AXI メモリマップドインターフェイスをインプリメントできます。

void verify_IP_Hann(float outdata[WIN_LEN]) {// Specify AXI4-Stream output#pragma HLS INTERFACE axis port=outdata// Alternative output AXI4M (commented out)//#pragma HLS INTERFACE m_axi port=outdata

float coeff[WIN_LEN]; coeff_loop:for (int i = 0; i < WIN_LEN; i++) { coeff[i] = 0.5 * (1.0 - cos(2.0 * M_PI * i / WIN_LEN));

}

winfn_loop:for (unsigned i = 0; i < WIN_LEN; i++) { outdata[i] = coeff[i];

}}

Vivado HLS を使用してほかの IP 間のインターフェイスブロックを作成する方法は、『Vivado IP インテグレーターを

使用した AXI4 ベースの IP の統合方法』 (XAPP1204) [参照 10] を参照してください。

シェルの検証

最上位テストベンチをシミュレーションソースに追加すると、 FPGA をプログラムする前に、シミュレーションに

よりシェルデザインを検証できます。

RTL シミュレーションを使用してシェルを検証するには、 RTL テストベンチを作成する必要があります。この同じ

テストベンチは、完全に統合されたデザインを検証するのにも使用されます。シェルを検証するのに複数の検証プ

ロジェクトを使用する場合は、すべてのインターフェイスを検証するために同じテストベンチを拡張する必要があ

ります。

FPGA 上のインターフェイスを詳細に検証するには、デザインに信号レベルのデバッグプローブを追加できます。

ブロックデザインで作業する際、右クリックメニューからネットをデバッグ用にマークできます。デバッグ用に

マークされた信号は、ハードウェア操作中に解析できます。デザインに ILA コアを追加すると、解析用に信号を

キャプチャし、 FPGA デバイスから読み出すことができます。詳細は、『Vivado Design Suite ユーザーガイド : IP イン

テグレーターを使用した IP サブシステムの設計』 (UG994) [参照 8] のこのセクションを参照してください。

その後、最終的なデザインに対して Vivado デザインフローを実行してビットストリームを生成します。シェルを完

全に検証したら、検証 IP の変更以外のシェルデザインへの変更は、元のソースシェルデザインプロジェクトに反

映させる必要があります。これで、シェルデザインをコアデザイン IP に統合する準備ができました。


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug994-vivado-ip-subsystems.pdf;a=xUsingTheILAToDebugIPIntegratorDesigns



第 4 章

C ベース IP の開発

概要

高生産性デザインフローでコアデザイン IP を生成するには、 C ベース IP を使用し、高位合成 (HLS) で C コードを

RTL に変換するのが主な方法です。 C ベース IP の開発フローには、次のような利点があります。

• C 検証によりシミュレーションが高速

• タイミング制約が正しく設定され、最適化された RTL を自動生成

• ライブラリから既存の C IP を使用可能

• IP インテグレーターを使用して結果の RTL IP をシステムに簡単に統合可能

この章では、 C ベース IP を作成、検証、合成、解析、最適化し、 IP カタログで使用できるよう IP にパッケージする

方法を説明します。これには、 Vivado® Design Suite に含まれる Vivado HLS (高位合成) ツールを使用します。

次の図は、 Vivado HLS のデザインフローを示しています。デザインフローの手順は、次のとおりです。

1. C アルゴリズムをコンパイル、実行 (シミュレーション)、およびデバッグ。

注記: 高位合成では、コンパイル済み C プログラムの実行を「C シミュレーション」と呼びます。 C プログラム

を実行すると関数がシミュレーションされ、アルゴリズムが正しく機能するかどうかが検証されます。

2. C プログラムを RTL インプリメンテーションに合成 (オプションでユーザーの最適化指示子を使用可能)。

3. 包括的なレポートを生成してデザインを解析。

4. プッシュボタンフローを使用して RTL インプリメンテーションを検証。

5. RTL インプリメンテーションを選択した IP フォーマットにパッケージ。




第 4 章: C ベース IP の開発

Vivado HLS の使用に関する詳細は、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参照 2] を参照してく

ださい。この章では、生産性の高い方法で Vivado HLS を使用する設計手法を説明します。

高速 C 検証

C で記述されたアルゴリズムのシミュレーションは、同じアルゴリズムの RTL をシミュレーションするよりもかな

り高速に実行できます。

たとえば、標準的なビデオアルゴリズムを考えてみます。 C の典型的なビデオアルゴリズムでは完全なビデオデー

タのフレームが処理され、出力画像が基準画像と比較され、結果が正しいかどうかが確認されます。この C シミュ

レーションには、通常 10 ～ 20 秒かかります。 RTL インプリメンテーションのシミュレーションの場合、フレーム

数およびデザインの複雑性によって、通常 2、 3 時間から数日かかります。

ソフトウェアのシミュレーション速度を使用し、より多くの部分を C レベルで開発すると、生産性をさらに高める

ことができます。アルゴリズム、データ型、ビット幅を変更してデザインが正しく動作するかどうかを検証して確

認するのはこの段階なので、設計者が実際に設計をするのはこの段階と言えます。

フローの残りは、ツールチェーンを使用して正しいデザインを FPGA にインプリメントする開発段階です。 Vivado

Design Suite と高生産性設計手法を使用すると、開発フローを大幅に自動化できます。


図 4-1: Vivado HLS のデザインフロー

TestBench

Constraints/Directives

Vivado HLS

C Simulation C Synthesis

RTLAdapter

VHDLVerilog

RTL Simulation Packaged IP

VivadoDesign Suite

System Generator

X14309

C, C++,SystemC,

OpenCL API C





初期 FPGA デザインをインプリメントしたら、第 5 章「システム統合」に示すスクリプトフローを使用して、シス

テム全体の RTL シミュレーションを実行するよりも短い時間で、 FPGA をプログラムする新しいビットストリーム

を作成することも不可能ではありません。

C ベース IP フローで最大の生産性を達成するには、次を理解しておく必要があります。

• 「C テストベンチ」

• 「セルフチェックテストベンチ」

• 「ビット精度データ型」

C テストベンチ

すべての C プログラムの最上位は main() 関数です。 Vivado HLS では、 main() の下位にある任意の関数 1 つが合

成されます。 Vivado HLS で合成される関数は「デザイン関数」 (Design Function) と呼ばれます。図 4-2 はこれを示し

ています。

• デザイン関数よりも下位の関数がすべて Vivado HLS で合成されます。

• デザイン関数の階層外のものはすべて C テストベンチと呼ばれます。

C テストベンチには、デザイン関数に入力データを供給し、デザイン関数からの出力データを受信してそれが正確

かどうかを確認する、 main() より下位の C コードすべてが含まれます。


図 4-2: C テストベンチ





Vivado HLS デザインフローに慣れていない場合、 C テストベンチを使用して C シミュレーションを実行せずに C

コードの合成に進んでしまうという間違いを犯しがちです。これを次のコードに示します。この入れ子のループの

例の問題点を見つけてみてください。

#include "Nested_Loops.h"

void Nested_Loops(din_t A[N], dout_t B[N]) {

int i,j;dint_t acc;

LOOP_I:for(i=0; i < 20; i++){LOOP_J: for(j=0; j < 20; j++){if(j=0) acc = 0;acc += A[i] * j;

if(j=19) B[i] = acc / 20;}

}}

このコードが予測どおりに合成されないのは、条件文が FALSE と評価され、 LOOP_J の最初の反復の最後に J が 19

に設定されるからです。この条件文は、 j==0 および j==19 (= ではなく == を使用) にする必要があります。上記の

コード例はコンパイルおよび実行され、問題なく合成できますが、予測どおりには動作しません。コードをさらっ

と確認するだけでは、問題を検出するのは困難です。

現在は開発者は日常的に C/C++、 Perl、 Tcl、 Python、 Verilog、および VHDL を 1 つまたは複数使用する時代なので、

このような小さな間違いを見つけるのは困難で、機能的な問題を見つけるのはさらに難しく、合成後に見つけるこ

とも非常に困難で時間がかかります。

C テストベンチは、合成される C 関数を呼び出し、テストデータを供給し、出力が正しいかどうかをテストするだ

けプログラムであり、合成前にコンパイルして実行できるので、合成前に結果を確認できます。

直接合成を実行する方が時間を節約できるように感じるかもしれませんが、 C テストベンチを使用することは、作

成するのに時間を割くことになっても、それをはるかに上回る大きな価値があります。





セルフチェックテストベンチ

Vivado HLS では、 C アルゴリズムを検証する合成前の C シミュレーションと、 RTL インプリメンテーションを検証

する合成後の C/RTL 協調シミュレーションがサポートされています。どちらの場合も、 main() 関数の return 値

を使用して結果が正しいかどうかを確認します。理想的なテストベンチには、次のコード例のように結果をチェッ

クする属性が含まれます。関数の合成結果は results.dat ファイルに保存され、正しい予測結果 (この例では

「golden」と呼ばれる結果) と比較されます。

int main () {...int retval=0;fp=fopen("result.dat","w");...// Call the function for synthesisloop_perfect(A,B);

// Save the output resultsfor(i=0; i<N;++i) {fprintf(fp, "%d \n", B[i]);

}...

// Compare the results file with the golden resultsretval = system("diff --brief -w result.dat result.golden.dat");if (retval != 0) {printf("Test failed !!!\n"); retval=1;

else {printf("Test passed !\n");

}

// Return 0 ONLY if the results are correct return retval;}

Vivado HLS デザインフローでは、 main() 関数への return 値はそれぞれ次を示します。

• 0: 結果が正しいことを示します。

• 0 以外: 結果が正しくないことを示します。

推奨: main() 関数の戻り値はシステム環境 (Linux、 Windows、 Tcl など) で解釈されるので、戻り値は 8 ビットの範

囲に制約しておくと、移植性と安全性が向上します。

セルフチェックテストベンチを使用する場合、 RTL テストベンチを作成して Vivado HLS からの出力が正しいかどう

か確認する必要はありません。 C/RTL 協調シミュレーション中は C シミュレーションに使用されるのと同じテスト

ベンチが自動的に使用され、合成後の結果がテストベンチで検証されます。

C には、結果が有効かどうかを確認する方法が多くあります。上記の例の場合、関数からの合成結果が

result.dat ファイルに保存され、予測結果を含むファイルと比較されます。結果は、合成には指定されていない

同一の関数 (テストベンチが実行されるときにソフトウェアで実行) と比較したり、テストベンチで算出された値と

比較したりすることも可能です。





重要: テストベンチの main() 関数に return 文がない場合、 C 規格により return 値は 0 となります。このため、

C および C/RTL 協調シミュレーションでは、結果が正しくない場合でも、問題はレポートされません。結果を確認

し、それらが正しい場合にのみ 0 を戻すようにしてください。

セルフチェックテストベンチを作成することで、 C コードに明らかなエラーはなくなり、合成からの出力が正しい

かどうかを検証するために RTL テストベンチを作成する必要はなくなります。

ビット精度データ型

Vivado HLS には任意精度型が含まれており、変数をどの幅にでも指定できるようになっています。たとえば、変数

を 12、 22、または 34 ビット幅として定義できます。標準 C データ型を使用する場合は、これらの変数はそれぞれ

16、 32、 64 ビットにする必要があります。標準 C データ型を使用すると、たとえば 34 ビットのみが必要な場合に

64 ビットのハードウェアがインプリメントされるなど、不必要なハードウェアがインプリメントされてしまうこと

がよくあります。

任意精度型を使用すると、これらの新しいビット幅と解析されたビット精度の出力を使用して C アルゴリズムをシ

ミュレーションできるというさらに大きな利点もあります。たとえば、 10 ビット入力と 14 ビット出力のフィルター

を設計し、デザインで 24 ビットアキュムレータを使用できるようにするとします。 C シミュレーションを実行する

と (数万個のサンプルを使用して数分でフィルターをシミュレーション可能)、出力の信号対ノイズ比が許容できる

ものであるかどうかをすばやく確認できます。アキュムレータが小さすぎるかどうか、より小型で効率的なアキュ

ムレータを使用して必要な精度を提供できるかどうかをすばやく判断できます。

重要: ビット精度 C のシミュレーションは、デザインを検証する最速の方法です。

高生産性設計手法では、まず標準 C データ型を使用してデザインを開始し、アルゴリズムが設計どおりに実行され

るかどうかを確認してから、 C コードを任意精度型に移行します。このハードウェア効率の高いデータ型への移行

は、結果を確認する C テストベンチがあり、より小型で効率的なデータ型が適切であるかどうかをすばやく検証で

きる場合にのみ、安全に生産的に実行できます。任意精度型について精通している場合は、通常新しい C プロジェ

クトの最初から任意精度型を使用します。

C テストベンチを使用する利点と、設計手法の 1 つとしてテストベンチを使用しない場合の生産性のロスについて

は、誇張してもしすぎることはありません。

『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参照 2] のこのセクションの Vivado HLS の例には、 C、

C++、または SystemC テストベンチが含まれています。これらの例をコピーして変更することにより、 C テストベン

チを作成できます。これらの例には、任意精度型を使用した C 関数が含まれます。


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xDesignExamplesAndReferences




合成の C 言語サポート

合成で何がサポートされるかを理解することは、 Vivado HLS UltraFast 設計手法の重要部分です。 Vivado HLS では、

C、 C++、 SystemC が包括的にサポートされます。 C シミュレーションではすべてサポートされますが、すべての記

述を同等の RTL インプリメンテーションに合成することはできません。

FPGA へのインプリメンテーションのためにコードを確認する際は、次の主な原則を考慮する必要があります。

• FPGA は固定サイズのリソースで、その機能はコンパイル時に固定される必要があります。ハードウェアのオブ

ジェクトは、ダイナミックに作成したり破棄したりできません。

• FPGA とのすべての通信は、入力および出力ポートを介して実行する必要があります。 FPGA には、基盤となる

オペレーティングシステム (OS) または OS リソースはありません。

サポートされないコンストラクト

システムコール

システムコールは合成でサポートされません。これらのコールは、 C プログラムが実行される OS との通信に使用さ

れます。 FPGA には、通信する基盤の OS はありません。 time() および printf() がシステムコールの例です。

よく使用される関数の中には、 Vivado HLS で自動的に無視されるものもあるので、コードからそれらを削除する必

要はありません。無視される関数は、次のとおりです。

• abort()

• atexit()

• exit()

• fprintf()

• printf()

• perror()

• putchar()

• puts()

サポートされないコードを削除する代わりに、コードが合成されないようにすることもできます。合成が実行され

ると、 Vivado HLS で __SYNTHESIS__ マクロが自動的に定義されます。

このマクロは、コードを C シミュレーションの実行時には含め、合成時には除外するために使用できます。

#ifndef __SYNTHESIS__// The following code is ignored for synthesisFILE *fp1;char filename[255];sprintf(filename,Out_apb_%03d.dat,apb);fp1=fopen(filename,w);fprintf(fp1, %d \n, apb);fclose(fp1);

#endif





注記: __SYNTHESIS__ マクロは、合成されるコードにのみ使用します。このマクロは C シミュレーションまたは C

RTL 協調シミュレーションには従っていないので、テストベンチには使用しないでください。

情報が OS から必要とされる場合は、データを合成用に引数として最上位関数に渡す必要があります。その後この情

報は、残りのシステムのタスクにより、合成済み IP ブロックに供給されます。これは通常、データポートを CPU

に接続された AXI4-Lite インターフェイスとしてインプリメントすることにより実行できます。

ダイナミックオブジェクト

ダイナミックオブジェクトは合成できません。関数呼び出しの malloc()、 alloc()、プリプロセッサ free()、

C++ の new および delete では、 OS メモリマップに存在するメモリリソースをダイナミックに作成または破棄で

きます。 FPGA 内で使用可能なメモリリソースは、ブロック RAM とレジスタのみです。ブロック RAM は配列が合

成されたときに作成されます。配列の値は、 1 クロックサイクル間以上保持される必要があります。レジスタは、

変数で格納された値を 1 クロックサイクル間以上保持する必要がある場合に作成されます。ダイナミックメモリ割

り当ての代わりに、固定サイズの配列または変数を使用する必要があります。

ダイナミックメモリの使用に関する制限と同様、 Vivado HLS の合成では、ダイナミックに作成または破棄される

C++ オブジェクトもサポートされません。これには、ポリモーフィズム関数およびダイナミック仮想関数の呼び出

しが含まれます。新しいハードウェアとなる新しい関数は、ランタイム時にダイナミックに作成することはできま

せん。

同様の理由から、再帰は合成でサポートされません。すべてのオブジェクトは、コンパイル時に既知のサイズであ

る必要があります。テンプレートを使用する場合、再帰は制限付きでサポートされます。

合成では、 std::complex などの標準データ型を除き、 C++ Standard Template Libraries (STL) はサポートされませ

ん。これらのライブラリには、ダイナミックメモリ割り当てと再帰を多用する関数が含まれます。

SystemC コンストラクト

SC_MODULE は、別の SC_MODULE 内に入れ子にしたり、別の SC_MODULE から派生させたりすることはできません。

SC_THREAD コンストラクトはサポートされませんが、 SC_CTHREAD はサポートされます。

コンストラクトの制限付きサポート

最上位関数

テンプレートは、合成ではサポートされますが、最上位関数での使用はサポートされません。

C++ クラスオブジェクトは、合成では最上位にできません。クラスは最上位関数にインスタンシエートする必要が

あります。

ポインタートゥポインターは合成ではサポートされますが、最上位関数への引数としては使用できません。

ポインターのサポート

Vivado HLS では、ネイティブ C 型間のポインターキャスティング (型変換) はサポートされますが、一般的なポイン

ターキャスティング (たとえば、ポインターの別の構造型へのキャスティング) はサポートされません。

ポインターの配列は、各ポインターがスカラーまたはスカラーの配列を指定する場合にサポートされます。ポイン

ター配列では、別のポインターを指定することはできません。





再帰

FPGA の再帰は、テンプレートを使用した場合にのみサポートされます。合成で再帰を実行するには、終端クラスを

サイズ 1 で使用して、再帰文で最終的な呼び出しをインプリメントします。

メモリ関数

memcpy() および memset() は、 const 値が使用されていればサポートされます。

• memcpy(): バースト操作または const 値での配列初期化に使用されます。 memcpy 関数は値を引数にコピーし

たり、引数から最上位関数にコピーしたりする場合にのみ使用できます。

• memset(): 定数設定値での集約初期化に使用されます。

合成でサポートされないコード、または制限付きでしかサポートされないコードは、変更しないと合成できません。

言語サポートの詳細は、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参照 2] のこのセクションを参照し

てください。

ハードウェア最適化済み C ライブラリの使用

Vivado HLS には、よく使用される C 関数用の C ライブラリが多く含まれます。 C ライブラリに含まれる関数は、合

成したときに高パフォーマンスで効率の良いインプリメンテーションになるように、通常あらかじめ最適化されて

います。

Vivado HLS に含まれる C ライブラリすべての詳細は、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参

照 2] のこのセクションに記述されていますが、 C ライブラリにどの C 関数が含まれているかを理解しておくことを

お勧めします。

Vivado HLS には、次の C ライブラリが含まれます。

• 任意精度データ型

• HLS ストリームライブラリ

• 数学関数

• 線形代数関数

• DSP (デジタル信号処理) 関数

• ビデオ関数

• IP ライブラリ


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xHighLevelSynthesisCLibraries

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xHighLevelSynthesisCodingStyles




Vivado HLS の理解

C ベース IP の最適化について説明するこの章の後のセクションを参照する前に、 HLS の主要な概念を理解しておく

ことが重要です。このセクションでは、これらの概念の概要を示します。

パフォーマンスの測定

Vivado HLS では、デフォルトの合成ビヘイビアーと制約に基づいて、最適なインプリメンテーションが短時間で作

成されます。クロック周期が主な制約で、 Vivado HLS ではこれとターゲットデバイス仕様を使用して、 1 クロック

サイクルでいくつの演算を実行可能かか判断されます。

クロック周波数制約を満たしたら、 Vivado HLS で使用されるパフォーマンス測定基準は最適化の重要度で並べると

次のようになります。

• 開始間隔 (II): 新しい入力間のクロックサイクル数。スループットと、デザインが次の入力を読み出して処理す

る速度を示します。

• レイテンシ: 出力を生成するのに必要なクロックサイクル数。最小間隔が達成された後、または内部ターゲット

が指定されていない場合に、レイテンシが最小になるよう処理されます。

• エリア: 最小レイテンシが達成されたら、エリアが最小にしなるよう処理されます。

パフォーマンスの測定は、関数全体に対してレポートされます。たとえば、関数にスカラー入力がある場合、 II=3

は 3 クロックサイクルごとに 1 サンプル処理されることを意味しますが、関数に N 個のエレメントの入力配列があ

る場合は、 II=N は N クロックごとに N 個のエレメントが処理されること (クロックごとに 1 サンプルのレート ) を意

味します。

最適化指示子を使用すると、上記の測定基準の優先順位を指定して (スループットよりもエリアまたはレイテンシを

削減することを優先するなど)、デザインを作成できます。最適化指示子を指定しない場合、 Vivado HLS はこれらの

目標と次に示すデフォルトの合成ビヘイビアーを使用して、初期デザインを作成します。

インターフェイス合成最上位関数への引数は、データポート (オプションで I/O プロトコルを指定) に合成されます。 I/O プロトコルとは、

データポートとシステムのほかのハードウェアブロックとのデータ通信を自動的に同期するため、データポートに

関連付けられた 1 つまたは複数の信号です。

たとえばハンドシェイクプロトコルでは、データポートに、データが読み出しまたは書き込みに有効であることを

示す Valid ポートと、データが正しく読み出しまたは書き込みされたことを示す ACK (肯定応答) ポートが付きます。

I/O プロトコルの詳細は、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参照 2] のこのセクションを参照

してください。これらのインターフェイスには AXI、 AXI4-Stream、および AXI4-Lite インターフェイスが含まれて

おり、 IP インテグレーターを使用してシステムに簡単に統合できます。

I/O プロトコルは、最上位関数に対してデフォルトでインプリメントされます。このプロトコルは、 IP が演算を開始

できるタイミングを制御し、演算を完了したか新しい入力データの受信準備ができたことを示します。このオプ

ションの I/O プロトコルは AXI4-Lite インターフェイスとしてインプリメントでき、デザインをマイクロプロセッサ

で制御できるようにします。


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xManagingInterfaces




関数合成

最終的な RTL デザインでは、関数は階層ブロックに合成されます。 C コードの各関数は、最終的な RTL に固有のブ

ロックとして記述されます。通常、最適化は関数の境界で停止します。最適化指示子には、再帰オプションがあっ

たり、関数の境界を超えて適用されるものもあります。

関数は、最適化指示子を使用してインライン化できます。これにより関数の階層が削除され、ロジックの最適化を

改善できます。関数をパイプライン処理しても、スループットパフォーマンスを改善できます。

関数は、できるだけ早く実行されるようにスケジューリングされます。次の例は、 foo_1 および foo_2 という 2 つ

の関数を示しています。

void foo_1 (a,b,c,d,*x,*y) { ... func_A(a,b,&x); func_B(c,d,&y);}

foo_1 関数には、 func_A および func_B 間にデータ依存はありません。 C コードではこれらの関数が順番に実行

されるように見えますが、 Vivado HLS では最初のクロックサイクルで両方の関数が同時にデータ処理を開始する

アーキテクチャがインプリメントされます。

void foo_2 (a,b,c,*x,*y) {int *inter1;

... func_A(a,b,&inter1,&x); func_B(c,d,&inter1,&y) }

foo_2 関数には、関数間にデータ依存があります。 inter1 内部変数は func_A から func_B に渡されます。この

場合、 Vivado HLS では func_B 関数が func_A 関数が完了した後にのみ開始するようスケジューリングされます。





ループ合成

ループはデフォルトでは非展開のままです。つまり、 Vivado HLS ではループ本体内のロジックが一回合成され、

ループの終了値に達するまでこのロジックが順に実行されます。ループを展開してすべての演算を並列実行できる

ようにすることも可能ですが、ループハードウェアのコピーが複数作成されます。または、ループをパイプライン

処理してパフォーマンスを改善できます。

ループは常に順番に実行されるようにスケジューリングされます。次の例では、ループ SUM_X と SUM_Y 間に依存

性はありませんが、常にコードに記述される順番でスケジューリングされます。

#include "loop_sequential.h"

void loop_sequential(din_t A[N], din_t B[N], dout_t X[N], dout_t Y[N], dsel_t xlimit, dsel_t ylimit) {

dout_t X_accum=0;dout_t Y_accum=0;int i,j;

SUM_X:for (i=0;i<xlimit; i++) {X_accum += A[i];X[i] = X_accum;

}

SUM_Y:for (i=0;i<ylimit; i++) {Y_accum += B[i];Y[i] = Y_accum;

}}

例 4-1 : シーケンシャルループ

ロジック合成デフォルトでは、関数およびループ内のロジックは常にできるだけ早く実行されるように合成されます。 Vivado

HLS は、常にレイテンシを最小限に抑えながら、デザインを達成しようとします。 +、 *、および / などの C コード

の演算子はハードウェアコアに合成されます。 Vivado HLS では、合成目標を達成するのに最適なコアが自動的に選

択されます。最適化指示子の RESOURCE を使用すると、どのハードウェアコアを使用して演算をインプリメント

するかを明確に指定できます。

配列合成

Vivado HLS では、配列はデフォルトでブロック RAM に合成されます。

FPGA では、ブロック RAM は 18K ビットのプリミティブエレメントのブロックとして提供されます。各ブロック

RAM で、配列をインプリメントするのに必要なの数の 18K プリミティブエレメントが使用されます。たとえば、

1024 個の int 型の配列には 1024 * 32 ビット = 32768 ビットのブロック RAM が必要なので、 32768/18000 = 1.8 個の

18K ブロック RAM プリミティブが必要です。 Vivado HLS では各配列が 1 つのブロック RAM に合成されるとレポー

トされますが、ブロック RAM には複数の 18K プリミティブブロック RAM エレメントが含まれている可能性があり

ます。

デフォルトでは、 Vivado HLS で小型のブロック RAM が 1 つの大型ブロック RAM にまとめられたり、大型ブロック RAM が小型のブロック RAM に分割されたりすることはありませんが、最適化指示子を使用すれば可能です。Vivado HLS では、小型の配列が個別のレジスタに自動的に分割され、結果の質が改善されることがあります。





Vivado HLS では、合成目標に基づいてシングルまたはデュアルポートブロック RAM のどちらを使用するのかが自動的に判断されます。たとえば、間隔またはレイテンシを最小限に抑えるためには、デュアルポートのブロック RAM が使用されます。シングルポートまたはデュアルポートのどちらのブロック RAM を使用するかを明示的に指定するには、最適化指示子 RESOURCE を使用できます。

関数、ループ、タスクのパイプライン処理高パフォーマンスデザインを達成するには、 PIPELINE および DATAFLOW 最適化指示子を使用して、関数、ルー

プ、およびタスクをパイプライン処理することが重要です。

次の図は、パイプライン処理の概念を示しています。パイプライン処理しない場合、関数が完了するまで演算が順

に実行された後、関数の次の実行または次のトランザクションが実行されます。パイプライン処理すると、次のト

ランザクションはハードウェアリソースが使用可能になると開始します。

PIPELINE 指示子を関数またはループに使用すると、最小のエリアオーバーヘッドでスループットを改善できます。

関数およびループはタスクと考えられます。 DATAFLOW 指示子を使用するとタスクをパイプライン処理でき、デー

タ依存性で許容されていれば、タスクを同時に実行できます。

図 4-4 は、タスクのパイプライン処理の概念を示しています。合成後、デフォルトでは func_A、 func_B、 func_C

の順に実行されますが、 DATAFLOW 最適化指示子を使用すると、各関数がデータが使用可能になったら実行される

ようスケジューリングできます。


図 4-3: パイプライン処理

void func(…) { op_Read; op_Compute; op_Write;

}

RDCMPWR

3 cycles

RD CMP WR RD CMP WR

1 cycle

RD CMP WR

2 cyclesRD CMP WR

2 cycles

(A) Without Function Pipelining (B) With Function Pipelining





この例の場合、元の関数のレイテンシと間隔は 8 クロックサイクルです。 DATAFLOW 最適化を使用すると、間隔は

3 クロックサイクルに削減されます。この例に示すタスクは関数ですが、 DATAFLOW 最適化は関数間、関数とルー

プ間、ループ間で実行できます。

Vivado HLS のリソース

Documentation Navigator の Vivado HLS デザインハブを使用すると、 Vivado HLS に関する次のリソースに簡単にアク

セスできます。

• 動作に関するチュートリアルビデオ

• デザインフローのあらゆる点に関するチュートリアル

• Vivado HLS ユーザーガイド

• 複数のアプリケーションノート

デザインハブに関する詳細は、「Documentation Navigator の使用」を参照してください。


図 4-4: DATAFLOW 最適化

void top (a,b,c,d) { ... func_A(a,b,i1); func_B(c,i1,i2); func_C(i2,d)

return d;}

func_Afunc_Bfunc_C

8 cycles

func_A func_B func_C

8 cycles

3 cycles

func_Afunc_B

func_C

func_Afunc_B

func_C

5 cycles

(A) Without Dataflow Pipelining (B) With Dataflow Pipelining

X14266





最適化手法

前のセクションで説明したデフォルトの合成ビヘイビアーに加えて、 Vivado HLS には多くの最適化指示子とコン

フィギュレーションが含まれており、必要な結果になるように合成を設定できます。このセクションでは、高パ

フォーマンスを達成するようデザインを最適化するための一般的な手法を示します。

Vivado HLS を使用してデザインを最適化する際には、さまざまな目標が考えられます。この設計手法では、クロッ

クサイクルごとに新しい入力データ 1 サンプルを処理するパフォーマンスができるだけ高いデザインを作成するこ

とを目標としていると想定されるので、そのための最適化がレイテンシまたはリソースを削減する最適化の前に実

行されます。

次の「HLS 最適化手法」セクションでは、さまざまな C コードアーキテクチャに対してここで説明した手法を適用

する方法を説明します。

ここで説明する最適化の詳細は、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参照 2] の次のセクション

を参照してください。

• インターフェイスの管理

• デザイン最適化

特定の最適化の詳細を確認する前に、設計手法を確認し、高位合成の最適化をグローバルな観点で理解しておくこ

とをお勧めします。


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xManagingInterfaces

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xDesignOptimization




HLS 最適化手法

図 4-5 に、 Vivado HLS の最適化手法を示します。まず、 C コードが正しく機能するかどうかを検証することの重要

性は、どれだけ誇張してもし過ぎることはありません。残りの手順 (インターフェイスの決定、デザインのパイプラ

イン処理、データ構造を最適化することにより最適なパイプライン処理の妨げとなる問題の解決、レイテンシおよ

びエリアの問題の解決) については、次に説明します。

次は、最適化指示子すべてをリストしています。このリストには、左側に Tcl コマンドを、右側にそれに該当するプ

ラグマ指示子 (C コードに直接配置可能) を示しています。

set_directive_allocation - ALLOCATION 指示子 set_directive_array_map - ARRAY_MAP 指示子 set_directive_array_partition - ARRAY_PARTITION 指示子 set_directive_array_reshape - ARRAY_RESHAPE 指示子 set_directive_data_pack - DATA_PACK 指示子 set_directive_dataflow - DATAFLOW 指示子 set_directive_dependence - DEPENDENCE 指示子 set_directive_expression_balance - EXPRESSION_BALANCE 指示子 set_directive_function_instantiate - FUNCTION_INSTANTIATE 指示子 set_directive_inline - INLINE 指示子 set_directive_interface - INTERFACE 指示子 set_directive_latency - LATENCY 指示子 set_directive_loop_flatten - LOOP_FLATTEN 指示子 set_directive_loop_merge - LOOP_MERGE 指示子 set_directive_loop_tripcount - LOOP_TRIPCOUNT 指示子 set_directive_occurrence - OCCURRENCE 指示子 set_directive_pipeline - PIPELINE 指示子 set_directive_protocol - PROTOCOL 指示子 set_directive_reset - RESET 指示子 set_directive_resource - RESOURCE 指示子 set_directive_stream - STREAM 指示子 set_directive_top - TOP 指示子


図 4-5: HLS 最適化手法





set_directive_unroll - UNROLL 指示子

コンフィギュレーションはデフォルトの合成ビヘイビアーを変更します。コンフィギュレーションに該当するプラ

グマはありません。 GUI では、コンフィギュレーションは [Solution] → [Solution Settings] → [General] から設定できま

す。次に使用可能なコンフィギュレーションすべてのリストを示します。

config_array_partition - 配列の分割をコンフィギュレーション config_bind - バインドのオプションをコンフィギュレーション config_compile - 最適化をコンフィギュレーション config_dataflow - データフローパイプラインをコンフィギュレーション config_interface - I/O モードのコマンドをコンフィギュレーション config_rtl - RTL 生成のオプションをコンフィギュレーション config_schedule - スケジューラーオプションをコンフィギュレーション

すべての最適化指示子および合成コンフィギュレーションのリストを取得しておくだけでなく、それらを使用する

手法を理解しておくことをお勧めします。

手順 1: 初期最適化

次の表に、デザインに追加するかどうかを最初に考慮する必要のある指示子をリストします。

デザインインターフェイスは通常システムのその他のブロックで定義されます。 I/O プロトコルのタイプを指定する

と合成で何が達成できるのかを判断しやすくなるので、デザインの最適化に進む前に INTERFACE 指示子を使用し

てこれを指定しておくことをお勧めします。

アルゴリズムがストリーミング方法でデータにアクセスする場合は、ストリーミングプロトコルの 1 つを使用して、

高パフォーマンスが達成されるようにすることを考慮します。

ヒント : I/O プロトコルが外部ブロックで完全に固定され、変更されない場合は、 INTERFACE 指示子を直接 C コード

にプラグマとして挿入してみることを考慮してください。

構造体が最上位引数リストで使用される場合、個別の要素に分解され、構造体の各要素が個別のポートとしてインプ

リメントされます。 DATA_PACK 最適化を使用して構造体全体を 1 つのデータワードとしてインプリメントし、 1 つ

の RTL ポートになるようにすると有益な場合があります。構造体に大きな配列が含まれる場合は、注意が必要です。

配列の各要素がデータワードにインプリメントされると、かなり幅の広いデータポートになることがあります。

デザインを最初に合成したときによく発生する問題は、レポートファイルにレイテンシと間隔が数値ではなくクエ

スチョンマーク (?) として表示されることです。デザインに範囲が可変のループがある場合は、 Vivado HLS でレイ

テンシを判断できず、この状況を示すためにクエスチョンマーク (?) が使用されます。

表 4-1: 最適化ストラテジの手順 1: 初期最適化

指示子およびコンフィギュレーション説明

INTERFACE 関数記述から RTL ポートをどのように作成するかを指定します。

DATA_PACK 構造体 (struct) のデータフィールドをワード幅が広い 1 つのスカラー

にパックします。

LOOP_TRIPCOUNT 範囲が可変のループに使用されます。ループの反復回数の見積もり

を指定します。これは合成には影響がなく、レポートにのみ影響し

ます。

Config Interface 最上位関数の引数に関連付けられていない I/O ポートを制御し、最終

的な RTL から未使用のポートを削除します。





この状況を解消するには、 [Analysis] パースペクティブまたは合成レポートを使用し、合成で数値がレポートされな

かった最下位ループを見つけて、 LOOP_TRIPCOUNT 指示子を使用して見積もられた tripcount を適用します。これ

により、レイテンシと間隔の値がレポートされるようになり、さまざまな最適化のソリューションを比較できるよ

うになります。

注記: 範囲が可変のループは完全には展開できないため、階層のそれより上位の関数およびループはパイプライン処

理できません。これについては、次のセクションで説明します。

最後に、グローバル変数は通常合成では関数のスコープ内で書き込みおよび読み出しされるので、最終的な RTL デ

ザインで I/O ポートである必要はありません。グローバル変数が C 関数からの情報の読み出しに使用される場合は、

インターフェイスコンフィギュレーションを使用してそれらを I/O ポートにすることをお勧めします。

手順 2: パフォーマンスのためのパイプライン処理高パフォーマンスデザインを作成する次の段階では、関数、ループ、およびタスクをパイプライン処理します。次

の表に、パイプライン処理のために使用する指示子を示します。

最適化プロセスのこの段階では、できるだけ多くの同時処理演算が作成されます。 PIPELINE 指示子は関数および

ループに適用できます。 DATAFLOW 指示子を関数およびループを含むレベルで使用すると、それらを並列実行でき

ます。

推奨されるのはボトムアップ方式で、次の点に注意する必要があります。

• 関数およびループの中には、サブ関数が含まれるものがあります。サブ関数がパイプライン処理されていない

と、それより上位の関数がパイプライン処理されたときにあまり改善が見られないことがあります。これは、

サブ関数がパイプライン処理されていないことが原因です。

• 関数およびループの中には、下位ループが含まれるものがあります。 PIPELINE 指示子を使用すると、それより

下の階層のループすべてが自動的に展開され、かなり多くのロジックが作成される可能性があります。このた

め、下位階層のループをパイプライン処理することを推奨します。

• 範囲が可変のループは展開できないので、それより上の階層のループおよび関数はパイプライン処理できませ

ん。この問題を回避するには、これらのループをパイプライン処理して、 DATAFLOW 最適化を使用して、ルー

プを含む関数のパフォーマンスが最大になるようにします。または、可変範囲を削除するようループを記述し

直します。

最適化プロセスのこの段階での基本的なストラテジは、タスク (関数およびループ) をできるだけパイプライン処理

することです。どの関数およびループをパイプライン処理するかや DATAFLOW 指示子をどこに適用するなどの詳

細は、「最適化ストラテジ」を参照してください。

表 4-2: 最適化ストラテジの手順 2: パフォーマンスのためのパイプライン処理

指示子およびコンフィギュレーション説明

PIPELINE ループまたは関数内の演算を同時に実行できるようにして開始間隔を削

減します。

DATAFLOW タスクレベルのパイプライン処理を有効にし、関数およびループが同時

に実行されるようにします。開始間隔を最小にするために使用します。

RESOURCE RTL で変数 (配列、算術演算、関数の引数) をインプリメントするのに使

用するリソース (コア) を指定します。

Config Compile 反復カウントに基づいてループが自動的にパイプライン処理されるよう

にします。





ループまたは入れ子のループを多く含むデザインに対しては、ループ反復カウントに基づいてデザインのすべての

ループを自動的にパイプライン処理するコンパイル設定があります。詳細は、『Vivado Design Suite ユーザーガイド :

高位合成』 (UG902) [参照 2] のこのセクションを参照してください。

あまり一般的ではありませんが、演算子レベルでパイプライン処理を適用することもできます。たとえば、 FPGA の

ワイヤ配線により予期しない大きな遅延が発生し、デザインを必要なクロック周波数でインプリメントすることが

困難な場合があります。このような場合、 RESOURCE 指示子を使用して乗算器、加算器、およびブロック RAM な

どの特定の演算をパイプライン処理できます。

RESOURCE 指示子は、 C コードで演算をインプリメントするのにどのハードウェアコアを使用するかを指定しま

す。 1 より大きいレイテンシ値でリソースをインプリメントするように指定すると、 Vivado HLS でその演算用に追

加のパイプライン段が使用されます。 RTL 合成では、これらの追加のパイプライン段を使用して全体的なタイミン

グを改善できます。

次の演算では、パイプライン処理されたインプリメンテーションがサポートされます。

• 使用可能なマルチステージ (*nS) コアがある標準的な算術演算

• 浮動小数点演算

• ブロック RAM でインプリメントされる配列

手順 3: パフォーマンスのための構造最適化

C コードに、必要なパフォーマンスを達成するための関数またはループのパイプライン処理を妨げるような記述が

含まれていることがあります。この場合、コードを変更する必要のあることもありますが、ほとんどの場合はほか

の最適化指示子を使用することによりこれらの問題を解決できます。

次に、最適化指示子を使用してパイプライン処理のパフォーマンスを改善する例を示します。最初の例では、ルー

プに PIPELINE 指示子を追加して、ループのパフォーマンスを改善しています。

#include "bottleneck.h"

dout_t bottleneck(din_t mem[N]) {

dout_t sum=0;int i;

SUM_LOOP: for(i=3;i<N;i=i+4)#pragma HLS PIPELINEsum += mem[i] + mem[i-1] + mem[i-2] + mem[i-3];

return sum;}

上記のコードが合成されると、次のメッセージが表示されます。

INFO: [SCHED 61] Pipelining loop 'SUM_LOOP'.WARNING: [SCHED 69] Unable to schedule 'load' operation ('mem_load_2', bottleneck.c:62) on array 'mem' due to limited memory ports.INFO: [SCHED 61] Pipelining result: Target II: 1, Final II: 2, Depth: 3.I


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xAutomaticLoopPipelining




パイプラインで必要なパフォーマンスが満たされない場合は、 [Analysis] パースペクティブでデザインを確認しま

す。 [Analysis] パースペクティブについては、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参照 2] のこ

のセクションを参照してください。次の図に、このデザイン例の [Analysis] パースペクティブの表示を示します。

• この図では、メモリ (ブロック RAM) アクセスがハイライトされています。これらは、上記のコードの mem 配

列に該当します。

• 各アクセスには、アドレスの生成に 1 サイクル、データの読み出しに 1 サイクルの合計 2 クロックサイクルか

かります。

• ブロック RAM には最大 2 つのデータポートしかないので、サイクル C1 で開始できるメモリ読み出しは 2 つだ

けです。

• 3 つ目と 4 つ目のメモリ読み出しは C2 でのみ開始できます。

• 次のメモリ読み出しのセットを開始できるのは、早くてもサイクル C3 です。これは、ループが II=2 であるこ

とを意味し、ループへの次の入力セットは 2 サイクルごとにのみ読み出し可能です。

メモリポートの制限による問題は、配列 mem に ARRAY_PARTITION 指示子を使用すると解決できます。この指示

子を使用すると、配列がより小さい配列に分割され、データポート数が増加し、データ構造が改善されて、高パ

フォーマンスのパイプライン処理が可能になります。


図 4-6: ポートが少なすぎるために発生するパイプラインエラー


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xAnalysisPerspective

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xAnalysisPerspective




次に示すように指示子を追加すると、配列 mem が 2 つのデュアルポートメモリに分割され、 4 つの読み出しすべて

を 1 クロックサイクルで実行できるようになります。配列を分割するには、複数のオプションがあります。この例

では、係数 2 でのサイクリック分割により、最初のパーティションに元の配列からの要素 0、 2、 4 などが含まれ、 2

つ目のパーティションに要素 1、 3、 5 などが含まれます。デュアルポートブロック RAM を使用すると、要素 0、 1、

2、および 3 を 1 つのクロックサイクルで読み出すことができます。

#include "bottleneck.h" dout_t bottleneck(din_t mem[N]) {#pragma HLS ARRAY_PARTITION variable=mem cyclic factor=2 dim=1

dout_t sum=0;int i;

SUM_LOOP: for(i=3;i<N;i=i+4)#pragma HLS PIPELINEsum += mem[i] + mem[i-1] + mem[i-2] + mem[i-3];

return sum;}

ループおよび関数をパイプライン処理する際には、ほかにも問題が発生する可能性があります。次の表に、これら

の問題に対処するのに有益な、データ構造のボトルネックを削減する指示子をリストします。

配列の自動分割には、 ARRAY_PARTITION 指示子だけでなく、配列分割のコンフィギュレーション (Config Array

Partition) も使用できます。

表 4-3: 最適化ストラテジの手順 3: パフォーマンスのための構造最適化

指示子およびコンフィギュレーション

説明

ARRAY_PARTITION 大型の配列を複数の配列または個別のレジスタに分割し、データへのアクセスを

改善し、ブロック RAM のボトルネックを削除します。

DEPENDENCE ループキャリー依存性を克服し、ループをパイプライン処理できるようにする (ま

たはより短い間隔でパイプラインできるようにする ) 追加情報を提供します。

INLINE 関数をインライン化し、関数の階層をすべて削除します。関数の境界を超えたロ

ジック最適化をイネーブルにし、関数呼び出しのオーバーヘッドを削減すること

により、レイテンシ/間隔を改善します。

UNROLL for ループを展開し、複数の演算を 1 つにまとめたものではなく、複数の個別の演

算を作成します。

Config Array Partition グローバル配列を含めた配列の分割方法と、分割が配列ポートに影響するかどう

かを指定します。

Config Compile 自動ループパイプラインおよび浮動小数点の math 最適化など、合成特有の最適化

を制御します。

Config Schedule 合成のスケジューリング段階で使用するエフォートレベル、出力メッセージの詳

細度、およびタイミングを満たすためにパイプライン処理されたタスクの II を緩

和するかどうかを指定します。

CONFIG_UNROLL 指定したループ繰り返し数以下のすべてのループを展開します。





コンパイルのコンフィギュレーション (Config Compile) を使用すると、ループ階層が自動的にパイプライン処理され

ます。ループをパイプライン処理する際に暗示される依存性を削除するため、 DEPENDENCE 指示子が必要な場合が

あります。このような依存性は、次のように SCHED-68 メッセージでレポートされます。

@W [SCHED-68] Target II not met due to carried dependence(s)

INLINE 指示子を使用すると、関数の境界が削除されます。これは、ロジックまたはループを 1 レベル上の階層に移

動するために使用できます。ロジックをその上の関数に含めると関数内のロジックをより効率的にパイプライン処

理できるようになり、一連のループを上の階層に含めるとほかのループと共にデータフローしやすくなることがあ

ります。

ループを必要な開始間隔 (II) でパイプライン処理できない場合は、 UNROLL 指示子が必要である可能性があります。

ループをパイプライン処理しても II=4 しか達成できない場合、システム内のその他のループおよび関数も II=4 に制

約されます。ループを展開するとさらにロジックが作成されますが、ボトルネックは削除されるので、場合によっ

てはループを展開すると有益です。

スケジューリング設定 (Config Schedule) を使用すると、スケジューリングメッセージの詳細度を増加し、スケ

ジューリングのエフォートレベルを制御できます。詳細オプションを指定すると、スケジューリングで制約を満た

すことができない場合に、 Vivado HLS でクリティカルパスがリストされます。

通常は、スケジューリングエフォートを増加してもスケジューリングが改善されることは少ないですが、オプショ

ンは提供されています。開始間隔 (II) を改善するために最適化指示子および設定を使用できない場合、コードの変更

が必要となる可能性があります。この例については、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参

照 2] のこのセクションを参照してください。

手順 4: レイテンシの削減

Vivado HLS で開始間隔 (II) を最小限に抑える処理が終了すると、レイテンシを最小限に抑えるための処理が実行さ

れます。次の表にリストされる最適化指示子を使用すると、特定のレイテンシを削減または指定できます。

ほとんどのアプリケーションでは、重要なのはスループットであり、レイテンシは重要ではないので、ループおよ

び関数をパイプライン処理する場合はこれらの指示子は通常必要ありません。ループおよび関数がパイプライン処

理されない場合は、前のタスクが完了するまで次の入力セットを読み出すことはできないので、スループットがレ

イテンシにより制限されます。

必要なレイテンシを指定するには、 LATENCY 指示子を使用します。ループ最適化指示子は、ループ階層をフラット

にしたり、連続するループを結合するために使用できます。レイテンシを向上できるのは、通常ループに入って出

るまでに 1 クロックサイクル費やされるからです。ループ間の遷移数が少ないほど、デザインが完了するまでにか

かるクロック数も少なくなります。

表 4-4: 最適化ストラテジの手順 4: レイテンシの削減

指示子説明

LATENCY 最小および最大レイテンシ制約を指定します。

LOOP_FLATTEN 入れ子のループを 1 つのループに展開し、レイテンシを改善します。

LOOP_MERGE 連続するループを結合して全体的なレイテンシを削減し、共有を増やして

最適化を向上します。


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xHighLevelSynthesisCodingStyles




手順 5: エリアの削減

必要なパフォーマンスターゲット (または開始間隔 (II)) が満たされたら、次は同じパフォーマンスを維持しながら

エリアを削減します。

DATAFLOW 最適化を使用しており、デザインのタスクがストリーミングデータであるかどうかを Vivado HLS で判

断できない場合は、ピンポンバッファーを使用してデータフロータスク間にメモリチャネルがインプリメントされ

ます。デザインがパイプライン処理されており、データが 1 つのタスクから次のタスクにストリーミングされる場

合、データフローコンフィギュレーション config_dataflow を使用してデフォルトのメモリチャネルで使用さ

れるピンポンバッファーを FIFO バッファーに変換することにより、エリアを大幅に削減できます。 FIFO の深さは

必要最小限のサイズに設定できます。

データフローコンフィギュレーション config_dataflow は、すべてのメモリチャネルのデフォルトインプリメ

ンテーションを指定します。 STREAM 指示子を使用すると、個別の配列をブロック RAM としてインプリメントす

るか、 FIFO としてインプリメントするかを指定できます。

デザインが hls::stream I/O プロトコルを使用してインプリメントされている場合、メモリチャネルはデフォルト

で深さ 1 の FIFO になり、データコンフィギュレーションは必要ありませんが、入力データよりも多くのデータが出

力される補間などのタスクでは、 STREAM 指示子を使用して FIFO のサイズを増加できます。

次の表に、デザインをインプリメントするために使用されるリソースを最小限に抑える場合に考慮すべきその他の

指示子を示します。

表 4-5: 最適化ストラテジの手順 5: エリアの削減

指示子説明

ALLOCATION 使用される演算、コア、または関数の数を制限します。これ

によりハードウェアリソースが強制的に共有されるので、レ

イテンシが増加する可能性があります。

ARRAY_MAP 複数の小型の配列を 1 つの大型の配列にまとめ、ブロック

RAM リソースを削減します。

ARRAY_RESHAPE 配列を多数の要素を含むものからワード幅の広いものに変更

します。多数のブロック RAM を使用せずにブロック RAM ア

クセスを向上するのに有益です。

LOOP_MERGE 連続するループを結合して全体的なレイテンシを削減し、共

有を増やして最適化を向上します。

OCCURRENCE 関数またはループをパイプライン処理する際に、あるロケー

ションのコードがそれを含む関数またはループのコードより

も低速で実行されることを指定します。

RESOURCE 変数 (配列、算術演算、関数引数) を RTL にインプリメントす

るのに使用するライブラリリソース (コア) を指定します。

STREAM DATAFLOW 最適化中に特定のメモリチャネルを FIFO または

RAM としてインプリメントするよう指定します。

Config Bind 合成のバインド段階で使用するエフォートレベルを指定しま

す。使用される演算数をグローバルに最小限に抑えるために

使用します。

Config Dataflow DATAFLOW 最適化でのデフォルトのメモリチャネルと FIFO

の深さを指定します。





演算数を制限し、演算をインプリメントするのに使用するコアを選択するには、 ALLOCATION と RESOURCE 指示

子を使用します。たとえば、関数またはループに乗算器が 1 つだけ使用されるように制限し、パイプライン乗算器

を使用してインプリメントされるよう指定できます。バインドコンフィギュレーション (Config Bind) を使用すると、

特定の演算の使用をグローバルに制限できます。

重要: 最適化指示子は、指定したスコープ内にのみ適用されます。

開始間隔を向上するために ARRAY_PARITION 指示子を使用する場合は、その代わりに ARRAY_RESHAPE 指示子を

使用することも考慮してみてください。 ARRAY_RESHAPE 最適化では、配列の分割と同様のタスクが実行されます

が、分割により作成された要素がより幅の広いデータポートを持つ 1 つのブロック RAM に再結合されます。

C コードに類似のインデックスを持つ一連のループが含まれる場合、 LOOP_MERGE 指示子を使用してループを結合

することにより実行できるようになる最適化もあります。

最後に、パイプライン領域のコードの一部が、領域の残りの部分よりも小さい開始間隔で動作する場合は、

OCCURENCE 指示子を使用して、このロジックが低いレートで実行されるよう最適化できます。

最適化ストラテジ

最適化は、通常すべてのタイプの C コードに適用できます。高パフォーマンスのデザインを得るのに重要な最適化

指示子は、 PIPELINE および DATAFLOW 指示子です。このセクションでは、 C コードのさまざまなアーキテクチャ

にこれらの指示子を適用する方法を説明します。

C 関数には、基本的にはフレームベースとサンプルベースの 2 種類あります。

どちらのスタイルを使用しても、ほぼ同一の RTL IP を生成できますが、最適化指示子の適用方法は異なります。ど

ちらのスタイルを使用するかは、ユーザーしだいです。記述しやすい方のスタイルを使用してください。

フレームベースの C コード

次にフレームベースの C コードの例を示します。このコーディングスタイルの主な特徴は、各トランザクションで

関数が複数のデータサンプル (1 つのデータフレーム) を処理することです。トランザクションは、 C 関数の 1 つの

完結した実行と考えられます。

void foo(data_t in1[HEIGHT][WIDTH],data_t in2[HEIGHT][WIDTH],data_t out[HEIGHT][WIDTH] {

Loop1: for(int i = 0; i < HEIGHT; i++) {Loop2: for(int j = 0; j < WIDTH; j++) {out[i][j] = in1[i][j] * in2[i][j];Loop3: for(int k = 0; k < NUM_BITS; k++) {

}}}

データは通常配列として供給されますが、ポインターまたは hls::stream として供給することも可能です。ポイ

ンターにはポインター演算を使用して複数回アクセスでき、 hls::stream には関数内で複数回アクセスできます。





フレームベースのコーディングスタイルのもう 1 つの特徴は、データが通常ループを使用してアクセスおよび処理

されることです。上記のコードは、この典型的な例です。

C コードをパイプライン処理する場合は、 PIPELINE 指示子をデータの 1 サンプルが処理される箇所に配置します。

PIPELINE 指示子の適用箇所について、上記の例のレベルを使用して説明します。

関数レベル: 関数は、入力としてデータのフレーム (in1 および in2) を受信します。関数が II=1 (各クロックサイクル

ごとに新しい入力セットを読み出し ) でパイプライン処理されると、 in1 と in2 のすべての HEIGHT*WIDTH 値を 1 つ

のクロックサイクルで読み出すようにツールに命令されます。

これが意図するデザインであるという可能性は低いはずです。

PIPELINE 指示子を適用する場合、このレベルよりも下の階層のループすべて (この場合、 foo の下のすべて) が展開

される必要があります。これは、パイプライン内に順序ロジックを存在させることはできないというパイプライン

処理の要件です。このため、ロジックのコピーが HEIGHT*WIDTH*NUM_ELEMENT 個作成され、デザインが大き

くなります。

配列は、次のタイプのインターフェイスとしてインプリメントできます。

• ブロック RAM インターフェイス (デフォルト )

• AXI4-Lite インターフェイス

• AXI4-Stream インターフェイス

• FIFO インターフェイス

デフォルトのブロック RAM インターフェイスは、シングルポートまたはデュアルポートのインターフェイスとして

インプリメントでき、ポートを介してクロックごとに 2 サンプルまでを読み出しまたは書き込みできます。スト

リーミングインターフェイス (AXI4-Stream、双方向ハンドシェイク、または FIFO インターフェイス) では、データ

がストリーミングでアクセスされている場合のみ使用可能で、クロックごとに 1 サンプルしか読み出すことができ

ません。 AXI4-Lite インターフェイスは、低速のアドレス指定可能なインターフェイスです。

HLS 最適化手法の手順 3 を使用すると、このボトルネックを回避できます。同じクロックサイクルですべてのデー

タ値にアクセスするには、配列を個別の要素に分割し、 HEIGHT*WIDTH 個のポート (各ポートがデュアルポートブ

ロック RAM インターフェイスの場合はその半分の数のポート ) を作成する必要があります。これにより、すべての

ポートを同じクロックサイクルで読み出せるようになります。出力ポートの場合も同様です。

注記: 最適化手法の詳細は、「最適化手法」を参照してください。

この結果、並列処理の多いデザインにはなりますが、デザイン自体は大きくなります。

Loop1 レベル: Loop1 内のロジックでは、 2 次元行列の行全体が処理されます。ここに PIPELINE 指示子を配置する

と、クロックサイクルごとに 1 行を処理するデザインが作成されます。これにより、これより下のループは展開さ

れるので、追加のロジックが作成されます。

大型の並列デザインは、最初のオプションほど大型ではなく、高速でもありません。

Loop2 レベル: ループ内のロジックは、配列から 1 サンプルを処理しようとします。デザインでクロックサイクルご

とに 1 サンプル処理される場合は、これがパイプライン処理を実行するレベルです。

これにより Loop3 が完全に展開されますが、 Loop2 が各クロックで 1 サンプル処理するので、これは要件であり、通

常必要です。典型的なデザインでは、 Loop3 のロジックはシフトレジスタであるか、 1 ワード内のビットを処理しま

す。クロックごとに 1 サンプル処理されるようにするには、ループを展開してこれらの処理が並列実行されるよう

にしてください。





このデザインでは、各クロックで 1 データサンプルが処理され、必要な場合にのみ配列ロジックを作成して、この

レベルのデータスループットが達成されます。

Loop3 レベル: 前述のように、 Loop3 のロジックは通常ビットレベルまたはデータシフトタスクを実行します (これ

より上のレベルでは各データサンプルで動作)。たとえば、 Loop3 にシフトレジスタ演算が含まれて、 Loop3 がパイ

プライン処理される場合、クロックサイクルごとに 1 つのデータ値をシフトするようにツールに伝えられます。デ

ザインは Loop2 でのみロジックに戻り、すべてのサンプルがシフトされた後に次の入力を読み出します。

この例の場合、パイプライン処理する理想的な箇所は Loop2 です。

フレームベースのコードの場合、ループレベルでパイプライン処理、通常はサンプルのレベルで動作するループを

パイプライン処理することをお勧めします。確信がない場合は、 C コードに print コマンドを記述し、 C シミュレー

ションを使用してこれが各クロックサイクルで実行するべきレベルであるかどうかを確認してください。

前述のように、フレームベースのデザインでは、 ARRAY_PARTITION 指示子を使用して配列を小さなブロック (また

はインターフェイスの配列の複数のポート ) に分割して、パフォーマンスのボトルネックを解消するのが一般的です。

サンプルベースの C コード

次にサンプルベースの C コードの例を示します。このコーディングスタイルの主な特徴は、トランザクションごと

に関数で 1 つのデータサンプルが処理されることです。

void foo (data_t *in, data_t *out) {

static data_t acc;

Loop1: for (int i=N-1;i>=0;i--) {acc+= ..some calculation..; }

*out=acc>>N;}

サンプルベースの関数では、データはスカラー、ポインター、または hls::stream 変数として供給されます。

ポインターまたは hls::stream は関数内では何度でもアクセスできますが、サンプルベースの関数では一度しか

アクセスできません。

サンプルベースのコーディングスタイルでは、関数にスタティック変数が含まれることがよくあります。スタ

ティック変数の値は、アキュムレータやサンプルカウンターなど、関数呼び出し間で保持される必要があります。

II = 1 (各クロックサイクルで 1 つのデータ値の読み出し ) を達成するには、関数をパイプライン処理する必要があり

ます。これによりループが展開され、追加ロジックが作成されてしまいますが、これを回避する方法はありません。

Loop1 がパイプライン処理されると、完了するのに N クロックサイクル以上かかります。この後にのみ、関数は次

の x 入力値を読み出すことができます。

サンプルレベルで動作する C コードを使用する際は、常に関数をパイプライン処理するようにします。サンプル

ベースのデザインのループは、通常シフトレジスタ関数を実行する配列に対して動作するので、これらの配列を個

別の要素に分割し、すべてのサンプルが 1 つのクロックサイクルでシフトされるようにすることも珍しくありませ

ん。そうしない場合、シフト演算はデュアルポートブロック RAM へのサンプルの読み出しおよび書き込みに制限

されます。

この例でのソリューションは、関数 foo をパイプライン処理することです。これにより、クロックごとに 1 サンプ

ル処理するデザインが得られます。





RTL 検証

Vivado HLS での RTL 検証は、完全に自動化されています。 RTL/C 協調シミュレーション中は、 C シミュレーション

で使用されたのと同じ C テストベンチが再利用され、合成された関数が RTL デザインに置き換えられます。 Vivado

HLS では、正しいインターフェイスプロトコルを使用した RTL デザインとのデータシーケンスの送受信が自動的に

実行されます。

C テストベンチが再利用されるので、 RTL テストベンチを作成する必要はありません。

デザインでの選択により、 RTL/C 協調シミュレーションを使用できない場合があります。 RTL/C 協調シミュレー

ションを実行するには、次の条件が満たされている必要があります。

• 最上位関数が ap_ctrl_hs または ap_ctrl_chain ブロックレベルインターフェイスを使用して合成されて

いる。

• デザインが純粋に組み合わせである。

• 最上位関数の開始間隔 (II) が 1 である。

• インターフェイスは、ストリーミングであり ap_fifo、 ap_hs、または axis インターフェイスモードを使用

してインプリメントされるすべての配列である。

これらの条件のいずれかが満たされない場合、次のメッセージが表示されて C/RTL 協調シミュレーションが停止し

ます。

@E [SIM-345] Cosim only supports the following 'ap_ctrl_none' designs:(1) combinational designs; (2) pipelined design with task interval of 1; (3) designs with array streaming or hls_stream ports.@E [SIM-4] *** C/RTL co-simulation finished:FAIL ***

IP パッケージ

デザインが終了したら、 Vivado HLS の [Export RTL] 機能を使用して、 IP カタログに適した IP パッケージを作成しま

す。 AXI4-Lite インターフェイスを含むデザインの場合、 IP パッケージにインターフェイスをプログラムするのに必

要なソフトウェアドライバーファイルが含まれます。

Vivado HLS には、複数のパッケージオプションがあります。生産性の高い IP インテグレーター手法を使用するに

は、 IP カタログフォーマットを使用し、 AXI インターフェイスを使用する必要があります。





デザイン解析および最適化

どの設計手法でも、デザイン解析と改善に生産的なプロセスを使用することが必要です。 C シミュレーション、 C デ

バッグ、合成、解析、 RTL 検証、および IP パッケージなどに Vivado HLS を使用する方法は、『Vivado Design Suite

ユーザーガイド : 高位合成』 (UG902) [参照 2] のこのセクションを参照してください。

デザインを作成してパフォーマンスを向上するプロセスは、次のようにまとめることができます。

• C コードをシミュレーションして、デザインが正しいかどうかを検証。

• 初期デザインを合成。

• デザインパフォーマンスを解析。

• 新しいソリューションを作成して最適化指示子を追加。

• 新しいソリューションのパフォーマンスを解析。

• 要件が満たされるまで新しいソリューションおよび最適化指示子の作成を続行。

• RTL が正しいかどうかを検証。

• デザインを IP としてパッケージしてシステムに統合。

C シミュレーションを使用して、デザインの検証と合成前の結果の確認の両方を実行すると、生産性が最も高くな

ります。 C シミュレーションの速度は、高位合成デザインフローの主な利点です。 C デザインが正しいかどうかを

確認するのに時間を費やす方が、間違った仕様によるパフォーマンス問題をデバッグするのに時間を費やすよりも

生産的です。

便利なレポート

初期合成結果が得られたら、まずその結果を確認します。合成レポートに不明な値 (? マークで表示) が含まれる場合

は、それらを解決する必要があります。最適化指示子によりデザインパフォーマンスが改善されるかどうかを判断

するには、ソリューションを比較できるようにすることが重要であり、比較するためにはレイテンシが既知の値で

ある必要があります。

ループの範囲が可変である場合、 Vivado HLS でループが完了するまでの反復回数を判断できません。ループの 1 反

復のレイテンシがわかっている場合でも、範囲が可変であると、ループのすべての反復を完了するのにかかるレイ

テンシは決定できません。

デザインのループを見直してください。合成レポートの [Latency] → [Details] → [Loops] セクションでループを確認し

ます。不明の値は階層の上方向に伝搬されていくので、レイテンシが不明であるとレポートされているループ階層

の最下位ループから開始します。ループは、階層の下位にある可能性があります。レポートの [Latency] → [Details]

→ [Instance] セクションで下位関数に不明の値が示されていないかどうかを確認します。レイテンシ値が不明と示さ

れる関数のレポートを開いて、ループが特定されるまでプロセスを繰り返します。

合成レポートの代わりに、 [Analysis] パースペクティブを使用することもできます。

範囲が可変のループを特定したら、 LOOP_TRIPCOUNT 指示子を追加してループの反復回数を指定するか、 C コード

にアサートを使用して範囲を指定します。詳細は、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参照 2]

のこのセクションを参照してください。

LOOP_TRIPCOUNT 指示子はすべてのソリューションで必要とされるので、この指示子を使用する場合は、ソース

コードに pragma として追加することを考慮してください。


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xUsingVivadoHLS

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf;a=xAssertions




範囲が可変であるループがほかにもあるとわかっている場合は、それらのループに対して反復制限を指定してくだ

さい。指定しない場合は、最上位のレポートに実数が含まれるまで、合成を繰り返して、同じボトムアッププロセ

スを使用します。

デザイン解析

デザイン解析は、次の 3 つの手法で実行できます。

• 合成レポート。

• [Analysis] パースペクティブ。

• RTL シミュレーションの波形。

ヒント : 結果を解析する前に、コンソールウィンドウかログファイルでどの最適化が実行されたか (または飛ばされ

たか、エラーになったか) を確認します。

合成レポートおよび [Analysis] パースペクティブを使用すると、レイテンシ、間隔、およびリソースの見積もりを解

析できます。ソリューションが複数ある場合は、 GUI の [Compare Reports] ボタンを使用して、ソリューションを並

べて比較します。この機能は、 [Analysis] パースペクティブと同様 GUI からしか使用できませんが、バッチモードを

使用して作成したプロジェクトも vivado_hls -p project_name を使用して GUI で開いて解析できます。

この場合も、階層ごとに改善していく方法が効果的です。最上位から開始して、レイテンシ、間隔、エリアそれぞ

れにどのタスクが最も影響しているかを判断し、それらのタスクの詳細を確認します。目標を達成するためにパ

フォーマンスを改善する余地があると思われるループまたは関数が見つかるまで、階層を順に下位方向に確認して

いきます。これらの関数またはループを改善すると、上位の階層にも改善が波及していきます。

[Analysis] パースペクティブを使用すると、合成レポートよりも階層の上下移動が簡単です。また、このモードで

は、スケジューリングされた演算およびリソース使用量が詳細に表示され、 C コードの該当部分を表示できるよう

になっています。

まず、 [Analysis] パースペクティブの詳細なスケジューリング表示を使用して、マクロレベルのビヘイビアーを詳細

に確認すると、有益な場合があります。演算は、通常コードが実行される順番にリストされます。 Vivado HLS では、

すべてをクロックサイクル 1 でスケジューリングし、可能であれば 1 クロックサイクルで終了しようとします。

• 演算が全般的に左上から右下にずれている場合は、データの依存性またはコードに含まれるタスクの実行が原

因であると考えられます。前の演算が終了しないと、次の演算は開始できません。

• 演算が順にスケジューリングされていたのに突然多数の演算が同時実行されたり、その逆の状況が発生する場

合は、ボトルネック (I/O ポートや RAM ポートなど) があり、長い間待機した後すべてが並列で実行されている

可能性があります。

デザインの解析には、合成レポートと [Analysis] パースペクティブのほかに、 RTL シミュレーションの波形も使用で

きます。 RTL 検証中には、トレースファイルを保存して、適切なビューアーを使用して表示できます。詳細は、

『Vivado Design Suite チュートリアル: 高位合成』 (UG871) [参照 3] の RTL 検証のチュートリアルを参照してください。

または、 IP パッケージをエクスポートして、 project_name/solution_name/impl/ip/verilog or vhdl

フォルダーの Vivado RTL プロジェクトを開きます。 C/RTL 協調シミュレーションを実行した場合は、このプロジェ

クトに RTL テストベンチが含まれています。

RTL を使用したデザイン解析には、あまり時間をかけないようにしてください。 C コードを変更するか最適化指示

子を追加すると、合成を再実行したときに、異なる名前の RTL デザインが生成されるのが通常です。 RTL の詳細を

理解するために時間を費やしても、新しいデザインが生成されて、別の名前と構造が使用されるたびに、繰り返し

時間を費やすことになってしまいます。





要約すると、階層を上から順に確認し、さらに最適化できそうなタスクを見つけることが推奨されます。

デザイン最適化

最適化を実行する前に、プロジェクト内に新しいソリューションを作成することをお勧めします。ソリューション

を使用すると、結果のセットを異なる結果のセットと比較できます。結果だけでなく、ログファイルおよび出力

RTL ファイルも比較できます。

高パフォーマンスデザインを得るための基本的な最適化ストラテジは、次のとおりです。

• 初期またはベースラインデザインを作成します。

• ループおよび関数をパイプライン処理します。

• 配列のボトルネックやループの依存性など、パイプラインを制限する問題を解決します (ARRAY_PARTITION

および DEPENDENCE 指示子を使用)。

• DATAFLOW 最適化を適用してループおよび関数が同時に実行されるようにします。

• パフォーマンスを満たすため、必要に応じてコードを変更します。

• データフローメモリチャネルのサイズを削減し、 ALLOCATION および RESOUCES 指示子を使用してさらにエ

リアを削減します。

エリアを削減するよりも前に、まずパフォーマンスを満たすようにします。より少ないリソースでデザインを作成

することがストラテジである場合は、パフォーマンスを改善する手順を飛ばします。

最適化プロセス中は、合成後にコンソールへの出力 (またはログファイル) を確認することをお勧めします。 Vivado

HLS では、最適化で指定したパフォーマンス目標に達成できない場合、目標が自動的に緩和され (クロック周波数は

例外)、デザインが達成できる目標で作成されます。このため、合成からの出力を確認して、どのような最適化が実

行されたのか理解しておくことが重要です。

最適化の適用に関する詳細は、『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902) [参照 2] を参照してください。




第 5 章

システム統合

概要

生産的なシステム統合の設計手法では、シェルデザインの開発と同様、 Vivado® IP カタログと IP インテグレーター

を活用します。高生産性設計手法の初期手順に従っている場合、デザインプロセスのこの段階には次が含まれます。

• 検証済みシェル (ボードレベルのインターフェイスが開発され、検証されている )

• デザインのコアの機能を表す検証済みで Vivado IP カタログ用にパッケージされた IP ブロック

• IP レベルインターフェイスに使用される AXI インターフェイス (IP インテグレーターの設計アシスタンスによ

りデザイン作成を自動化可能)

• シェルを検証するために作成されたシステムレベルのテストベンチ

システムコンポーネントは、並列に開発および検証されており、システムに統合する準備ができています。

初期システム統合を実行したら、このフロー全体を自動化し、追加の新しいデザインを簡単に生成できます。

初期システム統合

デザイン統合プロセスをまとめると、次のようになります。

1. シェルデザインに基づく新しい Vivado プロジェクトを作成します。

2. IP インテグレーターを使用して IP ブロックをすべて追加し、 IP を接続します。

3. システムを検証し、デザインをインプリメントして FPGA ビットストリームを生成します。

システム統合プロジェクト

新規システムデザイン統合プロジェクトを作成するには、次のようにリファレンスシェルデザインのいずれかを使

用します。

1. シェルデザインの Vivado プロジェクトを開き、 [File] → [Save Project As] をクリックして新規プロジェクトとし

て保存します。

2. 新規 Vivado RTL プロジェクトを RTL ソースなしで同じターゲットデバイスまたはボードを選択して作成し、

[Create Block Design] をクリックして、 write_bd_tcl コマンドを使用して保存した Tcl スクリプトを [Tcl

Console] ウィンドウで実行して新規プロジェクトにシェルブロックデザインを再生成します。

3. すべてのコアデザイン IP ブロックをプロジェクト IP リポジトリに追加します。




第 5 章: システム統合

システム統合の自動化

IP インテグレーターでは、システムを統合するのに役立つ設計アシスタンスが提供されます。推奨されるストラテ

ジは、シェルデザインを開き、キャンバスにすべての IP ブロックを追加します。すべての IP およびシェルイン

ターフェイスに AXI インターフェイスを使用している場合は、設計アシスタンスがアクティブになり、推奨される

接続が示されます。

設計アシスタンスでは、有効な接続が認識されます。単に接続を自動化するのに加え、 AXI4-Stream インターフェイ

スを AXI メモリマップドポートに接続するなど、必要な AXI インターコネクトロジックも自動的に追加されます。

設計アシスタンスの詳細は、『Vivado Design Suite ユーザーガイド : IP インテグレーターを使用した IP サブシステム

の設計』 (UG994) [参照 8] のこのセクションを参照してください。

トレーニング: デザインに複数のクロックドメインが含まれる場合は、 Vivado Design Suite QuickTake ビデオ: Vivado

IP インテグレーターでの複数クロックドメインの使用を参照してください。

スカラー信号や AXI 以外のバスインターフェイスなど、設計アシスタンスでサポートされない接続を実行してブ

ロックデザインを完成させます。

最後に、 [Validate Design] 機能を使用して、デザインにデザインルール違反がないことを確認します。メモリマップ

ドインターフェイスまたはプロセッサを使用するデザインの場合は、『Vivado Design Suite ユーザーガイド : IP イン

テグレーターを使用した IP サブシステムの設計』 (UG994) [参照 8] のこのセクションを参照してください。

デザインが完成し、正しく検証されたら、 write_bd_tcl コマンドを使用することをお勧めします。

write_bd_tcl コマンドを使用すると、完全なシステムを再生成するのに必要なコマンドが Tcl ファイルに記述さ

れます。

システムの検証とインプリメンテーション

IP インテグレーターでシステムブロックデザインを完成させたら、完全なシステムを検証およびインプリメンテー

ションするために出力ファイルを生成し、デザインの最上位 HDL ラッパーを作成します。 IP インテグレーターをこ

のように使用するフローの詳細は、『Vivado Design Suite チュートリアル: 高位合成』 (UG871) [参照 3] の次のセクショ

ンを参照してください。

• 第 9 章「IP インテグレーターでの HLS IP の使用」

• 第 10 章「Zynq SoC デザインでの HLS IP の使用」

シェルの検証用に作成した RTL テストベンチを使用して、システムレベルの検証を実行します。個々の部分 (IP ブ

ロックおよびシェルデザイン) は、個別に検証済みです。ここでのタスクは、完全なシステムを検証することです。

次を実行することにより、システムレベルの接続を確認することに焦点を置いてください。

1. シェルからプロセッシングパイプラインの最初のブロックにデータが正しく供給されていることを確認します。

2. 最初のブロックが次のブロックに正しく出力を供給しているかを確認します。

注記: 最小限の量のデータを使用して、システムレベルシミュレーションができるだけ高速に実行されるようにし

ます。最初は、最上位の接続を確認することに焦点を置きます。

最上位の接続を確認したら、完全で詳細なシステムシミュレーションを実行できます。

重要: このアドバンス設計手法では、「システム統合の自動化」で説明しているように、システムレベル検証で問題

が検出された IP を再設計し、システム全体を再生成する作業を、スクリプトを使用してすばやく実行できます。


https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug994-vivado-ip-subsystems.pdf;a=xUsingTheDesignerAssistanceFeature

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=video;d=hardware/multiple-clock-domains-vivado-ip-integrator.html

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=video;d=hardware/multiple-clock-domains-vivado-ip-integrator.html

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug994-vivado-ip-subsystems.pdf;a=xCreatingaMemoryMap




システムが完全に検証されたら、デザインをインプリメントしてビットストリームを生成できます。デザイン IP の

ほとんどが Vivado HLS を使用して C/C++ から作成されている場合は、 RTL に自動的に正しいタイミング制約が設定

され、 RTL 合成でタイミングが満たされます。

注記: RTL 合成後、 IP ブロック間にタイミングが満たされないタイミングパスがある場合は、 HLS で INTERFACE 指

示子を使用してインターフェイスポートにレジスタを付けることを考慮してください。

実行時間を短縮するため、出力ファイルを生成する際、 [Out of context per IP] をオンにすることを考慮してください。

このオプションをオンにすると、合成済み出力ファイルが生成されてキャッシュされ、 IP ブロックが変更された場

合にのみ合成が再実行されるので、システムインプリメンテーションの時間が短縮されます。

システム統合の自動化

完全なシステムレベルの検証が実行できるのがシステム統合段階に達してからであることを懸念されるかもしれま

せんが、これは実際にはこの設計手法の利点の 1 つです。 RTL での完全なシステムレベルシミュレーションには時

間がかかり、プロジェクトの開発中に RTL シミュレーションを何回も実行することが設計時間が長くなる大きな原

因です。

この設計手法では、次が重視されます。

• 並列開発

• C/C++ シミュレーションを使用してデザイン IP を検証し、検証速度を数桁向上

• ブロックレベル IP の作成および検証

• 既存および検証済みの IP の再利用

Vivado Design Suite で高水準の自動化が提供されるため、この手法は非常に効果的です。このセクションでは、シス

テムを統合したときに問題が検出された場合でも、システム全体を Tcl スクリプトを使用して簡単にすばやく再作成

できることを示します。

Vivado プロジェクトの自動化

Vivado IDE で実行するすべての操作は、プロジェクトジャーナルファイルに Tcl コマンドとして記録されます。こ

れらのコマンドを使用すると、すべての操作をバッチモードで再実行でき、タスクを実行する時間を大幅に短縮で

きます。この Tcl コマンドの自動生成により、この設計手法の次のタスクが自動化されます。

• プロジェクトの作成

• プロジェクトへの IP の追加

• システムのシミュレーション

• システムのインプリメンテーション





次に、プロジェクトの作成、プロジェクトへの IP リポジトリの追加、ブロックデザインの作成、プロジェクトの

ビットストリーム生成までの処理を完全に自動化したコード例を示します。

# Set project parametersset my_part xc7z020clg484-1set my_board_part xilinx.com:zc702:part0:1.0

# Set the paths to auto-adjust to the local directory# Define project and IP repository locationsset my_files [pwd]set projdir $my_files/project_1set repo_dir $my_files/../my_ip/ipputs "Using project directory $projdir"puts "Using repository directory $repo_dir"

# Create the Projectset projname project_1create_project -force $projname $projdir -part $my_partset_property board_part $my_board_part [current_project]

# Create IP repositoryset_property ip_repo_paths $repo_dir [current_fileset]update_ip_catalog -rebuild

# Create the block designsource ./design_IPI.tcl

# Create output products and HDL wrappergenerate_target all [get_files $projdir/$projname.srcs/sources_1/bd/$design_name/$design_name.bd]make_wrapper -files [get_files $projdir/$projname.srcs/sources_1/bd/$design_name/$design_name.bd] -topadd_files -norecurse $projdir/$projname.srcs/sources_1/bd/$design_name/hdl/${design_name}_wrapper.vupdate_compile_order -fileset sources_1update_compile_order -fileset sim_1

# Implement the bitstreamlaunch_runs impl_1 -to_step write_bitstreamwait_on_run impl_1

上記の操作を実行する Tcl コマンドは、プロジェクトのジャーナルファイルからコピーしたものです。または、

[Save] → [Write Project Tcl] をクリックして、 Vivado 内のフローを簡単にスクリプト化し、シェルの作成および検証、

システムの統合を自動化できます。





Vivado HLS の自動化

Vivado HLS では、 IDE を使用して作成した各プロジェクトに対して Tcl ファイルが作成されます。次に、 C デザイン

フローのすべての手順 (C コードのシミュレーション、最適化指示子を使用した C コードの合成、 RTL の検証、 IP

パッケージの作成および RTL 合成がタイミングを満たすかの確認) を実行する Tcl コマンドを示します。

# Create a project and add filesopen_project proj_matrixmulset_top DESIGN_TOPadd_files matrixmul.cppadd_files -tb matrixmul_tb.cpp

# Create a solutionopen_solution "fast"set_part {xc7z020clg484-1}create_clock -period 4 -name default

# Add optimization directivesset_directive_pipeline "cholesky/"set_directive_array_reshape -type complete -dim 2 "matrixmul" aset_directive_array_reshape -type complete -dim 1 "matrixmul" b

# Simulate, Synthesize, Verify and package outputscsim_designcsynth_designcosim_designexport_design -format ip_catalog -evaluate verilog

この自動生成された Tcl ファイルを編集して、 C IP 開発フローの任意の部分を自動化できます。たとえば、 C シミュ

レーションのみを実行するスクリプトを作成できます。デザインを検証したら、上記のような完全なスクリプトを

使用してデザインを合成してパッケージ IP を作成できます。

IP インテグレーターの自動化

IP インテグレーターの write_bd_tcl コマンドを使用すると、操作を再実行する Tcl スクリプトを保存できるだけ

でなく、最終的なブロックデザインのみを作成するようスクリプトを最適化できます。このスクリプトを実行する

だけで、ブロックデザインを再作成できます。ブロックデザインは IP リポジトリの IP を使用して再作成されるの

で、 IP がアップデートされている場合は、最新の IP が使用されます。このレベルでの自動化により、ブロックデザ

インをすばやく再作成できます。

• シェルデザインを新しいデザインプロジェクトに再生成し、変更して、新しいシェルを簡単に作成できます。

• シェルデザインを新しい検証プロジェクトに再生成し、検証 IP を簡単にデザインに追加できます。

• シェルデザインをシステム統合プロジェクトに再生成し、コアデザイン IP をシステムに統合できます。

設計手法の各手順を、効率的で生産性の高い方法で再実行できます。





完全なシステムの自動化

さらに生産性を向上するには、 makefile を使用してスクリプトを実行します。 makefile は依存性を指定します。たと

えば、次のタスクは順番に実行する必要があります。

• タスク A: IP を C でシミュレーション。

• タスク B: IP を合成して IP カタログに追加。

• タスク C: IP をシステムレベルに統合。

makefile を使用してタスク C を実行すると、タスク B からの出力が存在するかどうかが自動的にチェックされます。

タスク B からの出力が存在しない場合は、タスク B を実行するためにタスク A からの出力が存在するかどうかが

チェックされます。

上記のように makefile を使用して Tcl スクリプトを実行すると、 IP またはシェルデザインをアップデートした後、

1 つのコマンドを実行するだけでシステム全体を再作成でき、次の任意の段階で停止することも可能です。

• C シミュレーションの結果を確認

• 検証 IP を追加するためシェルデザインを再作成

• IP を再合成し、 RTL シミュレーションにより IP を検証して、システムを再構築

• FPGA のプログラム後

このレベルでの自動化により設計手法のすべての部分が高生産性フローにリンクされるので、設計手法の部分を並

列実行し、システムを統合してからシステムレベルのシミュレーションを実行できます。システムの最初のバー

ジョンを作成した後は、システム全体の生成は完全に自動化されます。

将来のための設計

高生産性設計手法を使用する最後の利点は、初期デザインから派生デザインを簡単に作成できることです。高生産

性設計手法では、次の 2 つの特徴により高い生産性が可能になります。

• C からの IP の開発

• インプリメンテーションフローの自動化

C からの IP の開発

C を使用した IP 開発では、このガイドで既に説明した主な利点に加え、デザインを簡単にリターゲットして、同じ

ソースから派生デザインを作成できることも利点です。

上記の Vivado HLS スクリプト例では、次の Tcl コマンドを使用して、 250 MHz クロックを使用する Zynq®-7000 SoC

デバイスをターゲットとしています。

set_part {xc7z020clg484-1}create_clock -period 4 -name default





たとえば 300 MHz で動作する Kintex® UltraScale™ デバイスをターゲットとしてインプリメンテーション用に正しく

タイミング制約が設定された IP ブロックを作成するには、最適化制約をアップデートするだけです。

set_part {xcku025-ffva1156-2-i}create_clock -period 300MHz -name default

これ以外の変更は不要です。 Vivado HLS で、ターゲットテクノロジで選択した周波数でインプリメントされたデザ

インが作成されます。デザインを完了するのにかかるクロックサイクル数は、高速テクノロジでは少なくなり、低

速テクノロジでは多くなりますが、コードを記述し直したり最適化し直したりする必要はありません。

C コードから作成された部分が大きいほど、新しいテクノロジまたはクロック周波数にデザインをリターゲットす

るのが簡単になります。レガシ RTL ブロックは、異なるタイミングパラメーターに対応するため、再インプリメン

トが必要な場合があります。

インプリメンテーションフローの自動化

完全にスクリプト化されたフローで FPGA をインプリメントすると、スクリプトのパラメーターを変更して派生デ

ザインを作成する際に、さらにデザインの再利用を向上し、生産性を増加できます。

上記のスクリプト例では、次のコードが使用されています。 Vivado スクリプトが使用されています。同じ変更を、

Vivado HLS および IP インテグレータースクリプトにも適用できます。

# Set project parametersset my_part xc7z020clg484-1set my_board_part xilinx.com:zc702:part0:1.0

1 つの最上位プロジェクトパラメータースクリプトによりプロジェクトのすべてを設定するには、次のように変更

します。

# source project-level parameterssource project_top.tcl# Set project parametersset my_part $target_deviceset my_board_part $target_board

この例では、 project_top.tcl の内容は次のとおりです。

set target_device xc7z020clg484-1set target_board xilinx.com:zc702:part0:1.0

このスクリプトを変更すると、プロジェクトが自動的にリターゲットされ、再インプリメントされます。

これに関して、次の点に注意してください。

• C テストベンチの推奨事項に従うと、 C シミュレーションが自動的に確認されます。

• Vivado HLS で新しいパラメーターに基づいて新しい IP が生成されます。

• Vivado HLS で作成された RTL は、 RTL シミュレーションにより自動的に検証されます。

• Vivado プロジェクト生成スクリプトでは、アップデートされたパラメーターに基づいて新しいプロジェクトが

作成されます。

• IP インテグレータースクリプトでは、ブロックが以前と同様に接続され、設計アシスタンスにより最適な接続

が使用されます。

• システム統合段階でフローを停止し、デザインを変更できます。





• 完成したデザインに対して、アップデートされたターゲットデザインおよびクロック周波数が使用されてイン

プリメンテーションが実行され、ビットストリームが生成されます。

パラメーターの変更の程度に対応するよう Tcl スクリプトを拡張することにより、派生デザインを即座に作成でき

ます。




付録 A

その他のリソースおよび法的通知

ザイリンクスリソース

アンサー、資料、ダウンロード、フォーラムなどのサポートリソースは、ザイリンクスサポートサイトを参照して

ください。

ソリューションセンター

デバイス、ツール、 IP のサポートについては、ザイリンクスソリューションセンターを参照してください。デザイ

ンアシスタント、デザインアドバイザリ、トラブルシューティングのヒントなどが含まれます。

Documentation Navigator およびデザインハブ

ザイリンクス Documentation Navigator (DocNav) では、ザイリンクスの資料、ビデオ、サポートリソースにアクセス

でき、特定の情報を取得するためにフィルター機能や検索機能を利用できます。 DocNav を開くには、次のいずれか

を実行します。

• Vivado IDE で [Help] → [Documentation and Tutorials] をクリックします。

• Windows で [スタート ] → [すべてのプログラム] → [Xilinx Design Tools] → [DocNav] をクリックします。

• Linux コマンドプロンプトに「docnav」と入力します。

ザイリンクスデザインハブには、資料やビデオへのリンクがデザインタスクおよびトピックごとにまとめられてお

り、これらを参照することでキーコンセプトを学び、よくある質問 (FAQ) を参考に問題を解決できます。デザイン

ハブにアクセスするには、次のいずれかを実行します。

• DocNav で [Design Hubs View] タブをクリックします。

• ザイリンクスウェブサイトのデザインハブページを参照します。

注意: DocNav からは、日本語版は参照できません。ウェブサイトのデザインハブページをご利用ください。


https://japan.xilinx.com/support/

https://japan.xilinx.com/support/solcenters.htm

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=design+hubs



付録 A: その他のリソースおよび法的通知

参考資料

注記: 日本語版のバージョンは、英語版より古い場合があります。

1. 『Vivado® 高位合成を使用した FPGA デザインの概要』 (UG998)

2. 『Vivado Design Suite ユーザーガイド : 高位合成』 (UG902)

3. 『Vivado Design Suite チュートリアル: 高位合成』 (UG871)

4. 『Vivado Design Suite ユーザーガイド : リリースノート、インストールおよびライセンス』 (UG973)

5. 『Vivado Design Suite チュートリアル: カスタム IP の作成とパッケージ』 (UG1119)

6. 『Vivado Design Suite ユーザーガイド : System Generator を使用したモデルベースの DSP デザイン』 (UG897)

7. 『UltraFast 設計手法ガイド (Vivado Design Suite 用)』 (UG949)

8. 『Vivado Design Suite ユーザーガイド : IP インテグレーターを使用した IP サブシステムの設計』 (UG994)

9. 『Vivado Design Suite ユーザーガイド : システムレベルデザイン入力』 (UG895)

10. 『Vivado IP インテグレーターを使用した AXI4 ベースの IP の統合方法』 (XAPP1204: 英語版、日本語版)

11. Vivado Design Suite の資料

12. ザイリンクス IP ページ

トレーニングリソース

ザイリンクスでは、この資料に含まれるコンセプトを説明するさまざまなトレーニングコースおよび QuickTake ビデ

オを提供しています。次のリンクから関連するトレーニングリソースを参照してください。

1. トレーニングコース : C コードベースの設計: Vivado HLS を使用した高位合成

2. トレーニングコース : ハードウェア設計者用 C ベースの HLS コーディング

3. トレーニングコース : ソフトウェア設計者用 C ベースの HLS コーディング

4. Vivado Design Suite QuickTake ビデオチュートリアル

5. Vivado Design Suite QuickTake ビデオ: Vivado 高位合成

6. Vivado Design Suite QuickTake ビデオ: Vivado HLS 入門

7. Vivado Design Suite QuickTake ビデオ: Vivado HLS デザインの検証

8. Vivado Design Suite QuickTake ビデオ: さまざまなタイプのプロジェクトを作成


https://japan.xilinx.com/cgi-bin/docs/rdoc?d=ug998-vivado-intro-fpga-design-hls.pdf

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug902-vivado-high-level-synthesis.pdf

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug871-vivado-high-level-synthesis-tutorial.pdf

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;t=vivado+release+notes

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug1119-vivado-creating-packaging-ip-tutorial.pdf

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug897-vivado-sysgen-user.pdf

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug949-vivado-design-methodology.pdf

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug994-vivado-ip-subsystems.pdf

https://japan.xilinx.com/cgi-bin/docs/rdoc?v=2019.2;d=ug895-vivado-system-level-design-entry.pdf

https://japan.xilinx.com/cgi-bin/docs/rdoc?t=vivado+docs

https://japan.xilinx.com/products/intellectual-property.html

https://japan.xilinx.com/training/dsp/high-level-synthesis-with-vivado-hls.htm

https://japan.xilinx.com/training/dsp/c-based-hld-coding-for-hardware-designers.htm

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=training;d=dsp/c-based-hld-coding-for-software-designers.htm

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=vivado+videos

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=video;d=hardware/vivado-high-level-synthesis.html

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=video;d=hardware/getting-started-vivado-high-level-synthesis.html

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=video;d=hardware/verifying-your-vivado-hls-design.html



https://japan.xilinx.com/cgi-bin/docs/ndoc?t=application_notes;d=xapp1204-integrating-axi4-ip-using-ip-integrator.pdf

https://japan.xilinx.com/cgi-bin/docs/ndoc?t=application_notes;d=j_xapp1204-integrating-axi4-ip-using-ip-integrator.pdf


付録 A: その他のリソースおよび法的通知

お読みください: 重要な法的通知本通知に基づいて貴殿または貴社 (本通知の被通知者が個人の場合には「貴殿」、法人その他の団体の場合には「貴社」。以下同じ ) に開示される情報 (以下「本情報」といいます) は、ザイリンクスの製品を選択および使用することのためにのみ提供されます。適

用される法律が許容する最大限の範囲で、 (1) 本情報は「現状有姿」、およびすべて受領者の責任で (with all faults) という状態で提供

され、ザイリンクスは、本通知をもって、明示、黙示、法定を問わず (商品性、非侵害、特定目的適合性の保証を含みますがこれ

らに限られません)、すべての保証および条件を負わない (否認する ) ものとします。また、 (2) ザイリンクスは、本情報 (貴殿または

貴社による本情報の使用を含む) に関係し、起因し、関連する、いかなる種類・性質の損失または損害についても、責任を負わな

い (契約上、不法行為上 (過失の場合を含む)、その他のいかなる責任の法理によるかを問わない) ものとし、当該損失または損害に

は、直接、間接、特別、付随的、結果的な損失または損害 (第三者が起こした行為の結果被った、データ、利益、業務上の信用の

損失、その他あらゆる種類の損失や損害を含みます) が含まれるものとし、それは、たとえ当該損害や損失が合理的に予見可能で

あったり、ザイリンクスがそれらの可能性について助言を受けていた場合であったとしても同様です。ザイリンクスは、本情報に

含まれるいかなる誤りも訂正する義務を負わず、本情報または製品仕様のアップデートを貴殿または貴社に知らせる義務も負いま

せん。事前の書面による同意のない限り、貴殿または貴社は本情報を再生産、変更、頒布、または公に展示してはなりません。一

定の製品は、ザイリンクスの限定的保証の諸条件に従うこととなるので、 https://japan.xilinx.com/legal.htm#tos で見られるザイリンク

スの販売条件を参照してください。 IP コアは、ザイリンクスが貴殿または貴社に付与したライセンスに含まれる保証と補助的条件

に従うことになります。ザイリンクスの製品は、フェイルセーフとして、または、フェイルセーフの動作を要求するアプリケー

ションに使用するために、設計されたり意図されたりしていません。そのような重大なアプリケーションにザイリンクスの製品を

使用する場合のリスクと責任は、貴殿または貴社が単独で負うものです。 https://japan.xilinx.com/legal.htm#tos で見られるザイリンク

スの販売条件を参照してください。

自動車用のアプリケーションの免責条項オートモーティブ製品 (製品番号に「XA」が含まれる ) は、 ISO 26262 自動車用機能安全規格に従った安全コンセプトまたは余剰性

の機能 ( 「セーフティ設計」 ) がない限り、エアバッグの展開における使用または車両の制御に影響するアプリケーション ( 「セー

フティアプリケーション」 ) における使用は保証されていません。顧客は、製品を組み込むすべてのシステムについて、その使用

前または提供前に安全を目的として十分なテストを行うものとします。セーフティ設計なしにセーフティアプリケーションで製品

を使用するリスクはすべて顧客が負い、製品の責任の制限を規定する適用法令および規則にのみ従うものとします。

© Copyright 2015-2020 Xilinx, Inc. Xilinx、 Xilinx のロゴ、 Alveo、 Artix、 Kintex、 Spartan、 Versal、 Virtex、 Vivado、 Zynq、およびこの

文書に含まれるその他の指定されたブランドは、米国およびその他各国のザイリンクス社の商標です。 AMBA、 AMBA Designer、Arm、 ARM1176JZ-S、 CoreSight、 Cortex、 PrimeCell、 Mali、および MPCore は、 EU およびその他各国の Arm 社の登録商標です。す

べてのその他の商標は、それぞれの保有者に帰属します。

この資料に関するフィードバックおよびリンクなどの問題につきましては、 [email protected] まで、または各ページの

右下にある [フィードバック送信] ボタンをクリックすると表示されるフォームからお知らせください。フィードバックは日本語で

入力可能です。いただきましたご意見を参考に早急に対応させていただきます。なお、このメールアドレスへのお問い合わせは受

け付けておりません。あらかじめご了承ください。



https://japan.xilinx.com/legal.htm#tos

https://japan.xilinx.com/legal.htm#tos

mailto:[email protected]


UltraFast 高生産性設計手法ガイド - Xilinx...UltraFast 高生産性設計手法ガイド...

Documents

Transcript of UltraFast 高生産性設計手法ガイド - Xilinx...UltraFast 高生産性設計手法ガイド...

UltraFast 高生産性設計 手法ガイド - Xilinx...UltraFast 高生産性設計手法ガイド...

Documents

Transcript of UltraFast 高生産性設計 手法ガイド - Xilinx...UltraFast 高生産性設計手法ガイド...

UltraFast 高生産性設計手法ガイド - Xilinx...UltraFast 高生産性設計手法ガイド...

Transcript of UltraFast 高生産性設計手法ガイド - Xilinx...UltraFast 高生産性設計手法ガイド...