新製品紹介 バーストバッファ型IOアクセラレーション製品 …...Vol.21, No.4...

Post on 01-Mar-2021

0 views 0 download

Transcript of 新製品紹介 バーストバッファ型IOアクセラレーション製品 …...Vol.21, No.4...

(1)Vol.21, No.4 2016

<#1>

新製品紹介

1 はじめにDataDirect Networks (DDN)社は大規模クラスタ環境向けにストレージアレイおよびLustreやGPFSなどの並列ファイルシステムをソリューションとして提供してきました。DDN IME (In¿nite Memory Engine)は、大規模クラスタ環境で従来型のストレージアレイ・並列ファイルシステムでは対応不可能な問題を解決し、アプリケーションの IO性能を更に高速化するツールとしてDDN社によって設計、開発されました。

2 IME概要IMEはSSDを搭載した複数台のサーバをクラスタと

して構成し、SSDで構成されたキャッシュ領域を計算クラスタに提供し、並列ファイルシステム上のデータへの高速キャッシュアクセスを実現する製品です。並列ファイルシステムと異なるアーキテクチャおよび記憶領域としてSSDを採用することによって、従来のストレージシステムが不得手としてきた、小さい IOサイズでの IO、ランダムアクセスなどの高速化も可能となります。

3 システム構成DDN IMEは計算ノード上で動作する IMEクライアン

トと、計算クラスタと並列ファイルシステムの間に配置された複数の IMEサーバから構成されます(図1)。

IMEクライアントが動作する計算ノードについては特殊なハードウェアは必要ありません。OSはRHEL7系のOSで動作します。IMEサーバのハードウェアは現時点ではDDNが提供するアプライアンス製品であるIME14K(図2)のみのサポートとなります。

IME14Kは4Uフォームファクタに2基の IMEサーバを実装しています。各 IMEサーバは24基のNVMe SSDを搭載し、In¿niband EDR 6ポートもしくは Intel OmniPath 4ポートを搭載します。IME14K 1基あたり(IMEサーバ x 2)の実効性能は In¿niband利用時で50GB/s、OmniPath利用時で40GB/sとなります。

4 アーキテクチャ

図3 IMEアーキテクチャ

DDN IMEのアーキテクチャを図3に示します。IMEはアプリケーションインタフェースとして

POSIXおよびMPI-IOをサポートします。POSIXインタフェースは計算ノード上に IMEプールをマウントする

バーストバッファ型IOアクセラレーション製品 DDN IMEのご紹介

橋爪 信明

はしづめ のぶあき株式会社データダイレクト・ネットワークス・ジャパンT3S Director。サン・マイクロシステムズにて17年間ベンチマークエンジニア、プリセールスエンジニアとして主にHPC案件に従事した後、2011年データダイレクト・ネットワークス・ジャパン入社。プリセールスエンジニア、プロフェッショナルサービス、カスタマーサポートを統括。

図1 IME構成

図2 DDN IME14K

(2) 計算工学

2 新製品紹介

ことによって実現されます。IMEはネームスペースを管理するためのメタデータサーバ機能は有しておらずバックエンドの並列ファイルシステム(PFS)のメタデータ機能を利用します。そのため、計算ノード上でマウントした IMEプールとバックエンドPFSのネームスペースは同一のものとなります。

IMEクライアントはアプリケーションと IMEサーバ間とのデータの送受信を管理します。また、データ保護機能としてイレージャーコーディングをクライアント側で設定することが可能です。IMEサーバ上の IMEプールは従来のRAID機能に相当するデータ保護機能を持ちません。IMEクライアント上では、送信するデータのデータ部およびパリティ部の数を指定し(例えば8D+2Pなど)、各シェードをそれぞれ別の IMEサーバに送信します。IMEサーバ障害およびSSD単体の障害時にはパリティ再計算によるデータ復旧が行われます。

IMEは分散ハッシュテーブルによってデータがどのIMEサーバのどのSSDに保持されているかを管理します。分散ハッシュテーブルは全 IMEサーバで共有されており、全 IMEサーバがデータの位置を把握し、障害復旧にも利用しています。データはNVMe SSDに対して最適化された IMEサーバ上のログストラクチャファイルシステムに格納されます。ログストラクチャファイルシステムは分散ハッシュテーブルと連携し、データの格納場所を決定します。

IMEサーバは IMEサーバ上にフラグメントされているデータをバックエンドPFSに最適なサイズのバッファにまとめバックエンドPFSに書き込みます。バックエンドPFSから IMEへの読み込み処理はコマンドの発行が必要です。

5 データマイグレーションIMEはバックエンドPFSのキャッシュ領域として利

用される製品です。バックエンドPFSとのデータのやり取り(マイグレーション)にはステージング方式と透過方式の二通りがあります。ステージング方式の場合、バックエンドPFSから IMEへのデータのロード、IMEからバックエンドPFSへのデータのフラッシュは明示的なコマンドの発行が必要となります。透過方式の場合、アプリケーションから読み込みを行ったデータが IME上に存在しない場合、IMEをバイパスし、バックエンドPFSから直接データを読み込みます。この際、IME上へのデータのロードは行わない為、IME上にデータをロードしたい場合は、ステージング方式と同様に明示的なコマンド発行が必要です。アプリケーションから IMEに書き込まれたデータは透過方式では自動的にバックエンドPFSにフラッシュされます。

6 性能

図4 IOR性能比較

図4に IOスループットベンチマークである IORを用いたLustreと IMEの性能比較を示します。ハードウェア構成はLustreが理論ピーク性能40GB/s、IMEが理論ピーク性能48GB/sの構成です。理論ピーク性能はネットワーク帯域から算出おり、使用しているディスクドライブおよびSSDの合算性能は理論ピーク性能以上の構成です。計測は32基のクライアントを利用し合計512並列、合計ファイルサイズ3.3TBで行いました。また、生成するファイルについては、FPP (File Per Process)とSSF (Single Shared File)の二通りを実施しました。FPPは並列ファイルシステムが得意とするプロセスごとに異なるファイルを生成する方式であり、SSFは単一ファイルに対して複数プロセスからアクセスするため、ロックのコンテンションが大量に発生し、並列ファイルシステムが不得手とする方式です。SSFの場合、Lustreが全く性能を発揮できないのに対し、IMEはFPPと同等の性能を得られています。IMEのアーキテクチャはSSFであっても、ロックを利用しせずスケール可能な実装です。FPPの場合、大規模並列アプリケーションでは使用するファイルの数が膨大になり並列ファイルシステムのメタデータ性能がネックになるため、今後はSSFの利用が考えられますが、従来の並列ファイルシステムとは異なる実装でなければ性能を確保できない問題があり、IMEはこれに対する一つの解答です。

7 おわりに本稿では、最新の IOアクセラレーション製品DDN

IMEの概要について紹介致しました。DDNは今後、実アプリケーションでの性能測定、ジョブスケジューラーとの連携、実システムでの運用などを通して、IMEの更なる性能、機能の充実を目指していきます。