COBOLバッチ処理の高速化：Apache Software Foundation(ASF)...

FUJITSU CONFIDENTIAL

COBOLバッチ処理の高速化(Hadoopとの連携を実現したNetCOBOLご紹介)

2017年12月富士通株式会社

Hadoopによる並列分散処理

Hadoop連携 COBOL NetCOBOL

関連情報

目次

Copyright 2017 FUJITSU LIMITED1

◆分散ファイルシステム(HDFS*1)データを多重化して、多数のサーバに分散して格納する。

◆並列分散処理(MapReduce*2)分散格納したデータ毎に、担当するエンジンでMap処理する。処理結果をReduce処理で集約する。

並列分散処理（Hadoop）

・・・

Map

・・

並列分散処理結果の集約分散

HDFS

結果

Map

Map

HDFS

Reduce

Reduce

ビッグデータ

データ

データ

データ

データ

データ

• データは多重化しているので、サーバが停止してもデータは消えない。• サーバ停止時は、自動的に他のサーバで再処理することで、影響を最小化できる。

*1 : Hadoop分散ファイルシステム(Hadoop Distributed File System)。

*2 : Hadoop の並列分散処理技術。分散された情報をそれぞれ並列処理し、その処理結果を集約します。


Interstage Big Data Parallel Processing Server

企業におけるビッグデータ活用を支援するソフトウェア「Apache Hadoop*1」をベースに富士通独自技術を搭載し、信頼性・処理性能・

導入容易性を向上しました。様々な特性の大量データを分析・加工し、新規ビジネス・サービス向上に活用従来は分析出来なかった規模・種類の大量データを並列分散処理により短い

サイクルで分析・加工

*2 Hadoop の並列分散処理技術。分散された情報をそれぞれ並列処理し、その処理結果を集約します

スレーブサーバ

MapReduce

MapReduce

MapReduce

【大量データの分析例】レコメンデーション分析故障予測分析行動、傾向分析ほか

分析・加工データ

二重化構成マスタサーバ

ETERNUS

POS

携帯電話

スマートデバイス※ ETERNUS は、富士通の高信頼・高性能なストレージシステムです

データ収集システム

商品管理システム

Webシステム

データ(XML)

独自分散ファイルシステム

インターステージビックデータパラレルプロセッシングサーバ

Interstage Big Data Parallel Processing Server

バイナリ(CSV)

ログ(TXT)

PC

センサー

*2

*1 Apache Software Foundation(ASF)が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。


Hadoop連携 COBOLNetCOBOL


COBOLバッチ処理時間短縮の課題と解決方法

Hadoopで処理時間を大幅に短縮⇒ Apache Hadoop*1およびIBDPPS*2との連携による

並列分散処理で高速化

⇒アプリケーションとの通信タイミングの制御により、

処理時間を短縮

解決方法

課題：長時間化するCOBOLバッチ処理を短縮したい

COBOLアプリに手を入れずにHadoopを活用できる⇒ COBOLのデータや複数ファイルを利用できる

解決方法

課題： COBOLのアプリケーションは改修したくない

＊1：Apache Software Foundation(ASF)が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。＊2：Interstage Big Data Parallel Processing Server。Apache Hadoopベースの当社並列分散処理製品です。


NetCOBOLのHadoop連携

*: Linux64bit版NetCOBOL Enterprise Edition V10.5からサポート開始し、V11.0で機能強化しました。

COBOLバッチアプリの処理時間を並列分散処理により短縮

Hadoopで処理時間を大幅に短縮

COBOLアプリに手を入れずにHadoopを活用できる

・・・

HDFS（分散ファイルシステム）

HDFS

Map

・・

並列処理結果の集約

結果Map

Map

Reduce

Reduce

データ

データ

データ

データ

データ

データ

COBOLアプリ

COBOLアプリ

COBOLアプリ

COBOLアプリ

COBOLアプリ

自動分割

Hadoop連携NetCOBOL*


Apache Hadoop連携：並列分散処理で短縮

IBDPPS*連携：独自分散ファイルシステムでさらに短縮Apache Hadoop IBDPPS*

＊：Interstage Big Data Parallel Processing Server

COBOLバッチアプリ処理時間短縮の技術（1/2）

アプリケーションのデータを一旦HDFSに転送して処理既存システムからのデータのダウンロードおよびアップロード不要。アプリケーションのデータを直接分散ファイルシステムに格納して、処理結果を直接活用可能

Hadoop

HDFS

Hadoop

独自分散ファイルシステム

HDFS互換

インターフェース

既存システム

アプリケーション

分析データのアップロード(コマンド)

分析結果のダウンロード

(コマンド)

既存システム

アプリケーション

共有ファイルを介して相互にデータ共有可能

データ

標準ファイル

インターフェース

データ

HDFS：Hadoop分散ファイルシステム(Hadoop Distributed File System)

Apache HadoopおよびIBDPPS* との連携でバッチ処理時間を大幅短縮


アプリケーションとの通信タイミングの制御により、処理時間を短縮

COBOLバッチアプリ処理時間短縮の技術（2/2）

アプリケーションの入出力をメモリ経由でプロセス間通信で行い、

突合せアプリケーションの読み込み順序に最適なタイミングで制御

し、ディスク書き込みオーバヘッドを削減

富士通研究所技術

Reduce

COBOLアプリ

トランザクション

出力データ 1

マスタ

出力データ

シャッフル

ソート


マスタ

タイミング制御

タイミング制御

プロセス間通信


COBOLアプリに手を入れずにHadoopを活用可能

■データ変換機能*により、COBOLのデータをMapReduceの入出力データとして利用できる

* COBOL実行時にCOBOL形式のデータをHadoop標準のKey,Value形式に自動変換

■複数入力変換機能*により、複数ファイルを使用するバッチアプリケーションでもHadoopで使用できる（富士通研究所特許出願済）

* Hadoopの基本は1つのファイルを使用する方式であり、COBOLバッチアプリケーションの複数ファイルを使用する方式と異なるため、この違いを吸収

Reduce処理

COBOLアプリ

COBOLアプリ

Map処理

データ変換機能

複数入力変換機能

複数入力変換機能

トランザクシ

ョン

マスタ

COBOLアプリ

出力データ

トランザクシ

ョン

マスタ




シャッフル

ソート

COBOLのデータや複数ファイルを利用可能


MapReduce

ホストバッチのHadoopへのオフロードによる高速化

取引ログデータ

SORTコマンド

COBOLアプリ

出力ファイル

COBOLアプリ

COBOLアプリ

既存システム（ホスト）

Linuxシステム

長時間アプリ

NetCOBOL+IBDPPS *1

COBOLアプリCOBOLアプリ

転送Hadoopで実行

＊1：Interstage Big Data Parallel Processing Server 時間短縮

転送

EBCDIC EBCDIC

中間ファイル

中間ファイル

中間ファイル

中間ファイル

コード変換コード変換

コード変換はHadoop外で実施

ホストのバッチ処理の一部をHadoopにオフロードし、時間短縮- Hadoopによる並列化により高速化を実現- 安価なサーバの有効活用により、コスト抑制


Hadoop連携機能*を強化*：Linux 64bit NetCOBOL Enterprise Edition

データの偏りを考慮した振り分け処理で高速化SORTキーの並びをあらかじめサーチし、最適な条件で振り分け処理を行えます。

これにより、キーの分布が偏ったデータの処理ネックを回避できます。

データの変換処理を高速化データ形式変換ツール（SIMPLIA/TF-MDPORT）をHadoopで並列処理可能になりました。

これにより、メインフレームのバッチをオフロードして処理する場合に必要となるコード変換もHadoopによって並列化でき、処理時間を短縮できます。

同様に、データベースをアンロードしたCSV形式データをCOBOL形式データに変換する処理もHadoopによって並列化でき、処理時間を短縮できます。


V11機能

V11.0.0のモデル

転送

メインフレーム

LinkExpress *1

物理順ファイル

ReduceMap


変換処理

変換処理

変換処理

MDPORT *2

Shuffle &sort

MDPORT *2

レコード順ファイル



COBOL

COBOL

COBOL




COBOL

COBOL

COBOL








転送V10.5.0のモデル

MDPORT 2*

変換処理




LinkExpress 1*

変換処理物理順ファイル


変換処理がボトルネック

変換処理がボトルネックMap

COBOL

COBOL

COBOLShuffle &

sort

Reduce

COBOL

COBOL

COBOL






レコード順ファイル MDPORT 2*

EBCDIC


データの変換処理を高速化（文字コード）

*1 :分散システムのファイル転送とDBレプリケーションツール*2 :データ変換ツールSIMPLIA/TF-MDPORT

転送

転送



変換処理

変換処理

変換処理

メインフレームのデータオフロード処理を高速化EBCDIC⇆UNICODEまたはS-JIS変換処理をHadoopで高速化


データの変換処理を高速化（データ形式）

ReduceMap

CSV(行順

ファイル)V10.5.0のモデル

V11.0.0のモデル

MDPORT*

変換処理

DBサーバ


Map

COBOL

COBOL

COBOLShuffle &

sort


Reduce

COBOL

COBOL

COBOL

変換処理レコード順ファイル


変換処理

変換処理

変換処理

MDPORT*

Shuffle &sort

MDPORT*



DB アンロード

DBサーバ

DB アンロード

MDPORT*

CSV(行順

ファイル)

CSV(行順

ファイル)










COBOL

COBOL

COBOL




COBOL

COBOL

COBOL







CSV(行順

ファイル)

変換処理

変換処理

変換処理

＊データ変換ツールSIMPLIA/TF-MDPORT

Hadoop（Map/Reduce）内でデータ変換処理（MDPORT*）を実行可能変換処理（CSV<->レコード順ファイルなど）にかかる時間を大幅に短縮


データの偏りを考慮した処理で高速化

タスク1

タスク2

タスク3

タスク4AC

B

H I

DFG

ShuffleSortReduce

高速化

（富士通研究所特許出願済）

最速の実行結果が得られるようにデータの振り分けを最適化

ハッシュ値の重複により特定のタスクにデータが集中し、ボトルネックが発生

ないよう、データの偏り（SORTキー）をあらかじめサーチすることで、最適な

振り分け処理と、無駄なタスクの起動がなくなり高速化

ABCD

I

・・・

振分け最適化

データ

特定のデータに偏りある場合(BやCのデータ)

各データの偏りを考慮し、

振り分けを最適化。

また、無駄なタスクの起動を抑止


COBOLバッチの並列分散処理による効果実測例

2時間半がわずか8分。約18分の1に短縮

中間ファイル

中間ファイル

SORTコマンド

店舗IDでソート店舗IDで結合し、集計

SORTコマンド

COBOLアプリ128GB（6400万件）

512バイト（32件）

マスタ 25GB（1250万件）

従来のバッチアプリケーション

出力

出力

データ

マスタ

シャッフル

ソート

マスタ

ソートキー抽出目印「トラン」

ソートキー抽出目印「マスタ」

NetCOBOLランタイム

NetCOBOLランタイム

Map Reduce

COBOLアプリ

Apache Hadoop+NetCOBOL

128GB（6400万件）

512バイト（32件）

25GB（1250万件）

Interstage BDPPS*+NetCOBOL


0 50 100 150

Apache Hadoop+NetCOBOLInterstage BDPPS*+NetCOBOL

入力 → 処理[抽出→ソート→結合] → 出力 150分

処理入力

出力

処理

8分

従来のバッチアプリケーション

50分 1/3に短縮

1/18に短縮

*: Interstage Big Data Parallel Processing Server

トランザクションデータをマスタデータと結合し集計する処理の場合

出力データ

出力データ

出力データ


トランザクショントランザクション


COBOL既存資産の活用シーン

入力データ

出力データ

COBOLアプリ

Hadoop適用に向いている処理

中間ファイル

SORTコマンド

COBOLアプリ

商品IDでソート商品IDで集計

単価×個数＝売上

トランSORTコマンド COBOL

アプリ

商品IDでソート商品IDで突合せ、集計

マスタSORTコマンド

出力データ

入力データ

中間ファイル

出力データ

③ファイル同士の突合せ

②特定キーを持つレコードの集計

①レコードの単純加工

Hadoopに適用可能な処理の条件

レコード間の依存関係なし・逐次処理・繰り返し処理

順ファイル

順ファイル

順ファイル

中間ファイル


Hadoop適用に向いている処理①：レコードの単純加工

伝票ID 商品名単価個数

001 いちご 300 2002 みかん 200 2… … … …

入力 COBOLアプリ

COBOLアプリ

750 メロン 800751 トマト 400… … …

伝票ID 商品名売上

001 いちご 600002 みかん 400… … …


COBOLアプリ

Map処理・・・

出力

出力

出力

ポイントすべてのレコードに同じ処理を行う : Map処理を利用Map処理には一定サイズ（ブロック）に分割された入力ファイルが渡されます

入力

伝票ID 商品名単価個数

001 いちご 300 2002 みかん 200 2… … … …


伝票ID 商品名売上

001 いちご 600002 みかん 400… … …

現行バッチ

Hadoop適用後

・・・


Hadoop適用に向いている処理②：特定のキーをもつレコードの集計

Shuffle&sort

出力

出力

伝票ID 商品ID 個数001 BBB 2002 JJJ 1003 AAA 3… … …

伝票ID

商品ID

個数

003 AAA 2012 AAA 1… … …

入力

COBOLアプリ

001 JJJ 1076 JJJ 3… … …

商品ID

出荷数

AAA 20

JJJ 30

伝票ID 商品ID 個数001 BBB 2002 JJJ 1003 AAA 3… … …

SORTコマンド


商品ID 出荷数

AAA 20BBB 30… …

ポイント同一キーのﾚｺｰﾄﾞ単位に処理を行う : Reduce処理を利用Shuffle&sortに指定した主キーでレコードがグループ化され、Reduce処理には

主キーでグループ化されたレコードが渡されます。

Reduce処理

COBOLアプリ

出力

入力中間ファイル

COBOLアプリ

・・・

現行バッチ

Hadoop適用後


・・・


伝票ID 商品ID 個数

003 AAA 2012 AAA 1… … …

Hadoop適用に向いている処理③：ファイル同士の突き合わせ

トラン

マスタ

SORTコマンド

COBOLアプリ

商品IDでソート

SORTコマンド


出力伝票ID

商品ID 個数

001 BBB 2… … …

商品ID

商品名単価

CCC みかん 200… … …

商品名出荷額

いちご 6000バナナ 8000… …

現行バッチ

ポイント複数ﾌｧｲﾙの突き合わせ処理を行う : Reduce処理を利用Shuffle&sortに指定した主キーで、それぞれのファイルのレコードがグループ化され、Reduce処理に渡されます。

中間ファイル

商品ID

商品名単価

AAA いちご 300BBB バナナ 100… … …

商品IDで突合せ、集計


中間ファイル


003 AAA 2010 AAA 5… … …

Hadoop適用に向いている処理③：ファイル同士の突き合わせ

トラン

マスタ

Shuffle&sort

COBOLアプリ

COBOLアプリ

商品名出荷額

いちご 6000

ポイント複数ﾌｧｲﾙの突き合わせ処理を行う : Reduce処理を利用Shuffle&sortに指定した主キーで、それぞれのファイルのレコードがグループ化され、Reduce処理に渡されます。


003 AAA 2… … …商品ID

商品名単価

AAA いちご 300… … …

伝票ID

商品ID 個数

001 BBB 2… … …

商品ID

商品名単価

CCC みかん 200… … …

Reduce処理


001 BBB 2… … …

商品ID

商品名単価

BBB バナナ 100… … …

商品名出荷額

バナナ 8000

出力

出力

商品IDで突合せ、集計


・・・

Hadoop適用後

・・・


製品情報

製品体系

動作環境


製品体系

* 製品購入の際は、ライセンスのほか、メディアパック（媒体のみの提供）が必要です。

製品名備考

NetCOBOL Enterprise Edition 開発・運用パッケージ（プロセッサライセンス）*

Hadoopを使用したCOBOLによるバッチ高速化機能を提供する開発および運用環境製品

NetCOBOL Enterprise Edition 運用パッケージ（プロセッサライセンス）*

Hadoopを使用したCOBOLによるバッチ高速化機能を提供する運用環境製品


動作環境

製品名サーバ動作OS

NetCOBOL Enterprise Edition 開発・運用パッケージRed Hat Enterprise Linux 7(for Intel64)Red Hat Enterprise Linux 6(for Intel64)

NetCOBOL Enterprise Edition 運用パッケージRed Hat Enterprise Linux 7(for Intel64)Red Hat Enterprise Linux 6(for Intel64)

Hadoop製品以下のいずれかのデータベースソフトウェアが必要です。

Apache Hadoop 1.0.3 またはApache Hadoop 1.2.1 または

Interstage Big Data Parallel Processing Server V1.0.1以降

必須ソフト


ご参考

参考情報


NetCOBOL Webサイト

NetCOBOLホームページ：http://software.fujitsu.com/jp/cobol/

コンセプト製品情報 FAQ（ご購入前、ご購入後）オンラインマニュアル体験版貸し出し導入事例技術資料・・・・

NetCOBOLの最新情報をご提供しています


http://software.fujitsu.com/jp/cobol/

Apache、Apache Hadoop は、The Apache Software Foundation の登録商標または商標です。

Red Hat は米国およびその他の国でRed Hat, Inc. の登録商標若しくは商標です。Linuxは Linus Torvaldsの商標です。

NetCOBOL、Interstageは富士通株式会社の登録商標です。

記載されている会社名、製品名等は各社の商標または登録商標である場合があります。

登録商標


COBOLバッチ処理の高速化：Apache Software Foundation(ASF)...

Documents

Transcript of COBOLバッチ処理の高速化：Apache Software Foundation(ASF)...