オープンソースソフトウェア入門 - obci.jp · オープンソースソフトウェア入門 obci理事長 sra oss, inc. 日本支社 石井 達夫
COBOLバッチ処理の高速化:Apache Software Foundation(ASF)...
Transcript of COBOLバッチ処理の高速化:Apache Software Foundation(ASF)...
![Page 1: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/1.jpg)
FUJITSU CONFIDENTIAL
COBOLバッチ処理の高速化(Hadoopとの連携を実現したNetCOBOLご紹介)
2017年12月富士通株式会社
![Page 2: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/2.jpg)
Hadoopによる並列分散処理
Hadoop連携 COBOL NetCOBOL
関連情報
目次
Copyright 2017 FUJITSU LIMITED1
![Page 3: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/3.jpg)
Hadoopによる並列分散処理
2 Copyright 2017 FUJITSU LIMITED
![Page 4: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/4.jpg)
◆分散ファイルシステム(HDFS*1)データを多重化して、多数のサーバに分散して格納する。
◆並列分散処理(MapReduce*2)分散格納したデータ毎に、担当するエンジンでMap処理する。処理結果をReduce処理で集約する。
並列分散処理(Hadoop)
・・・
Map
・・
並列分散処理 結果の集約分散
HDFS
結果
Map
Map
HDFS
Reduce
Reduce
ビッグデータ
デ ー タ
デ ー タ
デ ー タ
デ ー タ
デ ー タ
• データは多重化しているので、サーバが停止してもデータは消えない。• サーバ停止時は、自動的に他のサーバで再処理することで、影響を最小化できる。
*1 : Hadoop分散ファイルシステム(Hadoop Distributed File System)。
*2 : Hadoop の並列分散処理技術。分散された情報をそれぞれ並列処理し、その処理結果を集約します。
3 Copyright 2017 FUJITSU LIMITED
![Page 5: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/5.jpg)
Interstage Big Data Parallel Processing Server
企業におけるビッグデータ活用を支援するソフトウェア 「Apache Hadoop*1」をベースに富士通独自技術を搭載し、信頼性・処理性能・
導入容易性を向上しました。 様々な特性の大量データを分析・加工し、新規ビジネス・サービス向上に活用 従来は分析出来なかった規模・種類の大量データを並列分散処理により短い
サイクルで分析・加工
*2 Hadoop の並列分散処理技術。分散された情報をそれぞれ並列処理し、その処理結果を集約します
スレーブサーバ
MapReduce
MapReduce
MapReduce
【大量データの分析例】レコメンデーション分析故障予測分析行動、傾向分析 ほか
分析・加工データ
二重化構成 マスタサーバ
ETERNUS
POS
携帯電話
スマートデバイス※ ETERNUS は、富士通の高信頼・高性能なストレージシステムです
データ収集システム
商品管理システム
Webシステム
データ(XML)
独自分散ファイルシステム
インターステージ ビック データ パラレル プロセッシング サーバ
Interstage Big Data Parallel Processing Server
バイナリ(CSV)
ログ(TXT)
PC
センサー
*2
*1 Apache Software Foundation(ASF)が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。
4 Copyright 2017 FUJITSU LIMITED
![Page 6: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/6.jpg)
Hadoop連携 COBOLNetCOBOL
5 Copyright 2017 FUJITSU LIMITED
![Page 7: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/7.jpg)
COBOLバッチ処理時間短縮の課題と解決方法
Hadoopで処理時間を大幅に短縮⇒ Apache Hadoop*1およびIBDPPS*2との連携による
並列分散処理で高速化
⇒アプリケーションとの通信タイミングの制御により、
処理時間を短縮
解決方法
課題: 長時間化するCOBOLバッチ処理を短縮したい
COBOLアプリに手を入れずにHadoopを活用できる⇒ COBOLのデータや複数ファイルを利用できる
解決方法
課題: COBOLのアプリケーションは改修したくない
*1:Apache Software Foundation(ASF)が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*2:Interstage Big Data Parallel Processing Server。Apache Hadoopベースの当社並列分散処理製品です。
6 Copyright 2017 FUJITSU LIMITED
![Page 8: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/8.jpg)
NetCOBOLのHadoop連携
*: Linux64bit版NetCOBOL Enterprise Edition V10.5からサポート開始し、V11.0で機能強化しました。
COBOLバッチアプリの処理時間を並列分散処理により短縮
Hadoopで処理時間を大幅に短縮
COBOLアプリに手を入れずにHadoopを活用できる
・・・
HDFS(分散ファイルシステム)
HDFS
Map
・・
並列処理 結果の集約
結果Map
Map
Reduce
Reduce
データ
データ
データ
データ
データ
データ
COBOLアプリ
COBOLアプリ
COBOLアプリ
COBOLアプリ
COBOLアプリ
自動分割
Hadoop連携NetCOBOL*
7 Copyright 2017 FUJITSU LIMITED
![Page 9: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/9.jpg)
Apache Hadoop連携:並列分散処理で短縮
IBDPPS*連携:独自分散ファイルシステムでさらに短縮Apache Hadoop IBDPPS*
*:Interstage Big Data Parallel Processing Server
COBOLバッチアプリ処理時間短縮の技術(1/2)
アプリケーションのデータを一旦HDFSに転送して処理 既存システムからのデータのダウンロードおよびアップロード不要。アプリケーションのデータを直接分散ファイルシステムに格納して、処理結果を直接活用可能
Hadoop
HDFS
Hadoop
独自分散ファイルシステム
HDFS互換
インターフェース
既存システム
アプリケーション
分析データのアップロード(コマンド)
分析結果のダウンロード
(コマンド)
既存システム
アプリケーション
共有ファイルを介して相互にデータ共有可能
データ
標準ファイル
インターフェース
データ
HDFS:Hadoop分散ファイルシステム(Hadoop Distributed File System)
Apache HadoopおよびIBDPPS* との連携でバッチ処理時間を大幅短縮
8 Copyright 2017 FUJITSU LIMITED
![Page 10: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/10.jpg)
アプリケーションとの通信タイミングの制御により、処理時間を短縮
COBOLバッチアプリ処理時間短縮の技術(2/2)
アプリケーションの入出力をメモリ経由でプロセス間通信で行い、
突合せアプリケーションの読み込み順序に最適なタイミングで制御
し、ディスク書き込みオーバヘッドを削減
富士通研究所技術
Reduce
COBOLアプリ
ト ラ ンザ ク シ ョ ン
出 力デ ー タ 1
マ ス タ
出 力デ ー タ
シャッフル
ソート
ト ラ ンザ ク シ ョ ン
マ ス タ
タイミング制御
タイミング制御
プロセス間通信
9 Copyright 2017 FUJITSU LIMITED
![Page 11: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/11.jpg)
COBOLアプリに手を入れずにHadoopを活用可能
■データ変換機能*により、COBOLのデータをMapReduceの入出力データ として利用できる
* COBOL実行時にCOBOL形式のデータをHadoop標準のKey,Value形式に自動変換
■複数入力変換機能*により、複数ファイルを使用するバッチアプリケーションでもHadoopで使用できる (富士通研究所特許出願済)
* Hadoopの基本は1つのファイルを使用する方式であり、COBOLバッチアプリケーションの複数ファイルを使用する方式と異なるため、この違いを吸収
Reduce処理
COBOLアプリ
COBOLアプリ
Map処理
データ変換機能
複数入力変換機能
複数入力変換機能
ト ラ ンザ ク シ
ョ ン
マ ス タ
COBOLアプリ
出 力デ ー タ
ト ラ ンザ ク シ
ョ ン
マ ス タ
データ変換機能
データ変換機能
データ変換機能
シャッフル
ソート
COBOLのデータや複数ファイルを利用可能
10 Copyright 2017 FUJITSU LIMITED
![Page 12: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/12.jpg)
MapReduce
ホストバッチのHadoopへのオフロードによる高速化
取 引 ロ グデ ー タ
SORTコマンド
COBOLアプリ
出 力フ ァ イ ル
COBOLアプリ
COBOLアプリ
既存システム(ホスト)
Linuxシステム
長時間アプリ
NetCOBOL+IBDPPS *1
COBOLアプリCOBOLアプリ
転送Hadoopで実行
*1:Interstage Big Data Parallel Processing Server 時間短縮
転送
EBCDIC EBCDIC
中 間フ ァ イ ル
中 間フ ァ イ ル
中 間フ ァ イ ル
中 間フ ァ イ ル
コード変換コード変換
コード変換はHadoop外で実施
ホストのバッチ処理の一部をHadoopにオフロードし、時間短縮- Hadoopによる並列化により高速化を実現- 安価なサーバの有効活用により、コスト抑制
11 Copyright 2017 FUJITSU LIMITED
![Page 13: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/13.jpg)
Hadoop連携機能*を強化*:Linux 64bit NetCOBOL Enterprise Edition
データの偏りを考慮した振り分け処理で高速化SORTキーの並びをあらかじめサーチし、最適な条件で振り分け処理を行えます。
これにより、 キーの分布が偏ったデータの処理ネックを回避できます。
データの変換処理を高速化データ形式変換ツール(SIMPLIA/TF-MDPORT)をHadoopで並列処理可能になりました。
これにより、メインフレームのバッチをオフロードして処理する場合に必要となるコード変換もHadoopによって並列化でき、処理時間を短縮できます。
同様に、データベースをアンロードしたCSV形式データをCOBOL形式データに変換する処理もHadoopによって並列化でき、処理時間を短縮できます。
12 Copyright 2017 FUJITSU LIMITED
V11機能
![Page 14: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/14.jpg)
V11.0.0のモデル
転送
メインフレーム
LinkExpress *1
物理順ファイル
ReduceMap
Hadoopによる並列分散処理
変換処理
変換処理
変換処理
MDPORT *2
Shuffle &sort
MDPORT *2
レコード順ファイル
レコード順ファイル
レコード順ファイル
COBOL
COBOL
COBOL
レコード順ファイル
レコード順ファイル
レコード順ファイル
COBOL
COBOL
COBOL
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
物理順ファイル
転送V10.5.0のモデル
MDPORT 2*
変換処理
メインフレーム
Hadoopによる並列分散処理
レコード順ファイル
LinkExpress 1*
変換処理物理順ファイル
レコード順ファイル
変換処理がボトルネック
変換処理がボトルネックMap
COBOL
COBOL
COBOLShuffle &
sort
Reduce
COBOL
COBOL
COBOL
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル MDPORT 2*
EBCDIC
物理順ファイル
データの変換処理を高速化(文字コード)
*1 :分散システムのファイル転送とDBレプリケーションツール*2 :データ変換ツールSIMPLIA/TF-MDPORT
転送
転送
メインフレーム
メインフレーム
変換処理
変換処理
変換処理
メインフレームのデータオフロード処理を高速化EBCDIC⇆UNICODEまたはS-JIS変換処理をHadoopで高速化
13 Copyright 2017 FUJITSU LIMITED
![Page 15: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/15.jpg)
データの変換処理を高速化(データ形式)
ReduceMap
CSV(行順
ファイル)V10.5.0のモデル
V11.0.0のモデル
MDPORT*
変換処理
DBサーバ
Hadoopによる並列分散処理
Map
COBOL
COBOL
COBOLShuffle &
sort
レコード順ファイル
Reduce
COBOL
COBOL
COBOL
変換処理レコード順ファイル
Hadoopによる並列分散処理
変換処理
変換処理
変換処理
MDPORT*
Shuffle &sort
MDPORT*
変換処理がボトルネック
変換処理がボトルネック
DB アンロード
DBサーバ
DB アンロード
MDPORT*
CSV(行順
ファイル)
CSV(行順
ファイル)
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
COBOL
COBOL
COBOL
レコード順ファイル
レコード順ファイル
レコード順ファイル
COBOL
COBOL
COBOL
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
レコード順ファイル
CSV(行順
ファイル)
変換処理
変換処理
変換処理
*データ変換ツールSIMPLIA/TF-MDPORT
Hadoop(Map/Reduce)内でデータ変換処理(MDPORT*)を実行可能変換処理(CSV<->レコード順ファイルなど)にかかる時間を大幅に短縮
14 Copyright 2017 FUJITSU LIMITED
![Page 16: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/16.jpg)
データの偏りを考慮した処理で高速化
タスク1
タスク2
タスク3
タスク4AC
B
H I
DFG
ShuffleSortReduce
高速化
(富士通研究所特許出願済)
最速の実行結果が得られるようにデータの振り分けを最適化
ハッシュ値の重複により特定のタスクにデータが集中し、ボトルネックが発生
ないよう、データの偏り(SORTキー)をあらかじめサーチすることで、最適な
振り分け処理と、無駄なタスクの起動がなくなり高速化
ABCD
I
・・・
振分け最適化
データ
特定のデータに偏りある場合(BやCのデータ)
各データの偏りを考慮し、
振り分けを最適化。
また、無駄なタスクの起動を抑止
15 Copyright 2017 FUJITSU LIMITED
![Page 17: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/17.jpg)
COBOLバッチの並列分散処理による効果実測例
2時間半がわずか8分。約18分の1に短縮
中間ファイル
中間ファイル
SORTコマンド
店舗IDでソート 店舗IDで結合し、集計
SORTコマンド
COBOLアプリ128GB(6400万件)
512バイト(32件)
マ ス タ 25GB(1250万件)
従来のバッチアプリケーション
出力
出力
データ
マ ス タ
シャッフル
ソート
マ ス タ
ソートキー抽出目印「トラン」
ソートキー抽出目印「マスタ」
NetCOBOLランタイム
NetCOBOLランタイム
Map Reduce
COBOLアプリ
Apache Hadoop+NetCOBOL
128GB(6400万件)
512バイト(32件)
25GB(1250万件)
Interstage BDPPS*+NetCOBOL
ト ラ ンザ ク シ ョ ン
0 50 100 150
Apache Hadoop+NetCOBOLInterstage BDPPS*+NetCOBOL
入力 → 処理[抽出→ソート→結合] → 出力 150分
処理入力
出力
処理
8分
従来のバッチアプリケーション
50分 1/3に短縮
1/18に短縮
*: Interstage Big Data Parallel Processing Server
トランザクションデータをマスタデータと結合し集計する処理の場合
出力データ
出力データ
出力データ
トランザクション
トランザクショントランザクション
16 Copyright 2017 FUJITSU LIMITED
![Page 18: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/18.jpg)
COBOL既存資産の活用シーン
入力データ
出力データ
COBOLアプリ
Hadoop適用に向いている処理
中間ファイル
SORTコマンド
COBOLアプリ
商品IDでソート 商品IDで集計
単価×個数=売上
トランSORTコマンド COBOL
アプリ
商品IDでソート商品IDで突合せ、集計
マスタSORTコマンド
出力データ
入力データ
中間ファイル
出力データ
③ファイル同士の突合せ
②特定キーを持つレコードの集計
①レコードの単純加工
Hadoopに適用可能な処理の条件
レコード間の依存関係なし・逐次処理・繰り返し処理
順フ ァイル
順ファイル
順ファイル
中間ファイル
17 Copyright 2017 FUJITSU LIMITED
![Page 19: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/19.jpg)
Hadoop適用に向いている処理①:レコードの単純加工
伝票ID 商品名 単価 個数
001 いちご 300 2002 みかん 200 2… … … …
入力 COBOLアプリ
COBOLアプリ
750 メロン 800751 トマト 400… … …
伝票ID 商品名 売上
001 いちご 600002 みかん 400… … …
単価×個数=売上
COBOLアプリ
Map処理・・・
出力
出力
出力
ポイント すべてのレコードに同じ処理を行う : Map処理を利用Map処理には一定サイズ(ブロック)に分割された入力ファイルが渡されます
入力
伝票ID 商品名 単価 個数
001 いちご 300 2002 みかん 200 2… … … …
単価×個数=売上
伝票ID 商品名 売上
001 いちご 600002 みかん 400… … …
現行バッチ
Hadoop適用後
・・・
18 Copyright 2017 FUJITSU LIMITED
![Page 20: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/20.jpg)
Hadoop適用に向いている処理②:特定のキーをもつレコードの集計
Shuffle&sort
出力
出力
伝票ID 商品ID 個数001 BBB 2002 JJJ 1003 AAA 3… … …
伝票ID
商品ID
個数
003 AAA 2012 AAA 1… … …
入力
COBOLアプリ
001 JJJ 1076 JJJ 3… … …
商品ID
出荷数
AAA 20
JJJ 30
伝票ID 商品ID 個数001 BBB 2002 JJJ 1003 AAA 3… … …
SORTコマンド
商品IDでソート 商品IDで集計
商品ID 出荷数
AAA 20BBB 30… …
ポイント同一キーのレコード単位に処理を行う : Reduce処理を利用Shuffle&sortに指定した主キーでレコードがグループ化され、Reduce処理には
主キーでグループ化されたレコードが渡されます。
Reduce処理
COBOLアプリ
出力
入力 中間ファイル
COBOLアプリ
・・・
現行バッチ
Hadoop適用後
商品IDでソート 商品IDで集計
・・・
19 Copyright 2017 FUJITSU LIMITED
伝票ID 商品ID 個数
003 AAA 2012 AAA 1… … …
![Page 21: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/21.jpg)
Hadoop適用に向いている処理③:ファイル同士の突き合わせ
ト ラ ン
マスタ
SORTコマンド
COBOLアプリ
商品IDでソート
SORTコマンド
商品IDでソート
出力伝票ID
商品ID 個数
001 BBB 2… … …
商品ID
商品名 単価
CCC みかん 200… … …
商品名 出荷額
いちご 6000バナナ 8000… …
現行バッチ
ポイント複数ファイルの突き合わせ処理を行う : Reduce処理を利用Shuffle&sortに指定した主キーで、それぞれのファイルのレコードがグループ化され、Reduce処理に渡されます。
中間ファイル
商品ID
商品名 単価
AAA いちご 300BBB バナナ 100… … …
商品IDで突合せ、集計
20 Copyright 2017 FUJITSU LIMITED
中間ファイル
伝票ID 商品ID 個数
003 AAA 2010 AAA 5… … …
![Page 22: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/22.jpg)
Hadoop適用に向いている処理③:ファイル同士の突き合わせ
ト ラ ン
マスタ
Shuffle&sort
COBOLアプリ
COBOLアプリ
商品名 出荷額
いちご 6000
ポイント複数ファイルの突き合わせ処理を行う : Reduce処理を利用Shuffle&sortに指定した主キーで、それぞれのファイルのレコードがグループ化され、Reduce処理に渡されます。
伝票ID 商品ID 個数
003 AAA 2… … …商品ID
商品名 単価
AAA いちご 300… … …
伝票ID
商品ID 個数
001 BBB 2… … …
商品ID
商品名 単価
CCC みかん 200… … …
Reduce処理
伝票ID 商品ID 個数
001 BBB 2… … …
商品ID
商品名 単価
BBB バナナ 100… … …
商品名 出荷額
バナナ 8000
出力
出力
商品IDで突合せ、集計
商品IDでソート
・・・
Hadoop適用後
・・・
21 Copyright 2017 FUJITSU LIMITED
![Page 23: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/23.jpg)
製品情報
製品体系
動作環境
22 Copyright 2017 FUJITSU LIMITED
![Page 24: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/24.jpg)
製品体系
* 製品購入の際は、ライセンスのほか、メディアパック(媒体のみの提供)が必要です。
製品名 備考
NetCOBOL Enterprise Edition 開発・運用パッケージ (プロセッサライセンス)*
Hadoopを使用したCOBOLによるバッチ高速化機能を提供する開発および運用環境製品
NetCOBOL Enterprise Edition 運用パッケージ(プロセッサライセンス)*
Hadoopを使用したCOBOLによるバッチ高速化機能を提供する運用環境製品
23 Copyright 2017 FUJITSU LIMITED
![Page 25: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/25.jpg)
動作環境
製品名 サーバ動作OS
NetCOBOL Enterprise Edition 開発・運用パッケージRed Hat Enterprise Linux 7(for Intel64)Red Hat Enterprise Linux 6(for Intel64)
NetCOBOL Enterprise Edition 運用パッケージRed Hat Enterprise Linux 7(for Intel64)Red Hat Enterprise Linux 6(for Intel64)
Hadoop製品以下のいずれかのデータベースソフトウェアが必要です。
Apache Hadoop 1.0.3 またはApache Hadoop 1.2.1 または
Interstage Big Data Parallel Processing Server V1.0.1以降
必須ソフト
24 Copyright 2017 FUJITSU LIMITED
![Page 26: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/26.jpg)
ご参考
参考情報
25 Copyright 2017 FUJITSU LIMITED
![Page 27: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/27.jpg)
NetCOBOL Webサイト
NetCOBOLホームページ:http://software.fujitsu.com/jp/cobol/
コンセプト 製品情報 FAQ(ご購入前、ご購入後) オンラインマニュアル 体験版貸し出し 導入事例 技術資料・・・・
NetCOBOLの最新情報をご提供しています
26 Copyright 2017 FUJITSU LIMITED
![Page 28: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/28.jpg)
Apache、Apache Hadoop は、The Apache Software Foundation の登録商標または商標です。
Red Hat は米国およびその他の国でRed Hat, Inc. の登録商標若しくは商標です。Linuxは Linus Torvaldsの商標です。
NetCOBOL、Interstageは富士通株式会社の登録商標です。
記載されている会社名、製品名等は各社の商標または登録商標である場合があります。
登録商標
27 Copyright 2017 FUJITSU LIMITED
![Page 29: COBOLバッチ処理の高速化:Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェアです。*](https://reader033.fdocument.pub/reader033/viewer/2022042007/5e70929210fdf23e4754da22/html5/thumbnails/29.jpg)
28