データサイエンスセミナー 【found IT project #8】

42
AI時代の データインテグレーションとは 株式会社アプレッソ 取締役 開発本部長 製品戦略担当 株式会社セゾン情報システムズ グローバル企画開発部 データインテグレーションプロダクトマネージャ 吉田 哲也 [email protected]

Transcript of データサイエンスセミナー 【found IT project #8】

AI時代のデータインテグレーションとは

株式会社アプレッソ

取締役 開発本部長 製品戦略担当

株式会社セゾン情報システムズ

グローバル企画開発部 データインテグレーションプロダクトマネージャ

吉田 哲也

[email protected]

名前:吉田 哲也 (ヨシダ テツヤ)

出身:兵庫県姫路市網干区

経歴:

2000年サン・マイクロシステムズ入社

2001年アプレッソ入社

現在に至る

趣味:

フルマラソン(3:40:35)ウルトラマラソン(11:28:28)娘と遊ぶ

SNS:

Twitter:@TetsuyaYoshida

Facebook:tetsuya.yoshida.jp

2

自己紹介

株式会社アプレッソ本 社 東京都文京区関口1-20-10 住友不動産江戸川橋駅前ビル代表取締役社長 小野 和俊

2001年 6月 DataSpider製品 最初のユーザとしてNHK様に導入(全国高校野球地方予選大会の結果をWeb掲載)

2002年10月 財団法人ソフトウェア情報センター(SOFTIC)選定「2002年度ソフトウェア・プロダクト・オブ・ザ・イヤー」受賞

2003年 1月 DataSpider採用の清水建設様工事・建物DBシステム 日経コンピュータ 「第7回情報システム大賞」グランプリ受賞

2004年11月 慶応義塾大学(藤沢)による SFC Entrepreneur Award 2004 Silver Award受賞

2008年 8月 DataSpiderが 「Microsoft Innovation Award 2008 優秀賞」を受賞

2009年 4月 「つなぐ」第2弾製品 「PIMSYNC」発表

2010年 4月 「つなぐ」第3弾製品 「DataSpider BPM」発表

2010年 9月 DataSpider 2.4 IPA(独立行政法人 情報処理推進機構)

連携プログラム技術評価制度 評価書を取得

2011年 3月 クラウド連携にフォーカスした DataSpider 3.0 を発表

2012年 2月 DataSpider Servista3.0 財団法人 全国地域情報化推進協会(APPLIC)地域情報プラットフォーム準拠認定

2013年 3月 株式会社セゾン情報システムズと資本・業務提携

2014年 3月 DataSpiderシリーズ 出荷累計 2000社突破

2015年 4月 「つなぐ」第4弾製品 「Thunderbus」発表

2015年11月 DataSpiderシリーズ 出荷累計 2500社突破

2016年 2月 IoT連携プラットフォーム「DataSpider Servista 4.0」を発表

2017年 1月 クラウド型データインテグレーションサービス「DataSpider Cloud」を提供開始

3

会社概要

「つくる」から「つなぐ」 をコンセプトに データ連携のソリューションを展開しています

4

「つくる」から 「つなぐ」 をコンセプトに

4

データ・クラウド連携

ビジネスプロセス連携

スケジュール連携

業務プロセスを見える化ヒューマンプロセスとシステムプロセスを「つなぐ」

サイボウズガルーン、eSalesマネージャ、Salesforce、Notes などカレンダーを「つなぐ」

クラウド・オンプレミス連携VPN不要、クラウドとオンプレミスを

シームレスにつなぐ

多種多様なデータやシステムをノンプログラミングで「つなぐ」

会社概要:セゾン情報システムズ

会社概要

商 号 株式会社セゾン情報システムズ

設立年月日 1970 年 9 月 1 日

代表取締役社 長

内 田 和 弘

資 本 金 13億6,768万7,500円

事 業 内 容‣カードシステムソリューション事業‣流通・ITソリューション事業‣通信基盤ミドルウェア(HULFT)事業

従 業 員 数 1,203名(連結) 657名(単体)

本社所在地 東京都豊島区東池袋三丁目1番1号

上 場 市 場 東京証券取引所JASDAQスタンダード市場(9640)

主 要 株 主(上位3位)

‣株式会社クレディセゾン‣ ロイヤルバンクオブカナダトラストカンパニー(ケイマン)リミ

テッド‣イーシーエム マスターファンド エスピーヴイ ワン

認定・届出 総務省 電気通信事業者届出

品質セキュリティ

‣プライバシーマーク付与認定取得・登録番号 【11820059(09)】

‣ JISQ9001:2015(ISO9001:2015)認証取得・登録番号 【JMAQA-041】

‣ JISQ27001:2014(ISO/IEC27001:2013) 認証取得・登録番号 【JMAQA-S030】

‣ JISQ20000-1:2012(ISO/IEC20000-1:2011)認証取得・登録番号 【JMAQA-T002】・登録範囲 【システムサービスセンター、テクノベーションセンター、ビジネスサポート部、監査部】

(2016年9月30日現在)

1970年

1992年

㈱西武情報センター設立・創業西武流通グループ(当時)の情報処理機能の統合と新しい情報サービス業の創造を目的として、設立。情報処理サービス事業、ソフトウェア開発事業を開始。

㈱セゾン情報システムズに商号変更信販業務システムを中心に情報サービス拡大・強化のため㈱緑屋計算センターを吸収合併(1981年)、豊島区のコンピュータ専用ビルに移転(1984年)し、総合サービス企業としての基盤を整備。

1993年

JASDAQスタンダード市場に上場

通信ミドルウェア「HULFT」販売開始業種・業界を問わず、全世界で43ヵ国、8,600社、185,800本、世界売上シェア第4位、国内シェア第1位の実績を誇るファイル転送ミドルウェア販売・保守・ソリューション事業の源となる。(2016年9月末時点)

2005年

㈱流通情報ソリューションズを吸収合併流通システム事業の経営資源の集中、強化。旧西武流通グループから蓄積した技術・ノウハウの成熟させ、業務を“つなぐ”クラウドインテグレーターとしてお客様事業を支える流通・ITソリューション事業に発展する。

2010年クラウド関連製品・サービス提供開始webデータ連携「HULFTクラウド」、クラウド型ホスティングサービス「SAISOS」を提供開始。クラウド&グローバル時代に求められるニーズに対応するための技術・環境を整備。

2015年 ASEAN拠点 HULFT Pte. Ltd.設立

2013年 ㈱アプレッソ株式を取得、子会社化データ連携ソリューションの強化とともに、先端技術の研究開発経営の基盤を醸成。

2016年北米拠点 HULFT, Inc.を設立2005年に中国拠点の世存信息技術(上海)有限公司設立を皮切りにグローバルビジネス拡大を図るため、ASEAN、北米拠点会社を設立。米国開催 AWS re:Invent 2015で「Think Big」賞を受賞。

5

© 2017 APPRESSO K.K. All Rights Reserved. 6

AIと言えば

AIと言えば

© 2017 APPRESSO K.K. All Rights Reserved. 7

機械学習 ディープラーニング

CNN/RNNSVM

線形回帰 TensorFlow

© 2017 APPRESSO K.K. All Rights Reserved. 8

AIと言えば

むつかしい言葉は出てきません

© 2017 APPRESSO K.K. All Rights Reserved. 9

AIと言えば

データインテグレーションのお話です

データインテグレーションツール

•可視化•予兆検知•データガバナンス

Sensor

IoT

Factory

Mobile

FA

ERP HR DWH EDI

機械学習

データインテグレーション

ツール

ビッグデータ

・データフローコントロール・ダイナミックルーティング・データマネジメント

© 2017 APPRESSO K.K. All Rights Reserved. 10

1.データ準備

2.モデル作成

3.モデル検証

© 2017 APPRESSO K.K. All Rights Reserved. 11

機械学習、深層学習のステップ

for (;期待する結果が得られるまで;) {

1.データ準備

2.モデル作成

3.モデル検証

}

© 2017 APPRESSO K.K. All Rights Reserved. 12

実際の機械学習、深層学習のステップ

for (;期待する結果が得られるまで;) {1. データ準備

2.モデル作成

3.モデル検証}

© 2017 APPRESSO K.K. All Rights Reserved. 13

各ステップにかけたい時間

for (;期待する結果が得られるまで;) {

1.データ準備

2. モデル作成

3. モデル検証

}

© 2017 APPRESSO K.K. All Rights Reserved. 14

実際の各ステップにかかる時間

80%もの時間がデータ準備に費やされているというデータもあります

• データってどこにあります?

• それらのフォーマットってどうなっています?

• 同じ意味のデータは同じデータになっています?

© 2017 APPRESSO K.K. All Rights Reserved. 15

なぜそうなるのか?

• 例えば簡単な売上予想を考えてみます

• 学習用データや教師用データはセットになっていない

–天気→オープンデータ

–キャンペーン→キャンペーン管理システム

–セール→商品管理システム

–など

© 2017 APPRESSO K.K. All Rights Reserved. 16

なぜそうなるのか?

© 2017 APPRESSO K.K. All Rights Reserved. 17

データの所在

データベース? ファイル?

サービス/API? 基幹システム/ホスト?

• データベース– Oracle、DB2、SQL Server、PosgreSQL、

MySQL・・・

• ファイル– フラットファイル、Excel、ログ・・・

• サービス/API– クラウドサービス、オープンデータ・・・

• 基幹システム/ホスト– SAP、Domino/Notes、IBM z、MSP/XSP・・・

© 2017 APPRESSO K.K. All Rights Reserved. 18

データの取得

• 認証方法– BASIC認証、ダイジェスト認証、NTLM認証、OAuth認証、SAML認証・・・

• API/接続方式– JDBC/ODBC、HTTP/HTTPS、Socket、SAP JCo、Notes C API、

POI/JExcel API

• プログラミング言語– Java、.NET、C/C++、アセンブラ

• 型– 数値(Integer、Float、Double)、文字列(CHAR、VARCHAR)、日付・・・

• エラーハンドリング/パフォーマンスチューニング– タイムアウト、フェッチ/バッチサイズ・・・

© 2017 APPRESSO K.K. All Rights Reserved. 19

必要な技術

© 2017 APPRESSO K.K. All Rights Reserved. 20

AIと言えばすべてのデータソースからデータを取得するプログラムが組める人?

• データベース– 行列・・・

• ファイル– CSV、固定長、可変長、Excel、アクセスログ、アプリケーションログ、バイナリファイル・・・

• サービス/API– JSON、XML、CSV、変態CSV・・・

• 基幹システム/ホスト– SAP固有、Domino/Notes固有、IBM z固有、MSP/XSP固有・・・

© 2017 APPRESSO K.K. All Rights Reserved. 21

データフォーマット解析

• データフォーマットを解析する力

• データフォーマット解析ライブラリ

• 型フォーマット– 日付フォーマット、数値フォーマット

• 大規模データ処理

• データフォーマットが変わったときにも対応する忍耐力

© 2017 APPRESSO K.K. All Rights Reserved. 22

必要な技術

© 2017 APPRESSO K.K. All Rights Reserved. 23

AIと言えば

データフォーマット解析したい人?

• 「JP」と「日本」を同じデータとして扱う

• 「東京」と「港区」のデータの意味は同じものとして扱う?

• 全角と半角

• 「2017/07/27」は「27/7/17」と同じ

• 日時データの時間はいらない?

• 「k」や「m」の単位を合わせる

• 欠損データの取扱は?– それとも学習データから除外?

© 2017 APPRESSO K.K. All Rights Reserved. 24

データ前処理

© 2017 APPRESSO K.K. All Rights Reserved. 25

AIと言えば

データ前処理したい人?

© 2017 APPRESSO K.K. All Rights Reserved. 26

AIと言えばデータを準備するだけで結構大変なんです

for (;期待する結果が得られるまで;) {

1.データ準備

2. モデル作成

3. モデル検証

}

© 2017 APPRESSO K.K. All Rights Reserved. 27

現実の作業時間

80%もの時間がデータ準備に費やされているというデータもあります

for (;期待する結果が得られるまで;) {1. データ準備

2.モデル作成

3.モデル検証}

© 2017 APPRESSO K.K. All Rights Reserved. 28

理想的な作業時間

1. データの選択– どのようなデータが分析に使えるのか– そのデータはどこにあるのか

2. データの前処理– フォーマッティング

• DBやファイルのデータを取得します• それぞれのフォーマットを同じフォーマットにします

– クリーニング• 欠損データを取り除いたり、不正データを修正したりします

– サンプリング• 不要なデータ(あまりにも過去など)を取り除きます

3. データの変換– クレンジング

• 同じ意味のデータは同じものとしてデータを整えます

– スケーリング• 桁を合わせます

– デコンポジション• 組み合わさったデータを構成されるデータに分割します

– 例:日時などのデータを日と時に分割

– アグリゲーション• 複数の特長を持ったデータを一つの特長に集約する

– 例:ログイン情報をログイン回数に集約する© 2017 APPRESSO K.K. All Rights Reserved. 29

データ準備まとめ

データインテグレーションツールが活躍します

•可視化•予兆検知•データガバナンス

Sensor

IoT

Factory

Mobile

FA

ERP HR DWH EDI

機械学習

データインテグレーション

ツール

ビッグデータ

・データフローコントロール・ダイナミックルーティング・データマネジメント

© 2017 APPRESSO K.K. All Rights Reserved. 30

• 多種多様な接続先を持っています

• GUIを持っています

• デフォルト値でそれなりに動くようになっています

• データ取得の際にはツールの使い方を学ぶだけです

© 2017 APPRESSO K.K. All Rights Reserved. 31

データインテグレーションツールの特長

• 接続先を確認しましょう– 接続先がなければ元も子もないですよね

• 設定粒度に気を付けましょう– GUIは制約にもなります– どの程度汎用的に処理が組めるのか確認しましょう

• データインテグレーションツール自体の品質は良いものを選びましょう– データインテグレーション自体でそれなりにハマります– ツール自体にハマらないよう品質の良いものを選びましょう

• 処理速度は高速なものにしましょう– データはどんどん大きくなっていきます– 処理速度が速いものを選びましょう

• 最初はクラウドがいいですよね

© 2017 APPRESSO K.K. All Rights Reserved. 32

データインテグレーションツールの選び方

© 2017 APPRESSO K.K. All Rights Reserved. 33

ちょっと宣伝

●DataSpider Servista は、2017年4月に日経BP コンサルティングが実施の「データ連携に関するアンケート調査」おいて、 4年連続で「総合満足度1位」の評価をいただきました。

同調査において、主要なデータ連携ツール(製品)を「導入済み」とする各企業を対象にした製品導入後の「総合的な満足度」で高評価をいただき、導入済みのうちDataSpider Servista製品を導入していると回答したのは26.8%で全体の4分の1を占め、最も高い比率でした。

DataSpider Servista は、 2014年3月、2015年3月、 2016年3月の調査に続いて、今年も4年連続で「総合満足度1位」の評価をいただきました。

2017年4月実施 日経BPコンサルティング 「データ連携に関するアンケート調査」ニュースリリースhttps://consult.nikkeibp.co.jp/info/news/2017/0517df/

顧客満足度 NO.1データ連携ソフトウエア

© 2017 APPRESSO K.K. All Rights Reserved. 34

データベース■ Microsoft Access■ DB2 ■ DB2 for i■ MySQL■ Oracle■ PostgreSQL■ Microsoft SQL Server

グループウェア■ IBM Domino■ IBM Notes

クラウド■ Amazon Web Services■ Cloudn■ Google Apps■ Microsoft Azure

ネットワーク■ FTP■ JMS ■ Web ■ Webサービス■ メール■ Active Directory■ REST

SDK■ 追加アダプタ開発

■ JDBC■ ODBC■ NeoCore■ Shunsaku■ MongoDB

アプリケーション■ DataSpider BPM■ Thunderbusコネクタ■ SAP・SAP・SAP BC・SAP テーブルクエリ(差分抽出) ※6

■ HULFT■ Microsoft Dynamics AX ※4

■ Dr.Sum EA■ SVF■ StraForm-X(コネクタ)■ Sedue■ 勘定奉行V ERP ※5

■ 商蔵奉行V ERP ※5

■ List Creator■ Xuras inicio■ メインフレーム■ Oracle EBS ※3

■ Tableau ※6

■ Microsoft Dynamics CRM

ファイル■ CSV■ Microsoft Excel■ HTML■ XML■ 固定長■ 可変長■ ファイル操作■ ファイルシステム■ Apache™ Hadoop® ※2

■ ニフティクラウド■ Salesforce

・Log Manager for Salesforce

■ GAEデータストア ※1

■ kintone

クラウドからビッグデータまで様々なシステムへ対応

多種多様なシステムへの対応

※1:販売元は、株式会社ティー・シー・エフ様です。※2: Apache™ Hadoop® アダプタの正式製品名は「DataSpider アダプタ for Apache™ Hadoop®」です。※3:Oracle EBS はOracleアダプタで接続できます。※4:本製品は古河インフォメーション・テクノロジー株式会社様の製品です。

※5:販売元は、日本電通株式会社様です。※1,※4,※5 は代理販売によって提供致します。※6:対応バージョンは、 DataSpider Servista 3.2 SP4 となります。

© 2017 APPRESSO K.K. All Rights Reserved. 35

外部からの呼び出し

HTTP、SAP、Webサービス、ファイルイベント、スケジューラ、専用クライアント、Java API 、データベース、FTP、HULFT、AmazonSQS、Azure Service bus

DataSpider 実行サーバ

アダプタ

トリガー

スケジューラ

販売管理DB メールサーバ FTPサーバ在庫管理DB 購買管理DB

SAPHTTP Webサービスファイルイベント

運用監視ツール

Java API データベース HULFT Azure

Service Bus

FTPサーバ

様々なタイミングで連携処理を自動実行可能

Amazon

SQS

© 2017 APPRESSO K.K. All Rights Reserved. 36

高速なパフォーマンス

モジュール

モジュール モジュール

コンパイル

コンパイル方式でJavaのプログラムと変わらないパフォーマンスを実現

DataSpiderStudio

DataSpiderServer

• 高速なデータ連携実行環境– GUIで開発を行った処理フローやデータフローは、DataSpider 内部で

Java プログラムに変換後処理実行を行うため、プログラムによる開発・実装と遜色ない高速な処理パフォーマンスを実現

© 2017 APPRESSO K.K. All Rights Reserved. 37

4

変換処理

1

3

2

1

抽出処理 書込処理

2

3

4

大容量データ対応①

一定の分割単位で各処理を並列に処理させることで、全体の処理速度が向上

最小限のメモリ量で大容量データを高速に連携

• 高速なデータ連携実行環境– 大容量のデータをより高速に処理するために最適な方式を搭載

~ パラレルストリーミング機能 ~

© 2017 APPRESSO K.K. All Rights Reserved. 38

結合

集計ソート

MSC

DataSpider Servista V4 新開発の高速エンジン

マルチストリームコンバータ

大容量データ対応②

結合処理は従来のバージョンより10~15倍のパフォーマンス向上

新エンジン採用により集計/結合/ソートを高速化

© 2017 APPRESSO K.K. All Rights Reserved. 39

• 機械学習のためのデータ準備は結構大変です

• 機械学習ではデータ準備の時間を短くしましょう

• その際にはデータインテグレーションツールが有効です

• DataSpiderがおすすめですw© 2017 APPRESSO K.K. All Rights Reserved. 40

まとめ

© 2017 APPRESSO K.K. All Rights Reserved. 41

私たちは仲間を募集しています

https://www.appresso.com/recruit/

ご静聴ありがとうございました