B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori...

36
© HitachiLtd. 2012. All rights reserved. 株式会社 日立製作所 情報・通信システム社 ITプラットフォーム事業本部 田村 和則 「今」を分析する ストリームデータ処理技術と その可能性 db tech showcase 2013 Osaka 2013.5.29 © Hitachi, Ltd. 2013. All rights reserved.

Transcript of B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori...

Page 1: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi、 Ltd. 2012. All rights reserved.

株式会社 日立製作所 情報・通信システム社 ITプラットフォーム事業本部

田村 和則

「今」を分析する ストリームデータ処理技術と その可能性

db tech showcase 2013 Osaka 2013.5.29

© Hitachi, Ltd. 2013. All rights reserved.

Page 2: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

セッションの要約

ストリームデータ処理って何なの? データベースと何が違うの?

どうやって使うの? どんなところで使われてるの?

で、実際どうなの?

といった疑問を解決します。

0-1

そして今日から、 データ処理方式の選択肢のひとつに

「ストリームデータ処理」 を加えてもらいたい

2 © Hitachi, Ltd. 2013. All rights reserved.

Page 3: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi、 Ltd. 2012. All rights reserved.

Contents 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ

© Hitachi, Ltd. 2013. All rights reserved.

Page 4: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi、 Ltd. 2012. All rights reserved.

Contents 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ

© Hitachi, Ltd. 2013. All rights reserved.

Page 5: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

通話ログ

電力メーター

カーナビ つぶやき

コンテンツダウンロード

SNS

ネット購入

データベース

監視映像

Big Data

人 の発信

モノ の発信

環境・気象データ

設備監視

GPS

動画・画像・音声

スマートフォン

診断画像・ 電子カルテ

物流トレース

運行情報

ICカード利用

人の移動

1-1 ビッグデータ時代がやってきた!

5 © Hitachi, Ltd. 2013. All rights reserved.

Page 6: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

ITシステムから生成されるデータ

機械から生成されるデータ

■ データがデジタル化されている ■ センサー技術の進展により、今まで分からなかったことが分かる ■ ブロードバンドの普及により、どこからでも大量のデータを取得できる

モノやヒトのデータを活用した新たなビジネスが期待されている

設備情報

1-2

環境情報

携帯電話 位置情報

ICカード …

システムログ 業務ログ

アクセスログ メール

SNSログ …

ビッグデータ時代におけるデータの変化

ありとあらゆるところから、データが湧き出てくる

6

Page 7: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

項目 センサーデータ 空間データ

データ種別 温度、湿度、振動、圧力・・・ GPS、RFID、電子乗車券…

データ型 波形 位置情報、軌跡

活用例 機器診断 人流分析、物流分析

0

50

100

150

11:59 12:00 12:01 12:02 12:03 12:04

【時間軸】

【メッセージ

◎予兆

◎発生

◎復旧

1-3 ビッグデータ時代におけるデータの活用方法

■ 時々刻々と絶え間なく、データが発生し続ける ■ 「今」を高速かつ高度に分析(傾向/相関/軌跡分析など)して、 現場に即座にアクションすることが重要

1点の値ではなく、時系列な値の変化に意味がある

波形 軌跡

7

Page 8: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

1-4

個客指向マーケティング 流通分野

医療分野 オーダーメイド医療

金融分野 顧客細分型 金融・保険サービス

行政分野 世論分析・意思決定支援

予防保守・運用サービス 保守分野

電力需給予測サービス 電力分野

車流分析予測サービス 交通分野

通信状況分析サービス 通信分野

ビッグデータ時代におけるデータの活用例

ヒ ト の 情 報

モ ノ の 情 報

8

Page 9: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

ビッグデータ処理要件

リアルタイムに今が分かる

自分にあったサービスが得られる

新たな気づきを得る ネット購入

金融取引ログ

電力メーター

ICカード利用

SNS

ブログ

自動改札

1.リアルタイム処理

2.蓄積・検索

3.集計・分析

1-5 ビッグデータ時代のITに求められること

データの利活用サイクルに応じたデータ処理技術が必要

9

Page 10: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

ビッグデータの利活用を支えるプラットフォーム

時間

異常度

異常

警戒正常

故障予兆

大量の情報を リアルタイム処理

1.リアルタイム処理

大量の情報を 対象とした分析

診断対象同機種平均

稼動データ

時間

P1P2P3P4

3.集計・分析

大量の情報を 高速検索・効率保管

履歴データ

2.蓄積・検索

uCosminexus Stream Data Platform

uCosminexus Elastic Application Data store

Hitachi Advanced Data Binderプラットフォーム

Hadoop

uCosminexus Grid Processing Server ストリームデータ処理基盤

インメモリ型データグリッド

グリッドバッチ

時系列データストア技術

1-6

ビッグデータの利活用サイクルに応じたミドルウェアをご提供

10

Page 11: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi、 Ltd. 2012. All rights reserved.

Contents 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ

© Hitachi, Ltd. 2013. All rights reserved.

Page 12: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

新しいようで、実は長く研究され続けている技術

Stanford STREAM

MIT他 Aurora

U.C. Berkeley TelegraphCQ

Wisconsin Niagara

他に、Cornell Univ. New York Univ. AT&T などが研究推進

ストリームデータ処理の研究の歴史 2-1

■ 米国の有力大学のDBグループで研究開始(2002~) ■ 学術成果の学会発表(2003~) ■ 日立 「uCosminexus Stream Data Platform」リリース(2008~) ■ 2013年現在も主要学会で研究発表継続中

日立から 研究員派遣

12

Page 13: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

2-2

データ種別,処理モデル ストック型

・データを事前に準備 ・データサイズ有限

デー

タ格

納位

DB DB

サーバ

フロー型 ・データ到着時に処理 ・データサイズ無限

メモリ

ストレージ

ファイル サーバ

ファイル 1960年代~: 構造型DB

1970年代~: RDB2

凡例: 1 In-Memory DB, 2 Relational DB, 3 Materialized View (実体化ビュー)

関係データベース

ストレージベースのストック型データ処理技術

適用アプリ: アルゴリズムトレーディング, コンプライアンスチェック,不正監視・検知,…

ストリームデータ処理,複雑イベント処理

ストリームデータベース

サーバ 2000年~: 研究開始

・超高速イベント処理を実現 ・クエリインタフェース提供

により開発工数削減 CEP

適用アプリ: 銀行トランザクション, チケット予約,通話課金,…

オブジェクト キャッシュ

サーバ

インメモリデータベース

IMDB1

1980年代~: 研究開始 DB

サーバ 1990年代~: 商用化

インメモリベースのストック型データ処理技術

分散オブジェクトキャッシュ

DB DB

サーバ 1990年代~: 時系列DB

1980年代~: Temporal DB

データ処理での時間の取り扱い技術

1990年代~: MV差分更新

差分データ処理技術

サーバ MV3

構造型データベース

ストリームデータ処理の位置付け

13

Page 14: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

2-3

取引情報

商品データ 売上データ

事業活動

情報

DB操作で 集計・分析

ストック型データ処理(従来DBMS)

データ

DB DB

データをDBにストック(蓄積)してから, データを集計・分析する。

一括処理 データ保存必要

操作ログ

RFID POSデータ

センサデータ

実世界データ

データが発生する度に, 逐次,データを集計・分析する。

リアルタイム処理 データ保存不要

リアルタイム 集計・分析

リアルタイム 表示

フロー型データ処理(ストリーム)

ストリームデータ処理

データの 量と質の変化

ストリームデータ処理の動作原理

データ発生時にリアルタイムに処理するフロー型データ処理

14

Page 15: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

事前登録

稼動情報

通信データ

ICカード

稼動監視

ネットワーク

入力 情報

集計・ 分析結果

分析シナリオ 分析結果

ダッシュボード (見える化)

結果ファイル

uCosminexus Stream Data Platform

株a,15

ストリームデータ処理基盤

スライディング・ウインドウ

株a,1 株b,2

株a 計15 株b 計6

時系列データ分析

株a,1 株b,2

株a,4 株b,6

株a,9

株a,3 株b,4

株a,5 株a,6

2-4 ストリームデータ処理の要素技術と特長

■ ウィンドウ演算により、時系列データの分析を簡単に実現 ■ インメモリ差分計算により、超高速処理を実現 ■ 分析シナリオは、SQLを拡張したCQLで記述

「今」 を高速かつ高度に分析するための技術

CQLによるシナリオ記述

インメモリ差分計算

15

Page 16: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

ウィンドウ演算

時系列 データ 100 99 2 1 0 101 102

スライディング・ウィンドウで切り取られた処理対象の時系列データ

■ スライディング・ウィンドウの種類 ・データの数(ROWS) 例: 直近の100取引分を対象にする ・時間(RANGE) 例: 直近3分間分を対象にする ・グループ分け(PARTITION)) 例: 各銘柄の最新5取引分を対象にする

2-5

■ スライディング・ウィンドウにより、時系列データの分析範囲を定義 ■ 分析に必要なデータだけを抽出することで、データ処理を効率化 ■ 分析シナリオに複数種のスライディングウィンドウを提供

無限に続く時系列データを効率よく処理

16

Page 17: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

インメモリ差分計算

株価指数の計算処理の例

A社,xxx円,xxx株

B社,xxx円,xxx株

C社,xxx円,xxx株

xxxxx 時価総額

株価,株式数 A社,yyy円,yyy株

B社,xxx円,xxx株

C社,xxx円,xxx株

yyyyy A社,xxx円,xxx株 xxxxx A社,yyy円,yyy株 - +

分析対象データ、中間計算結果はメモリ中に保持

変化のあった株価のみを演算

スライディング・ウインドウ スライディング・ウインドウ

2-6

■ インメモリデータ処理により、ディスクI/Oを排除 ■ 中間結果を利用した差分計算により、大量データ処理時の負荷を軽減 ■ 分析対象のデータ数に依存しない、一意の計算量で処理を実現

圧倒的な超高速処理を実現

17

Page 18: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

クエリ言語CQL(Continuous Query Language)

IStream( Select id, Sum(val) as S From str [Rows 3] Group by id)

…ストリーム化演算

CQLの例

選択、結合 集合演算など

ストリーム化演算 時系列 データ

中間結果 入力・出力

2-7

■ SQLを拡張した言語であるため、習得は容易 ■ ウィンドウ演算により時系列データの分析範囲を定め、関係演算を実行 ■ アプリケーションの個別開発と比較して、開発効率を大幅に向上

幅広い業務に対応可能なクエリ言語を提供

…ウィンドウ演算

処理モデル

リレーション ウィンドウ演算

関係演算

18

Page 19: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

ストリームデータ処理基盤 通信

パケット

ファイル

ストリームデータ処理基盤 ー アプリケーションフレームワーク

入出力アダプター定義 分析シナリオ定義 ダッシュボード定義

アプリケーション開発時に作成する部分

出力AP

ファイル

入力データ 出力結果

イベント

データ抽出処理 ダッシュボード

出力処理

ストリームデータ処理基盤のプログラム構成 2-8

出力アダプター ストリーム処理

入力AP

入力アダプター

CQL: Continuous Query Language

■ シンプルなプログラム構成と簡単な分析シナリオ定義により、システム 開発や分析シナリオの開発や変更を短期間で実施可能 ■ uCSDP-AF使用時は定義作成だけでアプリケーション作成不要

分析シナリオ定義、入出力APのシンプルなプログラム構成

19

Page 20: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

2-9 ストリームデータ処理実用化に向けた機能

# 機能名 機能詳細 効果

1 イベント発生時刻 モードの選択機能

処理時刻軸を発生源時刻と 受付時刻から選択

・対応範囲拡大

2 入力データ 順序性保証機能

入力データの時刻情報逆転時、順序を補正

・開発工数削減 ・安定稼働

3 時刻解像度機能 すべての入力データを保持せず、単位時間の統計情報を保持

・リソース削減 ・安定稼働

4 Eagerスケジュール 機能

複数のクエリを1つのクエリ処理として一括処理

・レイテンシ向上

5 入出力アダプター 機能

HTTPやファイルなど、標準的な入出力処理を標準提供

・開発工数削減

20

Page 21: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi、 Ltd. 2012. All rights reserved.

Contents 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ

© Hitachi, Ltd. 2013. All rights reserved.

Page 22: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

syslog Proxylog 認証log

syslog Proxylog 認証log ITシステムで発生する各種ログ

センサーから出力される数値データ

クルマやヒトの位置情報

DB、ファイル

今を見える化

リアルタイム監視

価値あるデータに変換

データ発生と同時に瞬時に分析

3-1 ストリームデータ処理でできること

22

Page 23: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

設備・環境監視

交通状況モニタリング Webサービス監視

株式指数算出配信

ITから実世界まで幅広い分野に適用

3-2 ストリームデータ処理の適用分野

センサーネット管理 23

Page 24: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

株価指数算出配信

売買 システム

相場 ユーザ

システム

入力AP

電文受信/ フィルタ処理

電文組立/ 配信処理

uCosminexus Stream Data Platform 株価 株価指数

処理性能

スループット 8,000件/秒以上

レイテンシ 10ミリ秒以下 (1~10ミリ秒)

従来サービス 指数高速配信

配信間隔 1秒毎 指数構成銘柄の 値段の変化毎

指数高速配信システム

ストリームデータ処理基盤 出力AP

指数計算処理

集計・分析 シナリオ

参考:2011年2月22日付弊社ニュースリリース「東京証券取引所の指数高速配信サービスが開始 ~ 世界最高水準、TOPIXをミリ秒レベルで配信 ~」 http://www.hitachi.co.jp/New/cnews/month/2011/02/0222.html

3-3

■ 株価が変動する度に株価指数を算出、ミリ秒レベルでユーザ配信 ■ 株価指数計算の高速化により、配信サービスのサービスレベルを大幅に向上 ■ 株価指数計算の柔軟性確保により、システム運用コストも低減

24

Page 25: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

Webサービスのサービスレベル監視

応答時間

現在の値

時間

しきい値 検知

外れ値検知 (予兆検知)

SLOしきい値

ベースライン

正常範囲 (ベースラインから

算出)

リアルタイム監視画面

ホーム画面

過去の情報(ベースライン)と比較して

いつもと違う傾向を検知 (外れ値検知)

しきい値検知より早く

予兆の検知が可能 SLO : Service Level Objective

統合システム運用管理 JP1/IT Service Level Management

3-4

■ 大量のWebアクセスデータから、「今」を高速かつ高度に分析 ■ Webサービスのサービスレベル(応答時間やエラー率など)の見える化と監視 ■ データの傾向から、「いつもと違う」 障害の予兆をリアルタイム検知

25

Page 26: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

交通状況モニタリング

自動車 車両位置情報

ストリームデータ処理基盤 uCosminexus Stream Data Platform

分析シナリオ

速度計算

走行方向計算

密度計算

渋滞検出

事故検出

車両ID (緯度,経度) 渋滞情報

データ入力 約2,000件/秒

赤:低速 黄:中速 緑:高速

始点:一つ前の位置 終点:最新の位置

各車両走行状況 渋滞・事故検知

この位置で 渋滞・事故が発生

3-5

事故情報

Ⓒ2008 Google

Ⓒ2008 Zenrin

■ 車両位置情報を収集・分析し、交通状況をリアルタイムにモニタリング ■ 各車両の速度や進行方向を分析、周辺車両の状況により渋滞や事故を検知

26

Page 27: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

データセンター空調制御

分析1 相関/

傾向分析

判定

分析シナリオ

事前登録

分析2

データセンターレイアウトの表示

サーバ別詳細情報の表示 サーバ室温状況のモニタリン

熱溜り検知・アラーム通知

熱溜りのイベント

パトライトによるアラーム

コールドアイル:空調機が送り出してサーバが吸収する冷気を集めた空間

熱溜り

冷気不足による 熱の回り込み

日立センサーネット情報システム

AirSenseⅡ

吸気温度と 排気温度の 相関分析

室温上昇の傾向分析

ストリームデータ処理基盤

サーバ室

無線通信による

サーバ室温情報の 逐次収集

室温情報を表示したいサーバをクリック

ホットアイル:サーバの排熱を集めた空間

3-6

■ 無線温度センサーから収集した室温データを、発生と同時に瞬時に分析 ■ サーバ機器の吸排気温度の傾向・相関分析により、熱溜りを検知し対策

27

Page 28: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

日立・横浜事業所 「快適ecoプロジェクト」 3-7

■ 2012年7月、日立・横浜事業所の新社屋オープン ■ 太陽光発電、ダブルスキンカーテンウォール、ライトウェルなどの最新のeco設備を導入 ■ 新社屋全体がビッグデータとスマートシティの実証実験室

28 © Hitachi, Ltd. 2013. All rights reserved.

Page 29: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

日立・横浜事業所 「快適ecoプロジェクト」 3-8

社員の声 アンケート、在席情報…

設備情報 室温、湿度、騒音、電力量…

外部情報 気象情報、災害情報…

快適ecoモニター

快適とecoの実現 設備制御の最適化 社員のecoマインド醸成

■ 快適とeco、人と設備をビッグデータ処理技術が融合 ■ ヒトとモノの情報をリアルタイムに収集・分析し、現場に即座にフィードバック ■ スケジューラや在席管理システムとの連携も計画中

29

Page 30: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi、 Ltd. 2012. All rights reserved.

Contents 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ

© Hitachi, Ltd. 2013. All rights reserved.

Page 31: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

製造・生産 ライン

品質予測 製造監視

リアルタイム監視によるリスクマネジメント

システム 稼動監視

相関分析 予兆検知

気象、環境、 エネルギー

物理×IT セキュリティ

人流分析 画像監視

コンプライ アンスチェック

不正検出 内部統制

交通サービス

運行監視 渋滞予測

金融・証券

自動取引 取引監視

携帯電話 サービス

位置情報サービス

新たな付加価値による新ビジネスの創造

自動運転・予防保全によるビジネス機会拡大

まとめ 4-1

使用量監視 気象解析

■ ビッグデータから「今」を分析するストリームデータ処理技術をご紹介 ■ この新しいデータ処理技術が切り拓いていく新しい価値は無限大 ■ これから、データ処理方式の選択肢のひとつに加えてもらいたい

31

Page 32: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

さいごに(セッションの要約)

ストリームデータ処理って何なの? データベースと何が違うの?

どうやって使うの? どんなところで使われてるの?

で、実際どうなの?

といった疑問を解決します。

4-2

そして今日から、 データ処理方式の選択肢のひとつに

「ストリームデータ処理」 を加えてもらいたい

32 © Hitachi, Ltd. 2013. All rights reserved.

Page 33: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi, Ltd. 2013. All rights reserved.

• Javaは,Oracle Corporation 及びその子会社,関連会社の米国及びその他の国における登録商標です。

• その他、記載の会社名、製品名は、それぞれの会社の商標または登録商標です。

• 製品の改良により予告なく記載されている仕様が変更になることがあります。

他社商品名、商標等の引用に関する表示

33

Page 34: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura
Page 35: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura
Page 36: B14 「今」を分析するストリームデータ処理技術とその可能性 by Kazunori Tamura

© Hitachi、 Ltd. 2012. All rights reserved.

株式会社 日立製作所 情報・通信システム社 ITプラットフォーム事業本部

田村 和則

「今」を分析する ストリームデータ処理技術と その可能性

db tech showcase 2013 Osaka 2013.5.29

© Hitachi, Ltd. 2013. All rights reserved.