データサイエンティスト協会 木曜勉強会 #02...

28
ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビックデータの活用~ 20141016サイバネットシステム株式会社 IT事業部 矢野 弘海 データサイエンティスト協会 木曜勉強会

description

http://eventdots.jp/event/168366 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』 ビッグデータの解析において分析軸が定まらない初期段階で、データをありのままの状態で可視化(俯瞰)し、気付き/発見を得て仮説立案、詳細分析へと進める解析技術を、実例を交えてご紹介します。

Transcript of データサイエンティスト協会 木曜勉強会 #02...

Page 1: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

ビッグデータの0次分析手法と適用例のご紹介~俯瞰から始まる企業内ビックデータの活用~

2014年10月16日サイバネットシステム株式会社

IT事業部矢野 弘海

データサイエンティスト協会 木曜勉強会

Page 2: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

サイバネットシステム 概要名 称 : サイバネットシステム株式会社 (東証一部 4312)

Cybernet Systems Co., Ltd.本 社 : 東京都千代田区神田練塀町3番地 富士ソフトビル拠 点 : 西日本支社(大阪)、中部支社(名古屋)設 立 : 1985年4月17日資 本 金 : 995百万円社 員 数 : 連結 544名、個別 342名(2014年3月31日現在)事業内容 : CAEソリューション及びITソリューションの提供

(プロダクト販売、受託解析、コンサルティング、CAEソフトウェア開発)開発元提携先 : ANSYS社、Synopsys社、Cadence社など米国中心に20社子 会 社

連結 Maplesoft(カナダ)対話的数式処理ソフトウェア「Maple」及び複合物理モデリング環境「MapleSim」の開発、販売、サポート

Noesis Solutions NV(ベルギー)PIDOツールの開発、販売、技術サポートの提供

Sigmetrix,LLC(米国)公差解析ソフトウェアの開発、販売、技術サポートの提供

莎益博工程系統開発(上海)有限公司(中国)EDA、光学系CAEソリューション、制御系CAEソリューションの提供

サイバネットシステムコリア株式会社(韓国)Maple、MapleSimを中心としたCAEソリューションの提供

非連結 思渤科技股份 有限公司(台湾)EDA、光学系、制御系CAEソリューションの提供

2

Page 3: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

事業全体図

CAEトータル・ソリューション企業

制 御

電気・電子

光 学

数式処理画像処理

機 械

・・・・

ITソリューションITインフラ構築IT資産管理セキュリティITパフォーマンス向上業務パフォーマンス改善ビッグデータビッグデータ可視化特許解析

ITソリューションITインフラ構築IT資産管理セキュリティITパフォーマンス向上業務パフォーマンス改善ビッグデータビッグデータ可視化特許解析

ものづくり支援ツール最適設計支援製品イノベーション支援

ものづくり支援ツール最適設計支援製品イノベーション支援

技術サポートCAE教育

ユーザ技術教育導入・運用コンサルタント

受託解析サービス統合/カストマイズ・サービス

3

Page 4: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

ビッグデータ解析に新たな提案

4

Page 5: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved5

ビッグデータ時代の情報検索の課題

従来型情報検索の限界(KW検索+リスト表示の限界)

有効情報比率

検索表示件数

リスト表示閲覧限界

2000 2010 2020

モバイル化による限界の加速

画面サイズは1/3に・表示件数は減少・ヒット率(検索精度)も減少

ビッグデータ時代

課題① 検索精度の格段の向上

課題② 表示件数の拡大&容易な絞り込み

次世代の検索&表示手法が必要に!

Page 6: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved6

「見える化」ソリューション:toorPIA

課題① 検索精度の格段の向上 課題② 表示件数の拡大容易な絞り込み

(従来)KW検索/分類

概念検索

(従来)リスト表示

マップ表示

コンピュータ技術の格段の進歩

・意味的に近い情報を互いに近くに配置・膨大な件数を表示可能・ピンチアウトにより探したい領域をズームアップ→欲しい情報をまとめて探し当てられる

• ベクトル空間モデルにより情報間の距離を定量化→互いの内容の近さが数値化される

• 入力条件が詳しいほど、より正確に条件に近い情報を抽出できる

【toorPIA】「見える化検索」エンジン

+toorPIA-GUI

Page 7: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved7

「見える」化できれば!

天気予報における「見える」化のメリット

今後の天気が予想できる!・天気・気温、雨量、・・・風力、風向、・・

マップ化(見える化)

「見える化」により人間の直感が機能する!

現状のビッグデータの状況

緯度、軽度、気圧、風速、風向、温度、雨量、・・・・

どう分析すればいいの?

ビッグデータの可視化による将来予測

1.現状を把握

2.過去からの状態遷移の把握

3.将来予測

Page 8: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

ビッグデータ解析の課題

ビッグデータは処理しきれないほど膨大なデータ量しかし、ビッグデータを活用するためには、処理しなければならない「処理可能なデータに切り出す?」「サンプリング?」

「結果には驚きがない」「気づきがない」

分析のためには仮説立案が重要「仮説は誰が?」「どう立案?」

すでに分かっている事象から仮説を立てている

8

Page 9: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

ビッグデータ0次分析

膨大なビッグデータを見える化(マップ化)し、気付きを生み出し、更なる解析、施策のための仮説立案を支援する

9

BIツールで解析

アプリ開発

Page 10: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

事例紹介

POSデータの解析によるスーパーのマーケティングでの活用例

スーパーチェーンのPOSからのポイントカードIDと購入製品の履歴データ

データ可視化により、売上増に繋がる施策のアイデアを生み出す

対象データ:

目的:

10

Page 11: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

事例紹介:俯瞰

toorPIAで可視化(マップ化)を実行。

一人一人の購買データを入力して、購買動向の類似性からマップ化。

特性別に七つの購買層が色濃く出現した

毎日、食材を買いに来るお客様

メインの客層

11

Page 12: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

事例紹介:属性探査/気づき

気になる範囲のデータを詳細に解析し、集団の属性分析を行なう。

・特売日・休日に、食材を買いに来るお客様

・エコバックを利用する

今まで認識していなかった客層に気づく

12

Page 13: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

事例紹介:仮説/プランニング

このお客様を賢い主婦層と名付けましょう。

エコに対する意識が高そうだね。キャンペーンに対する感応度も高そうだ。

平日のタイムセールのお知らせを渡せば、平日も来てくれるようになるのでは?オーガニック食品や、エコパッケージを使用した食品に反応するのでは?

この層の売上を拡大するためには?来店頻度を高める?購入商品の拡大?

13

Page 14: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

事例紹介:キャンペーン実施/評価

じゃぁ、結果を確認しましょう。

この層の1週間の売上が上がったわね。頻度、商品種別も増えた。

賢い主婦層の島が、メイン層に近づいたね。

14

Page 15: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

1to1マーケティングへの活用Step

1.ビッグデータ全体を可視化(マップ化)し俯瞰2.マップを操作して探査(気づき/発見)

・顧客属性・地域性・用途 等など

3.目的に対してマーケティング戦略の仮説立案4.施策実行5.時系列のマップ比較により、レビュー効果を確認

•プランの実施

•戦略の改善•気付きと発見•マーケティング戦略

•マップによる効果の確認

15

Page 16: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

ビッグデータ『見える化』のためのミドルウェア

toorPIA

Page 17: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved17

toorPIAソフトウェア構成(概念図)

既存フレームワークとの連携も可能最適ソリューションを選択

既存フレームワークとの連携も可能最適ソリューションを選択

Hadoop&

汎用KVS

NonHadoop&

汎用KVS

Hadoop&

NoSQL

準階層的クラスタ解析エンジン

球面視覚化エンジン

maguna

API連携

iterra

qlus

R&D Naviなど

球面/平面上にMAP化

ビッグデータを高速でクラスタ化

法人向け最適化MapReduce&KVS

toorPIAtoorPIA

AppApp

Page 18: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved18

コア技術 : maguna

• オンプレミス、プライベートクラウド上で構築でき秘密情報を扱える

• 高性能ノードの能力を最大限に活用(低レイテンシ)

• 1ノードのみで稼動可能(コストパフォーマンス高)

• リアルタイム処理に対応

maguna

Enter-Prise(R&Detc)

Enter-Prise(R&Detc)

FinaceFinace Marketing

Marketing

qlus, iterra, etc.qlus, iterra, etc.

Public Cloud (AWS etc)Public Cloud (AWS etc)

ON-Premises又は

Private Cloud (高列並列&高速Storage)

ON-Premises又は

Private Cloud (高列並列&高速Storage)

Page 19: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved19

コア技術:クラスタ化と可視化

Page 20: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

システム構成例

ログデータ(Rawデータ)ログデータ

(Rawデータ)

SNSデータ(Rawデータ)SNSデータ(Rawデータ)

収集

収集

Mapper

Parser shuffle&sort

Reducer

Parser

ログデータ用Key-Value(NoSQL)

ログデータのメタ属性(SQL)

SNS用Key-Value(NoSQL)

SNSデータのメタ属性(SQL)

API専用Viewer又は専用アプリ

サービス系計算機リソース(1台〜 )

データ処理(MapR)系計算機リソース(1台〜 )

カスタマイズ部分

パッケージ標準機能DB構築

目的および業務に最適なViewerやアプリケーションを開発

・・・

20

Page 21: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

ビッグデータと「見える化」アプリケーション

知財情報 医療情報 法曹関連情報 犯罪情報 履歴書/求人情報 Twitter Facebook Blog POSデータ 顧客販売データ センサーデータ Logデータ 投稿画像/映像

マクロ/俯瞰分析

ミクロ分析

時間軸

リアルタイム性/最新性

静的分析(累積/蓄積)

範囲

①人材マッチング①人材マッチング

④運転分析/警報④運転分析/警報

③顧客データ分析③顧客データ分析

①特許調査/係争(RDN)

①特許調査/係争(RDN)

②マーケティング②マーケティング

④インフラ劣化分析④インフラ劣化分析

①医学情報提供①医学情報提供

②リスクマネージメント②リスクマネージメント

③POSデータ分析③POSデータ分析

④機器ログ分析④機器ログ分析

②ニュース②ニュース

販売データ

リッチテキスト

短文データ

ログ・センサーデータ

⑤映像ニュース⑤映像ニュース

ミクロ分析:近いものを探す マクロ分析:全体の傾向を見るリアルタイム分析:最新のデータの動きを見る 静的分析:蓄積データから分析

21

Page 22: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved22

実用例: R&D Navi (特許を見える化)

Page 23: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved23

例)知財からM&A戦略を可視化

内視鏡分野における・オリンパス・富士フイルム・ソニー

の関係をマップ化

各社の注力する技術領域競合する領域が一目で把握できる

Page 24: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved24

toorPIA解析例

Page 25: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved25

to o r

W ik ip ed ia (ja )の全貌

現実の世界の情報

仮想世界の情報

Wikipedia(ja)分析

• 解析内容

– Wikipedia (ja)80万件をtoPIAで解析して球面配置

• 結果

– 欧米言語でも見られる現実世界の情報大陸(法人、個人、地域、百科事典的情報)の他に、日本語コンテンツ特有の仮想世界の情報大陸(オタク系、秋葉原系、アニオタ、サブカル系情報)の存在を示すことができた。

– 球面上に配置することで「情報の端」をなくすことができ、広範な情報を無理なく配置することができた

Page 26: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved26

POSデータ解析

• 解析内容– スーパーマーケットのPOSデー

タ解析。– ポイントカード利用者の購買履

を解析

• 結果– 購買者の購買行動(購買物の

組み合わせの特徴)のみから購買者を7つの層に分類することができた

– また、これらのユーザ分類は、時間帯によってダイナミックに変換することが確認できた

• 活用– 時間帯&ユーザ分類を考慮し

たレコメンデーションのベースとしての活用

– 特売等のイベントの影響を確認しつつ、戦略的な新規顧客層の拡大を狙う

– 材料と栄養素の関係から、栄養の偏りによる健康リスクを評価して顧客へフィードバックする新しいサービス展開

-20

-15

-10

-5

0

5

10

15

20

-20 -15 -10 -5 0 5 10 15 20

毎日買いに来る顧客。牛乳・たまご・豆腐を中心に広範な商品を買う層。合わせてレジ袋買う層

毎日買いに来る顧客。牛乳・たまご・豆腐を中心に広範な商品を買う層。合わせてレジ袋買う層

特売日および休日に来る顧客。牛乳・たまご・豆腐を中心に広範な商品を買う層。ただし、レジ袋は買わない層。(賢い主婦層?)

特売日および休日に来る顧客。牛乳・たまご・豆腐を中心に広範な商品を買う層。ただし、レジ袋は買わない層。(賢い主婦層?)

特売日に来る顧客。惣菜や出来合いのモノが主。(めんどくさがり屋?)

特売日に来る顧客。惣菜や出来合いのモノが主。(めんどくさがり屋?)

カレーや煮物材料メインカレーや煮物材料メイン

やきとりメイン。日中に来る客。高齢者

やきとりメイン。日中に来る客。高齢者

+魚

+フルーツ

+コロッケ

Page 27: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved27

Twitter解析• 解析内容

– あるカテゴリにに関する口コミtweetを解析

– ReplyやRTといったコンテンツ間の依存関係を一切加味せず、記述内容のみに基いて分析

• 結果– 短文から成るtwitterコンテンツについ

ても、コンテンツの意味の類似性に基いて分類可能。

– これにより、大勢を占める通常意見と、新しくインフレーションの兆しを見せる意見とを区別して識別することが可能となる

• 活用– Twitter Streaming APIを利用したユーザによ

る口コミのリアルタイム観測– 時間とともにマップが徐々に変化する様子が

確認できる。– 新しい評判情報のインフレーションをいち早く

発見できる• 従来型の「特定キーワードに関連する

tweet数の増減解析」だけでは、未知のキーワードを伴う口コミのインフレーションを見逃してしまうが、toPIAによる解析では、未知のキーワードの出現にもリアルタイムで対応可能

-20

-10

0

10

20

-20 -10 0 10 20

よくある口コミ&評判(マクロ分析ターゲット、大勢の把握)

よくある口コミ&評判(マクロ分析ターゲット、大勢の把握)

従来分析法だと早期発見が困難な新規の口コミ・評判従来分析法だと早期発見が困難な新規の口コミ・評判

Page 28: データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

CYBERNET SYSTEMS Co., LTD All Rights Reserved

正常稼働ゾーン グレー

ゾーン

故障ゾーン

過去のログと故障発生記録の比較分析から、【正常】【故障】ゾーンからなる白地図を作成する。

この上に日々更新される最新ログをリアルタイムプロットする。

グレーゾーンをウォッチすることによって、故障発生の予兆を早期に検出し、故障を未然に防ぐことができる。

その他分析例(機器ログによる故障予知)機器ログ解析による故障予知

28