MATLAB によるビッグデータ解析...2 ビッグデータ解析とその背景 増え続けるデータ量 ビッグデータとは 100TB ~ 10PB程度のデータ量 データが膨大になる理由
データサイエンティスト協会 木曜勉強会 #02...
-
Upload
the-japan-datascientist-society -
Category
Data & Analytics
-
view
4.955 -
download
3
description
Transcript of データサイエンティスト協会 木曜勉強会 #02...
ビッグデータの0次分析手法と適用例のご紹介~俯瞰から始まる企業内ビックデータの活用~
2014年10月16日サイバネットシステム株式会社
IT事業部矢野 弘海
データサイエンティスト協会 木曜勉強会
CYBERNET SYSTEMS Co., LTD All Rights Reserved
サイバネットシステム 概要名 称 : サイバネットシステム株式会社 (東証一部 4312)
Cybernet Systems Co., Ltd.本 社 : 東京都千代田区神田練塀町3番地 富士ソフトビル拠 点 : 西日本支社(大阪)、中部支社(名古屋)設 立 : 1985年4月17日資 本 金 : 995百万円社 員 数 : 連結 544名、個別 342名(2014年3月31日現在)事業内容 : CAEソリューション及びITソリューションの提供
(プロダクト販売、受託解析、コンサルティング、CAEソフトウェア開発)開発元提携先 : ANSYS社、Synopsys社、Cadence社など米国中心に20社子 会 社
連結 Maplesoft(カナダ)対話的数式処理ソフトウェア「Maple」及び複合物理モデリング環境「MapleSim」の開発、販売、サポート
Noesis Solutions NV(ベルギー)PIDOツールの開発、販売、技術サポートの提供
Sigmetrix,LLC(米国)公差解析ソフトウェアの開発、販売、技術サポートの提供
莎益博工程系統開発(上海)有限公司(中国)EDA、光学系CAEソリューション、制御系CAEソリューションの提供
サイバネットシステムコリア株式会社(韓国)Maple、MapleSimを中心としたCAEソリューションの提供
非連結 思渤科技股份 有限公司(台湾)EDA、光学系、制御系CAEソリューションの提供
2
CYBERNET SYSTEMS Co., LTD All Rights Reserved
事業全体図
CAEトータル・ソリューション企業
制 御
電気・電子
光 学
数式処理画像処理
機 械
・・・・
ITソリューションITインフラ構築IT資産管理セキュリティITパフォーマンス向上業務パフォーマンス改善ビッグデータビッグデータ可視化特許解析
ITソリューションITインフラ構築IT資産管理セキュリティITパフォーマンス向上業務パフォーマンス改善ビッグデータビッグデータ可視化特許解析
ものづくり支援ツール最適設計支援製品イノベーション支援
ものづくり支援ツール最適設計支援製品イノベーション支援
技術サポートCAE教育
ユーザ技術教育導入・運用コンサルタント
受託解析サービス統合/カストマイズ・サービス
3
CYBERNET SYSTEMS Co., LTD All Rights Reserved
ビッグデータ解析に新たな提案
4
CYBERNET SYSTEMS Co., LTD All Rights Reserved5
ビッグデータ時代の情報検索の課題
従来型情報検索の限界(KW検索+リスト表示の限界)
有効情報比率
検索表示件数
リスト表示閲覧限界
2000 2010 2020
モバイル化による限界の加速
画面サイズは1/3に・表示件数は減少・ヒット率(検索精度)も減少
ビッグデータ時代
課題① 検索精度の格段の向上
課題② 表示件数の拡大&容易な絞り込み
次世代の検索&表示手法が必要に!
CYBERNET SYSTEMS Co., LTD All Rights Reserved6
「見える化」ソリューション:toorPIA
課題① 検索精度の格段の向上 課題② 表示件数の拡大容易な絞り込み
(従来)KW検索/分類
概念検索
(従来)リスト表示
マップ表示
コンピュータ技術の格段の進歩
・意味的に近い情報を互いに近くに配置・膨大な件数を表示可能・ピンチアウトにより探したい領域をズームアップ→欲しい情報をまとめて探し当てられる
• ベクトル空間モデルにより情報間の距離を定量化→互いの内容の近さが数値化される
• 入力条件が詳しいほど、より正確に条件に近い情報を抽出できる
【toorPIA】「見える化検索」エンジン
+toorPIA-GUI
CYBERNET SYSTEMS Co., LTD All Rights Reserved7
「見える」化できれば!
天気予報における「見える」化のメリット
今後の天気が予想できる!・天気・気温、雨量、・・・風力、風向、・・
マップ化(見える化)
「見える化」により人間の直感が機能する!
・
・
現状のビッグデータの状況
緯度、軽度、気圧、風速、風向、温度、雨量、・・・・
どう分析すればいいの?
ビッグデータの可視化による将来予測
1.現状を把握
2.過去からの状態遷移の把握
3.将来予測
CYBERNET SYSTEMS Co., LTD All Rights Reserved
ビッグデータ解析の課題
ビッグデータは処理しきれないほど膨大なデータ量しかし、ビッグデータを活用するためには、処理しなければならない「処理可能なデータに切り出す?」「サンプリング?」
「結果には驚きがない」「気づきがない」
分析のためには仮説立案が重要「仮説は誰が?」「どう立案?」
すでに分かっている事象から仮説を立てている
8
CYBERNET SYSTEMS Co., LTD All Rights Reserved
ビッグデータ0次分析
膨大なビッグデータを見える化(マップ化)し、気付きを生み出し、更なる解析、施策のための仮説立案を支援する
9
BIツールで解析
アプリ開発
CYBERNET SYSTEMS Co., LTD All Rights Reserved
事例紹介
POSデータの解析によるスーパーのマーケティングでの活用例
スーパーチェーンのPOSからのポイントカードIDと購入製品の履歴データ
データ可視化により、売上増に繋がる施策のアイデアを生み出す
対象データ:
目的:
10
CYBERNET SYSTEMS Co., LTD All Rights Reserved
事例紹介:俯瞰
toorPIAで可視化(マップ化)を実行。
一人一人の購買データを入力して、購買動向の類似性からマップ化。
特性別に七つの購買層が色濃く出現した
毎日、食材を買いに来るお客様
メインの客層
11
CYBERNET SYSTEMS Co., LTD All Rights Reserved
事例紹介:属性探査/気づき
気になる範囲のデータを詳細に解析し、集団の属性分析を行なう。
・特売日・休日に、食材を買いに来るお客様
・エコバックを利用する
今まで認識していなかった客層に気づく
12
CYBERNET SYSTEMS Co., LTD All Rights Reserved
事例紹介:仮説/プランニング
このお客様を賢い主婦層と名付けましょう。
エコに対する意識が高そうだね。キャンペーンに対する感応度も高そうだ。
平日のタイムセールのお知らせを渡せば、平日も来てくれるようになるのでは?オーガニック食品や、エコパッケージを使用した食品に反応するのでは?
この層の売上を拡大するためには?来店頻度を高める?購入商品の拡大?
13
CYBERNET SYSTEMS Co., LTD All Rights Reserved
事例紹介:キャンペーン実施/評価
じゃぁ、結果を確認しましょう。
この層の1週間の売上が上がったわね。頻度、商品種別も増えた。
賢い主婦層の島が、メイン層に近づいたね。
14
CYBERNET SYSTEMS Co., LTD All Rights Reserved
1to1マーケティングへの活用Step
1.ビッグデータ全体を可視化(マップ化)し俯瞰2.マップを操作して探査(気づき/発見)
・顧客属性・地域性・用途 等など
3.目的に対してマーケティング戦略の仮説立案4.施策実行5.時系列のマップ比較により、レビュー効果を確認
•プランの実施
•戦略の改善•気付きと発見•マーケティング戦略
•マップによる効果の確認
15
CYBERNET SYSTEMS Co., LTD All Rights Reserved
ビッグデータ『見える化』のためのミドルウェア
toorPIA
CYBERNET SYSTEMS Co., LTD All Rights Reserved17
toorPIAソフトウェア構成(概念図)
既存フレームワークとの連携も可能最適ソリューションを選択
既存フレームワークとの連携も可能最適ソリューションを選択
Hadoop&
汎用KVS
NonHadoop&
汎用KVS
Hadoop&
NoSQL
準階層的クラスタ解析エンジン
球面視覚化エンジン
maguna
API連携
iterra
qlus
R&D Naviなど
球面/平面上にMAP化
ビッグデータを高速でクラスタ化
法人向け最適化MapReduce&KVS
toorPIAtoorPIA
AppApp
CYBERNET SYSTEMS Co., LTD All Rights Reserved18
コア技術 : maguna
• オンプレミス、プライベートクラウド上で構築でき秘密情報を扱える
• 高性能ノードの能力を最大限に活用(低レイテンシ)
• 1ノードのみで稼動可能(コストパフォーマンス高)
• リアルタイム処理に対応
maguna
Enter-Prise(R&Detc)
Enter-Prise(R&Detc)
FinaceFinace Marketing
Marketing
qlus, iterra, etc.qlus, iterra, etc.
Public Cloud (AWS etc)Public Cloud (AWS etc)
ON-Premises又は
Private Cloud (高列並列&高速Storage)
ON-Premises又は
Private Cloud (高列並列&高速Storage)
CYBERNET SYSTEMS Co., LTD All Rights Reserved19
コア技術:クラスタ化と可視化
CYBERNET SYSTEMS Co., LTD All Rights Reserved
システム構成例
ログデータ(Rawデータ)ログデータ
(Rawデータ)
SNSデータ(Rawデータ)SNSデータ(Rawデータ)
収集
収集
Mapper
Parser shuffle&sort
Reducer
Parser
ログデータ用Key-Value(NoSQL)
ログデータのメタ属性(SQL)
SNS用Key-Value(NoSQL)
SNSデータのメタ属性(SQL)
API専用Viewer又は専用アプリ
サービス系計算機リソース(1台〜 )
データ処理(MapR)系計算機リソース(1台〜 )
カスタマイズ部分
パッケージ標準機能DB構築
目的および業務に最適なViewerやアプリケーションを開発
・・・
20
CYBERNET SYSTEMS Co., LTD All Rights Reserved
ビッグデータと「見える化」アプリケーション
知財情報 医療情報 法曹関連情報 犯罪情報 履歴書/求人情報 Twitter Facebook Blog POSデータ 顧客販売データ センサーデータ Logデータ 投稿画像/映像
マクロ/俯瞰分析
ミクロ分析
時間軸
リアルタイム性/最新性
静的分析(累積/蓄積)
範囲
①人材マッチング①人材マッチング
④運転分析/警報④運転分析/警報
③顧客データ分析③顧客データ分析
①特許調査/係争(RDN)
①特許調査/係争(RDN)
②マーケティング②マーケティング
④インフラ劣化分析④インフラ劣化分析
①医学情報提供①医学情報提供
②リスクマネージメント②リスクマネージメント
③POSデータ分析③POSデータ分析
④機器ログ分析④機器ログ分析
②ニュース②ニュース
販売データ
リッチテキスト
短文データ
ログ・センサーデータ
⑤映像ニュース⑤映像ニュース
ミクロ分析:近いものを探す マクロ分析:全体の傾向を見るリアルタイム分析:最新のデータの動きを見る 静的分析:蓄積データから分析
21
CYBERNET SYSTEMS Co., LTD All Rights Reserved22
実用例: R&D Navi (特許を見える化)
CYBERNET SYSTEMS Co., LTD All Rights Reserved23
例)知財からM&A戦略を可視化
内視鏡分野における・オリンパス・富士フイルム・ソニー
の関係をマップ化
各社の注力する技術領域競合する領域が一目で把握できる
CYBERNET SYSTEMS Co., LTD All Rights Reserved24
toorPIA解析例
CYBERNET SYSTEMS Co., LTD All Rights Reserved25
to o r
W ik ip ed ia (ja )の全貌
現実の世界の情報
仮想世界の情報
Wikipedia(ja)分析
• 解析内容
– Wikipedia (ja)80万件をtoPIAで解析して球面配置
• 結果
– 欧米言語でも見られる現実世界の情報大陸(法人、個人、地域、百科事典的情報)の他に、日本語コンテンツ特有の仮想世界の情報大陸(オタク系、秋葉原系、アニオタ、サブカル系情報)の存在を示すことができた。
– 球面上に配置することで「情報の端」をなくすことができ、広範な情報を無理なく配置することができた
CYBERNET SYSTEMS Co., LTD All Rights Reserved26
POSデータ解析
• 解析内容– スーパーマーケットのPOSデー
タ解析。– ポイントカード利用者の購買履
を解析
• 結果– 購買者の購買行動(購買物の
組み合わせの特徴)のみから購買者を7つの層に分類することができた
– また、これらのユーザ分類は、時間帯によってダイナミックに変換することが確認できた
• 活用– 時間帯&ユーザ分類を考慮し
たレコメンデーションのベースとしての活用
– 特売等のイベントの影響を確認しつつ、戦略的な新規顧客層の拡大を狙う
– 材料と栄養素の関係から、栄養の偏りによる健康リスクを評価して顧客へフィードバックする新しいサービス展開
-20
-15
-10
-5
0
5
10
15
20
-20 -15 -10 -5 0 5 10 15 20
毎日買いに来る顧客。牛乳・たまご・豆腐を中心に広範な商品を買う層。合わせてレジ袋買う層
毎日買いに来る顧客。牛乳・たまご・豆腐を中心に広範な商品を買う層。合わせてレジ袋買う層
特売日および休日に来る顧客。牛乳・たまご・豆腐を中心に広範な商品を買う層。ただし、レジ袋は買わない層。(賢い主婦層?)
特売日および休日に来る顧客。牛乳・たまご・豆腐を中心に広範な商品を買う層。ただし、レジ袋は買わない層。(賢い主婦層?)
特売日に来る顧客。惣菜や出来合いのモノが主。(めんどくさがり屋?)
特売日に来る顧客。惣菜や出来合いのモノが主。(めんどくさがり屋?)
カレーや煮物材料メインカレーや煮物材料メイン
やきとりメイン。日中に来る客。高齢者
やきとりメイン。日中に来る客。高齢者
+魚
+フルーツ
+コロッケ
CYBERNET SYSTEMS Co., LTD All Rights Reserved27
Twitter解析• 解析内容
– あるカテゴリにに関する口コミtweetを解析
– ReplyやRTといったコンテンツ間の依存関係を一切加味せず、記述内容のみに基いて分析
• 結果– 短文から成るtwitterコンテンツについ
ても、コンテンツの意味の類似性に基いて分類可能。
– これにより、大勢を占める通常意見と、新しくインフレーションの兆しを見せる意見とを区別して識別することが可能となる
• 活用– Twitter Streaming APIを利用したユーザによ
る口コミのリアルタイム観測– 時間とともにマップが徐々に変化する様子が
確認できる。– 新しい評判情報のインフレーションをいち早く
発見できる• 従来型の「特定キーワードに関連する
tweet数の増減解析」だけでは、未知のキーワードを伴う口コミのインフレーションを見逃してしまうが、toPIAによる解析では、未知のキーワードの出現にもリアルタイムで対応可能
-20
-10
0
10
20
-20 -10 0 10 20
よくある口コミ&評判(マクロ分析ターゲット、大勢の把握)
よくある口コミ&評判(マクロ分析ターゲット、大勢の把握)
従来分析法だと早期発見が困難な新規の口コミ・評判従来分析法だと早期発見が困難な新規の口コミ・評判
CYBERNET SYSTEMS Co., LTD All Rights Reserved
正常稼働ゾーン グレー
ゾーン
故障ゾーン
過去のログと故障発生記録の比較分析から、【正常】【故障】ゾーンからなる白地図を作成する。
この上に日々更新される最新ログをリアルタイムプロットする。
グレーゾーンをウォッチすることによって、故障発生の予兆を早期に検出し、故障を未然に防ぐことができる。
その他分析例(機器ログによる故障予知)機器ログ解析による故障予知
28