ビッグデータ革命 クラウドがコモデティ化する「奇跡」

35
ビッグデータ革命 クラウドがコモデティ化する「奇跡」 日経コンピュータ編集部 中田 @Nakada_itpro 20111119楽天テクノロジーカンファレンス2011

Transcript of ビッグデータ革命 クラウドがコモデティ化する「奇跡」

Page 1: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

ビッグデータ革命 クラウドがコモデティ化する「奇跡」

日経コンピュータ編集部

中田 敦

@Nakada_itpro

2011年11月19日 楽天テクノロジーカンファレンス2011

Page 2: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

自己紹介

中田 敦(なかだ あつし)@Nakada_itpro

「日経コンピュータ」編集部 記者 1998年4月 日経BP社入社、「日経レストラン」編集部に配属

2000年9月 ITニュースサイト「BizTech」編集部に異動

2002年10月 「日経Windowsプロ」編集部に異動

2006年1月 ITニュースサイト「ITpro」編集部に異動

2008年4~6月 米国でクラウド・コンピューティング事情を取材

2008年10月 「日経コンピュータ」編集部に異動

2009年4月 「クラウド大全」刊行

2010年4月 「クラウド大全 第二版」刊行

Page 3: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

はじめに

最近、「奇跡」が 現実化し始めていることを

ご存じですか?

Page 4: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

2011年7月 米国カリフォルニア

2011年7月 米国カリフォルニア州 サンタクルーズ市では 犯罪が発生する前に、警察官が犯罪現場に 現れるようになった

Page 5: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

2010年10月 東京

コンピュータ将棋 「あから」 女流名人に勝つ

Page 6: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

2010年10月 東京

コンピュータ将棋 「あから」

以下のソフトの合議制 ・激指 ・GPS将棋 ・Bonanza ・YSS これらソフトの共通点は「Bonanzaメソッド」 Bonanzaの開発者は、将棋が強くない化学者

Page 7: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

2010年10月 米国カリフォルニア

周囲の状況をビデオカメラで捉え、 自律的に判断する「自動運転自動車」を 米Googleが開発 米カリフォルニア州の公道を22万キロメートル無事故で走った。

Page 8: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

Google Self-Driving Carで検索

• http://www.youtube.com/watch?v=YaGJ6nH36uI

• http://www.youtube.com/watch?v=eXeUu_Y6WOw

Page 9: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

「奇跡」の共通点は 大量データに対する高度な分析

インターネット

ビッグデータ + 機械学習 + 高速な判断

業務システムのデータ

様々な

ログファイル

CRMシステムのデータ

Webサイト、

ブログ

ソーシャルネットワークサイト

静止画、動画 センサーデータ

異変を察知 今を描き出す 近未来を予測

不可能が可能に

周囲の状況を判断して自律的に走行する「自動運転自動車」を検索エンジン会社が作り始めた

後発が先発に勝つ

将棋初心者の化学者が作ったコンピュータ将棋ソフトが、プロ棋士に勝つ

社会がより良くなる

犯罪が発生する前に、犯罪現場に警察官が現れる

ビッグデータ革命

Page 10: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

コンピュータ将棋 強さの秘密は「機械学習」

●いままでのコンピュータ将棋プログラム

●現在のコンピュータ将棋プログラム

将棋知識

プログラマー

チューニング 学習

可変長 テキスト 可変長 テキスト 可変長 テキスト 可変長 テキスト 棋譜

(ログデータ) 機械学習

Page 11: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

ビッグデータの力に気付いた 米グーグル

広告・メディア産業

電力産業 Googleや丸紅が出資して、大西洋沖の洋上風力発電所と米国東部を結ぶ海底送電網を建設。

自動車産業

IT・家電産業

フォードとグーグルが提携して、プラグイン・ハイブリッド・カーの走行システムを開発。移動履歴からユーザーの行動を予測し、最適な燃料配分を提案する

車体についた画像センサーが周辺の状況を判断する「自動運転カー」を開発中

スマートフォン

デジタル家電

クラウド コンピューティング

総事業費は最大5000億円。600万KWを供給予定

Page 12: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

2010年10月12日発表 グーグル、巨大送電網建設へ

Page 13: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

5000億円、600万KW?

・Googleや丸紅が出資して、大西洋沖の洋上風力発電所と米国東部を結ぶ大規模な海底送電網を建設する ・洋上風力発電所は、独立系発電事業者が建設。それをニュージャージ州、デラウエア州、メリーランド州、バージニア州に送る ・総事業費は最大5000億円。6000MW(600万KW)を供給する

Google公式ブログより

Page 14: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

5000億円、600万KW?

東京電力の最大電力 2009年7月30日

Google/丸紅の最大電力

5450万KW (54,500MW)

600万KW (6,000MW)

東京電力が供給する最大電力の10分の1強を、 Google/丸紅連合が供給可能(しかも風力発電)

Page 15: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

ビッグデータブーム到来

「ビッグデータ」市場に 大手ベンダーがこぞって参入中

ビッグデータ技術が あっという間にコモデティ化

ビッグデータ革命、到来!

Page 16: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

米フォード グーグルと組んで自動車クラウド

Page 17: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

ビッグデータのパターン

データ

現実世界

大量に 深く 素早く

アクション

様々な種類のデータを、大量に保存する

大量のデータの中から、コンピュータが自動的にパターンやルールを見つけ出す

現実世界で発生するイベントをいち早くつかみ、ルールと照らし合わせて状況を判断し、アクションに移す

パターンやルール

パターンやルール

マッチング

・Hadoop ・NoSQL ・キーバリュー型データストア

・機械学習 ・データマイニング ・GPGPU ・インデックス作成

・CEP ・ストリーミング処理 ・インメモリー データベース

手軽に これらの技術をクラウドサービスとして提供

実現するための技術

Page 18: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

「大量に」を支える データスペース

非構造化データ 構造化データ

基幹系 データ

情報系 データ

データスペース

構造化データ、非構造化データの双方をカバー

テキスト 静止画 動画 音声

RDB DWH 検索システム

データの種類毎に、異なるシステムで管理していた

データベース

「データベース」から「データスペース」への進化が必要 これから

これまで

Page 19: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

「深く」を特徴付ける 機械学習

最近のデータマイニングで よく使われるようになった手法

従来のデータマイニングで 主に使われていた分析手法

相関分析 (応用例)問題点の発見

回帰分析 (応用例)需要予測

クラスタリング (応用例)顧客の分類

教師付き機械学習 ベイジアンフィルター (応用例)迷惑メール判定 協調フィルタリング (応用例)レコメンデーション 複雑ネットワーク (応用例)レコメンデーション その他の手法 (応用例)信用リスク評価 テキスト分類 画像認識

教師無し機械学習 (応用例)異常検知 (応用例)高度なクラスタリング

Page 20: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

ポイントは自動化

データ

人間

イベント

BI レポート

アクション

ビッグ データ

モデル モデル コンピュータ

イベント アクション

人間

コンピュータ

モデル

パターン

●従来のAI:人間がデータを学習してモデル化 ●ビッグデータ時代のアプリケーション

●従来のBI:人間がBIレポートを見ながら判断

学習 モデル化 学習 モデル化

パターン

認識

マッチング

可視化 判断

判断

Page 21: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

応用パターン 異変を察知する

マーケティング ・突発的な流行の検出 ・人気検索ワードの検出

セキュリティ ・サイバー攻撃の検出

環境保全 ・河川の水質汚染、大気汚染の兆候を検出撃を発見

医療/介護 ・新生児の体調不良を検出 ・独居老人の見守り

コンプライアンス ・インサイダー取引など不正行為の検出

通信事業 ・サービスレベル低下の検出 ・通信機器故障の予測

製造業 ・完成品の不具合の検出 ・製造装置の故障予測

システム運用 ・サーバーやパーツの故障予測

金融業 ・クレジットカードの不正利用の検出

Page 22: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

応用パターン 異変を察知する

業務アプリケーション

顧客DB 人事DB

ビルの

入退館システム ネットワーク

業務アプリケーション

総務部 情報システム部 人事部

ArcSight

情報の所轄部署

「退職2週間前の社員Aが、休日にオフィスに入り、CRM(顧客関係管理システム)にアクセス。顧客データを抜き出した」→不正検出!

組織の垣根を越えて情報を収集

●様々なログから「社員の不正」を検出

Page 23: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

応用パターン 近未来を予測する

☆ → ● → △ → ■ → 退会

× → ● → △ → ◇ → 退会

● → △ → ■ → ☆ → 退会

□ → ☆ → ● → △ → 退会

Webサーバー ログデータ

リアルタイム Hadoop

● → △

特典

①ユーザーの行動履歴を分析して、「退会」につながりそうな行動の予兆を見つけ出す

会員

②Webサーバーのログデータをリアルタイムに分析して、ユーザーの「退会しそうな兆候」を見つけ出す

③何らかの「特典」などを付与して、ユーザーに退会を思い留まらせる

●サイバーエージェントによる「退会を予測する」取り組み

Page 24: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

応用パターン 近未来を予測する

Google Storage

Prediction API データ パターン

①自動車の走行履歴を蓄積

②データからユーザーの走行パターンを分析

③時刻や場所情報を伝達

④時刻や場所情報から目的地を予測。最適ルートや燃費パターンを予測

カーナビの画面

⑤排気ガスの発生が規制された「グリーンゾーン」での走行が予想される場合は、バッテリーを節約する

フォードのプラグインハイブリッド(PHV)カー

API:アプリケーション・プログラミング・インターフェース

●フォードのPHV向けカーナビ

Page 25: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

応用パターン 今を描き出す

●マイニングブラウニーの「MitsuBachi」

インターネット

Webサイト、ブログ

ソーシャルネットワークサイト

●競合はどうしている? メディアサイトに掲載されている広告バナーのサイズや掲載数などから競合企業が支払っている広告費用を推定 ●経済活動はどうなっている? 不動産情報サイトに掲載されている物件情報を分析すれば、どの地域で再開発が始まったか分かる。再開発地域では、築年数の古い物件が減り始めるから

Page 26: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

オラクルもHadoop マイクロソフトもHadoop

Page 27: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

大手ベンダーが こぞってHadoop関連の取り組み

会社名 時期 主な施策

米EMC 2010年7月 DWH「Greenplum」のベンダー、米グリーンプラムを買収

2011年4月 ネットワークパケット解析ツール「NetWitness」のベンダー、米ネットウィットネスを買収

2011年下期 Hadoopディストリビューション「Greenplum HD」を出荷予定

2011年下期 「Greenplum」とデータマイニングソフト「SAS」を統合したアプライアンスを出荷予定

米ヒューレットパッカード 2010年9月 統合ログ監視ソフト「ArcSight」のベンダー、米アークサイトを買収

2011年2月 カラム指向DB「Vertica」のベンダー、米バーティカを買収

2011年4月 「Hadoop」専用のPCサーバーハードウエアを発売

2011年8月 検索エンジンソフト「Autonomy」のベンダー、英オートノミーに買収提案

米IBM 2009年7月 データマイニングソフト「SPSS」のベンダー、米SPSSを買収

2010年3月 ストリーミング処理ソフト「InfoSphere Streams」を出荷

2010年9月 DWH「Netezza」のベンダー、米ネティーザを買収

2011年6月 Hadoopベースのデータ分析ソフト「InfoSphere BigInsights」を発売

米マイクロソフト 2008年1月 検索エンジンソフト「FAST」のベンダー、フィンランド・サーチ&トランスファーを買収

2011年5月 並列プログラミング基盤「LINQ to HPC(開発コード名:Dryad)」を出荷

2011年末~ Windows Server、Windows Azure向けの「Hadoop」を提供予定

2012年 SQL Server次期バージョン(開発コード名Denali)に、カラム指向DB機能を搭載

米ネットアップ 2011年6月 HadoopにRAID機能を追加する「Hadoop Open Storage System」を発表

米オラクル 2011年10月 Hadoopアプライアンス「Oracle Big Data Appliance」を発表

米SAP 2010年5月 データベース/DWHベンダーの米サイベースを買収

2010年12月 インメモリーデータベース「SAP HANA」を発売

NEC 2011年内 インメモリーデータベースを発売予定

開発中 ミッションクリティカル用途に特化した「MC Hadoop」を開発中

富士通 2011年8月 ビッグデータPaaS「SPATIOWL(スペーシオウル)」を発表

開発中 ストレージ装置「ETERNUS」上で稼働するHadoopを開発中

日立製作所 2011年1月 Hadoopの導入支援サービスを開始

開発中 検索性能に特化した「アウトオブオーダー実行型データベース」を開発中

NTTデータ 開発中 機械学習アルゴリズム「K平均法」をGPGPUを使って解くプログラムを開発中

Page 28: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

課題は人材

Page 29: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

「Growth Team」を作ろう

• Growth Teamは、サービスの成長(Growth)に責任を持ったエンジニアチームという意味。Dropboxが最初に始めた取り組みで、ベイエリア界隈のスタートアップで増えている(らしい)

Page 30: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

Dropboxの例

“Growth Enginner”を募集中

Page 31: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

Dropboxの例

Dropbox is one of the fastest growing startups on the Internet. We want to become the way the world stores and shares files, and we're well on our way. It isn't a mystery why: users love it. But also, we've built tools which make Dropbox easy to spread. We're kicking this into overdrive by expanding the Growth Team. A growth engineer would substantially contribute to Dropbox's continued success. The process is simple: measure everything to understand it, come up with new ideas, test the best ones, launch the best performing, and repeat this all as quickly as possible. For the growth engineer, the questions become: how can we scale our analytics systems? What insights can we extract from our wealth of data to inspire the more incisive ideas? What tools can we build to run tests with dexterity?

Page 32: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

Dropboxの例

Role & Responsibilities: •Gather and process data from the Dropbox production servers •Scale our MySQL analytics databases •Measuring growth, usage rates of various Dropbox features, overall activity levels, cost, revenue, and much, much more •Build and maintain web interfaces and dashboards to display Dropbox metrics •Analyze user data to help determine what kinds of improvements Dropbox should make •Work with the Dropbox web, mobile, and client teams to run experiments on their respective platforms •Code in Python, HTML, Javascript, CSS, and possibly also C++ •Continuously improve the quality of the analytics code base

Page 33: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

Dropboxの例

Requirements: •Bachelor's degree in Computer Science. •Math doesn't intimidate you •Unix/Linux proficiency •SQL proficiency •Writing high quality, easy to understand code is important to you for practical reasons, but also a little bit "just because". •You're obsessive about correctness and edge cases, but at the same time understand when to make sacrifices for practical reasons •A desire to go the extra mile and hold your projects to a higher standard - you're the biggest critic of anything you do and have an appetite for solving problems and making things better •Good product sense - you can see things from both the growth/engineering and the general Dropbox user's standpoint

Page 34: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

Dropboxの例

Nice-to-Have's: •Startup experience •Proficient in Python •Proficient with HTML/CSS/Javascript •Proficient in C++ •Experience with managing servers / sysadmin experience •DBAdmin experience •Experience with distributed version control systems (Mercurial, Git). •Strong mathematical and statistical background

Page 35: ビッグデータ革命 クラウドがコモデティ化する「奇跡」

おしまい

ありがとう

ございました