ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ...

19
ビジネス担当者 のための ビッグデータ攻略本 Hadoop および エンタープライズ・ データウェアハウス編 著者: タマラ・ダル ビッグデータ SAS Best Practices ホワイトペーパー best practices THOUGHT PROVOKING BUSINESS

Transcript of ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ...

Page 1: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者 のための

ビッグデータ攻略本

Hadoopおよび エンタープライズ・ データウェアハウス編

著者:タマラ・ダル

ビッグデータ

SAS Best Practicesホワイトペーパー

best practices

T H O U G H T P R O V O K I N G B U S I N E S S

Page 2: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

3

目次

はじめに ............................................................................................... 4

用語と説明図:この攻略本を理解するために ............................................. 5

エンタープライズ・データウェアハウス(EDW) ............................................. 5

Big DataとHadoop .................................................................................... 6

攻略法1:構造化データのステージング(中間準備) ................................... 8

攻略法2:構造化データの処理 ...............................................................10

攻略法3:未統合データや非構造化データの処理 .....................................11

攻略法4:全てのデータのアーカイブ化 ..................................................13

攻略法5:全てのデータにEDW経由でアクセス ......................................14

攻略法6:全てのデータにHADOOP経由でアクセス ...............................16

結論 ....................................................................................................18

Page 3: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本ビッグデータ

4

このビッグデータ

攻略本では、 Apache Hadoopが

エンタープライズ・

データウェアハウス(EDW)のエコシステムをサポートおよび

拡張する方法について、6種類の一般的な

「攻略法」を

例示しています。

はじめに 

あなた: 「いや、Hadoopは必要ないですね。ビッグデータなんて扱いませんから」

ビッグデータ専門家: 「Ж△♭、@$Г▽□▽¥」

あなた: 「まじめな話、たとえビッグデータを扱うとしても、そんなことこまで気が回りませんよ。“スモールデータ”の保存、処理、分析をタイムリーに行うだけでも、いやというほどのトラブルに見舞われているんですから。まずはその解決が先です」

ビッグデータ専門家: 「∂▽Ж¥$ИЯ▽Я◎∂、△&▽@Э△ЖГ¥Ж∂$∠@Г」

あなた: 「大丈夫ですか? ちゃんと言葉を話してます?」

ビッグデータ専門家: 「♭☆Ж@&」

あなた: 「…なるほど。いずれにしても、他にも課題はあって、今のデータウェアハウスや予算が追いつかないほどのスピードで、データが成長しているんですよ。Hadoopなら対応できるんですか?」

ビッグデータ専門家: 「○Г♯□◇◎□∠※、∂ЖД⊆ДБЖ☆□。@☆&БДГ※И∠▽∂△Э☆И&☆!」

あなた: 「…凄いですねぇ」

同僚たちとお昼を食べていたら、ビッグデータの話になったんです。すると、「チャーリー・ブラウンの先生」(みたいな話し方をするビッグデータ専門家)がやってきました *。誰もが腕時計を見ないようにしています。

ビッグデータに関する「∂▽Ж¥$ИЯ▽Я◎∂」状態を解消したいと思われる方は、ぜひこのホワイトペーパーをご覧ください。この資料は、基本的には技術に詳しいものの、ビッグデータ(特にHadoop)が企業におけるデータ管理のここ数年の動向に及ぼす影響をまだ十分に理解できていないビジネス担当者のために、ビジュアルな攻略本(プレーブック)を提供する目的で書かれたものです。

この攻略本では特に、ビッグデータ・テクノロジーにおけるオープンソースの申し子といえるApache Hadoopが、エンタープライズ・データウェアハウス(EDW)のエコシステムをサポートおよび拡張する方法について、6種類の一般的な「攻略法」を例示しています。簡潔で一般的な攻略法から始まり、複雑で統合された攻略法へと進んでいきます。

*訳注: チャーリー・ブラウンが主人公の漫画/アニメ「ピーナッツ」では、子どもの視点から日常が描かれているため、学校の先生をはじめとする大人たちの話し声が聞こえるシーンでは、こうした意味不明の発声になっています。

Page 4: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

5

このセクションでは予備知識として、攻略法の説明図で使われる重要な用語を定義します。

エンタープライズ・データウェアハウス(EDW)

図1は、EDWの従来の運用環境を単純化して示したものです。

図中の各要素は、EDWエコシステムの主要コンポーネントを表しています。

• 構造化データソース:データを生み出すコンポーネントです。一般的には、リレーショナル・データベースに保管されるトランザクション・データを収集するアプリケーションです。こうしたソースの例としては、ERP、CRM、財務データ、POSデータ、サポート情報、eコマース、その他のレガシー・アプリケーションなどがあります。

• エンタープライズ・データウェアハウス(EDW):データを保管するコンポーネントです。EDWは、レポーティングやデータ分析に使うために複数の構造化データソースから収集され、統合されるデータのレポジトリです。通常は、ETL(抽出/変換/ロード)などのデータ統合ツールを用いて構造化データを抽出および変換し、リレーショナル型やカラム型のデータベース管理システム(DBMS)にロードします。こうしたストレージ・コンポーネントの例としては、業務用データウェアハウス、分析用データウェアハウス(いわゆる「サンドボックス」)、データマート、オペレーショナル・データストア(ODS)、データウェアハウス・アプライアンスなどがあります。

• BI/アナリティクス:データを踏まえた行動を導くコンポーネントです。具体的には、ユーザーがリレーショナル・データベースやデータウェアハウスに格納されているデータにアクセスして対話操作や分析を行い、その結果を踏まえて意思決定を行えるよう支援するために設計されたアプリケーション、ツール、ユーティリティです。ここで重要な点は、従来のベンダーの多くがHadoopをサポートできるように自社のBI/アナリティクス製品を拡張していることです。アプリケーションの例としては、業務レポート、非定型(アドホック)クエリ、OLAP(オンライン分析処理)、説明的アナリティクス(記述分析)、予測的アナリティクス(予測分析)、指示的アナリティクス(予測に加えて行動のアドバイスも提示するアプローチ)、データ・ビジュアライゼーションなどがあります。

用語と説明図この攻略本を理解するために

図1. 従来の運用環境

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

BI/アナリティクス

エンタープライズ・データ

ウェアハウス

構造化データソース

Page 5: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本ビッグデータ

6

Big DataとHadoop

図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

図中の各要素は、Hadoopに関連する主要コンポーネントを表しています。

• 非構造化データソース:データを生み出すコンポーネントです。一般的には、構造化されたリレーショナル・データベースに保管されない/保管できないデータ全般のことを指し、半構造化データソースと非構造化データソースの両方を含みます。具体例としては、電子メール、ソーシャルメディアのコンテンツ、XMLデータ、ビデオ、オーディオ、写真、GPS、衛星画像、センサーデータ、スプレッドシート、Webログ、モバイルデータ、RFIDタグ、PDF文書などがあります。

• Hadoop(HDFS):大量データを高速に処理するGoogleの基盤技術をオープンソースとして実装したものがHadoopです。Hadoop分散ファイルシステム(HDFS)は、その中でデータの保管を担っているコンポーネントです。HDFSには構造化、半構造化、非構造化を問わず、あらゆるタイプのデータを保管できます。低コストの汎用ハードウェアで実行できるように設計されており、数千台のマシンを用いた規模拡張にも迅速かつ安価に対応することが可能です。

• ビッグデータ・アプリケーション: データを踏まえた行動を導くコンポーネントです。具体的には、ユーザーがHadoopやその他の非リレーショナル・ストレージ・システムに保管されているデータにアクセスして対話操作や分析を行い、その結果を踏まえて意思決定を行えるよう支援する目的に特化して新たに開発されたアプリケーション、ツール、ユーティリティです。ここには(本書の定義では)、Hadoopをサポートできるように機能拡張された従来のBI/アナリティクス・アプリケーションまたはツールは含まれません。

図2. Hadoopの運用環境

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

Page 6: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

7

Hadoop 2.0の

リリースに伴い、MapReduceが

ボトルネックとなる

状況は解消され、MapReduceが

最も得意とする領域、 すなわちデータの

処理に集中できる

ようになっています。

図2には意図的に掲載していませんが、Hadoopでリソース管理と処理を担うのは、MapReduceというコンポーネントです。Hadoop開発者はMapReduceを使用することで、構造化/非構造化を問わず大量のデータを、信頼性が高くフォールト・トレランス機能を備えたマシン・クラスター環境内(複数マシンの連携環境内)で効率的に並列処理するプログラムを作成できます。例えば、SNSアプリケーションで友人を見つける機能や、連絡先の平均件数を計算する機能、あるいはWebログ統計情報を処理してWebトラフィックの量とパターンを分析する機能などをプログラミングできます。

MapReduceのもう1つの利点は、従来のEDWに散見されるように処理のためにデータをコピーすることは不要で、保管場所(HDFS)のデータをそのまま処理できることです。また、障害回復機構(リカバリー・システム)も最初から組み込まれているため、1台のマシンがダウンしても、データの復元はMapReduceが自動的に処理してくれます。

MapReduceの処理は従来型の手法と比べると超高速ですが、ジョブをバッチモードで実行しなければならないという制約があります。データをより高い頻度でリアルタイムに近いスピードで処理する必要がある企業や組織にとっては、この制約がネックとなってきました。幸い、Hadoop 2.0のリリースに伴ってリソース管理機能が別のパッケージ(YARNと呼ばれます)として分離されため、MapReduceがボトルネックとなる状況は解消され、MapReduceが最も得意とする領域、すなわちデータの処理に集中できるようになっています。

Page 7: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本ビッグデータ

8

データ量が

増え続けているだけでなく、より高速に

データを処理および

分析する必要性が

高まっている中、 現在の企業・組織は

3つの選択肢に

直面しています。

攻略法1構造化データのステージング(中間準備)

この攻略法では、HadoopをEDWのデータ・ステージング・プラットフォームとして使用します。

データ量が増え続けているだけでなく、より高速にデータを処理および分析する必要性が高まっている中、現在の企業・組織は3つの選択肢に直面しています。

1. 既存のEDWや業務システムに新たなハードウェアや処理能力を追加する

2. 代わりとなるデータ管理手法を検討する

3. 何もしない

選択肢1は有効ですがコストがかさみ、選択肢3では遠からず破綻するのは明らかです。そして、選択肢2の手法として有効なのがHadoopです。

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

図3. 構造化データのステージング(中間準備)

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

Page 8: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

9

アプリケーション・

データが急増している、といった課題を

抱えている場合は、 処理の一部を

Hadoopに

分担させることを

検討してください。

まず考えられるのは、EDWにデータを読み込むためのデータ・ステージング・プラットフォームとしてHadoopを利用する方法です。MapReduceジョブを書けば、アプリケーションのデータをHDFS

に保管し、必要な形式に変換した上で、変換後のデータだけをEDWに送ることができます。このアプローチでは2つの大きな利点が期待できます。

• ストレージ・コスト:Hadoopのストレージは低コストで利用できるため、「処理前」のアプリケーション・データと「処理後」の変換済みデータの両方を無理なくHDFSに保管できます。全てのデータを1つの場所に保持できるため、その後の管理、再処理(必要な場合)、分析がいずれも容易になります。

• 処理能力:データをHadoopで処理すると、その分だけEDWのリソースが解放され、処理/変換済みのデータをEDWにロードする時間が短くなるため、より速やかに分析作業を開始できるようになります。

Hadoopが登場した当初は「ETLキラー」とまで呼ぶ人もいたことから、ETLベンダー各社は危機感と過剰な防衛意識を抱きました。幸い、これらのベンダーも短期間で「HDFSコネクター」を投入したため、企業や組織はそれまでのETL投資を無駄にすることなく、業務プロセスをHadoop環境に容易に適応させることが可能になりました。

アプリケーション・データが急増している、あるいは、全てのETLジョブをタイムリーに完了するのが難しくなっている、といった課題を抱えている場合は、ETLベンダーのHadoop/HDFSコネクターやMapReduceを利用して、処理の一部をHadoopに分担させることを検討してください。データに追われるのではなく、データの先を行くことが可能になります。

Page 9: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本ビッグデータ

10

一般に

信じられているのとは

異なり、Hadoopの

パワーは

「ビッグデータ」以外

にも効果を

発揮します。

攻略法2構造化データの処理

この攻略法では、EDWや業務システムに保管されたデータを更新する手段としてHadoopを使用します。

一般に信じられているのとは異なり、Hadoopのパワーは「ビッグデータ」以外にも効果を発揮します。Hadoopを利用すると、EDWにロードする「スモールデータ」のETL処理という負担を軽減できるだけでなく(攻略法1を参照)、今現在はEDWに行わせている処理作業の一部をHadoopに分担させることもできます。

例えば、FacebookやLinkedInなどのSNSサイトでは、ユーザー同士の「つながり」を処理するために、友人や連絡先の相互関係リストを維持管理する必要があります。「つながり」の最新状態を常に反映させるためには、この相互関係リストのデータはデータウェアハウスに保管し、定期的に更新する必要があります。ご想像のように、EDWでこれを行うのは大量データを処理するリソース集約型のジョブとなりますが、Hadoopなら、ごくわずかな時間とコストで容易に処理することができます。

その活用例を示しているのが図4です。更新対象のデータをHadoopに送り、MapReduceに必要な処理を行わせた上で、更新済みのデータだけをEDWに戻します。このワークフローはEDWデータに対してだけでなく、業務システムや分析システムで維持管理される任意のデータに対して適用することができます。

つまり、低コストで超高速な処理能力というHadoopの利点を活かすと、EDWや業務システムの負担を軽減し、それぞれが最も得意とする本来の機能に集中させることができるのです。

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

図4. 構造化データの処理

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

Page 10: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

11

全てのデータに

価値があるのか?

そうだとすれば、 全てのデータを

収集して処理および

分析し、より多くの

洞察を発見することを目標にすべきでは

ないのか?

ここでは、既存のEDWで利用できないデータを活用するためにHadoopを使用します。

この攻略法が対象とするのは、(1)まだEDWに統合されていない構造化データソース、(2)非構造化データソースという2種類のカテゴリーのデータです。より一般的には、「現状ではEDWエコシステムに取り込んでいないものの、顧客・製品・サービスなどに関してより多くの洞察を導き出せる可能性があるデータ」と考えることができます。

とはいえ、このことは、より高度でより根源的な疑問を提起します。それは「全てのデータに価値があるのか? そうだとすれば、全てのデータを収集して処理および分析し、より多くの洞察を発見することを目標にすべきではないのか?」ということです。多くの企業では、データ・ガバナンスの取り組みの過程でこうした議論がなされた結果として、Hadoopで保管するデータに特化したポリシー決定プロセスを採用するようになっています。ここでの重要ポイントは、たとえ上の疑問への答えが「その通り。全てのデータを収集すべき」であったとしても、Hadoopは、この望ましい状態を実現する目的に非常に適しているということです。

攻略法3未統合データや非構造化データの処理

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

図5. 未統合データや非構造化データの処理

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

Page 11: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本ビッグデータ

12

EDWでは

全く扱えないデータやうまく扱えない

データでも、 Hadoopを活用すれば目的を達成できます。

図5では、構造化データソースと非構造化データソースの両方から、Hadoop(HDFS)にデータを取り込んでいます。データがHDFS内にある場合は、次の2つの選択肢が考えられます。

• データの前処理と保管をHadoop(HDFS)内で行います。その後、ビッグデータ・アプリケーションやBI/アナリティクス・ツールを使ってデータを分析します(詳細は攻略法6

を参照)。

• データの前処理と保管をHadoop(HDFS)で行うほか、既存のデータと組み合わせて分析できるように、必要に応じて関連データをEDWに送ります。なお、全ての非構造化データをEDW向けに構造化することは不可能であり、またその必要もないことに注意してください。

Hadoopはどのようなデータでも保管できるため、EDWを補完する用途にも最適です。EDWでは全く扱えないデータやうまく扱えないデータでも、Hadoopを活用すれば目的を達成できます。

Page 12: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

13

また、 ビジネス分析

担当者やデータ・

サイエンティストが、データ分析の

対象範囲を

過去3年間、5年間、 あるいは7年間に

限定する必要も

なくなります。

この攻略法では、オンプレミスまたはクラウド上にある全てのデータをアーカイブ化するためにHadoopを使用します。

この攻略法は単純明快で、最も一般的な用途の1つといえます。Hadoopは汎用ハードウェアで実行され、簡単かつ迅速にスケールアウトする(サーバー数やストレージ容量を増やす)ことができるため、企業や組織は、より大量のデータをより低コストで保管/アーカイブ化できます。さらなるコスト削減のためにデータをクラウドにアーカイブ化することも可能になっており、データセンターのリソースの解放もさらに進みます。

これが IT部門にとって朗報なのは言うまでもありませんが、ビジネス担当者にとっても歓迎すべきことです。ストレージ・コスト節約のために古いデータを定期的に廃棄する必要がなくなります。また、ビジネス分析担当者やデータ・サイエンティストが、データ分析の対象範囲を過去3年間、5年間、あるいは7年間に限定する必要もなくなります。Hadoopは汎用ハードウェア上で実行されるオープンソースのソフトウェアであり、そのパフォーマンスは従来のデータベースを凌駕するため、数十年分のデータをより簡単に優れた費用対効果で保管することができます。

図6に示すように、Hadoop内にアーカイブ化されたデータは、ビッグデータ・ツール用いて、あるいはHadoopと連携できるように拡張された従来のBI/アナリティクス・ツールを用いてアクセスおよび分析できます。理想を言えば、ここで使用するツールは、データ担当者が最も使い慣れており、かつ、アーカイブ化されたデータの量と多様性に対応できるように設計されたものが最適です。

攻略法4全てのデータのアーカイブ化

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

図6. 全てのデータのアーカイブ化

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

Page 13: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本ビッグデータ

14

攻略法5は、 EDWをメインの

「記録システム」として維持したい企業や

組織を対象として

います。

攻略法5全てのデータにEDW経由でアクセス

ここでは、EDWに組織全体のデータ・ユニバースの一元的な保管場所としての役割を追加するために、Hadoopを使用します。

この攻略法は、少なくとも当面の間、EDWをメインの「記録システム」として維持したい企業や組織を対象としています。Hadoopは、構造化データと非構造化データを処理および統合した上でEDW

にロードするために使われます。企業や組織は既存のBI/アナリティクス・ツールを使い続けながら、EDW(場合によってはHadoop)のデータにアクセスできます。

図7の各ステップの詳細は以下のとおりです。

1 次の 2つの条件を満たす構造化データは直接 EDWへ。(1)ETLツール経由で既にEDWに統合されている(あるいは統合可能な)データ、(2)他の未統合データソースや非構造化データソース(攻略法3を参照)と統合する必要のないデータ。

2 構造化または非構造化を問わず、他のデータと統合したい構造化データはHadoopへ。こうした統合を行う場所として最適なのがHadoopです。

3 適切に処理したい(場合によっては他の構造化データソースや非構造化データソースとの統合も行いたい)任意の非構造化データはHadoopへ。こうしたデータは生の状態でHadoopに保管できます。

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

図7. 全てのデータにEDW経由でアクセス

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

Page 14: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

15

ただし、 この攻略法は

EDWをメインの

「記録システム」として維持することが

目的であるため、Hadoopでは

組織全体のデータを完全に把握できない点に注意が必要です。

4 攻略法3で概要を示したように、Hadoopによる処理および統合が完了したデータをEDWにロード。攻略法5の目的はEDWを一元的な保管場所にすることですから、どのデータをEDWに入れるかを特定することが重要になります。

5 この時点で、EDWの全データ(構造化データソースおよびHadoopから取り込まれたデータ)は、BI/アナリティクス・ツールでアクセスおよび分析できるようになっています。

6 あるいは、Hadoopと連携できるように拡張されたBI/アナリティクス・ツールの場合は、Hadoop内のデータに直接アクセスすることも可能です。ただし、この攻略法はEDWをメインの「記録システム」として維持することが目的であるため、Hadoopでは組織全体のデータを完全に把握できない点に注意が必要です。

Page 15: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本ビッグデータ

16

企業や組織は

長年にわたり、 EDWエコシステムを

構築・展開して

きましたが、 Hadoopの登場は

まさに、それを

根底から揺るがす

大事件です。

攻略法6全てのデータにHadoop経由でアクセス

ここでは、全てのデータの最終的に格納するプラットフォームとしてHadoopを使用し、EDWとHadoop双方の強みを最大限に活用します。

この攻略法こそ、Hadoopによって実現するデータ管理のパラダイム・シフトです。企業や組織は長年にわたり、EDWエコシステムを構築・展開してきましたが、Hadoopの登場はまさに、それを根底から揺るがす大事件です。この攻略法の重点的な目標は、EDWとHadoop双方の強みを最大限に活かし、企業や組織にとって最も重要な戦略資産の1つであるデータから、さらに多くの価値と洞察を引き出せるようにすることです。

図8の各ステップの詳細は以下のとおりです。

1 構造化データも最初から、Hadoopで処理および保管します。もはや、ETLツール経由でEDWに直接データがロードされることはありません。

2 非構造化データは、必要に応じて他の構造化データソースや非構造化データソースと組み合わせた上で、Hadoopで収集/処理/統合します。

3 この時点でHadoopは、クレンジング済みの統合データをEDWにロードする際の唯一のソースとなります。EDWは、データを最新状態に維持する目的にもHadoopを使います(攻略法2を参照)。

4 BI/アナリティクス・ツールを用いたアクセスおよび分析は、ビジネスの要件に応じて、EDWとHadoopのどちらに保管されているデータに対しても可能です。

5 Hadoopが全てのデータのレポジトリになったため、Hadoopだけで組織全体のデータを完全に把握できます。データのアクセスと分析には、ビッグデータ・アプリケーションが必須になります。

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

図8. 全てのデータにHadoop経由でアクセス

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

構造化データソース

エンタープライズ・データ

ウェアハウス

BI/アナリティクス

非構造化データソース

Hadoop(HDFS)

ビッグデータ・アプリケーション

Page 16: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

17

Hadoopを含む

ビッグデータ・

テクノロジーは

歴史が浅く、まだ

成熟の過程にあり、 エンタープライズ市場ではなおさらです。

データをHadoopに蓄積する利点の1つは、生のネイティブの状態で保管できることです。従来の構造化データソースのように保管前にデータをフォーマットする必要がなく、データが要求された時点でフォーマットすることが可能です。このようにクエリの時点でデータをフォーマットするプロセスは「遅延結合(late binding)」と呼ばれ、時間のかかるデータ変換をデータロード処理から除外したいと考える企業の間で導入が広がっています。遅延結合では、データ要求そのものに応じたデータ・フォーマットのコンテキストが確実に適用されます。そのため、Hadoopプログラマーはネイティブ状態のデータをそのままロードする命令を書くだけでよく、何ヶ月にも及ぶプログラミングを節約できます。

図8のように示すと、データ管理におけるこのパラダイム・シフトもシンプルに見えますが、そこへ至る道のりは決して平坦ではありません。Hadoopを含むビッグデータ・テクノロジーは歴史が浅く、まだ成熟の過程にあり、エンタープライズ市場ではなおさらです。また、ビッグデータ・アプリケーションの開発に関しては、非常に大きな成長および成熟の可能性が広がっています。データ量の爆発的な増大が今後も続くと考えられる以上、より有意義で洞察に満ちた実用性の高いデータ活用を実現するためには、より優れたアプリケーションやツールが必要になるのは間違いないでしょう。

Page 17: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本ビッグデータ

18

Hadoopは

ビッグデータ専用の

ソリューションだという思い込みのワナに、 はまらないように

しましょう。

結論

あなた: 「Hadoopの用途はビッグデータに関連したものだけだと思ってました。そんなことはなかったんですね」

ビッグデータ専門家: 「Ж△♭、@$Г▽□▽¥」

あなた: 「その通りですよね、私も上司にそう言ったんです」

ビッグデータ専門家: 「∂▽Ж¥$ИЯ▽Я◎∂、△&▽@Э△ЖГ¥Ж∂$∠@Г」

あなた: 「そうなんですか? ウチの会社では今、何年分のデータをアーカイブ化しているのか、IT部門に確認してみようっと。Hadoopを導入したら、きっとその期間をずっと長くできますよね」

ビッグデータ専門家: 「♭☆Ж@&」

あなた: 「鋭い! ウチでは今、オンプレミスでアーカイブ化してると思うな。たぶん、一部のデータはクラウドにオフサイト化することを考えた方がよさそうですね」

ビッグデータ専門家: 「○Г♯□◇◎□∠※、∂ЖД⊆ДБЖ☆□。@☆&БДГ※И∠▽∂△Э☆И&☆!」

あなた: 「凄いですねぇ」

Hadoopはビッグデータ専用のソリューションだという思い込みのワナに、はまらないようにしましょう。基本的にテクノロジーに詳しいことを自認しているビジネス担当者にとって重要なのは、Hadoopが役立つ改善機会を特定することあり、これは義務といってもよいほどです。技術担当者やプログラマーは、データの入手に集中するあまり、効率化という視点を見失うことが少なくありませんし、ましてや、Hadoopの活用によってビジネス上の制約を緩和/解消できる可能性など忘れてしまいがちです。

オープンソースを理解しているかどうかやデータベースに精通しているかどうかに関係なく、ここまでお読みになられた皆さんはもう、この「ビジネス担当者のためのビッグデータ攻略本」の中から、お勤め先の企業・組織に最適な攻略法をビジネス目線で特定できるようになっています。そして、実際にそれを行うことで、課題と解決策との橋渡しができるようになり、その役割をまっとうできることでしょう。

Page 18: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

ビジネス担当者のためのビッグデータ攻略本 ビッグデータ

19

[これはSAS Best Practicesホワイトペーパーです。お読みいただき、ありがとうございます。]

Page 19: ビジネス担当者 Hadoopおよび のための エンタープ …...ビッグデータ ビジネス担当者のためのビッグデータ攻略本 6 Big DataとHadoop 図2は、Hadoopをスタンドアロンで使う単純な運用環境を示しています。

著者紹介

タマラ・ダル(Tamara Dull)は、テクノロジー・サービスの領域で25年以上の経験があり、データ分析、設計、開発を深く理解しています。このような経歴から、ビッグデータに関するSASのソート・リーダーシップの重鎮という現在の役割を担うことになったのは自然の成り行きであり、この最新トレンドの基本原理からアーキテクチャ、提供のベストプラクティスまで、あらゆる側面を分かりやすく説明する方法について、お手本を示し続けています。

ソーシャルメディア戦略やオンライン戦略の開発におけるパイオニア的な存在でもあり、ダイナミック・マーケティングの取り組みを確立し、堅牢なオンライン・コラボレーションやコミュニティによる相互交流を推進してきました。新興企業のLyzasoft社では、エンタープライズ・コラボレーション・ソフトウェア・スイートの主要リリースで責任者を務めました。また、非営利の慈善事業WebサイトであるSemper Vitaの共同創立者として、オンライン・コミュニティも立ち上げた経験もあります。Baseline Consulting社ではマーケティング担当副社長として、戦略面でのリーダーシップとオンライン・メディアに関する専門知識を発揮して、主要なマーケティング活動とブランディングを主導しました。

SAS Institute Japan株式会社 www.sas.com/jp [email protected]

本社 〒106-6111 東京都港区六本木6-10-1 六本木ヒルズ森タワー 11F Tel: 03 6434 3000 Fax: 03 6434 3001大阪支店 〒530-0004 大阪市北区堂島浜1-4-16 アクア堂島西館 12F Tel: 06 6345 5700 Fax: 06 6345 5655 JP2016BP_NGBDPB_SE