HowToStart...はじめにクラウド関連技術の進化とその普及により、データ分析に必要なコストはき

Transcript

はじめにクラウド関連技術の進化とその普及により、データ分析に必要なコストは⼤大きく低減しました。以前であれば数千万〜～数億円かけて構築した分析インフラも、今では⽉月額数⼗十万程度度で簡単に⽴立立ち上げることが出来ます。本資料料では、スモールスタートで「データファースト」を推進する分析プロジェクトの始め⽅方について、詳細をご紹介していきます。現在データ分析に携わっているものの様々な事情でなかなか本格始動出来ない⽅方にとって、少しでも助⼒力力になれば幸いです。

⼀一般的なデータ分析プロセス

⼀一般的に「データ分析」をプロジェクトとして始めるにあたっては、会社や上司から「⽬目標」や「仮説」を求められることが多いかと思います。それが明確であるがゆえにデータ分析が活き、その「確証」（または否定）を元にビジネスプロセスが回っていくと考えられるからです。

データ分析を始めるには相応のコストと時間がかかりますので、きちんとビジネスプロセスを回していけるのか、また「費⽤用対効果」があるのか、を分析の前にきちんと説得しないといけない苦労があるのも事実でしょう。
「⽬目標」「仮説」が無くてはダメなのか？

しかしながら、実際のところ⾃自社のサービスや製品において「⽬目標」や「仮説」を初めから持っているケースは少なく、逆に現場の分析者はまず「データから仮説や⽬目標を⾒見見いだしたい」と思っているはずです。

中にはデータ⾃自体を持っていない、またはデータはあるものの中⾝身を把握していないといった地点からスタートしない分析者も多いのではないでしょうか。
トレジャーデータ流流の分析プロセスは上のような特徴を持ちます。簡便便なデータ収集とクエリ実⾏行行により⼀一早く可視化を実現し、0からでも⼀一定の成果を⽣生み出せる分析プロセスとなっています。

トレジャーデータ流流データ分析プロセス

トレジャーデータが提案するデータ分析アプローチは、

• 明確な仮説を⽴立立てる前にデータ収集を始め、

• まずは簡単な切切り⼝口で可視化してみる

この 2点に尽きます。
データ収集

トレジャーデータでは「とにかくログを集めてくる」という課題に対して、「バルクローダー」と「ストリーミングログコレクター」という 2つの⽅方法で様々な種類のデータソースに対して柔軟に収集をサポートしています。

また、まだデータを蓄積できていない状況からのスタートでも、業種に応じたログテンプレート（どのような項⽬目のデータが必要か、そのデータに基づいてどんな分析ができる）を提供することによって、収集のハードルをできるだけ低くするようにしております。

バルクローダー
↑ 最近リリースされた新機能である「Data Connector」は、AmazonS3やFTP、MySQL などのデータソースに蓄積された⼤大規模なデータセットに対して「Server to Server」型のバルクロードを実⾏行行します。（詳細）

データを「⾒見見る」

さて、うまくログを扱えるようになったとしても、すぐに分析を始められるものではありません。まずは以下に述べるような 3つの「⾒見見る」プロセスを経ることではじめて⽬目標設定、仮説設定ができるようになるのです。

(a) データの「項⽬目を⾒見見る」

まずはどのようなデータが⼊入っているのか、項⽬目を知ることが第⼀一段階となります。ここではそのような項⽬目を知るだけではなく、項⽬目毎のサンプルを確認して「ディメンジョン」「メジャー」のどちらのタイプにあたるのかを識識別します。以下では中古⾞車車相場データを例例にとってその分類を⽰示します。

メジャー

メジャーは「中古⾞車車価格」や「オドメーター」など、それ⾃自体が集計の対象となる項⽬目です。これらのメジャーはセグメント毎に合計、平均、ユニーク数などが求められます。

ディメンジョン

ディメンジョンは「年年式」や「メーカー」など、集計時にセグメント軸となるような項⽬目を指します。⼀一般には⾮非数値型か順序付け不不可能な数値型である事が多いです。もちろん、「中古⾞車車価格」のようなメジャーでも 10万円〜～20万円、20万円〜～30万円…といったように区間をとればその区間をディメンジョンとして扱うことが可能です。このような例例は後述する「分布を⾒見見る」の際に必要になります。
(b) データの「内訳」を⾒見見る

さて、データの中⾝身を把握し「ディメンジョン」「メジャー」に分類すると、テンプレートに当てはめることによってデータの「内訳」を⾒見見ることが出来るようになります。トレジャーデータでは HiveQL という SQLライクなクエリ⾔言語を実装していますが、これに当社が提供するテンプレートを当てはめることによって、ディメンジョンによる個数や売上などの「内訳」を⾒見見る事ができるようになります。

b.  #•  #

•  #↓#

%%##m %dim1 #%%#SELECT#SUM(#m)#[,#COUNT(1),#AVG(#m)#,#etc...]#FROM#table#WHERE#condiHon#GROUP#BY#%dim1#

%%##m %dim1,#%dim2 #%%#SELECT#SUM(#m)#[,COUNT(1),#etc...]#FROM#table#WHERE#condiHon#GROUP#BY#%dim1,#%dim2#

SELECT#%year,#%month,#%day,#SUM(#m)#[,#COUNT(1),#etc...]#FROM#table#WHERE#condiHon#GROUP#BY#%year,#%month,#%day#ORDER#BY##%year,#%month,#%day

#

21#

b.  #•  #
テンプレートクエリによって出⼒力力されたデータテーブルは、可視化テンプレートに当てはめることでその内訳を⾒見見るに最適なチャートで可視化することができます。ここでのチャートでは決して凝ったものではなく、基本的には円グラフ・棒グラフ・折れ線グラフとなります。

(c) データの「分布を⾒見見る」

↑ あるディメンジョンにおけるデータの内訳を⾒見見るという視点に対して、あるメジャーの値の分布を⾒見見るというのがこのステップです。ここでいう分布とはメジャー項⽬目の値を区切切り、その区分に⼊入るレコードがいくらあるのかを計算したものです。例例えば中古⾞車車の価格の分布といえば「0〜～10万円」「10〜～20万円」…という区分に対して、市場全体の中古⾞車車はどの区分に多く密集しているのかを⾒見見る事になります。

c.  #•  #

•  ##

•  ↓#2 #/#3 #→
まとめ

以上で⾒見見てきた通り、分析を始める前に難しく考え込むのではなく、まずは可能な範囲でデータを収集し、それを可視化することで問題を⾒見見出して⽬目標を具体化していくことが肝要です。仮説を導き出すための分析と、得られた仮説を検証・考察するための分析があるとすれば、前者をスモールスタートで繰り返し実⾏行行することで、後者の成功を確かなものにすることが出来るのです。

トレジャーデータでは収集・可視化・分析の各ステップで活⽤用頂ける便便利利なツール・テンプレートを豊富にご⽤用意しております。分析プロジェクトの開始に際して何かお困りごとがありましたら、いつでもお気軽にご相談下さい。