マーケティング向け大規模ログ解析事例紹介

Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved.

マーケティング向け大規模ログ解析事例紹介Large-Scale Log Analysis for the Marketing

NTT コミュニケーションズ株式会社先端 I P アーキテクチャセンタ原謙治

201 1 年 9月 26日

Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 2

Who am I ?

先端 IPアーキテクチャセンタは技術 /サービス開発を担当

技術開発クラウドサービス開発の事例を紹介

NTT コミュニケーションズ先端 IPアーキテクチャセンタ Net Marketing Analysis & DB Technology担当原謙治

運用・保守

設計・構築

営業事業企画・推進

スタッフ

サービス開発

CUSTOMER

RETENTI ON

[ 顧客との信頼関係の維持 ]

D ELI VERY

[ 宣伝 /営業 /デリバリ ]

SUPPORT

[ 現場をサポート ]

CREATI ON

[ 技術 /サービス開発 ]


BizCI TY: Cloud Service provided by NTT

Communications

データセンタ間高速バックボーン

Global

NW

セキュアコネクティビティ

I nternet／ I P 電話網VPN サービス

　　　　　　　　　 I CT アウトソーシング

Fire Wall

ギャランティバースト

ベストエフォート

国内拠点海外拠点

Bizホスティング

仮想サーバホスティングサービス

Bizメール

大容量Webメールｽｹｼﾞｭｰﾗ等

SaaS ｱﾌﾟﾘｹｰｼｮﾝ

CRM ／ SFA 等

I nternet

Bizストレージ

大容量ファイルサーバ

ﾏﾙﾁﾚｲﾔﾏｰｹﾃｨﾝｸﾞｿﾘｭｰｼｮﾝ

Bizマーケティング

ネットマーケティング

高速モバイルアクセス

モバイルシンクラｲｱﾝﾄセキュアリモートアクセス

　　　　　　　　ユビキタスオフィス

PCリモートアクセス携帯リモートアクセス

ユビキタス I P 電話

大規模データストア大規模データ解析

Bizストレージ

大容量ファイルサーバ

ﾏﾙﾁﾚｲﾔﾏｰｹﾃｨﾝｸﾞｿﾘｭｰｼｮﾝ




大規模分散処理対象領域

データの用途

Bizストレージに保存したデータの分散処理

各種ログデータ、 CGM データの大規模分散処理

サービスの特長高セキュリティ・大容量のストレージを提供することで

運用コストを削減

ユーザ行動ログからマーケティング情報を抽出して企業活動を支援

解析用大規模データストア用大規模データ

Big D atas in B izCI TY

連携も視野

Bizストレージ大容量

ファイルサーバﾏﾙﾁﾚｲﾔﾏｰｹﾃｨﾝｸﾞｿﾘｭｰｼｮﾝ



Hadoopクラスタを利用して各種大規模データの分散処理を実現


Hadoop in B iz Marketing

“Web access Analysis” visualizes

internet-users’ behaviors.“Buzz Finder” supports marketing activity using customers’ feedbacks in

social media.

大規模Webアクセスログを解析してユーザ行動情報を抽出

大規模 CGM データを解析してクチコミ情報を抽出

データクロール

検索語収集


企業メッセージが正しくユーザに伝わっているか？

広告宣伝の効果はどうか？

ネット上で自社の悪評が流れていないか？

自社商品の改善ポイント、差別化ポイントは何か？

マーケティング担当様

広告宣伝担当様

広報・総務担当様

商品開発担当様

自社ブランドの評判を分析

広告・宣伝後の評判を分析

自社名当の評判を分析

自社 /他社商品の評判を比較

書き込み検索利用

PaaS 型サービスへ向けた運用コスト削減のための高速化データ規模増大への対応

Hadoopを利用Hadoopを利用

Blog


Hadoop in BuzzFinder

I mportCGM

データ

HD FS

ワード抽出

関連語抽出

ポジネガ語抽出

位置情報抽出

検索 I ndex作成

Map

抽出Word

関連語

ポジネガ語

位置情報

検索 I ndex

HD FS

キーワード辞書

PostgreSQ L

export 集計 D B

PostgreSQ L

処理の特徴

1レコードあたりのデータが大きい

export 抽出 D B

PostgreSQ L

抽出ワード集計

関連語集計

HD FS

ポジネガ分布集計

位置分布集計

集計

Reduce

CGM D B

(Twitter,

Blogなど )

PostgreSQ L

日本語解析

Map

CGM

解析データ

HD FS

リッチインデクシング技術 *

を利用して日本語解析

* リッチインデクシング技術 : NTT 研究所が開発した日本語解析技術資料末尾に参考 URL

レコード数が少ない (数百万 /日 )Map処理が中心←大部分が日本語解析


Results of BuzzFinder(1 /3)

福島第一原発から大量の白煙が噴出95,271 ツイート

毎月 1 1 日は震災についての話題が増える

キーワード「震災」「原発」のトレンド分析結果 (6月～ 8月の Tweet)

ここ 3ヶ月でも減少の傾向は見られない。（まだまだホットなキーワード）トピック毎のソーシャルメディア上での反応のリニアな変化を確認


Results of BuzzFinder(2/3)

「原発」に関する地域特性 (1 週間 )

基本的には人口分布に比例する。被災地および節電の影響がある関東からの発信が多いことがわかる。（ブログ分析でもほぼ同様の結果）


Results of BuzzFinder(3/3)

「原発」に関するポジネガの変化

201 1 年 4月末201 1 年 8月末

原発に関する評判は震災直後よりもわずかであるが悪化している。ポジネガは一般的にはポジが多い（ 7割から 8割）ネガ発言が 5割超の危険領域。


Hadoop in B iz Marketing

“Web access Analysis” visualizes

internet-users’ behaviors.“Buzz Finder” supports marketing activity using customers’ feedbacks in

social media.

大規模Webアクセスログを解析してユーザ行動情報を抽出

大規模 CGM データを解析してクチコミ情報を抽出


検索語収集


企業メッセージが正しくユーザに伝わっているか？

広告宣伝の効果はどうか？

ネット上で自社の悪評が流れていないか？

自社商品の改善ポイント、差別化ポイントは何か？

マーケティング担当様

広告宣伝担当様

広報・総務担当様

商品開発担当様

自社ブランドの評判を分析

広告・宣伝後の評判を分析

自社名当の評判を分析

自社 /他社商品の評判を比較

書き込み検索利用

PaaS 型サービスへ向けた運用コスト削減のための高速化

Hadoopを利用Hadoopを利用

データ規模増大への対応

Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 1 1

Hadoop in Web Access Analysis

アクセスログ

サイト情報

関連サイト抽出

MapHD FS

処理の特徴

1レコードあたりのデータが小さい

集計 D B

export

PostgreSQ L

クリックログ

セッション分類

セッションデータ

HD FSMap&Reduce

サイト分類

Map

export

サイト毎ランディングクエリ集計

ランディングクエリ集計

Reduce

ランディングクエリの頻度集計データ

集計

ReduceHD FS

関連サイト集計

サイト間のアクセス相関集計データ

JOI N

Map&Reduce

レコード数が多い (数千万 /日 )Reduce処理が頻発← Shuffleコストが高い

HD FS


Fast Map-Reduce for PaaS Services

速度が同等

通常の Hadoop Cluster

高速な Hadoop Cluster

マシン数を削減

典型的な Map/Reduce処理として

マーケティングの集計処理

と

アクセス解析の OLAP 処理(多数の joinがある処理 )

の高速化を実施

アクセス解析やマーケティング解析を行う上でShuffleコストが大きくなるため大量のマシンが必要

Shuffleコストを下げてマシン数を削減するためにMap/Reduceの典型的な処理を高速化


Strategies for Shuffle Cost Reduction

“Map Multi-Reduce”* reduces shuffle costs of map-reduce operations.

Record Reduce

Mapタスクにおいて Reduceを事前実行し中間データを削減

Local Reduce

同一ノードの Map出力結果を Reduceして Shuffle対象データを削減

“PJoin”* * reduces the shuffle costs in join processing

Join with Semi-Join View

複数の分析処理で共通的なシャッフル処理を事前処理して分析処理時のコストを削減

* , * * “Map Multi-Reduce”および“PJoin”は NTT 研究所が開発した MapReduce高速化技術


Map Multi-Reduce/Record Reduce

入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ

通常の MapReduce

Record reduce 利用

入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データRecord

reduce

record reduce を事前実行

Mapタスクにおいて Reduceを事前実行し中間データを削減


Map Multi-Reduce/Local Reduce

User

Program

worker

worker

worker

I nput D ata

fork

fork

fork

Master

worker

worker

assign

map

assign

reduce

local

write

remote read,

sort

Output

File 0

Output

File 1

Split 1

Split 0

Split 2

Split 3

Split 4

read

worker

worker

worker

worker

worker

assign

local reduce

マシン

プロセス

ファイルLocal Reduce タスクLocal Reduce タスクLocal Reduce タスク

同一ノードの Map出力結果を Reduceして Shuffle対象データを削減

Webアクセスログ解析のクリックログ集計処理でRecord Reduceと Local Reduceにより 2.2 倍の速度向上を確認


PJoin/Join with Semi-Join View

Query execution

siteinfo a

siteinfo_

accesses 1accesses processing

+

準結合

mapper

…

siteinfo_

accesses n

accesses n

…

accesses 1

accesses processing

+

準結合

Joining with siteinfo

reducer

…

Joining with siteinfo

siteinfo zPre-computation

siteinfo

accesses

hash(x)

hash(y)

…

siteinfo b

siteinfo a

siteinfo z

accesses 1

accesses n

siteinfo_

accesses n

siteinfo_

accesses 1

…

hash(y)

siteinfo primary key &

foreign key ( accesses primary key)

D FS read

shuffle

アクセスログ

サイト毎の詳細情報

テーブルの事前シャッフル実行，準結合中間データの事前生成mapper で準結合処理後に， reducer で残処理を実行


Results of PJoin

Pjo in マシン台数バリエーション選択率低

0

1

2

3

4

5

6

20 25 30 35 40 45 50

マシン台数

処理時間

(分)

6. p jo in - > d is t inc t - > p jo in案 7. p jo in - > rs jo in案HIVE50台最速

1TBのアクセスログ処理で Pjoinの速度性能を検証

insert overwrite table q1_result

select

count(distinct s_sessionseqid)

from clckstrm c

join page p

on

c.c_pageseqid = p.p_pageseqid

and p.p_url like '%blog.goo.ne.jp%'

join session_info s

on

s.s_clckstrmseqid = c.c_clckstrmseqid

and s.s_referer like ‘% %';*

Hiveで処理した 50台と本技術を適用した 20台が同等の性能であることを確認

実行した HiveQL


Our Hadoop Cluster

• 各種検証が出来る設備を整備– 40台 250コア程度の分散処理環境を整備– 広域WAN を越えた環境– ラック間は LACP を利用してスループットを確保

Hadoop Cluster(250コア程度 )

設備や効果測定の観点で下記のような環境を整備

Namenode

・・・・・・

ラック1 ( LOC1 ) ラック2(LOC1 ) ラック3

(LOC2 )

広域WAN(50km)LACP により4GB の帯域を確保

0

10

20

30

40

50

60

70

80

0 5 10 15 20 25 30

処理時間

マシン台数

10台目でWAN 越え


Summary

• NTT コミュニケーションズが提供するクラウドサービス BizCI TY

• BizCI TYで提供する Bizマーケティングにおける Hadoop利用– BuzzFinderでのクチコミ解析– Webアクセスログ解析

• 集計・ JOI N 処理の高速化による運用コスト削減

• リモート構成の Hadoopクラスタ検証結果


Contacts

• 発表者 : 原謙治 @harakenji, [email protected]

• BizCI TY: http://www.ntt.com/bizcity/

– B izストレージ : http://www.ntt.com/bizstorage/

– Biz マーケティング http://www.ntt.com/marketing/

mailto:[email protected]

http://www.ntt.com/bizcity/



http://www.ntt.com/bizstorage/



http://www.ntt.com/marketing/




参考 : リッチインデクシング技術参考URL

• NTT 技術ジャーナル 2008 Vol.20 No.6

– ポータルサービスを支える自然言語処理技術http://www.ntt.co.jp/journal/0806/special.html

– 「テキストからの知識抽出の基盤となる日本語基本解析技術」http://www.ntt.co.jp/journal/0806/files/jn200806020.pdf

– 「テキストからの知識抽出による新しいWeb情報アクセスに向けて」http://www.ntt.co.jp/journal/0806/files/jn200806008.pdf

– 「Web上の口コミを分析する評判情報インデクシング技術」http://www.ntt.co.jp/journal/0806/files/jn200806012.pdf

http://www.ntt.co.jp/journal/0806/special.html

http://www.ntt.co.jp/journal/0806/files/jn200806020.pdf



マーケティング向け大規模ログ解析事例紹介

Documents

Transcript of マーケティング向け大規模ログ解析事例紹介