マーケティング向け大規模ログ解析事例紹介
-
Upload
kenji-hara -
Category
Documents
-
view
4.914 -
download
0
description
Transcript of マーケティング向け大規模ログ解析事例紹介
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved.
マーケティング向け大規模ログ解析事例紹介Large-Scale Log Analysis for the Marketing
NTT コミュニケーションズ株式会社先端 I P アーキテクチャセンタ 原 謙治
201 1 年 9月 26日
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 2
Who am I ?
先端 IPアーキテクチャセンタは技術 /サービス開発を担当
技術開発クラウドサービス開発の事例を紹介
NTT コミュニケーションズ 先端 IPアーキテクチャセンタ Net Marketing Analysis & DB Technology担当 原 謙治
運用・保守
設計・構築
営業 事業企画・推進
スタッフ
サービス開発
CUSTOMER
RETENTI ON
[ 顧客との信頼関係の維持 ]
D ELI VERY
[ 宣伝 /営業 /デリバリ ]
SUPPORT
[ 現場をサポート ]
CREATI ON
[ 技術 /サービス開発 ]
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 3
BizCI TY: Cloud Service provided by NTT
Communications
データセンタ間高速バックボーン
Global
NW
セキュアコネクティビティ
I nternet/ I P 電話網VPN サービス
I CT アウトソーシング
Fire Wall
ギャランティ バースト
ベストエフォート
国内拠点海外拠点
Bizホスティング
仮想サーバホスティングサービス
Bizメール
大容量Webメールスケジューラ等
SaaS アプリケーション
CRM / SFA 等
I nternet
Bizストレージ
大容量ファイルサーバ
マルチレイヤマーケティングソリューション
Bizマーケティング
ネットマーケティング
高速モバイルアクセス
モバイルシンクライアントセキュアリモートアクセス
ユビキタスオフィス
PCリモートアクセス 携帯リモートアクセス
ユビキタス I P 電話
大規模データストア 大規模データ解析
Bizストレージ
大容量ファイルサーバ
マルチレイヤマーケティングソリューション
Bizマーケティング
ネットマーケティング
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 4
大規模分散処理対象領域
データの用途
Bizストレージに保存したデータの分散処理
各種ログデータ、 CGM データの大規模分散処理
サービスの特長高セキュリティ・大容量のストレージを提供することで
運用コストを削減
ユーザ行動ログからマーケティング情報を抽出して企業活動を支援
解析用大規模データストア用大規模データ
Big D atas in B izCI TY
連携も視野
Bizストレージ大容量
ファイルサーバマルチレイヤマーケティングソリューション
Bizマーケティング
ネットマーケティング
Hadoopクラスタを利用して各種大規模データの分散処理を実現
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 5
Hadoop in B iz Marketing
“Web access Analysis” visualizes
internet-users’ behaviors.“Buzz Finder” supports marketing activity using customers’ feedbacks in
social media.
大規模Webアクセスログを解析してユーザ行動情報を抽出
大規模 CGM データを解析してクチコミ情報を抽出
データクロール
検索語収集
データクロール
企業メッセージが正しくユーザに伝わっているか?
広告宣伝の効果はどうか?
ネット上で自社の悪評が流れていないか?
自社商品の改善ポイント、差別化ポイントは何か?
マーケティング担当様
広告宣伝担当様
広報・総務担当様
商品開発担当様
自社ブランドの評判を分析
広告・宣伝後の評判を分析
自社名当の評判を分析
自社 /他社商品の評判を比較
書き込み検索利用
PaaS 型サービスへ向けた運用コスト削減のための高速化データ規模増大への対応
Hadoopを利用Hadoopを利用
Blog
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 6
Hadoop in BuzzFinder
I mportCGM
データ
HD FS
ワード抽出
関連語抽出
ポジネガ語抽出
位置情報抽出
検索 I ndex作成
Map
抽出Word
関連語
ポジネガ語
位置情報
検索 I ndex
HD FS
キーワード辞書
PostgreSQ L
export 集計 D B
PostgreSQ L
処理の特徴
1レコードあたりのデータが大きい
export 抽出 D B
PostgreSQ L
抽出ワード集計
関連語集計
HD FS
ポジネガ分布集計
位置分布集計
集計
Reduce
CGM D B
(Twitter,
Blogなど )
PostgreSQ L
日本語解析
Map
CGM
解析データ
HD FS
リッチインデクシング技術 *
を利用して日本語解析
* リッチインデクシング技術 : NTT 研究所が開発した日本語解析技術 資料末尾に参考 URL
レコード数が少ない (数百万 /日 )Map処理が中心←大部分が日本語解析
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 7
Results of BuzzFinder(1 /3)
福島第一原発から大量の白煙が噴出95,271 ツイート
毎月 1 1 日は震災についての話題が増える
キーワード「震災」「原発」のトレンド分析結果 (6月~ 8月の Tweet)
ここ 3ヶ月でも減少の傾向は見られない。(まだまだホットなキーワード)トピック毎のソーシャルメディア上での反応のリニアな変化を確認
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 8
Results of BuzzFinder(2/3)
「原発」に関する地域特性 (1 週間 )
基本的には人口分布に比例する。被災地および節電の影響がある関東からの発信が多いことがわかる。(ブログ分析でもほぼ同様の結果)
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 9
Results of BuzzFinder(3/3)
「原発」に関するポジネガの変化
201 1 年 4月末201 1 年 8月末
原発に関する評判は震災直後よりもわずかであるが悪化している。ポジネガは一般的にはポジが多い( 7割から 8割)ネガ発言が 5割超の危険領域。
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 10
Hadoop in B iz Marketing
“Web access Analysis” visualizes
internet-users’ behaviors.“Buzz Finder” supports marketing activity using customers’ feedbacks in
social media.
大規模Webアクセスログを解析してユーザ行動情報を抽出
大規模 CGM データを解析してクチコミ情報を抽出
データクロール
検索語収集
データクロール
企業メッセージが正しくユーザに伝わっているか?
広告宣伝の効果はどうか?
ネット上で自社の悪評が流れていないか?
自社商品の改善ポイント、差別化ポイントは何か?
マーケティング担当様
広告宣伝担当様
広報・総務担当様
商品開発担当様
自社ブランドの評判を分析
広告・宣伝後の評判を分析
自社名当の評判を分析
自社 /他社商品の評判を比較
書き込み検索利用
PaaS 型サービスへ向けた運用コスト削減のための高速化
Hadoopを利用Hadoopを利用
データ規模増大への対応
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 1 1
Hadoop in Web Access Analysis
アクセスログ
サイト情報
関連サイト抽出
MapHD FS
処理の特徴
1レコードあたりのデータが小さい
集計 D B
export
PostgreSQ L
クリックログ
セッション分類
セッションデータ
HD FSMap&Reduce
サイト分類
Map
export
サイト毎ランディングクエリ集計
ランディングクエリ集計
Reduce
ランディングクエリの頻度集計データ
集計
ReduceHD FS
関連サイト集計
サイト間のアクセス相関集計データ
JOI N
Map&Reduce
レコード数が多い (数千万 /日 )Reduce処理が頻発← Shuffleコストが高い
HD FS
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 1 2
Fast Map-Reduce for PaaS Services
速度が同等
通常の Hadoop Cluster
高速な Hadoop Cluster
マシン数を削減
典型的な Map/Reduce処理として
マーケティングの集計処理
と
アクセス解析の OLAP 処理(多数の joinがある処理 )
の高速化を実施
アクセス解析やマーケティング解析を行う上でShuffleコストが大きくなるため大量のマシンが必要
Shuffleコストを下げてマシン数を削減するためにMap/Reduceの典型的な処理を高速化
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 13
Strategies for Shuffle Cost Reduction
“Map Multi-Reduce”* reduces shuffle costs of map-reduce operations.
Record Reduce
Mapタスクにおいて Reduceを事前実行し中間データを削減
Local Reduce
同一ノードの Map出力結果を Reduceして Shuffle対象データを削減
“PJoin”* * reduces the shuffle costs in join processing
Join with Semi-Join View
複数の分析処理で共通的なシャッフル処理を事前処理して分析処理時のコストを削減
* , * * “Map Multi-Reduce”および“PJoin”は NTT 研究所が開発した MapReduce高速化技術
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 14
Map Multi-Reduce/Record Reduce
入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ
通常の MapReduce
Record reduce 利用
入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データRecord
reduce
record reduce を事前実行
Mapタスクにおいて Reduceを事前実行し中間データを削減
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 1 5
Map Multi-Reduce/Local Reduce
User
Program
worker
worker
worker
I nput D ata
fork
fork
fork
Master
worker
worker
assign
map
assign
reduce
local
write
remote read,
sort
Output
File 0
Output
File 1
Split 1
Split 0
Split 2
Split 3
Split 4
read
worker
worker
worker
worker
worker
assign
local reduce
マシン
プロセス
ファイルLocal Reduce タスクLocal Reduce タスクLocal Reduce タスク
同一ノードの Map出力結果を Reduceして Shuffle対象データを削減
Webアクセスログ解析のクリックログ集計処理でRecord Reduceと Local Reduceにより 2.2 倍の速度向上を確認
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 16
PJoin/Join with Semi-Join View
Query execution
siteinfo a
siteinfo_
accesses 1accesses processing
+
準結合
mapper
…
siteinfo_
accesses n
accesses n
…
accesses 1
accesses processing
+
準結合
Joining with siteinfo
reducer
…
Joining with siteinfo
siteinfo zPre-computation
siteinfo
accesses
hash(x)
hash(y)
…
siteinfo b
siteinfo a
siteinfo z
accesses 1
accesses n
siteinfo_
accesses n
siteinfo_
accesses 1
…
hash(y)
siteinfo primary key &
foreign key ( accesses primary key)
D FS read
shuffle
アクセスログ
サイト毎の詳細情報
テーブルの事前シャッフル実行,準結合中間データの事前生成mapper で準結合処理後に, reducer で残処理を実行
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 17
Results of PJoin
Pjo in マシン台数バリエーション 選択率低
0
1
2
3
4
5
6
20 25 30 35 40 45 50
マシン台数
処理時間
(分)
6. p jo in - > d is t inc t - > p jo in案 7. p jo in - > rs jo in案HIVE50台最速
1TBのアクセスログ処理で Pjoinの速度性能を検証
insert overwrite table q1_result
select
count(distinct s_sessionseqid)
from clckstrm c
join page p
on
c.c_pageseqid = p.p_pageseqid
and p.p_url like '%blog.goo.ne.jp%'
join session_info s
on
s.s_clckstrmseqid = c.c_clckstrmseqid
and s.s_referer like ‘% %';*
Hiveで処理した 50台と本技術を適用した 20台が同等の性能であることを確認
実行した HiveQL
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 18
Our Hadoop Cluster
• 各種検証が出来る設備を整備– 40台 250コア程度の分散処理環境を整備– 広域WAN を越えた環境– ラック間は LACP を利用してスループットを確保
Hadoop Cluster(250コア程度 )
設備や効果測定の観点で下記のような環境を整備
Namenode
・・・ ・・・
ラック1 ( LOC1 ) ラック2(LOC1 ) ラック3
(LOC2 )
広域WAN(50km)LACP により4GB の帯域を確保
0
10
20
30
40
50
60
70
80
0 5 10 15 20 25 30
処理時間
マシン台数
10台目でWAN 越え
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 19
Summary
• NTT コミュニケーションズが提供するクラウドサービス BizCI TY
• BizCI TYで提供する Bizマーケティングにおける Hadoop利用– BuzzFinderでのクチコミ解析– Webアクセスログ解析
• 集計・ JOI N 処理の高速化による運用コスト削減
• リモート構成の Hadoopクラスタ検証結果
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 20
Contacts
• 発表者 : 原 謙治 @harakenji, [email protected]
• BizCI TY: http://www.ntt.com/bizcity/
– B izストレージ : http://www.ntt.com/bizstorage/
– Biz マーケティング http://www.ntt.com/marketing/
Copyright © 201 1 NTT Communications Co., Ltd. All Rights Reserved. 21
参考 : リッチインデクシング技術参考URL
• NTT 技術ジャーナル 2008 Vol.20 No.6
– ポータルサービスを支える自然言語処理技術http://www.ntt.co.jp/journal/0806/special.html
– 「テキストからの知識抽出の基盤となる日本語基本解析技術」http://www.ntt.co.jp/journal/0806/files/jn200806020.pdf
– 「テキストからの知識抽出による新しいWeb情報アクセスに向けて」http://www.ntt.co.jp/journal/0806/files/jn200806008.pdf
– 「Web上の口コミを分析する評判情報インデクシング技術」http://www.ntt.co.jp/journal/0806/files/jn200806012.pdf