Post on 31-May-2015
description
背景 方法 結果 考察 課題はじめに
/ 41
携帯電話のGPSログデータを用いた 人々の行動パターンの分類
東京大学大学院 西村隆宏
1
GISA学術研究発表Web大会
背景 方法 結果 考察 課題はじめに
/ 41
Agenda・背景 ・方法 ・結果 ・考察 ・課題
: GPSデータを取り巻く環境
: 分類に関する既存データの利用
: 分析結果について
: 分析結果から導けること
: 今後研究を進める上での課題
2
はじめに 方法 結果 考察 課題背景
/ 41
背景
3
はじめに 方法 結果 考察 課題背景
/ 41 4
社会の変化 既往研究
はじめに 方法 結果 考察 課題背景
/ 41 5
社会の変化 既往研究
はじめに 方法 結果 考察 課題背景
/ 41
購入行動の変化 6
顧客の嗜好は多様化している
1960~2000 現在
・大量生産大量消費 ・少量生産少量消費
・実店舗で購入 ・Web通販で購入
はじめに 方法 結果 考察 課題背景
/ 41 7
顧客調査の手法・アンケート調査 - 訪問調査 - 利点: 回収率が高い - 欠点: 大量・広域の情報を取得できない - Web調査 - 利点: 大量に情報を取得できる - 欠点: サンプルが偏る、回収率が低い
アンケート調査は簡単だが限界もある
はじめに 方法 結果 考察 課題背景
/ 41 8
顧客調査の手法・POSデータの分析 - 利点 顧客の嗜好傾向が非常にわかりやすい
- 欠点 個人属性がわからないので、調査内容が限定的になってしまう
POSデータにも調査の限界がある
はじめに 方法 結果 考察 課題背景
/ 41 9
GPSデータの利活用
ハンドリングが難しいが、応用性は非常に高い
・GPSデータ - 利点 ユーザーの行動が明らかになる 様々な調査に応用が可能
- 欠点 非集計かつ空間データのため、扱いが 複雑である
はじめに 方法 結果 考察 課題背景
/ 41 10
GPSデータの活用例・モバイル広告代理店
ユーザーの位置・時間から最適な広告を配信
広告配信 DB
百貨店
カフェ 流行もの レストラン
ユーザー
10:00AM 15:00PM 18:00PM
はじめに 方法 結果 考察 課題背景
/ 41 11
社会の変化 既往研究
はじめに 方法 結果 考察 課題背景
/ 41 12
既往研究
行動パターンの分類はGPSデータで可能である
*GPSを用いた新宿御苑における利用者の行動パターンに関する研究, 日本造園学会誌 69,601,604
・山本らの研究* - 研究対象地域を複数のエリアに分割し 被験者の通過状況をもとに 行動パターンの分類を行った。
年齢、グループ構成で 行動パターンに違いがある
はじめに 背景 結果 考察 課題方法
/ 41
方法
13
はじめに 背景 結果 考察 課題方法
/ 41
使用したデータ 14
・混雑統計® ・事業所, 企業統計調査 ・Cameoコード対象エリア:東京急行電鉄2km沿線
はじめに 背景 結果 考察 課題方法
/ 41
使用したデータ 15
・混雑統計® ・事業所, 企業統計調査 ・Cameoコード
はじめに 背景 結果 考察 課題方法
/ 41 16
混雑統計
本研究で最も重要なデータ
id date lon lat Precision
442010/8/1 0:45 140.454154 37.683889 1
239 2010/8/1 0:45
140.452909 37.683889 1
342 2010/8/1 0:45
140.456944 37.683889 1
378 2010/8/1 0:45
140.454154 37.683889 3
精度が悪いデータは滞留点の計算時に 除外する
はじめに 背景 結果 考察 課題方法
/ 41
使用したデータ 17
・混雑統計® ・事業所, 企業統計調査 ・Cameoコード
はじめに 背景 結果 考察 課題方法
/ 41 18
事業所・企業統計調査
地域分類のためのデータ
メッシュコード 事業所数 従業員数
533900043 1 6
533900051 1 10
533900053 2 27
533900071 1 221
533900073 2 4
533900074 4 2
533900081 1 76
事業所・企業統計調査表 分類結果表
はじめに 背景 結果 考察 課題方法
/ 41
使用したデータ 19
・混雑統計® ・事業所, 企業統計調査 ・Cameoコード
はじめに 背景 結果 考察 課題方法
/ 41 20
Cameoコード
グループNo. 特徴
1 裕福な単身・二人世帯の多い都会地域
2 裕福な中高年の多い地域
3 裕福なファミリーの多い地域
4 比較的裕福な単身者の多い地域
5 ホワイトカラー・2世帯住宅の多い地域
6 平均的な中高年の多い地域
はじめに 背景 結果 考察 課題方法
/ 41 21
使用データのまとめ
滞留点 使用データ
混雑 統計®
推定居住地 Cameoコード
非推定居住地 事業所・企業 統計調査
はじめに 背景 結果 考察 課題方法
/ 41 22
解析のフロー事業所統計
Cameo コード
混雑統計 滞留点を推定
滞留点データ
居住地かどうか
500mメッシュに集計
メッシュを分類
商業コード
Cameoコードを割り当て
滞留点を商業コードに変換し、
集計
各Cameoコード別にユーザー分
類
クラスタ数の決定
クラスタサイズが最大か
標準行動クラスタと命名
非標準行動クラスタと命名
標準行動クラスタと非標準行動クラスタの類似度を計算
yes no
yes
no
End
Start
はじめに 方法背景 考察 課題結果
/ 41
結果
23
はじめに 方法背景 考察 課題結果
/ 41 24
事業所統計
Cameo コード
混雑統計 滞留点を推定
滞留点データ
居住地かどうか
500mメッシュに集計
メッシュを分類
商業コード
Cameoコードを割り当て
滞留点を商業コードに変換し、
集計
各Cameoコード別にユーザー分
類
クラスタ数の決定
クラスタサイズが最大か
標準行動クラスタと命名
非標準行動クラスタと命名
標準行動クラスタと非標準行動クラスタの類似度を計算
yes no
yes
no
End
Start
はじめに 方法背景 考察 課題結果
/ 41 25
UserID lon lat flag358 139.657214535.571478 1528 139.65522 35.570136 1811 139.65707634.844495 11290 135.4485606535.167193 21305 139.80227634.832681 12028 137.05060833.527822 02069 139.00638336.350873 02115 139.00515 36.34136 12142 130.092499536.3429395 13381 130.092499533.290681 1
1: 居住地 2: 勤務地 3: 駅 0: その他
のフラグがついており、 このフラグをもとに滞留点を 各データに変換する
はじめに 方法背景 考察 課題結果
/ 41 26
事業所統計
Cameo コード
混雑統計 滞留点を推定
滞留点データ
居住地かどうか
500mメッシュに集計
メッシュを分類
商業コード
Cameoコードを割り当て
滞留点を商業コードに変換し、
集計
各Cameoコード別にユーザー分
類
クラスタ数の決定
クラスタサイズが最大か
標準行動クラスタと命名
非標準行動クラスタと命名
標準行動クラスタと非標準行動クラスタの類似度を計算
yes no
yes
no
End
Start
/ 41 27
はじめに 方法背景 考察 課題結果
/ 41 28
事業所統計
Cameo コード
混雑統計 滞留点を推定
滞留点データ
居住地かどうか
500mメッシュに集計
メッシュを分類
商業コード
Cameoコードを割り当て
滞留点を商業コードに変換し、
集計
各Cameoコード別にユーザー分
類
クラスタ数の決定
クラスタサイズが最大か
標準行動クラスタと命名
非標準行動クラスタと命名
標準行動クラスタと非標準行動クラスタの類似度を計算
yes no
yes
no
End
Start
はじめに 方法背景 考察 課題結果
/ 41 29
集計結果UserID Cameo 1 2 3 4 5358 2 31 88 214 54 129528 2 0 7 264 357 4811 1 71 32 133 23 581290 1 15 40 484 67 821305 1 29 30 136 7 6872028 1 288 205 428 3 1712069 2 39 69 342 488 4042115 4 14 77 664 121 692142 4 14 92 983 635 1593381 1 3 14 371 43 274
UserID Cameo 1 2 3 4 5358 2 0.06 0.17 0.41 0.1 0.25
528 2 0 0.01 0.42 0.56 0.01
811 1 0.22 0.1 0.42 0.07 0.18
1290 1 0.02 0.06 0.7 0.1 0.12
1305 1 0.03 0.03 0.15 0.01 0.77
2028 1 0.26 0.19 0.39 0 0.16
2069 2 0.03 0.05 0.25 0.36 0.3
2115 4 0.01 0.08 0.7 0.13 0.07
2142 4 0.01 0.05 0.52 0.34 0.08
3381 1 0 0.02 0.53 0.06 0.39
頻度表の一部 正規化後の表の一部
はじめに 方法背景 考察 課題結果
/ 41 30
事業所統計
Cameo コード
混雑統計 滞留点を推定
滞留点データ
居住地かどうか
500mメッシュに集計
メッシュを分類
商業コード
Cameoコードを割り当て
滞留点を商業コードに変換し、
集計
各Cameoコード別にユーザー分
類
クラスタ数の決定
クラスタサイズが最大か
標準行動クラスタと命名
非標準行動クラスタと命名
標準行動クラスタと非標準行動クラスタの類似度を計算
yes no
yes
no
End
Start
はじめに 方法背景 考察 課題結果
/ 41 31
クラスタリング結果
Cameoコード1番ユーザーの クラスタリング結果
495人
138人
179人
330人
標準行動 クラスタ
非標準行動 クラスタ
はじめに 方法背景 考察 課題結果
/ 41 32
クラスタリング結果居住地属性 人数 居住地属性 人数1-1 495 3-3 171-2 138 3-4 151-3 179 4-1 541-4 330 4-2 952-1 153 4-3 312-2 163 4-4 782-3 87 4-5 542-4 169 5-1 212-5 82 5-2 483-1 20 5-3 443-2 16
はじめに 方法背景 考察 課題結果
/ 41 33
事業所統計
Cameo コード
混雑統計 滞留点を推定
滞留点データ
居住地かどうか
500mメッシュに集計
メッシュを分類
商業コード
Cameoコードを割り当て
滞留点を商業コードに変換し、
集計
各Cameoコード別にユーザー分
類
クラスタ数の決定
クラスタサイズが最大か
標準行動クラスタと命名
非標準行動クラスタと命名
標準行動クラスタと非標準行動クラスタの類似度を計算
yes no
yes
no
End
Start
はじめに 方法背景 考察 課題結果
/ 41 34
類似度計算 1/2・標準行動クラスタ間の類似度を計算する
1 2 3 42 0.173 0.78 0.584 0.98 0.13 0.715 0.06 -0.41 -0.25 0.16
はじめに 方法背景 考察 課題結果
/ 41 35
類似度計算 2/21 2 3 4 5
1-2 0.44 0.39 0.57 0.45 0.681-3 0.61 0.59 0.62 0.75 0.74
1-4 0.64 0.58 0.85 0.63 0.84
2-1 0.63 0.57 0.83 0.64 0.81
2-2 0.75 0.75 0.67 0.85 0.7
2-3 0.37 0.35 0.43 0.56 0.64
2-5 0.54 0.5 0.67 0.58 0.79
3-2 0.57 0.56 0.57 0.72 0.69
3-3 0.47 0.41 0.66 0.5 0.8
3-4 0.89 0.9 0.74 0.86 0.59
4-1 0.88 0.89 0.69 0.85 0.53
4-3 0.52 0.45 0.78 0.51 0.69
4-4 0.59 0.54 0.72 0.68 0.87
4-5 0.49 0.48 0.48 0.66 0.63
5-1 0.44 0.43 0.45 0.62 0.63
5-2 0.9 0.9 0.76 0.88 0.64
類似度表
・すべての組み合わせにおいて類似度を計算する1-2 51-3 41-4 32-1 32-2 42-3 52-5 53-2 43-3 53-4 24-1 24-3 34-4 54-5 45-1 55-2 4対応表
はじめに 方法背景 結果 課題考察
/ 41
考察
36
はじめに 方法背景 結果 課題考察
/ 41 37
グループNo. 特徴
1 裕福な単身・二人世帯の多い都会地域
2 裕福な中高年の多い地域
3 裕福なファミリーの多い地域
4 比較的裕福な単身者の多い地域
5 ホワイトカラー・2世帯住宅の多い地域
6 平均的な中高年の多い地域
Cameoコードの特徴
1 2 3 42 0.173 0.78 0.584 0.98 0.13 0.715 0.06 -0.41 -0.25 0.16
各標準クラスタ間の相関
年齢によって行動パターンが変化する
考察
はじめに 方法背景 結果 課題考察
/ 41 38
同地域内居住者で行動が異なる人が一定数いる
考察1-2 51-3 41-4 32-1 32-2 42-3 52-5 53-2 43-3 53-4 24-1 24-3 34-4 54-5 45-1 55-2 4対応表
・居住地のCameoコードと異 なる地域の標準クラスタと 類似度が高い
はじめに 方法背景 結果 課題考察
/ 41 39
考察1 2 3 4 5
1-2 0.44 0.39 0.57 0.45 0.681-3 0.61 0.59 0.62 0.75 0.741-4 0.64 0.58 0.85 0.63 0.842-1 0.63 0.57 0.83 0.64 0.812-2 0.75 0.75 0.67 0.85 0.72-3 0.37 0.35 0.43 0.56 0.642-5 0.54 0.5 0.67 0.58 0.793-2 0.57 0.56 0.57 0.72 0.693-3 0.47 0.41 0.66 0.5 0.83-4 0.89 0.9 0.74 0.86 0.594-1 0.88 0.89 0.69 0.85 0.534-3 0.52 0.45 0.78 0.51 0.694-4 0.59 0.54 0.72 0.68 0.874-5 0.49 0.48 0.48 0.66 0.635-1 0.44 0.43 0.45 0.62 0.635-2 0.9 0.9 0.76 0.88 0.64
類似度表
居住地属性 人数 居住地属性 人数1-1 495 3-3 171-2 138 3-4 151-3 179 4-1 541-4 330 4-2 952-1 153 4-3 312-2 163 4-4 782-3 87 4-5 542-4 169 5-1 212-5 82 5-2 483-1 20 5-3 443-2 16
各クラスタサイズの表
・例えばCameoコード1番に居住する人のうち、 中高年者が12%, 裕福なファミリーが15%含ま れているとわかる。
はじめに 方法背景 結果 課題考察
/ 41
本研究のまとめ 40
・GPSデータから滞留点を推定 ↓
・居住推定地と非居住地に分類し、 居住地傾向から各ユーザーの属性を推定
裕福と推定される人々の個人属性は推定可能
はじめに 方法背景 結果 考察 課題
/ 41
課題
41
はじめに 方法背景 結果 考察 課題
/ 41
課題 42
・地域分類がまだ不完全
・日本全国を対象に行う
・滞留点の滞留時間を考慮に入れる
・推定勤務地の情報も追加する
さらに細かく分類する必要がある
はじめに 方法背景 結果 考察 課題
/ 41 43
ご静聴ありがとう ございました