2013.07.27 ニコニコデータ研究会 公開用
-
Upload
takeshi-sakaki -
Category
Documents
-
view
381 -
download
1
Transcript of 2013.07.27 ニコニコデータ研究会 公開用
リアルで Realな Twitterデータ〜ゆるふわ版〜
榊 剛史@tksakaki
軽く自己紹介
ソーシャルセンサを提唱した人(の部下)
軽く自己紹介
ソーシャルセンサを提唱した人(の部下)
Twitter
ソーシャルセンサ
宮崎駿っぽい
(写真が)
今日の目標
Twitterデータを定期クロールする楽しさを共有したい!!
Twitterデータを定期クロールする楽しさを共有したい!!
Twitterにおける「今」と「どこ」の重要性 地震の発生と震源地を知る 天体現象を知る
ゲリラ豪雨 虹
朝の電車遅延情報
Twitterにおける「今」と「どこ」
リアルな世界で「今」「どこで」何かが起きているのが
分かる
ブログブログ マイクロブログマイクロブログ
ユーザ ユーザ ユーザ ユーザ センサー センサーセンサー センサー
対象の観測
確率・統計処理 確率・統計処理
交通情報 気象・自然現象お祭り・イベント
観測値観測値
対象の観測
ソーシャルセンサの考え方
今日紹介するデータ
リアルで Realな Twitterデータセット
〜ゆるふわ版〜
リアルで Realな Twitterデータセット
〜ゆるふわ版〜
リアルリアルワールドでワールドでリアルリアルワールドでワールドで
RealtimeRealtime性の性の高い高い
RealtimeRealtime性の性の高い高い
けちって研究室のサーバで収集してるので、大学の停電にあわせて欠損が・・・・
今日紹介するデータ
リアルで Realな Twitterデータセット
〜ゆるふわ版〜
リアルで Realな Twitterデータセット
〜ゆるふわ版〜
リアルリアルワールドでワールドでリアルリアルワールドでワールドで
RealtimeRealtime性の性の高い高い
RealtimeRealtime性の性の高い高い
イベント系データイベント系データ
ユーザ系データユーザ系データ
データセットの説明
イベント系データイベント系データ
データセットの説明
イベント系データイベント系データ
と、その前に
収集しているデータ項目
データセットの説明
イベント系データイベント系データ
地震キーワード
地震 OR 揺れ
収集期間 2010年 10月〜 2012年 10月
ツイート数
約 1600万
サイズ 3.8GB
その他 機械学習でフィルタイング
天候キーワード
雨 OR 霧
収集期間 2010年 10月〜2012年 11月
ツイート数 約 3600万サイズ 6.5GB
その他 地名を別カラムに保存
データセットの説明
イベント系データイベント系データ
人物目撃キーワード
遭遇 OR 目撃 OR 見 掛け OR 見かけ OR
みかけ 収集期間 2010年 8月〜 2011年 6
月ツイート数 260万サイズ 640MB
その他 芸能人名をタグで囲んである
交通状況キーワード
渋滞 OR 交通規制OR 通行規制 OR 検問
収集期間 2010年 10月〜 2012年 11月
ツイート数
約 420万
サイズ 900MB
その他 地名を別カラムに保存
地震速報システム Toretter
道路交通詳細情報 収集システム
芸能人目撃情報システム Celeb PaparazziFinder
その他応用
人間直観天気予報「雨が降りそう」「雨が止みそう」みたいなツイート集めて、天気予報ことわざ天気予報「ツバメが低く飛ぶと雨」「月に傘がかかると雨」みたいなことわざにある現象の発生を検知して天気予報
今日紹介するデータ
リアルで Realな Twitterデータセット
〜ゆるふわ版〜
リアルで Realな Twitterデータセット
〜ゆるふわ版〜
リアルリアルワールドでワールドでリアルリアルワールドでワールドで
RealtimeRealtime性の性の高い高い
RealtimeRealtime性の性の高い高い
イベント系データイベント系データ
ユーザ系データユーザ系データ
データセットの説明
ユーザ系データユーザ系データ
ユーザ系データユーザ系データ
データセットの説明
データセットの説明
オリ合宿キーワー
ドオリ合宿
収集期間 2012年 4月ツイート数
4400
サイズ 778KB
学振キーワード
学振 OR DC1 OR DC2
収集期間 2011年 10月〜 11月ツイート数
5313
サイズ 1.8MB
ユーザ系データユーザ系データ
おまけ説明 オリ合宿とは!!
東大生が入学直後に、先輩に連れられていくオリエーテーション合宿のことである!!
東大にしか無い言葉
東大生リスト、というえげつない(≒金のにおいがする)リストが作れてしまうか
も?
東大生リスト、というえげつない(≒金のにおいがする)リストが作れてしまうか
も?
おまけ説明 学振とは!!
優秀な博士課程の学生に、月 20万円の給料をくれる制度である。学術振興会特別研究員の略。
倍率20%なので、非常に厳しい
将来偉くなる研究者リストが作れてしまうかも?
将来偉くなる研究者リストが作れてしまうかも?
その他応用
雨男・雨女判定
外出時にいつも雨に遭遇しているユーザ群を推定
ご近所さんユーザ判定
自分の近所の人しか呟かないようなキーワードでクロールして、ご近所さんを推定
まとめ
ユーザ系データユーザ系データ
イベント系データイベント系データ
現実に発生しているイベントについていろんな情報を取得できそう
現実に発生しているイベントについていろんな情報を取得できそう
ある特定の集団における流行やトレンド、趣味、思想が取得できるかも
ある特定の集団における流行やトレンド、趣味、思想が取得できるかも
まとめ 問題点
Twitterはデータの 2次配布を禁止してるのでどうしたもんか・・・・・
野良リポジトリには置けないかも・・・・ Amazon EC2に DBでも立てて、希望者のユーザ作るのはグレー・・・・??
まあ、あとで考えます
まとめ
とりあえず、みんなTwitterの定期クロールしようぜ!!
おしまい
この顔にピンと来たら@tksakakiへ連絡を!