Twitter Catches the Flu: 事実性判定を用いた インフルエンザ流行予測

30
Twitter Catches the Flu: 事事事事事事事事事 事事事事事事事事事事事 事事事事 * ** 事事事事事 * 事事事事 *** * 事事事事 事事事事事事事事事 ** 事事事事事事事事 事事事事 *** 事事事事事事 事事事事事事事 06/09/22 NL201SLP86 1

description

Twitter Catches the Flu: 事実性判定を用いた インフルエンザ流行予測. 荒牧英治 * ** 増川佐知子 * 森田瑞樹 *** * 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ *** 独立行政法人 医薬基盤研究所. 本研究の特徴. 即時性 これまで: 1 週間間隔の更新であり,非常事態においてその察知が遅れる可能性がある 本研究: 超早期 での警告が可能 大規模 これまで: 全国 5,000 の医療機関の定点観測 本研究: 毎日数万 を超えるインフルエンザに関する Tweet. OUTLINE. - PowerPoint PPT Presentation

Transcript of Twitter Catches the Flu: 事実性判定を用いた インフルエンザ流行予測

Page 1: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

Twitter Catches the Flu: 事実性判定を用いた

インフルエンザ流行予測

荒牧英治 * ** 増川佐知子 *森田瑞樹 ***

* 東京大学 知の構造化センター** 科学技術振興機構 さきがけ

*** 独立行政法人 医薬基盤研究所04/20/23 NL201SLP86 1

Page 2: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

04/20/23 NL201SLP86 2

Page 3: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

04/20/23 NL201SLP86 3

Page 4: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

本研究の特徴

• 即時性–これまで: 1 週間間隔の更新であり,非常事

態においてその察知が遅れる可能性がある–本研究: 超早期での警告が可能

• 大規模–これまで: 全国 5,000 の医療機関の定点観測–本研究: 毎日数万を超えるインフルエンザに

関する Tweet04/20/23 NL201SLP86 4

Page 5: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

OUTLINE• 背景

• 目的

• 提案手法

• 実験

• まとめ

問題設定Twitter を用いることの問題

04/20/23 NL201SLP86 5

Page 6: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

単語の頻度「風邪」「熱」「インフルエンザ」

04/20/23 NL201SLP86 6冬 夏

Page 7: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

「ひきそう」

• 今日は暑いなぁ・・・・昨日は涼しかったのに。風邪ひきそうだよ・・・

• あう、変な場所で寝てしまった。風邪ひきそう

• 冷房ききすぎてて寒い…。本格的な風邪ひくかも。

• おはやう、昨日は寒くて風邪引くかとおもた• 風邪一歩手前。身体が冷えきってるので湯た

んぽなう。昨日は遊びすぎた

04/20/23 NL201SLP86 7

Page 8: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

「願望」「予防」

• 今年の年末は風邪なんて引いちゃいられない!

• 雨で靴が濡れて足が冷えた。ヘッドホンの延長コードが断線した……帰りに新しいのを買いに行く。風邪ひきたくないな。

• 風邪予防マスクがあったかい朝。• 風邪予防に夜は濡れマスクをして寝てるん

だけど、思わぬ副効果有り!唇が荒れない!

04/20/23 NL201SLP86 8

Page 9: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

動物の症状/誤字

• そんなことより今はまじめに家事やりたい。今日は子犬さんが風邪気味なので早めに帰ってあったかいものを作ってあげたいと思います。 ...

• おっはよぅ。晴れてるけ ど風邪が強いなぁ。• 台風並みに風邪が強いな

04/20/23 NL201SLP86 9

Page 10: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

アニメの人物の症状• オリジナル展開のせい でりっちゃんと唯ちゃん で風邪が被ったな• 唯が最終話でひいた 風邪が律より重たかっ たのは、唯は風邪引い たことが無かったので 免疫が無かったからかな。

04/20/23 NL201SLP86 10

Page 11: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

OUTLINE• 背景

• 目的

• 提案手法

• 実験

• まとめ

提案手法

04/20/23 NL201SLP86 11

Page 12: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

学習器による判定(ベースライン)≒スパム判定

• 判定のための2つの条件

入力文入力文

事実非事実

「投稿者(またはその周辺の人間)が風邪をひく」といった内

容であるか?

「投稿者(またはその周辺の人間)が風邪をひく」といった内

容であるか?

その内容は,現在(または近い過去)であり,肯定文である

か?

その内容は,現在(または近い過去)であり,肯定文である

か?

内容(命題)の妥当性

モダリティの妥当性

04/20/23 NL201SLP86 12

Page 13: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

コーパスの例

04/20/23 NL201SLP86 13

Page 14: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

学習の素性周辺語の BOW ( window size=6)

たぶん インフル がちょっと流行ってるんかなぁ

R1 R2 R3 R4 R5 R6L1

04/20/23 NL201SLP86 14

Page 15: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

SVM以外の学習手法は?

Classifier F-Measure TimeAdaBoost

0.592 40.192

Bagging 0.739 530.310Decision Tree 0.698 239.446Logistic Regression 0.729 696.704Naive Bayes 0.741 7.383Nearest Neighbor 0.695 22.441Random Forest 0.729 38.683SVM 0.738 92.72304/20/23 NL201SLP86 15

Page 16: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

OUTLINE• 背景

• 目的

• 提案手法

• 実験

• まとめ

実験

04/20/23 NL201SLP86 16

Page 17: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

どの程度,現実を予測できるのか ?

• 比較手法– (1) Tweet-SVM : 提案手法– (2) Tweet-Raw : ベースライン

• 単なるインフルエンザを含んだツィート数– (3) Google:

• Google Flu Trend 日本版 [Ginsberg et.al., Nature2009]– (4) Drug:

• 感冒薬 ( 風邪薬 ) の家計支出 [総務省家計調査 ]

• 評価– 国立感染症情報センターの報告との相関係数

04/20/23 NL201SLP86 17

Page 18: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

過熱報道期(新型インフル騒動)

過熱報道期(新型インフル騒動)平常時 平常時

過熱報道期(新型インフル騒

動)

過熱報道期(新型インフル騒

動)

Page 19: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

04/20/23 NL201SLP86 19

Page 20: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

04/20/23 NL201SLP86 20

結果

過熱報道期過熱報道期

Page 21: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

04/20/23 NL201SLP86 21

Page 22: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

R=0.683

R=0.816

R=-0.208

R=0.817

04/20/23 NL201SLP86 22

Page 23: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

04/20/23 NL201SLP86 23

結果

Page 24: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

R=0.974

R=0.955

R=0.962

R=0.959

ピーク前とピーク後で分けて評価

04/20/23 NL201SLP86 24

Page 25: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

OUTLINE• 背景

• 目的

• 提案手法

• 実験

• まとめ

医学/疫学研究(感染症モデル)との比較

04/20/23 NL201SLP86 25

Page 26: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

感染症モデルSIRモデル( 1次マルコフ近

似)

SSSusceptible感受性人口

II RRInfectious感染人口

Removed隔離人口

感染率 β 隔離率 γ

経験的に γ 0.38≒(半減期は 1.8 日 )[西浦 &合原 2009]

Page 27: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

仮定: S→I 遷移に Tweet する

04/20/23 NL201SLP86 27

γ=0.38 とすると r=0.834 (> 0.821)BUT: もっともフィットした時は γ 0.2 ≒(R=0.842)(半減期は 3.5 日 )

Page 28: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

OUTLINE• 背景

• 目的

• 提案手法

• 実験

• まとめまとめ

04/20/23 NL201SLP86 28

Page 29: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

まとめ• 言語情報のみでインフルエンザ流行を推定– Twitter は Web検索クエリと同等の精度– 特に平常時の流行のピーク前の予測精度は世界最高精度( r=0.97)

• 感染症モデル( SIRモデル)との整合性– Twitter は S→I 遷移の観測に相当する– 既存のモデルと整合しつつ高精度

• 実世界を扱うこと 社会的にも学術的にも重要な課題

04/20/23 NL201SLP86 29

Page 30: Twitter Catches the Flu:  事実性判定を用いた インフルエンザ流行予測

公開しているリソース

• コーパス• ガイドライン

• カゼミル: 「カゼミル」で検索

荒牧英治 Ph.D.University of [email protected]

荒牧英治 Ph.D.University of [email protected]

http://mednlp.jp/http://mednlp.jp/

04/20/23 NL201SLP86 30