M1GP: A Word at a Time

37
2011/5/7 M1 Grand Prix A Word at a Time: Computing Relatedness using Temporal Semantic Analysis 喜喜喜喜喜喜 M1 喜喜 喜喜 Presented at WWW2011 Session: Semantic An resented by K. Radinsky†, E. Agichteiny†, E. Gabrilovichz‡, S. Marko †Israel Institute of Technology, ‡Emory Universit *Yahoo! Researc

Transcript of M1GP: A Word at a Time

2011/5/7 M1 Grand PrixA Word at a Time: Computing Relatedness using Temporal

Semantic Analysis

喜連川研究室  M1  中島 直哉

Presented at WWW2011 Session: Semantic AnalysisPresented by K. Radinsky†, E. Agichteiny†, E. Gabrilovichz‡, S. Markovitch*

†Israel Institute of Technology, Israel‡Emory University, USA*Yahoo! Research, USA

Ou

tline

• Introduction– Background– Goal & Approach– Related Works

• Proposal– ESA– TSA

• Detail 1• Detail 2• Detail 3

• Evaluation– Methodology– Results– Discussion

• Summary– Achievement– Impression

2011/5/7 M1 Grand Prix 2/22

Ou

tline

• Introduction– Background– Goal & Approach– Related Works

• Proposal– ESA– TSA

• Detail 1• Detail 2• Detail 3

• Evaluation– Methodology– Results– Discussion

• Summary– Achievement– Impression

2011/5/7 M1 Grand Prix 3/22

Background

• Semantic Relatedness – 意味関連度– 単語間,テキスト間– 様々な技術のキーとなる• 検索,クラスタリング,曖昧性除去 etc

– 静的なデータの扱いによる解析手法は多々

• Word の時系列パターンにも多くの情報– 今まで関連度解析に利用されてこなかっ

た...2011/5/7 M1 Grand Prix 4/22

For example…

2011/5/7 M1 Grand Prix 5/22

“war” と“ peace” が新聞記事にあらわれる頻度

頻度(article included/ all article)

時間( year )

Background

• Semantic Relatedness – 意味関連度– 単語間,テキスト間– 様々な技術のキーとなる• 検索,クラスタリング,曖昧性除去 etc

– 静的なデータの扱いによる解析手法は多々

• Word の時系列パターンにも多くの情報– 今まで関連度解析に利用されてこなかっ

た...2011/5/7 M1 Grand Prix 6/22

Related Works

2011/5/7M1 Grand Prix 7/22

Word Similarity/Relatedness Exploiting Temporal DynamicsBag of Words

LSA

ESA

Similar Queries Analysis

Evolving Document Collection

Temporal information diffusion

Michael D. Lee et al.”An empirical evaluation of models of text document similarity,”CogSci,2005,

Lev Finkelstein et al.“Placing search in context: The concept revisited,” ACM TOIS, 20(1):116–131

Evgeniy Gabrilovich et al. “Computing semantic relatedness using wikipedia-based explicit semantic analysis,” IJCAI, 2007.

Ravi Kumar et al.”On the bursty evolution of blogspace,”WWW, 2003.

X. Wang et al.”Mining correlated bursty topic patterns from coordinated text streams,” KDD, 2007.

Jinru He et al. “Compact full-text indexing of versioned document collections,” CIKM, 2009.

Goal & Approach

• ESA(Explicit Semantic Analysis)– 既存手法の中で優秀な方法の一つ

• TSA(Temporal Semantic Analysis)– ESA による解析に時間的な側面を付加するこ

とで解析精度の向上を目指す– 意味解析に時間的情報を組み込んだ

初めての事例

2011/5/7 M1 Grand Prix 8/22

Quite New!!

Ou

tline

• Introduction– Background– Goal & Approach– Related Works

• Proposal– ESA– TSA

• Detail 1• Detail 2• Detail 3

• Evaluation– Methodology– Results– Discussion

• Summary– Achievement– Impression

2011/5/7 M1 Grand Prix 9/22

ESA(Explicit Semantic Analysis)

2011/5/7 M1 Grand Prix 10/22

Word 1 Ontology

C11

C12

C1n

・・・

W1

W2

Wn対象となる言葉をオントロジーを用いて概念ベクトル( concept vector )へマッピング

concept vector重要度による重み付け

Word(i) と Word(j) の関連度は両者の概念ベクトル間のコサイン距離に基づき算出

TSA(Temporal Semantic Analysis) ( 1/2 )

2011/5/7 M1 Grand Prix 11/22

Word 1 Ontology

C11

C12

C1n

・・・

対象となる言葉をオントロジーを用いて概念ベクトル( concept vector )に分割

concept vector

History ・

・・

時系列データ

ts11

ts12

ts1n

TSA(Temporal Semantic Analysis) ( 2/2 )

2011/5/7 M1 Grand Prix 12/22

Word1 からのデータ

・・・

ts21

ts22

ts2m

Word2 からのデータ

時系列の似ているコンセプトを多く持つ Word = 関連度の高いWord!!

・・・

ts11

ts12

ts1n

Ex)war

Ex)peace

Detail1: How to get concept vector

2011/5/7 M1 Grand Prix 13/22

Word 1 Ontology

C11

C12

C1n

・・・

concept vector

Detail1: How to get concept vector

2011/5/7 M1 Grand Prix 14/22

Wikipedia

TF-IDF スキーマ

Word

各記事内の Word の出現頻度をベースに関連する概念( C i : Wikipedia 記事)とその重要度 (wi) を算出

重要度が一定レベル以下のものは切り捨てる

C1

C2

Cn

・・・

w1

w2

wn

TF : 単語の出現頻度IDF : 逆文書頻度※

Detail2: How to derive temporal sequence

2011/5/7 M1 Grand Prix 15/22

C11

C12

C1n

・・・

concept vector

History ・

・・

時系列データ

ts11

ts12

ts1n

Detail2: How to derive temporal sequence

2011/5/7 M1 Grand Prix 16/22

ある期間内の文書総数

期間内の”文書 d” の中に”概念 c” が出現した数を各期間で算出

つまり...

この期間の文書集合が D1

D2 D3 ・・・time

文書アーカイブ: H を利用

文書アーカイブ: H

Detail3: Relatedness calculation method

2011/5/7 M1 Grand Prix 17/22

・・・

ts21

ts22

ts2m

・・・

ts11

ts12

ts1n

Detail3: Relatedness calculation method

2011/5/7 M1 Grand Prix 18/22

Word

Set of concepts

Relatedness

概念ベクトルへのマッピング

関連度の算出

Detail3: Relatedness calculation method

2011/5/7 M1 Grand Prix 19/22

Relatedness

つまり...

関数 Q : 概念の 2 つの時系列データの関連度を算出

・・・

時系列 ts11

時系列 ts12

時系列 ts13

時系列 ts1n

・・・

時系列 ts21

時系列 ts22

時系列 ts23

時系列 ts2m

各概念同士の関連度の総和が最大となるマッピングパターンを考える⇒ その時の各関連度の総和が word 間の関連度 R

C11

Word1 Word2C12

C13

C1n

C21

C22

C23

C2m

Q により関連度算出

Ou

tline

• Introduction– Background– Goal & Approach– Related Works

• Proposal– ESA– TSA

• Detail 1• Detail 2• Detail 3

• Evaluation– Methodology– Results– Discussion

• Summary

2011/5/7 M1 Grand Prix 20/22

Evaluation Methodology

2011/5/7 M1 Grand Prix 21/22

Dataset of word pairs

TSA Human ESA etc

各 Word ペアの       関連度をランク付け

Result TSA Result Human Result ESA etc正解デー

Spearman rank correlation coefficient

正解データとのランク付けの相関度

正解データとのランク付けの相関

Evaluation Methodology

2011/5/7 M1 Grand Prix 22/22

正解データとのランク付けの相関度

rank1

正解データとのランク付けの相関

度rank2

Number of word pairs

結果の有意性を判定

(p×100)% で有意であることを確認可能

Evaluation Methodology

2011/5/7 M1 Grand Prix 23/22

Dataset for Evaluation

WS-353 benchmark dataset†

・オンラインで取得,利用可能・ 353 個の Word の組み合わせ・全てのペアは 15 人前後の人間によって評価されている

Original Dataset

・オリジナルのアルゴリズムにより作成されたデータセット・ WS-353 が人手によって Word が選ばれているのに対し, こちらは自動的にデータセットを作成するため主観が混ざらない

†Lev Finkelstein   et al.“Placing search in context: The concept revisited,” ACM TOIS, 20:116-131, 2002.

Results

2011/5/7 M1 Grand Prix 24/22

TSA vs ESA

Algorithm Correlation with humans

ESA-Wikipedia 0.75

ESA-ODP 0.65

TSA 0.80

WS-353 Dataset

Original DatasetAlgorithm Correlation with humans

ESA-Wikipedia 0.59

TSA-Wikipedia 0.63

有意水準 5% で有意な結果

0.05 up!

0.04 up!

Results

2011/5/7 M1 Grand Prix 25/22

TSA vs Temporal Word Similarity静的な分析(概念ベクトルへの分解)を行わなず,Word 出現頻度の時系列変化の相関のみから関連度をランク付け

Algorithm/Dataset WS-353 Original

Word-Similarity (cross correlation)

0.51 0.56

Word-Similarity (DTW)

0.59 0.58

TSA 0.80 0.63

静的な分析との組み合わせの必要性

Results

2011/5/7 M1 Grand Prix 26/22

Word Frequency Effects

frequency ESA Correlation with humans

TSA Correlation with humans

Low 0.73 0.82

Medium 0.74 0.76

High 0.76 0.79

Table : Grouping word pairs by NYT word frequency

TSA は出現頻度の少ない Word の関連も抽出可能

NYT の記事における単語の出現頻度別に関連度をランク付け

Discussion

2011/5/7 M1 Grand Prix 27/22

TSA の利点・同義語の関連検出

e.g.)coast – shore

・特定のフレーズの Word 間の関連検出e.g.) hundred – percent

TSA の欠点・複雑な間接的関係による誤検出(人間には関連はない様にみえる)

e.g.)drink – car

・科学技術用語などコーパス内にほとんど出現しない Word の関連検出e.g.) physics – proton

ブログや twitter など,新たなコーパスを導入することで解決できる可能性がある

Ou

tline

• Introduction– Background– Goal & Approach– Related Works

• Proposal– ESA– TSA

• Detail 1• Detail 2• Detail 3

• Evaluation– Methodology– Results– Discussion

• Summary– Achievement– Impression

2011/5/7 M1 Grand Prix 28/22

Summary

• TSA(Temporal Semantic Analysis) の提案・実装– 関連度解析に時間的概念を導入

• 既存手法との比較による TSA の有用性の証明– 利害得失に関しても詳しい解析も行った

• 新たなデータセットの構築– 今後の同じフィールドの研究に有益

2011/5/7 M1 Grand Prix 29/22

本研究が初めて!

Impression

• 面白さ– 初めて時間という概念を SA に導入したという新規性– 様々な分野の手法を取り入れて精度の向上をはかっている

• この技術は・・・– 正確性に欠けるが,人間への関連情報の

提示などの用途には利用出来ると考えられる• この分野は・・・

– この研究により,新たに時系列の利用という概念が生まれ,更なる分野の活性化が期待できる

• 課題は・・・– 正確性の向上– 特に TSA が苦手とする部分をいかに補完していくか

2011/5/7 M1 Grand Prix 30/22

THANK YOUFOR YOUR ATTENTION!!

2011/5/7 M1 Grand Prix 31/22

ご清聴ありがとうございました!

2011/5/7 M1 Grand Prix

Appendix

Detail2: How to derive temporal sequence

2011/5/7 M1 Grand Prix 33/22

“ 文書 d” 内に”概念 c” が存在するとは?

e.g.) ある単語数を ε対象概念 c = “Great Fire of London” としたとき文書内に次のような部分が存在すること

~ ~ ~ ~ ~ London ~ ~ fire. ~ ~ ~ ~ Great ~ ~ ~ . ~ ~ of ~ ~

Within ε words

Detail3: Relatedness calculation method

2011/5/7 M1 Grand Prix 34/22

What is Function Q ??時系列データの類似度を測定する手法として以下の二つが考えられる

ピアソンの積率相関係数

DTW(Dynamic Time Warping)

時間的なズレを許しながら最も類似度の高まる部分を探索⇒時間的にずれのある 2 つの Word の関連も見つけられる

部分的な伸縮を許しながら最も類似度の高まる部分を探索⇒Cross Correlation よりもさらに自由度が高い

Detail3: Relatedness calculation method

2011/5/7 M1 Grand Prix 35/22

言葉の意味の変遷があることを考えると過去の動向より最近の動向が似ているコンセプトの方が関連度が高い

最近の動向が似ているものには関連度算出時に大きな重み付けを行う

重み付け大 重み付け小

What is Function Q ??

Pair(ai, aj) W’×W’∈

Evaluation Methodology

2011/5/7 M1 Grand Prix 36/22

Dataset Construction Algorithm

New York TimesArchives

Word ExtractionW :Set of all words

[ 前処理 ]・ストップワードと      稀なワードを除く・屈折語尾 /派生接辞を除く

W ‘:collection of words

Get Pair of words最終的に,ペアの相互情報量に基づき

関連する語と関連のない語とが同じ量含まれるように間引きを行う

各ペアの関連度の評価(ランク付け)は

Amazon’s Mechanical Turk に依頼

Results

2011/5/7 M1 Grand Prix 37/22

Performance AnalysisWord Frequency Effects

Size of temporal concept vector

Time series distance function

Temporal weighting function

    ⇒ 後述

    ⇒ あまり変わらない   重要度の高い方から 10 個程度で十分な精度

    ⇒ ピアソンの積率相関係数の方が正確性に優れる

    ⇒ 重み付けを行ったほうが精度が良い重み付けの方法としては 2次関数的なものが最も良