M1GP: A Word at a Time
-
Upload
naoya-nakashima -
Category
Education
-
view
900 -
download
3
Transcript of M1GP: A Word at a Time
2011/5/7 M1 Grand PrixA Word at a Time: Computing Relatedness using Temporal
Semantic Analysis
喜連川研究室 M1 中島 直哉
Presented at WWW2011 Session: Semantic AnalysisPresented by K. Radinsky†, E. Agichteiny†, E. Gabrilovichz‡, S. Markovitch*
†Israel Institute of Technology, Israel‡Emory University, USA*Yahoo! Research, USA
Ou
tline
• Introduction– Background– Goal & Approach– Related Works
• Proposal– ESA– TSA
• Detail 1• Detail 2• Detail 3
• Evaluation– Methodology– Results– Discussion
• Summary– Achievement– Impression
2011/5/7 M1 Grand Prix 2/22
Ou
tline
• Introduction– Background– Goal & Approach– Related Works
• Proposal– ESA– TSA
• Detail 1• Detail 2• Detail 3
• Evaluation– Methodology– Results– Discussion
• Summary– Achievement– Impression
2011/5/7 M1 Grand Prix 3/22
Background
• Semantic Relatedness – 意味関連度– 単語間,テキスト間– 様々な技術のキーとなる• 検索,クラスタリング,曖昧性除去 etc
– 静的なデータの扱いによる解析手法は多々
• Word の時系列パターンにも多くの情報– 今まで関連度解析に利用されてこなかっ
た...2011/5/7 M1 Grand Prix 4/22
For example…
2011/5/7 M1 Grand Prix 5/22
“war” と“ peace” が新聞記事にあらわれる頻度
頻度(article included/ all article)
時間( year )
Background
• Semantic Relatedness – 意味関連度– 単語間,テキスト間– 様々な技術のキーとなる• 検索,クラスタリング,曖昧性除去 etc
– 静的なデータの扱いによる解析手法は多々
• Word の時系列パターンにも多くの情報– 今まで関連度解析に利用されてこなかっ
た...2011/5/7 M1 Grand Prix 6/22
Related Works
2011/5/7M1 Grand Prix 7/22
Word Similarity/Relatedness Exploiting Temporal DynamicsBag of Words
LSA
ESA
Similar Queries Analysis
Evolving Document Collection
Temporal information diffusion
Michael D. Lee et al.”An empirical evaluation of models of text document similarity,”CogSci,2005,
Lev Finkelstein et al.“Placing search in context: The concept revisited,” ACM TOIS, 20(1):116–131
Evgeniy Gabrilovich et al. “Computing semantic relatedness using wikipedia-based explicit semantic analysis,” IJCAI, 2007.
Ravi Kumar et al.”On the bursty evolution of blogspace,”WWW, 2003.
X. Wang et al.”Mining correlated bursty topic patterns from coordinated text streams,” KDD, 2007.
Jinru He et al. “Compact full-text indexing of versioned document collections,” CIKM, 2009.
Goal & Approach
• ESA(Explicit Semantic Analysis)– 既存手法の中で優秀な方法の一つ
• TSA(Temporal Semantic Analysis)– ESA による解析に時間的な側面を付加するこ
とで解析精度の向上を目指す– 意味解析に時間的情報を組み込んだ
初めての事例
2011/5/7 M1 Grand Prix 8/22
Quite New!!
Ou
tline
• Introduction– Background– Goal & Approach– Related Works
• Proposal– ESA– TSA
• Detail 1• Detail 2• Detail 3
• Evaluation– Methodology– Results– Discussion
• Summary– Achievement– Impression
2011/5/7 M1 Grand Prix 9/22
ESA(Explicit Semantic Analysis)
2011/5/7 M1 Grand Prix 10/22
Word 1 Ontology
C11
C12
C1n
・・・
W1
W2
Wn対象となる言葉をオントロジーを用いて概念ベクトル( concept vector )へマッピング
concept vector重要度による重み付け
Word(i) と Word(j) の関連度は両者の概念ベクトル間のコサイン距離に基づき算出
TSA(Temporal Semantic Analysis) ( 1/2 )
2011/5/7 M1 Grand Prix 11/22
Word 1 Ontology
C11
C12
C1n
・・・
対象となる言葉をオントロジーを用いて概念ベクトル( concept vector )に分割
concept vector
History ・
・・
時系列データ
ts11
ts12
ts1n
TSA(Temporal Semantic Analysis) ( 2/2 )
2011/5/7 M1 Grand Prix 12/22
Word1 からのデータ
・・・
ts21
ts22
ts2m
Word2 からのデータ
時系列の似ているコンセプトを多く持つ Word = 関連度の高いWord!!
・・・
ts11
ts12
ts1n
Ex)war
Ex)peace
Detail1: How to get concept vector
2011/5/7 M1 Grand Prix 13/22
Word 1 Ontology
C11
C12
C1n
・・・
concept vector
Detail1: How to get concept vector
2011/5/7 M1 Grand Prix 14/22
Wikipedia
TF-IDF スキーマ
Word
各記事内の Word の出現頻度をベースに関連する概念( C i : Wikipedia 記事)とその重要度 (wi) を算出
重要度が一定レベル以下のものは切り捨てる
C1
C2
Cn
・・・
w1
w2
wn
TF : 単語の出現頻度IDF : 逆文書頻度※
Detail2: How to derive temporal sequence
2011/5/7 M1 Grand Prix 15/22
C11
C12
C1n
・・・
concept vector
History ・
・・
時系列データ
ts11
ts12
ts1n
Detail2: How to derive temporal sequence
2011/5/7 M1 Grand Prix 16/22
ある期間内の文書総数
期間内の”文書 d” の中に”概念 c” が出現した数を各期間で算出
つまり...
この期間の文書集合が D1
D2 D3 ・・・time
文書アーカイブ: H を利用
文書アーカイブ: H
Detail3: Relatedness calculation method
2011/5/7 M1 Grand Prix 17/22
・・・
ts21
ts22
ts2m
・・・
ts11
ts12
ts1n
Detail3: Relatedness calculation method
2011/5/7 M1 Grand Prix 18/22
Word
Set of concepts
Relatedness
概念ベクトルへのマッピング
関連度の算出
Detail3: Relatedness calculation method
2011/5/7 M1 Grand Prix 19/22
Relatedness
つまり...
関数 Q : 概念の 2 つの時系列データの関連度を算出
・・・
時系列 ts11
時系列 ts12
時系列 ts13
時系列 ts1n
・・・
時系列 ts21
時系列 ts22
時系列 ts23
時系列 ts2m
各概念同士の関連度の総和が最大となるマッピングパターンを考える⇒ その時の各関連度の総和が word 間の関連度 R
C11
Word1 Word2C12
C13
C1n
C21
C22
C23
C2m
Q により関連度算出
Ou
tline
• Introduction– Background– Goal & Approach– Related Works
• Proposal– ESA– TSA
• Detail 1• Detail 2• Detail 3
• Evaluation– Methodology– Results– Discussion
• Summary
2011/5/7 M1 Grand Prix 20/22
Evaluation Methodology
2011/5/7 M1 Grand Prix 21/22
Dataset of word pairs
TSA Human ESA etc
各 Word ペアの 関連度をランク付け
Result TSA Result Human Result ESA etc正解デー
タ
Spearman rank correlation coefficient
正解データとのランク付けの相関度
正解データとのランク付けの相関
度
Evaluation Methodology
2011/5/7 M1 Grand Prix 22/22
正解データとのランク付けの相関度
rank1
正解データとのランク付けの相関
度rank2
Number of word pairs
結果の有意性を判定
(p×100)% で有意であることを確認可能
Evaluation Methodology
2011/5/7 M1 Grand Prix 23/22
Dataset for Evaluation
WS-353 benchmark dataset†
・オンラインで取得,利用可能・ 353 個の Word の組み合わせ・全てのペアは 15 人前後の人間によって評価されている
Original Dataset
・オリジナルのアルゴリズムにより作成されたデータセット・ WS-353 が人手によって Word が選ばれているのに対し, こちらは自動的にデータセットを作成するため主観が混ざらない
†Lev Finkelstein et al.“Placing search in context: The concept revisited,” ACM TOIS, 20:116-131, 2002.
Results
2011/5/7 M1 Grand Prix 24/22
TSA vs ESA
Algorithm Correlation with humans
ESA-Wikipedia 0.75
ESA-ODP 0.65
TSA 0.80
WS-353 Dataset
Original DatasetAlgorithm Correlation with humans
ESA-Wikipedia 0.59
TSA-Wikipedia 0.63
有意水準 5% で有意な結果
0.05 up!
0.04 up!
Results
2011/5/7 M1 Grand Prix 25/22
TSA vs Temporal Word Similarity静的な分析(概念ベクトルへの分解)を行わなず,Word 出現頻度の時系列変化の相関のみから関連度をランク付け
Algorithm/Dataset WS-353 Original
Word-Similarity (cross correlation)
0.51 0.56
Word-Similarity (DTW)
0.59 0.58
TSA 0.80 0.63
静的な分析との組み合わせの必要性
Results
2011/5/7 M1 Grand Prix 26/22
Word Frequency Effects
frequency ESA Correlation with humans
TSA Correlation with humans
Low 0.73 0.82
Medium 0.74 0.76
High 0.76 0.79
Table : Grouping word pairs by NYT word frequency
TSA は出現頻度の少ない Word の関連も抽出可能
NYT の記事における単語の出現頻度別に関連度をランク付け
Discussion
2011/5/7 M1 Grand Prix 27/22
TSA の利点・同義語の関連検出
e.g.)coast – shore
・特定のフレーズの Word 間の関連検出e.g.) hundred – percent
TSA の欠点・複雑な間接的関係による誤検出(人間には関連はない様にみえる)
e.g.)drink – car
・科学技術用語などコーパス内にほとんど出現しない Word の関連検出e.g.) physics – proton
ブログや twitter など,新たなコーパスを導入することで解決できる可能性がある
Ou
tline
• Introduction– Background– Goal & Approach– Related Works
• Proposal– ESA– TSA
• Detail 1• Detail 2• Detail 3
• Evaluation– Methodology– Results– Discussion
• Summary– Achievement– Impression
2011/5/7 M1 Grand Prix 28/22
Summary
• TSA(Temporal Semantic Analysis) の提案・実装– 関連度解析に時間的概念を導入
• 既存手法との比較による TSA の有用性の証明– 利害得失に関しても詳しい解析も行った
• 新たなデータセットの構築– 今後の同じフィールドの研究に有益
2011/5/7 M1 Grand Prix 29/22
本研究が初めて!
Impression
• 面白さ– 初めて時間という概念を SA に導入したという新規性– 様々な分野の手法を取り入れて精度の向上をはかっている
• この技術は・・・– 正確性に欠けるが,人間への関連情報の
提示などの用途には利用出来ると考えられる• この分野は・・・
– この研究により,新たに時系列の利用という概念が生まれ,更なる分野の活性化が期待できる
• 課題は・・・– 正確性の向上– 特に TSA が苦手とする部分をいかに補完していくか
2011/5/7 M1 Grand Prix 30/22
Detail2: How to derive temporal sequence
2011/5/7 M1 Grand Prix 33/22
“ 文書 d” 内に”概念 c” が存在するとは?
e.g.) ある単語数を ε対象概念 c = “Great Fire of London” としたとき文書内に次のような部分が存在すること
~ ~ ~ ~ ~ London ~ ~ fire. ~ ~ ~ ~ Great ~ ~ ~ . ~ ~ of ~ ~
Within ε words
Detail3: Relatedness calculation method
2011/5/7 M1 Grand Prix 34/22
What is Function Q ??時系列データの類似度を測定する手法として以下の二つが考えられる
ピアソンの積率相関係数
DTW(Dynamic Time Warping)
時間的なズレを許しながら最も類似度の高まる部分を探索⇒時間的にずれのある 2 つの Word の関連も見つけられる
部分的な伸縮を許しながら最も類似度の高まる部分を探索⇒Cross Correlation よりもさらに自由度が高い
Detail3: Relatedness calculation method
2011/5/7 M1 Grand Prix 35/22
言葉の意味の変遷があることを考えると過去の動向より最近の動向が似ているコンセプトの方が関連度が高い
最近の動向が似ているものには関連度算出時に大きな重み付けを行う
重み付け大 重み付け小
What is Function Q ??
Pair(ai, aj) W’×W’∈
Evaluation Methodology
2011/5/7 M1 Grand Prix 36/22
Dataset Construction Algorithm
New York TimesArchives
Word ExtractionW :Set of all words
[ 前処理 ]・ストップワードと 稀なワードを除く・屈折語尾 /派生接辞を除く
W ‘:collection of words
Get Pair of words最終的に,ペアの相互情報量に基づき
関連する語と関連のない語とが同じ量含まれるように間引きを行う
各ペアの関連度の評価(ランク付け)は
Amazon’s Mechanical Turk に依頼