2012 09-06-poster
-
Upload
asahara-masayuki -
Category
Documents
-
view
321 -
download
5
Transcript of 2012 09-06-poster
『現代日本語書き言葉均衡コーパス』に対する時間情報アノテーション
小西光・浅原正幸・前川喜久雄
国立国語研究所コーパス開発センター
2012/9/6 第2回コーパス日本語学WS 1
概要:コーパス中の時間表現の正規化
今月初めから町内全戸を対象に希望調査を行っており、五月中旬から回収を始める。
[出典: PN2e_00001] 2002年4月11日付北海道新聞朝刊
TimeML 互換 [Pustejovsky 2003a]の時間表現の正規化情報を BCCWJ の一部に付与
(白書 1/4, 書籍 1/4, 雑誌 1/4, 新聞 2/5, Yahoo! 知恵袋 1/2, Yahoo! ブログ 1/2)
アノテーションを https://github.com/masayu-a/BCCWJ-Timebank にて公開中
type=“DATE”value=“2002-04”
mod=“start”
type=“DATE”value=“2002-05-2J”
背景―目的文書中の時間情報解析・時間順序関係推定
テキストからの時系列の情報抽出• 時系列に配信される文書からの事象構造解析
いつ、事象Aが起きたか?
文書作成日時と事象Aの時間的順序関係は?
事象A と事象Bはどういう時間的順序で発生したか?
• テキストで言及されている時間表現は表層だけでは時間軸上の1点を指すことができないものが多い“5月” - 何年かはわからないが、ある年の5月
“来年” - 何年かはわからないが、文書作成日時の翌年
“2時間半後” ― ある事象とある事象の間の時間
“中ごろ”, “末”, “過ぎ”, “以来” ―多様なモダリティ表現
2012/9/6 第2回コーパス日本語学WS 2
時間情報を正規化したアノテーションが求められる
背景―先行研究英語の研究動向
2012/9/6 第2回コーパス日本語学WS 3
英語に関する研究動向
MUC-6 [Grishman+ 1996] 評価型会議 時間情報表現の切り出し
[Setzer 2001] タグ付け基準 時間情報表現の切り出しと正規化
TERN [DARPA TIDES 2004] 評価型会議 時間情報表現の切り出しと正規化
TimeML [Pustejovsky+ 2003b] タグ付け基準 事象間の時間的順序関係
TimeBank [Pustejovsky+ 2003a] コーパス TimeML基準のタグ付きコーパス
Aquaint TimeML Corpus コーパス TimeML基準のタグ付きコーパス
[Boguraev+ 2005] 解析手法 時間情報表現-事象表現間の時間的順序関係解析
[Mani 2006] 解析手法 二事象表現間の時間的順序関係解析
TempEval [Verhagen+ 2007] 評価型会議 時間情報表現-事象表現間、二事象表現間の時間的順序関係解析
ISO-TimeML [ISO-24617-1] 標準化 タグ付け基準の国際標準化
TempEval-2 [Verhagen+ 2010] 評価型会議 時間情報の正規化、時間情報表現-事象表現間、二事象表現間の時間的順序関係解析
TempEval, TempEval-2 などの評価型会議で多数の解析手法が提案されている
英語だけでなく、フランス語、スペイン語、ドイツ語、中国語、
韓国語のデータも提供された
背景―先行研究日本語の研究動向
2012/9/6 第2回コーパス日本語学WS 4
日本語に関する研究動向
IREX [IREX実行委員会 1999] 評価型会議 時間情報表現の切り出し
拡張固有表現体系 [Sekine+ 2002] タグ付け基準 時間情報表現の切り出し
拡張固有表現体系コーパス[橋本+ 2009]
コーパス 時間情報表現の切り出し
時間情報表現の切り出しにとどまっており、
時間情報表現の正規化、時間的順序関係のアノテーションなどが進んでおらず、
他の言語と比べて後れを取っている
アノテーション基準―概要TimeML 互換のアノテーション基準
XMLベースのタグ付け基準<TIMEX3>タグにさまざまな属性を付与する
@tid, @type, @value, @valueFromSurface, @temporalFunction,
@freq, @quant, @mod
2012/9/6 第2回コーパス日本語学WS 5
⟨SENTENCE TYPE="QUASI"⟩⟨TIMEX3 TID="T1" TYPE="DATE" VALUE="2003-10-20" VALUEFROMSURFACE="2003-10-20"⟩二〇〇三年十月二十日⟨/TIMEX3⟩ ⟨TIMEX3 TID="T2" TYPE="DATE" VALUE="2003-W43-1" VALUEFROMSURFACE="XXXX-WXX-1"⟩月 曜 日⟨/TIMEX3⟩⟨/SENTENCE⟩ ⟨BR TYPE="AUTOMATIC_ORIGINAL" /⟩ ⟨SENTENCE TYPE="QUASI"⟩⟨TIMEX3 TID="T3" TYPE="TIME" VALUE="2003-10-20T17:30:XX" VALUEFROMSURFACE="XXXX-XX-XXT17:30:XX"⟩ 午後五時三十分⟨/TIMEX3⟩⟨/SENTENCE⟩ ⟨BR TYPE="AUTOMATIC ORIGINAL" /⟩ ⟨BLOCKEND/⟩ ⟨PARAGRAPH⟩ ⟨SENTENCE⟩ ステイシーはだらけた姿勢でモニターの前に陣取り、白黒の画像に見入っていた。⟨/SENTENCE⟩ ⟨SENTENCE⟩ 彼女は伸びをし、腕時計に目をやった。⟨/SENTENCE⟩⟨SENTENCE⟩⟨TIMEX3 TID="T4" TYPE="DURATION" VALUE="PT2H30M" VALUEFROMSURFACE="PT2H30M"⟩二時間半⟨/TIMEX3⟩ で収穫ゼロ。⟨/SENTENCE⟩
タグ付け例 (PB59_00001)
アノテーション基準@tid, @type
@tid: TIMEX3 の identifier文書作成日時を “t0” とし、文書中に出現する時間情報表現を一意に判別するための ID を機械的に付与する
(例)“t1”, “t2”, …
@type: 時間表現のタイプ (4種類)
2012/9/6 第2回コーパス日本語学WS 6
@type=“DATE” 日付表現 「一九二九年二月」「前日」
@type=“TIME” 時刻表現 「午前十時ごろ」「昼」「九日昼」
@type=“DURATION”
時間表現 「二時間半」
@type=“SET” 頻度集合表現 「毎日」
アノテーション基準@value, @valueFromSurface, (@temporalFunction)
@value: 正規化された時間情報文脈情報を用いて、わかる限りの情報を復元して付与する
@valueFromSurface: 表層形からわかる時間情報文脈情報を用いず、表層文字列から機械的に復元できる情報を付与する
@temporalFunction:
true: @valueFromSurface では特定の時区間を指定できない場合(underspecified)
false: @valueFromSurface で特定の時区間を指定できる場合(fully-specified)
注) @temporalFunctionがtrueでも、文脈が足りないために
@value が特定の時区間を指定できない場合もある
2012/9/6 第2回コーパス日本語学WS 7
2012/9/6 第2回コーパス日本語学WS 8
単位 記号 時刻表現例 @value
時刻 XXXX-XX-XXTXX:XX:XX2006年8月8日午前8時45分
30秒2006-08-08T08:45:30
時刻 (略記) TXX:XX:XX 午前8時45分30秒 T08:45:30
その他 XXXX-XX-XXTXX 未明 * XXXX-XX-XXTDN
朝 XXXX-XX-XXTMO
昼 XXXX-XX-XXTMI
日中 XXXX-XX-XXTDT
午後 XXXX-XX-XXTAF
夕方 XXXX-XX-XXTEV
夜 XXXX-XX-XXTNI
深夜 * XXXX-XX-XXTMN
単位 記号 時間表現例 @value
年 PnY 3年間 P3Y
月 PnM 2ヶ月 P2M
日 PnD 5日 P1D
時間 PTnH 3時間 PT3H
分 PTnM 30分 PT30M
秒 PTnS 9秒80 PT9.80S
週 PnW 1週間 P1W
時間表現例 @value
「今」「現
在」PRESENT_REF
「近年」「以
前」PAST_REF
「今後」「将
来」FUTURE_REF
単位 記号 日付表現例 @value
年月日 XXXX-XX-XX 1980年7月7日 1980-07-07
曜日 XXXX-WXX-X 水曜日 XXXX-WXX-3
季節 XXXX-{SP,SU,FA,WI} 冬 XXXX-WI
四半期 XXXX-QX 第一四半期 XXXX-Q1
年度 FYXXXX 1998年度 FY1998
世紀 XXXX 11世紀 10XX
紀元前 BCXXXX紀元前202
年BC0202
4000年前 KA4
2億年前 MA200
曜日表現例 @value
月曜日 XXXX-WXX-1
火曜日 XXXX-WXX-2
水曜日 XXXX-WXX-3
木曜日 XXXX-WXX-4
金曜日 XXXX-WXX-5
土曜日 XXXX-WXX-6
日曜日 XXXX-WXX-7
週末 XXXX-WXX-WE
日付表現の例 時間表現の例
時刻表現の例 曜日表現の例
不定な時間表現の例* は、日本語向けに独自に設定したも
の
アノテーション基準@freq, @quant ー頻度集合表現
頻度集合表現(@type=“SET”) は @value, @freq, @quant
の組み合わせにより正規化する
@freq: 頻度情報の提示⟨TIMEX3 type="SET" value="P1W" freq="2X"⟩週に2回⟨/TIMEX3⟩
@quant: 集合情報の提示⟨TIMEX3 type="SET" value="P1D" quant="EACH"⟩ 毎日⟨/TIMEX3⟩
⟨TIMEX3 type="SET" value="XXXX-10" quant="EACH"⟩ 毎10月⟨/TIMEX3⟩
⟨TIMEX3 type="SET" value="P10D" quant="EVERY"⟩ 10日おき⟨/TIMEX3⟩
2012/9/6 第2回コーパス日本語学WS 9
アノテーション基準@mod
時間情報表現を修飾するさまざまなモダリティ表現を扱う
2012/9/6 第2回コーパス日本語学WS 10
値 定義 例
@mod=START 日付時刻表現の初期 「初め」「初頭」
@mod=MID 日付時刻表現の中期 「半ば」「中ごろ」
@mod=END 日付時刻表現の後期 「末」「暮れ」
@mod=APPROX 近似表現 「ごろ」
@mod=BEFORE 日付時刻表現より前 「前」
@mod=AFTER 日付時刻表現より後 「過ぎ」
@mod=ON_OR_BEFORE 日付時刻表現以前 「以前」
@mod=ON_OR_AFTER 日付時刻表現以後 「以降」「以来」@mod=EQUAL_OR_LESS 時間表現の範囲以下 「以内」
@mod=EQUAL_OR_MORE 時間表現の範囲以上 「以上」
@mod=LESS_THAN 時間表現の範囲未満 「未満」「近く」
@mod=MORE_THAN 時間表現の範囲超過 「余り」「過ぎ」
タグの分析@type毎の統計
2012/9/6 第2回コーパス日本語学WS 11
BCCWJの一部に対するアノテーション白書 (A), 書籍(A), 新聞(A)(B), Y!知恵袋(A),雑誌(A), Y!ブログ(A)
→ http://goo.gl/rLukS にアノテーション優先順位あり
ジャンル ファイル数 DATE TIME DURATION SET 合計
OW(白書)
17[16]
596(414)
0(0)
191(0)
6(0) 703
PB(書籍)
25[25]
209(51)
28(12)
105(0)
14(0) 356
PN(新聞)
110[110]
1323(999)
193(162)
553(0)
41(0) 2110
OC(知恵袋)
518[250]
341(95)
70(19)
184(0)
37(0) 632
PM(雑誌)
23[23]
333(108)
37(2)
131(0)
28(1) 529
OY(ブログ)
257[198]
632(215)
161(58)
117(1)
22(0) 932
[]内時間情報表現を含むファイルの数()内文脈により曖昧性解消可能な表現数
タグの分析頻度集合表現の統計
2012/9/6 第2回コーパス日本語学WS 12
@freq=nil @freq= n X otherwise
@quant=nil 3 43 2
@quant=EACH 75 2 5
@quant=EVERY 18 0 0
@freq, @quant の2軸での集計
出現回数の多い表現「毎日」 @quant=“EACH”, @freq=nil 75件
「1日3回」「週2度」 @quant=nil, @freq=“nX” 43件
複雑な表現「1ヶ月あたり1時間」 @value=“PT1H”, @freq=“P1M”
@freq に時間が入る
タグの分析@mod の統計
2012/9/6 第2回コーパス日本語学WS 13
@type DATE TIME DURATION SET
@mod=START 27 11 1 0
@mod=MID 5 0 2 0
@mod=END 72 0 5 1
@mod=APPROX 19 35 95 2
@mod=BEFORE 0 5 - 0
@mod=AFTER 0 6 - 0
@mod=ON OR BEFORE 7 0 - 0
@mod=ON OR AFTER 36 21 - 0
@mod=EQUAL OR LESS - - 16 0
@mod=EQUAL OR MORE - - 29 0
@mod=LESS THAN - - 13 0
@mod=MORE THAN - - 5 0
まとめBCCWJに対する時間情報アノテーション
2012/9/6 第2回コーパス日本語学WS 14
ジャンル横断的な日本語時間情報アノテーション– ジャンルにより時間情報表現の分布が異なる
– 多くの時間情報表現が表層情報のみからは正規化できない
– 頻度集合表現の正規化手法
– 多様なモダリティ表現
スタンドオフ形式で配布中https://github.com/masayu-a/BCCWJ-Timebank
今後の予定時間的順序関係のアノテーション
2012/9/6 第2回コーパス日本語学WS 15
eventID/timeID
AFTER
IAFTER
ENDS
DURING/IS_INCLUDED
BEGUN_BY
SIMULTANEOUS/IDENTITY
BEGINS
INCLUDES/DURING_INV
ENDED_BY
IBEFORE
BEFORE
is_included
identity
includes
after
met-by
overlapped-by
finishes
during
started-by
equal
starts
contains
finished-by
overlaps
meets
before
TimeML Allen
relatedToTimeorrelatedToEvent
注:IS_INCLUDED/IDENTITY/INCLUDES は event-subevent 間の関係例) “卵を割る” is_included “オムライスを作る” / “車を買う” identity “車を購入する”
今後の予定テンス・アスペクト情報のアノテーション
2012/9/6 第2回コーパス日本語学WS 16
• 形態論的な情報– 「スル」vs.「シタ」vs.「シテイル」vs.「シテイタ」の対立のアノテーショ
ンでは時間の正規化に寄与しない
– 準アスペクトの扱い「シテアル」「シテオク」「シテクル」「シテイク」「シテシマウ」
• 構文的な情報– 組立形式「シヨウトスル」「シツツアル」「スルトコロダ」vs.「シタトコ
ロダ」「シタコトガアル」– 格(参加者の性格)
• 語彙的な情報– 動詞
• 派生動詞「シハジメル」「シダス」vs.「シツヅケル」vs.「シオワル」「シヤメル」• 派生動詞「シカケル」「シカカル」「シトオス」「シツクス」「シキル」• 範疇性 動作動詞-変化動詞・非限界動詞-限界動詞
– 副詞• 質的「マダ」「モウ」「スデニ」
• 量的「ズット」「シバラク」「イッシュン」「シダイニ」「トツゼン」「イチド」「ナンドモ」「タマニ」「トキドキ」