日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション...

21
日日日日日日日日日日日日日日 日日日日日日日日日日日日日日 日日日 日日日日 ( 日日日 ) 日日日日日日日日日日日 WS @ NII

description

日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 ). テキストアノテーション WS @ NII. 研究背景. ゼロ照応解析 : 述語の省略された項を検出し,その先行詞を同定するタスク 文単位の命題の specification の部分問題 出力結果の利用先 MT: 省略された項を省略されたまま翻訳するという見方もあるが,性・数を反映した翻訳には必要 RTE を使った真偽判定 : 基本的には文単位で問題を考えるため,命題内の要素は特定化されるべき. - PowerPoint PPT Presentation

Transcript of 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション...

Page 1: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

日本語セロ照応関係に対する特徴分類とそのアノテーション

飯田龍,笹野遼平 ( 東工大 )

テキストアノテーション WS @ NII

Page 2: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

2

研究背景 ゼロ照応解析 : 述語の省略された項を検出し,

その先行詞を同定するタスク

文単位の命題の specification の部分問題 出力結果の利用先

MT: 省略された項を省略されたまま翻訳するという見方もあるが,性・数を反映した翻訳には必要

RTE を使った真偽判定 : 基本的には文単位で問題を考えるため,命題内の要素は特定化されるべき

新進党の小沢一郎幹事長 1 は十五日午前、当地で開かれた「アジア・太平洋指導者円卓会議」で基調報告。( φ1 ガ)昨年の新進党結成の背景や目的などを説明した。

Page 3: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

3

関連研究 : コーパス構築 セロ照応関係 : 述語項構造のアノテーション

のサブセット 直接の係り関係にない述語と項

便宜的にセロ照応関係とみなす

関係の種類 GDA タグ付きコーパス : 動作主,主題などの意

味役割 京都テキストコーパス : 述語の出現形に表層格 NAIST テキストコーパス : 述語の原形に表層格

Page 4: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

4

セロ照応関係アノテーションの特殊性

英語 : 共参照関係 MUC-6, 7: 同格も共参照関係にACE: 限られた名詞句の種類のみアノテーション ( e.g. 人名,組織名,武器名)

日本語 : セロ照応関係 述語との項の関係を網羅的に付ける過程で,必須

項が係り受けにない場合は前方文脈から補完 場合によっては無理矢理先行詞が補完される

解析が困難な事例が多くアノテーションされる 自動解析精度 : 約 40%

Page 5: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

5

なにが問題なのか ?

セロ照応解析の問題デザインにおける制約条件 述語を単位として考えるので,項は網羅的に付け

ざるを得ない 英語のように項に埋まる名詞句の種類を限定すべ

きか ? セロ照応関係の振舞いを調べるには不適切なデータができてしまう

そもそもセロ照応の現象は多様な言語現象が混在しているので,それが混在している問題をすべて同じ枠組みで解くという問題設計自体がおかしいのでは ?

直接的な解決策 : ゼロ照応関係を分類してみる

Page 6: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

6

研究目的

1. セロ照応関係の特徴を意味のある単位で分類

2. 各分類をアノテーションし,どの特徴がどのくらい出現し,またどのくらい問題を複雑にしているのか,などを調査する

Page 7: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

7

目次 はじめに

セロ照応関係の分類(暫定案)

作業計画 どのデータにどのように作業を進めるべきなの

か ?

まとめ

Page 8: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

8

セロ照応関係の特徴分類 暫定的に 6 種類を用意

1. 談話要素の顕現性を考慮した遷移2. A の B の関係を理解3. 選択選好に基づく理解4. 埋め込み構造・引用内に先行詞 ( 照応詞 ) が出現5. 大域的な主題として捕捉6. 常識的な知識に基づいた推論

もちろん,これだけとは限らない アノテーションの過程で再分類

Page 9: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

9

1) 談話要素の顕現性を考慮した遷移

顕現性の強さ(は > が > に > を > その他)と局所性でセロ照応関係を説明 センタリング理論( Grosz ら 1995 )の拡張 「は」以外の主題マーカについても検討する必要

あり e.g. 「〜に関して」新進党の小沢一郎幹事長 1 は十五日午前、当地で開か

れた「アジア・太平洋指導者円卓会議」で基調報告。( φ1 ガ)昨年の新進党結成の背景や目的などを説明した。( φ1 ガ)新進党について、その性格を「生活者に重きを置き、都市に住む人の気持ちをしっかりつかんだ政党だ」と 解説。

Page 10: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

10

2) A の B の関係を理解 「 A の B は(が)」で出現している場合に,

B ではなく A を先行詞とする場合

「ロシア」が「民営化」の動作主 cf. 以降の記述によっては「民営化政策」が先行

詞となる記述も可能 単純には後述の選択選好の知識により解決される

ロシア 1 の民営化政策はチュハイス氏の指導で九二年十月から始まった。( φ1 ガ)民営化証券を使って株式を取得するという第一段階は九四年六月に終了し、現在は現金で株を購入できる第二段階に入っている。

Page 11: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

11

3) 選択選好に基づく理解

「 < 組織 >ガ 結成される」という知識が必要加えて「新進党」が組織である知識も必要となる

現職の党首は脱落し、羽田孜副党首と小沢一郎幹事長による事実上の一騎打ちに――。新進党 1 の党首公選から目が離せなくなってきた。 今回の党首選挙は、( φ1 ガ)昨年十二月十日に結成されて以来、初めての公選である。

都市対抗野球で全国制覇も体験した新日鉄広畑製鉄所OBで、姫路商工会議所産業情報室長の今井一清さんが、県西部の野球史をまとめた「播磨野球物語」 1 を執筆中。7月には( φ1 ガ)出版される。

「 < 本 >ガ 出版される」という知識が必要 「播磨野球物語」が本であることも推定する必要がある

Page 12: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

12

4) 埋め込み構造・引用内に先行詞 ( 照応詞 ) が出現

引用は地の文とは異なる談話のレイヤーに存在 照応詞(セロ代名詞)が引用の中に出現 センタリング理論派生のシーケンシャルに談話を捉える考え方が通用しない

急に想定しない談話要素が言及され,かつ省略される最も苦しい立場に立たされるのは、東京都 1 。監督官庁として

の責任があり、( φ 1ガ)不良債権処理を目的とした債権回収機関に、約二百億円の収益支援を しなけれはならない。 都議会は二月七日に開会予定だが、支援策を盛り込んだ議案に対し、与党の公明党や社会党が厳しく追及する構えだ。都議会公明の大木田守・政調会長は「( φ1 ガ)この二組合だけに支援する必然性がない。支援にはきちんとした基準、ルールが必要だ」と批判して いる。

Page 13: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

13

4) 埋め込み構造・引用内に先行詞 ( 照応詞 ) が出現 (Cont’d)

引用は地の文とは異なる談話のレイヤーに存在 先行詞が引用の中に出現する場合も同様

典型的には引用が問題となるが,連体修飾節の中に出現している場合も同じ傾向にある

中国側によれは、最近訪中したターノフ米国務次官は「最近の出来事によって米国 1 は台湾問題の重要性と敏感さへの理解を深めた。台湾問題についての中国の立場を重視し尊重する」と表明した、とされる。( φ1 ガ)中国が要求しているように「李総統の私的訪米を二度と認めない」と公式には明言てきないが、今後は慎重に対応するという意思表示だ。

Page 14: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

14

5) 大域的な主題として捕捉

「まだ大学生のようにフレッシュ」と言われる童顔と、他人に警戒心を抱かせないような柔らかな語り 口が、この若々しい男の最大の武器だ。 ラルフ・リード氏 1 。( φ1 ガ)共和党保守派最強の集票マシンといわれる「クリスチャン・コアリション」のリーダーとして、昨年の中間選挙を踏み台に反リベラル運動の最前線に躍り出てきた。 タイム誌の年末特集では、( φ1 ガ)将来の米国の指導者五十人の一人に選はれている。 キリスト教の国である米でも、宗教活動に熱心な人々 2 はこれまで政治の世界では異端視されることが多かった。( φ2 ガ)( φ2 ガ)神学的価値観を持ち込むのでは、 と警戒されたためだ。しかし、( φ1 ガ)「日曜日に欠かさず教会に行き、毎日聖書を読んで暮らしている人間が、なぜ二級市民 に甘んじなけれはならないのか」と声を上げる。

Page 15: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

15

6) 常識的な知識に基づいた推論

常識的な知識といってもさまざま causal knowledge から 世界に関するものまで

e.g. 1997 年に香港がイギリスから中国に返還

どういう知識をどのくらい持っていなけれは解けないのか ?

いつそれを適用すれはよいのか ? 知識獲得だけでなく獲得したその知識の運用も問題

香港 1 の輸出入の拠点、ビクトリア港を隔てた九龍半島と香港島の両側でいま、埋め立て工事が急ピッ チで進められている。( φ1 ガ)中国に返還される一九九七年に開港予定の新空港関連の鉄道や道路、商業用地を確保する工事で、これらを含めたプロジェクトの総額は二兆円にのぼる。

Page 16: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

16

6) 常識的な知識に基づいた推論 相撲など,想定される動きに関する知識が共有されている状況を考える

< 受ける > <突っ込む>:この文脈では動作主は同じ人にはならない

他にもたぶんいろんな問題を扱う必要あり収集して再分類する必要がある

いつもは動きすきて墓穴を掘ることの多い琴錦 1 が、 この日は一気の出足だけを心に決めてかかっていた。 逆に迷ったのは若乃花 2 の方だった。... 「( φ2 ガ)考え過きてしまった。( φ2 ガ)相手の足首のことは忘れよう、忘れようと思ったんだけどね」。 それが中途半端な立ち合いにつながった。 いつも相手の機先を制する若乃花 2 なのに、( φ2 ガ)フワッと立って、( φ2 ガ)胸で受けてしまった。 そこへ( φ1 ガ)最高の出足で突っ込み、( φ1 ガ)左右を差す。 あとは( φ1 ガ)右からおっつけるような形で一直線に前へ。

Page 17: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

17

特徴間の依存関係

1. 談話要素の顕現性2. A の B の関係5. 大域的な主題として捕捉6. 常識的な知識に基づいた推論

3. 選択選好4. 埋め込み構造

Page 18: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

18

作業計画 対象 : 現代日本語書き言葉均衡コーパス

( BCCWJ ) 書籍・新聞・白書・ blog など,さまざまな種類の記事

が含まれる 多様なゼロ照応関係のデータを収集 BCCWJ コアデータの述語項構造のアノテーション

は奈良先端大 松本研で作業が進められている ゼロ照応関係がアノテーションされた状態て 作業が開始てきる

2段階の作業1. 小規模のデータに関係を網羅的に付けてもらう

6 種類のいずれにも該当しない場合について再分類2. 大規模なデータ(コアデータ全体)に対し,新たな分

類でアノテーション

Page 19: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

19

アノテーションツール : Slate (Kaplan et al. 2012)

セグメンテーションとセグメント間の関係付けが比較的容易にアノテーション可能

無向の線分:共参照関係

有向の線分 :述語と項の関係

すでにこれらがアノテーションされた状況でセロ照応関係の特徴分類を行う

1. 主題の遷移

Page 20: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

20

アノテーションされた結果の利用例

さまざまな分析 どの特徴がどのくらい出現するのか ? どのくらいそれぞれが簡単に解けそうか ?

問題の切り出しが比較的容易なら,それだけ独立に解く ?

(特に常識的な知識を必要とする問題について)解析のためにどのようなリソースと処理を想定すべきか ?

応用先と各特徴の関連性の調査 どのような関係が解けれは応用処理の精度が向上す

るのか ?

Page 21: 日本語ゼロ照応関係に 対する 特徴 分類とその アノテーション 飯田龍,笹野遼平 ( 東工大 )

21

まとめ セロ照応関係を特徴分類: 6 種類

談話の顕現性に基づく主題の遷移から,常識的な知識に基づく推論まで

特徴のアノテーションの計画 述語項構造がアノテーションされた BCCWJ コア

データにアノテーションすることで作業を効率的に行う

特徴の網羅性が問題になるため,さらに必要な特徴を考慮する