教師ありクラスタリング - Kamishima絶対/相対クラスタリング 3! ( X ) クラスタリング関数 は,対象集合 X をクラスタリングして分割を出力
アノテーションされた結果の人手分析 −...
-
Upload
marietta-anglim -
Category
Documents
-
view
32 -
download
1
description
Transcript of アノテーションされた結果の人手分析 −...
アノテーションされた結果の人手分析−ポストアノテーションと事例クラスタリ
ング−
飯田 龍 ( 東京工業大学 )
2014 年 03 月 21 日 @ 北大
2
研究背景 : アノテーションと機械学習に基づく研究
形態素・構文解析のような基盤処理から,情報抽出や機械翻訳などの応用処理まで CoNLL , TREC, NTCIR ,個別に作成されたコー
パスとその共有 よくある論文の内容
既存研究のこの点を改善するには,○○のような手がかりを導入すればよいと考えられ,この仮説に基づいて定量的に良くなるのかをアノテーションされたコーパスを使って調べてみよう
実験結果を得て,タスクに応じた評価尺度で評価 適当に誤り事例を調査 : なんとなくこんな理由で間
違っているんじゃないかと考察 おしまい
3
今回の問題提起 : 誤り分析の在り方
アノテーションなど,問題の準備における研究は進んでいるのに,問題を解いた後の手順についてはそれほど整理・共有できていない ある問題についてどういう誤り分析をやるべきか ?
誤りの観点をどう決め,どのように分類するのか ? どのくらい調査する ?
なぜ誤り分析を重要視するのか 解いた人しかどの事例を間違ったのかを把握できない
場合がほとんど (手法の再実装が必要となる) 誤り分析の結果から次に何をやるべきかが見える場合
がある
4
今回の問題提起 : 誤り分析の在り方
アノテーションなど,問題の準備における研究は進んでいるのに,問題を解いた後の手順についてはそれほど整理・共有できていない ある問題についてどういう誤り分析をやるべきか ?
誤りの観点をどう決め,どのように分類するのか ? どのくらい調査する ?
なぜ誤り分析を重要視するのか 解いた人しかどの事例を間違ったのかを把握できない
場合がほとんど (手法の再実装が必要となる) 誤り分析の結果から次に何をやるべきかが見える場合
がある
どういう観点・分類が良いかは急にはわからないが,
研究者が調べた結果を共有して,それを調べたらいい
自動的にアノテーションして結果を公開しよう
5
「ポストアノテーション」という考え方
ポストアノテーション 評価実験の結果に対するアノテーション
プレアノテーション 問題作成の準備として行う通常のアノテーション
6
ポストアノテーションの例 : その 1 例 ) 形態素解析
e.g. 川崎 / が / センター / を / 守る
例 ) 係り受け解析
e.g. 私の / 母の / 指輪を / 姉が / ゆずりうけた。
正解 : 名詞 - 固有名詞 - 人名 - 姓出力 : 名詞 - 固有名詞 - 組織 差分と誤りの分類をアノテーション
分類 : 固有名の曖昧性
差分と誤りの分類をアノテーション分類 : A の B の C の係り受け
7
ポストアノテーションの例 : その 2 ゼロ照応解析 ( 飯田ら 2012)
暫定的に 6 種類に分類 分類 : 談話の顕現性に基づいて解析可能
分類:選択選好の知識が必要現職の党首は脱落し、羽田孜副党首と小沢一郎幹事長による事実上の一騎打ちに――。新進党 1 の党首公選から目が離せなくなってきた。 今回の党首選挙は、( φ1カ)昨年十二月十日に結成されて以来、初めての公選である。
新進党の小沢一郎幹事長 1は十五日午前、当地で開かれた「アジア・太平洋指導者円卓会議」で基調報告。( φ1カ)昨年の新進党結成の背景や目的などを説明した。
8
ポストアノテーションの例 : その 2 ゼロ照応解析 ( 飯田ら 2012) (Cont’d)
分類 : 常識的な知識の利用香港 1 の輸出入の拠点、ビクトリア港を隔てた九龍半島と香港島の両側でいま、埋め立て工事が急ピッ チで進められている。( φ1カ)中国に返還される一九九七年に開港予定の新空港関連の鉄道や道路、商業用地を確保する工事で、これらを含めたプロジェクトの総額は二兆円にのぼる。いつもは動きすきて墓穴を掘ることの多い琴錦 1 が、 この日は一気の出足たけを心に決めてかかっていた。 逆に迷ったのは若乃花 2 の方たった。... 「( φ2カ)考え過きてしまった。( φ2カ)相手の足首のことは忘れよう、忘れようと思ったんたけどね」。 それが中途半端な立ち合いにつながった。 いつも相手の機先を制する若乃花 2 なのに、( φ2カ)フワッと立って、( φ2カ)胸で受けてしまった。 そこへ( φ1カ)最高の出足で突っ込み、( φ1カ)左右を差す。 あとは( φ1カ)右からおっつけるような形で一直線に前へ。
知識 : 1997 年に香港がイギリスから中国に返還
知識 : 相撲の場面におけるやり取り
9
ポストアノテーションの効果 分析者によってポストアノテーションするラベルの粒度や内容は異なる 複数の異なるラベル間の共通性はあるはず それらを統合・修正してアノテーションされた結果を見
てみると,どのような問題を考えるべきかが見えてくる 異なったとしても,それらを公開されているコーパ
スにアノテーションし,研究者間で共有することは重要 他者が付けたラベルやその事例集合を見ることで,分
析の方法を学ぶことができる 言語学者の NLP 分野への貢献もこの部分で特に起こる
はず
10
事例クラスタリング ポストアノテーションは問題を解いた後の分
析たが,問題を解く前でも事例の人手分析は可能
素性設計後,もしくはその素性に基づいて学習した結果(素性の重み)に基づいてクラスタリング
クラスタに含まれるアノテーション済みのラベルの純度(同じラベルが含まれる割合)を調査することで,素性設計の妥当性を調査
11
クラスタリングに基づく分析のイメージ
2値分類の問題を想定 e.g. 先行詞候補がゼロ代名詞の
先行詞となる (○) / ならない (x) N 次元の素性空間で
クラスタリング(右図は便宜上 2 次元空間 )
C1 に含まれる × の事例はどのようなものかを調査 素性集合の定義を更新
○
○
○○
○○
○ ○○
○○○
○ ××
×××
×
××××××
×
××
C1
C2
12
懸念事項 : 評価データを調査することについて
Q: オープンテスト(未知のデータに対する評価)で はなくなるのでは ?
A: 誤りを見ずに結論を出すよりは良い. CoNLL など同じ問題に対して継続的にデータ 作成を行う文化があるのなら,誤り分析を明示 的に行い,うまく解けない問題について特に データを収集・アノテーションを行えば良い.
13
まとめ 課題 : 自動解析前 / 後の人手による事例分析
結果の共有 ポストアノテーション 事例クラスタリング
今後の課題 考え方がもし共有されるのなら,どのようなフォーマットでポストアノテーションを行っていくべきかを決める必要あり