TermLink:言語横断論文推薦のための専門用語処理

16
TermLink: 言語横断論文推薦のための専門用語処理 t-linkage 相澤彰子(国立情報学研究所) 相良毅((株)情報試作室)

Transcript of TermLink:言語横断論文推薦のための専門用語処理

Page 1: TermLink:言語横断論文推薦のための専門用語処理

TermLink:

言語横断論文推薦のための専門用語処理

t-linkage

相澤彰子(国立情報学研究所)相良毅((株)情報試作室)

Page 2: TermLink:言語横断論文推薦のための専門用語処理

アドベンチャー杯にかける意気込み

• 我々は、言語を横断して関連論文を推薦するための専門用語データベースの構築と、それに基づく用語翻訳・用語リンキング機能の実現・評価に取組んでいる。

• アドベンチャー杯への参加を通して、どのような言語リソースが性能改善に有効であるかを明らかにしたい。

2

Page 3: TermLink:言語横断論文推薦のための専門用語処理

TermLink (用語リンキング): 処理の流れ

3

用語リンキング

English

abstract日本語論文

English

abstract英語論文

推薦対象論文

日本語専門用語

英語専門用語

用語翻訳

英語専門用語

用語抽出 用語抽出

関連論文・記事を捜したい

情報推薦

〇用語抽出文章から専門用語を抽出する

〇用語翻訳専門用語を別の言語(英語)に翻訳する

〇用語リンキング翻訳した専門用語を推薦対象文書中の用語に結びつける

ポイント:機械翻訳の結果が正しくても、推薦対象文書の中に出現しなければ意味がない。⇒情報推薦という目的からは何をするのが効果的か?

Page 4: TermLink:言語横断論文推薦のための専門用語処理

TermLink (用語リンキング): 言語リソース

4

専門用語のモデル構築用の単言語用語コーパス

専門用語対訳辞書

和英著者キーワード

推薦対象文書テキスト

評価用データセット

用語のリンキング機能

近年,テキスト音声合成において隠れマルコフモデルに基づく音声合成 (HMM 音声合成) 手法の研究が広く行われている.

用語ID

英語

用例

典拠論文URL

表記揺れ

Wikipediaリンク

典拠辞書

国立情報学研究所で開発中のtermlink 辞書サーバ

利用する言語リソース

←JSTアドベンチャー杯

用語抽出、用語翻訳、用語リンキングの各機能を備えた辞書サーバ←JSTアドベ

ンチャー杯

Page 5: TermLink:言語横断論文推薦のための専門用語処理

処理モジュール(1-1) 用語抽出

• 用語候補の抽出

– 与えられたテキストに形態素解析/係り受け解析を適用して、品詞パターンから名詞句を抽出するナイーブな手法を適用

– (用語スパンがオーバラップするため、頑強性を重視)

– (今後の意味解析のため、係り先の情報とコーパス中での出現位置も保存)

5

日本語 形態素 解析用語のオーバーラップ

Page 6: TermLink:言語横断論文推薦のための専門用語処理

処理モジュール(1-2) 用語モデルの構築

• 用語翻訳・リンキングで利用

• 多くの専門用語は複数の単語(形態素)から構成される。

• NIIのデータベースに登録された著者キーワード(日本語または英語の単一言語)を統計分析

• 統計に基づき構成語間の接続コストを定め、専門用語の語構成を推定

• たとえば、「日本語形態素解析」が「日本語+形態素解析」なのか、「日本語形態素+解析」なのかを決める。あるいは「間化合物」が用語の先頭に来る可能性は低いことを判断する。

6日本語 形態素 解析 日本語 形態素 解析

Page 7: TermLink:言語横断論文推薦のための専門用語処理

処理モジュール(2) 用語翻訳

• 用いた言語リソース– JST和英対訳77万件を含む複数の専門用語和英対訳辞書、およびNII-ELSに登録された和英著者キーワードから対訳ペアを抽出

• 辞書のクリーニング– 辞書固有の表記や不要なエントリを人手で作成したルールにより削除

– 訳語が同じで綴りが類似するペアから正規化ルールを自動抽出して利用

– 和⇒英、英⇒和への翻訳ループを利用した確からしさスコア付与

• 機械翻訳の適用– クリーニング済の対訳用語を機械翻訳用の学習データとして、標準的な機械翻訳ツールであるMOSES(Giza++)を適用

– カタカナ語を英訳するための翻字モデルも作成

7

Page 8: TermLink:言語横断論文推薦のための専門用語処理

処理モジュール(3) 用語リンキング

• 得られた翻訳候補に基づき、辞書データベースの中から対応する項目を捜して対応づける。

• 得られた用語の語構成を推定して、その中に含まれる用語候補を抽出

• 複数の辞書データベースの項目がマッチする場合、トピック分析に基づくあいまい性解消を適用*

• たとえば新聞記事や論文の技術用語を Wikipedia の記事に自動的に対応付ける

8

近年,テキスト音声合成において隠れマルコフモデルに基づく音声合成手法の研究が広く行われている....

http://en.wikipedia.org/wiki/Hidden_Markov_model

*相良毅, 古川竜也, 相澤彰子: LDAを用いた学術用語の対訳選択手法, 情報知識学会第22回年次大会 (2014)

Page 9: TermLink:言語横断論文推薦のための専門用語処理

評価用データセットの構築

• 専門用語翻訳(日英)正解データの作成– Niiの電子図書館サービスに登録された和英抄録約70万件に対して、JSTの機械翻訳用資源であるASPECコーパスと同じ文対応づけアラインメント手法*を適用

– 和英の文数が同じで、対応づけのスコア平均が上位の抄録を選ぶ

– 専門用語を専門的、かつ「翻訳によって変化しない名詞句」と定義

– 和英対応づけされた抄録から、「和専門用語」「英専門用語」「翻訳関係」を人手で抽出する(画面例右)

– スペルミスは修正する

– 評価用に41抄録から524ペアの対訳を得る

9アノテーションツールbratによる正解データ作成* Masao Utiyama and Hitoshi Isahara. (2007)

A Japanese-English Patent Parallel Corpus. MT summit XI.

http://ci.nii.ac.jp/naid/110002664819

Page 10: TermLink:言語横断論文推薦のための専門用語処理

分析結果

• 分析のポイント

–用語翻訳の難しさ

–用語リンキングの難しさ

–用語抽出の難しさ

–対象文書中のノイズ

10

どのような影響があるか?

よいシステムの実現に向けて何をするべきか?

Page 11: TermLink:言語横断論文推薦のための専門用語処理

評価結果の見方

11

和用語

評価用データセット

英用語 524ペア(正解)

英用語候補1英用語候補2

....英用語候補100

翻訳候補語のランキング

翻訳性能(①/②/③)①…もっともスコアが高い翻訳候補語が正解②…翻訳語候補上位100件までに正解が含まれる③…総数=524

リンキング性能(①/②/③)①…もっともスコアが高い翻訳候補語がコーパス中に10回以上出現②…翻訳語候補上位100件までにコーパス中に10回以上出現するものが含まれる③…総数=524

ランダム位相近似 random phase approximation

random phase approximation

random phase approximation of

rpa

randomized phase approximation

randomized phase analysis

....

※今回の評価では、用語リンキングは推薦対象論文から抽出した用語との単純マッチングに基づく

Page 12: TermLink:言語横断論文推薦のための専門用語処理

評価結果

• 単純に辞書を参照して訳語を捜した場合– 翻訳性能 (141 / 223 / 524)

– リンキング性能 (124 / 203 / 524)

• 機械翻訳を適用した場合– 翻訳性能 (320 / 433/ 524)

– リンキング性能 (238 / 310 / 524)

• 実際にテキストから用語を自動抽出した場合– 翻訳性能 (192 / 248 / 524)

– リンキング性能 (63 / 89/ 524)

• テキストのノイズの影響– 翻訳性能 (304 / 415 / 525)

– リンキング性能 (229 / 300 / 525) 12

用語抽出では用語の約7割しかとれていない。(加えて今回の評価には含まれていないが、一般語が相当数混じってしまう。)

用語抽出まで含めると、リンキング成功の割合は20%程度

抄録レベルでも数%はスペル誤りなどのノイズ(PDFから抽出したテキストでは、ノイズは格段に増えると予想される。)

辞書引きと比較して、翻訳はかなり効果がある。(141→320, 223→433)

一方で翻訳が正しくても情報推薦に役立たないケースも相当数ある。(320→238, 433→310)

トップで61%

上位N件で83%

高々12-20%

Page 13: TermLink:言語横断論文推薦のための専門用語処理

TermLinkの改善に向けて

• 実際のテキストから処理を行った場合、リンキング成功率は20%くらい

• 用語抽出で20%、翻訳で20%、リンキングで20%程度と、それぞれ同程度の情報が失われている

13

個別の改善用語抽出の工夫:品詞パターンの詳細化、専門用語と一般語の区別翻訳手法の工夫:翻訳候補の中から分野等に基づき適切なものを選ぶ、語順、翻字リンキング手法の工夫:得られた用語を、正規化・曖昧性解消・関連語検索などにより、もっとも近い既知語に対応づける評価法の改善:人手による翻訳結果・リンキング結果の検証

コーパス・辞書の整備が重要

用語はスパンを広めにとって語構成を解析

翻訳候補はなるべく多様なものをあげる

リンキングでは表記揺れや同義表現に対応

Page 14: TermLink:言語横断論文推薦のための専門用語処理

感染 http://en.wikipedia.org/wiki/Infection

ステロイド http://en.wikipedia.org/wiki/Steroid

免疫抑制 http://en.wikipedia.org/wiki/Immunosuppression

化学療法 http://en.wikipedia.org/wiki/Chemotherapy

B型肝炎ウイルス http://en.wikipedia.org/wiki/Hepatitis_B_virus

用語抽出・翻訳・リンキング例 (参考)

14

データサイエンスアドベンチャー杯向け「日経BP書誌データ」より『免疫抑制剤でB型肝炎再燃』(2012年12月1日,日経メディカル,guid:2,385,509)

生物学的製剤やステロイドなどによる免疫抑制・化学療法を契機に、B型肝炎ウイルス(HBV)が再活性化したとの報告が増えている。再活性化は既感染者でも起こり、劇症化して死亡するケースもあり要注意だ。…

用語抽出(用語らしさ推定)

翻訳・Wikipediaリンキング(曖昧性解消)

生物学的製剤やステロイドなどによる免疫抑制・化学療法を契機に、B型肝炎ウイルス(HBV)が再活性化したとの報告が増えている。再活性化は既感染者でも起こり、劇症化して死亡するケースもあり要注意だ。…

Page 15: TermLink:言語横断論文推薦のための専門用語処理

論文推薦例 (参考)

15

データサイエンスアドベンチャー杯向け「日経BP書誌データ」より『音声翻訳アプリ 戸田 覚』(2012年12月24日,日経ビジネス,guid:2,393,710)

年末年始に海外旅行を考えているなら、ぜひ手に入れて活用したいのが、「Google翻訳」だ。言葉を翻訳するアプリなのだが、テキストだけでなく、音声入力にも対応する。日本語で話しかければ、スピーカーから英語が流れてくる。アプリを起動して…

用語抽出・翻訳・重みづけ

日本語 対訳 重み

テキスト text 2.18

言葉 word 2.05

英語 English 1.76

翻訳 translation 1.68

音声認識speech understanding

0.92

認識 recognition 0.57

スピーカー speaker 0.45

: : :

論文推薦

関連性の高い論文(ACL Anthologyより)

1. An Automatic Reviser: The TransCheck System

2. TransType: a Computer--Aided translation Typing System

3. Yandex School of Data Analysis machine translation systems for WMT13

4. CTM: An Example-Based Translation Aid System

5. The Effect of Machine Translation on the Performance of Arabic-EnglishQA System

Page 16: TermLink:言語横断論文推薦のための専門用語処理

まとめ:言語リソースに関する考察

• JSTアドベンチャーで提供された辞書の貢献度合い

• JSTの辞書によって見出し語の数が1.25倍になったが、今回の用語翻訳/用語リンキングに関しては、性能への影響はほとんどみられなかった。

• 評価を通して、以下のリソースが有用であることがわかった

• 和英抄録

• 著者キーワード

• 推薦対象となる論文のテキスト

• →今回提供されたデータについて、和英抄録や著者キーワードが利用できなかったが、可能であれば是非試してみたい。

16