PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations,word embeddings, and style...
-
Upload
kodaira-tomonori -
Category
Science
-
view
311 -
download
0
Transcript of PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations,word embeddings, and style...
PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations,
word embeddings, and style classificationEllie Pavlick, Pushpendre Rastogi, Juri Ganitkevitch,
Benjamin Van Durme, Chris Callison-Burch Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint
Conference on Natural Language Processing
プレゼンテーション:小平
1
概要• PPDB1.0(paraphrase database)にはいくつか問題点があった。 正しい言い換えだと判断できるのか? 本当に意味が同じものなのか、含意関係のものなのか? 同じ意味の言い換えがあった時どっちを選べばいいのか?
• これらの問題を解決し、PPDB2.0をリリース。 回帰分析をし、並べ直す。 含意関係のラベルを自動的に付与 各言い換えにword embedding.
2
Improved ranking of paraphrase:Supervised scoring model
• PPDBから、26,455のパラフレーズペアに対しての人手アノテーションをモデルを学習するために収集 : 人手で一つに対して5人、5段階評価、
• この人手評価に合うように回帰をおこなった。 PPDB1.0で使われた33素性と新しく176素性 追加したのは、WordNetやcosine類似度等
• 各素性の重み付けには、リッジ回帰を用い、交差検定で正則化パラメータの調整をした。
3
5
Improved ranking of paraphrase:Goodness of
the top-ranked paraphrases
MRR(平均逆順位)AP(平均正解率) 人手評価の平均が3以上のものを正解として topKを見た時の正解率
Other AdditionsEntailment relations
• natural logic (MacCartney, 2009)をもちいて、含意関係を自動付与
• ]:前に含意 ~:含意関係はないが関連物[:後ろに含意 #:関係なし ¬:逆の意味
6ranked paraphrases
of berries
Other Additions Style scores
• PPDBから文体情報(complexity and formality)を自動で抽出し、Pavlick and Nenkova(2015)の手法で評価ーこれを複雑な順にソート
7
Conclusion
• PPDB 2.0をリリース(http://paraphrase.org/#/)
• 100m以上の言い換えと、26kの人手評価したフレーズペアを収録
8