PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations,word embeddings, and style...

8
PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word embeddings, and style classification Ellie Pavlick, Pushpendre Rastogi, Juri Ganitkevitch, Benjamin Van Durme, Chris Callison-Burch Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing プレゼンテーション:小平 1

Transcript of PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations,word embeddings, and style...

PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations,

word embeddings, and style classificationEllie Pavlick, Pushpendre Rastogi, Juri Ganitkevitch,

Benjamin Van Durme, Chris Callison-Burch Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint

Conference on Natural Language Processing

プレゼンテーション:小平

1

概要• PPDB1.0(paraphrase database)にはいくつか問題点があった。 正しい言い換えだと判断できるのか? 本当に意味が同じものなのか、含意関係のものなのか? 同じ意味の言い換えがあった時どっちを選べばいいのか?

• これらの問題を解決し、PPDB2.0をリリース。 回帰分析をし、並べ直す。 含意関係のラベルを自動的に付与 各言い換えにword embedding.

2

Improved ranking of paraphrase:Supervised scoring model

• PPDBから、26,455のパラフレーズペアに対しての人手アノテーションをモデルを学習するために収集  : 人手で一つに対して5人、5段階評価、

• この人手評価に合うように回帰をおこなった。  PPDB1.0で使われた33素性と新しく176素性  追加したのは、WordNetやcosine類似度等

• 各素性の重み付けには、リッジ回帰を用い、交差検定で正則化パラメータの調整をした。

3

4

Improved ranking of paraphrase:Evaluating the rankings

5

Improved ranking of paraphrase:Goodness of

the top-ranked paraphrases

MRR(平均逆順位)AP(平均正解率) 人手評価の平均が3以上のものを正解として topKを見た時の正解率

Other AdditionsEntailment relations

• natural logic (MacCartney, 2009)をもちいて、含意関係を自動付与

• ]:前に含意    ~:含意関係はないが関連物[:後ろに含意   #:関係なし ¬:逆の意味

6ranked paraphrases

of berries

Other Additions Style scores

• PPDBから文体情報(complexity and formality)を自動で抽出し、Pavlick and Nenkova(2015)の手法で評価ーこれを複雑な順にソート

7

Conclusion

• PPDB 2.0をリリース(http://paraphrase.org/#/)

• 100m以上の言い換えと、26kの人手評価したフレーズペアを収録

8