Humor Recognition and Humor Anchor Extraction

Post on 06-Jan-2017

5.793 views 4 download

Transcript of Humor Recognition and Humor Anchor Extraction

Humor Recognition and Humor Anchor Extraction

@yag_ays

本スライドの図表は論文より引用: http://www.cs.cmu.edu/~hovy/papers/15EMNLP-humor.pdf

紹介論文の概要

• Humor Recognition • 文の中にユーモアが含まれているかの二値分類

• Humor Anchor Extraction • ユーモアを表現している単語の抽出

Humor Recognition and Humor Anchor ExtractionDiyi Yang et al., EMNLP2015

Did you hear about the guy who got hit in the head with a can of soda? He was lucky it was soft drink.

Judge Thomas P. Griesa of Federal District Court in Manhattan stopped short of issuing sanction.

Did you hear about the guy who got hit in the head with a can of soda? He was lucky it was soft drink.

Judge Thomas P. Griesa of Federal District Court in Manhattan stopped short of issuing sanction.

Humor

not Humor

Did you hear about the guy who got hit in the head with a can of soda? He was lucky it was soft drink.

Judge Thomas P. Griesa of Federal District Court in Manhattan stopped short of issuing sanction.

Humor

not Humor

背景• ユーモアとは???

• ユーモアの統一的な定義は難しい• 言葉遊び、皮肉なども含まれる

• ユーモアを理解するにはコンテキストを含め多くの知識が必要• The one who invented the door knocker got a No Bell prize.

• Veni, Vidi, Visa: I came, I saw, I did a little shopping

• My wife tells me I’m a skeptic, but I don’t believe a word she says.

???What's the difference between a nicely dressed man on a

tricycle and a poorly dressed man on a bicycle? A tire.

HAHAHA!!!What's the difference between a nicely dressed man on a

tricycle and a poorly dressed man on a bicycle? A tire.

http://imgur.com/r/AdviceAnimals/o9zhzIXhttp://creatememe.chucklesnetwork.com/memes/113329/what-is-the-difference-between-a-nicely-dressed-man-on-a-tricycl/

ユーモアの二値分類

データセット• 正例

• Pun of the day • 16000 one-liner

• 負例 • ニュース記事やYahoo! Answers、ことわざ • ドメインを統一させるためにフィルタリング

• すべての単語が正例にも含まれているもの • 文の長さが10-30単語程度

素性• Incongruity:文中に反対の意味の単語や矛盾がある

• word2vecを用いた単語間のベクトル表現の距離

• Ambiguity Theory:複数の単語で意味が掛かっている

• WordNetを用いた単語の意味の多さ、意味の近さ

• Interpersonal Effect:ユーモアを言う相手に向けたもの

• 単語極性を用いた頻度、主観度合いを算出

• Phonetic Style:音韻やリズム

• CMU Pronouncing Dictionaryを用いた同一頭韻数など

実験• 素性

• HCF:今回提案した素性4種類

• Bag of Words:単純なBoW

• Language model:単語ごとにhumorの割合を算出

• Word2vec:各単語の意味ベクトル

• SaC Ensemble:既存研究*の素性+BoW

• 分類器

• ランダムフォレスト + 10-fold CV*Mihalcea and Strapparava , Making computers laugh: Investigations in automatic humor recognition.

結果

• Word2vec+HCFの組み合わせが最も良い

• Word2vecと各種素性の組み合わせで、ユーモアの構造と各単語の意味の両方をカバーできている(?)

ユーモア表現の抽出

ユーモア表現の抽出

• 品詞単位で抜き出して候補とする

• ある候補セットを取り除いて二値分類にかけたときに元文とのスコアの差が大きいものを選択する

実験• データセット

• 2種類のデータセットでそれぞれ200個をサンプリングして3人のアノテーターによりラベル付け

• ベースライン

• Random:ランダムに単語を抜き出し

• POS:特定の品詞を抜き出したのちサンプリング

• 評価手法

• 完全一致か部分一致 (EX / ALO)

評価手法に依らず提案手法が最も良い結果

データ セット2

データ セット1

MDE: 提案手法 POS: 品詞ベースで選択 Random: ランダム

EX: 完全一致 ALO: 部分一致

まとめ• ユーモアの二値分類

• ユーモアを4つに分類しそれぞれ素性を作成

• 文の中での各単語の意味の類似度や極性、音韻といった情報

• word2vec + 提案した素性が最も良い結果

• ユーモア表現の抽出

• 候補となる単語を取り除いてユーモアと判定されなくなるものを選択