SmartVideoRanking: 視聴者の時刻同期コメントに基づく動画ランキングシステム

Post on 16-Apr-2017

47 views 0 download

Transcript of SmartVideoRanking: 視聴者の時刻同期コメントに基づく動画ランキングシステム

佃 洸摂 濱崎 雅弘 後藤 真孝

産業技術総合研究所

SmartVideoRanking:

視聴者の時刻同期コメントに基づく

動画ランキングシステム

動画の視聴者の反応

を利用した動画検索の提案

3動画の視聴者の反応に基づく動画検索

癒されるという反応が大きい

初音ミクに関する動画の検索

キレがいいという反応が大きい

踊りに関する動画の検索

sm2223018

sm13166246

4動画検索の現状

1. 検索クエリを入力

2. 検索結果を並び替え

– 再生数の多い順

– 関連度の高い順

– 投稿日時の新しい順

– に含まれる語タイトルタグ

初音ミク 検索

再生数の多い順

【初音ミク】みくみくにしてあげる♪【してやんよ】

初音ミクがオリジナル曲を歌ってくれたよ「メルト」

『初音ミク』千本桜『オリジナル曲PV』

【オリジナル曲PV】マトリョシカ【初音ミク・GUMI】

5問題点1

動画の内容を考慮した検索が困難

動画のタイトルやタグでは動画の内容が十分に表されない

初音ミクの癒される動画を検索したいな

タグ音楽ミクオリジナル曲虹の貝殻

踊りのキレがある動画を検索したいな

タグ踊ってみたオリジナル振り付け気まぐれプリンス

検索初音ミク癒し

検索踊りキレ

タイトル【初音ミク】虹の貝殻【オリジナル曲】

タイトル【気まぐれプリンス】Heart Beatsを踊ってみた(巡音ルカ)

6問題点2

クエリ非依存の少数の尺度でしか動画を並び替えられない

多様な動画が投稿されているにも関わらず一部の動画のみ視聴され大部分はほとんど視聴されない

初音ミクの癒される動画を検索したいな

再生数の多い順関連度の高い順投稿日時の新しい順

動画の内容を反映した

視聴者の反応を活用

8視聴者の反応の取得

sm1340413

ニコニコ動画 Twitter + テレビ番組

#ametalk

視聴者が動画に投稿した時刻同期コメントを利用動画の再生時刻に同期したコメント

視聴者の反応に基づくニコニコ動画の検索を実現

9対象とする動画カテゴリ|VOCALOIDオリジナル曲+派生動画

オリジナル曲

歌ってみた 踊ってみた 演奏してみた PV・描いてみた MMD

ニコニコ動画には が存在13万以上のオリジナル曲

58万以上の派生動画

sm17483164 sm16309076 sm25558705sm16739331sm18407945

sm15630734

10対象とする動画カテゴリ|派生動画の検索の難しさ

タイトル・タグが類似した動画の増加による問題の深刻化

視聴者の反応を利用することでユーザの検索を支援

歌ってみた

「千本桜」歌ってみた ココル

【浦島坂田船】千本桜【歌ってみた】

『千本桜』を歌わせて頂きました。灯油

【千本桜】を歌ってみたんですよ【蓮】

【ぽこた】千本桜 歌ってみた

『千本桜』を歌ってみた★実谷なな

【歌ってみました】千本桜【杏ノ助】

曲名:千本桜

11問題解決のためのアプローチ

動画の内容を反映したコメントを抽出(問題1の解決)

コメントによる多様な動画の検索を実現(問題2の解決)

癒される かわいいイントロいいなあ

PVかっけえ

デモ

手法

14フローチャート

2. 関連動画取得

3. 関連コメント取得

1. クエリ入力

4. コメント前処理

かわいいかわぃぃいいい!

かわぃいいい!!!

かわい

5. 特徴量計算

6. 有用度推定

15フローチャート

2. 関連動画取得

3. 関連コメント取得

1. クエリ入力

4. コメント前処理

かわいいかわぃぃいいい!

かわぃいいい!!!

かわい

5. 特徴量計算

6. 有用度推定

16関連動画取得

動画データセット

– 提供元 :NII(http://www.nii.ac.jp/dsc/idr/nico/nico.html)

– カテゴリ:VOCALOIDオリジナル曲+派生動画

– 動画数 :11,180件

関連動画

– クエリをタグに持つ動画

歌ってみた踊ってみた演奏してみたPV・描いてみた

MMD

動画DB検索初音ミク …

2,035件

17フローチャート

2. 関連動画取得

3. 関連コメント取得

1. クエリ入力

4. コメント前処理

かわいいかわぃぃいいい!

かわぃいいい!!!

かわい

5. 特徴量計算

6. 有用度推定

18関連コメント取得

コメントデータセット

– 提供元:NII(http://www.nii.ac.jp/dsc/idr/nico/nico.html)

– 対象 :各動画の投稿日時の新しい1,000コメント

– コメント数:11,180動画×1,000コメント=1,118万件

関連コメント

– 3件以上の関連動画に10回以上投稿されたコメント

コメントDB

サビ最高 泣ける

かっけー 笑顔が良い

かわいい GJ

9,565件… …

19フローチャート

2. 関連動画取得

3. 関連コメント取得

1. クエリ入力

4. コメント前処理

かわいいかわぃぃいいい!

かわぃいいい!!!

かわい

5. 特徴量計算

6. 有用度推定

20コメントの前処理|前処理が必要な理由

人は気持ちの強さを表現するために文字を繰り返して記述する傾向がある[Brody 2011]

かわいい

コメント投稿

かわいい

かわぃぃいいい!

かわぃいいい!!!

sm12658454

問題点:各コメントを別々に扱うとコメントの特徴量を求める際にデータが疎になる

21コメントの前処理|コメントの正規化

スペース・記号の除去

小書き文字を大文字に

半角文字を全角文字に

英語の小文字を大文字に

末尾の「w」除去

同一文字の繰り返し除去

かわいい

かわぃぃいいい! かわい

かわぃいいい!!!

正規化フィルタ

代表的な元コメントとの紐付け正規化して「かわい」になるコメントの中でデータセット中で最も出現頻度の高いコメント「かわいい」を代表的な元コメントとする

22フローチャート

2. 関連動画取得

3. 関連コメント取得

1. クエリ入力

4. コメント前処理

かわいいかわぃぃいいい!

かわぃいいい!!!

かわい

5. 特徴量計算

6. 有用度推定

23コメントの特徴

かわい(かわいい)に対して14カテゴリの特徴を使用

1. クエリ関連度 2. クエリ類似度 3. 文字数

4. 出現頻度 5. 元コメントの種類数 6. 形容詞の有無

7. 形容動詞の有無 8. 投稿時刻のエントロピー 9. サビ区間の出現確率

10. 類似コメント種類数 11. 類似コメ+出現頻度 12. 類似コメ+エントロピー

13. 類似コメ+サビ出現確率 14. 文字バイグラム

𝑃 𝑞, 𝑐 ∙ log𝑃 𝑞, 𝑐

𝑃 𝑞 𝑃 𝑐

かわいかわぃいかわいいいい!かわぃいい!!!

かわいい ○

かわいい ✕

かわい かわいすぎるかわゆす

かわええ

かわいい かわ+わい

かわいい 41 −𝐷𝐿 𝑞, 𝑐𝑡

𝐿𝑚𝑎𝑥 𝑞, 𝑐𝑡

12 5 33 9

928

19 11 86 23

2591

𝒕

𝒕

24形容詞・形容動詞の有無

コメント中の の有無は楽曲の印象推定に有用形容詞形容動詞 [Yamamoto 2013]

仮定: を含むコメントの有用度は高い形容詞形容動詞

かわいい

かっけえ

動きがすごい

泣ける

爽やかー

声綺麗

泣ける

さっすがーMeCab MeCab

形容詞 形容動詞

25類似コメント+出現頻度・文字バイグラム

仮定:動画内で類似コメントの出現頻度が高いコメントは有用

仮定:あるクエリにとって有用なコメントは他のクエリでも有用

先頭二文字が一致

正規化編集距離が0.4以下

かわいい 類似コメント

かわいすぎ

かわいいな

かわゆす

出現頻度

86 231119

計: 2,591

かわい バイグラムかわ

わいベクトル

0110⋮0

最高

かわ

わい

歌詞

GJ

18,544次元

類似コメント+出現頻度

文字バイグラム

26フローチャート

2. 関連動画取得

3. 関連コメント取得

1. クエリ入力

4. コメント前処理

かわいいかわぃぃいいい!

かわぃいいい!!!

かわい

5. 特徴量計算

6. 有用度推定

27クエリに対するコメントの有用度推定

SVM

線形回帰

訓練データ

クエリ: 初音ミク

コメント

泣ける

歌詞すごい

なにこれ

聞き入る

推定結果

順位 コメント スコア

1 聞き入る 2.14

2 歌詞すごい 1.98

3 鳥肌やばい 1.81

200 また来た 0.06

……

SVM線形回帰を用いてコメントの有用度を推定

評価実験

28

29Research Question 1

コメントの有用度の推定はどの程度の精度で可能か

コメントの有用度の推定にはどの特徴が有効か

正解データ

順位 コメント スコア

1 歌詞すごい 2.0

2 良い声 1.8

3 聞き入る 1.8

200 なにこれ 0

推定結果

順位 コメント スコア

1 聞き入る 2.14

2 歌詞すごい 1.98

3 鳥肌やばい 1.81

200 また来た 0.06

相関は?誤差は?

30クエリ・評価用コメント

クエリ

– データセット内の出現頻度が高い50個のタグ

評価用コメント

– 各クエリから200件のコメントをサンプリングして使用

– 評価に使用するコメントは全部で50クエリ×200件=1万件

歌ってみた 初音ミク 涙腺崩壊 音楽

踊ってみた 鏡音リン 謎の中毒性 メルト

演奏してみた 巡音ルカ 神調教 VOCAROCK

合唱シリーズ GUMI もっと評価されるべき そらる

31コメントの有用度の正解データ作成

「初音ミク」に関する動画で「かわいい」と言われている動画を検索したいですか?Q0. 検索したくない

1. それなりに検索したい

2. 検索したい

クエリ :初音ミクコメント:かわいい

に対するアンケート

1 2 2 1 2 平均

1.6

5名の評価者の平均値=コメントの有用度の正解値

コメント1万件分のアンケートに回答

32評価方法

Leave-one-out交差検証

逐次特徴選択

SVM

線形回帰

49クエリの訓練データ

クエリ: 初音ミク

コメント

泣ける

歌詞すごい

なにこれ

聞き入る

正解データ

順位 コメント スコア

1 歌詞すごい 2.0

2 良い声 1.8

3 聞き入る 1.8

200 なにこれ 0

スピアマンの順位相関係数ケンドールのタウ平均二乗平方根誤差(RMSE)

… …推定結果

順位 コメント スコア

1 聞き入る 2.14

2 歌詞すごい 1.98

3 鳥肌やばい 1.81

200 また来た 0.06

…– 50クエリのRMSEの平均値が最小になる特徴を順番に選択

ステップ1

特徴 RMSE

A 0.2

B 0.1

C 0.4

ステップ2

特徴 RMSE

B+A 0.13

B+C 0.27

ステップ3

特徴 RMSE

B+A+C 0.19Bを選択 Aを選択

33逐次特徴選択による有用度推定精度の推移

ステップ 選択された素性 スピアマン ケンドール RMSE

1 文字バイグラム 0.7454 0.6003 0.2779

2 文字数 0.7526 0.6075 0.2744

3 形容詞の有無 0.7540 0.6086 0.2737

4 類似コメ+出現頻度 0.7546 0.6092 0.2737

5 形容動詞の有無 0.7547 0.6092 0.2736

6 クエリ類似度 0.7552 0.6094 0.2735

7 類似コメ+エントロピー 0.7555 0.6102 0.2735

14 類似コメント種類数 0.7561 0.6109 0.2735

コメントの有用度推定において文字バイグラムは非常に有効

RMSEが最小になった際のスピアマンの相関係数は0.7552

34クエリごとのスピアマンの相関係数

0

0.2

0.4

0.6

0.8

1

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49

合唱シリーズ踊ってみた

クエリID

大部分のクエリで相関係数0.6以上の精度で有用度推定を達成

「踊ってみた」と「合唱シリーズ」の2クエリでは低い精度

– 特定のユーザに向けたコメントの有用度を高く推定(例:まぁむかわいい)

– 改善案:Web上のユーザ名リストを用いてユーザ名の有無を素性として使用

35Research Question 2

コメントに基づく動画のランキング結果と従来尺度に基づく動画のランキング結果はどの程度異なるか

クエリ: 初音ミク

コメント: かわいい

クエリ: 初音ミク

尺度: 再生数の多い順

重複件数は?

【初音ミク】なでなで【オリジナル】

初音ミクのえれくとりっく・えんじぇぅで手書きアニメ

メルトPV描いてみた【フルver】

【初音ミク】バスルームガーデン【オリジナル曲】

30

【初音ミク】みくみくにしてあげる♪【してやんよ】

初音ミクがオリジナル曲を歌ってくれたよ「メルト」

『初音ミク』千本桜『オリジナル曲PV』

【オリジナル曲PV】マトリョシカ【初音ミク・GUMI】

30

… …

36コメントに基づく動画のランキング

クエリ :初音ミクコメント:かわいい

に対する動画のランキング

「初音ミク」に関する動画を「かわいい」とその類似コメントの投稿数が多い順にランキング

クエリ: 初音ミク

コメント: かわいい

類似コメント

かわいすぎ

かわいいな

かわゆい

検索初音ミクかわいい

【初音ミク】なでなで【オリジナル】

初音ミクのえれくとりっく・えんじぇぅで手書きアニメ

メルトPV描いてみた【フルver】

【初音ミク】バスルームガーデン【オリジナル曲】

30

37評価方法

従来尺度:再生数・マイリスト数・コメント数の多い順

使用コメント:各クエリの有用度上位10コメント

上位5件・10件・20件・30件の重複件数検証

クエリ:初音ミク

コメント: かわいい

クエリ:初音ミク

尺度: 再生数の多い順

【初音ミク】みくみくにしてあげる♪【してやんよ】

初音ミクがオリジナル曲を歌ってくれたよ「メルト」

『初音ミク』千本桜『オリジナル曲PV』

【オリジナル曲PV】マトリョシカ【初音ミク・GUMI】

30

【初音ミク】なでなで【オリジナル】

初音ミクのえれくとりっく・えんじぇぅで手書きアニメ

メルトPV描いてみた【フルver】

【初音ミク】バスルームガーデン【オリジナル曲】

30

38従来のランキング尺度に基づく検索結果との重複度

上位30件を閲覧しても従来のランキングとの重複は3件未満

視聴者の反応に基づいて動画のランキングを生成することで従来は発見しづらかった動画の検索の支援が可能に

ランキング尺度 上位5件 上位10件 上位20件 上位30件

再生数 0.0470 0.330 1.22 2.92

マイリスト数 0.0838 0.335 1.32 2.96

コメント数 0.0327 0.249 1.03 2.49

(重複件数)

SmartVideoRanking

40インタフェース

41インタフェース

「かわいい歌」とその類似コメントの投稿数が多い順に動画をランキング

42インタフェース

「かわいい歌」とその類似コメントの投稿数の推移

グラフをクリックすることで任意のシーンにジャンプ

デモ

44まとめ|本研究の貢献・今後の課題

クエリに特化した有用なコメントの提示

Webサービスとして公開しユーザの検索行動を分析

2SVMの線形回帰によりコメントの有用度を推定人が評価した有用度の正解データとの相関0.755を達成

1視聴者の反応を指標とする動画のランキングを提案「初音ミク」に関する動画を「癒される」度に基づいてランキング

3コメントに基づくランキングの有用性を検証既存のランキング指標では発見が困難であった動画の検索を実現

4動画ランキングシステムSmartVideoRankingを実装各ユーザの好みに応じた動画ランキングの生成を実現

今後の課題