おとなのテキストマイニング

52
おとなのテキストマイニング @pinktx_jp 2012.11.23 Gunma.web #11

description

ようやく動くものが出来たよ!というお話。

Transcript of おとなのテキストマイニング

Page 1: おとなのテキストマイニング

おとなのテキストマイニング

@pinktx_jp

2012.11.23 Gunma.web #11

Page 2: おとなのテキストマイニング

今回の主役

Page 3: おとなのテキストマイニング

超有名人

Page 4: おとなのテキストマイニング
Page 5: おとなのテキストマイニング
Page 6: おとなのテキストマイニング

ルイージ

Page 7: おとなのテキストマイニング

テキストマイニング

Page 10: おとなのテキストマイニング

人間語をコンピュータで扱いやすい形にする事

Page 11: おとなのテキストマイニング

形態素解析対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。

http://ja.wikipedia.org/wiki/形態素解析

Page 12: おとなのテキストマイニング

文章を単語単位に分けて、品詞を特定すること

Page 13: おとなのテキストマイニング

英語の場合Mankind has arrived at Jupiter for the first time today.

Page 14: おとなのテキストマイニング

英語の場合Mankind has arrived at Jupiter for the first time today.

日本語の場合

今日人類が初めて木星に着いたよ。

Page 15: おとなのテキストマイニング

英語の場合Mankind has arrived at Jupiter for the first time today.

日本語の場合

今日人類が初めて木星に着いたよ。わかち書きが必要

Page 16: おとなのテキストマイニング

わかち書き(形態素解析)$ 今日人類が初めて木星に着いたよ

Page 17: おとなのテキストマイニング

わかち書き(形態素解析)$ 今日人類が初めて木星に着いたよ

今日   名詞 ,副詞可能 , , , , ,* * * * 今日 ,キョウ ,キョー人類   名詞 ,一般 , , , , ,* * * * 人類 ,ジンルイ ,ジンルイが     助詞 ,格助詞 ,一般 , , , ,* * * が ,ガ ,ガ初めて  副詞 ,一般 , , , , ,* * * * 初めて ,ハジメテ ,ハジメテ木星   名詞 ,一般 , , , , ,* * * * 木星 ,モクセイ ,モクセイに     助詞 ,格助詞 ,一般 , , , ,* * * に ,ニ ,ニ着い   動詞 ,自立 , , ,* * 五段・カ行イ音便 ,連用タ接続 ,着く ,ツイ ,ツイ

た     助動詞 , , , ,* * * 特殊・タ ,基本形 ,た ,タ ,タよ     助詞 ,終助詞 , , , , ,* * * * よ ,ヨ ,ヨ

Page 18: おとなのテキストマイニング

MeCab

Page 19: おとなのテキストマイニング

MeCab

• オープンソースの形態素解析エンジン• Google 日本語入力開発者の一人である工藤拓氏によって開発

• MacOSや iOS等にも採用されている

http://ja.wikipedia.org/wiki/MeCab

Page 20: おとなのテキストマイニング
Page 21: おとなのテキストマイニング

ここから若干おとな向けなお話が含まれます

Page 22: おとなのテキストマイニング

おとなのテキストマイニングに必要なもの

Page 23: おとなのテキストマイニング

おとなのテキストマイニングに必要なもの• r18-words.dic

  - 18禁ワードに特化した辞書

• pornostar-jp.dic

  - 日本の AV女優さんの名前辞書

Page 24: おとなのテキストマイニング

用途

Page 25: おとなのテキストマイニング

用途

類似文書の検索

Page 26: おとなのテキストマイニング

ちょっとだけ物足りない機能

閲覧中のモノと関連した動画の紹介

おさらい

Page 27: おとなのテキストマイニング
Page 28: おとなのテキストマイニング

もっと似ているもの

щ( ゚ д ゚щ) プリーズ

Page 29: おとなのテキストマイニング

…類似文書を検索出来れば

Page 30: おとなのテキストマイニング

…類似文書を検索出来れば

閲覧中の動画と類似の動画も検索可能!

||

関連動画

Page 31: おとなのテキストマイニング

デモ

Page 32: おとなのテキストマイニング

デモ…は危険なので割合させて頂きます(汗

Page 33: おとなのテキストマイニング

分かりやすい類似検索の例

Page 34: おとなのテキストマイニング

分かりやすい類似検索の例

• 検索ワード「 JK」– JK

–女子高生–女子校生–女子●生

• 検索ワード「ナース」–ナース–看護婦–看護師–白衣の天使–看護学生

Page 35: おとなのテキストマイニング

類似文書の検索

• 精度を出すには超高次元での空間インデックスが必要( R-Tressや SR-Tree)

• 高次元にするほど精度が高くなる• 高次元にするほどパフォーマンスが悪化する(次元の呪い)

Page 36: おとなのテキストマイニング

類似文書の検索

• LSH(Locality Sensitive Hashing) に代表される「近似型」のインデックスを用いることでパフォーマンスの問題を改善する事ができる

Page 37: おとなのテキストマイニング

Luigi

Page 38: おとなのテキストマイニング

類似

Page 39: おとなのテキストマイニング

Luigiとは

• Perlで書かれた類似検索エンジン。• 近似型のインデックスを使っています。

• そこそこ精度がよく高速に動作します。

GitHub: https://github.com/miki/Luigi

実験的なコードなので CPANにはアップされていません

Page 40: おとなのテキストマイニング

最後に

今回の発表内容を実装したサービスの紹介をさせて頂きます

Page 41: おとなのテキストマイニング

morolicious

http://morolicio.us/

けしからん動画を快適に見よう!

Page 42: おとなのテキストマイニング

β版ですが、稼働しているので

Page 43: おとなのテキストマイニング

息抜きの時にでも使って頂けたら光栄です

Page 44: おとなのテキストマイニング

ヌキ過、注

第八発

Page 45: おとなのテキストマイニング

ご清聴ありがとうございました

Page 46: おとなのテキストマイニング

ちなみにサービス名

Page 47: おとなのテキストマイニング

mojolicious

WikipediaよりWebアプリケーションフレームワーク Catalystの作者であるセバスチャン・リーデルによって書かれたリアルタイムWebアプリケーションフレームワーク。

Page 48: おとなのテキストマイニング

サービスの対象者

” ”お と な

Page 49: おとなのテキストマイニング

おとな + mojolicious

Page 50: おとなのテキストマイニング

おとな + mojolicious

=morolicious

Page 51: おとなのテキストマイニング

morolicious

http://morolicio.us/

けしからん動画を快適に見よう!

@morolicio_us

Page 52: おとなのテキストマイニング