1000社が採用 「見える化エンジン」が挑戦し続ける テキストマイニング … · 【テキストマイニングはビジネスの武器となる】 顧客の声と企業活動との
おとなのテキストマイニング
-
Upload
munenori-sugimura -
Category
Technology
-
view
2.377 -
download
1
description
Transcript of おとなのテキストマイニング
おとなのテキストマイニング
@pinktx_jp
2012.11.23 Gunma.web #11
今回の主役
超有名人
ルイージ
テキストマイニング
テキストマイニングテキストマイニング( text mining)は、テキストを対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。
http://ja.wikipedia.org/wiki/テキストマイニング
自然言語処理自然言語処理(しぜんげんごしょり、英語 : natural language processing、略称: NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。
http://ja.wikipedia.org/wiki/自然言語処理
人間語をコンピュータで扱いやすい形にする事
形態素解析対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。
http://ja.wikipedia.org/wiki/形態素解析
文章を単語単位に分けて、品詞を特定すること
英語の場合Mankind has arrived at Jupiter for the first time today.
英語の場合Mankind has arrived at Jupiter for the first time today.
日本語の場合
今日人類が初めて木星に着いたよ。
英語の場合Mankind has arrived at Jupiter for the first time today.
日本語の場合
今日人類が初めて木星に着いたよ。わかち書きが必要
わかち書き(形態素解析)$ 今日人類が初めて木星に着いたよ
わかち書き(形態素解析)$ 今日人類が初めて木星に着いたよ
今日 名詞 ,副詞可能 , , , , ,* * * * 今日 ,キョウ ,キョー人類 名詞 ,一般 , , , , ,* * * * 人類 ,ジンルイ ,ジンルイが 助詞 ,格助詞 ,一般 , , , ,* * * が ,ガ ,ガ初めて 副詞 ,一般 , , , , ,* * * * 初めて ,ハジメテ ,ハジメテ木星 名詞 ,一般 , , , , ,* * * * 木星 ,モクセイ ,モクセイに 助詞 ,格助詞 ,一般 , , , ,* * * に ,ニ ,ニ着い 動詞 ,自立 , , ,* * 五段・カ行イ音便 ,連用タ接続 ,着く ,ツイ ,ツイ
た 助動詞 , , , ,* * * 特殊・タ ,基本形 ,た ,タ ,タよ 助詞 ,終助詞 , , , , ,* * * * よ ,ヨ ,ヨ
MeCab
MeCab
• オープンソースの形態素解析エンジン• Google 日本語入力開発者の一人である工藤拓氏によって開発
• MacOSや iOS等にも採用されている
http://ja.wikipedia.org/wiki/MeCab
ここから若干おとな向けなお話が含まれます
おとなのテキストマイニングに必要なもの
おとなのテキストマイニングに必要なもの• r18-words.dic
- 18禁ワードに特化した辞書
• pornostar-jp.dic
- 日本の AV女優さんの名前辞書
用途
用途
類似文書の検索
ちょっとだけ物足りない機能
閲覧中のモノと関連した動画の紹介
おさらい
もっと似ているもの
щ( ゚ д ゚щ) プリーズ
…類似文書を検索出来れば
…類似文書を検索出来れば
閲覧中の動画と類似の動画も検索可能!
||
関連動画
デモ
デモ…は危険なので割合させて頂きます(汗
分かりやすい類似検索の例
分かりやすい類似検索の例
• 検索ワード「 JK」– JK
–女子高生–女子校生–女子●生
• 検索ワード「ナース」–ナース–看護婦–看護師–白衣の天使–看護学生
類似文書の検索
• 精度を出すには超高次元での空間インデックスが必要( R-Tressや SR-Tree)
• 高次元にするほど精度が高くなる• 高次元にするほどパフォーマンスが悪化する(次元の呪い)
類似文書の検索
• LSH(Locality Sensitive Hashing) に代表される「近似型」のインデックスを用いることでパフォーマンスの問題を改善する事ができる
Luigi
類似
Luigiとは
• Perlで書かれた類似検索エンジン。• 近似型のインデックスを使っています。
• そこそこ精度がよく高速に動作します。
GitHub: https://github.com/miki/Luigi
実験的なコードなので CPANにはアップされていません
最後に
今回の発表内容を実装したサービスの紹介をさせて頂きます
morolicious
http://morolicio.us/
けしからん動画を快適に見よう!
β版ですが、稼働しているので
息抜きの時にでも使って頂けたら光栄です
ヌキ過、注
意
第八発
ご清聴ありがとうございました
ちなみにサービス名
mojolicious
WikipediaよりWebアプリケーションフレームワーク Catalystの作者であるセバスチャン・リーデルによって書かれたリアルタイムWebアプリケーションフレームワーク。
サービスの対象者
” ”お と な
おとな + mojolicious
おとな + mojolicious
=morolicious
morolicious
http://morolicio.us/
けしからん動画を快適に見よう!
@morolicio_us