小学二年生1 声に 出して 読もう おくりがな 3 おくりがな 2 おくりがな 1 おなじ ところの ある かん字 2 おなじ ところの ある かん字
おとなのテキストマイニング
-
Upload
munenori-sugimura -
Category
Technology
-
view
2.377 -
download
1
description
Transcript of おとなのテキストマイニング
![Page 1: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/1.jpg)
おとなのテキストマイニング
@pinktx_jp
2012.11.23 Gunma.web #11
![Page 2: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/2.jpg)
今回の主役
![Page 3: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/3.jpg)
超有名人
![Page 4: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/4.jpg)
![Page 5: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/5.jpg)
![Page 6: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/6.jpg)
ルイージ
![Page 7: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/7.jpg)
テキストマイニング
![Page 8: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/8.jpg)
テキストマイニングテキストマイニング( text mining)は、テキストを対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。
http://ja.wikipedia.org/wiki/テキストマイニング
![Page 9: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/9.jpg)
自然言語処理自然言語処理(しぜんげんごしょり、英語 : natural language processing、略称: NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。
http://ja.wikipedia.org/wiki/自然言語処理
![Page 10: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/10.jpg)
人間語をコンピュータで扱いやすい形にする事
![Page 11: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/11.jpg)
形態素解析対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。
http://ja.wikipedia.org/wiki/形態素解析
![Page 12: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/12.jpg)
文章を単語単位に分けて、品詞を特定すること
![Page 13: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/13.jpg)
英語の場合Mankind has arrived at Jupiter for the first time today.
![Page 14: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/14.jpg)
英語の場合Mankind has arrived at Jupiter for the first time today.
日本語の場合
今日人類が初めて木星に着いたよ。
![Page 15: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/15.jpg)
英語の場合Mankind has arrived at Jupiter for the first time today.
日本語の場合
今日人類が初めて木星に着いたよ。わかち書きが必要
![Page 16: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/16.jpg)
わかち書き(形態素解析)$ 今日人類が初めて木星に着いたよ
![Page 17: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/17.jpg)
わかち書き(形態素解析)$ 今日人類が初めて木星に着いたよ
今日 名詞 ,副詞可能 , , , , ,* * * * 今日 ,キョウ ,キョー人類 名詞 ,一般 , , , , ,* * * * 人類 ,ジンルイ ,ジンルイが 助詞 ,格助詞 ,一般 , , , ,* * * が ,ガ ,ガ初めて 副詞 ,一般 , , , , ,* * * * 初めて ,ハジメテ ,ハジメテ木星 名詞 ,一般 , , , , ,* * * * 木星 ,モクセイ ,モクセイに 助詞 ,格助詞 ,一般 , , , ,* * * に ,ニ ,ニ着い 動詞 ,自立 , , ,* * 五段・カ行イ音便 ,連用タ接続 ,着く ,ツイ ,ツイ
た 助動詞 , , , ,* * * 特殊・タ ,基本形 ,た ,タ ,タよ 助詞 ,終助詞 , , , , ,* * * * よ ,ヨ ,ヨ
![Page 18: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/18.jpg)
MeCab
![Page 19: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/19.jpg)
MeCab
• オープンソースの形態素解析エンジン• Google 日本語入力開発者の一人である工藤拓氏によって開発
• MacOSや iOS等にも採用されている
http://ja.wikipedia.org/wiki/MeCab
![Page 20: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/20.jpg)
![Page 21: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/21.jpg)
ここから若干おとな向けなお話が含まれます
![Page 22: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/22.jpg)
おとなのテキストマイニングに必要なもの
![Page 23: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/23.jpg)
おとなのテキストマイニングに必要なもの• r18-words.dic
- 18禁ワードに特化した辞書
• pornostar-jp.dic
- 日本の AV女優さんの名前辞書
![Page 24: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/24.jpg)
用途
![Page 25: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/25.jpg)
用途
類似文書の検索
![Page 26: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/26.jpg)
ちょっとだけ物足りない機能
閲覧中のモノと関連した動画の紹介
おさらい
![Page 27: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/27.jpg)
![Page 28: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/28.jpg)
もっと似ているもの
щ( ゚ д ゚щ) プリーズ
![Page 29: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/29.jpg)
…類似文書を検索出来れば
![Page 30: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/30.jpg)
…類似文書を検索出来れば
閲覧中の動画と類似の動画も検索可能!
||
関連動画
![Page 31: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/31.jpg)
デモ
![Page 32: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/32.jpg)
デモ…は危険なので割合させて頂きます(汗
![Page 33: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/33.jpg)
分かりやすい類似検索の例
![Page 34: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/34.jpg)
分かりやすい類似検索の例
• 検索ワード「 JK」– JK
–女子高生–女子校生–女子●生
• 検索ワード「ナース」–ナース–看護婦–看護師–白衣の天使–看護学生
![Page 35: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/35.jpg)
類似文書の検索
• 精度を出すには超高次元での空間インデックスが必要( R-Tressや SR-Tree)
• 高次元にするほど精度が高くなる• 高次元にするほどパフォーマンスが悪化する(次元の呪い)
![Page 36: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/36.jpg)
類似文書の検索
• LSH(Locality Sensitive Hashing) に代表される「近似型」のインデックスを用いることでパフォーマンスの問題を改善する事ができる
![Page 37: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/37.jpg)
Luigi
![Page 38: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/38.jpg)
類似
![Page 39: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/39.jpg)
Luigiとは
• Perlで書かれた類似検索エンジン。• 近似型のインデックスを使っています。
• そこそこ精度がよく高速に動作します。
GitHub: https://github.com/miki/Luigi
実験的なコードなので CPANにはアップされていません
![Page 40: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/40.jpg)
最後に
今回の発表内容を実装したサービスの紹介をさせて頂きます
![Page 41: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/41.jpg)
morolicious
http://morolicio.us/
けしからん動画を快適に見よう!
![Page 42: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/42.jpg)
β版ですが、稼働しているので
![Page 43: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/43.jpg)
息抜きの時にでも使って頂けたら光栄です
![Page 44: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/44.jpg)
ヌキ過、注
意
第八発
![Page 45: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/45.jpg)
ご清聴ありがとうございました
![Page 46: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/46.jpg)
ちなみにサービス名
![Page 47: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/47.jpg)
mojolicious
WikipediaよりWebアプリケーションフレームワーク Catalystの作者であるセバスチャン・リーデルによって書かれたリアルタイムWebアプリケーションフレームワーク。
![Page 48: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/48.jpg)
サービスの対象者
” ”お と な
![Page 49: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/49.jpg)
おとな + mojolicious
![Page 50: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/50.jpg)
おとな + mojolicious
=morolicious
![Page 51: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/51.jpg)
morolicious
http://morolicio.us/
けしからん動画を快適に見よう!
@morolicio_us
![Page 52: おとなのテキストマイニング](https://reader033.fdocument.pub/reader033/viewer/2022060200/55987e521a28ab007e8b46ac/html5/thumbnails/52.jpg)