Sakuteki02 yokkuns
-
Upload
yohei-sato -
Category
Business
-
view
5.959 -
download
2
Transcript of Sakuteki02 yokkuns
1
R 言語によるはじめてのテキストマイニング
@yokkuns : 里 洋平第2回さくさくテキストマイニング
2
AGENDA
● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に
3
AGENDA
● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に
4
@yokkuns : 里 洋平● ID : yokkuns
● 名前 : 里 洋平● 職業 : Web エンジニア
● 統計解析や機械学習、データマイニングなどに興味がある
5
Tokyo.R の主催者
6
slideshare に資料を公開
7
ボーカルやってます
バンドメンバーを募集しています!
8
Amazon で " 里洋平 " を検索
9
11
AGENDA
● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に
12
テキストマイニングとは
テキストマイニング( text mining )は、テキストを対象としたデータマイニングのことである。
by Wikipedia
13
データマイニングとは
データマイニングとは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術。
by Wikipedia
14
データ解析と言えば
15
データ解析と言えば
16
R 言語
● 統計解析向けプログラミング言語及● 統計•機械学習などの手法が揃っている
– 主成分分析– クラスター分析– コレスポンデンス分析– SVM– Random Forest– ...
17
統計•機械学習の手法を使う● 統計や機械学習の手法の対象は数値データ● テキストデータをそのまま用いることは出来ない● テキストを数値化する必要がある● テキスト解析
– 形態素解析– 係り受け解析– ...
18
AGENDA
● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に
19
RMeCab と RCaBoCha
● RMeCab
– MeCab を R から使うパッケージ– 形態素解析
● RCaBoCha
– CaBoCha を R から使うパッケージ– 係り受け解析
20
RMeCab と RCaBoCha
● RMeCab
– MeCab のインストールが必要
● RCaBoCha
– CaBoCha のインストールが必要
21
RMeCab と RCaBoCha
初心者には敷居が高い!
22
そこで
23
YjdnJlp パッケージ
24
YjdnJlp パッケージ
● Yahoo! Japan Developer Network のテキスト解析 API を使うパッケージ
● R だけで、テキスト解析が出来る– MeCab や CaBoCha などの外部ライブラリの
インストールが不要!
25
皆大好き Yahoo! Japan
26
皆持ってるアプリケーション ID
27
万が一持ってなければ登録
28
テキスト解析 API
29
YjdnJlp パッケージ
● 形態素解析– MAService 関数
● 係り受け解析– DAService 関数
● 特徴語抽出– Keyphrase 関数
30
準備
31
インストールと読み込み
> install.packages("YjdnJlp")> library(YjdnJlp)
32
初期化
> con <- initYjdnJlp("********")
アプリケーション ID
33
解析する文書
テキストマイニング( text mining )は、テキストを対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性(→わかち書き)や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある。
34
形態素解析> res <- MAService(con, str)> res.df <- toDataFrame(res)> head(res.df[res.df$pos == " 名詞 " | + res.df$pos == "動詞 ", c("surface", "pos", "count")])
surface pos count5 テキスト 名詞 66 データ 名詞 516 マイニング 名詞 317 出現 名詞 320 こと 名詞 221 し 動詞 2
35
係り受け解析> res <- DAService(con, str)> res.df <- toDataFrame(res)> res.df[, -7] chunk.id dependency surface reading baseform pos1 1 63 テキスト てきすと テキスト 名詞2 1 63 マイニング まいにんぐ マイニング 名詞3 1 63 ( ( ( 特殊4 1 63 text text text 名詞5 1 63 特殊6 1 63 mining mining mining 名詞7 1 63 ) ) ) 特殊8 1 63 は は は 助詞9 1 63 、 、 、 特殊10 2 4 テキスト てきすと テキスト 名詞...
36
特徴語抽出> res <- Keyphrase(con, str)> res.df <- toDataFrame(res)> res.df keyphrase score1 テキストマイニング 1002 テキストデータ 833 形態素解析 554 text mining 535 データマイニング 536 メーリングリスト 527 単語 458 文節 449 分析 4310 境界判別 43
37
AGENDA
● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に
38
コレスポンデンス分析
● 東京都知事選挙の選挙公報の文書をもとにコレスポンデンス分析をやってみる
– 時間がないので形態素解析でのみ
39
コレスポンデンス分析
40
コレスポンデンス分析
41
コレスポンデンス分析
> library(ca)> ma.ca <- ca(ma.df)> plot(ma.ca, arrows=c(F,T))
42
43
AGENDA
● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に
44
まとめ
● R には統計•機械学習の手法が揃っている● YjdnJlp は、手軽にテキスト解析が出来る
– 形態素解析– 係り受け解析– 特徴語抽出
● 解析結果を使って、各手法を実行● R を使いたくなった方は Tokyo.Rへ!
45
AGENDA
● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に
46
最後に
Tokyo.R では発表者を募集しています