コーパス学習による Apache Solr の徹底活用
-
Upload
kojisekiguchi -
Category
Technology
-
view
1.591 -
download
5
description
Transcript of コーパス学習による Apache Solr の徹底活用
![Page 1: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/1.jpg)
コーパス学習による Apache Solr の徹底活用
関口宏司@ロンウイット
1
![Page 2: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/2.jpg)
情報検索の性能指標ドキュメントの全体集合
2
![Page 3: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/3.jpg)
情報検索の性能指標
正解
3
![Page 4: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/4.jpg)
情報検索の性能指標
正解システム出力
4
![Page 5: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/5.jpg)
情報検索の性能指標
正解システム出力
A B C
精度 : P = B / ( A + B ) 再現率 : R = B / ( B + C )
5
![Page 6: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/6.jpg)
精度と再現率精度と再現率はトレードオフの関係にある!
6
![Page 7: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/7.jpg)
精度と再現率
正解
精度と再現率はトレードオフの関係にある!
7
![Page 8: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/8.jpg)
精度と再現率
正解システム出力
精度と再現率はトレードオフの関係にある!
高精度 低再現率
8
![Page 9: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/9.jpg)
精度と再現率
正解システム出力
精度と再現率はトレードオフの関係にある!
低精度 高再現率
9
![Page 10: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/10.jpg)
Apache Solr の徹底活用
表記揺れへの対応
絞り込み検索による 漸次的精度改善
ランキング チューニング
10
![Page 11: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/11.jpg)
Apache Solr の徹底活用
表記揺れへの対応
絞り込み検索による 漸次的精度改善
ランキング チューニング
11
![Page 12: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/12.jpg)
表記揺れへの対応後
正解システム出力12
![Page 13: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/13.jpg)
漸次的精度改善
13
![Page 14: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/14.jpg)
漸次的精度改善
正解システム出力
q=ハワイ
14
![Page 15: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/15.jpg)
漸次的精度改善
正解システム出力
予算(10~15万円) で絞り込む
15
![Page 16: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/16.jpg)
漸次的精度改善
正解システム出力
予算(10~15万円) で絞り込む
出発地(羽田空港) で絞り込む
16
![Page 17: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/17.jpg)
構造化文書
ID ツアー名 価格 出発地
1 ハワイオアフ島7日間 9万円 成田
2 ハワイオアフ島&マウイ島燃油込み 12万円 羽田
17
![Page 18: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/18.jpg)
非構造化文書はどうする?
• 非構造化文書の例
• WordやPDFファイル
• 新聞記事
• 書籍
18
![Page 19: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/19.jpg)
非構造化文書ID 記事
1 安倍首相は12日、甲府市で開かれた自民党ゴルフコンペで…
2 モスクワで開かれている世界陸上の男子100m予選で、日本の高校生桐生が…
: :
19
![Page 20: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/20.jpg)
非構造化文書の構造化ID 記事 人名 地名 イベント …
1 安倍首相は12日、甲府市で開かれた自民党ゴルフコンペで…
安倍 甲府市 ゴルフコンペ
2モスクワで開かれている世界陸上の男子100m予選で、日本の高校生桐生が…
桐生 モスクワ、 日本
世界陸上
: :
20
![Page 21: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/21.jpg)
アーキテクチャ
Update Request Processor
CRFsuite
Solr Index
ModelCorpus
Docs
21
![Page 22: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/22.jpg)
ビジネス志向のタグACCESS FOOD PLAN
DATETIME LANGUAGE PRINTING
DISEASE LOCATION PRODUCT
EVENT ORGANIZATION TITLE
FACILITY PERSON VEHICLE
22
![Page 23: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/23.jpg)
参考文献• Apache Solr 無料セミナー(毎月開催)
• http://www.rondhuit.com/services/seminars.html
• 情報検索のための自然言語処理ツール群の開発
• https://dspace.jaist.ac.jp/dspace/handle/10119/12033
23
![Page 24: コーパス学習による Apache Solr の徹底活用](https://reader036.fdocument.pub/reader036/viewer/2022082310/557a93e9d8b42aa6568b458e/html5/thumbnails/24.jpg)
ご静聴ありがとう ございました
24