基于 SDD 中文农业网页搜索系统的设计与实现

34
基基 SDD 基基基基基基基基基 基基基基基基 樊樊樊 樊樊 樊樊樊 樊樊 樊樊樊樊樊樊樊樊樊樊樊樊樊樊 樊樊樊樊樊樊樊樊樊樊樊樊樊樊

description

基于 SDD 中文农业网页搜索系统的设计与实现. 樊景超 硕士 中国农业科学院农业信息研究所. 为什么搜不到满意的结果?. 症结所在?. 用户 检索习惯有问题? 用户能改变吗?. Google VS Baidu 页面储备还不够多? 引擎的设计模式?. 关键词的无奈!. 交互接口. 检索系统 自然语句解析有困难 相同关键词相同需求 统计推理落后于用户. 用户 自然语言提问最理想 同样需求不同关键词 不同需求相同关键词. 关. 键. 词. 交互接口. 研究内容. 二次主题漂移检索模式. SDD 农搜. 双引擎检索系统. 农业领域专业数据. - PowerPoint PPT Presentation

Transcript of 基于 SDD 中文农业网页搜索系统的设计与实现

Page 1: 基于 SDD 中文农业网页搜索系统的设计与实现

基于 SDD中文农业网页搜索系统的设计与实现

樊景超 硕士樊景超 硕士

中国农业科学院农业信息研究所中国农业科学院农业信息研究所

Page 2: 基于 SDD 中文农业网页搜索系统的设计与实现

为什么搜不到满意的结果?

Google VS Baidu

页面储备还不够多?

引擎的设计模式?

.

症结所在?

用户

检索习惯有问题?

用户能改变吗?

Page 3: 基于 SDD 中文农业网页搜索系统的设计与实现

关键词的无奈!

检索系统

自然语句解析有困难

相同关键词相同需求

统计推理落后于用户

用户

自然语言提问最理想

同样需求不同关键词

不同需求相同关键词

交互接口

关键词

交互接口

Page 4: 基于 SDD 中文农业网页搜索系统的设计与实现

研究内容

二次主题漂移检索模式

双引擎检索系统

农业领域专业数据

SDDSDD 农农搜搜

Page 5: 基于 SDD 中文农业网页搜索系统的设计与实现

“二次主题漂移”检索模式

模糊不清的需求模糊不清的需求 全部结果集全部结果集 接近用户需求接近用户需求

关键词 文档 文档

数据检索 用户选择“与己相关”

Page 6: 基于 SDD 中文农业网页搜索系统的设计与实现

双引擎检索系统

用户参与

主题漂移

Lucene

全文

引擎

SDD

语义

引擎

Page 7: 基于 SDD 中文农业网页搜索系统的设计与实现

基于 SVD的传统 LSI算法局限性

分解后存储空间比原矩阵还要大分解后矩阵以浮点数为主 , 计算量大

其更新方法不利于处理大量动态数据

Page 8: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD(semi-discrete decomposition )

Tii

k

1ii

Tk

2

1

k

2

1

yxd

y

y

y

d00

0d0

00d

Tkk

k

YD

X

kk xxxA

21

S={+1 ,0 , -1}

Syx ii ,

Page 9: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD核心– 矩阵行列式的叠加

( d1 、 x1 、 y1 )( d1 、 x1 、 y1 ) ( dk 、 xk 、 yk ) ( dk 、 xk 、 yk ) ( dn 、 xn 、 yn )( dn 、 xn 、 yn )… …

Tydx 111

Tkkk ydx T

nnn ydx

Page 10: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD外层循环

内层循环求解 x,y R1 、 A0 等

初始化

退出判定2

2

2

2 kk

kkTk

kyx

yRxd

Tkkkkk yxdAA 1 T

kkkkk yxdRR 1

Page 11: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD内层循环

选择 y 满足0yRk

退出判定

2

2y

yRs k

2

2

2)(max

x

syT

2

2

2

2

2)(

yx

yRx kT

Page 12: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD 性能瓶颈

Linux 平台 到 Windows 平台移植。

一次矩阵所耗时间超过 12小时,无法达到实用化的要求 。

Page 13: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD算法改进

原算法

向量绝对值 s

快速排序 s

改进算法

向量绝对值 s拆分非零部分快速排序非零合并剩余向量

内层循环初始化

内层循环求最大值

Page 14: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD 改进算法验证流程

网页预处理

中文分词

SDD 矩阵分解

加载索引文件

反复检索

算法验证算法验证系统系统

算法验证算法验证系统系统

Page 15: 基于 SDD 中文农业网页搜索系统的设计与实现

算法验证系统设计

Page 16: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD 实验系统

Page 17: 基于 SDD 中文农业网页搜索系统的设计与实现

中文农业专业字典

中文农业专业词典类目 数量(条) 农业叙词表 128497农业大辞典 27902分子生物学 10236中国茶叶 9683其他字典 20892合 计 197210

通用字典 40 万来源于北京大学语言研究所,专业字典 19 万合并去重共计 53 万

Page 18: 基于 SDD 中文农业网页搜索系统的设计与实现

CWT-100G 简介

中文 Web 测试集CWT100g(Chinese Web Test collection with 100 GB web pages)是根据天网搜索引擎截止 2004 年 2 月1 日发现的中国范围内提供 Web 服务的 1,000,614 个主机,从中采样17,683 个站点,在 2004 年 6 月搜集获得 5,712,710 个网页,包括网页内容和 Web 服务器返回的信息,容量为90GB

Page 19: 基于 SDD 中文农业网页搜索系统的设计与实现

CWT-100G 网页测试样本

20万 doc

11万 doc * 17万 word

3 万 doc * 10万 word

4 千 doc *8 万 word

实验机内存上限

Page 20: 基于 SDD 中文农业网页搜索系统的设计与实现

测试结论

Windows 平台:三个测试样本分解时间是 15分钟、 34分钟和 110分钟,在可接受范围内。 Linux 平台:在分解时间上原算法仍然占有优势,改进后的算法,在测试样本越大,分解时间越接近原算法。

Page 21: 基于 SDD 中文农业网页搜索系统的设计与实现

检索模式验证流程

构建双引擎索引文件

一词多义

多词一义

精确搜索

结论

检索模式检索模式验证系统验证系统检索模式检索模式验证系统验证系统

Page 22: 基于 SDD 中文农业网页搜索系统的设计与实现

检索模式验证系统设计

Page 23: 基于 SDD 中文农业网页搜索系统的设计与实现

二次主题漂移验证

http://www.sdd.net.cn/thesis/

Page 24: 基于 SDD 中文农业网页搜索系统的设计与实现

科学数据中心实验数据

网页数(篇)

总大小(字节)

平均值(字节 /

篇)

字典条目(个)

平均条目(个 /篇)

会议文摘 15816 13706795 866 32687 2.1

食物营养 2504 12787726 5106 43544 17.4

有机农业 2589 13295973 5309 37711 14.6

科技期刊 28145 18072657 642 37016 1.3

科技动态 9192 38276868 4164 63470 6.9

著作检索 7726 18446506 2387 54863 7.1

数据中心数据,分类明确语义特征明显

Page 25: 基于 SDD 中文农业网页搜索系统的设计与实现

一、多词一义( GIS-地理信息系统)

Page 26: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD原算法第二篇

Page 27: 基于 SDD 中文农业网页搜索系统的设计与实现

SDD改进算法第二篇

Page 28: 基于 SDD 中文农业网页搜索系统的设计与实现

二、一词多义( cap)

Page 29: 基于 SDD 中文农业网页搜索系统的设计与实现

一词多义( cap- 共同农业政策 )

Page 30: 基于 SDD 中文农业网页搜索系统的设计与实现

一词多义( cap-防腐剂)

Page 31: 基于 SDD 中文农业网页搜索系统的设计与实现

一词多义( cap- 群体光合速率 )

Page 32: 基于 SDD 中文农业网页搜索系统的设计与实现

三、精确需求的语义功能

Page 33: 基于 SDD 中文农业网页搜索系统的设计与实现

四、验证结论

1 、用户检索习惯加一次鼠标点击,负担最小

2 、需要用户参与,语义结果与当前用户相关

3 、可有效避免多词一义,一词多义问题,提高查全率,查准率。

Page 34: 基于 SDD 中文农业网页搜索系统的设计与实现

http://www.sdd.net.cn