SEWM2005 中文 Web 信息检索评测
description
Transcript of SEWM2005 中文 Web 信息检索评测
1
SEWM2005 SEWM2005 中文中文WebWeb
信息检索评测信息检索评测闫宏飞闫宏飞 ,,[email protected]@net.pku.edu.cn
北京大学网络实验室北京大学网络实验室
2005-09-272005-09-27
2
System = tSystem = t1 1 + t+ t2 2 +…+ t+…+ tnn
系统包含若干技术,系统包含若干技术, tt 某人发明了一个新的 某人发明了一个新的 tt ,评价它的方式,评价它的方式 ::
用它替换系统中的相应技术,看对总的效果的贡献用它替换系统中的相应技术,看对总的效果的贡献 单独在一个评测环境中评价单独在一个评测环境中评价
前者往往代价较高(时间,费用)前者往往代价较高(时间,费用) 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,例如研究搜索引擎排序算法的不一定有机会摆弄真正的,
有大规模用户的搜索引擎有大规模用户的搜索引擎 后者可能和真实系统应用有距离后者可能和真实系统应用有距离
能对这距离有把握也行能对这距离有把握也行
3
OutlineOutline
TRECTREC ( (TText ext REREtrieval trieval CConference)onference) GOV2GOV2 等等
CWIRF CWIRF ((CChinese hinese WWeb eb IInformation nformation RRetrival etrival FForum)orum) CWT100gCWT100g(Chinese Web T(Chinese Web Test collection est collection
with with 100100 ggigabyte web pages)igabyte web pages)
4
What is TREC?What is TREC?
A workshop series that provides the A workshop series that provides the infrastructure for large-scale testing infrastructure for large-scale testing of (text) retrieval technologyof (text) retrieval technology realistic test collectionsrealistic test collections uniform, appropriate scoring proceduresuniform, appropriate scoring procedures a forum for the exchange of research a forum for the exchange of research
ideas and for the discussion of research ideas and for the discussion of research methodologymethodology
5
TREC ConferenceTREC Conference Established in 1992 to evaluate large-scale IREstablished in 1992 to evaluate large-scale IR
Retrieving documents from a gigabyte collectionRetrieving documents from a gigabyte collection Has run continuously since thenHas run continuously since then
TREC 2004(13TREC 2004(13thth) meeting is in November) meeting is in November Run by NIST’s Information Access DivisionRun by NIST’s Information Access Division Probably most well known IR evaluation settingProbably most well known IR evaluation setting
Started with 25 participating organizations in 1992 Started with 25 participating organizations in 1992 evaluationevaluation
In 2003, there were 93 groups from 22 different countriesIn 2003, there were 93 groups from 22 different countries Proceedings available on-line (Proceedings available on-line (http://trec.nist.govhttp://trec.nist.gov ) )
Overview of TREC 2003 at Overview of TREC 2003 at http://trec.nist.gov/pubs/trec12/papers/OVERVIEW.12.pdfhttp://trec.nist.gov/pubs/trec12/papers/OVERVIEW.12.pdf
6
TREC General FormatTREC General Format TREC consists of IR research tracksTREC consists of IR research tracks
Ad hoc, routing, confusion ( scanned documents, speech Ad hoc, routing, confusion ( scanned documents, speech recognition ), video, filtering, multilingual ( cross-language, recognition ), video, filtering, multilingual ( cross-language, Spanish, Chinese ), question answering, novelty, high precision, Spanish, Chinese ), question answering, novelty, high precision, interactive, Web, database merging, NLP, Terabyte…interactive, Web, database merging, NLP, Terabyte…
Each track works on roughly the same modelEach track works on roughly the same model November: track approved by TREC communityNovember: track approved by TREC community Winter: track’s members finalize format for trackWinter: track’s members finalize format for track Spring: researchers train system based on specificationSpring: researchers train system based on specification Summer: researchers carry out format evaluationSummer: researchers carry out format evaluation
Usually a “blind” evaluation: research do not know answerUsually a “blind” evaluation: research do not know answer Fall: NIST carries out evaluationFall: NIST carries out evaluation November: Group meeting (TREC) to find out:November: Group meeting (TREC) to find out:
How well your site didHow well your site did How others tackled the programHow others tackled the program
Many tracks are run by volunteers outside of NIST (e.g. Web)Many tracks are run by volunteers outside of NIST (e.g. Web) ““Coopetition” model of evaluationCoopetition” model of evaluation
Successful approaches generally adopted in next cycleSuccessful approaches generally adopted in next cycle
7
Yearly Conference CycleYearly Conference Cycle
Collection
8
TRECTREC 追求的四个目标追求的四个目标以以大规模测试集大规模测试集为基础,推动信息检索的研究; 为基础,推动信息检索的研究; 经由经由开放式的论坛开放式的论坛,使与会者能交流研究的成果与,使与会者能交流研究的成果与
心得,以增进学术界、产业界与政府的交流互通; 心得,以增进学术界、产业界与政府的交流互通; 经由对经由对真实检索环境真实检索环境的模拟与重要改进,加速将实的模拟与重要改进,加速将实
验室研究技术转化为商业产品; 验室研究技术转化为商业产品; 发展适当且具应用性的发展适当且具应用性的评估技术评估技术,供各界遵循采用,,供各界遵循采用,
包括开发更适用于现有系统的新的评估技术。 包括开发更适用于现有系统的新的评估技术。
9
SEWM2005SEWM2005 评测任务 评测任务
中文中文 WebWeb 检索检索 主题提取主题提取 导航搜索方法导航搜索方法
中文网页分类中文网页分类
10
WebWeb 测试集的设计原则测试集的设计原则测试集(测试集( test collectiontest collection )就包括文档集)就包括文档集(( documentsdocuments )、查询集()、查询集( queriesqueries )和相关)和相关结果集(结果集( relevance judgmentsrelevance judgments )三个部分。)三个部分。
WebWeb 测试集设计中最基本的问题是:文档集测试集设计中最基本的问题是:文档集 || 尽尽可能真实代表所要研究的对象可能真实代表所要研究的对象
文档集应当是静态样本还是动态样本文档集应当是静态样本还是动态样本 ? ? 在多大程度上可以成为研究对象的代表在多大程度上可以成为研究对象的代表 ?? 为了使文档集能满足通用的或特定的研究目标,总体为了使文档集能满足通用的或特定的研究目标,总体
规模应当有多大规模应当有多大 ??
11
测试集使用框架测试集使用框架
12
主题提取(主题提取( Topic DistillationTopic Distillation )) 目的是对于一个特定主题发现一组关键资源。注重以站点作为资源的查询。要求是在前目的是对于一个特定主题发现一组关键资源。注重以站点作为资源的查询。要求是在前
十个结果中寻找尽可能多的不同站点(用它们的网站 的入口页面表示)。十个结果中寻找尽可能多的不同站点(用它们的网站 的入口页面表示)。
例如对于主题例如对于主题‘‘ linux’linux’ ,在,在 CWT100gCWT100g 中的下面站点可能被认为是中的下面站点可能被认为是关键资源关键资源::
http://www.oldlinux.org/ linux orghttp://www.oldlinux.org/ linux org
http://www.mhdn.net/os/29/ http://www.mhdn.net/os/29/ 明辉开发者网络 明辉开发者网络 linuxlinux 区区
http://www.redflag-linux.com/ http://www.redflag-linux.com/ 红旗红旗 LinuxLinux
被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断是否一个好的首被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断是否一个好的首页面页面 ,, 应该考查结果是否符合下面应该考查结果是否符合下面三个条件三个条件 ::
1)1) 是否大部分切合主题;是否大部分切合主题;
2)2) 提供主题的可靠的信息;提供主题的可靠的信息;
3)3) 不是一个更大的切合主题站点的一部分。不是一个更大的切合主题站点的一部分。
对于对于 'linux''linux' 这一主题,页面这一主题,页面 'www.mhdn.net' 'www.mhdn.net'
不符合第一个条件,而页面不符合第一个条件,而页面 'http://www.redflag-linux.com/chanpin/Desktop/i'http://www.redflag-linux.com/chanpin/Desktop/i
ndex.html'ndex.html' 不符合第三个条件。不符合第三个条件。
13
TopicTopic 示例示例 : : 主题提取(主题提取( TDTD ))
<top><top>
<num><num> Number: TD74 Number: TD74
<title> <title> CC 语言程序设计 语言程序设计 </title></title>
<desc> <desc> Description:Description:
与与 CC 语言程序相关的程序,源码,论坛等语言程序相关的程序,源码,论坛等</top></top>
14
TopicTopic 示例示例 : : 导航搜索(导航搜索( HP/NPHP/NP ))
<top><top>
<num><num>Number: NP383Number: NP383
<title><title> 龙厨美食网龙厨美食网 </title></title>
</top></top>
<top><top>
<num><num>Number: NP287Number: NP287
<title><title>““求职信”网络蠕虫病毒解决方案求职信”网络蠕虫病毒解决方案 </title></title>
</top></top>
15
构建相关结果集构建相关结果集 工作形式,招募人员方式工作形式,招募人员方式
初步评估:通过发布招募广告招募人员来完成 初步评估:通过发布招募广告招募人员来完成 检查:招募天网组内的成员来完成 检查:招募天网组内的成员来完成
工作内容工作内容 针对针对 7575 个个 TDTD ,每个主题通过,每个主题通过 poolingpooling 给出了给出了 500500 个左个左
右的右的 URLURL 组织人员组织人员
组织人:李静静组织人:李静静 协助人:秦琦,郭化楠协助人:秦琦,郭化楠
16
20052005 年提交结果的参赛队年提交结果的参赛队
TEAMTEAM NAMENAMETD-TD-RUNSRUNS
NPHP-NPHP-RUNSRUNS
北京大学计算机科学技术研北京大学计算机科学技术研究所究所 ICSTICST 33 33
华南理工大学木棉队华南理工大学木棉队 KSEKSE 55 55
大连理工大学大连理工大学 DLUTDLUT 11 11
北航软件所北航软件所 BUAASEIBUAASEI 33 22
17
TDTD 评测结果评测结果
根据答案超过根据答案超过 33 个的个的 6060 个主题各做评分个主题各做评分
18
NPHPNPHP 评测结果评测结果
与给出答案具有相同与给出答案具有相同 MD5MD5 的结果都算正确结果的结果都算正确结果
19
评测过程中评测过程中 FAQFAQ
发现一些网页在发现一些网页在 050722url.no050722url.no 中没有对应中没有对应的编号。 的编号。
对于相同网页内容,网页地址不同的问题 对于相同网页内容,网页地址不同的问题 要求是在前十个结果中寻找尽可能多的不同站要求是在前十个结果中寻找尽可能多的不同站
点(用它们的网站首页面表示)点(用它们的网站首页面表示) ,,发现发现 20042004年给出的年给出的 judgmentjudgment 有问题有问题
关于输出格式的具体化规定关于输出格式的具体化规定 …………
20
总结及讨论总结及讨论 测试集的改进测试集的改进
文档集文档集 CWT100g CWT100g CWT200g CWT200g 质量和发布形式质量和发布形式
评测形式评测形式 评测任务的设定评测任务的设定 查询集合和答案集合的生成查询集合和答案集合的生成
21
谢谢谢谢 !!
22
研讨会时间表研讨会时间表 22 个个 Overview, Overview, 四支队伍,大约每个报告四支队伍,大约每个报告 4040 分钟,共计分钟,共计 44 小时小时
13:30-14:10 13:30-14:10 北大网络实验室,闫宏飞,北大网络实验室,闫宏飞, 20052005 评测评测OverviewOverview ,记,记 Web TrackWeb Track 的的 OverviewOverview
14:10-14:50 14:10-14:50 龚笔宏,中文网页分类龚笔宏,中文网页分类 OverviewOverview 14:50-15:20 14:50-15:20 江西师范大学网络所,曾雪强,参加网页分类报告江西师范大学网络所,曾雪强,参加网页分类报告 15:20-16:50 15:20-16:50 华南理工大学华南理工大学 ,, 朱旭圻朱旭圻 ,, 参加网页分类报告参加网页分类报告 15:50-16:00 break15:50-16:00 break 16:00-16:40 16:00-16:40 北航软件所,曹勇刚,参加北航软件所,曹勇刚,参加 Web TrackWeb Track 报告报告 16:40-17:20 16:40-17:20 北大计算机所,路斌,参加北大计算机所,路斌,参加 Web TrackWeb Track 报告报告 17:20-18:00 17:20-18:00 华南理工大学木棉队华南理工大学木棉队 , , 欧健文,参加欧健文,参加 Web TrackWeb Track
报告报告