非网页数字资源分类
-
Upload
howard-stanley -
Category
Documents
-
view
34 -
download
7
description
Transcript of 非网页数字资源分类
非网页数字资源分类 山东大学
邵海敏 , 王川川 , 陈军报告人 : 陈竹敏
2008.4
任务描述给定资源实体,预测其内容类别。方法 :
利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息,合理形成特征,找到适当的分类方法,预测资源的内容类别。
实现过程cwt_cdal_train.9346cwt_cdal_train.9346
解压解压
预处理预处理
特征选择特征选择
cwt_cdal_test.6223cwt_cdal_test.6223
分类模型分类模型特征表示特征表示
分类结果分类结果
特征选择原始特征 :
文件格式 文件数量文件名字
特征选择就是对这些原始特征进行处理 , 选择 , 扩展 .
文件大小资源名字
文件格式从训练集中出现的所有文件格式中选择了100 个构成格式特征空间
首先去掉出现频率很低的文件格式合并语义相同的格式 ( 如 .r01, .r02 等 , 只保留一个 .r01)
格式特征提取类别 Ci(i=1 to 26), 格式 Fj(j=1 to m), 根据格式 Fj 的资源在类别 Ci(i=1 to 26) 的资源中所占的比例 , 取出区分力度大的前 100 个格式
文件格式、文件大小和文件数量两种方式
格式相关 { 文件格式 , 文件数量 , 文件大小 }, 即 {Fj,
N(r, Fj), AS(r, Fj)}N(r, Fj) 资源 r 中包含的格式为 Fj 的文件数量AS(r,Fj) 资源 r 中包含的格式为 Fj 的文件的平均
大小格式无关
{ 资 源 r 的 总 大 小 }, 即 {∑(j=1 to 100)(N(r, Fj)*AS(r, Fj))}
资源名字和文件名字 (1)
名字的特点资源的名字都是专有的 , 资源名字 , 文件名字 ,路径名都太短 , 信息不足 , 难以利用两个类别相同的资源 , 其名字之间并没有太大的共性 , 但其上下文环境应该大体相似
名字上下文获取上下文,分析同类资源的共性和不同类资源的差异
资源名字和文件名字 (2)
名字上下文的获取名字上下文 : 使用名字作为关键字在百度中搜索得到的一条结果称为一个名字上下文 ( 只是利用了百度的搜索结果页面 , 而没有去爬取结果对应的页面 ) 。关键字的选择
首选完整的资源名 , 若失败则使用净化处理后的资源名 ( 比如 , 存在书名号的 , 只保留书名号之内的文字 ; 若名字中有中英文 , 则其中的英文字符去掉等 ), 若失败则使用随机的一个文件名 , 若仍失败打印错误报告,退出
99% 以上的资源可以成功获取 30 个上下文
资源名字和文件名字 (3)基于名字上下文的特征选择
首先 , 取资源 r 的上下文中出现频率 >2 的词 , 表示为 FS1
然后 , 取属于 FS1, 且在某类的 20% 以上的上下文中出现的词 , 表示为 FS2
然后 , 基于方差的方法 , 从中选出对类区分度大的词构成特征空间 ( 维数 200)
资源名字和文件名字 (4)特征扩展 ( 应用在第 3 组结果 )
取前 100 个特征词,添加到特征空间 FS
使用 FS 对测试集进行分类计算每个类别对的误判率 ER(ci,cj) , 如果大于阈值10%
从 ci 和 cj 的特征词中选取 N1*log2(ER(ci,cj)*N2+1) 个词添加到 FS
再次使用 FS 进行分类 . 若总的误判率没有下降,则FS 回滚一次 , 算法结束 ; 否则跳转到 3
资源名字和文件名字 (5)
特征词权重计算对 FS 中的每个词 t ,计算 t 在资源 r 的上下文中出现的频率 F(t, r)
权重 w(t,r)Z=log2(F(t, r) + 1)
w(t,r) = Z > 4 ? 1 : Z/5
提交 3 组结果从训练集中随机抽取 1/3 的样本 , 作为测试集 ,剩余 2/3 作为训练集 , 分别采用 KNN 和 SVM构建分类器 , 利用测试集 , 逐步调整特征向量 ,对分类器进行优化 .
提交 3 组结果1. CWT_CDRC_IRSDU_TDS1.txt (KNN分类器 )
2. CWT_CDRC_IRSDU_TDS2.txt (SVM分类器 )
3. CWT_CDRC_IRSDU_TDS3.txt (SVM分类器 )
1, 3 完全自动实现 ; 2 在特征选择的过程中加入了部分人工确认 ; 3 采用了特征扩展的方法
Thank you!