Post on 04-Jan-2016
description
11,001 New Features for Statistical Machine
Translation
David Chiang, Kevin Knight, Wei Wang
报告人:李贤华2009.11.12
主要内容 简介 MIRA 训练 特征选择 实验结果 分析讨论
主要内容简介 MIRA 训练 特征选择 实验结果 分析讨论
简介 所用系统: Hiero ,句法系统 所用方法:添加大量特征,用 MIRA 训练 实验结果:汉英上 BLEU 分别提高 1.5 , 1.1
添加的特征多为句法系统才能使用的特征,突出句法系统的优势。
相比 MERT , MIRA 对于多特征调参更佳。
Baseline
Hiero:
串到串翻译系统, 12 个特征,用 MERT 训练得到权重
句法系统:串到树翻译系统, 25 个特征,用 MERT 训
练得到权重
主要内容 简介MIRA训练 特征选择 实验结果 分析讨论
MIRA 训练将新特征加入线性模型,用 MIRA 训练。e :输出串 h(e): e 的特征向量 w: 特征权重循环如下:1. 选择一组输入句子 f1…fm ,解码2. 对于每个输入句子,选择其 10-best3. 对每个输入句子,选择一个 oracle 翻译,
设
4. 对于每一个候选翻译,计算损失
5. 更新 w 至 w’ , w’ 最小化:
对于每个句子,解码器给训练器一个森林,训练器将权重更新后传给解码器。
主要内容 简介 MIRA 训练特征选择 实验结果 分析讨论
特征选择 Discount feature
有许多计数为 1 的规则被选中,说明其概率被高估了
使用特征 count 来奖励或者惩罚规则,特征值和规则的计数有关
目标端特征 Rule overlap features 规则之间有交点。有些非终结符作为交点
时更加可靠。对于不同的非终结符做交点的规则,进行不同的奖罚。
Bad single-level rewrite对于一些使用范围很小的有问题的规则进行
惩罚,通过对开发集的观察,得到以下规则需要惩罚:
PP->VBN NP-CPP-BAR->NP-C INVP->NP-C PPCONJP->RB IN
Node count features
对于树中出现的非终结符计数,以免某非终结符出现过多或过少
Insertion features
有些规则会在英文端插入一些单词。对于每一个最可能出现在插入规则中的单词
一个特征。
特征选择 源端特征: Soft syntactic constraints
软句法约束,在源句子上建立句法树,奖励那些源端与该句法树相符的规则,惩罚不符的规则
Structural distortion features
设 S 为非终结符覆盖的源语言单词个数, R为是否要调序, P(R|S) 可以在抽取规则的时候计算得到,并可作为模型的一个新特征,由此影响调序。
主要内容 简介 MIRA 训练 特征选择实验结果 分析讨论
实验结果 使用了 260m 词的汉英双语语料。 对于句法系统,重现了 Collins 的 parser ,
以对英语部分产生句法树 句法规则的抽取是在 65m 的子训练集上
完成的 对于 Hiero ,两个非终结符的规则在 38m
子集上抽取,其余规则在训练集其余部分抽取
训练了 3 个 5 元语言模型 1-> 在整个英文语料上训得,用于两个系
统 2-> 用 10 亿词训得,用于句法系统 3-> 用 20 亿词训得,用于 Hiero 所有语言模型都用 KN 平滑算法
开发集: 2010 个句子 测试集: 1994 个句子 从 NIST2004 , 2005 及 GALE program
抽取的新闻语料。 Hiero 用了源端特征,句法系统用了目标
端特征,两个系统都用了折扣特征。
主要内容 简介 MIRA 训练 特征选择 实验结果分析讨论
分析
Discount feature:
+ 表示惩罚,- 表示奖励。
Word insertion feature:
Be 动词, a+ the,.,,-
Rule-overlap feature
Weights for generated English nonterminals
结论 1. 新特征即使在顶级翻译系统上也能有所
作为 2.MIRA 优于 MERT 3. 句法系统能利用在其他系统中无法使用
的特征,句法系统和 MIRA 是一个强大的组合
相关论文:
1.Online large-margin training of syntactic and structural translation features
2.minimum error rate training in statistical machine translation