第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf ·...

31
第十三届全国机器翻译研讨会 第十三届全国机器翻译研讨会 第十三届全国机器翻译研讨会 第十三届全国机器翻译研讨会 (CWMT 2017) 2017 2017 2017 2017.9.27 7 7 7 - 29 29 29 29 中国 中国 中国 中国 大连 大连 大连 大连 主办 主办 主办 主办单位 单位 单位 单位:中国中文 中国中文 中国中文 中国中文信息学会 信息学会 信息学会 信息学会 承办 承办 承办 承办单位 单位 单位 单位:大连 大连 大连 大连理工大学 理工大学 理工大学 理工大学

Transcript of 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf ·...

Page 1: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

第十三届全国机器翻译研讨会第十三届全国机器翻译研讨会第十三届全国机器翻译研讨会第十三届全国机器翻译研讨会

(CWMT 2017) 2017201720172017....9999....22227 7 7 7 ---- 29292929

中国中国中国中国• 大连大连大连大连

主办主办主办主办单位单位单位单位::::中国中文中国中文中国中文中国中文信息学会信息学会信息学会信息学会

承办承办承办承办单位单位单位单位::::大连大连大连大连理工大学理工大学理工大学理工大学

Page 2: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

目目目目录录录录

I. 会议组织机构会议组织机构会议组织机构会议组织机构 ................................................................................ 1

II. 会议简介会议简介会议简介会议简介 ........................................................................................ 2

III. 会议日程会议日程会议日程会议日程 ........................................................................................ 3

IV. 特邀报告特邀报告特邀报告特邀报告 ........................................................................................ 7

V. MT IN PRACTICE ....................................................................... 9

VI. MT 新人秀新人秀新人秀新人秀 .................................................................................. 13

VII. 论文报告论文报告论文报告论文报告 1 ................................................................................... 17

VIII. 论文报告论文报告论文报告论文报告 2 ................................................................................... 19

IX. 海报展示海报展示海报展示海报展示 ...................................................................................... 21

X. 会议交通会议交通会议交通会议交通 ...................................................................................... 25

XI. 大连风景大连风景大连风景大连风景 ...................................................................................... 27

Page 3: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

1

会议组织机构会议组织机构会议组织机构会议组织机构

指导委员会指导委员会指导委员会指导委员会

宗成庆 中国科学院自动化研究所

孙 乐 中国科学院软件研究所

赵铁军 哈尔滨工业大学

史晓东 厦门大学

大会主席大会主席大会主席大会主席

刘 群 都柏林城市大学 & 中国科学院计

算技术研究所

程序程序程序程序委员会主席委员会主席委员会主席委员会主席

黄 辉 澳门大学

熊德意 苏州大学

评测委员会主席评测委员会主席评测委员会主席评测委员会主席

黄书剑 南京大学

机器翻译论坛主席机器翻译论坛主席机器翻译论坛主席机器翻译论坛主席

朱靖波 东北大学

魏勇鹏 语智云帆

程序委员会委员程序委员会委员程序委员会委员程序委员会委员(按拼音顺序排序按拼音顺序排序按拼音顺序排序按拼音顺序排序)

António Branco, University of Lisbon

曹海龙 哈尔滨工业大学

陈毅东 厦门大学

陈钰枫 北京交通大学

段湘煜 苏州大学

冯 冲 北京理工大学

高 勤 Google

郭宇航 北京理工大学

何彦青 中国科学技术信息研究所

何中军 百度

黄书剑 南京大学

姜文斌 中国科学院计算技术研究所

蒋宏飞 北京鼎富科技股份有限公司

李剑锋 科大讯飞研究院

李军辉 苏州大学

刘乐茂 National Institute of Information and

Communications Technology

刘树杰 微软亚洲研究院

刘洋 清华大学

骆卫华 阿里巴巴国际事业部

毛存礼 昆明理工大学

孟凡东 腾讯

米海涛 Ant Financial(蚂蚁金服)

美野秀弥 National Institute of Information

and Communications Technology

苏劲松 厦门大学

涂兆鹏 腾讯 AI Lab

王明轩 腾讯

Ling Wang, Google Deepmind

王 偉 Google

Andy Way ADAPT Centre, Dublin City University

肖 桐 东北大学

于 墨 IBM Watson

杨雅婷 中国科学院新疆理化技术研究所

张晓军 University of Stirling

朱聪慧 哈尔滨工业大学

张 浩 Google

张家俊 中国科学院自动化研究所

赵秋野 中国科学院计算技术研究所

周 沁 澳门大学

周 玉 中国科学院自动化研究所

朱 筠 北京师范大学

组织委员会主席组织委员会主席组织委员会主席组织委员会主席

黄德根 大连理工大学

组织委员会委员组织委员会委员组织委员会委员组织委员会委员

李丽双 大连理工大学

周惠巍 大连理工大学

曹井香 大连理工大学

张 婧 大连理工大学

张云霞 大连理工大学

Page 4: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

2

会议简介会议简介会议简介会议简介

第十三届全国机器翻译研讨会(CWMT 2017)于 2017 年 9月 27-29 日在中国大连举行。

全国机器翻译研讨会自 2005 年召开第一届以来,已连续成功组织召开了十二届,共组

织过六次机器翻译评测(2007、2008、2009、2011、2013、2015),一次开源系统模块开发

(2006)和两次战略研讨(2010、2012),这些活动对于推动我国机器翻译技术的研究和开

发产生了积极而深远的影响。因此,CWMT 已经成为我国自然语言处理领域重要的学术活动。

本届全国机器翻译研讨会旨在为国内外机器翻译界同行提供一个开放的交互平台,促进

国内外学者的学术交流。会议除了通常的论文宣读、成果交流和系统演示以外,将邀请本领

域国内外著名学者进行学术讲座、一线从事机器翻译研发的中青年学者介绍最新的神经网络

机器翻译方法、以及来自翻译产业一线的专家介绍翻译产品部署和使用的经验,力求从理论

和应用、技术与用户多角度汇聚机器翻译领域的新进展、新突破。

本次会议首次增加一个新的机器翻译产学研论坛环节,将邀请学术界、产业界和投资界

的专家,一起共同讨论机器翻译产学研。论坛计划在主会后的第一天(29 日)举办,采用上

午大会报告和主旨报告,下午 panel 自由交流方式,预期代表们的观点会产生激烈碰撞,欢

迎大家踊跃参加,共同促进机器翻译产学研的发展。

会议会议会议会议时间时间时间时间::::2017201720172017 年年年年 9999 月月月月 27272727 日日日日----2017201720172017 年年年年 9999 月月月月 29292929 日日日日

会议地点会议地点会议地点会议地点::::国网国网国网国网辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心((((辽宁省大连市高新园区凌西路辽宁省大连市高新园区凌西路辽宁省大连市高新园区凌西路辽宁省大连市高新园区凌西路 1111号号号号))))

报到报到报到报到时间时间时间时间::::2017201720172017 年年年年 9999 月月月月 26262626 日日日日((((9:009:009:009:00————22220000:00:00:00:00)))),,,,2017201720172017 年年年年 9999 月月月月 27272727 日日日日((((7:7:7:7:33330000————8888::::33330000))))

报到报到报到报到地点地点地点地点::::国网国网国网国网辽宁省电力有限公司大连辽宁省电力有限公司大连辽宁省电力有限公司大连辽宁省电力有限公司大连培训中心培训中心培训中心培训中心 3333 号楼号楼号楼号楼 一楼一楼一楼一楼大厅大厅大厅大厅

会议住宿会议住宿会议住宿会议住宿::::国网国网国网国网辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心宾馆宾馆宾馆宾馆

会议会议会议会议用餐用餐用餐用餐::::午餐午餐午餐午餐////晚餐晚餐晚餐晚餐::::国网国网国网国网辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 2222 楼中楼中楼中楼中餐厅餐厅餐厅餐厅

27272727 日日日日晚宴晚宴晚宴晚宴::::日月昇渔家菜日月昇渔家菜日月昇渔家菜日月昇渔家菜((((二七二七二七二七店店店店)))) ((((鲁迅路鲁迅路鲁迅路鲁迅路 152152152152 号号号号))))

注意注意注意注意事项事项事项事项::::

1.1.1.1. 未未未未能能能能及时注册及时注册及时注册及时注册缴费缴费缴费缴费的老师同学的老师同学的老师同学的老师同学可现场可现场可现场可现场注册注册注册注册缴费缴费缴费缴费并领取资料包并领取资料包并领取资料包并领取资料包,,,,相关费用相关费用相关费用相关费用按按按按 9999 月月月月 15151515

日日日日以后注册费用收取以后注册费用收取以后注册费用收取以后注册费用收取;;;;

2.2.2.2. 注册注册注册注册完成后完成后完成后完成后,,,,请检查请检查请检查请检查((((1111))))您的您的您的您的发票发票发票发票信息是否正确信息是否正确信息是否正确信息是否正确;(;(;(;(2222))))资料包资料包资料包资料包内内内内物品是否齐全物品是否齐全物品是否齐全物品是否齐全((((会会会会

议议议议手册手册手册手册及及及及宣传册宣传册宣传册宣传册一本一本一本一本,,,,参会胸牌一个参会胸牌一个参会胸牌一个参会胸牌一个,,,,餐票一套餐票一套餐票一套餐票一套,,,,签字笔签字笔签字笔签字笔一支一支一支一支))));;;;

3.3.3.3. 如有如有如有如有任何问题任何问题任何问题任何问题,,,,请及时与会务人员联系请及时与会务人员联系请及时与会务人员联系请及时与会务人员联系。。。。

会务会务会务会务联系方式联系方式联系方式联系方式::::

微信微信微信微信::::cwmt_2017cwmt_2017cwmt_2017cwmt_2017

EEEE----mailmailmailmail::::[email protected][email protected][email protected][email protected]

联系联系联系联系人人人人::::张云霞张云霞张云霞张云霞

会务组会务组会务组会务组房间房间房间房间::::待定待定待定待定……………………

Page 5: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

3

会议日程会议日程会议日程会议日程

时间时间时间时间 会会会会议议议议议程议程议程议程 地点地点地点地点

9 月 26 日

09:00—20:00 会议报到注册会议报到注册会议报到注册会议报到注册 培训中心 3 号楼大厅

9 月 27 日

08:30—08:55 开幕式开幕式开幕式开幕式,,,,致欢迎词致欢迎词致欢迎词致欢迎词

((((主持人主持人主持人主持人::::黄德根黄德根黄德根黄德根))))

培训中心 3 号楼

3 楼报告厅

08:55—09:05 全体代表合影留念全体代表合影留念全体代表合影留念全体代表合影留念 培训中心 3 号楼门口

09:05—10:05

特邀报告特邀报告特邀报告特邀报告 1 (主持人主持人主持人主持人::::刘群刘群刘群刘群) :

The move to Neural Machine Translation at Google

报告人报告人报告人报告人::::Mike Schuster

3 楼报告厅

10:05—10:15 茶歇 3 楼报告厅

10:15—10:45 企业企业企业企业报告报告报告报告((((主持人主持人主持人主持人::::张民张民张民张民))))::::

中译语通、腾讯、SYSTRAN、爱特曼 3 楼报告厅

10:45—12:05 会议论文报告会议论文报告会议论文报告会议论文报告 1((((主持人主持人主持人主持人::::赵铁军赵铁军赵铁军赵铁军))))

3 楼报告厅

10:45—11:05 Neural Machine Translation with Phrasal Attention

Yachao Li, Deyi Xiong and Min Zhang

11:05—11:25

Singleton Detection for Coreference Resolution via Multi-

window and Multi-filter CNN

Kenan Li, Heyan Huang, Yuhang Guo and Ping Jian

11:25—11:45

A Method of Unknown Words Processing for Neural Machine

Translation Using HowNet

Li Shaotong, Xu Jinan, Zhang Yujie and Chen Yufeng

11:45—12:05

Word, Subword or Character? An Empirical Study of

Granularity in Chinese-English NMT

Yining Wang, Long Zhou, Jiajun Zhang and Chengqing Zong

12:05—13:00 午餐 2 楼中餐厅

13:45—15:45 MT in Practice((((主持人主持人主持人主持人::::宗成庆宗成庆宗成庆宗成庆))))

3 楼报告厅

13:45—14:15 Production Ready NMT engines' Lessons learnt

报告人:Jean Senellart (SYSTRAN)

14:15—14:45 阿里神经网络翻译在电商翻译中的应用及工程实践

报告人:骆卫华 (阿里巴巴)

14:45—15:15 互联网机器翻译

报告人:何中军 (百度)

Page 6: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

4

15:15—15:45 信息“丝绸之路” — 搜狗神经网络机器翻译

报告人:翟飞飞 (搜狗)

15:45—16:05 茶歇 3 楼报告厅

16:05—17:45 机器翻译评测总结机器翻译评测总结机器翻译评测总结机器翻译评测总结((((主持人主持人主持人主持人::::黄书剑黄书剑黄书剑黄书剑))))

3 楼报告厅

16:05—16:25

第十三届全国机器翻译研讨会(CWMT 2017)评测报告

黄书剑,伊力亚尔•加尔木哈买提, 赵红梅, 刘群

(南京大学计算机科学与技术系 计算机软件新技术国家

重点实验室, 南京)

(中国科学院计算技术研究所, 北京)

(都柏林城市大学 ADAPT 研究中心, 都柏林 爱尔兰)

16:25—16:40

Sogou Neural Machine Translation Systems for CWMT17

Yuguang Wang, Xiang Li, Shanbo Cheng, Liyang Jiang,

Jiajun Yang, Wei Chen, Lin Shi, Yanfeng Wang, Hongtao

Yang

(Voice Interaction Technology Center, Sogou Inc., Beijing,

China)

(Key Laboratory of Intelligent Information Processing,

Institute of Computing Technology, Chinese Academy of

Sciences)

16:40—16:55

CWMT2017 内蒙古大学计算机学院评测技术报告

王洪彬, 武静, 李金廷, 樊文婷, 申志鹏, 侯宏旭

(内蒙古大学 计算机学院, 呼和浩特, 内蒙古)

16:55—17:10

XMU Neural Machine Translation Systems for CWMT 2017

Zhixing Tan, Boli Wang, Xiansong Ji, Bingyansen Wu,

Jinming Hu,Yidong Chen and Xiaodong Shi

(School of Information Science and Engineering,

Xiamen University)

17:10—17:25

第十三届机器翻译研讨会中科院自动化所技术报告

周龙, 王亦宁, 赵阳, 张家俊, 宗成庆

(中国科学院自动化研究所, 北京)

17:25—17:45 快速回顾:每个参评单位以 1-2 分钟简单阐述在评测中最

重要的发现并答疑

17:45—20:45 晚宴晚宴晚宴晚宴 日月昇渔家菜

Page 7: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

5

9 月 28 日

08:30—09:50 海报展示海报展示海报展示海报展示((((论文论文论文论文/评测评测评测评测)、)、)、)、系统展示系统展示系统展示系统展示((((最后最后最后最后 15 分钟茶歇分钟茶歇分钟茶歇分钟茶歇)))) 3 楼报告厅

09:50—11:50 MT 新人秀新人秀新人秀新人秀((((主持人主持人主持人主持人::::刘洋刘洋刘洋刘洋))))

3 楼报告厅

09:50—10:20 Enhanced Neural Machine Translation

报告人:Mingxuan Wang (Tencent Technology)

10:20—10:50 神经机器翻译中的训练方法研究

报告人:沈世奇 (清华大学)

10:50—11:20 人机交互式机器翻译

报告人:黄国平 (中科院自动化研究所)

11:20—11:50 Modeling Past and Future for Neural Machine Translation

报告人:周浩 (南京大学)

12:00—13:00 午餐 2 楼中餐厅

13:30—15:10 会议论文报告会议论文报告会议论文报告会议论文报告 2((((主持人主持人主持人主持人::::史晓东史晓东史晓东史晓东))))

3 楼报告厅

13:30—13:50 基于 RNN 和 CNN 的蒙汉神经机器翻译研究

包乌格德勒, 赵小兵

13:50—14:10

An Unknown Word Processing Method in NMT by

Integrating Syntactic Structure and Semantic Concept

Guoyi Miao, Jinan Xu, Yufeng Chen and Yujie Zhang

14:10—14:30

RGraph: Generating Reference Graphs for Better Machine

Translation Evaluation

Hongjie Ji, Shujian Huang, Qi Hou, Cunyan Yin and Jiajun

Chen

14:30—14:50 基于层次短语翻译模型的语言生成的研究

柴强, 李军辉, 孔芳

14:50—15:10 基于数据增强技术的神经机器翻译

蔡子龙, 杨明明, 熊德意

15:10—16:40 Panel Discussion

((((主持人主持人主持人主持人::::熊德意熊德意熊德意熊德意)))) 3 楼报告厅

16:40—17:10 闭幕式闭幕式闭幕式闭幕式 ((((会议纪要和下届会议简介会议纪要和下届会议简介会议纪要和下届会议简介会议纪要和下届会议简介))))

((((主持人主持人主持人主持人::::黄辉黄辉黄辉黄辉)))) 3 楼报告厅

17:30—18:30 晚餐 2 楼中餐厅

Page 8: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

6

9 月 29 日(机器翻译论坛)

09:00—10:00

特邀报告特邀报告特邀报告特邀报告 2((((主持人主持人主持人主持人::::朱静波朱静波朱静波朱静波)))):

The Modern Renaissance of Speech Translation

报告人报告人报告人报告人::::Will Lewis

3 楼报告厅

10:00—10:15 茶歇 3 楼报告厅

10:15—11:55 主题主题主题主题报告报告报告报告((((主持人主持人主持人主持人::::肖桐肖桐肖桐肖桐))))

3 楼报告厅

10:15—10:40 主题报告 1:互联网 MT 2C 应用场景

报告人:王士进 (科大讯飞)

10:40—11:05 主题报告 2:机器翻译助力国家语言能力建设

报告人:刘科伟 (中国通用技术研究院)

11:05—11:30 主题报告 3:东盟小语种 MT 应用需求

报告人:刘连芳 (广西达译)

11:30—11:55 主题报告 4:语言服务行业概况和技术需求

报告人:崔启亮 (对外经贸大学)

12:00—13:00 午餐 2 楼中餐厅

14:00—15:30

机器翻译应用研讨机器翻译应用研讨机器翻译应用研讨机器翻译应用研讨 1::::机器翻译产学研合作机器翻译产学研合作机器翻译产学研合作机器翻译产学研合作

主持人主持人主持人主持人::::朱靖波朱靖波朱靖波朱靖波

讨论嘉宾:陈圣权 程国艮 杜金林 黄德根 李沐

刘群 许静芳

3 楼报告厅

15:30—15:45 茶歇 3 楼报告厅

15:45—17:15

机器翻译应用研讨机器翻译应用研讨机器翻译应用研讨机器翻译应用研讨 2::::机器翻译中的人机结合机器翻译中的人机结合机器翻译中的人机结合机器翻译中的人机结合

主持人主持人主持人主持人::::魏勇鹏魏勇鹏魏勇鹏魏勇鹏

讨论嘉宾:韩林涛 何中军 黄国平 黄书剑 宋柔

魏泽斌 肖桐

3 楼报告厅

17:35—18:30 晚餐 2 楼中餐厅

Page 9: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

7

特邀特邀特邀特邀报告报告报告报告

特邀特邀特邀特邀报告报告报告报告 1111

报告报告报告报告人人人人::::Mike Schuster

题目题目题目题目::::The move to Neural Machine Translation at Google

时间时间时间时间::::2017201720172017 年年年年 9999 月月月月 27272727 日日日日 09:0509:0509:0509:05————10:0510:0510:0510:05

地点地点地点地点::::国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

Machine learning and in particular neural networks have made great advances

in the last few years for products that are used by millions of people, most

notably in speech recognition, image recognition and most recently in neural

machine translation. Neural Machine Translation (NMT) is an end-to-end

learning approach for automated translation, with the potential to overcome

many of the weaknesses of conventional phrase-based translation systems.

Unfortunately, NMT systems are known to be computationally expensive both

in training and in translation inference. Also, most NMT systems have difficulty

with rare words. These issues have hindered NMT's use in practical

deployments and services, where both accuracy and speed are essential. In

this work, we present GNMT, Google's Neural Machine Translation system,

which addresses many of these issues. The model consists of a deep LSTM

network with 8 encoder and 8 decoder layers using attention and residual

connections. To accelerate final translation speed, we employ low-precision

arithmetic during inference computations. To improve handling of rare words,

we divide words into a limited set of common sub-word units for both input and

output. On the WMT'14 English-to-French and English-to-German benchmarks,

GNMT achieves competitive results to state-of-the-art. Using human side-by-

side evaluations it reduces translation errors by more than 60% compared to

Page 10: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

8

Google's phrase-based production system. The new Google Translate was

launched in late 2016 and has improved translation quality significantly for all

Google users. Over the past few months Google has launched many more

languages using GNMT and has made significant improvements to many parts

of the production system as well as additional research which will be explained

during the talk.

简历简历简历简历::::

Dr. Mike Schuster graduated in Electric Engineering from the Gerhard-Mercator

University in Duisburg, Germany in 1993. After receiving a scholarship he spent

a year in Japan to study Japanese in Kyoto and Fiber Optics in the Kikuchi

laboratory at Tokyo University. His professional career in machine learning and

speech brought him to Advanced Telecommunications Research Laboratories

in Kyoto, Nuance in the US and NTT in Japan where he worked on general

machine learning and speech recognition research and development after

getting his PhD at the Nara Institute of Science and Technology. Dr. Schuster

joined the Google speech group in the beginning of 2006, seeing speech

products being developed from scratch to toy demos to serving millions of users

in many languages over the next eight years, and he was the main developer

of the original Japanese and Korean speech recognition models. He is now part

of the Google Brain group which focuses on building large-scale neural network

and machine learning infrastructure for Google and has been working on

infrastructure with the TensorFlow toolkit as well as on research, mostly in the

field of speech and translation with various types of recurrent neural networks.

In 2016 he led the development of the new Google Neural Machine Translation

system, which reduced translation errors by more than 60% compared to the

previous system.

Page 11: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

9

MT in PracticeMT in PracticeMT in PracticeMT in Practice

报告报告报告报告人人人人::::Jean Senellart

题目题目题目题目::::Production Ready NMT engines' Lessons learnt

时间时间时间时间::::2012012012017777 年年年年 9999 月月月月 27272727 日日日日 13:4513:4513:4513:45————14:1514:1514:1514:15

地点地点地点地点::::国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

The talk will expose findings from SYSTRAN journey to NMT and will cover

development, management of open source community with our release of

OpenNMT. We will also talk about practical lessons in the choice of data, hyper-

parameters, infrastructure after more than 2000 trainings on a very large variety

of language pair and domains.

简历简历简历简历::::

Jean Senellart is the Chief Scientist of SYSTRAN and has been driving

development of SYSTRAN hybrid technology and new generation of SYSTRAN

products. Jean graduated from the Paris Ecole Polytechnique and holds a PhD

in Computational Linguistics from the University of Paris VII – LADL. He began

his career as a researcher and has been teaching Natural Language

Processing at Ecole Polytechnique. With a double passion for natural and

computing languages, he is a strong believer in the value of big data combined

with language analysis.

Page 12: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

10

报告报告报告报告人人人人::::骆卫华骆卫华骆卫华骆卫华

题目题目题目题目::::阿里神经网络翻译在电商翻译中的应用及工程实践阿里神经网络翻译在电商翻译中的应用及工程实践阿里神经网络翻译在电商翻译中的应用及工程实践阿里神经网络翻译在电商翻译中的应用及工程实践

时间时间时间时间::::2012012012017777 年年年年 9999 月月月月 27272727 日日日日 14:1514:1514:1514:15————14:4514:4514:4514:45

地点地点地点地点::::国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

神经网络翻译技术作为一种新的机器翻译范式,在诸多语种及应用场景中的翻译

质量已经超越了统计机器翻译技术,并成为目前学术界和工业界研究的热点。为

了更好地支撑集团的国际化业务,为跨境买卖家提供更高质量的翻译服务,阿里

巴巴也上线了自主开发的神经网络翻译系统,为阿里经济体复杂多样的国际化需

求提供可靠的技术支撑。但将神经网络翻译落地电商业务场景并非一个简单的过

程,其间面临诸多挑战,包括搭建面向海量语料的高性能训练平台,加速预测算

法以响应高并发请求,以及应对真实电商数据和业务需求给标准模型带来的全新

问题等。本次报告将会介绍阿里面向这些问题所作的探索尝试和目前取得的一些

进展,并将分享面向复杂业务场景搭建翻译服务的一些经验和思考。

简历简历简历简历::::

骆卫华,阿里巴巴资深技术专家,目前担任阿里巴巴业务平台事业部翻译平台部

负责人,组建并带领团队搭建了阿里巴巴的国际化多语言技术与业务基础设施,

支撑整个集团国际化业务的开展。加入阿里之前,骆卫华在中科院计算所智能信

息重点实验室担任高级工程师,长期从事机器翻译技术的研发和工程化落地。

Page 13: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

11

报告报告报告报告人人人人::::何中军何中军何中军何中军

题目题目题目题目::::互联网机器翻译互联网机器翻译互联网机器翻译互联网机器翻译

时间时间时间时间::::2012012012017777 年年年年 9999 月月月月 27272727 日日日日 11114:454:454:454:45————15:1515:1515:1515:15

地点地点地点地点::::国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

近年来,互联网机器翻译蓬勃发展。与传统的电子词典和翻译软件不同,互联网

机器翻译面对海量复杂多样的用户需求和场景,需要结合互联网大数据特点进行

产品和技术上的创新。具体来讲,互联网机器翻译需要设计更加丰富的产品功能

以满足多样化翻译需求,另一方面,也需要翻译技术和模型的革新以改善在不同

应用场景下的译文质量。

本报告结合百度机器翻译实践,介绍互联网机器翻译主要产品形式、典型应用场

景、以及技术发展现状。

简历简历简历简历::::

何中军,博士,百度主任架构师,机器翻译技术负责人。从事机器翻译研究与开

发十余年,论文发表在本领域权威国际会议 ACL、EMNLP、COLING、AAAI 等。

参与项目获 2009 年度北京市科学技术奖二等奖,2014 年度中国电子学会科技

进步一等奖, 2015 年度国家科学技术进步奖二等奖。

Page 14: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

12

报告人报告人报告人报告人::::翟飞飞翟飞飞翟飞飞翟飞飞

题目题目题目题目::::信息信息信息信息““““丝绸之路丝绸之路丝绸之路丝绸之路””””————搜狗神经网络机器翻译搜狗神经网络机器翻译搜狗神经网络机器翻译搜狗神经网络机器翻译

时间时间时间时间::::2012012012017777 年年年年 9999 月月月月 27272727 日日日日 15:1515:1515:1515:15————15:4515:4515:4515:45

地点地点地点地点::::国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

机器翻译是搜狗人工智能战略中的重要一环,一方面旨在满足用户在搜索过程中

的大量机器翻译需求,更重要的则是希望通过搜索和机器翻译技术的结合,帮助

中文用户打破语言障碍,搜索并浏览全世界外语信息。目前,搜狗已上线了基于

神经网络的机器翻译频道 http://fanyi.sogou.com,并发布了跨语言搜索系统

http://english.sogou.com/,为用户提供高质量的英文网页搜索服务,并同时能够

将英文搜索结果翻译为中文帮助用户理解。本报告将介绍目前搜狗搜索机器翻译

系统的基本架构,在神经网络机器翻译技术上所进行的一些探索,并讨论我们在

把神经网络机器翻译应用到实际线上产品过程中所碰到的实际问题和解决方案。

简历简历简历简历::::

翟飞飞博士, 搜狗公司专家研究员,目前主要负责搜狗搜索机器翻译项目,主持

上线了搜狗机器翻译垂直频道、跨语言搜索等机器翻译相关的多个产品。研究方

向包括机器翻译和自然语言处理,迄今已在包括 ACL,TASLP,TACL,EMNLP,

AAAI,COLING 等国际顶级期刊和会议上发表学术论文十余篇。2014 年博士毕

业于中科院自动化研究所,2015 年获得中国人工智能学会优秀博士论文,并先

后在纽约城市大学、IBM Watson Research Center 进行博士后研究。

Page 15: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

13

MTMTMTMT 新人秀新人秀新人秀新人秀

报告报告报告报告人人人人::::Mingxuan Wang

题目题目题目题目:::: Enhanced Neural Machine Translation

时间时间时间时间::::2012012012017777 年年年年 9999 月月月月 22228888 日日日日 09:5009:5009:5009:50————10:2010:2010:2010:20

地点地点地点地点::::国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

In this talk we will present two recent work on enhancing the model ability of

Neural Machine Translation (NMT). The first aims at incorporating the word

reordering knowledge into NMT for further improving translation performance.

This work enable attention mechanism to attend to source words regarding both

the semantic requirement and the word reordering penalty. The second focus

on improving the single model performance by increasing the model depth. To

easy the training of such such a deep model, we also introduce a novel linear

associative units (LAU) which can reduce the gradient propagation length inside

the recurrent unit.

简历简历简历简历::::

Mingxuan Wang is currently a senior researcher at Mobile Internet Group,

Tencent Technology. Before joining Tencent in July 2017, he visited Noah’s ark

labfrom 2014 to 2015 and IDL lab during 2016 as an assistant researcher.

Mingxuan Wang received his DPhil from Institute of Computing Technology ,

Chinese Academy of Sciences and BEng degree from Beihang University. His

research interests lies in Natural Language Processing, with a focus on Neural

Machine Translation.

Page 16: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

14

报告报告报告报告人人人人::::沈世奇沈世奇沈世奇沈世奇

题目题目题目题目::::神经机器翻译中的训练方法研究神经机器翻译中的训练方法研究神经机器翻译中的训练方法研究神经机器翻译中的训练方法研究

时间时间时间时间::::2012012012017777 年年年年 9999 月月月月 22228888 日日日日 10:2010:2010:2010:20————10:5010:5010:5010:50

地点地点地点地点::::国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

神经机器翻译目前已经成为了主流的翻译方法。无论是传统的 RNN encoder-

decoder 框架,还是最近的 CNN 模型、纯 Attention 模型,模型训练都会对最终

的翻译质量产生至关重要的影响。本报告将对神经机器翻译中的训练方法进行讨

论,主要阐述最小风险训练在神经机器翻译中的应用。

简历简历简历简历::::

沈世奇,腾讯微信高级研究员,博士毕业于清华大学自然语言处理组。研究兴趣

包括机器翻译、结合深度学习的自然语言处理。在 ACL、IJCAI、EMNLP 等会议

发表论文多篇,研究成果被 Google Brain、Deepmind、Facebook AI Research、

斯坦福大学、哈佛大学、蒙特利尔大学、卡内基梅隆大学等国际知名研究组引用

参考,并被广泛应用于多家商业翻译系统中。个人主页:http://thunlp.org/~ssq/

Page 17: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

15

报告报告报告报告人人人人::::黄国平黄国平黄国平黄国平

题目题目题目题目::::人机交互式机器翻译人机交互式机器翻译人机交互式机器翻译人机交互式机器翻译

时间时间时间时间::::2012012012017777 年年年年 9999 月月月月 22228888 日日日日 10:5010:5010:5010:50————11:2011:2011:2011:20

地点地点地点地点::::国网辽宁省电力国网辽宁省电力国网辽宁省电力国网辽宁省电力有限公司大连培训中心有限公司大连培训中心有限公司大连培训中心有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

近年来,机器翻译研究取得了长足的进步,译文质量不断提高,在某些特定领域

和环境下已经开始投入实际应用。同时,计算机辅助翻译的生产效率也已达到瓶

颈。因此,研究如何将机器翻译与计算机辅助翻译结合起来,以进一步提高人工

翻译的效率,对于推动机器翻译技术在专业领域的应用,具有重要的理论意义和

应用价值。主要包括下列三方面内容:融合统计机器翻译知识的中文输入方法、

基于术语识别边界信息的术语识别和翻译方法、基于随机森林的统计翻译在线学

习方法。最后,总结了人机交互式机器翻译开发过程中遇到的关键问题和应对策

略。

简历简历简历简历::::

黄国平,腾讯 AI Lab 高级研究员,研究方向为机器翻译、自然语言处理,研究

兴趣包括面向人机互助的机器翻译和计算机辅助翻译。2017 年毕业于中国科学

院自动化研究所模式识别国家重点实验室。

Page 18: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

16

报告报告报告报告人人人人::::周浩周浩周浩周浩

题目题目题目题目::::Modeling Past and Future for Neural Machine

Translation

时间时间时间时间::::2012012012017777 年年年年 9999 月月月月 22228888 日日日日 11:2011:2011:2011:20————11:5011:5011:5011:50

地点地点地点地点::::国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心国网辽宁省电力有限公司大连培训中心 3333 号楼号楼号楼号楼 3333 楼楼楼楼报告厅报告厅报告厅报告厅

摘要摘要摘要摘要::::

Standard neural machine translation (NMT) models do not explicitly distinguish

the translated and untranslated source context in the decoder, which may lead

to under and over translation problems. To address the problem, we propose a

dynamic mechanism to model the complete source context, separating the

translated PAST and untranslated FUTURE contexts from decoder states

explicitly by introducing two additional recurrent layers. The PAST and FUTURE

layer states are both fed to the attention model and the decoder state, offering

information of translated and untranslated contents. In experiments, our

proposed approach significantly outperforms the baseline across Chinese-

English and German-English translation tasks.

简历简历简历简历::::

周浩于 2017 年在南京大学计算机科学与技术系获得博士学位,导师为陈家骏教

授,目前为今日头条人工智能实验室研究员。他的主要研究兴趣包括基于深度学

习的结构化学习,以及结构化学习在自然语言处理中的应用,如中文分词,句法

分析,机器翻译和文本生成等。

Page 19: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

17

论文论文论文论文报告报告报告报告 1111

Neural Machine Translation with Phrasal Attention

Yachao Li, Deyi Xiong and Min Zhang

Abstract: Attention-based neural machine translation (NMT) employs an attention network to

capture structural correspondences between the source and target language at the word level.

Unfortunately, alignments between source and target equivalents are complicated, which makes

word-level attention not adequate to model these relations (e.g., alignments between a source idiom

and its target translation). In order to handle this issue, we propose a phrase-level attention

mechanism to complement the word-level attention network in this paper. The proposed phrasal

attention framework is simple yet effective, keeping the strength of phrase-based statistical machine

translation (SMT) on the source side. Experiments on Chinese-to-English translation task

demonstrate that the proposed method is able to statistically improve word-level attention-based

NMT.

Keywords: neural machine translation; attention mechanism; recurrent neural network; gated

recurrent unit

Singleton Detection for Coreference Resolution via Multi-window and Multi-filter CNN

Kenan Li, Heyan Huang, Yuhang Guo, and Ping Jian

Abstract: Mention detection is the first and a key stage in most of coreference resolution systems.

Singleton mentions are the ones which appear only once and are not mentioned in the following

texts. Singleton mentions always affect the performance of coreference resolution systems. To

remove the singleton ones from the automatically predicted mentions, we propose a novel singleton

detection method based on multi-window and multi-filter convolutional neural network (MMCNN).

The MMCNN model can detect singleton mentions with less use of hand-designed features and

more sentence information. Experiments show that our system outperforms all the existing singleton

detection systems.

Keywords: Singleton Detection, Coreference Resolution, Convolutional Neural Network.

A Method of Unknown Words Processing for Neural Machine Translation Using HowNet

Shaotong Li, JinAn Xu, Yujie Zhang, and Yufeng Chen

Abstract: An inherent weakness of neural machine translation (NMT) systems is their inability to

correctly translate unknown words. Traditional unknown words processing methods are usually

based on word vectors trained on large scale of monolingual corpus. Replacing the unknown words

according to the similarity of word vectors. However, it suffers from two weaknesses: Firstly, the

resulting vectors of unknown words are not of high quality; Secondly, it is difficult to deal with

polysemous words. This paper proposes an unknown word processing method by integrating

HowNet. Using the concepts and sememes in HowNet to seek the replacement words of unknown

words. Experimental results show that our proposed method can not only improves the performance

of NMT, but also provides some advantages compared with the traditional unknown words

processing methods.

Keywords: NMT, Unknown words, HowNet, Concept, Sememe

Page 20: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

18

Word, Subword or Character? An Empirical Study of Granularity in Chinese-English NMT

Yining Wang, Long Zhou, Jiajun Zhang, Chengqing Zong

Abstract: Neural machine translation (NMT) becomes a new approach to machine translation and

is proved to outperform conventional statistical machine translation (SMT) across a variety of

language pairs. Most existing NMT systems operate with a fixed vocabulary, but translation is an

open-vocabulary problem. Hence, previous works mainly handle rare and unknown words by using

different translation granularities, such as character, subword, and hybrid word-character. While

translation involving Chinese has been proved to be one of the most difficult tasks, there is no study

to demonstrate which translation granularity is the most suitable for Chinese in NMT. In this paper,

we conduct an extensive comparison using Chinese-English NMT as a case study. Furthermore, we

discuss the advantages and disadvantages of various translation granularities in detail. Our

experiments show that subword model performs best for Chinese-to-English translation while

hybrid word-character model is most suitable for English-to-Chinese translation.

Page 21: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

19

论文论文论文论文报告报告报告报告 2222

基于基于基于基于 RNN 和和和和 CNN 的蒙汉神经机器翻译研究的蒙汉神经机器翻译研究的蒙汉神经机器翻译研究的蒙汉神经机器翻译研究

包乌格德勒,赵小兵

摘要摘要摘要摘要::::本文探讨了基于 RNN 和 CNN 的蒙汉神经机器翻译模型,分别采用蒙古文的词模型、

切分模型和子词模型作为翻译框架的输入信号,并与传统的基于短语的 SMT 进行了比较分

析。实验结果表明,子词模型可以有效地提高 CNN NMT 的翻译质量。同时实验结果也表

明,基于 RNN 的蒙汉 NMT 模型的翻译性能已经超过传统的基于短语的蒙汉 SMT 模型。

关键词关键词关键词关键词::::循环神经网络;卷积神经网络;神经机器翻译

An Unknown Word Processing Method in NMT by Integrating Syntactic Structure and

Semantic Concept

Guoyi Miao, Jinan Xu, Yancui Li, Shaotong Li, and Yufeng Chen

Abstract: The unknown words in neural machine translation(NMT) may undermine the integrity

of sentence structure,increase ambiguity and have adverse effect on the translation. In order to

solve this problem, we propose a method of processing unknown words in NMT based on

integrating syntactic structure and semantic concept. Firstly, the semantic concept network is used

to construct the set of in-vocabulary synonyms corresponding to the unknown words. Secondly, a

semantic similarity calculation method based on the syntactic structure and semantic concept is

proposed. The best substitute is selected from the set of in-vocabulary synonyms by calculating the

semantic similarity between the unknown words and their candidate substitutes. English-Chinese

translation experiments demonstrate that this method can maintain the semantic integrity of the

source language sentences. Meanwhile, in performance, our proposed method can obtain an

improvement by 2.9 BLEU points when compared with the conventional NMT method, and the

method can also achieve an improvement by 0.95 BLEU points when compared with the traditional

method of positioning the UNK character based on word alignment information.

Keywords: NMT, Unknown Word, Syntactic Structure, Semantic Concept

RGraph: Generating Reference Graphs for Better Machine Translation Evaluation

Hongjie Ji, Shujian Huang, Qi Hou, Cunyan Yin, and Jiajun Chen

Abstract: Statistical machine translation systems perform parameter learning (i.e. training) basing

on automatic translation evaluation methods, which usually evaluate the translation quality

according to one or more human-translated references. Although producing more references would

improve the coverage of translation choices and lead to improved training performances, only

several references are used due to the cost of human translation. In this paper, we propose automatic

methods to explore the information among the limited references. By generating a reference graph

(RGraph) from given references, we could automatically generate exponential number of references.

These diverse references make it possible to better evaluate each individual translations, without

using any other resources. Experiments showed that our RGraph could improve the evaluation

performance and lead to better tuned machine translation systems. The method could be extended

to improve the evaluation with single reference as well.

Page 22: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

20

基于层次短语翻译模型的语言生成的研究基于层次短语翻译模型的语言生成的研究基于层次短语翻译模型的语言生成的研究基于层次短语翻译模型的语言生成的研究

柴强,李军辉,孔芳

摘要摘要摘要摘要::::语言生成的目的在于把语义表达式翻译成为自然语言。本文将语言生成看作是一个基

于层次短语的机器翻译的任务,即将语义表达式看作是机器翻译的源语言,自然语言看作是

目标语言。针对语言生成任务的特点,本文从两个方面改进翻译的方法,从而提高语言生成

的性能:首先,探索几种不同对齐方式,分析并归纳出适合语言生成的对齐方式;其次,针

对翻译的 n-best 结果,本文提出一种过滤的方法,该方法根据源端预测的问题答案类型,进

一步筛选出最可能的语言生成结果。本文采用的实验语料是美国地理信息句子集

(GeoQuery)。实验结果表明,本文所采用的方法适用于中英文自然语言的生成。此外,由

于自然语言表达的多样性,使用单一的参照的机器翻译评测指标往往不能真实地反映翻译的

性能,为此,本文对中文和英文分别人工标注了多参照,以更准确地评测本文方法的性能。

多参照的评测同样表明了本文方法显著地提高了语言生成的性能。

关键词关键词关键词关键词::::语言生成;机器翻译;词对齐;过滤;多个参照

基于数据增强技术的神经机器翻基于数据增强技术的神经机器翻基于数据增强技术的神经机器翻基于数据增强技术的神经机器翻译译译译

蔡子龙,杨明明,熊德意

摘要摘要摘要摘要::::神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经

机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现

一般。本文利用数据增强技术对低资源语种的训练数据进行扩充,以此增强神经机器翻译

的泛化能力。本文在平行句对仅有 10 万的藏汉语种上进行了实验,较于基准系统,取得了

4 个 bleu 值的提高。实验表明,数据增强技术可以有效地解决神经机器翻译因为训练数据

太少而导致的泛化能力不足问题。

关键词关键词关键词关键词::::神经机器翻译;数据增强技术;泛化

Page 23: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

21

海报展示海报展示海报展示海报展示

时间: 2017 年 9 月 28 日 09:00—09:50

地点: 培训中心 3号楼 3 楼报告厅

01 ENTF: An Entropy-based MT Evaluation Metric

Hui Yu, Weizhi Xu, Shouxun Lin, and Qun Liu

Abstract: The widely-used automatic evaluation metrics cannot adequately reflect the fluency of the

translations. The n-gram-based metrics, like BLEU, limit the maximum length of matched fragments

to n and cannot catch the matched fragments longer than n, so they can only reflect the fluency

indirectly. METEOR, which is not limited by n-gram, uses the number of matched chunks but it does

not consider the length of each chunk. In this paper, we propose an entropy-based metric (ENTF),

which can sufficiently reflect the fluency of translations through the distribution of matched words.

To evaluate the accuracy, we also introduce the unigram F-score into the new metric. Experiment

shows that ENTF obtains state-of-the-art performance on system level, and is comparable with

METEOR on sentence level on into English direction on WMT 2012, WMT 2013 and WMT 2014.

Keywords: Automatic evaluation metric, Machine translation, Entropy-based metric

02 Translation Oriented Sentence Level Collocation Identification and Extraction

Xiaoxia Liu and Degen Huang

Abstract: The technique to identify and extract collocations in a given sentence is very important to

sentence understanding, analysing and translating. So we propose a sentence level collocation

identification and extraction method which follows the traditional two phase collocation extraction

model. In candidate generating phase, we use the dependency parsing results directly, while in the

filtering phase, we propose to use the latest model of distributional semantics word embedding based

similarity to filter the noises. For each candidate, three word embedding based similarity rankings will

be obtained and accordingly to decide if it is a real collocation. The experimental results show that

the proposed filtering method performs better than the traditional well-known association measures.

The comparison with the baseline system shows that the proposed method can retrieve more

collocations with higher precision than the baseline, which is of significance to sentence related

natural language processing tasks.

Keywords: Word-embedding, Association measure, Collocation extraction, Collocation

identification

03 Combining Domain Knowledge and Deep Learning Makes NMT More Adaptive

Liang Ding, Yanqing He, Lei Zhou, and Qingmin Liu

Abstract: In both SMT (statistical machine translation) and NMT (neural machine translation),

training data often varies in source, theme and genre. It is less likely that the training data and texts in

practical translation fall into a same domain, leading to a sub-optimal performance. Domain

adaptation is to address such problems. Existing domain adaptive approach in machine translation

employs topic model to obtain topic information. However, thus domain labels can be very much

limited to in-domain and out-of-domain, when dividing topics into two types, without any more

specific labels. We propose a novel domain adaptive approach to annotate Chinese sentences with

CLCN (Chinese Library Classification Number) as the domain labels. We design a deep fusion model

of neural network to combine two annotating models, including one applying a domain knowledge

Page 24: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

22

base built on thesis keywords and Chinese Scientific and Technical Vocabulary System, and the other

applying deep learning method based on a CNN. Then, we have the fused domain annotator to filter

the training data of NMT according to the test data. After running two predefined domain test sets on

a NMT system trained by only partial of the original training data, we achieve an average 1.3 BLEU

score improvement (5.4% relative), which demonstrates the feasibility and validity of proposed

approach.

Keywords: NMT, Training Data Selection, Domain Adaptation, Neural Net-work Deep Fusion Model

04 Handling Many-To-One UNK Translation for Neural Machine Translation

Li Fuxue, Du Quan, Wang Qiang, Xiao Tong, and Zhu Jingbo

Abstract: Neural machine translation has achieved remarkable progress recently, but it is restricted

by a limited vocabulary due to the computation complexity. All words out of the vocabulary are

replaced with a single UNK, and the UNK in translation results will hurt the quality of translation. In

this paper, a UNK translation method is proposed to handle the unknown word issue in neural machine

translation. It uses n-best source alignment candidates for UNK translation, and can handle both word

level (one-to-one) and phrase level (many-to-one) source-UNK alignment. Experiments on Chinese-

to-English task shows that our method achieves a +0.73 BLEU improvement over the NMT baseline

that has already employed a good UNK translation module.

Keywords: NMT, UNK Translation, Many To One

05 A Content-based Neural Reordering Model for Statistical Machine Translation

Pan Yirong, Li Xiao, Yang Yating, Mi Chenggang, Dong Rui, and Zeng Wenxiao

Abstract: Phrase-based lexicalized reordering models have attracted extensive interest in statistical

machine translation (SMT) due to their capacity for dealing with swap between consecutive phrases.

However, translations between two languages that with significant differences in syntactic structure

have made it challenging to generate a semantically and syntactically correct word sequence. In an

effort to alleviate this problem, we propose a novel content-based neural reordering model that

estimates reordering probabilities based on the words of its surrounding contexts. We first utilize a

simple convolutional neural network (CNN) to capture semantic contents conditioned on various sizes

of context. And then we employ a softmax layer to predict the reordering orientations and probability

distributions. Experimental results show that our model provides statistically obvious improvements

for both Chinese-Uyghur (+0.48 on CWMT2015) and Chinese-English (+0.27 on CWMT2013)

translation tasks over conventional lexicalized reordering models.

Keywords: Lexicalized Reordering Models, Statistical Machine Translation, Neural Reordering

Model, Reordering Probabilities, Semantic Contents.

06

基于数据并行的神经语言模型多卡训练分析基于数据并行的神经语言模型多卡训练分析基于数据并行的神经语言模型多卡训练分析基于数据并行的神经语言模型多卡训练分析

李垠桥,阿敏巴雅尔,薄乐,肖桐,朱靖波,张俐

摘要摘要摘要摘要::::数据并行训练神经语言模型旨在不改变网络结构的同时,大幅度降低训练所带来的时

间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。本文通过实验对比

All-Reduce 算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了 4 块 NVIDIA

TITAN X (Pascal) GPU 设备在循环神经语言模型上进行训练,两种方法分别可获得约 25%和

41%的速度提升。同时,本文还针对数据并行方法的适用性以及不同的硬件设备连接方式对传

输速度的影响进行了讨论。

关键词关键词关键词关键词::::数据并行;神经语言模型;All-Reduce;采样

Page 25: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

23

07

训练语料的不同利用方式对神经机器翻译模型的影响训练语料的不同利用方式对神经机器翻译模型的影响训练语料的不同利用方式对神经机器翻译模型的影响训练语料的不同利用方式对神经机器翻译模型的影响

邝少辉,熊德意

摘要摘要摘要摘要::::神经机器翻译(NMT)是近两年刚出现的一种新型机器翻译方法,是一种端到端的翻

译模型。目前,影响 NMT 模型效果的因素有很多,其一,当训练语料规模较大时,梯度下

降更新方法会对机器的内存要求很高,因此大多研究工作中采用随机梯度下降(SGD)的方

法来更新模型的训练参数,即每输入一定数量(batch)的训练样例,就利用局部的训练样例

更新一次模型参数;其二,参数 dropout 可以防止系统训练时出现过拟合,提高系统泛化能

力;其三,数据打乱(shuffle)也对翻译结果有着重要影响。因此,本文的研究内容主要是

探索 batch,dropout 和 shuffle 这三个因素在训练 NMT 模型过程中对模型翻译质量的影响。

并得出以下三条结论:一是 batch 的大小将影响 NMT 模型的收敛速度,二是 dropout 可以提

升 NMT 模型的性能,三是数据 shuffle 可以在一定程度上提升 NMT 系统的翻译质量。

关键词关键词关键词关键词::::神经机器翻译;随机梯度下降;batch;dropout;数据 shuffle

08

(Demo1)

系统名称系统名称系统名称系统名称::::BJTUNMT

作者作者作者作者::::北京交通大学北京交通大学北京交通大学北京交通大学 NLP 研究组研究组研究组研究组

系统功能

1.英汉、汉英通用领域翻译;

2.日汉、汉日专利领域翻译;

3.藏汉、维汉,蒙汉翻译。

技术细节

1. 基于 RNNSearch 架构(RNN+attention,单层 decoder,单层 decoder);

2. 使用 BPE 模型解决集外词问题;

3. 使用模型 ensemble 技术;

4. 加入长度 normalizing 和覆盖度惩罚因子进行结果 rerank。

备注

日汉、汉日专利领域翻译为本研究组和知识产权出版社有限责任公司合作项目。

因此日汉、汉日专利领域翻译子模块的系统名称为“I 译引擎”,作者为“知识产权出版

社有限责任公司&北京交通大学 NLP 研究组”。

09

(Demo2)

系统名称系统名称系统名称系统名称::::THUMT 神经机器翻译系统神经机器翻译系统神经机器翻译系统神经机器翻译系统

作者作者作者作者::::张嘉成张嘉成张嘉成张嘉成,,,,丁延卓丁延卓丁延卓丁延卓,,,,沈世奇沈世奇沈世奇沈世奇,,,,程勇程勇程勇程勇,,,,孙茂松孙茂松孙茂松孙茂松,,,,栾焕博栾焕博栾焕博栾焕博,,,,刘洋刘洋刘洋刘洋

THUMT 是一个开源的神经网络机器翻译工具包,由清华大学自然语言处理与社会人文计算

实验室开发。THUMT 使用 python 编写,基于 Theano 框架。

THUMT 具有以下特点具有以下特点具有以下特点具有以下特点::::

1.包含标准的基于注意力的端到端神经机器翻译框架

2.支持最小风险训练(Minimum risk training),针对评价指标进行优化训练,有效提升

翻译质量。

3.支持半监督学习(semi-supervised training),利用丰富的单语语料同时提升源到目标和

目标到源双向的翻译效果。

4.提供可视化工具,通过层级之间相关性传播的方法,计算任意两个节点之间相关程

度,帮助人们更好地理解神经机器翻译的内部工作原理。

THUMT 的网站:thumt.thunlp.org

GitHub 链接:https://github.com/thumt/THUMT

Page 26: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

24

10

(Demo3)

系统名称系统名称系统名称系统名称::::SudaNMT

作者作者作者作者::::苏州大学机器翻译研究组苏州大学机器翻译研究组苏州大学机器翻译研究组苏州大学机器翻译研究组((((蔡子龙蔡子龙蔡子龙蔡子龙,,,,邝少辉邝少辉邝少辉邝少辉,,,,许雪莹许雪莹许雪莹许雪莹,,,,张诗奇张诗奇张诗奇张诗奇,,,,熊德意熊德意熊德意熊德意))))

系统功能系统功能系统功能系统功能:

1.通用领域翻译:英汉、汉英、英阿、阿英、阿汉、汉阿、葡汉、汉葡

2.电商领域翻译:英汉、汉英

3.专利领域翻译:汉英

4.对话领域翻译:越汉

技术细节技术细节技术细节技术细节::::

1. 基于 RNNSearch 架构(attention-based NMT)。

2. 使用 BPE 模型解决集外词问题。

3. 利用多层 dropout 对网络参数进行优化。

4. 解码中加入长度 normalizing 和覆盖度惩罚因子。

5. 更多自主技术添加中(篇章翻译、新架构、新注意力机制等)

备注备注备注备注::::

阿汉、阿英双向通用领域翻译为本研究组对外合作项目。

11

(Demo4)

系统名称系统名称系统名称系统名称:::: Um2T 中葡在线神经机器翻译系统中葡在线神经机器翻译系统中葡在线神经机器翻译系统中葡在线神经机器翻译系统

作者作者作者作者: 澳门大学自然语言处理与中葡机器翻译实验室澳门大学自然语言处理与中葡机器翻译实验室澳门大学自然语言处理与中葡机器翻译实验室澳门大学自然语言处理与中葡机器翻译实验室((((欧志雄欧志雄欧志雄欧志雄,,,,杨宝嵩杨宝嵩杨宝嵩杨宝嵩,,,,李强李强李强李强,,,,黄辉黄辉黄辉黄辉,,,,周沁周沁周沁周沁)

Um2T 是一套基于神经网络的的在线机器翻译系统,由澳门大学自然语言处理与中葡机器翻

译实验室开发,目前主要提供中葡、葡中的翻译。

Um2TUm2TUm2TUm2T 的主要功能包括的主要功能包括的主要功能包括的主要功能包括::::

1.中葡、葡中翻译

2.中文繁简转换,提升华语地区不同用户群体验

3.自动识别人名、地名等专有名词;动态地定制个性化的专有名词的翻译。

Um2TUm2TUm2TUm2T 的技术细节的技术细节的技术细节的技术细节::::

1.基于 Local Attention 的多层 RNN 架构。

2.使用 BPE 与泛化技术缓解集外词问题。

3.翻译结果长度归一化与长度惩罚。

4.多层 Dropout 优化模型。

Um2T 在线机器翻译系统网址:http://nlp2ct.cis.umac.mo/NMT/

12

(Demo5)

名称名称名称名称::::小牛翻译小牛翻译小牛翻译小牛翻译((((NiuTrans))))

单位单位单位单位::::沈阳雅译网络技术有限公司沈阳雅译网络技术有限公司沈阳雅译网络技术有限公司沈阳雅译网络技术有限公司

•东北大学小牛翻译团队自主研发,37 年研究积累。2016 年获得国内自然语言处理领域

最高科学技术奖——钱伟长中文信息处理科学技术奖一等奖,首次颁奖给机器翻译研究团队

•支持中文与 44 种语言互译,其中包括“维藏蒙哈朝彝壮”七大少数民族语言翻译,与

国内外四十多家合作伙伴(包括腾讯和科大讯飞)建立战略合作关系

Page 27: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

25

会议会议会议会议交通交通交通交通

会议会议会议会议地点地点地点地点

国网辽宁省电力有限公司大连培训中心(万达高新店附近)

到达会场方式到达会场方式到达会场方式到达会场方式

大连站:

路线 1: 可直接乘地铁 2 号线(友好广场站——西安路站),换乘

地铁 1 号线(西安路站——海事大学站),步行 700 米即

到。总时长约 57 分钟。

路线 2:可直接乘坐 531 路公交车(大连火车站——万达广场站),

步行 830 米即到。总时长约 1 小时 24 分钟。

路线 3:打车,距离约 13.1 公里,时间约 54 分钟。

大连北站:

路线 1:可直接乘地铁 1 号线(大连北站——海事大学站),步行

900 米即到。时间约 57 分钟。

路线 2:打车距离约 23 公里,时间约 40 分钟

周水子机场:

路线 1:可直接乘地铁 2 号线(机场站——西安路站),换乘地铁 1

号线(西安路站——海事大学站)步行 900 米即到。时间约

1 小时 3 分钟。

路线 2:打车距离约 14.6 公里,打车 32 分钟

Tips: 请大家注意地铁运行时间:

一号线,大连北站,05:59-21:29。

二号线,青泥洼桥站,06:11-21:41;机场站,05:54-21:33。

大连出租收费标准

描述描述描述描述 起步价起步价起步价起步价((((元元元元)))) 单价单价单价单价((((元元元元/公里公里公里公里)))) 总费用总费用总费用总费用((((元元元元))))

白天(05:00-22:00) 10.0 2.0 34

夜间(22:00-05:00) 13.0 2.6 44

Page 28: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

26

步行指南步行指南步行指南步行指南::::

大连火车站大连火车站大连火车站大连火车站---531 站站站站

海事大学站海事大学站海事大学站海事大学站/万达广场站万达广场站万达广场站万达广场站---大连培训中心大连培训中心大连培训中心大连培训中心

Page 29: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

27

大连风景大连风景大连风景大连风景

� 滨海路滨海路滨海路滨海路

大连的滨海路全长 40 多公里,而供游客游玩的路段大约 30 公里,为了方便游客游玩,

大连把这三十多里全部铺成了木栈道,这一段的木栈道已成为吉尼斯世界记录。滨海路也是

历年大连国际徒步大会的主会场路线,途径星海广场(可远观星海湾跨海大桥),金沙滩,

银沙滩,傅家庄海滨公园,北大桥,燕窝岭景区,棒槌岛,石槽村,渔人码头,老虎滩海洋

公园,海之韵公园,东港等诸多景点。

Tips:可从火车站乘坐大连旅游环路公交(8:00-16:30),每半小时一趟,票价 10 元,当日有效。沿滨海路

行驶,几乎每个景点都有站,凭票可从任意站点下车游玩后再次乘车,无需再次购票。建议挑选自己感兴

趣的景点下车游玩,注意发车时间。

� 西郊森林西郊森林西郊森林西郊森林公园公园公园公园景区景区景区景区

西郊森林公园景区位于大连郊区,区域跨越了张家、棠梨、柳树、岔鞍 4 个行政村,总

占地面积 59.58 平方公里,是典型的丘陵山地地貌,山体海拔在三四百米左右。景区主要分

为:柳树景区、棠梨景区、岔鞍景区、刘家景区四部分,2011 年正式被国家旅游局批准为

“国家 4A 级旅游景区”。这里群山环抱,碧水相依,适合对大海没有特别兴趣的游客。

Tips:如有泡温泉的计划可提前微信关注“成园温泉山庄”,微信会员门票经常有优惠哦!

� 金石滩金石滩金石滩金石滩

金石滩是国家级风景名胜区、国家级旅游度假区、国家 AAAAA 级旅游景区、国家级地

质公园。海域面积 58 平方公里,三面环海,冬暖夏凉,气候宜人,凝聚了 3-9 亿年地质奇

Page 30: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

28

观,有“神力雕塑公园”之美誉。主要景点有黄金海岸、金石园、滨海地质公园、金石蜡像

馆、生命奥秘博物馆、发现王国等。

� 别样别样别样别样大连大连大连大连

� 东东东东港港港港音乐音乐音乐音乐喷泉喷泉喷泉喷泉

东港音乐喷泉分为春之韵、夏之夜、秋之情、冬之梦四个篇章,每个篇章变频方阵主要

有莲花朵朵、云海茫茫、海鸥展翅、花开盛世、水火雾、蝶恋花等多种形式,最高水柱可达

到 80 米。东港灯光音乐喷泉每天四场,时间分别是 9:30—10:00、15:00—15:30、19:

00—19:20、20:30—20:50。

Tips:大连温差较大,晚上去看喷泉表演要注意适量添加衣物。另外早点去可占个好位置哦!

� 201201201201 老电车老电车老电车老电车

大连有轨电车,始于 1909 年满洲日殖民时期,是中国内地少有的有轨电车未曾中断的

城市。由于城市发展的需要,现在大连仅存两条有轨电车线路-201 路与 202 路。其中 202

路有轨电车早已随着时代的发展,全部更换为改良过的新型有轨电车,仅有部分 201 有轨电

车,依旧承载着这座城市的记忆,仍保留运营着部分最古老的红皮车与绿皮车。

Page 31: 第十三届全国机器翻译研讨会 - dlut.edu.cnee.dlut.edu.cn/CWMT2017/files/schedule.pdf · 2 弹议简介弹议简介 第十三届全国机器翻译研讨会(cwmt 2017)于2017年9月27-29日在中国大连举行。

第十三届全国机器翻译研讨会第十三届全国机器翻译研讨会第十三届全国机器翻译研讨会第十三届全国机器翻译研讨会(CWMT 2017)(CWMT 2017)(CWMT 2017)(CWMT 2017)

白金赞助商

中译语通 腾讯翻译君

Systran S.A. 爱特曼

金牌赞助商

银牌赞助商