༄༅...

57
༄༄ ༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄ ༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄༄ ༄༄༄༄༄༄༄༄༄༄༄༄༄ 藏藏藏藏藏藏藏藏藏藏藏藏藏 藏藏藏藏藏藏 藏藏 西 [email protected]

description

༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད། 藏文信息处理的关键技术研究. 西藏大学工学院 欧珠 [email protected]. 报告内容. 藏文信息处理学科背景. 藏文信息处理技术回顾. 输入输出系统 藏文办公、书刊及公文系统 藏文字处理 藏文操作系统 藏语自然语言处理 ………………. 藏文编码字符集系统 基础与共性藏文软件 推广与应用. 藏语自然语言处理研究 藏文模式识别与人工智能 藏文网络技术 藏文数字媒体技术研究 ……………. - PowerPoint PPT Presentation

Transcript of ༄༅...

Page 1: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

༄༅ བོ� ད་ཡི ག་ཆ་འཕྲི ན་སྒྲི ག་གཅོ� ད་སྐོ� ར་གྱི ་གཙོ� ་གནད་ལག་རྩལ་ངོ� ་སྤྲོ� ད། 藏文信息处理的关键

技术研究

西藏大学工学院 欧珠[email protected]

Page 2: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

报告内容

藏文信息处理技术回顾

藏语自然语言处理研究

藏文模式识别与人工智能

藏文网络技术

藏文数字媒体技术研究

…………….

输入输出系统

藏文办公、书刊及公文系统

藏文字处理

藏文操作系统

藏语自然语言处理………………..

藏文信息处理关键技术

藏文编码字符集系统

基础与共性藏文软件

推广与应用

藏文信息处理学科背景

典型平台及应用

Page 3: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

中国语言文学 计算机科学与技术

文学 工学

藏语言文学

计算机应用技术

藏文信息技术

一、背景材料 藏文信息处理技术的学科组成

Page 4: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏文信息处理技术?

•藏文信息处理是用计算机对藏语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。

Page 5: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

一、藏文信息技术标准

GB 16959-1997《信息技术 信息交换用藏文编码字符集 基本集》

GB/T 20542-2006《信息技术 藏文编码字符集 扩充集 A 》

GB/T 22238-2008《信息技术 藏文编码字符集 扩充集 B 》

GB/T 22034-2008《信息技术 藏文编码字符集键盘字母数字区的布局》

GB/T 22323-2008 《信息技术 藏文编码字符集 ( 基本集及扩充集 A)

24×48点阵字型 吾坚琼体》

GB 25913-2010 信息技术 藏文编码字符集 ( 扩充集 B) 24×48点阵字型 吾坚琼体》

GB 25911-2010 《信息技术 藏文编码字符集 24×48点阵字型 朱匝体》

GB 25912-2010 《 信息技术 藏文编码字符集 24×48点阵字型 白徂体》

Page 6: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

一、藏文信息技术标准 (ISO/IEC 10646)

Tibetan set

Page 7: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

八思巴文编码字符集

Page 8: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

一、藏文信息技术标准 (GB)

Page 9: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

一、藏文信息技术标准 (GB)

Page 10: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

一、藏文信息技术标准 (GB)

Page 11: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

一、信息技术用藏文信息标准

这些标准的制定,解决了长期以来国内外藏文信息处理软件产品不相兼容、不同产品产生的数据无法交换和共享的问题。

实现模式: 编码字符数据元素内不包含组合用字符的编码表示;

使用组合用字符,即动态组合方式。

Page 12: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

二、藏文基础和共性软件

基于 Linux的藏文操作系统 Windows平台上藏文浏览器及网页制作工具 藏文之星 FOR Windows

藏文办公套件 Tibetan Office 汉藏在线翻译多媒体电子词典 藏文输入法(键盘输入、识别输入及语音输入) 各种应用系统

Page 13: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

这些项目的成果填补了国内外空白, 2008年 5 月经专家鉴定,认为这些项目有的属于自主创新,有的属于集成创新,有的属于技术创新,有的属于应用创新,都处于国际领先水平或同类产品国际先进水平。

二、藏文基础和共性软件

Page 14: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

二、藏文基础和共性软件

Page 15: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏文 OCR 系统

Page 16: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

跨平台藏文办公套件

Page 17: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏文 Linux 操作系统

Page 18: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

三、高等级科研项目的获得

教育部高等学校科技创新工程重大项目培育基金项目——藏文文字识别技术研究与实现

国家自然科学基金项目——木刻藏文经书识别系统中特征提取算法的研究

国家自然科学基金项目——基于 DOM树语义修剪的藏文 Web信息提取算法研究

科技部 863项目“藏文 Windows平台”项目 973前期研究专项课题 ——藏语语音识别技术研究

这些项目的研究在藏文信息处理高端领域具有划时代的标志,在中文信息技术理论研究方面有重要的学术价值和广泛的应用,对藏文信息技术的进一步研究具有指导性意义。

Page 19: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

四、推广应用

2009年 1 月 10 日上午,由西藏大学承担的自治区“十一五”发展规划项目“藏文软件研发和推广应用”启动仪式在拉萨举行。自治区主席向巴平措同志到会并发表重要讲话。自治区常务副主席、自治区“藏文软件研发和推广应用”项目领导小组组长吴英杰出席了启动仪式。

Page 20: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

四、推广应用

推广的产品有:Linux藏文桌面系统藏文办公套件 Tibetan-Office藏大岗杰藏文输入系统藏文之星 For Windows汉藏在线翻译多媒体电子词典与西藏电信合作项目——藏文手持设

备 / 通信终端研发文曲星藏汉电子词典

Page 21: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

四、推广应用

Page 22: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

四、推广应用

截止目前已向西藏拉萨市、昌都地区、林芝地区、山南地区、阿里地区、日喀则地区、那曲地区以及拉萨的中直、区直单位,共赠送了9480 套软件,计算机 260台,打印机 80 台,价值 350万元,培训学员共 1000 余人。

Page 23: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏文输入输出技术• 藏语拉萨语连续语音识别• 小键盘智能拼音输入• 藏语手写识别输入• 高自然度藏语语音合成• 视频藏文字识别

机器翻译:电子词典、藏化(或屏幕)翻译、全文翻译和辅助翻译等类型• 藏汉、藏英机器翻译• 为藏族人服务的汉英文辅助写作

五、涉及关键技术及产品

Page 24: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

五、涉及关键技术及产品

信息检索• 搜索引擎

搜索引擎 以搜索引擎技术为基础的网络信息服务

• 文本挖掘从大量文本中挖掘知识

内容安全• 垃圾邮件 / 短信过滤• 有害(反动、色情)网页监控

语言学习• 面向藏区人的汉语英语教学

语言学习、语音校正 面向国人 ( 国外 ) 的藏语教学

Page 25: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

不同的术语与所指

• 计算语言学( Computational Linguistics, CL )• 自然语言处理( Natural Language Processing, NLP )• 自然语言理解( Natural Language Understanding, NLU

)• 人类语言技术( Human Language Technology, HLT )• 语言信息处理( Language Processing Technology , LPT

)• (大致相同,又各有侧重。)• 藏文信息处理( Tibetan Information Processing, TIP )• —— 藏字信息处理 (Tibetan Characters Processing)• —— 藏语信息处理• ( Tibetan Information Processing, TIP )

Page 26: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

计算语言学

计算语言学的研究对象是自然语言自然语言与形式语言的本质区别是歧义性自然语言是一种符号系统自然语言处理( natural language processing, NLP)

就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。

Page 27: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

各种语言数据资源及其相互支撑

Page 28: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏语计算语言学

研究方向之一——藏语信息处理基础资源的研究与建设

藏语计算词典学 藏语综合型语言知识库 藏语语料库语言学 藏语语法信息词典 术语学 探讨藏语计算词典的组织 语料库加工 知识库的构建等。

Page 29: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏语计算语言学

研究方向之二——藏语计算语言学理论 计算语言学的基础理论:包括藏文编码标准理论体系结

构、自然语言处理核心技术、藏语语法、藏语的词 / 句法 / 语义分析;

研究藏语语言模型与分析技术、 藏语计算语义学; 语言处理的信息论方法; 藏语术语学与术语标准化; 藏语信息检索方法 计算机辅助藏语学习方法。

Page 30: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏语计算语言学

• 研究方向之三——基础应用技术• 研究机器翻译的方法、技术与系统实现;• 研究智能检索• 文本分类• 自动文摘• 信息提取• 人机对话• 语音自动识别与合成• 文字自动识别等系统的实现;• 自然语言信息处理系统的评价方法和技术等。

Page 31: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

关于一般的自然语言处理系统

Page 32: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

六、关键性的基础技术

藏语标准的词典资源和语料库资源的建设 藏语短语分析和句法分析 藏语词义消歧和语义分析 藏汉藏英双语语料库句对齐、词对齐技术 翻译知识的自动获取技术 藏语语音识别中非特定人自适应 藏语语音识别中的结构化语言模型 藏语语音合成中的韵律模型技术,包括停顿和重音的标注与生

成问题 海量文本数据的高速索引、匹配技术

Page 33: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

六、关键性的应用技术

藏语言键盘手写语音统一输入系统技术 噪声背景下非特定人连续语音识别技术 高自然度情感语音合成技术 视频中文字图像的识别以及相应的视频分类检索技术 专用领域的全自动机器翻译和通用领域的辅助翻译技术 口语语音学习及校正技术 智能型问答式信息检索技术 跨语言、多语言信息检索以及语音检索技术 互联网藏文信息采集、过滤、分类、跟踪、汇总等技术 垃圾邮件(藏文)过滤技术

Page 34: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏文文编码字符集及其配套标准体系工作

信息处理用藏语词类标记集规范 信息处理用现代藏语分词规范 各种藏文点阵字体标准,特别是小点阵字库标准 藏文用公文办公版式标准 信息处理用藏文术语标准 信息技术用藏文编码标准 扩充集 C…… ……………..

Page 35: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

信息处理用现代藏语分词规范标准

基于在计算机中处理藏语真实文本的需要,本规范中的符号,既要覆盖语言学意义上的词,还要覆盖比词小的单位,如前接成分 ( 前缀 ) 、中接成分(中缀)、后接成分 ( 后缀 ) 等,以及比词更大的单位,如成语、习用语、简称、略语以及标点符号、非藏文符号等。只有这样,本规范才能提供藏语信息处理所需的信息

Page 36: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

信息处理用藏语词类标记集规范

Page 37: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏语统一输入法计算应用开发模式

Page 38: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏语语音识别技术

对复杂音频信号进行自动切分和信息分离的语音自动分割技术; 针对信道和噪声、说话人差异处理的声学特征鲁棒性处理及变换

技术; 针对多风格、多语种的声学模型建模及区分性训练技术; 基于高阶 N-gram模型的大规模语言模型训练技术; 高精度快速解码技术及多遍解码框架研究; 针对定制说话人的声学模型及语言模型自适应技术以及区分性自适应的深入研究。

Page 39: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

基于“云计算”的语音识别技术

云计算平台的海量数据吞吐和分布式计算能力• 针对包括声学特征鲁棒性处理• 声学模型和语言模型训练

充分利用云计算平台具有超大规模并行运算能力的特点,在保证语音识别核心效果的前提下极大加速处理的效率,快速地完成语音识别目标模型的训练和语音识别系统的自动构建是云计算语音识别技术的重要研究内容之一。

云计算平台使得面对海量用户提供语音识别服务成为可能,面向海量用户提供个性化语音识别服务也是云计算识别技术的重要研究内容。如藏语手机短信云计算服务。

Page 40: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏语语音识别技术

Page 41: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏语语音云计算基础实验平台系统架构

Page 42: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

分句处理 字符集处理

基本分词处理衍生词处理特殊符号处理

英文处理 未登录词识别 词类调整

多音字调整韵律词处理韵律短语划分

文本输入

语音树输出 后端处理 语音输出

语音合成前端内容

Page 43: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

1 、韵律标注规则

藏语语料库构建

Page 44: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

དགུན་ཁའ ་དུས་སུ་འཁྱག་པས་གཉི ད་མ་ཁུགdgun khavi dus su vkhyag pas gnyid ma khug

2 、韵律标注示例

藏语语料库构建

Page 45: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

3 、辅音字母和元音字母拉丁转换对应表

藏语语料库构建

Page 46: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

藏语语音合成平台

Page 47: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

面向互联网的藏文语音合成服务系统

Page 48: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

几种典型应用—汉藏辅助机器翻译( 1 )

Page 49: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

• 预处理研究

• 分词算法设计

• 后处理研究

几种典型应用—汉藏辅助机器翻译( 2 )

Page 50: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

• 汉藏句型结构对比

• 汉藏翻译规则分析

• 汉藏句型转换算法设计

• 藏文句子相似度算法研究

if s!="W" s=s+tmp[s]else s=s+tx[t]

几种典型应用—汉藏辅助机器翻译( 3 )

Page 51: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

几种典型应用—汉藏辅助机器翻译( 4 )

Page 52: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

可能形成的技术产品

• 具有智能输入和垃圾短信自动过滤等功能的藏语智能手机软件;

• 智能化的网络藏文新闻自动采集、分类、过滤、分析服务平台,包括高自然度的藏文新闻朗读系统;

• 特定域问答式的互联网搜索引擎;• 面向藏区人的汉语外语学习辅助系统,包括听说读写等全

方位的辅助学习技术,综合语言处理、语音识别与校正等多项关键技术。

Page 53: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

可能形成的技术产品

• 藏语教学辅助系统;• 多语种翻译设备,包括口语和书面语的翻译等;• 面向企业的以文本为主要载体的内容管理、发布系统;• 以语言文字语音为主要处理对象的数字图书馆系统• 企业级内容安全软件,包括对垃圾邮件、黄色信息、反

动信息的过滤,以及商业机密的防泄露功能

Page 54: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

需要优先解决的几个核心问题

藏文信息处理从大处来看 , 与一般的语言文字信息处理有许多相同或相一致的地方 , 比如说遵循的相关理论和原则 , 实现的关键技术和方法等

国际(国家)标准制定 操作系统研制,特别是藏文 Windows 系统的研制 语言资源建设 人才培养 藏文信息处理工作要社会效益和经济效益并举 , 但应以社会效益为主 , 经济效益为辅

Page 55: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

人才问题

• 开展藏文信息处理工作需要大量的懂藏语的专业技术人才 , 而现实的情况是 , 国内外从事这项研究工作的专业和非专业人员全加起来也不过几十人 , 懂软件设计的人员更是寥寥无几 , 而且又都分散于不同的单位。如此少的人员来做这项巨大的工程其结果是可想而知的。

• 人员数量和质量的差距就是藏文信息处理最根本的差距所在。• 学科人才培养基地• 国内外多种渠道加速培养人才。

Page 56: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

结束语

• 真诚地欢迎各位投入到藏文信息处理当中来 , 这里天地广阔 , 大有可为 , 愿我们共同携手推进藏文进入信息时代。

• 我们坚信 , 信息时代需要藏文 , 藏文在信息时代也必将发挥更大的作用 , 毕竟它是承载中华民族文化中具有悠久的历史传承和灿烂的文化遗产——藏民族和藏文化的最优秀的语言文字 , 将伴随着人类共同进入一个更加注重多元文化并存、世界文化共同繁荣发展的崭新时代。

Page 57: ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།

谢谢大家 !