移动互联网时代的语音云

30
移动互联网时代的 移动互联网时代的 移动互联网时代的 移动互联网时代的 “讯飞语音云 讯飞语音云 讯飞语音云 讯飞语音云” 科大讯飞副总裁 江涛 2011.7. 16 011.7. 16 011.7. 16 011.7. 16 北京

Transcript of 移动互联网时代的语音云

Page 1: 移动互联网时代的语音云

移动互联网时代的移动互联网时代的移动互联网时代的移动互联网时代的

““““讯飞语音云讯飞语音云讯飞语音云讯飞语音云””””

科大讯飞副总裁 江涛

2222011.7. 16011.7. 16011.7. 16011.7. 16 北京

Page 2: 移动互联网时代的语音云

2

内 容 提 要

一、智能语音产业最新发展概况

二、“语音云”平台及合作模式

三、智能语音交互应用开发简介

Page 3: 移动互联网时代的语音云

3

语音技术及产业概述

• 语音技术

– 使信息时代的各种信息机器象人一样“能听会说”的技术

– 包括语音合成(相当于给机器装上了人工嘴巴)、语音识别(相当于

给机器装上了人工耳朵)以及声纹识别、口语评测等

• 语音产业

– 伴随着社会信息化、网络化、智能化的发展趋势,语音技术的应用可

以深入到社会生活的几乎所有行业

– 语音技术还在信息安全、汉语国际推广等战略领域具有重大应用

Page 4: 移动互联网时代的语音云

4

科大讯飞产业最新进展

• 中英文核心技术国际领先,牵头制定国家标准并拥有主流市场80%以上的市场份额

语音产业唯一国家科技进步奖 语音产业唯一信息产业重大技术发明

Page 5: 移动互联网时代的语音云

5

科大讯飞产业最新进展

• 中国语音产业唯一的国家规划布局内重点软件企业和唯一的语音上市公司

Page 6: 移动互联网时代的语音云

语音合成技术进展

• 语音合成系统最关键的是自然度综合指标:

年份 1995年 1998年 1999年 2001年 2011年

自然度 <3.0 3.0 3.5 3.8 4.5

STOP

原文:9,这是乔丹参加1984年奥运会和1992年奥运会时的球

衣号码。在1984年洛杉矶奥运会上,由于前苏联以及东欧诸国……

Page 7: 移动互联网时代的语音云

777

讯飞’06

Blizzard Challenge 06/07/08/09/10Blizzard Challenge 06/07/08/09/10Blizzard Challenge 06/07/08/09/10Blizzard Challenge 06/07/08/09/10英文合成国际评测五连冠

其他参赛单位: 微软、IBM

美国 MIT、CMU

英国 Edinburgh

日本 NITech、ATR

等等

合成效果

讯飞’07

■■■■

讯飞’08

讯飞’09He refused to identify governments he suspected, but German press reports said investigations were focusing on North Korea and Pakistan.讯飞’10

Full SetFull SetFull SetFull Set,自然度,自然度,自然度,自然度

唯一自然度大于4444分的系统

自然语音自然语音自然语音自然语音

科大讯飞科大讯飞科大讯飞科大讯飞

Page 8: 移动互联网时代的语音云

8

发音模拟技术的最新进展

Page 9: 移动互联网时代的语音云

9

NIST 说话人识别大赛

测试时间测试时间测试时间测试时间三大核心测试指标 在参测系统中排名

MinMinMinMinDCFDCFDCFDCF

EEREEREEREER DCFDCFDCFDCFMinMinMinMinDCFDCFDCFDCF

EEREEREEREER DCFDCFDCFDCF

2008 0.107 2.625 0.187 1111 1111 3333

2010 0.33 5.872 0.405 2222 2222 2222

参赛单位有:CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、Motorola研究中心、IBM 研究院等国内外50家著名语音研究机构

�由NIST(美国国家标准技术研究院)举办,是国际上规模与影响力最大的说话人识别评测

�1996年第一次评测,之后每两年评测一次,说话人识别任务难度接近大规模实际应用环境(不同信道、不同环境干扰)

�科大讯飞在2008,2010年连续两届评测中均处于国际领先地位

Page 10: 移动互联网时代的语音云

10

语音听写技术进展

• 语音听写技术:基于超大规模的语音数据、领先的语音处理算法、基于云计算的工程平台,讯飞在语音听写技术上取得重大突破

领先的内核算法领先的内核算法领先的内核算法领先的内核算法 基于云计算的模型训练平台基于云计算的模型训练平台基于云计算的模型训练平台基于云计算的模型训练平台超大规模的语音数据超大规模的语音数据超大规模的语音数据超大规模的语音数据

区分性训练区分性训练区分性训练区分性训练

超超超超大规模解码技术大规模解码技术大规模解码技术大规模解码技术

语语语语音自适应音自适应音自适应音自适应1111万人万人万人万人

100100100100万人万人万人万人

>100G>100G>100G>100G内存

>>>>100CPU100CPU100CPU100CPU

< 2G< 2G< 2G< 2G内存

<<<< 10CPU 10CPU 10CPU 10CPU

领先的语音识别技术领先的语音识别技术领先的语音识别技术领先的语音识别技术

Page 11: 移动互联网时代的语音云

1111

内 容 提 要

一、智能语音产业最新发展概况

二、“语音云”平台及合作模式

三、智能语音交互应用开发简介

Page 12: 移动互联网时代的语音云

12

• 全球已进入高速发展的移动互联网时代

语音产业的时代机遇

Page 13: 移动互联网时代的语音云

移动互联时代人机交互需求

• 移动互联网终端键盘与屏幕的天然限制,语音作为信息交互最自然、便捷的手段,在小尺寸终端和移动状态下更是具有明确需求

语音交互将成为移动互联网应用语音交互将成为移动互联网应用语音交互将成为移动互联网应用语音交互将成为移动互联网应用

用用用用户体验的关键要素之一户体验的关键要素之一户体验的关键要素之一户体验的关键要素之一

Page 14: 移动互联网时代的语音云

14

国际IT巨头日益关注

• 作为战略性和前瞻性的重要新兴产业,语音技术在移动互联网时代备受关注

–IBM

–Microsoft

–Apple

–Google

Page 15: 移动互联网时代的语音云

“讯飞语音云”发布

• 2010年10月28日,科大讯飞在业界率先发布全球首个同时提供语音合成、语音搜索、语音听写等智能语音交互能力的移动互联网智能交互平台——“讯飞语音云”

Page 16: 移动互联网时代的语音云

示范应用——讯飞语音输入法

微博QQ

普通人电脑标准键盘上输入速度是每分钟50-80个字,而在iPhone等触屏类型的智能手机上只能达到15-20个字,语音输入每分钟可以达到200字以上。

Page 17: 移动互联网时代的语音云

17

讯飞语音云平台服务体系

高 速 局 域 网

G P R S /E D G E3G

高 速 局 域 网

互 联 网 用 户

合 肥 语 音 云

移 动 用 户

Internet

客 户 端

上 海 语 音 云

负 载 均 衡 器

云 间 同 步车 载 用 户

互 联 网 电 视

北 京 语 音 云

广 州 语 音 云

三 网 接 入

云 间 同 步

Page 18: 移动互联网时代的语音云

18

语音识别服务语音识别服务语音识别服务语音识别服务

转写转写转写转写字幕字幕字幕字幕

不断扩展的语音云服务

语音合成服务语音合成服务语音合成服务语音合成服务

声纹声纹声纹声纹识别服务识别服务识别服务识别服务

网站服务网站服务网站服务网站服务

其他服务其他服务其他服务其他服务

传统语音传统语音传统语音传统语音合成合成合成合成

搜索搜索搜索搜索

命令词命令词命令词命令词识别识别识别识别

短信听短信听短信听短信听写写写写

关键词关键词关键词关键词检索检索检索检索

声音相似声音相似声音相似声音相似度度度度

声纹验声纹验声纹验声纹验证证证证

变声变声变声变声

手写识别手写识别手写识别手写识别

唱歌评唱歌评唱歌评唱歌评分分分分

文字客文字客文字客文字客服服服服

文本分文本分文本分文本分析析析析

个性化个性化个性化个性化语语语语音合成音合成音合成音合成

声纹鉴声纹鉴声纹鉴声纹鉴别别别别语种识语种识语种识语种识

别别别别

语言学语言学语言学语言学习习习习

用户管用户管用户管用户管理理理理

论坛论坛论坛论坛

Page 19: 移动互联网时代的语音云

19

云计算对语音产业的促进

• 云计算平台具备的强大和无限扩展的存储和计算能力

–通过对海量数据的训练,可以更好的处理困扰语音识别的技术难点

–用户在实际使用中形成的数据可以反馈到平台中,形成不断迭代优化的正反馈机制,持续提高效果

–众多中小开发者可以低门槛的获得平台提供的语音交互能力

Page 20: 移动互联网时代的语音云

20

谁是语音云的受益者?

• 易于开发,语音集成易于开发,语音集成易于开发,语音集成易于开发,语音集成时间由几周缩短到几时间由几周缩短到几时间由几周缩短到几时间由几周缩短到几个小时;个小时;个小时;个小时;

• 易易易易于获取于获取于获取于获取,,,,基于基于基于基于互联互联互联互联网的开发包网的开发包网的开发包网的开发包随时可以随时可以随时可以随时可以下载测试;下载测试;下载测试;下载测试;

• 所所所所有应用都可以快速有应用都可以快速有应用都可以快速有应用都可以快速Speech EnabledSpeech EnabledSpeech EnabledSpeech Enabled!!!!

• 最好的语音服务:最最好的语音服务:最最好的语音服务:最最好的语音服务:最好好好好的的的的语音合成、最准语音合成、最准语音合成、最准语音合成、最准确的语音识别确的语音识别确的语音识别确的语音识别

• 语音效果的持续优语音效果的持续优语音效果的持续优语音效果的持续优化,加速语音技术发化,加速语音技术发化,加速语音技术发化,加速语音技术发展,展,展,展,““““日新月异日新月异日新月异日新月异””””!!!!

• 运运运运算和存储资源的最算和存储资源的最算和存储资源的最算和存储资源的最大利用,发挥最大效大利用,发挥最大效大利用,发挥最大效大利用,发挥最大效益益益益

• 投入运营前不必购买投入运营前不必购买投入运营前不必购买投入运营前不必购买语音组件,直接开发语音组件,直接开发语音组件,直接开发语音组件,直接开发测试测试测试测试

• 无无无无需投入专用硬件,需投入专用硬件,需投入专用硬件,需投入专用硬件,无需部署维护;无需部署维护;无需部署维护;无需部署维护;

• 规规规规模模模模自动伸缩,无限自动伸缩,无限自动伸缩,无限自动伸缩,无限扩展的运算能力扩展的运算能力扩展的运算能力扩展的运算能力

用户用户用户用户 工程师工程师工程师工程师

合作伙伴合作伙伴合作伙伴合作伙伴 科大讯飞科大讯飞科大讯飞科大讯飞

Page 21: 移动互联网时代的语音云

21

语音云合作商务模式

初创期应用免费支持

Page 22: 移动互联网时代的语音云

22

内 容 提 要

一、智能语音产业最新发展概况

二、“语音云”平台及合作模式

三、智能语音交互应用开发简介

Page 23: 移动互联网时代的语音云

语音云应用开发基本定义

• 语音应用接口(Speech Programming Interface,SPI)、客户端(Mobile Speech Client,MSC)、服务器(Mobile Speech Server,MSS)

H T T P 服 务 器

业 务 分 发N G IN X+FastCGI

H T T P 协 议 解 析

语 音 服 务 器

语 音 转 写 、识 别语 音 合 成

声 纹 识 别 等

用 户 管 理 服 务 器

授 权 管 理用 户 管 理 和 认 证

日 志

调 用 日 志系 统 运 行 日 志

M S S P 协 议 栈 、音 频 编 解 码 、操 作 系 统 适 配 等

基 础 支 撑

An dro id /Sym bian /iO S /W M /M T K /O M S/JA V A Hadoop , HyperTable , Windows, L in u x , Solaris服 务 器 操 作 系 统

性 能 分 析 工 具

用户管理和授权接口 语 音 合 成 接 口 语 音 识 别 接 口 声 纹 识 别 接 口

M S P 开 发 接 口

辅 助 接 口

工 具

客 户 端 操 作 系 统

X M L 解 析 、线 程 、音 频 录 入 和 播 放 等

语 音 应 用 演 示 程 序 端 点 检 测 M S S P协 议 解 析 H T T P 协 议 解 析

客 户 端

网 络 传 输

服 务 器

开 发调 试 人 员

互 联 网 用 户手 机 用 户终 端 用 户

维 护 人 员支 持 人 员

业 务 分 析 人员

业 务 服 务 器

M S S P 协 议 解 析业 务 处 理

语 音 服 务 处 理

Page 24: 移动互联网时代的语音云

24

MSC开发两类接口

• C风格的API接口

– 实现最广泛的平台覆盖性

• 可视化控件接口

– 为了提高智能终端开发效率、降低开发难度,为Android、iPhone、Symbian平台提供了内置语音交互UI、录音放音封装的可视化语音控件接口。

Page 25: 移动互联网时代的语音云

25

资源开销——控件接口

操作系统 基本项参数

含UIUIUIUI 不含UIUIUIUI

SymbianSymbianSymbianSymbian

静态开发库尺寸 1.3MB1.3MB1.3MB1.3MB 1MB1MB1MB1MB内

ROMROMROMROM 300KB300KB300KB300KB 200KB200KB200KB200KB

RAMRAMRAMRAM合成 400KB400KB400KB400KB 300KB300KB300KB300KB

识别 500KB500KB500KB500KB 400KB400KB400KB400KB

CPUCPUCPUCPU占用 小于 80MIPS 80MIPS 80MIPS 80MIPS

iPhoneiPhoneiPhoneiPhone

静态开发库尺寸 1.5MB1.5MB1.5MB1.5MB 1.2MB1.2MB1.2MB1.2MB内

ROMROMROMROM 600KB600KB600KB600KB 500KB500KB500KB500KB

RAMRAMRAMRAM合成 450KB450KB450KB450KB 350KB350KB350KB350KB

识别 550KB550KB550KB550KB 450KB450KB450KB450KB

CPUCPUCPUCPU占用 小于 200MIPS 200MIPS 200MIPS 200MIPS

AndroidAndroidAndroidAndroid

JARJARJARJAR开发包尺寸 1.3MB1.3MB1.3MB1.3MB 1MB1MB1MB1MB内

ROMROMROMROM 500KB500KB500KB500KB 400KB400KB400KB400KB

RAMRAMRAMRAM合成 450KB450KB450KB450KB 350KB350KB350KB350KB

识别 550KB550KB550KB550KB 450KB450KB450KB450KB

CPUCPUCPUCPU占用 小于180MIPS180MIPS180MIPS180MIPS

Page 26: 移动互联网时代的语音云

26

资源开销——C接口

操作系统 基本项 参数

SymbianSymbianSymbianSymbian

静态开发库尺寸 300K300K300K300KCPUCPUCPUCPU占用 30MIPS30MIPS30MIPS30MIPS

内存占用

ROMROMROMROM 200KB200KB200KB200KB

RAMRAMRAMRAM合成 300KB300KB300KB300KB识别 300KB300KB300KB300KB

AndroidAndroidAndroidAndroid

静态开发库尺寸 500K500K500K500KCPUCPUCPUCPU占用 30~200MIPS30~200MIPS30~200MIPS30~200MIPS(含音频编解码)

内存占用

ROMROMROMROM 300K300K300K300K

RAMRAMRAMRAM合成 300K300K300K300K识别 300K300K300K300K

iPhoneiPhoneiPhoneiPhone

静态开发库尺寸 800K800K800K800KCPUCPUCPUCPU占用 100~200MIPS100~200MIPS100~200MIPS100~200MIPS(含音频编解码)

内存占用

ROMROMROMROM 500K500K500K500K

RAMRAMRAMRAM合成 400K400K400K400K

识别 300K300K300K300K

Page 27: 移动互联网时代的语音云

27

集成可视化控件的“红围脖”

Page 28: 移动互联网时代的语音云

28

应用应用应用应用案例案例案例案例 ———— 挖财记账挖财记账挖财记账挖财记账

Page 29: 移动互联网时代的语音云

29

dev.voicecloud.cn

Page 30: 移动互联网时代的语音云

30

结 束 语:致谢!

创新创新创新创新 开拓未来开拓未来开拓未来开拓未来

合作合作合作合作 成就梦想成就梦想成就梦想成就梦想