与纳德拉的亲密接触 - 微软亚洲研究院€¦ ·...

1

2014年10月第32期

P5

清华—微软《大数据基础与应用》课程开课

P14

P18

P34 P30

与纳德拉的亲密接触

2

让梦想照进现实的微软酷技术

微软亚洲研究院 2014年10月第32期

微软宣布洪小文博士升任微软亚太研发集团主席

清华—微软《大数据基础与应用》课程开课

放飞计算思维跳出大学计算机基础教育困局

@微软亚洲研究院官方微博精彩选摘

潘天佑博士2014微软学生夏令营演讲——如何培养领导力


田飞：在理想的田野飞翔

微博拾粹 Weibo Highlights

4

5

6

14

18

20

22

25

28

30

32

3汇众智，创新势

我们需要什么样的机器人

冰桶挑战之外：微软科技助力ALS患者

从CVPR 2014看计算机视觉领域的最新热点

跨越真实和虚拟世界的边界——走近SIGGRAPH 2014大会

史无前例的KDD 2014大会

12

8

3

汇众智，创新势

今年的Kickoff活动，我和研究院的同事们去了风光旖旎的贵州。驻足于壮丽的黄果树瀑布旁，除了惊叹于大自然的鬼斧神工外，环顾着身边和我奋斗多年的同事，心中有抑制不住的感动，憧憬着和他们一起再创新势。

这是一个疯狂发展的时代，科技从未以如此惊人的速度更迭置换、改变着人们的工作和生活。我很自豪——作为微软的战略技术储备机构，微软研究院为公司贡献了许多重要的技术创新，帮助它在激烈的市场竞争中占领了优势。我也很感激，有一群执着于推动科学研究不断向前的同事一路相伴。

微软已经在历史的长河中书写了39年的辉煌，但滚滚向前、奔腾不息的时代是不允许我们总缅怀过去的。环顾全球，近几年科技界不断涌现出耀眼的新星，一波波创业热潮更是扑面而来。如雨后春笋般不断涌现的创业公司在刺激我们神经的同时，也提醒我们重新审视我们的核心价值和雄心壮志。身处于这个不推崇传统，只尊重创新的行业，唯有开放，并且不断地创新、发掘和引领下一个技术趋势才是维持长久生命力的根本所在。

在新任CEO Satya的领导下，微软正以全新的面貌出现在大众的视野里。不论是提出“移动为先，云为先”的战略，推出跨平台跨设备的软件和服务，还是开源 .Net，微软所展现出的开放姿态令业界眼前一亮。公司的市值一路高升，在不久前突破了4000亿美元，创下了14年的新高。欣喜欢呼之余，我们也看到了广大用户对于微软的信任和期待。

作为一个在微软工作了20年的老兵，我深知这份信任和期待的来之不易。而作为汇聚了最顶尖计算机科研人才的研究院，我相信我们有能力肩负起这再创新势的重任。勤于思，敏于行，拥抱更开放、更接地气的极客创新文化，全力打造新的计算体验，积极寻找下一个技术趋势，我们所有人行动起来，一起“汇众智，创新势”！

微软亚洲研究院院长

4

发集团新的带头人，他将带领亚太研发集团继续在创新领域勇往

直前，这将为微软在亚太地区带来令人兴奋的转变。”

洪小文博士已在微软公司工作了20年，他于2004年加入微软

亚洲研究院，并在微软亚洲研究院发展成为世界一流的研究机构

中起到了至关重要的作用。他还于2005年创立并领导了微软亚洲

搜索技术中心，该中心于2011年演进为微软（亚洲）互联网工程

院。

洪小文博士是国际电气电子工程师学会院士（IEEE Fellow）,

微软杰出首席科学家和国际公认的语音识别专家，《美国计算机

协会通讯》编委，并在国际著名学术刊物及大会上发表过百余篇

学术论文，在多个技术领域拥有36项专利发明。

微软全球执行副总裁沈向洋博士说：“我与小文博士共事

多年，他在基础研究和产品开发方面具有丰富经验，有着令人尊

敬的职业发展经历，并在微软中国本地创新之路上对很多核心产

品、策略和方向做出重要贡献。他不仅具备深厚宽广的学术积淀

和产品研发经验，还有组织孵化和大团队创新的能力，我相信他

能带领肩负新使命的微软亚太研发集团达到新的高度。”

特别值得一提的是，微软亚太研发集团新任首席技术官王永

东博士（下图右），从2009年起一直领导微软（亚洲）互联网工

程院，带领一千多名工程师，参与包括微软必应搜索引擎、人工

智能、在线广告、语音及自然语言处理，以及移动互联网服务等

全球核心产品的研发，并开发了一批满足中国及亚太地区用户需

求的本地化产品。

申元庆先生（上图左）从2012年起担任微软亚太研发集团首

席运营官，兼任微软中国云和企业事业部总经理。在微软工作的

20年里，他历任横跨产品研发和市场销售领域的多项重要管理岗

位，是微软在中国研发体系的全程参与者和贡献者，长期负责微

软在中国的合作伙伴关系及生态系统建设。

2014年9月17日，北京——微软公司宣布，微软亚洲研究院

院长暨微软亚太研发集团创始核心管理团队成员洪小文博士，于

即日起履新，升任微软亚太研发集团主席。同时，微软（亚洲）

互联网工程院院长王永东博士获任微软亚太研发集团首席技术

官，申元庆先生将继续担任微软亚太研发集团首席运营官。

在融贯中西文化濡染的洪小文博士带领下，微软亚太研发集

团将继续秉承“扎根中国、服务中国、共赢中国、源智中国”的

长期战略，将更加倾心于极客式的快速创新，重视产品影响力，

并以提高从基础研究、技术孵化、产品开发到生态重构之间的效

率和结果为使命。对洪小文博士、王永东博士和申元庆先生的任

命，体现了处于转型关键期的微软，对中国这一战略中心的决心

和承诺。

“我们很高兴宣布洪小文博士升任微软亚太研发集团主席，他

将带领中国成熟的研发军团在‘移动为首，云为先’的时代突破和

创新，汇聚科研成果，并致力于将其更快转化为生产力。”微软全

球资深副总裁、微软全球研发中心负责人索玛•塞加说，“我期待

看到微软亚太研发集团，能够更深入、更广泛地参与到本地生态系

统创新与竞争中去。”

“微软亚太研发集团是一个拥有大量顶尖人才和肩负多重使

命的团队。”微软大中华区CEO贺乐赋说，“洪小文成为亚太研

微软宣布洪小文博士升任微软亚太研发集团主席——创新研发引领转型效率与结果并重

5

2014年10月9日，清华大学交叉信息研究院和微软亚洲研究

院合作开设的《大数据基础与应用》前沿研究课程教室里，微软

亚太研发集团主席、微软亚洲研究院院长洪小文博士为清华学子

授课。图灵奖得主、清华大学交叉信息研究院院长姚期智院士在

课堂上致简短欢迎辞。

此次大数据联合课程将由来自微软亚洲研究院的八名资深研

究员和清华大学三位教授共同完成为期18周的教学任务。课程

第一讲于9月25日由微软公司CEO萨提亚•纳德拉做客清华论坛

拉开帷幕，受到清华师生热烈欢迎、反响强烈。该课程面向交叉

信息研究院和其它相关院系的研究生，以及高年级的本科生。课

程涵盖大数据基础与应用的多个方向：大数据基础和工具方面将

介绍大数据系统，云计算，机器学习基础，知识挖掘，大数据可

视化等课题；大数据应用方面将包括网络搜索，城市计算，社会

计算，软件分析等课题。在兼顾基础和背景知识的同时，该课程

更侧重介绍各相关方向的前沿研究进展和最新成果,并展示微软

在大数据研究和应用方面的若干实例。学生们也有机会在微软的

Azure云计算平台上完成课程实验，亲身体验云计算和大数据的应

用。

洪小文博士是微软杰出的首席科学家和国际公认的语音识别

专家，他在课程中以生动、风趣的语言向学生们介绍了大数据的

基础知识，以及其相关的实际应用等问题，又从宏观角度出发，

阐述了大数据未来的发展趋势。

洪小文博士认为，“大数据不仅在学术界是一个值得关注的

领域，它本身也具有实际意义，不管是对科研人员还是普通人，

都产生了极大的影响。因此，不能只受限于从科研的角度去认识

大数据，而应该推动其产学结合，使其真正服务于现实生活。”

洪小文院长希望能借此机会将微软自身的理念传递到高校中，并

培养更多未来的科研人员。

姚期智院士在欢迎辞中强调了此次与微软亚洲研究院进行课

程合作的重要性。姚先生表示，“微软亚洲研究院作为世界一流

的科研机构，在大数据等方面有着前沿的研究。微软亚洲研究院

与清华的合作由来已久，而这一课程也是众多合作项目之一。”他

期待学生们可以从这门课程中对大数据有一个较为全面的了解，

为今后的科研找到目标和方向。

选修该课程的姚班大三学生鞠安同学认为该课程能够帮助大

家了解大数据的基本系统，并且通过一些项目接触到真正的大数

据。“通过这门课程，我也希望了解大数据在各个方面的应用和

未来大数据研究的发展方向”，鞠安同学补充道，“洪小文院长

的这堂课展示了大数据的重要性，从一个宏观的角度介绍了大数

据各个方面的内容。课程的逻辑线路十分清晰，里面很多的图片

和数据都令我印象深刻，其中的一个视频更是直观地展现了大数

据可视化的力量。我觉得这堂课为接下来的课程奠定了很好的基

础。同时，正如姚先生所说，能够聆听洪小文院长对大数据的讲

解，这本身就是一个很难得的机会，对我们在大数据方面的学习

和研究将有很好的指导作用。”

自微软亚洲研究院1998年成立以来，微软亚洲研究院与清华

大学在科研合作、人才培养、学术交流和课程创新等方面保持着密

切的合作与交流，并取得了丰硕成果。2007年比尔•盖茨和姚期智

教授共同为双方合作开设的清华——微软软件科学实验班（姚班）

揭牌，致力于培养具有国际水平的拔尖创新计算机科学人才。在未

来，清华大学与微软亚洲研究院将继续保持密切合作，发掘更多联

合项目，为中国信息技术的腾飞做出贡献。

Culture研究院活动

清华——微软《大数据基础与应用》课程开课微软亚洲研究院院长洪小文博士授课清华学子

6

生出了对就业人才不同的标准，与此同时，也将大学计算机基础

教育的重要性提升到了一个全新的高度。对比当下的教育困局，

改革迫在眉睫。

2014年，响应教育部的号召，微软成立了“产学合作专业综

合改革项目”，以“计算思维”为切入点，携手中国高校共同推

进大学计算机基础课程改革。此项目面向全国所有高校包括计算

机学院、软件学院在内的所有院系征集《大学计算机基础》课程

改革的优秀方案。入选的方案除获得具体的经费支持以外，微软

还免费提供云服务资源。

两个历史阶段和一个当下困局

回顾中国大学计算机基础教育的历程，大致可以分为两个历

史阶段。

第一个是从90年代到2000年左右的扫盲阶段。那时，计算机

刚刚出现在人们的视野里不久，对大学计算机基础的教育还仅仅

放飞计算思维跳出大学计算机基础教育困局——微软携手中国高校推进大学计算机基础课程改革

“你觉得最枯燥/没有意思的课程是哪一门？”

“哪一门课程是你最希望从课程表里去掉的？”

“你认为最迫切需要进行改革的是哪一门课程？”

《大学计算机基础》是全国非计算机专业学生必修的基本课

程，也是为适应社会信息化发展要求，提高学生信息素质的一门

公共基础课程。但如果向全国大学生进行满意度调查，这门课十

有八九会是获得负面评价最多的课程之一。枯燥、没有意思以及

所教内容与未来从事的职业无太大关联是学生们对这门课的普遍

印象和评价。面对学生们诸多的抱怨，教授这门课程的老师也总

显得很无奈——总想在有限制的学时内教给学生尽可能多的计算

机技能，但最后都变成了走马观花式的授课。

信息技术的迅猛发展对全球各个行业都产业了全面而深远的

影响，在某些行业甚至颠覆了原有的研究和商业模式。信息化与

世界的变革和行业的推进紧密地结合在一起。独特的时代背景催

7

• 是利用海量数据来加快计算，在时间和空间之间，在处理能

力和存储容量之间进行折衷的思维方法。

将“计算思维”引入到大学计算机基础教育意味着老师不再

需要逐项的去教授各项技术，而需要将更多的时间和注意力投射

到对学生计算思维能力的培养中去。设计更多有趣的案例并形成

行之有效的教学推广方案，这两年在高校老师各自的心头不断酝

酿。

其实，“计算思维”的出现不光解了大学计算机基础教育改

革的燃眉之急，更是顺应时代潮流的一种育人思想的体现。计算

机拥有惊人的运算能力和数据处理的背后是人类智慧的结晶。程

序和系统的设计需要一个人具备很强的问题抽象和分解的能力。

如今，在这个万事万物与计算相连的时代，“计算思维”必将会

和“数学思维”和“经济思维”一样成为每个人安生立命的基本

技能。

微软携手中国高校

微软响应高校需求，在今年设立了以“计算思维”为切入点

的“产学合作专业综合改革项目”。微软亚洲研究院高校关系总

监潘天佑博士表示：“微软亚洲研究院自成立以来就秉持与中国

教育界一同成长的理念，积极支持和推进中国计算机教育的各项

改革。对学生‘计算思维’的培养将可能对其未来的发展产生不

可估量的影响，我们愿意与有想法的中国教师一起见证这个改变

的发生。”

此项目得到了全国各大高校教师的积极响应。截至10月15日

项目评审前，微软一共收到了来自各大高校的99份项目提案，涵

盖了十余个学科。当中的很多提案都十分有趣、可行。

作为此次项目评审组的成员，浙江大学计算机院副院长何饮

铭教授表示：“微软是全球计算机工业界的领头羊，对于计算机

科学的发展有着比高校教师更为深刻的理解。由微软来引导进行

这次课程改革将使我们的改革更具实际意义。”

西安交通大学计算机教学实验中心主任冯博琴教授也表

示：“此次微软专门成立‘产学合作专业综合改革项目’不仅

调动了全国高校教师的积极性，也让学校的管理层更重视这项改

革，鼓舞了更多有想法、有激情的教师加入到这项教育改革中

来。”

结语

唯有改变是永恒的。中国的大学计算基础教育经历了两个历

史阶段，现在终于要迎来一个崭新的时代。我们企盼这一天的来

临，也愿意与中国高校一起积极探索改革的方向。

是停留在教授学生什么是计算机，计算机的组成部件，以及计算

机可以从事什么的阶段。

从2000年以后，大学计算机基础教育进入了一个新的阶段。

学校开始教授学生使用计算机作业的各项技能。计算机基础教育

的内容也开始变得空前丰富。除了日常会使用的Office工具，还涉

及编程语言、操作系统、数据库、多媒体应用等各类专项技术的

学习。内容繁多、五花八门，成了这个阶段计算机基础教育的一

个特点。

逐渐的，这样的教育方式遇到了问题。一方面，时代的变革

使计算机进入了千家万户，也让学生们从小就开始频繁地接触计

算机，并掌握了使用基本的计算机工具的能力。此时，如果大学

计算机基础的教育还在继续教授如何使用简单工具的话，无疑是

做重复性的教学工作。另一方面，随着计算机科学的蓬勃发展，

衍生出的各类技术令人目不暇接。在有限的课时内，如果想涉猎

所有的技术，最后的结果只能是令学生身心俱疲。

同时，近些年的负面评价令部分高校对减少《大学计算机基

础》这门课程的学分毫不留情。学分的减少、课时的压缩更加剧

了教师和学生的负担。大学生计算机基础教育往何处去？如何进

行改革？这成为自2012年以来中国高校学者不断探索的一个议

题。

计算思维可能解开困局

当中国的高校老师正苦恼不已时，一项可能的解决方案在美

国悄然蔓延。2006年，时任美国卡内基梅隆大学计算机科学系主

任的周以真（Jeannette Wing）教授颇有先见之明的提出了“计

算思维（Computational Thinking）”的概念。她认为：“计算思

维是运用计算机科学的基础概念进行问题求解、系统设计、以及

人类行为理解等涵盖计算机科学之广度的一系列思维活动。”

以上是关于计算思维的一个总定义，周教授为了让人们更易

于理解，又将它更进一步地定义为：

• 能经过约简、嵌入、转化和仿真等方法，把一个看来困难的

问题重新阐释成一个我们知道问题怎样解决的方法；

• 是一种递归思维，是一种并行处理，是一种把代码译成数据

又能把数据译成代码，是一种多维分析推广的类型检查方法；

• 是一种采用抽象和分解来控制庞杂的任务或进行巨大复杂系

统设计的方法，是基于关注点分离的方法（Separation of Concerns, SoC）；

• 是一种选择合适的方式去陈述一个问题，或对一个问题的相

关方面建模使其易于处理的思维方法；

• 是按照预防、保护及通过冗余、容错、纠错的方式，并从最

坏情况进行系统恢复的一种思维方法；

• 是利用启发式推理寻求解答，也即在不确定情况下的规划、

学习和调度的思维方法；

Culture研究院活动

8

然后再去网上搜图。现在直接用图找图的方式要更直接，也更自

然。

在触摸屏设备（智能手机、平板电脑）逐渐普及的今天，可

以预见，草图搜索技术具有广泛的应用前景。它可以帮助任何年龄

段的人，可以帮助儿童认识世界，可以帮助少男少女方便地找到带

有特定纹饰的体恤衫和花裙子，可以帮助设计师找到理想的图像素

材。”

所画即所得的“神笔马良”

草图搜索：画线条，找图片

In The Media媒体报道

“小时候，有一部叫《神笔马良》的儿童电影，让人印象深

刻。电影中，马良有一只神笔，用这只笔在墙上画出的任何图画，

不论是金元宝还是大船，都会变成真实的物体，令人羡慕不已。所

画，即所得，便是我们这一代人儿时的梦想。

如今大数据时代的草图搜索就是通向所画即所得的一个尝试：

通过手绘的线条图在海量图片中找到与之形状相似的图像。有时感

觉我们搜索图片是在绕路，明明是一张图却要变成文字表述出来，

编者按：为什么科技如此让人着迷？因为通过技术研发人员的努力，许多原本在童话或是科幻电影中才能出现

的场景，也能变成人们身边触手可得的现实，这就是科技的魅力所在。

想寻找心仪的图片素材，可以像“神笔马良”一样“所画即所得”；偶然看到一段感兴趣的视频，只要几秒钟

就能找到原版链接；通过人脸特征定位，你还可以在游戏或虚拟世界中塑造出属于自己的“阿凡达”……这些令人

激动的场景，原本要在童话或是科幻电影中才能出现。然而在微软亚洲研究院技术研究人员的努力之下，这些梦想

正在一步一步变成现实。下面就请大家跟随CHIP的脚步，一起走进微软亚洲研究院体验这些酷技术吧。

让梦想照进现实的微软酷技术 ——多媒体搜索与人脸特征定位

王长虎微软亚洲研究院多媒体搜索与挖掘组研究员

作者：《CHIP新电脑》彭承文

9

自从迈入了互联网时代，“搜索”就成为了人们工作和生活中

最常见的互联网应用之一。然而与简单易行的文本搜索相比，如何

对图片甚至视频等多媒体内容进行搜索，一直是摆在技术人员面前

的一大难题。

目前的商用图像搜索方法，主要有基于关键字的图像搜索和以

图找图的搜索。而另一项仍处于初步研究阶段的草图搜索技术，则

是使用充满不确定性和创造力的线条作为检索入口。通过草图搜索

技术将绘画和搜索创造性地结合，身处大数据时代的用户就能运用

手绘的线条图在海量的图片中找到与之相似的图像。在智能手机、

平板电脑等移动智能终端设备非常普及的今天，用户不仅可以通过

它们去拍摄照片、视频，甚至还能够在上面进行绘图。因为目前很

多智能设备都已经采用了触摸屏。这就允许用户去在移动智能设备

屏幕上画一些线条，然后基于线条来检索图像。

在草图搜索任务中，计算机主要面临特征表示、特征匹配和建

立索引结构三大难题。

特征表示：把手绘的线条图和数据库中的图像都转换为计算机

能够“认识”的表示，即一组或若干组数字，这就是特征表示。我

们需要找到有效的特征表示，使得同一类的物体尽可能有相似的特

征，而不同类别物体的特征尽可能不同。

特征匹配：根据特征表示方法定义合理的度量来匹配所画线

条图与数据库中图像的特征，可得出二者的相似度。基于这个相似

度，我们就可以把与手绘线条最相似的图像排在前面，并返回给用

户。

建立索引结构：在数据库中的数据以千计算时，我们可以一

张张地比较得到相似度。但是当数据规模上升到百万甚至千万级别

时，如何建立有效索引结构使系统在极短时间内返回搜索结果，便

成为了一个重要问题。

神笔马良：为草图加上色彩

除了将线条作为类似搜索关键词这样的特征之外，色彩信息同

样也可以作为图像的特征。因此通过这些特征表示进行匹配，就可

以逐一将用户绘制的草图与数据库中的每一个图像进行比对。而有

效的搜索技术和索引结构可以快速地从海量数据中找到相匹配的图

像，并返回给用户进行选择。

譬如，如果用户想找埃菲尔铁塔的话，就可以在画图的时候添

加一些颜色，譬如想找有着蓝天背景的图片，可以在铁塔线条旁边

加一些蓝色，如果需要的话还可以在铁塔下方加上绿色的草坪。

微软将这项图形搜索技术命名为“Magic Brush”，并且还为其

赋予了一个极具中国韵味的中文名——“神笔马良”。显然这一灵

感来自于大受欢迎的国产动画片《神笔马良》。虽然它还无法做到

像马良的神笔那样神通广大，画什么就有什么，但是用户却可以借

此技术从海量的图片数据中找到最贴近自己需求的东西。

据悉，微软亚洲研究院目前已经为“神笔马良”项目构建了一

个超过600万张图片的数据库，而另一个还没有添加颜色信息的数据

库，更是存有大约15亿张图片。有了如此庞大的数据库，不论是帮

助人们寻找图片，还是帮助儿童学习绘画，又或是帮助设计师精确

寻找素材，都可以提供更好的搜索体验。

几秒钟找到心仪视频

高精度的移动视频搜索

微软多媒体搜索研究的范围并不仅仅局限于图片，人们通过随

身携带的智能手机拍摄视频，也能够进行相关的多媒体搜索。譬如

用户在任何场合看到感兴趣的视频时，都可以用手机进行拍摄，然

后通过微软的多媒体搜索程序点击一下，就能识别出视频的来源，

甚至提示用户刚才拍摄片段所在的时间点。

举例来说，当你偶然在某个屏幕上看到一段视频，觉得这

段影像很有趣，就可以直接掏出手机拍摄一小截片段，通过微软

的“Mobile Video Search”移动视频搜索在数据库或云端上找到正

在看的这段视频，然后分享给家人或朋友。而亲朋好友在点击你刚


微软亚洲研究院开发的Magic Brush系统可以帮助用户更精确地

检索到想要的图像。

Magic Brush“神笔马良”可以将线条和色彩信息作为

图像特征进行搜索。

10

其他视频前面。这样即使网上有多个经过编辑的视频版本，与用户

所拍摄视频最接近的也会排到第一位，当然用户也可以根据自己需

求查阅后面的不同版本。

对于普通消费者来说，在智能手机已经非常流行的今天，用手

机拍摄视频已经是很常见的应用。譬如在电影院里，又或者是在广

场的大屏幕上看到一段视频，如果感兴趣就可以用移动视频搜索技

术找到这个视频回家继续看，还可以把信息分享给朋友。因此这项

技术既可以作为手机上的一项应用，也可以作为与手机相机相关的

应用。

显而易见的是，微软多媒体搜索技术的出现，不仅逾越了多

媒体文件和文本文字之间的鸿沟，而且还构建了非常有效的数学结

构。事实上，早在2000年甚至是上个世纪九十年代，学术界就对

类似的多媒体搜索技术进行了密集研究，并涌现出了许多的技术原

型。而微软所展示的这两项图片与视频搜索技术是最新的，也是相

关领域最好的。

才分享的链接时，就能直接看到网上云端的视频。

移动视频搜索的速度究竟有多快？据微软研究人员介绍，用户

在录制视频的时候，每一秒都会传递一些特征信息，从第5秒开始就

会根据匹配程度的高低陆续返回检索结果。在返回结果的同时，搜

索引擎仍然在把进一步的视频特征信息传递给云端，一旦发现用户

看到的视频信息出现新变化，会立即提供相似度更高的视频进行实

时修正，从而为用户提供更好的搜索体验。目前就搜索精度而言，

这项技术在10s内的精确度能够达到90%，如果换成时间更短的5s，

也能提供70%~76%的精确度。

移动视频搜索的原理及应用

与基于文字的搜索相比，视频、图片等多媒体文件的体积往往

非常庞大，譬如光是一分钟视频所包含的数据量就非常可观。这也

给视频搜索带来了很大的难题。另外一个需要克服的难点，就是用

户看到视频可以大体明白其内容，但是目前的计算机还无法做到，

这被称为“语义鸿沟”，也是多媒体分析、多媒体检索中最大的难

题。

微软移动视频搜索技术的工作原理，是同时利用视频信息、影

像信息和语音信息的特征，每隔一秒提取一次关键信息进行比对。

同时其后台有一个非常有效的索引机制，可以通过这些信息来帮助

系统快速查找与用户拍摄视频相似度非常高的视频版本。其提供的

搜索结果会依照相似度的高低进行排列，相似度最高的视频会排在


用手机拍摄视频仅需几秒钟，移动视频搜索就能根据匹配

程度的高低返回结果。

移动互联时代，用智能手机拍摄照片甚至视频早已

是许多人的家常便饭。

即使拍摄视频有角度偏差甚至是180度的反转，移动视频

搜索也能返回正确结果。

11

从人脸数据库中返回的具有挑战性的部分示范结果。

个数。

这一过程大致分为两个步骤：第一步是局部学习，因为我们要

识别各个人脸的特征点，为了能更好地定位特征点的位置，就要先

在这些特征点的周围选取有利于判断点真实位置的特征。这样我们

就需要收集大量数据并通过一些机器学习和算法，让算法自动挖掘

数据找到对定位有用的特征。

由于第一步局部学习并没有整合全局信息，所以第二步就是用

全局线性回归的方式，把局部信息都整合在一起，然后做一个整体

的学习来估计所有特征点的位置。这样一方面可以整合全局信息，

另一方面系统表现也会更加稳健。因为局部细节难免有各种各样的

小错误，但如果从全局着眼，就可以利用全局信息来纠正局部小错

误，从而达到最优效果。

综上所述，该技术最核心的就是通过算法的不断优化，研究怎

么找点、怎么找得更准确、怎么找得更快。目前就精确率而言，单

独采集特征点的时候，一般情况下误差大概在4%~5%这样一个较低

的水平。但是在整合全局信息之后，误差还可以被控制在更小的范

围。

人脸特征定位的应用前景

看到这里，也许有读者朋友很快想到了美颜相机。没错，既

然这项技术能够轻松制作出像史莱克、阿凡达这样的虚拟人物，那

么对摄像头输出的人脸影像来一个实时“美颜视频”，当然更是不

在话下。实际操作也证明，不管是美白、磨皮、大眼还是瘦脸，通

过这项技术都可以轻而易举地实现。不过这也让笔者产生了一点小

小的担忧：如今大家都说照片信不过，以后岂不是连视频也信不过

了？

除了拍特效电影和美颜等娱乐应用，人脸特征定位当然还有更

加广阔的用武之地。譬如在虚拟现实的游戏中用自己的表情塑造虚

拟人物，在安防监控中大显身手，建立人脸数据库从而大大提高机

场、海关的工作效率，甚至可以应用在医疗图像的组织切片定位等

等。

人脸特征定位

“人脸定位识别同样需要用到特征的抓取与匹配。因此要想把

人脸识别得很好，不同的部位也要合理地匹配好，这些特征就起到

了匹配的作用，从而能够很好地提升识别的正确率。

我们在许多谍战电影里经常会看到，在查询某个人物时会首

先识别人脸，把每个人脸上大概的特征点、轮廓特征先找出来，然

后将输入的图片转换成电脑更方便识别的一些特征，再在数据库里

面查找这个是谁，大致就是这样的一个识别过程。这个方法对于人

脸对应位置的匹配，以及识别出人脸的整个轮廓特征都有很大的作

用，相当于整个人脸识别过程中最基础的一步，这是其中的一项应

用。

另一项应用则是可以识别出人脸的特征点，也就是说脸部的

肌肉运动是可以识别出来的。像之前拍摄《阿凡达》这样的特效电

影的时候，需要给形象演员脸上贴一些电极，然后以此识别出演员

面部肌肉的运动，再把运动转移到电影中虚构的角色脸部。比如说

像怪物史莱克、阿凡达面部的表情，当年都是这样制作出来的。但

是有了人脸特征定位技术之后，导演就再也不用给演员脸上贴电极

了，只需要让他们在摄像机面前随便做动作，就可以识别出他们的

面部肌肉，包括眉毛、嘴的运动都可以跟踪和识别出来。

可以看到通过微软的这项技术，原本需要耗费极高成本才能

实现的专业效果，也可以变得平民化。这样不仅大大降低了使用成

本，而且也有利于相关应用的快速普及。”

快速高精度的人脸对齐

在一台笔记本电脑面前，微软的人脸特征定位软件仅仅通过普

通的摄像头，就成功地捕获了镜头前每一位观众包括眉毛、眼睛、

鼻子、嘴巴等在内的数十个脸部特征点，而且始终保持着非常高的

帧数。此外用户还可以根据自己的实际需要，来确定抓取特征点的


通过算法优化，人脸对齐技术可快速捕获脸部特征点

并保持较高精度。

曹旭东微软亚洲研究院视觉计算组副研究员

12

#微软研究院最新技术早知道#

【Office Lens支持直接将照片转换为Word或PPT文档】拍摄白板、

笔记、菜单后，上一版的Windows Phone应用Office Lens能对图像进行

校正并提取图中文字。现在更新后的Office Lens能进一步保留原始格式

和布局，将图片转换为Word或PPT文档，其中手写图形也可重新着色或

缩放。

【让普通手机摄像头变身“深度”探测器】体感操作(如隔空

玩“水果忍者”)是未来人机交互的一个重要趋势，但首先计算机

的眼睛——摄像头要能理解“深度”(depth)。近日微软研究员仅

通过简单的硬件改造，就低成本地将普通2D摄像头变成能采集深度

数据的红外3D摄像头。

【Xim使照片分享无负担】微软研究院FUSE Lab近期推出了一款

阅后即焚的照片分享应用Xim。Xim不仅可以让你快速与联系人共享

照片，还可以通过设定滚动方式和速度来控制对方的照片观看体

验，并能让照片在设定时间内从对方手机中自动删除。研究员们

仍在继续开发Xim的更多功能。

【微软视频内容搜索技术】微软研究院的MAVIS项目一直以来尝试

利用领先的语音识别技术，让视频和音频的内容检索成为可能。近日，

这项技术接入Azure云的媒体服务索引(Azure Media Services Indexer)，迈出了技术转化的关键一步，应用将包括视频、音频的搜索、归类和文

本分析等。

【把房间变成游戏世界的另一种尝试】与之前多借助Kinect的方

法不同，微软RoomAlive采用了统一可扩展的多投影仪系统，在房间

中进行交互式投影映射，还原游戏场景，并结合其他物理作用增强

游戏场景的现实感，形成身临其境的游戏体验。用户可直接触摸，

扫射，闪躲和驾驶。

【会“读心术”的微软触控笔】微软研究员Ken Hinckley设计了一

Weibo Highlights微博拾粹

13

种会解读握笔者内心世界的触控笔。触针和传感器通过各种手握方式以

及力度，使触控笔解读出使用者将在平板电脑上进行什么工作，并在平

板电脑上显示。对不同手握方式判断的主要依据是手掌的27个关节和

30多块肌肉。

#微软亚洲研究院资讯#

【微软研究员入选《财富》杂志“商界精英”排行榜】新一期

《财富》“中国40位40岁以下的商界精英”评选中，微软亚洲研究

院主管研究员郑宇名列其中。在众多企业家、投资人中出现计算机

科学家的身影，让我们更加坚信科技驱动商业、改变世界的潜力，

以及“城市计算”研究的社会意义和商业前景。

【微软研究员获Funai成就奖】近日，微软亚洲研究院首席研

究员Junichi Tsujii教授因为在自然语言处理(NLP)、机器翻译和生物

学文本挖掘上的开创性工作获得Funai成就奖。这一奖项是日本计

算机学界最重要的奖项之一，之前的得奖者包括Marvin Minsky教授

和Takeo Kanade教授。

【2014年“微软学者”奖学金面试精彩瞬间】2014年微软奖

学金评选从公布之日起，就收到了来自亚太地区（中国大陆、香

港、台湾、新加坡、日本、韩国）45所著名高校和研究机构的近百

名优秀博士生的积极申请。其中27名同学脱颖而出，于9月16日至

微软亚洲研究院参加面试。

Weibo Highlights 微博拾粹

14

最近一段时间，“人工智能”（Ar t i f ic ia l Inte l l igence）

与机器人再度成为好莱坞造梦工厂的热点题材。《超验骇客》

（Transcendence）和《她》（Her）是这种经典题材延伸出

的最新的分支。前者讲述的是科学家将物理世界的自己数字

化、再反过来影响物理世界的故事，后者则是人与人工智能系

统之间发生的爱情故事。和很多微软研究员一样，我个人是科

幻电影迷，对AI题材尤为感兴趣，因为多年来AI一直是我的研

究领域，它与我每天从事的研究工作息息相关。

在我看来，幻想有朝一日机器统治世界的电影其实都难以

解决一个简单却无法回避的问题，那就是促使机器攫取权力的动

机。自然界的猛兽当然会互相攻击来确定族群的领导者，也有很

多人会把更大的权力、更多的金钱视为必生追求的目标。生物学

家、心理学家通常会把造成类似普遍现象的原因归结于与生俱来

的繁殖本能——但这种规律未必适用于无机体。机器是人类创造

的无机体，无机体本身是没有意识的。它们会在意自己有多少同

伴、多少后代吗？它们会向往一个满是机械味道的世界、并不惜

为此将一切阻碍新世界形成的人与物全部消灭吗？即使有类似的

行为，那也是缘于其背后人类编写的程序和发布的指令。

无论如何，电影里、现实中的机器都越来越聪明、越来越

有“人性”了，但去掉所有的幻想、只保留科学后的真实情况是

怎样的？

四级小台阶，机器难攀越

最近一段时间， A I 的概念似乎过热了。这是我的真实感

受——其实，较之过去五十年里的同类，今天所谓的“智能机

器”的能力提升都还只是量变，远远达不到质变的标准。

机器——或者说人们日常依赖的工具的能力质变大概有四级

台阶。

第一级，功能（Capability）。功能是工具的价值点，对于人

类最有意义，也一直推动着人类社会的进步。从石刀石斧、鼎镬

簋盂、埙筝钟磬到今天的跑车、游轮、客机，工具万千，各有所

用。

第二级，智能（ Intel l igence）。有趣的是，“智能”的概

念是跟着时代的发展而不断改变的。记忆力是一种智能吗？倒退

几百年的话，显然是。科举、八股文所考察的首先是应试者对古

老经典全局与细节的记忆。算术是一种智能吗？曾经是——《水

浒传》里有位好汉叫神算子蒋敬，职司梁山钱粮支出纳入，可

说是梁山一百单八将里少见的头脑与肌肉兼具的人才。下棋是一

种智能吗？当然是。雄踞国际象棋第一高手宝座时间最长的棋

手加里-卡斯珀罗夫曾被誉为“全世界最聪明的人”——但在今

天，说起记忆力、算数和弈棋（不包括围棋），计算机比人类更

在行，但大部分人可能不会认为这些有多高智能多了不起。另

外，IQ（I n te l l i gence Quot ien t）测试是个有趣的话题——由

于测试全程通常都会给出各种选项，机器在应对这种智能商数的

挑战时其实是有很大的几率得高分的，我猜测，未来十年内，将

会出现IQ测试拿最高分的机器。

Technology前沿技术

我们需要什么样的机器人作者：微软亚洲研究院院长洪小文

15

第三级，智力（ Intel lect）。智力比智能更高一筹，“力”

这个字里包含了判断力、创造力等信息。对人类来说，每天我

们面对的大多都不是选择题，又或是有着无穷选项的选择题。例

如，我在微软亚洲研究院的日常工作，大部分都不是非此即彼的

选择——一个研究团队需要补充人手，我不能简单地回答“可

以”或“不可以”，而是要结合实际情况，包括预算、课题、团

队现状、发展前景等多方面的因素，来判断团队是否真的急需补

人、补多少人和什么样的人，或者是否可以通过与其他组的合并

来内部解决。今天的AI，基本上没有能力在缺乏数据的情况下，

创造出如天外飞来一笔的新的选项。

第四级，智慧（Wisdom）。智慧往往是由丰富阅历、深邃思

考积淀而来的洞察——所以我们经常说某位长者智慧深广、堪为

导师。所有的智能都不是用选项的形式来表述的，就像火种，它

能在特定的时刻引燃人们思想的火花，照映前路。哪怕再过很久

很久，机器也不大可能产生真正的智慧。

截至目前，全世界最“聪明”的机器也只是站在了第二级台

阶上——AI这个概念的大部分含义其实是“功能”，还有一定

的“智能”。“智能”与“智力”只差一个字，但对机器而言却

好像是鸿沟天堑，极难攀越——至于让机器具备“智慧”，剧作

家和导演当然会继续开发此类题材的科幻电影，但科学家们所得

到的进展却微乎其微。

没有智慧，但处处皆智能

我手边有一部安装了Cortana个人助手的手机。Cortana很强

大，能够在响应质询、分辨指令时保持相当高的准确率，而且支

持连续的语义分析与问答响应——我有时候想，倘若图灵在天有

知，将如何评价像Cor tana这样的新技术，会不会饶有兴味地与

Cortana展开对话……

随着计算机基础研究的持续积淀，随着互联网及其背后与

日俱增的数据中心所生成和保存的数据量越来越庞大，机器一定

可以帮我们做更多的事，从繁复艰深的演算到远行代驾和清扫房

间……问题是，机器会进化到足以替我们思考和决断的地步么？我

们真的需要像人一样有想法、有情感的机器来陪伴么？

从计算能力来看，计算机早已超越人脑，但这不意味着计算

机有智慧——迄今为止，各种类型的计算机都仍只是人脑部分功

能（主要是记忆与运算）的延展。

说起AI，不少人会追溯近百年前科幻作家们的拟想或是六十

四年前图灵提出的假说，但在我看来，整个人类文明史都贯穿了

对机器智能的追求。例如被杨振宁先生称为“世界上最早的计算

机”的算盘，直至PC普及之前都是主流的计算工具，上世纪七八

十年代，许多中国家长都会送孩子去学习心算和珠算——算盘本

身正是被人类赋予了规则、体现了人类智慧的工具，本质上，这

与今天的PC、智能手机、平板设备可谓一脉相承。

击败了卡斯珀罗夫的 IBM“深蓝”被许多人视为AI研究的里

程碑。在对弈时，能想出更多后续杀招、对方可能的应手、由

此带来的变化、变化后对应的棋路调整的棋手赢面显然更大，而

计算机在此方面的优势不言而喻。人脑只能设想出几步、十几步

棋，但机器则能模拟出所有的可能性。也就是说，即便不是“深

蓝”，也迟早会有其他的计算机选手挑战人类成功，而且基于当

前的信息科技发展水平，如果将国际象棋世界冠军的人机之争变

成每年例行的赛事，那极有可能已无人能够战胜机器对手——哪

怕只是一台Windows Phone。当然，计算机棋手短期内还无法攻

陷源起于中国的围棋的阵地，这很让我们为老祖宗的深邃智慧感

到自豪——有人估算，围棋的变化可能性超出象棋10的122次方

倍。计算机下棋的方法是穷举所有的可能性，而人类则可以根据

经验选择性地精减（prune）和深入。可以想象，若仅仅通过提升

机器性能、存储棋谱、优化算法来作出“判断”，因为需实时处

理的计算量太大，现有的最强大的计算机也还是不可能战胜人类

大师。

不过，的确计算机不同于人类以往发明的任何工具。这种不同

体现在，一是它不是出厂时用途便已固化的专用工具，像脚踏车、

影碟机，它的能力取决于用户安装的程序。二是它可以为各种专用

工具注入新的生命力，比如近来被热议的“可穿戴设备”，只是将

某些计算能力植入腕带、手表、眼镜等“传统工具”，将之与手

机、PC之间建立起数据关联而已。

但凡“工具”，皆包含了其人类创造者的智能、经验与巧

思。广义的AI是给予制造物以契合事理的功能特性，与人类一起

共同完成我们做不到和做不好的事，达到“人+机器=超级人”的

效果。就像锤子、斧子是人们手臂的强化和延续，汽车、轮船和

飞机是人们腿脚的强化和延续。近年来无人驾驶汽车很受关注，

似乎这是一种新形态的智能机器，但无人驾驶的飞机多年以前便

已发明——同样无需人来驾驭，飞机和汽车相比，能说哪个更智

能呢？


16

制给机器，无论是将低阶的声音、影像、气味等信号升华到认

知，还是把有共性的现象抽炼成规律，都不是机器所能掌握的

技能——机器学习与大数据将AI研究带入春天，最近还出现了

深度学习、深度神经网络等新概念。更大规模的数据量和更少的

假设、限制可以让机器用自己擅长的方式（数据存储、挖掘、分

析）“思考”和成长，进而在实用化路途上走得更快更远。

人机关系：主宰与助手

截至目前，智能机器（包括形形色色的“机器人”）的优点

和缺点同样鲜明。它们能够更迅速更高效地完成很多人类难以承

担的工作：在实验室、计算中心等需要运算的环境，在工厂流水

线、组装车间等辛苦又单调的环境，在核污染现场、深海、太空

等人类不宜接触的环境，到处都有智能机器的身影。

处理数据是机器的强项。多年以前分析较大规模的数据需

要动员许多具备专业知识的人共同参与，还往往耗时良久，而现

在，遍及全球的互联网与传感网时刻都在生成海量的、多维的数

据，依靠人脑无法有效处理，而用计算机来分析，也就是一眨眼

的事。借助机器的力量，人们可以更快地由现象抽取规律，由规

律导出结论。而今，AI与大数据的结合，已表现在每个领域、每

个应用中。未来的两三年，初步拥有了看、听、连接能力的多元

化的设备会反过来推动AI研究的跃进，因为更多的数据会让机器

不断发现更准确的规律和更贴近事实的因果。

但在可见的未来，让机器拥有接近于人的自主选择、判断、

创造与决策能力仍不容易。就像聪明的Cor tana，在安静的办公

室里可以听懂你说什么，并遵照你的指令帮你拨电话、发信息、

查影讯、订餐厅，但如果是在嘈杂的公众场合，比如音乐节现场

或鸡尾酒会上，Cortana一定会变得不那么聪明，因为太多的声音

信号让她无法分辨有用的信息。但换做是人呢？即便现场宾客再

多，声音再嘈杂，没法听清楚谈话对象的每一句话，但多数情况

下，你仍然能猜对、补足并理解对方发送的信息，因为你的大脑

在全神贯注之下，能够去除环境杂音，捕捉到想听的信号，同时

过去的几十年来，计算机硬件性能的演进和软件适用领域

的拓展超越了所有人的想象。若是以广义的视角来观察AI的外

延，承认所有灌注了人类对世界的思考的工具都体现了某种程

度的“智能”，那么可以说生活中已然随处可见智能设备。

让机器用自己的方式思考和成长

“耳聪目明”是对人的夸赞。科学家们一直在尝试让计算机

能用人类的方式来了解世界，所以语音识别和计算机视觉始终是

AI研究的重点——今天我们已经可以和Cortana对话、或是坐在配

有360°无死角摄像头的无人汽车里感受机器驾驶员的技术。

Cortana和无人汽车是机器人的一种吗？某种意义上是的。但

如果说“真正的机器人”必须既能像人那样思考，又具备类人的

体貌——好吧，谁知道我们要用像人一样的机器来做什么呢？大

家对于人形机器的固执迷思的背后，很可能是想找到替自己做粗

重工作的帮手吧。

然而现实是已经出现了很多能帮我们做粗重工作的机器，无

论是煮咖啡、烧烤还是洗碗、打扫……人们是喜欢一台四肢粗壮的

机器人系着白围裙跑来跑去给我们做所有的家务，还是习惯于用

各种小巧的设备来完成不同的任务？

假设人人都爱机器人，在通往产品的道路上也还是有着许多

障碍。比如，从桌上的茶壶里倒杯茶而不打翻杯子或洒出茶水，

这对人类小孩来说都不算挑战——孩子们不假思索就可以完成任

务。但对最“聪明”的机器人而言，却要经过艰难复杂的运算。

首先他要看到桌子，认出茶壶和茶杯，用适当的力度拿起茶壶

（手指太粗可能还不成），举起茶壶、以刚刚好的角度对准茶

杯，实施倒茶的动作，还得判断怎样才能让杯中的茶水将满不

溢。就算碰巧成功了一次，下一轮换全然不同的桌子、茶壶、茶

杯，还是可能会失败。

长期以来，从事AI研究的科学家，也包括那些执迷于创造出

类人机器的学者，总是梦想着将人类思考、计划、执行的能力移

植给机器，但是否人怎样行动，机器就应怎样行动？是否人达成

目标的路径是由A到B，机器就应遵循完全一样的路径？这种研究

诚然有着非同寻常的科学价值，却也会因“赋予钢铁工具以人的

特征才算成功”的偏执而举步维艰。

另一条思路是跳出窠臼，站在机器的角度去模拟和延展人的

思维，而不是用人的视角和习惯去限制机器。无人驾驶汽车并非

只有“两只眼睛”，而是装备了多个雷达传感器、全景摄像头和

激光测距仪。i-Robot清洁机器人也是，她的身材圆润扁平，一点

儿也不像人，但吸尘的时候一定比两米高的机器保洁员好用。

最初，AI研究遭遇的瓶颈是，人的逻辑思考模式几乎无法复


17

基于对谈话对象所处领域和语言习惯的了解，你可以用想象和思

维延展填上没听清的语句漏洞，而且准确率相当高。今天的AI可没有这种能力。

同样道理，机器翻译工具可以给出词语的释义，甚至帮我们

逐字逐句翻译每句话，但如果是现场即听即译的情况下，逐字逐

句翻译既没有必要，也不太可能，因为倾听、辨识、翻译、选择

词句都需要思考，但倘若翻译者很了解发言者，也知道之前他曾

经讲过类似的话题，就会比较省力，很多时候，发言者讲了很长

一段话，翻译者只用一两句成语就能概括与传达准确的意旨；反

之，发言者只是说了一个与学术相关的句子，翻译者可能既要表

达原意，还要添加注释，来让周边的非专业听众能够明白——这

是专属于人的Generate and Test（半猜测半验证）能力，AI并不

具备。

结合各种感官捕获的信号与过往的知识积淀去处理信息、判

断并做出决策，这是人的专长。机器的优势是数据处理、模式识

别，而不是判断、创造与综合。所以我相信，无论AI科技发展得

多么迅速，人与机器之间，依然会是主宰与助手的关系。

总结一下，我们需要什么样的机器人？

真正有用的机器人不一定是人的形象，人形机器有趣但不实

用。试想一下，当你站在一台高大强壮的人形机器旁，会不会油

然而生恐惧感呢？客观地说，粗壮又庞大的机器人只适合工厂和

工地，我们可以幻想一种普遍适用且长得与人相像的全能机器，

但这种设备的拥有成本一定很高，此外还有空间和能耗等现实问

题。现实中，已开始帮助我们做各种工作的机器大多是小巧和

悦目的，未来我们的办公室、我们的家都会变得越来越智能，

但“智能”会无形地隐藏在吊灯里、电视中、墙壁上，更像是


人类生活在智能机器中，而不大可能只是以人的形象提供服务

的机器人。

研发有类人情感的机器，对科学家而言或许是值得投入心血

的课题，但其实用意义远不及科学意义——而今生活中已经有

很多智能机器，虽然它们没有情感，但这能说是坏事吗？假设你

的机器人既能干又爱你，但爱的反面不正是沮丧、愤怒等负面情

绪？这样的机器人，可能会在情绪不好时拒绝你的指令，还可能

希望自己也有权像人一样工作五天休息两天，这恐怕不是我们想

要看到的。

另外，很多人受到科幻电影的影响，因为机器变得越来越智

能而恐慌，对此我倒不太担心——刀、锯，甚至汽车、飞机都

可以拿来做坏事，但正常状态下，这些工具对人类来说大多有着

至关重要的正面价值。真正决定其用途的，是背后的使用者。况

且，人类自古以来就在持续制造和自己一样有情感甚至更聪明的

生命，即我们的下一代，也一直懂得如何与之相处。只要科技对

人的帮助远大于伤害，那我们就该正面、乐观地看待它，并继续

向前走。

1991年，微软研究院创立时，比尔•盖茨希望研究院能够致

力于让未来的计算机能够看、听、学，能用自然语言与人类进行

交流。这是一个与AI研究关联紧密的梦想。二十多年来，我们时

刻在为之努力。其实，研究人员与科幻电影创作者有很多相似之

处，两者都在试图构建一个通往未来的“梦境”，但与后者相

比，研究人员除了做梦之外，还要努力想清楚圆梦的途径。在我

看来，看清AI能做什么不能做什么，将目标聚焦在可以100%控制

的、能有效提升我们生产力与行动力的成果上，承认只有“人+机

器”的组合才是AI研究的主流方向，这或许更有意义，也是人类

社会发展的正确方向。

洪小文博士现任微软亚太研发集团主席，兼微软亚洲研究院院长，全面负责微软在亚

太地区的科研及产品开发工作，以及与中国及亚太地区学术界的合作。洪小文博士是电气

电子工程师学会院士（IEEE Fel low），微软杰出首席科学家和国际公认的语音识别专家。

洪小文博士已在微软公司工作了20年。他于2004年加入微软亚洲研究院担任副院长，2007年升任微软亚洲研究院院长，2014年兼任微软亚太研发集团主席。与此同时，洪博士于

2005年至2007年间创立并领导了搜索技术中心（STC），该中心负责微软搜索产品（必

应）在中国的开发工作。

作者

18

种科技设备来提高生活质量。在微软之前的帮助下，Steve已经能借

助眼球追踪技术（eye-tracking technology）在Surface上完成输入，

并使用语音合成技术与人交流。但无奈病情持续加重，Steve越来越

多的肢体被“冻住”，无法活动。这给科技提出了全新的要求，而

Hackathon参赛队伍Eye Gaze接下了挑战。最终，他们出色地完成这

项挑战，并摘下大赛的总冠军。

Steve不仅是一位态度积极的患者，他还组建了名为Team Gleason的公益团队来帮助境况更为艰难的ALS患者。在家乡美国

新奥尔良市，他甚至建造了一个可以容纳九人、配备了智能物联

设备来方便ALS患者独立生活的疗养公寓。所以，此次微软的新技

术让他格外振奋，更多的“渐冻人”又将能从中受益。在“冰桶

挑战”流行之际，他点名挑战Satya，不仅是看中微软CEO的影响

力，也因为微软在帮助ALS患者上付出的努力使得Satya成为他心

目中最佳代言人。

上周三早晨，Satya接受了挑战。Eye Gaze团队的20余位成


“冰桶挑战”之外：微软科技助力ALS患者

相信很多人对“冰桶挑战”已经不陌生了。这项起源于美

国，旨在唤起人们对肌萎缩性脊髓侧索硬化症（ALS，俗称“渐冻

人症”）关注并募集善款的活动从上周开始以迅雷不及掩耳之速

席卷了中国，并在社交网络上疯狂的流传开来。科技名人和娱乐

明星纷纷加入，很多人也正跃跃欲试地准备进行挑战。

上周，微软CEO Satya Nadella也收到了一次“冰桶挑战”的

邀请，来自前美国橄榄球联盟（NFL）球员Steve Gleason。Steve就是一名ALS患者，在2011年被诊断出患有ALS后，他不得不离开

心爱的绿茵场并逐渐失去了行动能力。而在上月举行的微软首届

黑客马拉松（Hackathon）大赛上，由来自全公司多个部门的微

软员工组成的团队Eye Gaze与Steve紧密合作，在48小时内开发出

了3项用来帮助Steve更独立地生活的技术,包括用眼球来“驾驶”

轮椅。

“直到ALS出现治疗方法，科技就是我的解药。”

Steve自患病起一直没有放弃与病魔斗争，尤其是尝试利用各

编者按：“直到ALS出现治疗方法，科技就是我的解药。”ALS患者，前美国橄榄球联盟（NFL）球员Steve Gleason如是说。最近，一支微软首届黑客马拉松（Hackathon）大赛的参赛队伍Eye Gaze团队，在48小时内开发出

了3项用来帮助Steve更独立地生活的技术,包括用眼球来“驾驶”轮椅。

19

工作也有了了解，比如针对弱视的高对比度Windows界面。“本

来公司很大，但Hackathon让各部门的距离变近了。”

最终，在48小时紧张的开发后，有三项成果出炉。第一，通

过一个固件编辑（firmware edit），Steve现在能实现仅通过眼动来控

制Surface的开启；第二，实现更自然的眼动文字输入和朗读，让眼

动输入时具有文本预测的功能，同时转换成声音的时间更短；第

三，团队融合了Kinect体感设备、微软机器人研究成果和眼球追

踪技术，在Surface上载入了一个用户界面，使得Steve能仅通过

眼球转动来“驾驶”他的轮椅。

这只是开始

读者也许不禁要问，在短短48小时内开发出这些功能是如何

做到的呢？对此张益肇博士解释说，其实他们所做的更大程度上

是技术整合，无论是Kinect、机器人研究还是眼球追踪的相关技

术，都已经储备在那里。这次与Steve合作的Hackathon挑战也因

此带给了他们一个启示，用户需求和使用场景更重要。以后需要

进一步思考如何与用户更紧密地合作来发现需求，将微软的技术

储备更多地转化，来给社会带来福利。

也正因为此，Eye Gaze团队的使命不会因为Hackathon的结束而

终结。与Steve的合作过程中Eye Gaze队员们的思路被进一步打开，

比如Steve用眼动完成文字输入后，设备会朗读这些语句。因为Steve在还能说话时录下了自己的声音，所以在克服输入文字和转化成声

音的延迟问题后，效果就能达到仿佛Steve在自如地说话，与常人无

异。但目前“备份”个人声音的成本还太高，研究员们未来将尝试

让这项服务平民化，被更多ALS患者使用。

事实上，Eye Gaze团队的研究除了针对ALS患者，也能推动其他

领域的进步。比如通过眼球追踪来控制轮椅的技术，有着更广阔的

应用场景，不仅任何涉及到无法使用双手的病人都能用它方便自

己的行动，未来的汽车智能驾驶也能从中受到启发。Steve说过，

任何有益于残障人士的技术，最后也会增强正常人的能力。这也

是计算机易用性研究的另一大价值所在。

员则获得了往老板头上倒冰水这一独家“福利”。现在让我们回

到两周前的Hackathon，来看看Eye Gaze团队一系列技术的诞生

过程。

Hackathon的48小时

48小时、跨越230座城市和80个国家、3,000支参赛队伍和

12,000名员工——7月29、30日微软召开了公司史上第一次全球

员工Hackathon大赛，用这种全新的方式在新财年伊始鼓舞员工

的创新士气。

已经被固定在轮椅上无法自由行动的Steve最近遇到了一件

麻烦事。失去语言能力的他一直依赖眼球追踪技术在Surface上输

入文字，再进一步以将文字朗读出来的方式与人沟通。但是如果

遇到了某些突发的情况Surface关机了，他就必须依靠周围人的帮

助，才能按下开机键重启机器。所以Steve迫切地需要一个解决方

案能够使Surface在任何情况下都能执行自动重启的命令。

另外，在与Steve进一步的交流中，Eye Gaze团队发现随着病情

的日益加重，更多的问题开始困扰Steve的生活，尤其突出的是，他

逐渐没有能力再用手操纵轮椅了。此外，过去追踪眼球来输入文字

的方法不够快捷，Steve希望加入预测输入内容的功能；而将他输入

文字朗读出来的转化时间也过长了。

真正的残疾是对待事情的消极态度，所以Steve一直说，我的人

生不树白旗。Eye Gaze团队也打算迎难而上，围绕Steve的需求，在

48小时内逐一攻坚上述问题，给予他真正的帮助。为了解决这些新

增的难题，Eye Gaze团队开始邀请微软全公司内各个领域的好手助

阵，最终的团队包括了26位成员，来自Windows、Kinect、客户服

务与支持、应用与服务等众多团队，甚至还有位于北京的微软亚洲

研究院的副院长张益肇博士。

对于参与项目的微软员工来说，这段经历也有独特的价值。

张益肇博士说，原来自己只是知道微软有一支做计算机易用性的

团队Accessibility Team，但通过这次和他们共事，对他们所做的


Eye Gaze团队的部分成员

Steve Gleason与Eye Gaze团队紧密合作，开发一项仅

通过眼球来“驾驶”轮椅的技术。

20

二、为基础模型研究正名

也许因为如此，我认为本次的评奖有些指引方向的感觉。本

次大会的最佳论文颁给了研究camera motion和shape recovery关系的文章What Camera Motion Reveals About Shape with Unknown BRDF（single author!）, Honorable mention给了

利用structured light研究shape的论文3D Shape and Indirect Appearance by Structured Light Transport。这两篇论文都可以

算是研究3D几何模型的。不仅评奖如此，计算机视觉领域的前辈

也亲自站出来力挺一下基础模型的研究，其中Jean Ponce亲自写了

一篇论文(oral)来继续探讨trinocular geometry的传统假设不成立时

如何保证三个相机visual rays相交的情况。这些论文无一不是对计

算机视觉基础问题和基础模型的深入研究，考虑前人没有研究过

的问题的系统分析。这些文章的获奖也是鼓励我们年轻研究人员

静下心来做基础问题的研究，不轻易追赶当下热潮。

三、尚未被深度学习渗透的Low-level Vision

计算机视觉的问题可以根据他们的研究对象和目标分成三大

类，low-level，mid-level和high-level。Low-level问题主要是针对

图像本身及其内在属性的分析及处理，比如判断图片拍摄时所接

受的光照，反射影响以及光线方向，进一步推断拍摄物体的几何

结构；再如图片修复，如何去除图片拍摄中所遇到的抖动和噪声

等不良影响。High-level问题主要是针对图像内容的理解和认知

层面的，比如说识别与跟踪图像中的特定物体与其行为；根据已

识别物体的深入推断，比如预测物体所处的场景和即将要进行的

行为。Mid-level是介于以上两者之间的一个层面，个人理解是着

重于特征表示，比如说如何描述high-level问题中的目标物体，

计算机视觉（Computer Vision）是近十几年来计算机科学中最

热门的方向之一，而国际计算机视觉与模式识别大会（Conference on Computer Vision and Pattern Recognition，简称CVPR）绝对是

计算机视觉会议中的翘楚。

一、繁荣的深度学习

深度学习（Deep Learning）是当下最热门的方向之一，今年

的论文中标题带deep字眼的论文就有16篇（其中oral presentation4篇——在CVPR等大型会议中，由于论文数量众多，大部分的论文都

是以海报的形式作讲演。而大会的委员会在所有其中挑选少量出

色的工作（占所有投稿的5%）面对所有研究者演讲）。深度学习

热潮爆发以来，诸多研究者都在不懈地努力着，希望能够把它应

用于解决计算机视觉的各种任务上，从高层次（high-level）的

识别（recognit ion），分类（classif ication）到低层次（ low-level）的去噪（denoising）。让人不禁联想起当年的稀疏表达

（sparse representation）的热潮，而深度学习如今的风靡程度

看上去是有过之而无不及。深度学习也有横扫high-level问题的趋

势，high-level的很多方向都在被其不断刷新着数据。以往的改进

都是1，2个点的增长，如今使用深度学习轻松刷出5，6点，这给

很多非深度学习方法研究者巨大的压力。虽说深度学习是大热方

向，可计算机视觉界的研究者对深度学习的态度也是很鲜明的两

派——支持与观望，也给其他研究趋势带来了一些影响（原因接

下来说）。作为强大的特征（feature）学习工具，获得大量的支

持与推广自然不必说，很多原本观望的研究者们在目睹深度学习

的优秀表现后也都开始投身于此。持观望态度的人们一部分可能

仍并不了解深度学习的机理，另外一大部分相信是对深度学习将

给计算机视觉带来的贡献持保守态度。

作者：微软亚洲研究院实习生胡哲



21



了实时并且算法也很鲁棒。在PC上不用GPU也达到了25FPS（每

秒显示帧数），而平均误差在测试数据上降低到10mm，相比其

他方法提升50%左右。对手势的准确识别是现在很流行的一个问

题。因为技术的进步已经让传统的输入方式（比如鼠标）处于更

新换代的边缘了，如今通过Depth Sensor与手势来实现人机的实

时交互将可能带来下一个输入方式的革命。所以这个工作是很有

价值与深远影响的，也因此而获得了oral演讲的资格。

另外，微软亚洲研究院在今年的CVPR发表的另外一篇oral论文

也是应用很广的一个问题——人脸对准（Face Alignment at 3000 FPS via Regressing Local Binary Features）。

通过采用局部学习的准则降低随机森林（random forest）的

任务难度，以得到更好的局部特征（local feature）。同时，整体

上的结构学习帮助算法更加鲁棒。这个项目实现了快速的人脸对

准以及人脸跟踪。在相同精度下，它比以往的方法快了数十倍，

在PC上单核3000FPS，手机上单核300FPS。这个结果很令人振

奋，因为手机及移动设备已经很大程度的改变人们的生活方式，

可是相比PC，手机的处理能力有限，那么就需要更加快速稳定的

算法。这个工作就为在手机及移动设备对人脸的实时处理提供了

坚实的基础。

作者简介

使得这种描述有别于其他的物体。可以大致认为， low-level的内

容可以服务于mid-level的问题，而mid-level的内容可以服务于

high-level的问题。由于这种分类不是很严格，所以也会出现交叉

的情况。深度学习在计算机视觉界主要是作为一种特征学习的工

具，可以姑且认为是mid-level的。所以之前提到的high-level的问题受深度学习的影响很大就是这个原因。相比较而言 low-level问题受到深度学习的冲击会小很多，当然也有深度学习用于去噪

（denoise）和去模糊（deblur）等 low-level问题的研究。对于

受到深度学习良好表现困扰的年轻研究者们，也不妨来探寻 low-level很多有意思的研究。

笔者目前也正专注于 low-level中去模糊（deblur）的研究。

去模糊的意思是借助某种方法将拍照中出现的模糊图像恢复成清

晰图像。这个问题是一个已经被研究了很多年的问题——去卷积

（deconvolution），自上世纪5，60年代起，就有很多知名研究

工作出现。

这次笔者被CVPR 2014录取的三篇文章都是关于去模糊的研究。

一篇是针对模糊图像的一个主要来源——暗光照情况下的图像，设计

的一个基于光斑（light streak）的去模糊算法（Deblurring Low-light Images with Light Streaks）。

这个算法自动检测暗光情况下常见的光斑，并利用光斑作为模

糊核（blur kernel）的约束。它对解决暗光下模糊图片非常有效，

而且光斑这一现象不仅出现在低光下，在普通的模糊图像中也会出

现，只需要场景中有与周边环境有颜色差别的小型物体出现。读者

可以在我的个人主页上下载代码进行尝试。还有一篇是说从一张模

糊图像中，我们不仅可以估计相机的抖动，还可以发掘出场景的

深度（Joint Depth Estimation and Camera Shake Removal from Single）。这乍听上去像是不可能完成的任务，可实际上图像的模糊

是同时包含了相机抖动和场景深度信息的。读者也可以这样认为，

我们拍摄模糊图像的过程也可以看作是拍摄一小段video的过程，这

样的话我们相当于拥有了一个多角度立体（stereo）的输入！第三篇

是针对文字模糊图片设计的一个简单有效的算法，可以用于文字识

别前的预处理（Deblurring Text Image via L0-Regularized Intensity and Gradient Prior）。

四、Depth Sensor（深度传感器）及深度图像相关

近几年来从Depth Sensor得到的深度图像的相关研究一直是

学术界以及工业界重点关注的问题。特别是工业界，很多Depth Sensor相关的创业公司如雨后春笋般在业界涌现，他们也获得了

广泛的关注和不菲的投资，这次赞助CVPR的就有多家这样的创业

公司。

微软亚洲研究院在这个方向上也有一篇利用Depth Sensor做手部

跟踪的oral论文（Realtime and Robust Hand Tracking from Depth）

。通过重新定义手的模型和能量方程，这个工作将手部跟踪做到

胡哲，微软亚洲研究院

实习生，本科毕业于浙江大

学，目前在加州大学Merced

分校攻读博士。曾在 A d o b e

创新科技实验室实习，研究

方向为计算机视觉和图像处

理。在 C V P R , E C C V, B M V C

等知名国际会议上发表论文 7

篇（oral 2篇），并担任多家

期刊及会议的审稿人，如TIP,

ECCV, ACCV等。

胡哲

22

由于纬度较高（和呼伦贝尔市相似），8月的温哥华气温已

有所下降，旅行和度假的人数也随之减少了许多。而8月10日至

14日在这里的会展中心举办的SIGGRAPH会议（计算机图形图像

学大会）为这座城市带去了14,045与会人员。走在大街上很容易

看到胸口挂着参会卡片的行人，经营餐馆和商店的人也都知道这

个会议，在整个温哥华的市中心都能感到浓厚的会议的气氛。有意

思的是我在闲逛一家首饰店的时候，一位营业员说她的儿子在艺

电（Electronic Arts，EA）工作，也参加了这次会议。这些参加会

议的人来自全球75个国家，有些来自工业界，有些来自学术界，

有的是知名的艺术家、科学家、工程师，也有年轻的学生、爱

跨越真实和虚拟世界的边界——走近SIGGRAPH 2014大会作者：微软亚洲研究院研究员孙鑫

一场大会振奋一座城

温哥华位于加拿大西海岸的不列颠哥伦比亚（ B r i t i s h Columbia）省，传统上以工业、林业、矿业和航贸为支柱产业。大

约60万的常住人口中有大量的原住民（first nations）、亚裔（包括

东亚、东南亚、南亚和西亚）、拉丁美裔和非洲裔居民。优美的自

然环境、交通便利的地理位置、多元化的人口组成、兴旺的经济活

动以及对少数族裔和同性恋的支持和保护，使得这座城市充满着活

力和吸引力。近年来温哥华扮演的更重要的角色是加拿大的信息、

生物科技和电影等新兴的创新产业的核心孵化区。


23

高质量脸部计算方兴未艾

中国人自古有“相由心生”的说法。先不论这种说法是否

有科学依据，没有人能否认人的脸部在社会活动中的重要地位。

在图形学中，对于人脸的计算的研究也是少有的、长期的热点方

向。从采集、建模，到运动序列、绘制、交互，可以说每个图形

学的领域和方向都有脸部计算的一席之地。近年来随着交互技术

和社交文化的迅猛发展，人脸计算的技术也持续在高性能、高质

量和高交互性上渐次升温。

“Controllable High-Fidelity Facial Performance Transfer”就是一篇微软亚洲研究院发表在今年会议上关于高质量面部运动

序列建模的论文。这篇论文的技术可以将一个脸部的运动序列迁

移到另一个脸部，其中的核心是高质量。由于人对于面部的敏锐

观察和丰富感受，面部模型的质量对于用户体验和实际应用具有

决定性的作用。这篇文章的技术能够很好的保持住面部的起伏、

褶皱等细节，不会因为面部构造的差异而降低丰富的运动效果。

一个有意思的实验是把一个人的脸部运动序列迁移到一只狗的脸

部，我们还是能够感受到从狗的脸部所表达出来的同样的情绪变

好者，他们活跃在图形学和人机交互的各个领域。这里有论文宣

讲，专题报告，产品陈列，作品展示。这是一次内容丰富气氛火

爆的聚会，每个人都能根据自己的兴趣和喜好找到合适的活动和

展览。

跨越真实和虚拟世界的边界

图形学给很多人带来的印象是美轮美奂的虚拟世界。但是真

实世界和虚拟世界从未被割裂开，他们彼此之间的联系和融合会

带来无穷的魅力。而其中采集和制造就是连接真实和虚拟的两座

桥梁。

采集是将真实世界挪放到虚拟世界的利器。我们在CG电影或

者游戏中看到足以以假乱真的效果时，很有可能看到的就是来自

真实世界采集得到的数据。所以每年在SIGGRAPH都能看到许多

这方面的成果，不停地追求采集数据的高准确度、高复杂度，以

及采集方法的高效率和便捷性。

“Reflectance Scanning: Estimating Shading Frame and BRDF with Generalized Linear Light Sources”就是一篇微软研

究院发表在今年会议上关于材质采集的论文。这篇论文的工作在

数据采集方法的便捷性上有很大的提升，不再像以前的方法一样

需要设置复杂严格的光照条件，整个采集过程就好像扫描仪一样

采用通用的线性光源的平移方式，既快速又便捷，而且不需要牺

牲采集数据的质量，能保持非常高的准确度和复杂度。

制造则是另一座桥梁，把虚拟世界中的成果反馈作用到现实

生活中。人们把自己的需求和思考输入计算机，相应的算法就能

得到合适的设计和方案，并以此能制造出能够在真实世界中使用

的实体。这样的制造，天生具有高度的个性化定制化，同时能优

化设计，提高效率，降低成本。

近年来，3D打印无疑是其中最亮眼的主角，学术界和工业界

都有很多人在关注这项技术。有的人钻研造型算法，有的人设计

新型设备，也有的人在发掘合适的应用。有的人追求质量，有的

人追求便捷，有的人追求艺术鉴赏。特别值得一提的是，今年的

Keynote演讲的嘉宾Elliott Kotek，就介绍了他们如何使用3D打印

技术帮助在战争中失去双手的Daniel设计、制造、佩戴上义肢，

帮助他两年来第一次能自主饮食。相比于传统的义肢制造，这种

基于3D打印的技术由于高度个性化和高度优化，十分有效地提升

了肢体障碍人士的生活质量，并明显减少了义肢佩戴所带来的身

体上的不适和疼痛。这个有爱的工作再一次体现出了虚拟技术和

真实世界的互动给我们的生活所带来的改变。


24

化，这就是得益于高质量细节的保持。值得一提的是，今年几乎

所有脸部计算的技术论文的宣讲，都实时进行了现场演示（ l ive demo），而不是像以往一样只播放实验结果的视频。这也是对近

年来脸部计算工作的可靠性和实用性的一个佐证。

虚拟现实技术推陈出新

虚拟现实是一个比图形学更古老的话题，也许只有在“黑

客帝国（Matrix）”中才能被真正实现吧。我刚接触图形学的时

候，觉得虚拟现实就是实验室中的大投影。虽然当时还懵懂无

知，但是高成本和大视角确实是那个时候的技术水平的体现。时

移事易，今天的虚拟现实技术革新之快，已经让人有一种山雨欲

来的感觉。

平民化的3D显示也许会是引领这一轮变革的突击队。与其说

Facebook用20亿美元成就了Oculus的威名，不如说平民化的Oculus Rift已经改变了人们以往对虚拟现实的看法。没有吓人的分辨率，也

没有昂贵的大屏幕，但是低廉的价格和小到无法察觉的延时，使得

每个人都能获得极为优秀的沉浸式体验。会场中我们可以看大许多基

于Oculus Rift研发的技术和应用。他们有的只是用于传统的3D游戏，

有的已经和更多元的用户体验相结合。走出会场的时候你会相信，这

只是一个开始。

多元化的用户体验已经成为虚拟现实的发展趋势。其中声音

作为人的重要感知，对于沉浸式的真实感体验是不可或缺的。以

往的技术发展以视觉效果为优先。而近年来，声音绘制已经成为

和视觉绘制同样重要的热点研究问题。除了传统的高真实感的声

音的仿真模拟，实时的绘制技术也已经日趋成熟。在将来，真实

感不再是视觉的独宠。

“Parametric Wave Field Coding for Precomputed Sound Propagation”就是一篇微软研究院发表在今年会议上关于声音

的实时绘制的论文。这篇论文能够计算声音在传播过程中因为物

体的遮挡反弹而体现出来的波动特性。在不同的区域，不论是在

室外，空旷的房间还是狭小的走道，用户都能听出声音的变化。

作者采用了预计算的方法对声波响应随时间和空间的变化进行编

码，因此能够在有限的存储代价下实时完成计算。

在每年的SIGGRAPH会议上都能看到非常新奇有趣的技术和

产品。总体来说，追求高真实感和高性能是图形学永恒的主题。

但是近年来人们越来越多的关注技术对人的反馈，不论是3D打

印技术还是平民化的虚拟现实技术，都折射出这样的思路。技术

革新往往跟随着人们观念的变化，而年轻人的思想是最具革命性

的。每年都能看到许多的年轻的学生和爱好者怀揣谦卑和好奇来

参加会议，而几年之后他们的思想和创新也许就已经改变了你我

的工作和生活。而这就是技术与人的互动最具魅力的地方。

微软亚洲研究院行政运营部

高级商务经理。1991毕业于北京

交通大学社会科学系，2000年加

入微软亚洲研究院工作至今，全

面负责微软亚洲研究院的日常运

营管理、内外部活动策划以及后

勤支持等工作。

孙鑫博士现为微软亚

洲研究院网络图形组研究

员。他分别于 2 0 0 8 年和

2 0 0 2 年在浙江大学获得

博士和学士学位。目前主

要从事计算机图形学方面

的研究。

作者简介

孙鑫


25

创造多项纪录的KDD 2014

ACM SIGKDD国际会议（简称KDD）是由ACM的知识发现及

数据挖掘专委会（SIGKDD）主办的数据挖掘研究领域的顶级年

会。KDD 2014于8月24日至27日在美国纽约召开。正值大会的20岁生日，今年的KDD创造了多项的纪录，令参会者们印象深刻：

一.史无前例的“超级大会”：参会人员突破2200人。提前售完注册名额，取消现场注册环节。

K D D 为来自学术界、企业界和政府部门的研究人员和数

据挖掘从业者提供了学术交流和展示研究成果的理想场所。

本届大会主题为“用数据科学造福社会”（Data Science for Social Good），为参会者们提供的学术活动包括特邀主题演讲（keynote presentations）、论文口头报告（oral paper presentations）、

论文展板展示（poster sessions）、研讨会（workshops）、短期

课程（tutorials）、专题讨论会（panels）、展览（exhibits）、KDD CUP赛事以及其他多个奖项的颁布。因为K D D大会涉及的议题大

多跨学科且应用广泛，所以吸引了来自统计、机器学习、数据

库、万维网、生物信息学、多媒体、自然语言处理、人机交

互、社会网络计算、高性能计算以及大数据挖掘等众多领域的

专家和学者。

史无前例的KDD 2014大会记作者：微软亚洲研究院实习生蒋朦

二.史无前例的“学术饕餮”：实际研究论文投稿量高达1036篇（除去无效摘要），而录取率相较于去年的17.8%骤降至14.6%。

本届KDD收到了超过1000篇的论文投稿，而最终仅151篇入

选，这既显示出数据挖掘领域的炙手可热，也反映了KDD大会对

质量的的严格要求，严防“水文”进入，杜绝“水会”污名。也

因此，KDD能够在20年中，一直保持在数据挖掘领域的权威性和

知名度。

本届KDD会议上，每一篇入选的高质量论文都获得了充分的

展示机会，包括15分钟的口头报告时间、3分钟的问答环节以及会

议首日晚长达4小时的展板展示。这与其他数据挖掘会议、乃至与

往届KDD会议相比，都是颇为罕见的；研究者们对自己的成果所

受到的尊重也展现出了极高的敬业精神，不仅口头报告个个重点

突出、生动活泼，在展板展示环节的4小时里也都“一站到底”，

哪管口干舌燥，依旧耐心而兴奋地介绍自己的工作。


26

三.史无前例的“学生资助”：学生赞助奖学金名额激增至40余名，让年轻学者对KDD更感亲近。

不同于往年仅10至20个名额的学生差旅奖学金，本届KDD在美国国家科学基金会（NSF）和彭博公司（Bloomberg）的

支持下，提供了超过40个学生奖学金名额，包括BPDM免注册费

奖、NSF差旅奖（提供给美国学生）和NSF免注册费奖（提供给国

际学生）。会议要求所有获奖学生必须担当大会志愿者，故而这

也为大会服务提供了充足的保障。在茶歇时，2015年KDD的主席

之一Longbing Cao先生谈到下一届在悉尼举办的KDD大会是否也

能提供充足的奖学金名额时，信心满满地说，KDD要更多地给国

际学生以机会。悉尼KDD不仅要让美国学生能继续方便地参会，

更要让太平洋地区以及亚非拉地区的国际学生得到更多的参会机

会。KDD会寻求更多大会赞助商的支持，而凭借其巨大的影响

力，相信这不是难事。

汇聚来自世界各地的专家学者以及爱好者们，来讨论数据

挖掘等领域的研究趋势、交流创新性的想法以及突破性的研究进

展，这是为期4天的KDD大会吸引到两千余人的魅力所在。非常荣

幸我这次投稿两篇全部被录用并且均为第一作者，这既是对我所

在团队之于数据挖掘领域研究的巨大肯定，也让我有机会能够前

去大会现场一探究竟。

其他参会见闻和感受

除却上述三大“史无前例”，接下来，我再谈谈这次参会其

他见闻和感受。

一.更加细致的展示环节（Madness spotlight）

KDD 2014的三天会期中，每天早上8点半至9点的30分钟是一个

叫做KDD Madness的环节，由当日所有口头报告人对自己的成果做

30秒的简短介绍。这样一来，报告人需要用一页引人注目的slide来精炼、有力地概括自己的工作；而对于其他参会者，也可以利

用这一环节确定下自己一天的行程，到底去聆听哪几场报告。

此外，报告人尽早地知道口头报告时前后是谁，能早一些交上朋

友，也为session chair省去不少麻烦。

在这里我要感谢Madness的主席Aris Gionis（来自阿尔托大学）

和唐杰（来自清华大学）的辛勤工作！

二.更加实际的审稿总结（Research Track Summary）

在当地时间8月26日的午餐会上，担任大会研究型论文主席

（Research Track General Chair）、来自斯坦福大学（Stanford University）的Jure Leskovec教授介绍了本次会议的论文审稿模式，

从中我们可以看到，KDD追求高质量所带来的竞争是极其残酷的。

在所有评审结果中，只要存在“reject”或“weak reject”的结果，

就无法入稿；而过了这一关的论文依旧需要所有审稿人通过在线讨

论，以得出最终的录取结果。这一过程中讲求公平公正，严谨认

真。

Leskovec教授还介绍了一些审稿过程中的数据统计结果，比如论

文投稿量、论文作者资深程度（采集自Google Scholar和DBLP）与论

文入稿与否的关系、审稿意见长度与审稿结果统一与否的关系之后。

由此向大会提出了很有启发意义的两个总结：

首先，想要让论文在KDD大会中入稿，可以从这三方面入

手：

1）团队构成多元：不仅仅拥有学术界人士，也要让工业界、

乃至政府的研究人员参与进来，这样的论文更有希望得到KDD的

赏识；

2）至少拥有一名资深作者：如果有一名在数据挖掘领域的资

深专家在创作过程中作指导，那么论文质量会更容易达到KDD的

标准；

3）不要提交超过5篇论文：当提交论文数量小于5篇时，入稿

率曲线较为平滑，但当提交论文数量超过5篇时，入稿率会急剧下

滑。考虑到人的精力和时间是有限的，提交超过5篇论文会对论文

的质量有一定影响，因此KDD并不建议这样做。

其次，提高KDD行业标准要做到如下三点。这更多是对审稿

人所说的：

1）尽量别给weak reject或是weak accept这种模棱两可的分

数，因为中立的分数往往会给评审结果带来很大的偏差；

2）努力去写更长、更明确的审稿意见：从大量案例中发现，

更长、更明确的审稿意见会与论文所得到的最终结果更吻合。此

外，人们往往认为这样的审稿意见会来自年轻的审稿人，因为业

界资深学者会更为忙碌，在审稿过程中更倾向于只提供积极或消

极的态度。而事实上，恰恰是年长者、资深者更会给出长而清楚

的意见，反倒是年轻人难于开口表达看法；

3）早些提交审稿意见：提交审稿结果截至时只收到了半数的

审稿意见，而在期限后提交的审稿意见，无论在结果统一性和意

见质量上，都无法与按时提交的意见相比。


27

这样的基于数据挖掘的审稿总结极具KDD的领域特色，能更

好地提升学术质量，改善学术氛围，让KDD能够更健康更久远地

发展下去。感谢Jure Leskovec和Wei Wang（来自UCLA）的辛勤

工作！

三.来源更加广泛的特邀报告（Keynotes）

本届KDD重邀5位来自不同行业不同机构、拥有不同背景的知

名学者，分别给所有参会者做1小时的报告。这些特邀报告完全不

同于一般的口头报告，其范围之广、内容之新，让人有醍醐灌顶

之感。听完特邀报告的参会者纷纷表示，他们绝没想到能如此生

动活泼，如此开拓思维。这里我们只列出特邀者、所在机构和报

告名称，想必大家就能有所感觉；特邀报告的视频资料可以等待

KDD大会后期公布。

我对数据挖掘领域新兴问题的探究

纵观本届KDD，不难发现传统的数据挖掘领域依旧充满活力

的同时，对于新兴问题的研究也层出不穷。

传统问题涵盖了图建模和图挖掘、动态图分析、可扩展图算

法、数据流、文本挖掘、推荐系统、排序推荐、主动学习、监督

学习、迁移学习、特征工程、聚类算法、异常检测、话题建模、

社区挖掘、万维网挖掘、降维算法等领域。而新兴问题则包括了

大数据统计、大数据可扩展算法、大规模问题优化和学习算法、

社交媒体、社交网络和信息网络传播问题、商务应用、工业应

用、政府工程、健康问题、安全问题、隐私问题、欺诈问题、环

境问题、教育问题、医药学、地域服务、可解释性模型、监控与

维护、广告与交通、群智与市场等。从以上对比中，我们可以发

现KDD的新兴问题更偏重实际应用中所产生的大规模数据和非结

构化数据，偏重解决实际问题。

本人在本届 K D D 中所发表的两篇论文即侧重解决实际问

题。一篇是《大规模有向图中的同步行为检测》（CatchSync : Catching Synchronized Behavior in Large Directed Graphs），

针对微博中用户关注行为的异常现象（俗称僵尸粉现象），提出

了刻画用户关注行为正常性的核心特征，并从理论上证明了正常

关注行为在特征空间的分布特性，可在大规模（如4000余万用户

节点）社交网络上进行快速准确的异常关注行为检测。

另一篇是《基于多侧面信息进化分析的动态行为模式发掘》

（FEMA: Flexible Evolutionary Multi-faceted Analysis for Dynamic Behavioral Pattern Discovery），从用户行为的动态性

和多面性角度入手，基于张量摄动理论提出社交网络用户行为多

侧面协同演化模式的高效挖掘算法，大幅度提升了用户行为的可

预测性和可解释性。

本届会议微软研究院所发表的16篇论文质量相当不错，取得

了很好的影响和知名度，相信在来年的悉尼KDD，微软研究院还

能继续大放异彩！让我们期待下一次数据挖掘盛宴的来到。

蒋朦，微软亚洲研究院

实习生，本科毕业于清华大

学计算机系，目前在清华大

学计算机系攻读博士。曾在卡

内基梅隆大学访问学习，研究

领域为数据挖掘，方向为用户

行为分析和社交网络分析。在

KDD、WWW、CIKM、PAKDD等知名国际会议上发表论文7篇

（第一作者6篇，口头报告长文

5篇），并在知名期刊TKDE上发

表第一作者长文1篇。

蒋朦

作者简介


28

有人说领导人就应该独断专行，自己做决断；也有人否决，

说这是一个开放的时代，领导人应该集思广益，聆听意见，为我

所用。有人认为好的领导人应该展现一幅天威难测的姿态；也有

人否决，认为领导人应该开诚布公。那么，到底一个好的领导人

应该是什么样的呢？

从三国人物看领导风格

我们来看《三国演义》中曹操，刘备和孙权这三位领导人。

毋庸置疑，他们都是好的领导人，但我们发现，这三个人的领导

风格其实是迥然不同的。如果不是非常熟悉《三国演义》的人，

潘天佑博士2014微软学生夏令营演讲——如何培养领导力

几乎讲不出曹操手底下有哪位出色的谋士或者干将。因为魏国只

有一个领导人，这个领导人就是曹操。曹操是一个非常成功的领

导人，否则他不可能三分天下，成为挟天子以令诸侯的一方霸

主。

我们再来看刘备，刘备是不是一个好的领导人？刘备不能

文不能武，但是他从一个编草鞋的小人物最后变成三分天下的霸

主，他也是非常成功的领导人。他的领导风格就是善于和有能力

的人结为朋友，成为“哥们”，笼络了一批如张飞、关公、诸葛

亮等人才，助其治国。这其中最典型的案例就是，在长坂坡之

战中，赵云奋勇杀敌，怀端幼主闯重围，浴血奋战最终将怀中熟

睡的阿斗交给刘备时，刘备的反应竟然是接过自己的儿子摔在一

旁，说“为汝这孺子,几损我一员大将！”。从此，赵云和众将领

对刘备肝脑涂地，誓死跟随。

在《三国演义》里经常容易被忽视的一个人物是孙权。我

们常常会觉得孙权好像没什么表现，但是他能够在三国中主战一

方，他也是个好的领导人。孙权的领导风格是知人善用和绝对的

授权。孙权眼光独到，在每一个关键的时间点上都能够在群臣中

启用最合适的人才，先后重用周瑜，鲁肃，吕蒙，陆逊，并且能

MSRA Blog研究院博客

29

够做到绝对的授权。对年仅20岁的陆逊，看重其凸显的军事能力

便能委以重任。

三个完全不同的领导风格，但是都是很好的领导人。在座的

各位同学，你们一定也像我当初一样希望找出一个“领导人该是

怎样”的模范，然后去学习。但我今天想要分享的是，领导风格

因人而异，并没有绝对的标准。它跟你的性格、你所处的环境有

着莫大的关联。但是，确实有一些核心原则在决定着你是否能成

为一个好的领导人。

领导力培养的三个核心原则

第一个原则是：领导人带头干。这里我推荐一部几年前一部

非常好的电影《角斗士》。这里面讲述了一个罗马时代战功赫赫

的将军马克西•蒙斯复仇的故事。马克西•蒙斯曾南征北战，立下

汉马功劳。但在老王死后、新王即位时，马克西•蒙斯的全家被残

忍杀害，自己也被贬为奴隶。成为奴隶后的马克西•蒙斯在因缘际

会下成为一名角斗士，并逐渐成为角斗士中的领头人。因为大家

发现跟随着马克西•蒙斯去格斗活着的机会比较大，得到的尊严

比较高。最后，马克西•蒙斯成为了一名身后有着众多奴隶跟随着

的格斗士，并借此最后报仇血恨。这个故事告诉我们，一个好的

领导人一定要在前面带头干。当有一个人能够挺身而出，率先垂

范，大家是倾向于去相信你并且跟随你的。

接着我要讲领导力非常重要的第二个原则——领导人讲故

事。一个好的领导人一定是善于讲故事的。当你自己带头干的同

时，一定要能够讲清楚你将要带领大家往哪里走。这里我又要推


荐去年一部非常好的电影：《国王的演讲》。它讲述的是在第二

次世界大战时，英国的国王乔治•六世克服自己演讲时口吃问题的

一个故事。乔治•六世是一个能够带领大家奋进的一个好君王，可

是很不幸地他患有口吃。当面临压力的时候，他口吃的情况就愈

发严重，没有办法站在人群前去做演讲。通过《国王的演讲》这

部电影，我们看到了乔治•六世克服口吃的一个无比艰难的过程。

最终，他在第二次世界大战前悉成功的透过收音机完成了一场撼

动人心的演讲。这种能直抵人心灵的表达能力是领导力当中最重

要的一个环节。当你有很大的梦想，你想要举起大旗的时候，你

必须要能够讲清楚你到底要带大家往哪里去。但如果你无法让大

家明白前方的目标，团队就很可能出现两种糟糕的情况，可能团

队会乱成一团，执行没有效率；也可能只有作为领导者的你自己

在干，团队其他成员没有去承担起自己的角色。

不管是“带头干”还是“讲故事”，我们看到的都是领导人

风光的一面。但领导人不一定都是这么顺风顺水的，经常我们都

会面临失败。领导人我认为最重要的第三个原则是：领导人扛责

任。从生物学或者遗传学的角度上来讲，人的天性是趋利避害、

趋吉避凶，是不愿意承担责任的。当你成为一名领导人并要承担

所有责任的时候，这是违背人的天性的。所以我们需要不断地提

醒自己、要求自己和锻炼自己，最后让“扛责任”这件事情变成

我们的习惯。今年上半年在韩国的沉船事件，令人非常痛心。船

长在最初做出错误的决定，让船上的200多名去毕业旅行的高中生

原地等待而不是积极自救之后，自己却选择了逃跑。如果你当一

个领导人，在碰到危难的时候，想跑是很自然的一个反应。而作

为一个领导人，在那个时候如果选择跑是最有优势的，因为你最

知道该在什么时候跑，该怎么跑。但是如果一旦你选择了跑，你

就是一个失败的领导人，没有人会再相信你。

但也许也有人会说，当领导人太困难了，我不想成为一个领

导人，我只想一辈子做一个码农。但是，将来你们会有孩子、家

庭，那时候你们就是孩子的 leader。所谓言传身教，你是否能给

孩子做榜样，带领着他在这个世界冒险；你是否会讲故事，在告

诉他人生的道理时不只是生硬地命令；在孩子犯错的时候，你是

否能和他一起承担责任。所以，在座的同学一定不要忽视培养自

己的领导力。

（文中图片来自网络）

30

在微软亚洲研究院实习时，我所在的项目组主要涉足移动计

算、智能家居和可穿戴设备等领域。在纳德拉会见陈校长前的间

隙，我就迫不及待地向他提起了这些研究领域的相关问题。他表

示微软将专注于未来行业的核心所在，利用其他人难以企及的资

源和技术实力，开拓物联网在企业级应用层面的创新，牢牢把握

住这个行业的核心领导力。纳德拉的回答给了我很多启示，也让

我更理解了微软所坚持的理念。秉承“移动为先，云为先”的战

略方针，微软专注于为企业寻找物联网技术的解决方案，把握住

可穿戴设备与云计算的交汇点，即把握住未来。从大局来看是一

个很明智的选择。

而后在伟伦楼报告厅进行的演讲更是吸引了来自校内外的众

多师生。他的演讲非常精彩，字里行间都传递着对在场清华师生

的激励。让我感触很深的是，他提及“学习”这个概念，不仅是

相关领域的学习，也包含了人文领域的学习。因为只有更好地了

解人，了解社会，才能够更好地推动这个社会的进步。整个演讲

过程都是在轻松幽默的氛围下进行的。同为微软实习生的小伙伴

张惠楚也被纳德拉的个人魅力深深吸引。

纳德拉在讲座中多次提及“创新”一词，显然对此特别重

视。“过去的成功固然重要，但在这样一个高速发展的行业里，

满足于过去是最可怕的。”微软公司是科技行业领域的领头羊，

我是清华大学软件学院的一名大四学生，目前也是微软亚

洲研究院移动和感知系统组的实习生。今年 9 月微软首席执行

官纳德拉造访清华，我和来自计算机系、自动化系、交叉信息

学院、美术学院等几位同学很荣幸地作为学生代表接待了这位

新任CEO。

纳德拉先期到达清华大学工字厅，和校长陈吉宁进行短暂

会晤。其抵达前，我已经看到有两位尽职尽责的保镖严肃地在工

字厅外等候，其表情、打扮和好莱坞谍战片中的特工颇有几分相

似。此时正值入秋时分，空气中透着许些寒意，但纳德拉一到达

现场即扭转了这里肃穆的氛围：他西装笔挺，精神抖擞，我甚

至注意到他的袜子颜色非常轻快，一下车便与我们热情地握手致

意。

我很喜欢纳德拉这种风格，理工科出身，性情和蔼，举止潇

洒，和你握手时可以感受到他满满的诚挚之情，一句轻松愉快的

招呼一下子就拉近彼此距离。

我们给纳德拉准备了一件传统中国红的清华文化衫，非常

喜庆。来自美术学院的严娴同学则为纳德拉打造了一幅卡通画

像——深框眼镜、大大的眼睛和鼻子。

作者：微软亚洲研究院实习生王思伦



纳德拉和同学们一同行走在清华校园中

31


取得了令人瞩目的成绩。但是，在经济全球化快速发展时代，许

多新兴公司如雨后春笋般出现。如果只是满足于过去的成就中，

相信微软也不能在今天依然如此成为“创新”的代表。

从纳德拉分享的个人经验和看法中，我对传统与创新之间

的关系有了更深的认识。所谓“不破不立”：绝不推崇传统，只

尊重创新，尽管传统并不需要抛弃，不过微软成功的源泉并不在

于过去的奠基，而在于不停地创新，不是墨守自己曾经拥有的成

就。这也给我很大的启发：跳出自己舒适的小圈子，去迎接更猛

烈更具有疼痛感的变化。

现在，国际上存在不少批评所谓中国“山寨”文化的声音，

纳德拉认为学习别人先进的知识并不可耻，不过学习和侵犯知识

产权存在着明显的界限。但值得一提的是，纳德拉还指出现在中

国的创新已经不再是简单复制国外的成功了，会有越来越多精

彩的商业模式和新兴技术在中国出现，从而给全世界带来“中

国式”的创新。近年来，清华大学的最高等科技赛事——“挑

战杯”中优秀的学生作品层出不穷，竞争压力和获奖难度越来越

大，这是极好的征兆。有些优秀的获奖作品直接转化成为学生自

主创业的核心产品。与此同时，学校方面也投入了大量的财力物

力人力在学生创新创业上面。我本人也曾获清华大学第三十一届

挑战杯一等奖，是启创班第一期成员，有幸见证了诸多了不起的

科研成果和学生引导的“中国式”创新。作为一所以研究为导向

的综合性大学，清华有责任并有能力在中国崛起的大潮中引领其

他高等学府掀起这股浪潮。

作为清华的学生，这一点启发弥足珍贵：我们要看到自身在

IT技术创新上的进步，但切不可邯郸学步，忽视掉中国独特的优

势。

王思伦，清华大学软件学院

大四学生，微软亚洲研究院实习

生。

王思伦

作者简介


纳德拉和沈向洋与清华师生座谈

32

感，大家就一起尝试实践。田飞第一次切实感觉到了将想法与专

业技术转化为产品的满足和骄傲。

在来到微软亚洲研究院三个月后，田飞加入了新的项目组，

与研究员沈国斌一起继续他在微软亚洲研究院的创新之旅。此时

的田飞带着自己此前积累的经验、日渐精益的编程技能和对开发

工作的热情，投入到一个全新项目——Linkey的开发中，并在接

下来九个月的时间里，以非常重要的角色全程参与了这个项目的

研发过程。

神秘又高大上的Linkey

Linkey是一款平板电脑的外接键盘。它的主要设计意图是解

决平板电脑自带的触摸式全键盘的用户体验缺陷：不仅按键太小

太挤容易按错、同时手感不佳。然而，目前市面上的外接键盘存

在体积大、携带不便、耗电多和操作不方便等问题。基于做出增

强型的外接键盘的初衷，Linkey被设计成一款外接的、与全键盘

字母排列基本相同、但是体积比全键盘小很多的产品。

勇气助他来到微软亚洲研究院

2013年对田飞来说有着非凡意义。自进入大学以来，田飞

就非常崇拜在计算机领域颇有名气的微软亚洲研究院工程师刘

未鹏。在阅读了刘未鹏的著作，并长期关注他的微博后，田飞决

定直接联系刘未鹏毛遂自荐，询问自己是否有机会到他的团队实

习。命运女神垂青了这个行动果决的年轻人——刘未鹏对田飞进

行了电话面试，从学校专业到研究话题，两人相谈甚欢。通过了

电话面试的田飞又在微软亚洲研究院接受了另一位研究员的面对

面面试。在面试过程中，田飞也得到了很多启发，这让他更直观

地感受到了微软亚洲研究院的学术氛围，也更加向往加入到微软

亚洲研究院的创新项目中。通过了层层审核，田飞终于如愿以偿

地得到了这个实习机会。

最佳机会的到来

进入刘未鹏的团队后，田飞不仅很快适应了微软亚洲研究院

的工作环境，并且结识了许多志同道合的小伙伴。他和组里的小

伙伴们做了很多关于输入法方面的创新与开发，只要一有新的灵


编者按：田飞，北京大学软件与微电子学院12级硕士生，2013年6月至2014年6月在微软亚洲研究院实习。对创

新的极大热忱使他在微软亚洲研究院的一年里，一步步向自己的理想迈进，将自己所学的知识转化成创新产品，最

终收获了成功。


33

精益求精惊艳TechFest

2 0 1 4 年年初， L i n ke y 项目参加了微软研究院一年一度的

Te c h F e s t 。 Te c h F e s t 是微软研究院每年度展示并交流科研成

果的盛会。这对L inkey项目组来说是个很好的机会。组员们心

里都非常激动，跃跃欲试地为完美展示L inkey做准备。除了要

做出好的原型，产品说明的展板、产品介绍的视频也都十分重

要。田飞在大学时就爱好摄影和视频制作，所以制作视频的任

务自然就落到了他身上。除了视频的部分，田飞还协助组内做

硬件的李江涛同学一起做用来演示的L inkey原型。从着手准备

到 Te c h F e s t 正式举办的时间很短，他们必须抓紧准备，于是

田飞和小伙伴不分日夜的在办公室里辛苦工作就成了常见的画

面。冬天北京时间晚上10点多，天色已经完全暗下来，住宅区

和商业区已经陷入了平静，但是在微软大厦里，灯还暖暖的亮

着，田飞和他的组员还坐在一起一遍遍做着实验，一遍遍完善

着L inkey的输入法程序。项目负责人沈国斌参与他们的讨论，

并在他们遇到问题时给他们指导。田飞除了和大家合作，更是

发挥自己的特长，精心地构思，细心地拍摄，耐心地剪辑，做

出了精致又有趣的Linkey介绍视频。

在TechFest上，Linkey项目得到了展示，广受欢迎，甚至有

位女士连续体验了近1个小时；有的访客来回好多次，每次都带不

同的同事来参观；更有VIP访客公开说Linkey是本届TechFest的最

佳展示。

Linkey的设计原型

田飞在微软亚洲研究院为期一年的实习生活已经结束，再

度回到校园的他会带着微软亚洲研究院给他的宝贵经验和更加成

熟的技术迎接未来更广阔的天空；Linkey也会继续完善让用户拥

有更便捷的设备和更舒适的体验；微软亚洲研究院依旧敞开着胸

怀，等待着更多有能力、愿钻研肯努力的年轻人来实现他们的梦

想，飞向更广阔的天际。

Linkey将全键盘上字母所在的三行压缩成一行，每个按键对

应处在同一列的上中下三个字母，用户使用时与使用全键盘时手

的摆放和操作都基本相同。整个打字过程中，用户手指和键位的

位置是固定的，无需移动。空格键功能则借助于键盘外部空间，

利用键盘内嵌的传感器系统完成——这不仅模拟了人们用大拇指

打空格的习惯性体验，并支持了拇指手势。

Linkey键盘解决了传统平板电脑虚拟键盘因识别不佳而容易

打错的缺点，沿袭了传统大键盘的设置和使用传统，同时作为实

体键盘操作起来更有手感并且体积小更好携带，是一款极具创新

意识又方便好用的产品。

在Linkey的研发中，田飞所在的产品研发组攻克了一个又一

个技术上的难关，逐步解决了Linkey研发过程中的问题。田飞在

付出了巨大的努力的同时，也享受了研发的乐趣——制作产品的

零部件都是田飞和其他组员们一样一样从电子市场上买来，自己

焊接、组装的。田飞协助另外一位主攻硬件的实习生李江涛做了

不少的实验，还尝试了自己用电脑建模3D打印来做键盘。研发的

过程充满了乐趣和挑战，让田飞“痛并快乐地前进着”。

靠自学解决信号处理、输入法难题

L inkey键盘连接电脑后会将用户按键的动作转化为数字信

号传给电脑，再变为字符显示出来，信号的转换处理与传输是

Linkey非常重要的技术部分。然而，来自软件工程专业的田飞几

乎没有接触过信息技术的知识，因此，信号处理成为了他遇到的

一大难关——Linkey在空格键上应用到的感知系统的信号处理是

对田飞来说完全陌生的滤波技术。

对滤波一窍不通的田飞选择向他在研究院的Mentor（导师）

求助。其后，他阅读大量相关论文，完善相关知识库的具体细

节。田飞在很短的时间内阅读了网上的很多论文，基本掌握了信

号处理相关技术，但是这对于塑造一个完美的产品来说远远不

够。俗话说“三人行，必有我师”，深谙这一点的田飞经常向在

信号处理方面有专长的同事同学请教。就这样，感知信号处理这

个难关就被攻克了。

编写输入法是田飞遇到的第二大难题。因为之前很少涉及到

语言方面的编程，想要做一个完善好用的输入法，联想快速、而

且歧义少，对田飞来说是一大挑战。传统的键盘虽有把几个字母

放在一个按键上的模式，但都是九宫格的形式，和Linkey键盘上

字母的排列完全不一样，所以输入法、模糊拼音和词组联想等都

不能照搬原有的程序，需要为Linkey编写一个全新的输入法。为

了学习编写输入法必要的语言模型的相关知识，田飞双管齐下，

在研读论文的同时不停实践修改程序。田飞每次写好程序便会测

试可行性，遇到问题就会请教导师，一遍遍修改补充，力求做出

最完美的输入法程序。就这样在不断的学习和实践下，田飞凭着

自己不断的学习和顽强的毅力，再一次战胜了困难。



35

2014年10月，我们的Kickoff来到了美丽的贵州。壮丽的黄果树瀑布令人惊叹，美味的酸汤鱼名不虚传。在欣赏自然风光美景的同时，我们也许下了新一年的奋斗宣言：汇众智，创新势。

36

250

与纳德拉的亲密接触 - 微软亚洲研究院€¦ ·...

Documents

Transcript of 与纳德拉的亲密接触 - 微软亚洲研究院€¦ ·...