先学着跑,再自己跑

先学着跑,再自己跑

李开复在创建微软中国研究院时,就因为中国博士生水平达不到世界计算机博士的国际水平而设立了“副研究员”的职位,“副研究员”和微软中国研究院一样,都处于起步阶段,都需要在成长的过程中先学着跑,再自己跑。

研究院成立之初,因为缺少人手,所以李开复在做院长的同时,也承担了项目研究的任务,当时,研究院确立的研究方向之一是“音字技术组”,也就是教电脑听话、讲话。这个恰好是李开复博士论文的内容,虽然离开大学后,李开复先后做过语音识别、多媒体、3D等技术,并且脱离语音领域很久了,而且做职业经理人后,李开复基本没有写过程序了,但在研究院,他却是唯一懂语音识别技术的人,于是李开复勉为其难地卷起袖子,和他招到的几位副研究员一起工作

邸烁和陈正是清华的高才生,尽管不是学语音的,但是1999年他们进入希格玛大厦的时候,选择了语音识别小组。每天,李开复拿着语音的教科书,从最基础的知识开始教他们。读完基础的课本后,他们开始练习语音领域的编程工作,然后,李开复再把自己的论文拿出来,一章一章地讲给他们听。邸烁和陈正都是高才生,能够读懂世界水平的论文。另外,微软有“资源共享”的制度,他们又从美国研究院语音负责人那里拿到了全套的语音软件。在这样的基础上,邸烁和陈正有了起跑的条件和能力,在学着跑的同时,两个人已经能够自己跑了。他们俩进步神速,两年后,都成了项目负责人。

在他们俩之后,李开复小组又来了一个年轻人——高剑峰。高剑锋虽然也是名校(上海交通大学)的博士,但是他的专业是机械设计,方向是“工业造型”。因此,他经历了一段颇为迷茫的时期。

高剑锋是李开复到上海交大招聘时遇到的在校生,他在李开复的说服下,参加了微软中国研究院的面试,最后,闯过了应聘的重重关卡,加入了语音识别小组。

因为是门外汉,高剑锋刚开始工作,就马上感觉到了强大的压力,因为邸烁和陈正入门较早,而且聪明好学,所以在语音领域不断取得突破,但这时的高剑锋却连门道都没摸清楚,在同事已经能够高效解决问题的时候,他甚至还没有明白是怎么回事,这不禁让高剑锋非常着急,同时也非常苦恼。

李开复看出了高剑锋的心思,于是开玩笑地对他说:“你是不是混进来的啊?”高剑锋看了看李开复,露出了窘迫的表情。李开复笑着鼓励他:“你不是计算机专业毕业的,但是我觉得你还是有潜力的,如果有不懂的问题,我觉得你可以去请教一下组里的同事,毕竟我们是一个团队,也欢迎你随时来找我。”

在李开复的指点下,高剑锋诚恳地跑去向邸烁和陈正请教了,面对高剑锋的求助,邸烁和陈正毫不吝啬地把自己知道的东西都告诉了他,一些问题经同事的点拨,就轻松化解了。在不断的学习中,高剑峰的信心被慢慢地树立了起来。做研究就像一场长跑比赛,遇到了高手,被人家甩得很远,不能着急,不能乱了方寸,该怎么跑还是怎么跑。高剑锋后来总是告诉新来的研究员不要在意中途的快慢,最后胜出的人才是真正的胜者。

高剑峰就这样在研究院学习着,先学着跑,再自己跑,渐渐地已经能够自己掌握方向了。到了第四年,他已经是“项目带头人”,成为一名“领跑者”了。

在语音识别的领域中,微软中国研究院的研究工作也像高剑锋一样,先学着自己跑,在积累了经验和知识后,慢慢地开始自己跑,然后才达到了起飞。

语音识别不是仅仅把每个字分别识别出来,而是像人一样,要运用到语言的知识。中文有一个特殊的问题,就是分词。一个笑话就是“杭州市长春药店”,人们看到这个店名的时候,自然而然地知道是“杭州市/长春/药店”。但是仅仅向前推一个字,电脑很可能会识别成为“杭州/市长/春药店”。

如何做到正确地识别呢?李开复告诉陈正:“国内的语音识别往往是先分词,然后识别。这是彻底的错误,因为第一次分词总可能出错,一定要同时分词和识别,经过所有的排列与组合,挑选出最好的结合。”

然后,李开复发现他们的语言模型语料远远不够。语言模型的功能是经过大量的统计,来判断在下一个位置最可能出现哪些字,比如,看到“尊敬的李”时,人们可能预测下面会是“先生”“老师”“女士”等词,各有不同的概率。“在中国做语音搜索统计,只联系到前面的一个词,但是中文的语言特点是歧义特别多。仅仅依靠向前推一个词,电脑并不能做出正确的判断,至少要向前推两个词。”李开复对同事们提出了研究中存在的问题。于是李开复请黄昌宁教授去开始一个语料采购的计划,训练出这样推两个词的语言模型。

另外,中文和英文很大的一个差别就是中文有四声的识别。李开复的团队很快做了一个四声识别器,和整体的识别系统结合起来。就像分词一样,考虑所有的可能性,再做出总体最优的选择。

在邸烁、陈正、高剑锋和后来加入的几位副研究员的努力下,很快,一个中文语音识别系统就做出来了。此后,陈正和李开复发现这个系统不但可以做语音识别,还可以做拼音转换。他们尝试过后发现,转换率比当时任何系统都要高很多。除此之外,他们还发现可以用统计模型做出一种奇妙的功效——自动纠正人为造成的拼写错误。如果错误打入“zunjingdelixansheng”,这个系统可以发现少打了一个“i”,而自动转换成“尊敬的李先生”。后来,这个项目,由陈正做内核的技术,王坚做用户界面,成为一个高质量的输入法。

在短短的一年内,李开复的五人团队就做出了多项傲人的成果:中文的四声识别、最精确的输入法、中文的听写机,还有多用途的统计语言模型。这些项目都符合微软中国研究院最初定义的“有用”的目标,也是“兵团作战”模式迅速获得的成果。

与此同时,研究院里其他小组,都在为有用的梦想而全力打拼。在微软中国研究院,同事们和研究院都在先学着跑,在自己的跑的过程中迅速成长壮大了。