从井底之蛙到领域翘楚
1983年8月,李开复从纽约来到了匹兹堡,并在卡内基-梅隆大学附近每月花450美元租了一间房子,等待他的新婚妻子谢先铃飞到美国与他团聚。在姐姐们的资助下,李开复的新家终于有了像样的家具和生活用品,开始了自己的博士生涯。
经过一个月的了解和考虑,李开复决定投身人工智能的研究。他对自然语言、语言识别等领域产生了浓厚的兴趣,最终他选择了计算机领域的最高奖项图林奖获得者拉吉·瑞迪教授作为他的导师,从事语音识别方面的研究。
李开复在选择研究方向上,是经过深思熟虑的,最后选择了既深刻又能看到应用前景的语音识别,是因为这是一个能够改变未来计算机和人类交流方式的课题,同时也符合李开复“让世界因我不同”的理想。幸运的是,当李开复选择了瑞迪教授的时候,瑞迪教授正好也中意李开复。
在李开复选定了研究方向,正准备大干一番的时候,院长尼科·海博曼院长找他谈话,劈头就问:“读博士的目的是什么?”李开复大声答:“我从大学带走的将是一篇改变世界的、顶尖的博士论文。”院长予以纠正,说:“你从这儿带走的最有价值的东西,不是一篇论文,而是你分析、思考的能力,研究、发现真理的经验,以及科学家的胸怀。这样,当你有一天改变研究方向,依然可以在任何一个新的领域出类拔萃。”正是海博曼教授的一席话,激励着李开复有了坚定的信念——“要做就做最好”。
1983年10月,李开复开始和瑞迪教授一起探讨语音识别领域里现有的成果以及如何突破的可能性,当时这在世界上是一个无解之谜。
所谓不特定语者的语音识别就是说让电脑能够听懂每一个人说出的话,并且识别出来,最后希望达到的最理想状态就是让机器对人的语言有所反应,最终达到“人机对话”的理想程度。在李开复读博的时代,人们所做的语音识别系统研究,还是只能识别一个人的声音的“特定语者”的研究。瑞迪教授希望李开复能够把这个研究成果扩展出来,形成突破,让机器对更多的人的语言识别率提高。而当时,从事语音识别研究的学者,大多数从模拟人类怎样理解语言,使用语言方面入手,认为这是从事语言识别研究的方向,李开复也从这方面入手开始了研究工作。
经过数月的钻研,李开复把整个研究过程写了篇论文发表出来,得到了正面的回馈。第一次,人们知道,在有限的领域和单一的语者身上,专家系统研究出来的机器语音识别率可以达到95%。这意味着,人和机器可以进行简单的对话了。李开复的牛刀小试初见成果。
但是,在好评声中,李开复也发现了新的问题:机器能够听懂的语音量少,且更换声音后识别率很低。当时测试的词只有26个,一旦增加词汇,整个系统就将崩溃。
1984年暑假即将来临,一个偶然的机会,经过一位学长的介绍,李开复对统计学发生了一些兴趣,采用统计学的方式研究语言识别,这在他脑子里形成了一个明确的思路。
在全力从事统计语言研究前,李开复的进展并不大,这时他知道另一位教授在做一个名为奥赛罗的游戏,开发一个电脑与人下国际象棋的比赛。他顿时来了兴趣,随即向瑞迪教授提出,要去做一段这方面的研究工作,瑞迪教授也同意了他的要求。
在两个月的时间内,李开复利用统计学的方法在电脑下国际象棋研究方面取得了很大的进展,他编写了一些程序让电脑向人类学习,然后与人比赛,进而到电脑向自己学习,自己与自己比赛,从而找到自身的弱点。这是全世界第一部自己与自己下,自己学习、总结的电脑,奥赛罗获得了极大的成功。李开复的电脑能下过每一个参与电脑比赛的人,一时间名声大振。1985年,李开复开发的电脑在北美电脑下棋比赛中获得了第一名,并以54比8的悬殊分数击败世界冠军选手。
这项研究使李开复确信,用统计学的方法研究语言识别比起专家系统来具有优势。于是他想拒绝瑞迪教授的邀请,从专家系统的研究中脱离出来,用统计学的方法研究“不特定语者、大词汇、连续性语音识别”的课题。
再三思考后,李开复想起了海博曼院长对他说过的话,于是,李开复鼓足勇气,向瑞迪教授直接表达了自己的想法,“我希望转投统计学,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’。”
瑞迪教授询问了李开复用统计学解决这三大问题的方法,并耐心地听完了他的阐述,最后表示不同意他的观点,但是支持他去用统计学进行研究,并承诺在经费上给予资助。
当李开复在研究过程中遇到无法解决大数据库的问题时,瑞迪教授再一次给予了他支持。瑞迪教授说:“开复,虽然说我还是对你的研究方法有所保留,但是,在科学的领域里,其实也无所谓老师和学生的区别,我们都是面临这一个难题的攻克者,所以,如果你真的需要数据库,那么,让我去说服国防部去帮你建立一个大的数据库吧!”
在李开复用统计学的方法进行科学研究的过程中,瑞迪教授又在经费和硬件设施上给予了他很多帮助。
在瑞迪教授的支持下,李开复开始了疯狂的科研工作。从1984年底到1987年初,李开复带着另一位学生一起用统计的方法做语音识别。1987年5月,李开复大幅度地提升了训练的数据库,并且又想出了一种新的方法(triphones)来建模,不但能够用统计学的方法学习每一个音,而且可以用统计学的方法学习每两个音之间的转折。针对有些音的样本不够,他又想出了一种方法(generalized triphones)来合并其他的音。这三项工作居然把机器的语音识别率从原来的40%提高到了80%!此后,李开复继续孜孜不倦地做着各种实验和统计,机器的语音识别率居然提高到了96%!
1988年4月,李开复受邀到纽约参加一年一度的世界语音学术会议,发表学术论文。他给系统取了名字,叫作Sphinx(希腊的人面狮身)。希腊的人面狮身有人的脸孔、狮子的身体、鸟的翅膀,这个名字是希望狮子的身体代表宏伟的统计模型,人的脸孔代表人的语音知识,鸟的翅膀代表系统的速度。在这个会议上,李开复把96%的语音识别率发表了,也演示了Sphinx系统。结果,在学术结果和演示效果相映之下,李开复的成果撼动了整个学术领域。这是计算机领域里最顶尖的科学成果了。语音识别率大幅度提高,让全世界语音研究领域闪烁出一道希望的光芒,从此,所有以专家系统研究语音识别的人全部转向了统计方法。曾经的井底之蛙已成为领域翘楚。
会后,《纽约时报》派记者约翰·马可奥夫(John Markoff)大力报道了李开复论文的突破。后来,《商业周刊》把李开复的发明选为1988年最重要的科学发明。年仅27岁初出茅庐的李开复,第一次亮相就获得了巨大的成功,这也为他日后继续进行科学研究提供了持久的动力和信心。