四、语音合成技术

四、语音合成技术

语音合成技术(Text To Speech,TTS)是运用计算机技术对文本状态的文字信息进行识别,然后转换为声音信息,并通过计算机的声卡、电话语音卡等多媒体设备将声音信息输出的一项技术。简单地说,就是让计算机把文字资料“读”出来,让机器“像人一样开口说话”。

目前就语音合成系统的系统构架来说,它正朝着多语种、网络化和分布式运算的方向发展,从技术上来说,语音合成未来发展方向主要有以下几个方面:特定应用场合的计算机语言输出系统;韵律特征的获取与修改;语言理解与语言合成的结合;计算机语言输出与计算机语言识别的结合。

以下简要说明英语、汉语语音合成技术的发展状况。

(一)英语语音合成技术

许多研究机构和软件公司先后推出了各自开发的TTS引擎,如微软的Speech SDK、IBM的Via Voice等。英语语音合成从20世纪50年代出现以来,采用的技术内核主要有音素单元拼接、可变长度音素单元拼接、真人录音数据库。前两种技术可以简单地概括为计算机掌握了某种语言的全部音素,而合成过程就是将单词所包含的音素拼接在一起播放出来,与用国际音标来读音很相似。这种办法输出的语音音质粗糙,极不自然,难以听懂,但是可以读出的词汇几乎无限多。最后一项技术则需要预先录制尽可能多的单词的标准读音,这些声音样本构成了一个庞大的数据库,而合成过程便是计算机从语音库中检索并播放出声音,输出的语音音质与真人无异,但是采用这种技术能读出的词汇量是有限的。

目前,大多数商品化的语音合成软件采用了两种技术相结合的方式。

(二)汉语语音合成技术

汉语语音合成技术也受到了微软、IBM等国际大公司的重视,他们开发的语音合成软件中包含了对汉语的支持。科大讯飞公司是中国产业化实体中,在语音技术方面基础研究时间最长、资产规模最大、历届评测成绩最好、专业人才最多及市场占有率最高的公司。其语音合成系统的主要亮点有:首次在一个系统内同时提供多语种、多音色的语音合成服务,充分满足了用户对语音合成系统个性化和多语种的需求;能够自动识别合成文本中的疑问、感叹句式,并通过语音和语调在合成语音中表现出来;数字数值的发音更加清晰饱满,节奏感更强,短语合成更加流畅自然,可以满足各种类型的专业化需求;粤语合成方面补充了大量的口语化语料和处理规则,能将正式文本按照广东话实际播报的口语化效果进行转化;首次实现了Email文本合成和URI合成,可以读出Email内容和自动下载URI链接文本,方便用户使用网络上的信息资源。2005年10月,科大讯飞向国家标准化管理委员会提出的国家标准草案《中文语音合成系统通用技术规范》,草案在标准工作组19家成员单位进行的表决中以18票赞成高票通过,被确认为国家标准。

语音合成技术有着广泛的应用领域,各个领域中又有很多实用产品。如电话银行查询系统,股市查询系统,高考查分系统、护照,银行票据防伪系统、普通话教学软件、教育与娱乐软件等。可以说,基于语音合成技术的系统有着“无所不在的应用领域和无所不能的解决方案”[1]。