四、语音合成技术

2025年10月14日

版权

四、语音合成技术

语音合成技术（Text To Speech，TTS）是运用计算机技术对文本状态的文字信息进行识别，然后转换为声音信息，并通过计算机的声卡、电话语音卡等多媒体设备将声音信息输出的一项技术。简单地说，就是让计算机把文字资料“读”出来，让机器“像人一样开口说话”。

目前就语音合成系统的系统构架来说，它正朝着多语种、网络化和分布式运算的方向发展，从技术上来说，语音合成未来发展方向主要有以下几个方面：特定应用场合的计算机语言输出系统；韵律特征的获取与修改；语言理解与语言合成的结合；计算机语言输出与计算机语言识别的结合。

以下简要说明英语、汉语语音合成技术的发展状况。

（一）英语语音合成技术

许多研究机构和软件公司先后推出了各自开发的TTS引擎，如微软的Speech SDK、IBM的Via Voice等。英语语音合成从20世纪50年代出现以来，采用的技术内核主要有音素单元拼接、可变长度音素单元拼接、真人录音数据库。前两种技术可以简单地概括为计算机掌握了某种语言的全部音素，而合成过程就是将单词所包含的音素拼接在一起播放出来，与用国际音标来读音很相似。这种办法输出的语音音质粗糙，极不自然，难以听懂，但是可以读出的词汇几乎无限多。最后一项技术则需要预先录制尽可能多的单词的标准读音，这些声音样本构成了一个庞大的数据库，而合成过程便是计算机从语音库中检索并播放出声音，输出的语音音质与真人无异，但是采用这种技术能读出的词汇量是有限的。

目前，大多数商品化的语音合成软件采用了两种技术相结合的方式。

（二）汉语语音合成技术

汉语语音合成技术也受到了微软、IBM等国际大公司的重视，他们开发的语音合成软件中包含了对汉语的支持。科大讯飞公司是中国产业化实体中，在语音技术方面基础研究时间最长、资产规模最大、历届评测成绩最好、专业人才最多及市场占有率最高的公司。其语音合成系统的主要亮点有：首次在一个系统内同时提供多语种、多音色的语音合成服务，充分满足了用户对语音合成系统个性化和多语种的需求；能够自动识别合成文本中的疑问、感叹句式，并通过语音和语调在合成语音中表现出来；数字数值的发音更加清晰饱满，节奏感更强，短语合成更加流畅自然，可以满足各种类型的专业化需求；粤语合成方面补充了大量的口语化语料和处理规则，能将正式文本按照广东话实际播报的口语化效果进行转化；首次实现了Email文本合成和URI合成，可以读出Email内容和自动下载URI链接文本，方便用户使用网络上的信息资源。2005年10月，科大讯飞向国家标准化管理委员会提出的国家标准草案《中文语音合成系统通用技术规范》，草案在标准工作组19家成员单位进行的表决中以18票赞成高票通过，被确认为国家标准。

语音合成技术有着广泛的应用领域，各个领域中又有很多实用产品。如电话银行查询系统，股市查询系统，高考查分系统、护照，银行票据防伪系统、普通话教学软件、教育与娱乐软件等。可以说，基于语音合成技术的系统有着“无所不在的应用领域和无所不能的解决方案”[1]。