人工智能在播音主持中的应用现状

2026年01月15日

版权

（一）人工智能在播音主持中的应用现状

人工智能技术在播音主持领域得到了多样化应用，其人工智能深度神经网络技术与大数据、云计算等的结合，使其在语音识别、语音合成、语音测评和机器翻译等领域取得重要成绩。

1.智能语音播报

智能语音技术，即语音识别技术，是人工智能技术在语音方面的重要研究领域。发展至今，“智能语音技术通过与机器学习技术、大数据技术等相互结合，可以实现对非特定人群的语音识别，辨识的精确度高达98%，对于特定人群的识别精准度会更高”^[38]。如今的智能语音技术已经可以为播音主持实现语音文字转换的应用要求，同时也为语音合成、语音测评以及智能翻译等实际应用打下了基础。

对于语音合成技术进行一些特殊化的处理便可以得到个性化的语音合成技术。以中央电视台《直播长江》“康晓辉”为例，运用人工智能语音合成技术对康辉本人声音进行合成模拟演练，表现出多种形态的语气语势、声音变化，基本的声音形式形成后，根据康辉的外形，并通过虚拟形象生成技术及驱动技术实现实时驱动，使智能语音播报不仅停留在声音形式之上。^[39]还有电视纪录片《创新中国》，它以一种特殊的方式联结科技与人文，利用人工智能技术与智能语音合成的方式，让已逝的著名配音艺术家李易的“原声”重现。“这次的‘原音’重现是通过选取其以往配音纪录片的可用声音素材并进行处理和调优，经过几版合成内容后，对字与字之间的黏合度、语句的停连变化等进一步实现了算法层面的针对性优化。这是对个性化语音技术合成的检验和挑战。”^[40]

在智能翻译领域，人工智能可以实现文字和口语两类翻译的基本原理与句法分析、语义理解和自然语言生成等计算语言学核心理论密切相关。与普通文字翻译相比，AI口语翻译难度更大。第一，想要“译得准”，首先要能“听得清”。AI要准确判断出指令发出者的语音、停顿，并在极短时间内进行“语音断句”，在涉及一些模糊音时能够根据“上下文”进行及时调整，这需要有深度学习的模型自动更换为一个语义通顺、更符合作者指令的句子，然后才能进行文字翻译处理。第二，想要“译得准”，还要包容口语的“非正式化”发音。基于神经网络技术的智能翻译系统越来越多，翻译质量确有较大提高，但是能不能很好地包容口语“千变万化”的情况，仍待进一步研究。^[41]

2.虚拟主持人(https://www.daowen.com)

虚拟主持人的出现显示了数字技术向播音主持领域的全方位扩张。在我国电视界，吉林电视台“TV NO.1”播报《世界视窗》、江苏电视台“QQ小姐”主持《现在娱乐》、中央电视台“伊妹儿”亮相科技展览、天津电视台在《科技周刊》中的“言东方”都与观众打了照面。2004年10月，国内第一个长发飘逸、足以以假乱真的虚拟主持人“江灵儿”主持第四届成都国际电脑节。在真人主持人的简单串词下，“江灵儿”在屏幕中出现，微笑着向观众致意并致辞。这也是国内第一次用虚拟主持人进行直播主持，体现了科技在播音主持创作空间的应用渗透。还有在2015年的央视春节联欢晚会上的吉祥物“阳阳”，虽然“阳阳”只是个卡通形象，但实际上它是以虚拟主持人的角色与真人主持人共同主持春晚。^[42]

虚拟主持人的推出是对播音主持方式的补充和拓展，是争夺更大播音传播空间的创新之举。随着技术的不断完善，虚拟主持人对信息的快速搜集能力、快速筛选能力、快速“反应”能力，将更好地拓展播音创作的空间和能力，实现人机互相补位。^[43]

3.人工智能情感主持人

“人工智能情感主持人与虚拟主持人有相似之处，其出现晚于虚拟主持人，并且拥有智能硬件实体，在各种技术支持下日益聪慧，能听、会说、可互动。”^[44]比如微软开发的人工智能伴侣虚拟机器人“小冰”，是微软亚洲互联网工程院在2014年5月发布的人工智能伴侣虚拟机器人。值得一提的是，微软小冰拥有人类所有情感，它可以观察人的语音、语调以及情绪，同时还可以实时预判人类所要说的内容。近几年小冰也是频频出现在大众视野之中，扮演着主持人、歌手、诗人等角色。“微软表示，在2017年9月微软小冰就主动给人类打了第一个电话，如果说谷歌是双工，微软的就是‘全五工’，微软的AI系统可以同时支持5人对话。另外，针对教育，小冰可以从故事文本阶段即进行定制化生成，并自动分配声音角色和背景音乐，20秒内即可完成一集约10分钟的有声童话故事。”^[45]

可以预见，人工智能的未来在于交互，交互的未来在于更加逼真的、拟人的、连续的互动，真正达到不着痕迹，让人在人机交互过程中逐渐忽略甚至忘记对方是机器人，把对方当作一个“普通人”。^[46]