为内容生产提供助力
1.社交媒体分析
新闻节目利用来自地理位置上可能发生已知事件或事件附近的人的社交媒体数据变得越来越普遍。这些数据可以影响并成为突发新闻故事的关键部分。NHK开发了一种基于文本大数据分析的创作内容的系统,该系统可以从社交媒体上提取的有新闻价值的帖子训练神经网络,从而自动收集对新闻有用的信息,然后在节目档案库中搜索与社交媒体信息有关的内容,并显示过往节目的内容摘要等。它还具有识别事件或事故发生地点并将其显示在地图上,并显示与火灾或交通事故有关的特定图像以及汇总有关每个事件的社交媒体帖子的功能,以满足新闻生产者的需求。[77]
2.自动新闻稿创作
电视台收集并分析公共机构发布的各种传感器数据,并使用这些数据来进行新闻内容制作是一种普遍存在的内容创作模式,但是传统情况下,这需要持续监测大量的内容,无疑给记者带来了沉重的负担。为此,NHK开发了一个自动新闻稿创作系统,该系统可根据沿河部署的水位传感器和先前广播的新闻手稿的数据自动创建关于河流状况的手稿[78]。
3.自动字幕直播
制作字幕一直以来都是一个枯燥耗时烦琐的活,随着语音识别技术的发展,快速、准确地在直播中制作字幕成为可能。日本的商业广播公司朝日电视台(TV Asahi)开发了一种自动在电视图像上附加字幕的系统。此系统自2018年12月起已用于直播节目。播音员的对话或评论首先被转录,然后通过具有三个功能的基于AI的自动校对功能转换为字幕:(1)提供标点符号;(2)删除不必要的内容诸如“um”之类的词;(3)纠正不足的词和短语。YouTube也支持自动生成英文字幕,方便用户阅读。此外,由于在本地广播节目中,经常说出该地区特定的本地名称、单词和地名,这些单词不包括在用于全国新闻识别的词典中。因此,NHK利用每个本地广播电台过去一年的节目手稿数据来提高自动字幕的识别准确度。[79]
4.“AI播音员”
AI播音员是通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成的与真人无异的AI分身模型。[80]该项技术能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。[81]2018年4月开始,由AI驱动的播音员已成功用于NHK新闻节目。2019年,NHK开发了另一款AI播音员,该播音员可以使用平滑自然的合成声音提供天气信息。天气信息播音员需要考虑传达信息的优先级,要根据各种有关天气的数据来考虑讨论的内容,写出适合广播长度的信息,NHK的AI播音员也可以基于这些原则自动生成具有适合时间范围的适当内容的脚本,然后基于深度神经网络的语音合成技术,在大量训练的基础上,流畅地传达信息,例如符合语境的自然语调和停顿。2019年3月,AI播音员在地方广播电台Kofu Broadcasting Station的NHK广播1电台进行了试播。[82]在中国,2018年11月7日第五届世界互联网大会上,搜狗与新华社也联合发布了全球首个全仿真智能AI主持人;2019年3月5日,新华社也宣布AI女主播“新小萌”正式上岗,开始播报两会新闻。
5.自动音频描述
广播电台在次要音频频道上提供视觉内容的评论。这些评论不能仅由主要音频内容传达,还要通过用视听评论来补充视觉信息,提高视障人士对广播内容的理解。然而,此类音频评论目前只适用于有限类型的预录节目,如戏剧;而像体育节目等直播节目还不支持自动音频描述。NHK研发了一种可使用体育比赛实时创建的游戏数据自动生成现场体育评论和音频描述的系统,希望为所有人(包括视力障碍者)享受体育节目提供服务。该系统文本模板,根据实时比赛数据生成实时描述文本,然后再使用基于深度神经网络技术的语音合成器将其转换为语音,随后与音视频一起播放。该技术还可以预测播音员的体育比赛评论之间的间隔,在适当的时候提供音频描述,对播音员的播报进行补充。[83]
6.语言翻译
节目内容想要传播得更广更远,首先要突破的就是语言壁垒。很多广播电视公司已经拥有多语言节目,但是人工翻译耗时耗力,自从人工智能出现后,广播电视公司就可以运用机器翻译技术来生成字幕和脚本初稿,再人工进行检查,这样就大大减少了人工翻译的时间和成本。2017年3月14日,由微软亚洲研究院与雷德蒙研究院的研究人员组成的团队宣布,其研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测试集上,达到了可与人工翻译媲美的水平,微软称这是首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。NHK则于2018年开发了自动将日语新闻文章翻译成英语以支持英语新闻制作的技术,他们先手动翻译了NHK的日文新闻文章,以建立包含约500000个句子的日英平行新闻数据库,并且使用双语广播和NHK World的英语新闻以及平行数据库作为训练数据来生成翻译模型,同时为减少翻译的不足,该系统还会生成多个翻译版本,并在版本中选择翻译缺陷较少的输出来提高翻译质量。目前通过使用NHK维护的大量日英平行新闻数据训练神经机器翻译系统,已经可以进行包含长句的日语新闻的高质量英文翻译。[84]
7.手语CG合成
据世界卫生组织2017年数据显示全世界有听力障碍人群3.6亿,儿童占3200万,听力障碍人士也有接收信息的需求,但不是每个电视节目都有手语播报,为解决这些听力障碍人士观看电视节目的问题,国外有很多电视台开始开发手语CG合成技术,该技术可以应用机器翻译技术来合成手语的CG动画,实现口头/书面信息到视觉手语的转换,大量的听力障碍人士将从这项技术中受益。NHK天气信息手语动画自动制作系统,就可以自动生成天气信息的手语动画,向听力障碍人群传达在日本所有城市发布的最新天气预报。另外,NHK在2018年还开发了使残障人士更容易观看体育节目的系统——体育信息手语合成系统,该系统可以分析体育比赛数据并合成可实时显示比赛状态和进度的手语CG,以及一种可以在比赛后为体育新闻有效产生手语CG的系统。同时,NHK还开发了一种基于手语CG的翻译助手系统,该系统可使用基于语料库的机器翻译,从体育新闻的文本轮廓中合成手语CG,并通过简单的操作来纠正手语的表达方式。[85]
8.单色图像自动着色
彩色化对于在历史或纪录片节目中使用档案单色图像会有所帮助。它可以实现更真实、更沉浸式的内容制作。过去单色视频着色的唯一方法是剪辑师手动为每帧着色,这需要大量的时间和精力。NHK,开发了一种AI驱动的单色图像自动着色技术,几秒钟内就可以把黑白照片转换为彩色照片。[86]
9.体育内容制作的场景分析
NHK开发了一个场景分析工具,基于深度神经网络的机器学习技术可以收集并轻松提取足球比赛场景中的信息(元数据),例如球员和球的位置和速度以及球员的头部姿势,从而来提取足球比赛中的球员阵型和球位置,并开发了根据场景自动规划摄影作品的工具,来提高工作效率,并且该工具通过使用元数据来改变视点,可以从没有实际摄像头的地方观看虚拟生成的图像。[87]
10.自动创建编排亮点内容
体育赛事,亮点就是最吸引观众的内容,图像识别和人脸识别等技术有助于更快地识别体育赛事的精彩亮点,同时从过去的媒体库中找到类似事件的详细信息,创建或嵌入现有内容,让亮点变得更加有趣生动。