优化工作流程

(一)优化工作流程

1.内容编程

一档节目的制作需要消耗大量的时间去选题、拍摄和剪辑,其中还需要耗费大量的人力,内容编程可以很好地利用媒体资源库,找出与节目相关的内容,并通过内容编程技术来创作新的内容,为节目提供相关补充或背景资料,提高节目的层次性。

2018年,英国广播公司进行了整整两天的编程,这些编程完全由AI算法选择和安排,以针对用户人群进行优化。BBC Four利用其广泛的数据存档来训练算法。学习和生成的连续阶段包括已归档的内容:(1)场景识别它的组成——景观、物体、人物;(2)文本评估和学习,包括存档节目的字幕、单词、主题、素材之间的联系;(3)运动评估:活动水平或精力;(4)将学习到的特征和属性融合在一起,以生成在BBC Four播出的新颖内容。这些新颖的内容成为BBC Four娱乐节目的一部分即“BBC 4.1”。[73]

2.虚拟视频角度捕获和自动化

英国广播公司通过其研发团队进行了努力,可以在生产过程中带来可观的收益并节省成本。为了进行多次评估,他们设置了多个固定的超高清摄像机,以便在现场活动期间进行捕获。这些摄像机的捕获已被用作高度精简甚至单操作员的人为驱动系统的提要。他们的努力使更少的相机和相机操作员能够捕获更丰富的场景和环境,有效地节约了人力成本。

3.自动视频摘要

节目预览和摘要视频是重要的内容类型,可以向观众简要介绍节目,吸引用户的注意。NHK开发了一个自动生成摘要视频的系统,该系统使用社交媒体分析技术自动选择具有较高观众响应度的场景;通过图像分析技术,它可以使用特征性的场景生成摘要视频;该技术还可以检测大型开放字幕显示、表演者的特写镜头、快速放大等。同时,还可以通过图像分析技术检测到的每个元素的权重以及在社交媒体上的评论数量,在视频摘要中呈现节目制作者的意图[74]

4.快速音视频粗剪

传统的音视频粗剪可能需要以下流程:手动记录采访的时间码;在文字处理应用程序中或将使用实物纸抄录的采访的片段剪切并粘贴到主文档中;将采访音频/视频导入音视频编辑软件;使用“略读和搜索”方法导航到与主片段中的采访片段相对应的时间代码,并将其切成适当的长度。快速音视频粗剪则可以让记者从自动生成的笔录中对音频/视频采访进行粗化剪辑。例如英国广播公司的Digital Paper Edit Web应用程序就可以使用英国广播公司的内部语音转文本服务来自动生成时间编码的采访记录。当记者通过突出显示、剪切和粘贴这些自动生成的成绩单来组装最终脚本时,该工具还会保留原始音频或视频内容中的时间码。然后,它根据新闻工作者的最终脚本可以直接生成媒体预览。这个程序使不了解视频制作软件的内容制作者能够有效地创建纪录片或长片节目的初始剪辑,也让专业编辑者可以腾出时间专注于制作精良版本的内容,当然也提高了较短内容的剪辑效率。

5.自动音频划分

电视新闻很容易遇到会议新闻,在视频剪辑的时候需要找到每个人或者每部分内容的音视频,一旦遇见超级大的内容时,处理起来就比较麻烦。英国广播公司就设计了一个程序,可以通过字幕操作来自动注释广播新闻并对其进行章节划分,便于媒体线性的内容发现与重用。

6.合规性检测

合规性检测是识别视频中的事件/场景的过程,由于法规要求,这些事件/场景可能会限制在特定地区的传输或分发。通过监督学习,AI可以用于识别给定视频片段中的此类场景,并将不合规点呈现给编辑系统以执行进一步的编辑。整个过程可以使用循环神经网络存储在系统的内存中。TÜV创建的MediaMind平台就可以对内容进行检测,对需要隐藏的字幕和语音进行处理。

7.云端内容制作

云端节目制作系统可对节目制作进行灵活处理,NHK研发了一个可以远程制作和资源共享的程序。同时,他们还在云端构建了一个软件视频切换器,可以灵活地处理各种视频分辨率(2K/4K/8K)和不同数量的摄像机,节目制作设施和节目资料也可以在连接到云端的多个工作室控制室和中继站点之间共享。[75]

8.创建内容元数据,优化资产管理流程

媒体拥有海量的数据存档,并且还在不停地产生新的内容数据,如果能够生成描述场景相关信息和特征的元数据,必将是一笔巨大的财富。但是如此海量的数据要生成有价值的元数据无疑是一个大工程,因此有公司开始依托包括面部识别,场景文本检测和音频特征检测在内的图像和音频分析等技术来进行内容元数据的自动化创建,并进行内容分类与分组,目前已经取得很大成效。

9.转录

制作节目需要从大量收集的材料中进行筛选以找到需要的信息,尤其是在做新闻采访与会议记录时,会有大量的音视频内容,有时候需要当天采当天播,时间非常紧迫。为此,视频资料的音频内容转录必不可少,转录使得制作人员能够更容易浏览内容列表并查看内容本身,因此需要有能够快速高效地完成转录的系统。基于这个需求,NHK开发了一个实时转录系统,该系统可以通过语音识别技术实时识别从新闻发布会站点发送到广播电台的视频镜头中的语音,并实时进行转录,并允许多个制片轻松地访问他们想要在较长视频片段中检查的部分,同时参考和修改所得的转录,通过大约4500小时的语音和文本训练,该系统可以响应各种环境的演讲者、录音条件和演讲风格。[76]