机器人写作:基于算法的内容生产

(一)机器人写作:基于算法的内容生产

机器人写作,也称自动化写作(Automated Writing),是伴随着AI技术的发展而产生的,其核心是云计算和大数据分析,从大体量信息中找到可能会受关注的部分,选取最易为人接受的形式呈现。它来源于自然语言生成(Natural Language Generation,NLG)技术领域。NLG系统必须能够执行如下标准化的任务:首先,选择哪些信息来表达内容;其次,组织可用信息并确定结构文本,确定哪些信息被放置在任何句子中都能够准确表达意思;最后,创建要显示的表达式,同时语句要符合语法规则。只有通过这样的系统设置,机器人写出的文本才可能语法正确,表达清晰。[50]新闻稿件的基本生产流程可以概括为:采集数据后对数据进行结构化处理和分析,对新闻价值和选题进行判定和提炼,之后运用算法机制套用模板生成新闻稿,并对其进行润色。

有学者指出,机器人自动化写作一般需要四个参与者——软件程序员、数据源、编辑和出版者,作用各不相同。“软件程序员是为了开发内容的创造性算法,数据源要确保能够为算法提供足够的原始数据,编辑的工作是选择数据源和监督自动化进程,出版者是为了给他们的读者发布所需要的内容。”[51]

以美联社采用的自动写作平台Wordsmith为例,Wordsmith平台的任何一篇“自动生成”的作品的写作流程分以下几个步骤。

(1)获取数据。首先需要消化关于所服务的客户,即报道对象的各种形式的数据和资料,包括以APIs、XML、CSVs以及各种字处理图表等形式的数据,以及第三方(如Google Analytics)提供的相关客户的各种数据(运营、业绩、报道、评价、引述等)。作为一个以数据处理为基础工作的写作平台,Wordsmith可以处理“几乎任何形式或格式的数据”。

(2)分析数据。这里涉及对各种数据的解析以及内在关联的勾勒,并把它们放在历时性的演变背景中来进行解读。

(3)提炼观点。通过对目标客户各种数据中所呈现的模式和趋势的揭示,并把它们纳入更大的行业或社会、国家的背景中来解读其意义,从而通过这样的参考和比对,得出一些具有可操作性的意见和建议。

(4)结构和格式。Wordsmith平台需要用其自然语言生成功能对此前的分析和提炼得到的观点进行故事化叙述,并按照需要生成各种形式的文本:长文、短新闻、可视化图表为主的内容、推文、标题导语等。

(5)出版。Wordsmith平台能够将所生成的文章,通过多种方式,实时发布到客户指定的平台上。

机器人写作在媒体机构的投入使用起步于美国。

由于财报类的新闻需要定期发布,且格式僵化,新闻机器人的引入逐渐取代记者的部分工作,特别是机械性、重复性的材料收集、数据计算和文字校对工作,进而取代记者完成那些有着固定数据来源与写作模板的新闻报道。此阶段的机器写作处于弱人工智能阶段,机器只是按照某种特定的方式将文字和数据组合起来,只适用于一些拥有固定模式的报道。随着人工智能技术的进步,机器人写作模式不断发展升级,适用的报道场景和类型也不断丰富。截至目前,主要的机器人写作模式可以归纳为三种。

1.定制模板的填充数据

属于最原始的机器人新闻写作模式,以定制化的模板自动生成新闻稿。定制化的写作模式是将文本的基本结构和文字表述事先进行编辑确认,设置好文字表述的固定模式,再由智能程序根据互联网分析数据或者新闻现场的即时数据进行填充,从而形成格式规范、行文严谨的新闻稿件。主要适用于有大量数据分析内容的财经类、体育类新闻报道。

2.再加工模式

主要适用于摘要编写,摘要对正文而言是高度概括且能够表现主题的总结文段。这种自动摘要模式涉及自然语言的处理技术,是人工智能和语言学交叉融合的新领域。其技术支撑就是人工智能理解、处理和生成人类能够理解的自然语言,包括自动分词、词性编著、语法分析、文本情感分析、自动摘要、语音识别等技术。

3.深度学习写作模式

让人工智能程序全方位地学习和模仿人进行写作。从新闻素养的采集、信息加工处理、数据分析到最终的文本写作都由人工智能程序来完成,摒弃了原始的写作模板,也不再提供大量的相关新闻作品进行摘要学习,而是通过对自动采集的新闻素材进行自主创作。

机器写作模式的不断丰富提高了传媒行业的内容产出能力,节省了新闻工作者在重复任务上的工作时间,让他们能够投身于更具创造力的内容创作工作中来。但与此同时,“机器是否会取代人”等一些对于内容生产传播过程中人机关系内涵的思考也成为业界和学界普遍关注的一大焦点。