机器人写作技术:基于海量数据,自动生产新闻

二、机器人写作技术:基于海量数据,自动生产新闻

机器人新闻最早应用于体育、经济和金融等领域。腾讯财经频道在2015年用自动化新闻写作机器“Dreamwriter”发布了一篇名为《8月CPI涨2% 创12个月新高》的报道,开国内机器人写稿先河。此后,第一财经“DT稿王”、新华网“快笔小新”、南方都市报“小南”、今日头条“XiaomingBot”等相继诞生。

机器人新闻的生产过程包括五个步骤:一是读入大量结构化和标准化的数据,如财经和体育报道均是数据丰富且结构化、标准化的领域,很容易开发出自然语言自动生成系统。二是测量数据中的“新闻性”。算法检测和对比历史数据,寻找最“反常”的数据,如体育报道中的“最高纪录”和“最低纪录”,财经报道中股价或汇率的变化高于或低于预期。三是找出合适的报道角度。这些角度实际上是人类记者事先已经确定好的报道框架,供算法选择。四是将报道角度与数据中的具体事实相匹配。即在报道角度确定之后,算法从数据中选择相关的信息。五是生成报道文本。从自然语言角度对自动生成的新闻稿件进行修饰和润色。

机器人新闻实现了部分新闻信息的完全自动采集、加工和分发,具有“快速、准确、廉价”等特点,在地震、体育、经济、股票等信息类报道方面呈现出较明显的优势,但新闻的“知识性”被削弱。而基于价值判断的“知识性”恰好是人类新闻工作者的优势所在,当机器人新闻将人类记者从枯燥的数据采集和分析中解放出来后,更多记者将有更多精力从事创造性的内容生产,做好判断、解释、分析、预测、伦理等工作,展现好讲故事、人文关怀和共情力等属于人类的特有能力。