4.1 机器人记者和“他们”写的新闻[1]
“机器人记者”只是一个拟人化的说法,它实际上是一套算法程序,主要就是通过一定的计算机程序,对搜集和输入的数据信息进行自动化的分析、处理和加工,从而生成一篇较为完整的新闻报道。最大的特征是新闻生产的全自动化[2]。机器人记者最初源自美国,在2006年3月,信息供应商汤姆森公司运用算法程序撰写财经类的新闻稿件。2007年,美国第一家自动化生产新闻的科技公司Statsheet(Autamated Insights公司的前身)宣布成立。2014年,美联社使用Autamated Insights公司推出的Wordsmith平台报道财经类消息,发布的第一条消息是《苹果打破华尔街第一季度预期》。Wordsmith平台平均每秒能产出2000篇类似新闻稿件,每个季度的发稿量是之前的14倍。同年,美国加州发生4.1级地震,洛杉矶时报三分钟后发布了相关报道,该报道的作者Quakebot也引起了社会关注。Quakebot由洛杉矶时报内部员工肯恩·斯昆克开发,2011年就在地震新闻和犯罪新闻领域投入使用。此后,华盛顿邮报的Heliogra、路透社的News Tracer、纽约时报的Blossom等相继出现,西方各大媒体都走上了自动化新闻生产的道路。
国内机器人记者的出现较之国外要晚一些。2015年9月10日,腾讯财经发布《8月CPI同比上涨2%创12个月新高》,文章末尾注释这篇报道由腾讯推出的新闻写作机器人Dreamwriter撰写,这是国内在机器人新闻领域的首次尝试。2015年11月7日,新华社的机器人记者“快笔小新”正式出道。快笔小新供职于新华社体育部、经济信息部和《中国证券报》,撰写体育赛事中英文稿件和财经信息稿件[3]。2016年里约奥运会让今日头条的“张小明”进入大众视野,张小明(Xiaomingbot)是今日头条在里约奥运会开幕前研发出的AI机器人,在奥运赛事期间每天发30篇以上稿件,速度之快几乎与电视同步,且在文章中配有相关图片。2016年第一财经技术与创新大会上,“DT稿王”这一写稿机器人正式面世。除此之外,国内的机器人记者还有南方都市报的“小南”、封面新闻的“小封”等。
机器人生产的新闻稿件和记者撰写的新闻稿件有何异同?笔者以4篇同主题新闻进行“人机”对照,详述其文本差异。
案例一:财经类新闻
机器人Dreamwriter稿件:《8月CPI同比上涨2%创12个月新高》
据悉,国家统计局在周四公布的数据显示,8月份CPI同比上涨2.0%,涨幅比7月份的1.6%略有扩大,但高于预期值1.9%,并创12个月新高。
对此,国家统计局城市司高级统计师余秋梅认为……
记者石小磊稿件:《番茄炒蛋要多花1块钱》
昨天,国家统计局江苏调查总队公布8月居民消费价格运行情况。由于“伏涨”发威,8月份食品价格成为拉动CPI上涨的主动力,与1年前相比,全省CPI同比上涨1.8%,其中食品涨3.9%。
与7月比:鸡蛋成涨价王……短短1个月期间,鸡蛋涨了10.5%,猪肉涨了7.2%,虾蟹涨4.7%。难怪许多市民近来去趟菜场总要感慨:“进菜场不花个一百块出不来,连在家吃饭都不省钱了。”
就拿最家常的番茄炒蛋来说吧,南京市物价局公布的8月底全市平均价格为每斤番茄2.9元,每斤鸡蛋5.5元。而7月底,这两样必买品每斤分别才只有2.6元和4.5元。晚上下班回家炒一盘番茄炒蛋,买1斤番茄4只洋鸡蛋,比一个月前贵了1元钱。
表4-1 机器人记者和真人记者所写的财经类新闻对照
新闻稿《8月CPI同比上涨2%创12个月新高》是腾讯财经开发的Dreamwriter于2015年9月10日发布的。这篇稿件共921个字(表4-1),提供了31个有效数据,占比3%。第一段表示8月CPI同比上涨2.0%创12个月新高,随后引用了国家统计局城市司高级统计师余秋梅、银河证券的分析报告、交通银行金融研究中心、民族证券宏观分析师朱启兵、申银万国证券研究所首席宏观分析师李慧勇等五位权威专家及机构的观点。基础数据翔实,涵盖信息比较全面,Dreamwriter凭借超快的计算和数据搜集能力,第一时间生成稿件发布,具有新闻时效性。“Dreamwriter每年写大约50万篇稿子,总计8000万字。最近一个月的日均产量,仅财经体育类一天就有两三千篇。”[4]超快的速度和精确的数据分析的整合能力,正是机器新闻的优势。但是它的局限性也不可避免,这篇稿件给人一种数据堆砌之感,没有总结提炼和观点输出,看起来很枯燥;8月CPI同比上涨2%这个概念其实比较抽象,专业性较强,受众并不太容易理解,可读性差。且由于模板式写作,统计师余秋梅是位女性,但稿件中却用的是“他”。
再来看石小磊的《番茄炒蛋要多花1块钱》新闻稿,全文共559个字,有效数据16个,占比2%。一句话总结:与7月比,鸡蛋成涨价王,重点突出,轻重分明。人类记者具有社会经验,可以有针对性地展开叙述,并且表述通俗易懂,有人情味儿,番茄炒蛋要多花1元钱,好消息是鸡蛋价格涨到头了,坏消息是猪肉还要贵一阵子,这样接地气儿的表述相比复杂的数据分析更容易让市民们理解。“进菜场不花个一百块出不来,连在家吃饭都不省钱了”,这样引用市民的话也容易引起受众的共鸣,从而使新闻更加具有贴近性,加强传播力。
案例二:体育类新闻
机器人Xiaomingbot稿件:「欧国联」迪马尔科、拉斯帕多里建功,匈牙利主场0∶2负于意大利
北京时间2022年9月27日2时45分,欧国联3组第6轮,匈牙利在主场迎接意大利的挑战。第27分钟,拉斯帕多里为意大利首开纪录,占得先机。中场哨响,意大利暂时以1∶0领先。易边再战,比赛第52分钟,迪马尔科为意大利打进一球,扩大领先优势至2∶0。全场比赛结束,意大利客场以2球优势战胜匈牙利。
【比赛进程】
比赛第14分钟,拉斯帕多里送入禁区前点,迪洛伦佐头槌偏出。
比赛第27分钟,拉斯帕多里为意大利率先破门。
比赛第32分钟,迪洛伦佐右侧内切低射,滑门而过。
……
比赛结束,意大利客场2∶0战胜匈牙利。
记者张逸飞稿件:欧国联综合:意大利战胜匈牙利 英格兰憾平德国
北京时间27日凌晨,2022—2023赛季欧洲国家足球联赛A级联赛C组结束了两场比赛的争夺。意大利队以2∶0战胜了匈牙利队晋级四强,英格兰队则没能在连进三球后守住优势,被德国队3∶3逼平。
没能获得卡塔尔世界杯门票的意大利和匈牙利展开了对C组头名的争夺。打平即可晋级半决赛的匈牙利没能调整好心态,第27分钟,后卫亚当·纳吉回传守门员力度偏小,意大利队拉斯帕多里抓住机会推射帮助球队取得领先。意大利在第51分钟扩大优势,克里斯坦特横传扫到门前,迪马尔科后点包抄将球打进……
表4-2 机器人记者和真人记者所写的体育类新闻对照
续 表
机器人稿件由今日头条的AI记者张小明发布,提供了10个比赛关键点以及出场阵容,配有5张动图辅助说明,数据精确涵盖比赛全过程,内容全面丰富。比赛在2022年9月27日2时45分开始,机器人在4时39分发布报道,而人类记者稿件在15时30分发布。显然,机器人发稿的速度远远快于人类记者,这也体现出机器人写稿在新闻时效性上的优势,但是稿件只停留在对比赛表面的描述,属于“流水账式报道”(表4-2),只能满足一般的新闻需求。美联社著名体育记者和专栏作家史蒂夫·威尔斯坦在《美联社体育新闻报道手册》中写道:“好的体育报道是真实的报道。它是一种亲临赛场的体验——倾听观众的声音,感觉赛场的气氛和热度,而不是仅仅坐在办公室或发稿室的电视机前懒懒地看比赛。好的报道应该寻求独特的和出人意料的东西。它应该是原创性的,智慧的,充满激情和真实的,而不是为了填版面而对过程进行描述。”[5]相比机器人稿件,记者张逸飞的稿件第一段开门见山,高度浓缩新闻要点,便于读者迅速掌握文章主旨,并没有提供完整翔实的数据,而是对比赛的状况描述得较为感性,如“匈牙利没能调整好心态,后卫亚当·纳吉回传守门员力度偏小”,且在写到意大利和匈牙利时比机器人稿件多了一点背景的介绍,即“没能获得卡塔尔世界杯门票的意大利和匈牙利”“打平即可晋级半决赛的匈牙利”。在遣词造句上,人类记者的稿件更生动,符合读者的阅读习惯,而非简单的数据堆砌。
案例三:突发灾难新闻
机器人稿件:四川阿坝州九寨沟县发生7.0级地震
速报参数:据中国地震台网正式测定,8月8日21时19分在四川阿坝州九寨沟县发生7.0级地震,震源深度20千米,震中位于北纬33.20度,东经103.82度。震中地形……热力人口……周边村镇……周边县区……历史地震……震中简介……震中天气……产出说明:以上内容由机器人于2017年8月8日21时37分15秒自动编写,用时25秒,公测阶段仅供参考。
记者王鹏、贺劭清稿件:四川九寨沟县发生7.0级地震
中新社成都8月8日电,据中国地震台网正式测定,8月8日21时19分,四川省阿坝州九寨沟县(北纬33.20度,东经103.82度)发生7.0级地震,震源深度20千米。
地震发生时,松潘、汶川、成都、广元、绵阳等四川城市均有明显震感。此外,陕西省西安市、河南省郑州市、山西省太原市等地亦有震感。
“空调、窗户发出响声,房间摇得特别厉害。”正在阿坝州松潘县旅游的成都市民覃瑞昱告诉记者,地震发生时,距九寨沟100多公里的松潘县城震感极其强烈,人们以最快的速度冲出了楼房。
据了解,每年的七、八月是九寨沟避暑养生游的高峰时段。8月8日,九寨沟接待游客38799人,逼近景区的最大承载量。
表4-3 机器人记者和真人记者所写的突发灾难新闻对照
从发布时间来看(表4-3),地震发生于2017年8月8日21时19分,机器人稿件发布于当天21时37分15秒,用时25秒,而人类稿件发布于22时25分,在速度上,真人记者远远比不上机器人记者;从数据占比来看,机器稿件全文586个字(含标点符号),数据出现了53次,占比9%,真人记者的稿件全文255个字,数据出现12次,占比4%,在数据分析处理上,人工智能要更胜一筹;从结构上看,机器人稿件采用并列式,将速报参数、震中地形、热力人口、周边村镇、周边县区、历史地震、震中简介、震中天气8个部分并列叙述,并配有5张图片,将情况描述得较为全面,具有说服力。真人记者所写的稿件则使用倒金字塔式结构,根据事情的重要程度来安排层次段落,让受众第一时间把握最主要的信息,语言通俗易懂,符合读者的阅读习惯。
针对案例三,笔者曾在社交平台上做过一个调查:这两篇稿件你更愿意看哪篇?收到的回复无一例外选择了第二篇——真人记者写的稿件,理由有:
“机器新闻陈列太死板,没重点,没人文关怀,新闻又不是地质学报告。”“我还是喜欢人类记者写的,有总结性的话语。”“我选第二篇,第一个感觉在看论文。”“第一篇是列数据,很多数字都难以量化想象,看着枯燥,而人会天然逃避复杂的东西;第二篇有人味儿,好理解多了。”“要我看的话我更愿意看人类记者的,因为人工智能虽然有图有真相清晰明了,但我是看不懂的,人类记者写的比较生活化一点,言语也通俗易懂,我最起码能看下去。”“人类记者的简短,基本上一眼看过去就能抓住重点。”
在收到的回复里,更愿意看人类记者稿件的占99%。虽然机器新闻在速度以及数据方面很大程度上优于人类记者,但是单从稿件本身来看,大部分人还是会选择人类记者写的那一篇。机器新闻只能起到第一时间将信息准确地传递给受众,这些信息无疑是数据化的,一系列数据具有较强说服力,但内容可读性较差,在这个互联网飞速发展的时代,“见多识广”的广大网民们耐受力普遍比较低,注意力都被碎片化分割,会下意识逃避复杂严肃的信息,显然机器新闻对他们来说并没有吸引力。
案例四:春运新闻
机器人小南稿件:20日广州—武汉还有大量无座票
南都讯(机器人小南实时报道)根据12306网站余票信息,截至2017年01月17日20:00:18,1月20日从广州出发至多个热门目的地的路线中,广州到北京、洛阳、南昌、贵阳的火车票全部卖完,想要去这些地方的朋友只有另谋他法了。
广州到大连、郑州、青岛、上海、南京、南宁的票比较紧张,都不足100张。其中余票最少的是广州到郑州、上海、南宁,均只有1张。有需要的旅客赶紧动手啊。
在这些车次中,广州到南京的票以高铁为主,余票少且为商务座,票价昂贵。
广州到武汉、长沙、岳阳的票十分充足,其中,余票最多的是广州到武汉,还有1534张。不过,车次主要是K字头和普列,基本都是无座票,一站到底,路途会比较辛苦。
记者范克龙稿件:春运火车票开售
记者从中国铁路上海局集团有限公司获悉,日前,铁路部门开始发售2022年春运火车票。
……
今年春节假期为1月31日至2月6日,共7天。旅客在1月23日可以购买2月6日(正月初六)的返程火车票。2月11日可以购买2月25日春运最后一天的火车票。
候补购票是铁路部门推出的官方免费“捡漏神器”。旅客购票时,如遇所需车次、席别无票,可在线排队候补。当对应的车次、席别有退票时,系统将自动兑现(购买)车票。根据经验,一般开车前1天至2天是退票和改签的高峰时段,使用候补购票功能,只要有退票或余票,系统会自动按排队顺序购入,候补购票的概率会更高。
此外,铁路部门将统筹疫情防控精准要求和旅客便捷出行需求,改进售票和退改签服务措施。延长12306网站(含手机客户端)售票服务时间……
《南方都市报》的机器人小南发布的春运新闻,全文274个字,整个新闻生产流程仅用时一秒,篇幅短小精悍,语言亲切,“想要去这些地方的朋友只有另谋他法了”“有需要的旅客赶紧动手啊”,这些表述看上去几乎和真人记者的写作没有区别。小南写稿侧重于民生领域,突出生活化和贴近性,呈现亲民特征。稿件主要描述了广州到各市的火车票剩余情况,采用倒金字塔式结构,先是介绍没票的车次,其次是火车票比较紧张和剩余充足的情况,将最重要的信息放在最前面,快速满足受众的新闻需求。但这篇稿件仍囿于表面的信息传输,缺乏深度。真人记者的春运新闻稿件全文786个字,主要内容有四部分:火车票预售信息、候补购票、改进售票和退改签服务措施、团体票办理业务。相比小南写的稿件,这篇的内容要涉猎更广,考虑到所需车次没票以及退票改签等问题,更加全面,也更能为受众提供便利。
通过以上四组案例的对比可见,机器人记者的稿件发布速度快、数据精确,但模板痕迹严重,停留在对新闻事件的表面阐述,只具有信息传播的功能,缺乏对新闻的深度挖掘与跟进探索。详细来说,目前机器人新闻写作的特点为:
第一,机器人记者可以在短短两三秒内对搜集来的数据进行加工并自动生成稿件发布,提高了新闻生产的速度。Wordsmith平台每秒能写出2000多篇稿件,最大限度地突破了人类记者的能力极限,并且24小时全天待命,能够迅速应对突发事件,在第一时间内将信息传递给受众。例如,2017年8月8日,四川阿坝州九寨沟县发生7.0级地震,中国地震台网使用机器人写稿,25秒内发布540个字5张图片,包括震中地形、热力人口、周边村镇等信息,为抗震救灾提供有力支持。
第二,机器人记者写稿并不需要到新闻第一现场,而是采集互联网上与报道主题相关的数据资料,机器人采集到的信息一般来自较为权威可靠的官方机构,例如,地震监测局、公司财务数据报表、股市数据、天气预报等,这也很大程度上保证了新闻报道的真实性。数据采集,分析整理,匹配模板生成稿件,最后审核推送,这一系列的机器新闻写作流程避免了人为干预的部分,完全的数据化大大减少了“看错行”等人类记者可能会犯的错误。机器人记者出现后,低层次的人力劳动被取代,人类记者编辑一天的工作量,机器人几秒钟就能搞定。机器人写稿将记者们从重复繁琐的新闻数据中解放出来,让记者们有时间精力去做更有创造力的工作,降低了人力成本。
第三,机器新闻写作的模式是将抓取来的数据导入到现有的规范化模板中,这样虽然提高了新闻生产的速度,但在语言表达上趋于模板化和同质化,且内容多是数据的堆砌,较为死板,容易使读者产生阅读疲劳,从而削弱新闻传播力。同一类型稿件的用词和结构都千篇一律,缺乏重点,难以给读者留下深刻印象。机器人记者写的新闻稿件大多停留在对新闻事件的浅层理解上,新闻要素“5w1h”往往只有时间(when)、地点(where)、人物(who)、事件(what),而缺少了原因(why)以及方法(how)等更深层的内容。最为重要的是,机器人记者没有感情,没有人类记者的新闻敏感度,写出的稿件缺乏人文关怀。
第四,在互联网时代,人们的社交娱乐、工作学习都逐渐电子化,人们习惯于在网站浏览信息,分享自己的生活日常,在这过程中会产生海量的个人数据,机器人记者通过互联网大数据采集的信息,也包括网民生产的相关个人数据资料,极有可能在新闻生产过程中产生泄露隐私等问题。