算法新闻生产中的把关机制及流程

(一)算法新闻生产中的把关机制及流程

在过去传统媒体中,由专业的记者、编辑和校对人员进行内容的审核把关,审核过程往往较为漫长,也很消耗人力。在今天信息如此活跃的背景下,全靠人力来审核变得跟不上节奏。人工智能根据不同的算法逻辑,进行着信息抓取和内容审核的工作,大大提高了信息分发的效率和精度。以用户最常接触到的聚合新闻客户端“今日头条”为例,其平台算法架构师曹欢欢博士介绍道:“今日头条”的推荐系统主要由三个维度的变量组成,分别是内容维度、用户特征和环境维度,系统通过对三个维度的变化进行综合预估,推测被推荐给用户的内容是否合适。[24]“今日头条的算法逻辑的种类极多,有专门负责推荐的系统,过滤的系统、抓取新闻源的系统和审核的系统,每个环节运用的系统都不相同,总体有一个典型标准的系统,但是根据场景运用的不同会选择不同的算法,会进行微调,但是整个今日头条的内部产品所使用的都是同一套的算法推荐系统。”[25]因此,不同的场景应用的推荐系统不同,最有名的是今日头条在2018年3月28日发布的“灵犬”反低俗小助手,它可以根据用户提供的文章或者文章链接,在网络上快速检测,查看是否会有抄袭原创的行为,同时也可以根据关键词、语义等分类检测出这篇文章的内容质量,接着会给用户提供一个内容的鉴定结果,还会给出一个鉴定分数。对于文章的内容质量,“灵犬”对标题党内容、色情暴力内容有极高的敏感度。用户可以通过这些反低俗小助手从基本标题等入手简单鉴别文章内容。

通过对把关主体的分类,新闻内容审核机制可以分为用户审核和平台审核两大类。其中用户审核的主体又分为内容创作者和信息接收者,而平台审核的主体主要指负责把关内容的审核编辑和机器算法程序。整个内容审核过程中有两部分主体发挥重要作用,一是机器算法,二是人工审核编辑,二者缺一不可。但二者的着力点也就是审核范围不同,因为人具有主观性,机器只能执行事先编辑好的程序。[26]

除了文字、图片内容以外,随着音频直播、音频资讯平台等新媒介走进人们生活,对于音频审核的要求也随之提出。音频审核技术要求高、成本大,为各大平台出了个难题。目前,许多平台仍采用人工审核的办法。针对此现象,百度智能云重磅推出语音审核功能。基于多年的技术积累,百度智能云在视频内容审核方面所取得的成绩获得了众多客户认可。在新增语音审核功能后,一个能够满足视频、音频、图片、文本四大类内容审核需求的媒体内容审核产品,由此诞生。通过对语音文件或音频流进行声纹分析,语音审核功能能够准确识别出场景环境,同时利用语音识别技术从涉黄、涉恐、涉政、非法广告、违禁事物、辱骂等多种维度对语音内容进行审核。平台上任何来源的音频都能进入智能审核环节,实现“无死角”式高效审核。[27]

同样,阿里云的内容智能审核服务在敏感人物、涉黄、低俗、涉政、涉暴和广告方向都有着海量的样本特征库,这些特征库是常年服务于淘宝、天猫、支付宝等核心业务而积累下来的,并在实际运营过程中不断更新,样本数量和丰富度基本已覆盖互联网能够遇见的所有场景。阿里云内容智能审核具备审核结果回流自学习的能力,算法无法确认、常依靠人工决策的结果会回流到后台,后台自动进行样本分析、打标和训练,对审核模型进行迭代优化,形成企业自己专属的特征库和个性化策略,最终审核准确率维持在99%以上。在世界杯期间,阿里云智能审核与客户通过近两周的相互配合联调测试,获得了最优算法模型和个性化策略配置。世界杯期间,阿里云智能审核服务帮助客户实现平台自有用户产生内容的全量检查防护,包括上百万条用户评论的实时审核。在时效性上,阿里云内容智能审核能够远优于人工审核,对图片和文本的审核能够在毫秒级完成,正常互动的用户在终端感知不到有审核延时。[28]

通过上述案例,可以得出新闻智能审核的具体流程:首先是从新闻来源进行把关,其次是机器算法根据关键词等进行过滤筛选,然后筛选合格的内容被大范围推荐,在推荐的过程中进行人工审核管控,对文章内容进行审核,最后一步是到达受众的内容经过受众的反馈尤其是举报后文章再次回到后台被复审。媒体平台上的自媒体号生产内容以及其他合作媒体的内容会被源源不断抓取到聚合平台上,形成一个内容数据库。随后,算法便对获取的信息进行大数据分析,进而对信息的属性做出判断,按内容标签进行分类,为下一步推送做准备。用户在使用媒体的过程中,每观看一条新闻内容,每一次点击、浏览、收藏、评论等行为,甚至阅读这条信息的时间长短等都会产生数据。另外,用户在利用QQ、微博、微信等社交账号登录时,个人社交网络的信息也随之被记录。所有这些数据都被后台识别、判断并记忆,形成大数据。通过机器学习技术进行大数据分析,则可判断出用户对于哪些类别的新闻资讯感兴趣,进而形成包含了该用户兴趣的庞大数据。[29]