人工智能技术在媒体行业的应用
近年来,互联网的高速发展、新媒体的不断涌现将我国传统媒体推到转型升级的十字路口,我国媒体进入融合发展新时代,媒体内容与表达形式向多元化发展。日趋成熟的人工智能技术在此过程中发挥着越来越重要的作用:重构媒体内部产业链、外塑媒体消费场景、催生新的媒体内容形式与发展模式,媒体发展步入智能时代。
1.VR/AR新闻:泛媒介下的精神在场
人工智能计算机视觉技术的发展使得VR/AR产业“起死回生”。2016年的VR/AR产业虽迎来了“元年”的大幅增长,但应用初期的高成本、低普及以及单一的应用场景让其在2017年一度沉寂。2018年,Oculus Go、Santa Cruz、Daydream等各类头显一体式VR系统的发布让虚拟现实(VR/AR)技术产业重新成为行业宠儿。技术沉淀、政策扶持让虚拟现实技术产业在2019年迎来又一个春天。VR/AR技术被公认为是信息技术发展的下一个风口,消费需求的升级、数字产业的加持更是为其带来了持续输入的资本。2019年4月8日,国家发改委将虚拟现实(VR)、增强现实(AR)纳入2019年“鼓励类”产业,这意味着国家将这两项技术纳入实体经济发展之中,并归入新一轮世界科技革命和产业变革里。
在技术升级的同时,VR逐渐与工业、商业、健康、教育、文化等领域相结合,实现虚拟产业的应用落地。传媒领域也借助虚拟现实技术沉浸式、交互性、想象性特质创新新闻传播模式。2019年年初,中国首个世界非遗昆曲虚拟现实纪录片——《昆曲涅槃》诞生,使读者身临其境地感受昆曲的自然雅致,大大提升了观影效果。VR直播也成为内容聚焦点。从2015年的“9·3大阅兵”、2017年的春晚,到2018年的全国两会和2019年的70周年大阅兵,国家重大事件的报道里总少不了VR的身影;2019年,央视新闻开通“VR频道”,聚焦360度全景新闻频道和VR新闻频道报道;以花椒直播为代表的VR直播平台将虚拟现实技术嵌入直播中,打造立体直播环境。文化场馆建设方面,南昌VR乐园将VR技术与文化、娱乐休闲体验相结合,打造了国内首个实境式VR主题乐园;2019年故宫推出的3D紫禁城虚拟世界,将这一传统文化瑰宝的魅力无限放大,观众可以通过VR穿戴式设备应用,重回古代宫廷活动现场,增强古代宫廷文化。多种形式的VR技术让我们看到了虚拟现实技术在传媒领域应用的无限可能。
2.图像识别技术:视觉体系的延伸
图片识别技术目前主要涉及生物特征、物体场景与视频三种类型。生物特征识别主要包括指纹、人脸、虹膜等,广泛应用于身份识别场景中,例如手机指纹登录、高铁人证合一的检票系统等。同时军事、刑侦领域对生物特征识别的技术采用大大增加了案件处理速度,保证了破案准确率。医疗领域,则从最初的化验单录入、B超识别病灶发展到现在的智慧医疗影像平台的建立。2019年8月17日,北京互联网法院发布的《互联网技术司法应用白皮书》所阐述的十大典型技术应用也包括了图像识别技术。物体及场景识别则在如导航、天气预报、地理环境监测、工农业质量评估等方面发挥重要作用。我国的智能交通系统(ITS)就可以实时监测和分析拍摄场景的环境和交通状况,并实现车辆牌照自动识别。目前火热的自动驾驶汽车也应用了图像识别技术。视频识别方面,我们可以简单地将其看作对无数个动态化图像的识别。近年来,深度学习方法研究提出了新的图像分类识别算法——深度卷积神经网络(Deep-CNN)。这一技术大大提升了视频信息的识别速率,降低了识别错误率,识别速率可超过10倍实时(10小时视频内容1小时转写完成)。[5]
图像识别技术在媒体应用中也十分广泛。在内容生成方面,媒体工作者可以通过视频识别技术自动抓取视频中的亮点片段自动生成宣传片进行传播,减轻人工素材采集的压力。未来我们可以期待自动生成视频内容。以媒体内容监测为例,有了人工智能图像视频技术的加持,使得非结构化媒体数据采用机器审核成为可能,通过数据集的训练建立用于审核的模型,针对画面中的元素进行追踪,对于图像、文本及视频中的不恰当、有争议或违法内容、敏感内容、低俗内容等进行识别检测,进行标注和报警,以进行过滤和处理,可以大大减少人力的投入。[6]受众层面,用户可以通过某节点的图片截取和识别去选择自己感兴趣的媒体内容进行阅读和观看。除了图片识别技术的直接应用,它也作为技术要素被广泛嵌入到AR/VR设备、智能机器人等智能终端中,发挥整体作用。
3.语音交互技术:智媒时代的流量新入口
2011年,搭载着Siri的iPhone 4S面世并获得巨大成功,开启人机交互的新篇章。这时期语言交互技术初具雏形,用户的语音体验也升级到了“唤醒+服务响应”,并逐渐支持多轮对话,帮助用户实现功能查询、日程设置、情感陪伴等服务。作为最简单交互形式的语音所蕴含的市场潜能被激活。微软Cortana、亚马逊Alexa等智能终端语音助手纷纷面世,智能语音助手成了手机、平板、笔记本电脑、手表等移动设备必备的应用。国内,腾讯、百度、阿里、讯飞等互联网企业的AI实验室都将语音交互作为重要布局。语音交互已经成为智能时代全新的流量入口。目前,智能语音交互技术应用场景已涉及智能电视、智能车载、智能家居、语音助手、智能移动终端等消费市场,以及医疗、教育、通信等专业领域。
作为信息传播最基本的形式,语音在新闻生产中的适用性极其广泛。新闻生产方面,移动采访的实现大大减轻了传统新闻记者的新闻记录压力。记者可以利用如讯飞听见应用的语音识别类应用实现边录边转写的功能,录音完成,转写完成,再对内容进行二次编辑。应用搭载的语音数据库可以自我识别错别字、纠正语义和文字错误,极大地提高了新闻的生产时效性。新闻媒体可通过全媒体音频采编系统发布音频通稿,以更低成本获取更多用户,拓展新闻业务的广度和深度,提升新闻影响力。2019年“两会期间”,人民网推出了《学习有声》2019两会特别版,采集了习近平总书记在两会期间的原声文件,以卡片切换式的视听体验满足受众需求,新增互动打卡学习功能鼓励网友随时随地学习聆听。专栏图、文、音频全媒融合,PC端和移动端平台聚合,新版页面一经推出即获得热烈反响。[7]各大新闻资讯类应用也在其界面中添加“读报”功能,解放用户双手,增强知识获取效率。在新闻主持方面,主持机器人和AI合成主播更是离不开智能语音交互技术的支撑。2018年第五届世界互联网大会上新华社联合搜狗推出的世界上第一个“AI合成主播”就通过真人主播声音采集建立数据库,并运用深度学习技术建模生成自己的语言系统。
智能语音翻译技术也是语音交互技术的一大应用领域。全球一体化进程中,语言翻译成为打破跨国别语言鸿沟的重要工具,在境外游、外语教育、国家交往等应用场景中有着庞大的市场。2019年5月,谷歌发布了一项新研究Translatotron,这是一种可以直接实现端到端的语音转语音的翻译技术。该工具放弃了将语音翻译成文本再返回语音的步骤,可以直接从一种语言转换成另外一种语言,并同时保持说话者的语调和节奏。国内的科大讯飞一直是智能语音翻译技术的强者。2019年,科大讯飞不仅在多语种混合的语音识别任务上进行了技术研究,使中英文混合输入的,准确性达到了90%的水平,同时在翻译方面也提出了针对智能语音翻译的新模型——融合领域知识的多通道半监督约束编解码翻译框架,增加翻译内容的容错空间,有效缩短长文本翻译时间。同时,科大讯飞也在2022年北京冬奥会上使用智能语音翻译技术,使冬奥会和冬残奥会的每次新闻发布、比赛结果通过多语言同步向全世界传播,运动员、工作人员将实现更充分的交流,并且更好地照顾到残障人士的信息需求。[8]