2.1 与“大数据”的整合
2.1.1 与“大数据”的关系
人工智能与大数据关系紧密。一方面人工智能拉动了数据需求;另一方面人工智能增加了数据供应。一个系统的成功往往取决于是否“尽可能多地吸收和训练数据”,不断增长的人工智能发展需求促使各种各样商业实体将关注点放在收集更多数据上。随着人工智能系统与越来越多可连接设备结合,数据集正不断扩大。例如,嵌入人工智能的数字助理、智能音箱和智能相机具有更多更强的功能,吸引更多消费者购买,进而从各种渠道收集了更多数据。更重要的是,人工智能可以从原始信息中提取、处理进而生成更多有用数据,比如人工智能可以自动识别监控视频中的人脸并对其进行分类获得更多衍生数据。
大数据和人工智能的关系如图1所示。[13]
图1 大数据与人工智能关系图
2.1.2 数据处理的算法
如图1所示,大数据与人工智能的核心结合点在于算法,算法可分为机器学习、深度学习和神经网络。
1.机器学习
机器学习(Machine Learning,简称ML)是人工智能的核心,是研究如何让机器模拟人类学习活动的科学,可以从一组数据推导出特定规则进而对未来数据进行预测[14]。汤姆·M·米切尔(Tom M·Mitchell)在其著作《机器学习》(Machine Learning)中指出,机器学习是“计算机利用经验积累自动改善系统自身性能的过程”。机器学习是在没有明确编程指导、仅提供既定算法和已知数据、通过创建模型并进行判断和分析的情况下让计算机自动运行。计算机设备需要大量数据来训练模型。如亚马逊的推荐引擎使用机器学习算法,通过分析用户浏览或购买历史记录等数据,推介用户感兴趣的其他项目。[15]
机器学习可以为用户提供各种信息、产品和服务。从机器翻译、医学诊断到无人驾驶汽车,无所不能。如视频网站推荐电影自动符合用户口味;火车站面部识别系统自动检查乘客是否持有当天的车票;医疗系统获得病人的DNA信息后自动定制治疗相应疾病的药品。[16]正如佩德罗·多明戈斯(Pedro Domingos)在其《主算法(The Master Algorithm)》一书中所说:“机器学习是一种新兴的自我创建技术”。摩尔定律(Moore's Law)效应带来更强大的计算能力,加之谷歌和Facebook等公司从大量用户行为中获得指数级增长的数据,使机器学习进入了方兴未艾的新时代。[17]
2.深度学习
深度学习(Deep Learning,简称DL)是机器学习的一个分支。深度学习由一组单元组成,每个单元结合一组输入值产生一个输出值,此输出值再传递给下游其他单元。例如,在图像识别应用中,第一层单元可以组合图像的原始数据以识别图像中的简单图案;第二层单元可以组合第一层的结果以识别图案模式;第三层单元可以组合第二层的结果等;依此类推。深度学习通常由许多层(有时超过100层)组成,并且常常在每一层使用大量单元,以便能够识别出极其复杂的、精确的数据模式。[18]深度学习不是试图将规则编写成模拟人类行为的系统,而是将数据输入到基于人类大脑的模型中,并让计算机从这些数据中学习,[19]使计算机拥有自我学习、自我总结、自我提高的能力,拓展了人工智能众多应用领域,使得图像识别、语音识别甚至作品创造均得以实现。2019年图灵奖获得者便是深度学习的三位创造者Yoshua Bengio,Yann LeCun,以及Geoffrey Hinton。如今,无论是政府机构如美国国防部等,还是众多高科技公司如谷歌、微软和亚马逊等,都积极参与关于深度学习技术的研究,这将加速推进人工智能技术的发展。
3.神经网络
人工神经网络(Artificial Neural Network,简称ANN),也被称为神经网络,是基于生物神经网络结构和功能的计算模型。神经网络根据输入和输出信息进行修正或学习,进而影响神经网络的结构。人工神经网络被认为是可对输入和输出非线性统计数据之间复杂关系进行建模的工具。[20]
人工神经网络最大的优点是可以通过观察数据集进行学习。因而人工神经网络常被用来逼近一个随机函数。人工神经网络基于数据样本而不是整个数据集来获得解决方案,既经济又有效。因此,人工神经网络被认为是可用于加强现有数据分析技术的简化数学模型。[21]
人工神经网络的成功经验极大地推动了机器学习的发展,如今已经被应用于机器视觉、语音识别和信息处理等领域。神经网络模仿生物大脑运作方式,由其驱动的机器学习才是赋予计算机人类能力的真正途径。[22]在某些情况下,人工神经网络甚至可以通过庞大数据集和大规模计算进行训练获得超人的能力[23]。
2.1.3 人工智能对数据量的要求
当前人工智能执行逻辑算法,需要大量数据训练模型,使机器不断进行自我优化,逐渐接近甚至超过人类智能。数据数量和质量影响人工智能表现,如果数据不完整或有偏差,人工智能将加剧偏差问题。如图2所示,在一定程度上,训练模型的数据越多,其性能表现就越好。[24]
图2 深度学习随着数据量的增加可大幅提高性能表现
图片来源:参考文献[25]