3.1.3 大数据
“大数据”这个术语指的是收集海量的、传统的和数字化的数据,这些数据是发现问题和分析问题的来源。大数据是一个通用的流行说法,它一般是指由于太大而无法在传统关系数据库系统中存储和处理的数据集。但这样一来,大数据这个词就容易引起歧义,虽然规模无疑是大数据的一部分,但规模并不是大数据的全部。我们真正期望的是通过大数据的分析,可以发现事物隐藏的模式,未知的相关性、趋势和偏好,以及其他可以帮助利益相关者做出更好、更明智决策的信息。2001年,Laney首次将大数据描述为具有以下特征,也称为三V,如图3-1所示。

图3-1 大数据的三V
·Volume即生成和存储的数据量大:大数据通常量很大,数据的庞大规模带来了存储、索引和检索上的复杂性。
·Variety即多样性:大数据的数据类型和性质各不相同,需要高效的存储和分析,以及处理此类数据的系统。
·Velocity即速度:大数据的处理速度会带来新的需求和挑战。
很长一段时间以来,数据科学领域一直在讨论大数据的三个V,然而,随着大数据的逐步流行,人们发现关于数据的另外两个方面可能比传统所说的三个V更重要:数据真实性和数据价值。Mark van Rijmenam又提出了另外四个V来进一步理解大数据极其复杂的性质。实际上,V的不同子集对于某个组织在制定自己的数据策略时很重要,下面我们总结出8个普遍认为重要的V。
(1)volume即生成和存储的数据量。
2001年,Volume Laney定义了大数据的一个关键特征,即第一个V,也就是大数据的数据数量很多。早期大数据应用的关键问题是解决相关存储需求及其成本,但现在数据中心从本地存储转移到云端已经消除了这种担忧,而且它还带来了额外的好处,主要是安全性和可伸缩性,这大大降低了存储成本,并在数据存储、协作和灾难恢复方面提供了灵活性。云计算指的是在互联网上的分布式计算。英特尔联合创始人戈登·摩尔在1965年发表的摩尔定律指出,能够安装在集成电路上的晶体管数量大约每18个月翻一番。1981年,1 GB存储的价格为300000美元;2004年,1 GB的存储的价格为1.00美元;2010年是0.10美元。今天,我们可以以每月0.023美元的价格在云服务商租用1 GB存储空间,甚至第一年的存储是免费的。
要让大数据为我们服务,高效且经济的存储至关重要。选择最合适的存储解决方案取决于以下几个因素。
·成本:数据存储成本随着存储需求的增加而增加。所以,项目开发者要根据项目和长期监管的要求来确定是否要收集特定数据信息或是否需要对数据采集全程记录。现在低成本的云存储提供商如国内的阿里云、腾讯云都能为项目的数据存储方式提供更多的选择。
·数据类型:考虑是要存储结构化数据还是非结构化数据以及来源,如音频或视频内容、文本、图像等。与文本相比,视频、音频或图像存储将需要更多存储资源。
·部署:确定解决方案的部署方式,可以包括本地、内部或基于公有云或私有云。
·访问:确定解决方案的访问方式——通过应用程序、Web界面、移动应用等。
·操作:包括数据结构、架构、归档、恢复、事件记录和法律要求。
·未来使用:涉及规划更多数据源、系统扩展和潜在的未来需求。
(2)Variety即多样性。
数据的第二个V是多样性。这不仅涉及数据类型的变化,还涉及来源和用例。二十年前,我们曾经以电子表格和数据库的形式存储数据,现在,数据可能是照片、传感器数据、推文、加密文件等形式。各种非结构化数据会对存储、挖掘和分析数据产生新的问题,这也是机器学习可以得到应用的一个领域。数据可以以结构化数据(如学生名单和班级名单)、非结构化数据(如视频和微信聊天等数据的形式)以及半结构化数据(如带有书面注释的实验报告)向我们展示出来。
随着物联网的发展,数据量迅速增加,物联网指的是智能、互联设备和传感器及其产生的数据。数据在设备、服务器以及终端使用人员之间传输。近几年,物联网在各行业的应用又产生了如工业物联网和医疗保健物联网的提法,它们指的是物联网中各自的垂直行业。在教育领域,物联网同样提供了大量应用机会,不仅可以改善教学环境,而且可以同时降低教育数据收集成本,如可以创建由传感器数据、学习记录、参与社区活动记录、人数统计和计费记录支持的学习模型,从而可以帮助教师对课堂教学做出准确的预测并节省宝贵的时间和资源。由此产生了各种大数据,包括传统数据以及结构化和非结构化数据。随着数据种类的增加,在线学习中部署的算法和机器学习工具的应用场景也在增加。
与各种来源一样,大数据的多样性可以表现为以下形式。
·数据类型:文本、数字、音频、视频、图像等。
·功能:用例和用户需求。
·数据的价值:数据是否适合某个目的?在大数据的背景下将更关注数据质量,因为多的数据并不一定意味着更好的数据。
·应用的多样性:正如数据源、值、类型和用例有多种一样,数据也有多种应用方式,包括Web应用、SaaS(软件即服务)、API(应用程序编程接口)等。
(3)Velocity即速度。
大数据的第三个V是速度,指的是数据创建、存储和分析以及可视化的响应速度。在大数据时代,数据是实时或接近实时创建的。网络物理设备、嵌入式传感器和其他设备的无处不在意味着数据传输可以在数据产生的那一刻就发生。创建数据的速度是无法想象的。组织或者行业面临的挑战是应对实时创建和使用数据的更快速度要求。(https://www.daowen.com)
数据的速度对底层计算机硬件基础设施提出了较高的要求。云计算的一个明显优势是能够快速存储和处理数据,通常会比传统服务器处理大量数据具有更大的优势。由于存储和成本方面的灵活性,云计算是大数据项目的首选途径。云计算提供商可以存储PB级数据并可以根据需求实时扩展至数千台服务器。
传统的三个V可以洞察数据的规模以及这些庞大数据集增长和繁殖的速度。然而,数据的多样性才开始触及大数据的深度和挑战。大数据的力量在2009年由美国巨无霸科技公司谷歌的一次应用进行了最好的证明,2009年美国爆发了大流感,谷歌通过相关搜索词的分析可以仅延迟一天就能跟踪流感的传播路径,比疾病控制和预防中心(CDC)更快[11]。然而,在2013年,谷歌流感趋势弄错了,这引发了对数据价值和有效性概念的质疑[12]。
(4)value即价值。
价值是指数据的有用性,麦肯锡表示,大数据对欧洲公共部门管理的潜在年度价值为2500亿欧元。价值可以通过多种因素来考虑,在教育领域,数据的价值可以通过定性和定量分析进行评估,主要是评估某种行为对教学效果的改变,学生、教师、管理者及利益相关者的参与程度,对流程和工作流程的影响以及成本变化(成本节约、成本收益)等。数据的价值来自对数据进行的分析,数据分析能够将数据转化为信息,并最终转化为知识。数据价值的最终体现在于组织如何使用数据并以信息为中心和数据驱动的方式进行决策。数据产生价值的关键是如何通过合理使用数据,使数据对用户和组织有意义。前文提到的谷歌在追踪流感症状搜索方面的失败,就表明如果不合理地使用数据会给我们带来困惑,如果这个项目要扩展,分析社交媒体帖子对确定流感流行率方面可能更有价值。社交媒体和更广泛的非结构化数据源提供了大量通常未被探索的信息。比如在2010年海地地震后,人们研究发现Twitter数据是一种检测和跟踪致命霍乱爆发的更快方法,随后的一项研究确定,社交媒体平台在检测霍乱进展的速度和准确性方面均优于官方监测疾病流行的方法[13]。
(5)Veracity即真实性。
真实性是指数据的真实性,以及数据在有数据偏差、噪声和异常的使用环境中是否具有最佳质量和适用性。有以下五种因素可能会影响数据的准确性。
·数据输入:数据输入是否正确?是否有任何错误或事件?是否有数据录入的审查追踪?
·数据管理:通过系统传输的数据的完整性如何?
·集成质量:数据是否得到适当的引用、评价和唯一性?
·陈旧:数据是否适合使用?是否及时?
·使用:数据是否以方便操作的方式使用?数据对实现业务目标有用吗?使用这些数据是否合乎道德?
确保使用的数据集干净、完整、最新、一致且合规,这对项目能否成功起着至关重要的作用,清晰的、有质量的数据能够帮助做出可靠的决策。可信数据的六个C可以帮助我们评估用于项目的数据是否真实。
·干净的数据(Clean):这是经过良好的数据质量过程管理的结果,如重复数据删除、标准化、验证、匹配。没有被污染的数据能够帮助我们得到用户最大的信任。
·完整的数据(Complete):这是统一的数据基础设施、技术和过程的结果,可以支持我们做出健壮的决策。
·当前数据(Current):通常认为新的数据比陈旧数据更值得信赖。那么我们要思考的是数据在什么时候不是最新的?
·一致的数据(Consistent):数据必须一致。这是系统交叉兼容性所必需的,也适用于元数据。
·合规数据(Compliant):合规性的法规可能来自各种来源,如利益相关者、客户、法律法规或新政策。尽管现在存在许多数据基础设施和标准,但数据科学仍然面临着需要治理和立法的问题。合规性对于内部和外部利益相关者来说可能意味着不同的事情。在内部,将要制定合理的标准来确保数据符合质量、安全和隐私程序。所有利益相关者都需要相信数据已经遵循内部和外部法规才能进行访问和分发。在当前的很多大型组织内部都会组建一个数据和信息治理委员会来负责数据的合规性。
·协作数据(Collaborative),指的是对数据的协作,以确保数据管理和业务管理目标保持一致。第六个C更多指的是数据的方法而不是数据本身。
虽然所有C都是数据可信所必需的,目标是拥有代表现实世界的干净数据,但在现实情况下这种理想状况没有或几乎没有。大多数人都提倡数据的完全真实性,但在具有如此多样化数据输入的现实世界场景中,数据真实性很难得到保证,并且在数据管理过程中如果执行严格的数据质量管理又往往被认为难以覆盖成本。
(6)Validity即有效性。
与大数据真实性类似,也存在数据有效性问题。有效性指数据对于预期用途是否正确和准确。在实际应用中,有效性可能被视为最高优先级V,以确保只使用有用和相关的数据。数据的真实性或准确性是绝对的,而有效性是上下文相关的。
(7)Variability即可变性。
数据是可变的,可变性定义了经常变化的数据。可变性在执行情感分析时非常重要,例如,在一系列推文中,单个词可以具有完全不同的含义。可变性经常与多样性混淆。举例来说,花店可能会出售五种类型的玫瑰,这就是多样性。现在,如果你连续两周去花店,每天买同样的白玫瑰,每天它都会有不同的形式和香味,那就是可变性。虽然现在研究中对自然语言处理能力有了进步,但实际应用的场景中算法需要能够理解文本并能够在特定的上下文环境中理解单词的确切含义仍然是非常困难的。
(8)Visualization即可视化。
可视化是八个V中的最后一个,指的是对大数据进行适当的分析和可视化,使其可读、可理解和可操作。数据可视化是将从数据集中学到的知识传递给利益相关者的重要途径。可视化技术本身并不复杂,但是如何将复杂数据集可视化使其能够帮助利益相关者对信息的充分理解却非常困难。