2.2.1 大数据技术标准
2.2.1.1 国内外组织相关标准
目前,大数据技术相关标准的研制还处于起步阶段。纵观国内外,国际标准化组织(International Organization for Standardization,ISO)、国际电工委员会 (International Electrotechnical Commission,IEC)、国际电信联盟 (International Telecommunication Union,ITU)等国际组织以及美国国家标准与技术研究院 (National Institute of Standards and Technology,NIST)和我国的全国信息技术标准化技术委员会等国家组织已经开展了大数据标准化工作。
1.ISO/IEC
ISO/IEC JTC1/SC32 (数据管理和交换分技术委员会)是与大数据关系最为密切的标准化组织。其持续致力于研制信息系统环境内及之间的数据管理和交换标准,为跨行业领域协调数据管理能力提供技术性支持,其标准化技术内容涵盖协调现有和新生数据标准化领域的参考模型和框架;负责数据域定义、数据类型和数据结构以及相关的语义等标准;负责用于持久存储、并发访问、并发更新和交换数据的语言、服务和协议等标准;负责用于构造、组织和注册元数据及共享和互操作相关的其他信息资源 (电子商务等)的方法、语言服务和协议等标准。ISO/IEC JTC1/SC32现有的标准制定和研究工作成果为大数据的发展提供了良好基础。
ISO/IEC JTC1/SC32于2012年成立了下一代分析技术与大数据研究组。该组织重点研究对象包括元数据、大数据存储和检索、大数据所支持的复杂数据类型等。
2013年ISO/IEC JTC1/SC32全体会议及工作组会议形成了正式的研究报告,并提交至ISO/IEC JTC1审议。该报告提供了关于大数据研究的抽象概念模型,并给出了大数据现有的标准基础,包括元数据、数据存储和检索以及大数据所支持的复杂数据类型三个领域。报告还对大数据标准化的工作方向做出了说明:一是加强元数据标准的研究;二是加强数据存储标准的研究;三是加强支持复杂、半结构化和非结构化等的数据类型标准的研究;四是深入研究ISO/IEC JTC1/SC32 相关标准,做好协调工作。通过以上四个方向的探索实践,形成有效的标准化成果,用以支持下一代分析技术与大数据研究组相关项目的开展和工具应用。
2014年6月ISO/IEC JTC1/SC32在北京全会上,批准了SQL 对多维数组的支持、SQL对JSON 的支持、数据集注册元模型和数据源注册元模型4项为大数据提供标准化支持的新工作项。其中SQL对JSON 的支持由我国专家担任编辑。
ISO/IEC JTC1/SC32在2014年举办了主题为“大数据标准化”的开放论坛,为国内外大数据领域的专家学者和产业管理部门人员、IT 界的骨干企业提供了一个开放交流的平台。来自于国内外大数据研究、应用及服务提供领域的专家学者做了相关主题报告,展现了当前大数据技术与标准的发展和应用前景。
ISO/IEC JTC1/SC2正在进行大数据标准研究调研,并于2013年11月成立了大数据标准化研究组,2014年提交了大数据相关技术与标准调研报告以及JTC1在大数据标准研发中的需求。
ISO/IEC JTC1 (第1联合技术委员会)于2013年11月新成立了负责大数据国际标准化的大数据研究组 (ISO/IEC JTC1 SG2)。NIST 专家Wo Chang担任召集人。
2014年ISO/IEC JTC1 SG2的工作重点包括:调研ISO、IEC、ISO/IEC JTC1等在大数据领域的关键技术、参考模型以及用例等标准基础;确定大数据领域应用需要的术语与定义;评估分析当前大数据标准的具体需求,提出ISO/IEC JTC1大数据标准优先顺序;向ISO/IEC JTC1 提交大数据建议的技术报告和其他研究成果。ISO/IEC JTC1 SG2的成立,标志着ISO/IEC JTC 1开始统筹开展大数据的标准化工作,有利于大数据国际、国内标准化工作的开展。
2.ITU
ITU 在2013年11月发布了题目为 《大数据:今天巨大,明天平常》的技术观察报告,这个技术观察报告分析了大数据相关的应用实例,指出大数据的基本特征和促进大数据发展的技术,在报告的最后部分分析了大数据面临的挑战和国际电信联盟电信标准分局 (ITU-T)可能开展的标准化工作。在这份报告中,特别提及了NIST和ISO/IEC JTC1/SC32正在开展的工作。
从ITU-T 的角度来看,大数据发展面临的最大挑战包括数据保护、隐私和网络安全;法律和法规的完善。根据ITU-T 现有的工作基础,开展标准化的工作包括高吞吐量、低延迟、安全、灵活和规模化的网络基础设施;数据集匿名化;网络数据分析;垂直行业平台的互操作;多媒体分析;开放数据标准。ITU-T 正在开展的工作中,与大数据最密切相关的是提出了一项题为“基于大数据的云计算的需求和能力”的新工作项目,以来自中国、韩国和波兰的专家为主进行研发。
3.NIST
NIST 建立的大数据公共工作组 (NIST big data public working group,NBDPWG)的工作内容是建立由产业界、学术界和政府组成的公共环境,形成达成共识的定义、术语、安全参考体系结构和技术路线图,提出数据分析技术应满足的互操作、可移植性、可用性和扩展性需求,提出安全有效地支持大数据应用的技术基础设施,用于大数据相关方选择最佳方案。
NBD-PWG 是一个开放工作组,欢迎来自于产业界、学术界和政府的各方面力量参与并贡献力量。原则上,工作组每周召开一次会议。工作组下设术语和定义、用例和需求、安全和隐私、参考体系结构和技术路线图5个分组,形成了 《大数据定义》《大数据术语》《大数据需求》《大数据安全和隐私需求》《大数据参考体系结构》和 《大数据技术路线图》等文件。
4.全国信息技术标准化技术委员会
全国信息技术标准化技术委员会 (简称“全国信标委”)持续开展数据标准化工作,在元数据、数据库、数据建模、数据交换与管理等领域推动相关标准的研制与应用,为提升跨行业领域数据管理能力提供标准化支持。
2014年12月2日,全国信标委大数据标准工作组正式成立,统筹开展我国大数据标准化工作,大数据标准工作组组长由梅宏院士担任。工作组包括北京大学、国家信息中心以及众多高科技企业等近150家申请单位,共同形成了“大数据标准体系表”。工作组下设了7个专题组,分别开展专项领域的标准化研究制定工作。
全国信标委中与大数据关系比较密切的组织有信标委非结构化数据管理标准工作组、信标委云计算工作组、信标委面向服务的体系机构 (service oriented architecture,SOA)分技术委员会、信标委传感器网络工作组等。此外大数据安全部分的标准也与全国信标委密切相关。
2.2.1.2 大数据技术标准新挑战
在大数据时代,数据从简单的处理对象开始转变为企业的重要资产。大数据技术成功落地将为数字化转型提供重要推力。但是,大数据的规模效应给数据采集、数据整合、数据分析、数据应用带来了极大的挑战。
未来数字化清洁能源要求贯通研发设计、生产制造、工程建设、运行维护等多个阶段,实现信息的全面采集、流畅传输和高效处理,支撑管理信息化与工业自动化的深度融合。大数据平台的首要功能是实现海量多源异构数据的整合,以作为企业级大数据的共享与处理中心。针对海量多源异构数据,如何构建一个公共信息模型来对其进行规范表达,并基于该模型来实现数据整合是亟须解决的问题。
从产生大数据的系统分类来看,大数据的采集主要有三种来源,分别是管理信息系统、生产运行系统、外部数据 (包括Web 信息系统和科学实验系统)。
(1)管理信息系统是指公司内部的信息系统,如工程生产管理系统 (power prcduction management system,PMS)、企业资源计划 (enterprise resource planning,ERP)、调度管理 (operation management system,OMS)等,主要用于企业的生产、经营和管理。数据的产生既有终端用户的原始输入,也有系统的二次加工处理。管理信息系统在组织结构上是专用的,数据通常是结构化的。
(2)生产运行系统是指支持电力安全稳定运行的各种信息系统,如中央监控系统、状态监测系统、视频监测系统。系统在组织结构上是封闭的,数据由各种嵌入式传感设备产生,可以是关于物理、化学、生物等性质和状态的基本测量值,也可以是关于行为和状态的音频、视频等多媒体数据。
(3)外部数据包括与公司经营发展相关的各种外部信息,包括宏观经济环境、宏观政策、自然环境、气象,也包括互联网上的相关信息,如政府网站、社交网站、社会媒体、搜索引擎等,主要用于构造虚拟的信息空间。外部数据的组织结构是开放式的,大部分数据是半结构化或无结构的。数据的产生者主要是政府、研究机构和在线用户。
传统信息化领域主要处理的是结构化数据,在大数据时代则呈现出多样的数据类型:①结构化数据,包括工单数据、设备信息、项目信息等;②半结构化/非结构化数据,包括现场图片、设计文档等;③实时数据,包括风电机组电流、电压、功率数据等。
多源异构数据的统一管理能力非常重要,数据实时性高、增长快,数据规模向大容量 (petabyte,PB)级发展,结构多样,关系复杂的数据需要深度融合等,传统数据管理技术已无法应对新需求。
大数据分散在各个业务系统中,如产品生命周期管理 (product lifecycle management,PLM)、ERP、风电机组中控系统等。由于业务单元管理及系统技术差异等原因,各业务系统信息模型与编码存在一定程度的差异。即便是描述同一台风电机组,不同应用系统所使用的信息模型也存在差异。采用的功能集合、建模粒度、对象分类方式、命名习惯等任何一个方面的不同,都是造成信息模型差异的原因。
大数据平台得到这些数据后,面临着如何整理这些数据碎片,形成企业级统一数据资产的问题,这是一项困难的工作。目前,企业公共信息模型缺乏,无法为大数据平台数据采集与整合提供指导。
大数据平台的数据内容应与源系统保持同步。如果采用全量数据抽取清洗(extract transformation loading,ETL)的方式从源系统抽取数据至大数据平台,那么在性能方面会对源系统和大数据平台产生一定冲击。如果采用增量ETL 的方式,则需要对源系统提出一些改造要求,比如源系统通过时间戳和标志位表示数据变更信息。
各业务单元根据需要建立相应的分析型应用,如PTC_Relax用于风机可靠性分析,全球监控中心用于风机监测预警、风功率预测等。这些专项分析应用较为分散与独立,数据交互成网状结构,投资重复,缺乏对全业务分析的支持,缺乏对数据应用分析、开发和使用的统一管理规范,从企业层面来说,这些分散的应用难以进行管理,同时缺乏数据整合与分析的重用,造成重复的劳动与资金投入。
数据量大不一定就代表信息量或者数据价值大,相反很多时候意味着信息垃圾的泛滥。高质量数据对于数据分析结果的正确性有重要影响,比如风机维修工单直接影响风机可靠性评价结果。
目前,尚未形成数据质量管理的完整策略,也没有制订数据质量管理的完整规章制度,有关数据质量管理的一些制度仅仅零散地体现在系统管理手册中。
公司内部没有一个明确的组织负责全公司的数据质量管理,部门内也没有明确的数据质量管理岗位,缺乏明晰的数据质量管理监督流程以解决数据质量问题,数据质量问题无法通过统一的渠道及时反映给相关部门。
公司没有完整的可普遍使用的数据质量检查与管理工具,数据质量管理报告机制不健全,对于数据质量问题没有一个标准的管理平台进行汇总、报告。
大数据时代的数据安全与传统数据安全相比,变得更加复杂。一方面,海量数据汇集,包括大量的风机研发数据、运营数据、客户信息的细节记录,这些数据的集中存储增加了数据泄露风险,而这些数据一旦被滥用将会对企业造成冲击;另一方面,大数据对数据完整性、可用性和秘密性带来挑战,在防止数据丢失、被盗取和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。
大数据共享问题的本质是数据加密性和数据有效性之间的矛盾。从企业层面来看,应尽可能提高数据的共享度,以保证数据发挥其最大价值;而从保护商业机密的角度考虑,有必要对数据进行相关操作以降低获取数据的敏感性,从而造成两者之间的矛盾,两者之间如何进行最佳取舍确实非常困难。
为成功地利用大数据挖掘模型,需要从开发阶段到生产环境对模型进行全面跟踪管理与评估。大数据挖掘模型生命周期过程如图2-1所示。
图2-1 大数据挖掘模型生命周期过程