医学大数据相关概念
(一)大数据的定义及特征
大数据是指数据量规模大到超出常规数据管理工具的处理能力,无法在合理的时间内进行捕捉、管理和处理的数据集合,具有大容量(vo l ume )、多类型(variety)、高速度(velocity)、高精度(veracity)、高价值(value)的“5V”特性。
(二)医学大数据的定义
医学大数据广义上来说是医疗数据与健康数据的集合,本书仅探讨医疗数据。医疗数据是医疗机构所产生的各类海量数据,主要源于电子病历、医嘱、影像、检验等临床诊疗行为。
(三)医学大数据术语
1. 数据类型
在大数据时代,数据来源和数据类型异常丰富。数据类型一般包括结构化数据、半结构化数据和非结构化数据。
2. 数据仓库
数据仓库通常被定义为一个集成的、面向主题的、反映历史变化的、不易改变的数据集合,便于进行比较和分析,用于支撑管理者的决策过程,仅支持结构化数据。
3. 数据湖
数据湖是一个以原始格式存储数据的存储库,能够存储任意规模和类型(结构化数据、半结构数据和非结构化数据)的各种数据。数据湖不对原始数据进行任何处理,可以满足对原始数据的价值挖掘需求,但数据不分类,不易查找。
4. 数据仓库技术
数据仓库技术是一种数据采集技术,用于将数据从源端经过抽取、清洗转换后加载到目的端(数据仓库),其目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为决策提供分析依据,ETL 是商业智能(Busines s Intelligence,BI)项目的一个重要环节。
5. 商业智能
商业智能(BI)是一种对数据仓库中的数据进行挖掘分析和数据展示的工具。
6. 企业服务总线
企业服务总线(Enterprise Service Bus,ESB)是一种实现系统间集成和互联互通的服务集成技术,也称为消息和服务集成中间件。
7. 数据治理
数据治理是对数据进行处置、格式化和规范化的过程,包含数据清洗、数据标准化和结构化处理、元数据处理、数据质控、数据脱敏与加密处理等。
8. 数据标准
数据标准是数据的命名、定义、结构和取值的规则。
9. 元数据
元数据是关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。
10. 主数据
主数据是组织中需要跨系统、跨部门进行共享的核心业务实体数据。