医学大数据的处理

二、医学大数据的处理

伴随着医疗行业的数字化转型,医院集成平台建设在三级综合医院逐步普及,统一数据中心、实现医院数据统一管理成为主要需求和建设方向。数据中心将医疗机构所有业务系统数据进行集中管理,让大数据处理技术优势得以充分发挥,从应用上方便医务人员进行随时检索参阅,以辅助临床诊断和治疗; 同时方便患者随时查看诊疗信息,了解治疗计划和相关服务。

医疗行业大数据来源多样、结构各异、成分不一,医疗数据的处理是一个综合并且复杂的过程。数据处理一般涉及数据采集、数据清洗、数据融合、数据分析、平台构建与运维服务、数据质量控制、数据治理等关键技术环节。

(一)数据采集

医疗行业数据采集是指通过信息化手段和物联网设备,将多来源、多结构化、数量庞大的原始数据进行预处理的一系列操作,是大数据分析与应用的基础,为后续的数据处理提供所需要的数据集。数据采集过程包括采集、传输、整理和数据入库等技术环节。

(二)数据清洗

数据清洗是对数据采集的原始数据进行下一步处理,从数据的准确性、完整性、一致性、唯一性、适时性、有效性等方面对不准确、不完善、不合理或者重复冗余数据进行业务处理,满足数据分析对数据规范和质量的要求。数据清洗通过数据仓库技术抽取、转换、加载ETL引擎进行,也可以通过数据库特性在数据抽取过程中进行。

(三)数据融合

数据融合技术是针对多源异构数据进行检测、抽取、处理、关联、预估和整合等多层次、多角度的数据处理方法,能够对数据的及时性、完整性、精准性、正确性、身份状态等进行评估整合。数据融合根据不同操作级别可以分为:数据级融合、特征级融合、决策级融合等方式。数据融合技术包括统计、信号处理与估计理论等传统的方法以及人工智能等新兴技术。

(四)数据分析

数据分析是对融合生成的数据进行多维度精准分析。其涉及临床诊疗、公共卫生、健康监测、生物组学等数据的挖掘和分析。大数据分析的一般流程主要包括数据采集、数据预处理、专病数据仓库或数据集市构建、数据建模分析、数据可视化、临床医疗应用等。大数据分析技术可以从多源数据中挖掘信息,协助制定临床决策,实现辅助诊断、治疗方案制定、智能监护等一系列基于大数据的精准医疗服务。数据的可视化展示可辅助医疗机构完成运营关键指标的分析展示,使运营决策有据可依。

(五)平台构建与运维服务

为了更好地实现数据一致性管理,医院需要对现有的数据处理技术进行平台化、模块化集成,构建能支撑各类应用的综合功能支撑平台。就目前来看,大数据处理技术尚存在数据采集共享困难、数据处理门槛较高、建模分析技术乱、缺乏有效的运维支撑体系等问题。医院基于大数据处理平台,通过集成数据共享接口、数据交互、分布式数据存储、云计算等技术,可实现医学大数据的数据集成整合、处理以及大数据建模分析与应用。

(六)数据质量控制

数据质量控制是指在数据采集、存储、清洗、分析等数据处理过程中,通过采取相应措施使数据质量得到保证以满足数据分析的要求。在大数据处理过程中,任何环节出现纰漏或错误均可对大数据的分析结果和临床医疗的应用效果造成不同程度的负面影响。对大数据处理过程进行监测,是有效把控数据质量的手段。

(七)数据治理

面向用户的大数据治理技术架构包含五部分功能模块:数据资产管理、数据准备平台、数据服务总线、消息和流数据管理,以及数据监控管理。经过结构化、标准化后的健康医疗数据,根据数据来源、资产关系、利益相关方等属性不同,可划分为基础数据、专病数据和以健康或医疗主题而归集的数据,应对上述数据类型分别进行数据治理,以优化数据治理路径,提高数据治理效率。