医学大数据的采集

一、医学大数据的采集

(一)医学大数据的类型

根据国家相关的数据安全法规,医学大数据是国家基础战略性资源。通过对医学大数据的全面采集、有效处理、高效利用,医院可以有效改善患者的就医体验,提升诊疗水平,把握运营策略,通过数据支撑医院高质量发展。医疗机构的数据可以大致分为两种类型:①患者在诊疗过程中产生的数据,比如门急诊记录、住院记录、随访记录等数据;②医疗机构的运营数据,比如患者的治疗费用、医疗保险相关数据信息等。

(二)数据采集面临的问题

1. 数据复杂性问题

由于医疗行业的业务特点,医学大数据具有体量巨大、数据繁杂、敏感信息少、时效性高的特征。同时,多元化的数据来源使医学大数据中大量充斥着非结构化和半结构化的复杂数据。对这些复杂数据的实时采集,是医疗机构可以实现实时统计分析的需求基础,也是实现从数据中获取有效资源的必要条件。因此,如何实现医学大数据的高效采集、挖掘出有用的信息,以满足对复杂类型数据的高效采集需求,是医学大数据应用所需要解决的问题。

2. 数据质量参差不齐 

数据采集质量是数据处理与数据应用的基石,医院信息化建设程度越高,对数据的精细化程度要求越高。大量的医疗业务数据为医院提供了运营与科研价值,同时也带来数量级不容忽视的“无效数据”,此类数据普遍存在数据价值低、可利用性弱的特点。因此,医疗卫生行业需要具有先进的大数据采集技术,来解决采集过程中数据复杂性问题,实现低耦合、可复用的医疗数据抽取,完成高效率数据采集,并通过精益的数据处理机制,完成有效的数据治理,最终实现数据的有效应用。

(三)关键采集技术

1. 数据模板化采集技术

通过数据采集模板的业务约束实现数据的规范化采集,提升数据采集的规范化程度,同时也一定程度提升了数据采集效率。

2. 模糊匹配技术

模糊匹配技术是实现数据转换处理的关键性技术,模糊匹配将自动学习策略融合到数据标准编码映射处理过程中去,实现数据标准化处理的自动化。

3. 规范化缓存技术

规范化缓存技术可实现对医疗业务数据的规范化处理,提升数据质量,使数据符合业务归档要求。规范化缓存技术所依赖的业务模板模型的设立是基于医疗业务的标准规范来创建的,该规范包含医疗行业国家标准、医院业务规范,以及数据编码规范和数据存储格式规范。