2.三大平台
三大平台的构成如下图(图1-21-4)。

图1-21-4 临床科研信息一体化系统构成示意图
(1)医疗业务平台 面向临床医疗业务,遵循临床医疗的习惯和流程,以临床医疗术语的规范化、标准化为基础,以结构化的电子病历为核心,在临床医疗过程中,实时、准确、便捷地记录各种医疗信息,方便快捷地书写病历,并将医疗活动产生的信息自动转化为可供计算机识别分析的临床数据,自动分类存放。不同病历模块之间,相同的内容之间可以相互映射对应。并带有自动查询检索、统计分析功能,并集成了各类标准规范术语应用体系,可方便快捷地进行查询及输入。确保采集信息的规范性、一致性、完整性。
医疗业务平台由门诊及住院医师工作站、住院护士工作站、护士管理系统、辅助诊疗系统、中药管理系统、慢病管理系统、结局评价系统及随访系统等构成。以患者为核心,通过中医结构化电子病历综合集成,完成对患者基本信息、就诊信息、中医电子病历信息、中医临床诊断信息、中医用药信息、中医治法处方信息、中医护理信息、实验室检查信息、其他检查信息、西医治疗信息、知情同意信息、病历首页信息、院外随访信息、科研辅助信息等的采集。以满足医疗业务及其管理的要求,提高业务工作的效率和管理水平,同时为临床科研提供真实可靠的临床诊疗数据,使利用临床业务所形成的信息开展临床研究成为现实。
(2)数据管理平台 该平台是临床海量诊疗数据的管理与共享平台。实现对以患者为核心,快捷、安全、方便地将不同临床业务部门、管理部门,以及院内外所产生的相关临床数据,安全、不失真地转移、存储到数据管理中心;并通过数据预处理系统,对数据进行规范化、批量地处理、转移和装载到数据仓库;同时通过权限的管理与共享机制等,对数据共享使用,进行管理。
数据管理平台,以数据仓库为核心,在中医临床数据模型设计的基础上,选用适宜的大型数据库管理软件,具备配套的数据集成与预处理软件,建立满足数据集成汇总、数据预处理及支持分析挖掘的数据仓库平台。
1)数据存储模型:根据中医临床数据仓库应用和研究的目标——以中医临床研究为主,提取实例数据中的中医信息主题要素,并提炼形成面向临床研究的中医临床信息模型。
① 参考信息模型设计:中医临床诊疗过程是医师对患者症、病、证动态把握和治疗的过程,在中医理论知识的基础上,通过对症的理解和判定形成对患者疾病状态的认识和处方治疗效果的评价。其中处方治疗过程包含着医生的临床经验,是一种行为性的事件,时间信息和处方结果(如汤药、成药、针灸处方等)是治疗的主要信息内容;而医师对患者病证的判定是一种主观的疾病状态认识,相比较而言,临床诊疗过程中的症状类信息则是一种具备主观认识和描述的客观现象,是患者疾病状态的实在表现。医师、患者和药物等是中医临床诊疗信息中的物理性实体;而阴阳、虚实、寒热、表里、证候、疾病、药性、功效、归经等则是中医临床诊疗信息中的概念性实体。
在对中医临床信息要素框架认识的基础上,结合实际的临床诊疗数据内容和特点,根据中医临床研究的普遍信息粒度和层次,构建中医临床参考信息模型。该模型需要注重中医临床数据以事件为核心的基本特点,对诊疗事件的分析是中医临床分析的主要内容。事件是一种旨在被采用对变化的有用或相关模式进行分类的方法。在中医临床信息模型中,事件包含了医疗实体参与下,在一定时空发生的行为或动作的信息内容。通过详细分析中医临床病历的信息构成及科研分析目标,设计构建了以事件(event)和实体(entity)为核心类别的中医临床参考信息模型。在此基础上,设计数据仓库的操作数据存储(operational data store,ODS)数据模型、细节数据模型、多维数据模型等多层次数据模式,以支持数据集成、数据整理和数据分析等多阶段的数据管理任务。为提高数据查询效率,可应用物理视图及分区表等技术保障数据管理性能。数据仓库的数据模型设计包括逻辑模型(图1-21-5)、中间层数据模型和物理模型3个层次的设计任务。数据逻辑设计的框架基本确定了后续联机分析处理(OLAP)的方向和数据挖掘的主要目标。但具体明确的应用和挖掘目标在后续的应用研究和开发中仍可不断修改完善。逻辑模型设计以实体和关系为特征(一般以ER图表示),确定数据仓库的主题及主题关系范畴,需要整合多角度的用户数据视图。
②ODS数据模型设计:鉴于临床数据的来源业务系统多种多样,且在进行具体分析之前需要整合全面的数据类型和数据内容,因此,构建ODS数据模型,并进行相应来源数据的拷贝式存储,以提高数据集成效率和保证数据质量。考虑中医临床研究的目标,ODS数据模型的设计需要涵盖患者基本信息、临床表现信息、临床诊断信息、治疗信息和疗效评价等相关信息内容。数据的表结构尽量与来源业务系统数据表结构保持一致性。但鉴于多源数据集成的需要,增加额外的元数据信息非常必要。但ODS数据模型设计相对是简单的,可以对现有的业务数据源进行详细分析,提炼共性数据结构,进行物理数据表的设计。
③ 细节数据模型设计:中医临床数据仓库以患者、临床所见、诊断、治疗等为主要主题域,以患者的就诊行为及过程为主要活动内容。因此,细节物理数据存储以侧重中医临床研究涉及的诊疗活动为纽带,以患者为信息核心,形成简洁能够衔接ODS数据模型和数据存储的数据存储环节。该模型结构的核心表需要以患者住院或就诊信息表为基础,该表的主键病例就诊编号唯一标识了一次完整的诊疗行为及活动,并把患者的一次就诊行为界定为如门诊,住院(具备完整的住院病历的诊疗过程),以及医师可能的随访行为。一次诊疗行为中核心对象是患者,以及与其相关的检查、诊断、用药和其他治疗活动。门诊行为只关心诊断和治疗行为结果如处方、针灸或者其他的治疗方案,对于患者在家具体服药的时间、次数及其他的可能依从性行为则尽可能进行有效的跟踪和记录;而住院病历则囊括了以上的相关治疗信息(图1-21-6)。

图1-21-5 数据仓库逻辑模型简图
病例数据的一个主要特点是以患者为对象,以各离散时间段的诊疗活动为组成的纵向数据集,其主要信息表包括患者就诊信息表、临床诊断信息表、临床病历基本信息表、临床复方信息表、临床中药信息表、临床西药信息表、理化检查信息和病程跟踪信息等主要物理表。这些物理表及其关系涵盖了所有中医临床诊疗过程中的数据。如患者就诊信息表包含患者就诊编号、就诊次数、医院编号、住院号/门诊号、就诊时间等确定了一次有关联的诊疗行为,其相应的患者则有相应的患者编号;若就诊次数大于1,则表明某一患者多次在同一医院住院或者多次在同一医院门诊。
除了患者住院信息表、患者基本信息表和医院信息表之外,患者一次门诊过程中涉及的物理表有诊断表、临床病历信息表、临床复方和中药表、临床西药表等,根据门诊诊疗的不同内容,可能部分病例还涉及到量表和随访表等物理表,因此,细节数据模型及其物理表需要囊括所有的科研分析数据内容,为从不同维度进行主题分析和多维数据模型构建作准备。
④ 多维数据模型设计:多维数据模型是多维分析和在线分析应用服务的数据源,以事实表和维表表达的关系多维数据模型是物理视图或视图的数据基础。数据模型包含ROLAP(基于关系数据库的OLAP实现,Relational OLAP)和 MOLAP(基于多维数据组织的 OLAP实现,Multidimensional OLAP)等两种基本模式,ROLAP采用关系表模式进行多维数据的存储和管理,而MOLAP则采用数据立方体(Data Cube)的形式进行数据建模和管理。这里以ROLAP的雪花型数据模型设计为例进行相关技术介绍。例如,临床复方药物多维模型旨在为从多个角度和维度分析临床处方用药规律提供高效、逻辑明确的模型基础。包含一个事实表——临床复方事实表和多个分层的维表如治法、药物、诊断、临床表现、患者和医师等,多层的维表结构体现了雪花型多维模型的特点,其结构相对复杂。基于以上事实表和维表设计结构,能够支持多维度的临床复方药物主题分析应用。可以从不同的维度如医师、患者、诊断、临床表现和时间等分析临床复方药物的使用情况,可以治疗某病证的处方用药经验或规律。临床复方多维事实表的内容原则上应该直接包含药物组成和结构化的治法信息,但鉴于数据存储容量和效率的考虑,我们在该多维模型中把中药组成和治法组成从事实表中拆分出来,以维表的方式存储。

图1-21-6 细节数据仓库模型(部分)
2)数据管理:在数据存储模型设计的基础上,对中医临床科研数据的管理采用大型数据库管理系统如Oracle、DB2等进行数据的物理存储和数据管理。相对业务系统的数据库管理操作,数据仓库的数据管理需要支持查询密集型和分析密集型应用,因此,采用具有强大数据仓库功能的数据库管理系统版本如Oracle 9i、Oracle 10 g、Oracle 11 g等进行数据仓库的部署是必要的软件基础条件。数据存储环境构建后还需要研发或部署相应的数据集成和数据处理工具,以完成从业务数据源到数据仓库数据的集成和管理。数据管理是实现大规模数据积累、高质量数据形成的主体任务,涉及繁杂的处理流程和处理任务,需要结合数据库管理和临床专业知识进行有效的数据内容管理,是实现高质量数据挖掘分析的关键。结合临床科研分析需求,后文介绍主要的数据管理任务和环节。
① 数据集成处理:进行源自业务系统的数据源集成是数据仓库存储管理需要解决的首要任务。由于来源数据的格式和内容多种多样,一个鲁棒的数据集成方案还要解决各种可能存在的数据不一致性问题,从而实现不间断的数据批量集成处理。数据集成处理包括两大主流技术:数据仓库和联邦数据库。数据仓库实现物理上的数据集成,而联邦数据库通过查询翻译实现逻辑上的数据集成。针对临床业务系统的安全性和业务相应需求,中医临床数据集成宜采用基于数据仓库的集成技术。在ODS数据模型和细节物理数据模型的基础上,结合合适的ETL组件,可以进行数据集成处理。
②复杂数据查询:复杂数据查询是数据分析的普遍需求。临床数据集成导入到数据仓库之后,针对各种数据分析和数据筛选的需求,需要进行联机数据查询处理。在大型关系数据库管理系统中,都支持复杂的SQL查询语句。同时,其支持数据仓库的版本则具备如物理视图(Materialize View)和分区表的创建,这些相关技术主要功能就是支持大数据集的高效存储和查询。另外,数据库前端处理软件如PL/SQL Developer,Golden,Toad等可以辅助进行数据仓库的日常数据管理和数据处理任务。
③ 数据预处理:数据预处理主要是指中医临床数据的规范整理、语义一致性处理及面向特定目标的分析用数据集的清理、筛选和转化等,是临床数据分析利用必不可少的重要步骤。
数据的规范整理主要包括数据信息内容的修正和语义一致性处理。信息内容的修正主要涉及病历为主的数据中存在的部分错误信息如错误的性别,年龄和异常的理化指标等,该部分处理不同于后续的数据预处理,根据对应的临床病历信息,可以对数据进行修正和补充,在此不做详述。语义一致性处理主要包括术语性数据的规范整理。由于临床术语使用和自然语言表述的多样性,中医临床数据的术语性数据规范整理是非常关键的环节。对术语数据的规范整理总体上从同义词规范、相关概念信息扩展和术语的上位归纳等三方面进行处理。同义词规范主要处理临床病例数据中的不规范数据如气滞、气滞证,都统一为气滞证,以及概念性的同义术语如关节痛、关节疼痛,需要统一为关节疼痛;相关概念信息扩展则对涉及的概念信息通过字典表进行必要扩展,如中药名称,需要通过增加包含中药规范名称、中药归经、性味、功效、药物分类等信息的中药字典表进行信息扩展,从而实现从归经、性味、功效和药物分类等维度对中药的使用情况进行分析的数据基础。数据整理是中医临床数据用于科研分析的必要环节,不能忽视和省略。在数据仓库平台基础上,可以利用数据库前端软件进行少量的数据规范整理,但规范化的数据整理需要借助成套的工具软件进行,如可以扩展ETL软件的功能进行数据规范整理。
数据规范整理形成的结果是在信息内容上已经规范和合理的临床科研数据,在进行数据分析之前还需要对面向特定目标的分析用数据集进行清理、筛选和转化,以能支持数据分析操作的高效进行。
数据预处理是数据挖掘准备的重要工作,笔者项目组研发了专门的数据预处理工具ETL软件来协助完成数据整理工作。此工具需人机结合,由专业人员建立整理规则,由计算机按照规则统一进行转换,最后形成相对规范的用于分析挖掘的数据。以规范化术语为基础,基于ETL软件实现对来自门诊住院病历的症状体征、理化检查、诊断名称、处方、治法、药物等数据的自动批量规范化整理,为进行临床数据的分析利用奠定基础。
(3)临床研究平台 此平台以数据仓库为核心,由联机多维检索分析平台(OLAP)、数据统计分析平台与数据挖掘平台(DM)等组成,能对海量临床数据进行整理与展示、统计与分析,对隐性知识进行挖掘,对各种数据之间的内在关联进行逻辑分析。智能化程度较高,特别适合中医临床研究。
1)中医临床多维检索与展示平台:数据仓库中建立了包括患者全部诊疗信息的关系数据库。在中医理论指导下,建立以患者为中心的“病-症-证-治-效”语义关系,利用OLAP技术,创建面向不同研究主题的分析查询工具,从而实现快速发现中医临床知识与经验的方法。
该平台的特点是,同一查询工具,可以通过选择不同的参数,从而形成不同的查询结果,扩展了查询功能,根据中医科研常用的功能需要,集成了数百种查询工具,可基本满足临床科研中对证候特点、病证关系、药证关系、方证关系、药症关系、药效关系等方面的研究
该系统在规范数据的基础上,实现海量中医临床诊疗数据的探索性分析和数据实时展示。同时可在互联网环境中对分析结果进行导出,实现了“病-症-治-方-药”等多种临床关系知识的探索性分析,便于发现中医临床中的显性关系(图1-21-7)。

图1-21-7 “中医临床多维、分析和展示系统”界面及结果
如通过检索分析系统,分析肝脾不调证不同兼证情况下的用药规律,可直观地显示结果,使中医临床经验得到很好的可视化表达(图1-21-8)。
2)中医临床复杂网络分析系统:复杂网络是当前科学界研究的热点方法,无尺度网络(Scale Free Network)是一种具有节点度幂律分布现象的复杂网络。基于古方及当代临床复方数据的分析表明,中医药理论指导下的复方配伍过程具有无尺度复杂网络现象,表明中医临床处方中医师具有优选配伍的选择偏好。这对中医药理论如复方配伍、药物相互作用及药性理论等的研究提供了实证基础。利用复杂网络方法可分析药物的配伍特点及相互配伍的强度。通过选择不同的参数,也可用于分析证候、症状相兼规律、证药关系等。

图1-21-8 不同证候常用中药检索分析
目前已实现对临床数据进行直接筛选、建模、分析和交互的复杂网络分析系统,支持中医临床药-症-证-疾病等的组合和对应知识分析研究。主要用于分析中医在某种情况下的用药特点,如核心处方、药物配伍、药证关系、症状分布特征等。结合中医临床数据进行药物、症状、诊断等网络的构建;平台实现了从幂律特性、相配系数、聚类系数和社团属性等角度分析中医临床经验中药-症-证-疾病等的组合和对应知识(图1-21-9)。
以下是从肝脾不调证的1287个处方中分析获得核心药物配伍和主要加减规律(图1-21-10)。

图1-21-9 中医临床复杂网络分析系统

图1-21-10 名老中医治疗肝脾不调证核心方及加减法
经过多年研究实践,目前已逐步形成了三类7种数据挖掘分析算法与模型:一是中药有效处方与配伍规律发现的复杂网络方法;二是证治规律分析的主题模型;三是辨证论治动态方案优选的马尔可夫决策过程模型。以上方法分别实现有效处方发现及其适应证的分析,疾病证候亚群及其对应治疗方案的分析和针对慢性疾病的优化序贯治疗方案分析等。