状态辨识数据挖掘方法
在大数据背景下,根据收集的宏、中、微三观参数,可以采用一定的算法模型,将个体人健康状态区分为未病态(无证)、欲病态(前证)、已病态(潜证、显证)和病后态,这是一个常规的分类问题。这类问题的解决方法涉及人工智能、数据挖掘、机器学习等领域,但各有偏重。人工智能领域侧重于人类思维特征的总结、知识表达、逻辑推理等;数据挖掘侧重于“从数据中获取有效、新颖、有潜在应用价值和最终可理解模式的非平凡过程”。中医病证状态的辨识领域,越来越多的人开始采用复杂、多元的数据挖掘算法构建中医诊断模型,所用方法涉及模糊数学、粗糙集理论、贝叶斯网络、贝叶斯分类、基因表达编程、决策树、相关分析、判别分析等,而尤以模糊数学、人工神经元网络、贝叶斯网络等方法最为普遍。模糊数学模型善于解决现实世界中存在的各种模糊现象和关系。如解决在中医病证诊断中存在的年龄(年老、年轻)、体质(强、弱)、咳嗽(轻、中、重)、疼痛程度(很疼、比较疼、有点疼、不太疼)、肝肾阴虚诊断(像、很像、不太像)等这类模糊概念的判别问题。该模型的最大缺点就是很难根据中医辨证思维规律设计适合的隶属函数。人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。神经网络是由大量的节点(或称“神经元”,或“单元”)和之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。在学习阶段,通过调整神经网络的权,可以更准确地预测输入样本的类标号来学习。该模型的最大缺点就是网络拓扑和大量模型参数均凭工程人员的经验产生且构建的网络模型很难找到好的领域解释。贝叶斯网络是一个图形模型,能描述属性子集间的依赖关系,是针对不确定性知识表达和推理的方法。通常贝叶斯网络由一个有向无环图和针对图中每一个节点的条件概率表两部分组成。有向无环图中每个节点代表一个随机变量,每条弧代表一个概率依赖。如果一条弧由节点Y到Z,则Y是Z的双亲或直接前驱,而Z是Y的后继。给定其双亲,每个变量条件独立于图中的非后继。该模型将概率推理和网络结构有效地结合起来,能充分利用训练案例中归纳出来的统计知识开展概率推理,而生成的网络结构则能将专家头脑中极其复杂且高度非线性的知识清晰地表达出来。因此,在中医病证诊断领域得到了较为普遍的应用。该模型最大的缺点就是当模型的学习样例数比较少即案例的分布较为片面时,或案例的缺失信息较多时往往无法得到很好的分类判定模型。
总之,数据挖掘分类算法模型仅能获取阶段性的知识发现,这提出了对循环往复的不断提高精度的机器学习算法模型的迫切需求。在新一轮中医健康状态辨识模型算法的研究中,李灿东教授提出了一个融合专家系统、数据挖掘分类算法、机器学习系统模型等的研究框架模型,将为中医健康状态辨识模型算法研究的开展勾画了一幅基本蓝图(图20-3)。该研究框架的最大特点表现:①将健康状态表征参数的搜集范围扩大至宏、中、微观三个层面。②遵循了先辨状态要素,再组合状态名称的中医辨证思维规律。③可尝试性应用各种分类数据挖掘算法构建适合于不同参数类型的分类模型,如根据舌象图片辨识状态要素、根据电子鼻采集的传感信息辨识状态要素、根据声音辨识状态要素等,中医健康状态的总体辨识结果或许应该建立在各种模型综合评判的基础之上。④可根据应用需求的不同训练不同角度的健康状态辨识模型,如对未病、欲病、已病和病后四个状态做出总体判断,或对具体疾病做出诊断,或对寒热虚实状态做出判定等。这一模型的提出,为后续中医健康状态辨识模型算法研究提供了依据。

图20-3 状态辨识数据挖掘方法