机器学习技术
2025年08月10日
(四)机器学习技术
将机器学习技术应用到中医病案数据分析中,提炼出临床经验中蕴藏的信息,从而实现名医经验的总结和传承,是促进中医药信息化的有效途径。中医临床数据中,一个病例有多个症状,同时可能有多个证型,这是典型的高维多标记数据分析问题。若一个样本和多个类标相关联,则称这样的数据为多标记数据。现实世界中多标记学习任务无处不在。例如,文本分类中每个文本可能属于多个主题,风景分类中每张风景图片可能属于多个语义类。在所有的多标记学习框架中,每个实例与一个类标集合相关联,多标记学习的任务就是要为未知实例预测其类标集,且类标集的大小是未知的。多标记学习通常都要涉及高维数据,但由于多标记学习的复杂性,针对多标记学习的降维方法和特征选择方法仍然很少。目前多标记学习技术大体可以分为两类:转化问题方法,改写算法方法。转化问题方法独立于算法,把多标记学习任务转化为一个或多个单标记分类任务,如单标记学习打分、组合类标、集成学习方法等;改写算法方法通过扩展特定的学习算法(如Boosting、SVM、决策树等)来直接处理多标记数据;特征选择旨在去除不相关特征和冗余特征,力求以最少的特征来表达原始信息,并达到最优的预测或分类精度。特征选择能够明显提高分类模型的可理解性,并且建立一个能更好预测未知样本的分类模型,具有重要的现实意义。