文本信息提取技术
触发器技术只能处理编码格式、数字格式等结构化数据,而包含患者信息最丰富的却是像病历这样的自然语言文本信息。这些信息是医生对病情的主观表述,通常以电子文档的形式保存在就诊记录、住院记录、病程记录、会诊记录、护理记录中,是医生思维过程的直接反映,也是患者信息最为集中的地方,特别是一些易被忽略的重要信息。对这种文本信息的识别和利用是ADR自动监测系统另外一个重要的研究方向。由于叙述性文本的信息量巨大,很多研究者尝试使计算机读懂那些内容从而判断是否出现ADR。叙述性文本信息的识别和利用主要有两种方法,即关键词法和自然语言处理机。
(一)关键词法
关键词法使用类似网页搜索引擎和MEDLINE的技术,很适合发掘那些很少被提及但却包含重要信息的词语(如过敏、腹泻等),如果这些词语和原患疾病没有必然的联系,则往往提示可能出现了ADR。这种方法的研究重点集中在识别词语的前缀、后缀,改进字典匹配能力,建立合理的主题词表,关联同义词或概念等方面。Murff等使用关键词法对424份出院患者病历进行扫描,有251份病历(59%)含有可疑关键词,这些关键词共出现730次,但仅有327次(44.8%)对暴露ADR具有指导意义。在一项对门诊患者的研究中,Cantor等收集了2003-2004年的约11万份医疗记录,人工统计分析后归纳后出多个关键词,并将关键词与简单的语法规则相结合,以此来探测可能发生的ADR。该方法暴露ADR的敏感度为31%、特异度为98%、阳性预测值为45%。关键词法的最大缺陷是探测ADR的假阳性率高,在文本信息中否定词或模棱两可的词语对其性能产生了很大影响,比如将“青霉素过敏”作为关键词,但在病历中却经常出现“(患者)否认青霉素过敏史”这样含义截然相反的词句。另外,计算机软件虽然能检索到设定的关键词(如腹泻),但却很难判断病历中出现的这个关键词是当时还是以前发生的情况,这也影响到对可能ADR的因果关系判断。
(二)自然语言处理机(natural language processing,NLP)
识别叙述性文本信息的另一种方法是自然语言处理机,其原理是通过计算机对叙述性文本的每句话进行加工处理,转变为计算机可以理解的语句。事实上这属于人工智能范畴,而人工智能在语言提取领域的应用仍是瓶颈,当前仅有英语的自然语言处理机获得了较好发展(中文尚未有类似突破)。应用自然语言处理机探测ADR比使用关键词法有更好的表现,这种方法应用了很多技术(图形匹配、句词语法、概率计算等)来使计算机尽可能读懂人类的语言。有两个独立的研究团队都证明了自然语言处理机可以像人类编码专家一样准确地将X线检查报告编码。目前,医学领域较为成功的自然语言处理机是MedLEE。MedLEE是一个具有语法、词汇识别能力,能够从文本中提取信息的智能化工具。它最初开发是为了用于放射科,由于表现出色,之后被逐步扩展并应用到了其他医学领域。MedLEE能够识别“否定”“不确定”“时间性”“同义词”“缩写”等自然语言现象。例如下面这个句子“The patient may have a history of MI”,MedLEE会将其处理并编码如下,problem:myocardial infarction certainty:moderate status:past history,这样计算机就可以在一定程度上“理解“原句的含义了。Melton团队开发了一款使用MedLEE的ADR探测系统,敏感度为28%、特异度98%、阳性预测值为47%。但总体而言计算机对叙述性文本信息识别能力依然很有限,相关技术需要进一步提高。
目前,对ADR自动监测的研究大多集中于触发器技术方向,也有将触发器技术和与文本信息提取技术结合使用的报道。
(三)ADR自动监测的应用前景
虽然ADR自动监测技术尚有很多不足,但在很多方面已经显示出良好的应用前景,尤其是触发器技术,已经被认为是当前最先进的ADR监测技术。与传统监测方式相比,ADR自动监测技术的优势主要体现在以下6个方面。
第一,有助于获得更准确的ADR发生率。由于自发呈报的ADR漏报率高,导致对ADR发生率的预测差别很大。而自动监测系统发现ADR的数量是自发呈报的4~10倍,使得对ADR发生率的预测更加准确。
第二,极大地节省了大规模监测的人力和时间。虽然自动监测系统只能给出可能是ADR的信号,仍需要人工进一步审核,但相对于人工病例回顾查阅大量未经筛选的病历,自动监测系统因事先排除了大量无关病例而大大节省了人力和时间。同时,由于经自动监测系统筛选后的病例仅是原先的一小部分,评价人员的关注焦点将更为集中。对暴露罕见ADR而言,自动监测系统的这种优势更加明显。
第三,可以实现ADR的实时监控和处置。通过病例回顾、队列研究、患者随访等传统方式暴露的ADR都是已经发生的既往病例,对ADR的处置没有实际帮助。而自动监测系统可以连续、实时地使用,能及时暴露出正在发生的ADR,起到实时监控和处置的效果。
第四,可在一定程度上预防ADR的发生。采取触发器技术可以连续地跟踪相关指标的变化,通过调整触发条件就有可能提前暴露ADR。如患者血清肌酐水平正在逐步上升,但仍处于正常值范围内,此时自动监测系统会结合既往数据来判断指标的发展趋势,提前给出信号以避免肾功能损伤的实际发生。
第五,能准确地测算ADR的发生率。自发呈报方式由于不知道用药患者的数量而无法计算ADR的发生率。自动监测系统则将全部用药患者纳入监测范围,能够准确地测算某种药物的ADR发生率,甚至是该药某种特定ADR的发生率。
第六,可用于评估和改进医疗机构的医疗水平。DUNK大学曾在不同医院运用相同的ADR自动监测系统,发现社区医院的ADR/ADE发生率高于大学医院,特别是患者使用抗生素期间出现C形梭状芽胞杆菌肠炎的发生率很高。研究者将这一信息转达给社区医院的感染部门,医院随即采取了积极的措施,C形梭状芽胞杆菌肠炎的发生率显著减少。
ADR自动监测技术尽管目前还存在诸多不足,但仍然代表着今后ADR监测技术的发展方向。目前,美国、加拿大、德国、澳大利亚等国都已经在该领域开展了积极的研究,尤其是美国,哈佛大学、犹他州立大学、哥伦比亚大学、杜克大学等都独立开展了相关研究,其中哈佛大学附属布莱根女子医院在触发器技术方面的研究已经相当深入。国内对ADR自动监测技术的研究才刚刚起步,多数医院还缺乏完善的HIS来建立这种先进的监测方法,已经完成信息化改造的医院也因为使用不同的HIS产品而导致ADR自动监测系统无法广泛适用。对于我国这样一个高药品安全性风险的人口大国来说,借鉴国外先进经验,积极研究和开发ADR自动监测系统,对提高药物警戒水平、保障患者用药安全有着急迫的需求和重要的意义。
(刘皈阳)