医院信息系统常见故障及其处理方法

五、医院信息系统常见故障及其处理方法

医院信息系统的应用和发展,为用户构造分布式的网络环境提供了基础。它是一个集计算机硬件设备、网络通信设备、软件应用系统及数据处理存储等为一体的,能够实现网络资源共享的综合服务平台。完整的信息系统是由系统硬件和应用软件两大部分组成的,并根据不同的应用需要,可能有着不同的软硬件配置。其中系统硬件是由服务器、存储、工作站、网络通信设备和传输介质组成的,而应用软件包括操作系统、网络应用服务系统等。

(一)信息系统网络参考模型

常见的信息系统网络的体系结构可将其划分为七层,即开发式系统互联通信参考模型(OSI参考模型)。它是国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合制定的开放系统互连参考模型,为开放式互连信息系统提供了一种功能结构的框架。它从低到高分别是物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。OSI参考模型是网络体系结构发展的产物。它的基本内容是开放系统通信功能的分层结构,每一层的功能是独立的。它利用下一层提供的服务为上一层提供服务,而与其他层的具体实现无关。两个开放系统中的同等层之间的通信规则和约定称之为协议。一般把1~4层协议称为下层协议,5~7层协议称为上层协议。

(1)物理层:主要是为通信提供一个物理连接的链路,保证可以通过其传输数据。

(2)数据链路层:在物理层提供的服务基础上,建立实体间的通信数据链路连接,传输数据帧。

(3)网络层:控制传送系统的操作,对数据分组进行路由选择、拥塞控制并负责控制传输过程中的数据流量。

(4)传输层:选择网络层提供最合适的服务,并在系统之间建立可靠的、透明的报文传送。

(5)会话层:在进程之间建立、维护和结束会话连接的功能并对提供的交互会话进行管理控制。

(6)表示层:对数据进行协商表示;完成数据转换等功能。

(7)应用层:提供OSI用户服务,如文件传输服务等。

(二)物理层常见故障及其处理方法

物理层的故障通常发生在传输介质上,可表现为网络连接断开,无论是PC端还是网络交换设备均为未连接状态。可以通过网络万用表以类的专用测试工具检测线缆每一条线芯的连通情况、线序、信号衰减等信息,问题发生后,可以通过更换传输介质的方法来解决。

(三)网络层常见故障及其处理方法

网络层发生的故障主要表现在访问控制和流量控制。可通过ping命令来监测通信节点间连接是否正常,通过tracert命令来监测网络中传输的各个节点。以此来判断是否是访问控制,限制了网络应用。确定问题节点后,可以调整访问策略和控制流量来解决。下面举例说明常见故障处理方法:

(1)网络基本情况。网络核心层为思科6500系列双核心,汇聚层为思科3500系列,接入层为2900系列。VLAN配置在核心上,双核心互相学习,使用VTP协议采用服务器模式;汇聚和接入层交换设备使用VTP协议的客户端模式学习核心的VLAN配置,个别设备使用透明模式自主配置VLAN。

(2)故障现象与处理。某一时刻,相继接到同一应用系统用户程序无法使用的报告,客户端远程登录失败,初步判断是网络故障,经查波及范围为该系统31VLAN内所有端口。交换机表现为凡划分到31VLAN的端口均同频闪烁。锁定故障为31VLAN内存在广播风暴,阻塞网络通信。采用部分剥离的方式将配置有31VLAN的交换机从汇聚层开始逐一从网络上断开,观察31VLAN是否恢复正常工作,以此判断故障发生在某台交换设备上。确定到单台设备后,继续采用这种办法断开电口,判断故障端口,锁定故障发生地。阻断其通信,全网恢复正常。

(3)故障分析。交换机双端口环路,使本VLAN产生广播风暴,导致本业务网段瘫痪。交换机这类二层设备由于自身的生成树协议,会自动将成环的链路中断,以避免产生环路,影响网络(即单台设备双端口互联,会依据生成树协议关闭其中一个端口,中断环路);但两个相同的二层设备互联在没有三层路由的支持下互联,也会产生环路而且无法依据生成树协议将其中一个端口中断,从而导致互联端口所涉及的VLAN出现广播风暴。

(四)服务器常见故障及其处理方法

服务器是信息系统的核心设备。服务器分为数据库服务器、应用服务器、管理服务器等。服务器运行状态直接决定了信息系统的运行状态。保证服务器处于完好运行状态,是信息系统运维工作的重要内容。下面举例说明服务器故障处理方法:

(1)系统基本情况。放射科影像设备采集图像后,保存到科室级图像服务器,由放射科技师挑选诊断图像,上传到医院PACS系统,最终由医师在报告工作站从PACS系统下载相应图像并书写报告。

(2)故障现象与处理。不定期出现采集后的图像无法保存到科室级图像服务器,但由放射科技师挑选诊断图像,上传到医院PACS系统并不受影响,且故障持续时间非连续,往往正常使用一段时间后故障复现。通过监测科室级图像服务器与网络间的通信,在故障期间,并未发生中断,且经过更换网络配置,调整物理链路路由等方式问题并未解决,故障依然不定期出现。最终临时用PACS工作站替代科室级图像服务器工作,故障消失。判断故障节点为科室级图像服务器,事后进行了服务器的维修和更换。

(3)故障分析。服务器的异常,往往会直接影响系统的应用服务,导致相应系统服务终止,但不排除仅影响其部分服务。特别是工作时间较长的服务器,由于技术原因或设备老化,出现故障时,其应用界面不一定会显示异常,会给管理人员造成系统正常的假象。当所有问题都排除之后,全流程逐个节点替换的方法对于故障处理还是很有效的。

(五)数据库常见故障及其处理方法

信息系统中数据库是信息载体数据的逻辑存放空间。数据库包括数据结构、数据库管理系统。数据库的运行状态决定了信息系统的运行状态。下面举例说明数据库故障处理方法:

(1)系统基本情况。数据库服务器采用双机热备的方式配置。应用程序采用客户端程序、中间层服务器、数据库服务器的三层架构。

(2)故障现象与处理。某一时刻,窗口工作站客户端程序无法访问程序数据库,程序错误提示数据库连接超时。之后,各工作站客户端程序相继报出同样错误,系统应用中断。经确认,网络连接正常,可以通过远程登录的方式实现,调试设备、窗口工作站与数据库服务器之间互联互通。初步排除网络故障因素。在调试机上测试使用本地中间层,程序仍旧无法使用,现象与窗口工作站错误提示相同。排查数据库服务器,正常登录系统后,数据库的登录异常缓慢,最终确认故障原因为数据库问题。最终排查结果为,有进程大量占用系统资源,而后又有进程间相互循环调用,不能自动释放资源,导致系统资源耗尽,无法响应正常的客户端服务请求。强行解除异常占用资源的进程,消除循环锁定,数据库运转恢复正常,客户端应用恢复。

(3)故障分析。由于系统自身构架的原因或数据库自身缺陷,在进行资源调用时,某些进程占用资源过多而且持续时间较长,此时如果恰巧出现循环调用,就会锁死系统资源,导致数据库对外服务迟缓,甚至中断。因此,生产系统应尽量避免出现此类进程,无法避免的也应控制其出现在系统业务低谷时,避免与循环调用同时出现。此类进程除程序自身编写缺陷,大多与统计分析有关。所以应避免直接对生产数据进行数据挖掘,以构建同数据源的数据仓库进行统计分析。

(六)存储设备常见故障及其处理方法

(1)系统基本情况。有多台高性能服务器构成宿主机配合高性能存储,实现服务器虚拟化。构成虚拟服务器需要存储设备的支持,多台宿主机公用一套存储设备。在本案例中,服务器用做应用服务器,即用虚拟服务器虚拟出若干台应用服务器。

(2)故障现象与处理。某一时刻开始,多处窗口和业务科室的不同业务的应用系统无法使用。经确认,这些工作站的网络通信正常,可通过远程登录手段,确认客户端工作站应用程序无法使用。远程登录相关系统的数据库服务器,也可以正常登录,只是无法访问数据库。汇总无法使用的应用,发现均为虚拟化服务器提供的应用。检查宿主机硬件,并未发现服务器硬件异常。检查虚拟化软件时,发现无法连接到存储,找不到磁盘资源。检查存储硬件,发现是存储控制器异常。报修、更换控制器并调试相关软件后,系统恢复。

(3)故障分析。随着虚拟化技术的成熟与普及,通过虚拟化提供服务的应用比重会越来越大。虽然虚拟化的整体安全性与可靠性优于物理服务器与存储。但一旦出现故障,影响的范围也远大于一般物理服务器与存储。因此,建议尽可能增加宿主机硬件资源,对服务器硬件加强冗余的同时,还应进行存储虚拟化或相应的容灾设计。实现服务器资源与虚拟化资源同时池化,更进一步提升整体系统的安全性与可靠性。

(七)供配电常见故障及其处理方法

(1)系统基本情况。受双绞线长度的布设限制,每个较大的功能区域都会在相应的区域配置弱电小间,存放该区域的接入交换机。为保证网络系统运转稳定,弱电小间还配备必要的灭火、空调、UPS等基础设施。

(2)故障现象与处理。某一时刻开始,某一物理区域所有系统应用中断,经确认为网络中断。远程登录该区域接入交换设备,登录超时。初步判断该故障点为此区域弱电小间。经现场勘查发现为空调冷凝水反流,水流到了UPS上,UPS系统自我保护,导致机房断电,机房内所有设备停止服务。事后,处理完水渍,更换UPS系统,机房恢复供电,网络恢复,该区域系统应用恢复正常。

(3)故障分析。弱电小间的基础建设,往往是信息建设的末端,整体的建设情况不容乐观。在环境监测与加强弱电小间建设标准实现之前,唯有加强巡检,减少隐患。

(八)负载均衡器常见故障及其处理方法

(1)系统基本情况。数据库服务器采用双机热备方式,连接FC SAN(光纤通道存储区域网络)结构的虚拟化存储,负载均衡负责管理多台中间件服务器,为客户端提供服务。

(2)故障现象与处理。某一时刻,该系统新近登录的应用服务客户端程序无法使用,但已登录的客户端程序应用正常。经确认,排除网络故障因素。在调试机上测试使用本地中间层,登录客户端应用服务正常。初步判断故障出现在中间件服务器这一环节。远程登录窗口工作站,固定中间件服务器指向,应用程序正常登录。确定故障点位负载均衡设备。手工调整窗口工作站客户端指向固定的中间件服务器。系统恢复正常应用。事后负载均衡设备维修更换,系统恢复原配置。

(3)故障分析。随着客户端、中间层、数据库三层架构的系统的应用,负载均衡的作用就显得尤为重要,优秀的负载策略可以将有限的中间件资源最大限度地提供给客户端程序。但由于增加了一个环节,必然也会增加一个故障节点。在排除中间件故障时,应优先排除负载均衡故障的嫌疑。

总而言之,随着信息系统越建越多,结构也越来越复杂,故障的表现越来越新奇,排障的难度也越来越大。但是,故障的排查与处理总的原则没有变:第一,一定要了解信息系统的结构与通信环节,毕竟如果连结构都不清楚,排查从何谈起。第二,故障排查要先易后难,先检查容易出现故障的部分或者经常出现故障的部分,这样既可以提高排障效率又可以降低排障难度,为顺利找到故障点提供便利条件。第三,每次故障排查的过程,实际上也是系统重新设计的过程,寻找系统构架上的缺陷,在每次故障分析后,能把相应的经验与教训应用到新的信息系统建设中去。只有避免过去的失误,降低故障的发生概率,才使故障排查与处理更有意义。

【注释】

[1]周炎,谢乍晴.基于医院信息安全等级保护的整改实践[J].信息与电脑(理论版),2020,32(03):192-194.

[2]本节图片均引自:李小华.医院信息化技术与应用[M].北京:人民卫生出版社,2014.

[3]赖毅锋.关于医院信息安全管理工作的探讨[J].网络安全技术与应用,2019(10):124-125.

[4]程顺达,杨青峰.探讨医院信息系统运维中的需求管理[J].计算机产品与流通,2020(02):121.

[5]李小华.医院信息化技术与应用[M].北京:人民卫生出版社,2014.

[6]王玉春.探讨医院信息系统运维中的需求管理[J].中国卫生产业,2019,16(01):166-167.

[7]赵洁.新形势下医院信息安全管理[J].电子技术与软件工程,2019(24):168-169.

[8]王延玲.医院信息系统的维护[J].医疗装备,2019,32(01):57-58.

[9]袁征,李冠伟,柴子原,等.信息化环境下的医院运营状况评估指标体系构建[J].中华医院管理杂志,2019,35(1):41.