服务器和存储设备及相关设备运维工作
(一)服务器、存储设备及相关设备运维的目的
服务器、存储设备及相关设备运维的目的是保证这些信息系统的核心设备能够正常地、稳定地长时间运行。
一般的服务器和存储设备在信息系统硬件子系统设计时,多采用避免单节点的冗余设计,用于提高硬件子系统的运行可靠性。但是,冗余设计只是提高了可靠性,不能保证不出现故障。同时,冗余设计还增加了出现故障的机遇。在这种情况下,通过运维工作提高硬件子系统的可用性是一种弥补硬件可靠性不足的重要手段。
服务器、存储设备及相关设备运维工作的主要工作内容是做好日常硬件设备巡检工作。检查人员定期对医院服务器、存储硬件及相关系统内容完成各系统硬件、软件等状态、运行情况的全面检查,并填写相关检查记录表,以保障医院各业务系统安全、稳定地运行。
(二)服务器、存储设备及相关设备巡检的具体步骤
1.服务器、存储等相关硬件状态巡检
(1)服务器硬件状态。查看设备CPU、内存板、内存、硬盘、主板、外设PCI-E插槽、电源、风扇等各指示灯的颜色:设备正常为绿色或蓝色,一般错误为橙色,重要错误为红色。连接服务器管理端口查看硬件日志、硬件系统状态。
(2)存储设备硬件状态。查看设备控制器、磁盘柜、硬盘、电源、风扇等各指示灯的颜色:设备正常为绿色或蓝色,一般错误为橙色,重要错误为红色。连接存储管理口或存储管理软件查看存储日志、磁盘使用状况等。
(3)存储光纤交换机。查看设备SFP等模块接口、电源、风扇等各指示灯颜色:设备正常为绿色或蓝色,一般错误为橙色,重要错误为红色。连接设备管理口,查看光纤交换机系统端口、ZONE、整体系统等运行情况是否正常。
(4)负载均衡设备。查看设备整机、上联端口、电源、风扇等各指示灯颜色:设备正常为绿色或蓝色,一般错误为橙色,重要错误为红色。连接负载均衡设备管理界面,查看日志、数据吞吐量、负载等整体系统运行状态。
2.服务器操作系统和相关应用状态巡检
服务器操作系统检查主要有Windows操作系统和Linux操作系统。
(1)Windows系统管理。①磁盘空间使用。进入Windows系统的计算机管理中的磁盘管理,检查磁盘空间使用率是否已经到达80%。②进程监控。进入Windows系统的任务管理器——进程,查看进程的CPU使用率和内存最高峰值与一般使用率是否超阈值。③网络查看。进入Windows系统的任务管理器中的联网,检查网卡状态是否正常。④日志检查。进入Windows系统的记录错误报警信息中的应用程序日志,检查日志记录中的异常记录。进入安全性日志,查看有效和无效的登录尝试事件及资源使用相关的事件。进入Windows系统的系统日志,查看Windows系统组件记录的事件。⑤相关应用软件的运行状态。例如,在域控服务器上查看Active DireCtory用户和计算机Active Directory→选相应域名查看Domain Controllers、DNS等应用是否正常。在WebSphere中间件服务,登录中间件管理平台,查看所有应用服务运行状态是否正常。在SQL Server数据库服务,登录数据库管理界面,查看数据库服务和各作业运行状态是否正常。
(2)Linux系统管理。①检查平均负载(uptime)情况。通过执行uptime命令检查系统在一段时间内的平均负载情况。uptime命令过去只显示系统运行多久。现在,可以显示系统运行多久,当前有多少用户登录,在过去的1、5、15分钟里平均负载是多少。②检查磁盘空间使用率(df-h)。通过执行df-h命令可以检查磁盘空间使用率。显示信息中:filesystem为文件系统,size为文件系统容量,used为文件系统已经使用的容量,use%为文件系统使用百分比,mounted on为挂载的目录。③进程监控(ps-ef|grep java)。查看应用程序启动进程数是否正常。④内存监控(free-m)。通过执行free-ni命令可以监控内存运行情况。显示信息中:total——总计物理内存的大小;used——已使用多大;free——可用有多少;shared——多个进程共享的内存总额;buffers/cached——磁盘缓存的大小。⑤检查CPU占用率(top)。通过执行top命令提供一个当前运行系统实时动态的视图,也就是正在运行进程。在默认情况下,CPU使用率最高的任务排在第一行,并每5秒刷新一次。⑥I/O监控(vmstat210)。通过执行vmstat210命令查看I/O运行情况。⑦日志系统类检查。通过系统日志(cat/var/log/messages|grep‘Jul 23’|grep error)类命令记录报警信息。通过硬件启动日志(dmesg|grep error)类命令,记录系统启动错误信息。通过应用系统日志类命令检查服务器各个应用的日志系统。
(三)服务器、存储设备及相关设备巡检记录的填写
在日常巡检过程中,必须做巡检记录。巡检记录内容是硬件各部件运行状态。同时,从ITIL角度看,巡检记录是日常巡检工作是否完成的凭证,也是日常巡检工作质量考核的凭证。日常巡检记录可以手工填写巡检记录或通过ITIL系统填写相关巡检记录。
巡检内容是一般预先确定的,巡检内容分成几类。以数据库服务器为例,硬件指示灯是一类巡检内容,群集运行状态是一类巡检内容,数据库运行状态是一类巡检内容。对于不同巡检内容,要分别进行检查并填写记录单。表中备注用于描述异常情况。对于异常情况的描述有利于异常情况的处理。
(四)设备运维事件管理与故障处理
按照ITIL事件管理。事件管理负责记录、归类和安排专家处理突发事件,并监督整个处理过程直至事故得到解决和终止。事件管理应支持自定义事件级别、事件分类,提供方便的事件通知功能,支持对事件进行灵活的查询统计,并可以详细记录事件处理的全过程,便于跟踪了解事件的整个处理过程。事件管理的目的是在尽可能小地影响客户和用户业务的情况下使IT系统恢复到服务级别协议所定义的服务级别。
在运维过程中,出现某些异常情况时,要对出现的情况进行判断,在判断异常情况为事件时,要按照预定的运维事件处理流程执行。在事件处理过程中有几个节点必须注意,一个是在发现故障时,巡检人员必须立即将发生故障这一事件报送IT主管、管理员、相关人员。在备件返还时,必须报送IT主管和管理员。在维修记录存档环节,维修记录必须报送IT主管和管理员。
在故障处理过程中,应随时进行记录,在故障处理完成时,必须完善维修记录文档;而且,必须把此次故障维修记录存档保存。
(五)虚拟机的运维管理工作
服务器虚拟化技术将物理硬件与操作系统分开,用户访问的是逻辑资源,用虚拟化技术来实现和管理物理资源的访问,从而提高IT资源利用率和灵活性。虚拟化允许具有不同操作系统的多个虚拟机在同一台物理机上独立并行运行。每个虚拟机都有自己的一套虚拟硬件(如内存、CPU、存储、网卡等),可以在这些硬件中加载操作系统和应用程序。无论实际采用了什么物理硬件组件,操作系统都将它们视为一组标准化的硬件。
开始服务器虚拟化之前,IT运维部门需要站在IT运维管理者的角度去考虑问题,需要在资源配置管理、实体机容量规划、虚机和实体机性能监控、虚机的自动维护及IT服务流程等诸多方面进行稳固和调整。
服务器虚拟化实施是一个循序渐进的长期工程,不能一蹴而就。随着时间推移,虚拟机越来越多,虚拟化会出现各种问题,给虚拟化基础环境的稳定运行带来隐患,也给IT运维和动化带来巨大的挑战。主虚拟机运维要做好如下三个工作:
(1)数据中心的虚拟机不受控制地蔓延。每个虚拟机都会占用系统资源,如果没有删除不再使用的虚拟机,它们就会继续占用资源。这将导致系统资源的短缺,因此,需要管理员寻找合适的管理工具和流程管理程序帮助解决虚拟机蔓延问题,理解和掌握虚拟机如何部署、管理和维护,适时地删除僵尸虚拟机,控制虚拟机资源的有效使用。
(2)在虚拟化环境下对服务器进行性能监控管理。虚拟化面临的一个长期挑战是将逻辑负载在与底层硬件隔离的抽象层。几乎无法获知哪台物理服务器正在运行、哪台虚拟机负载,导致无法在虚拟化环境中直接进行优化与故障排查。同时,物理服务器故障会影响该宿主上运行的所有虚拟机,这将提高快速解决问题与主动防范的成本。因此,虚拟化对服务器监控与管理提出了新的要求,需通过持续监控虚拟机负载,发现那些长期占用CPU性能或性能不足需要增加资源的虚拟机,发现未充分使用、可以释放回资源池供其他虚拟机使用的资源。
(3)在虚拟化环境下实现IT运维自动化。当医院的服务器数量跨入几百甚至上千台规模时,脚本化、批量化管理将占据非常大的比例。运维主要精力需要放在监控(采集、报警、展现图表)、部署上线(配置管理)、数据备份方面,因为机器数量庞大,所以集中式的操作平台是必备的。如何选择适合医院环境并具备所需管理功能的工具,是部署虚拟化平台需要确定的一个关键点。