7.3 HPC集群机房巡检的要求

7.3 HPC集群机房巡检的要求

HPC集群机房巡检是机房管理的重要组成部分。机房巡检人员在系统巡检计划的指导下完成巡检作业。巡检对象主要是针对机房中比较重要、比较关键的设备。目的是及时查找、发现信息系统设备隐患,排除故障。机房巡检的设备不同、使用环境不同、季节不同,巡检的周期和频次也有所不同,如表7-2所示。

巡检时需带巡检内容的常备工具,做到眼见、耳听、鼻闻、手摸、工具检查,加强对巡检设备关键内容的巡检力度,防患于未然。

机房巡检必须要有记录,巡检记录直接关联到巡检的效果。管理人员利用巡检能够掌握机房运行情况,能更好地对数据进行客观的统计、研究,为领导做出迅速、准确的判断和决策提供科学依据。巡检记录的覆盖面要全面,操作性要强。

巡检记录应在巡检期间填写,以记录时间为准,不得事后补填或超前记录。巡检记录及时填写电子版以供做周汇报时附加;纸介质的巡检记录表必须妥善归档保存。

表7-2 HPC集群机房各系统设备巡检周期和频次

img