1.5.3管理制度的建立与实施
1.管理制度的组成
完善的管理制度是运行管理的保障。数据中心的基本规章制度包括3个方面:管理规范、技术规范、操作指南(或作业指导书)。
(1)管理规范。是从规范管理人员及用户行为出发的各种制度、规定、办法与奖惩措施。
(2)技术规范。是规范运维人员在运行维护过程中各种行为的规定、规范与工作流程。例如《应用服务管理规定》《机房管理规定》《信息系统运行管理规程》《数据备份策略》。
(3)操作指南(或作业指导书)。指导运行管理人员及用户管理使用各种网络与信息系统的操作指南与用户手册,如从《网站简易维护指南》《信息门户使用指南》《OA系统安装使用手册》《生产MIS作业指导书》《服务器安装手册》等可以看出,在企业(机构)信息化发展到一定阶段,数据中心的建设重点应该要从系统实施转向以应用运维提升为主,运维质量保障、安全机制变得重要起来,这时除了技术的保障以外,制度保障显得越发重要。
2.管理制度的建立
作为数据中心的主管人员,应首先是一位管理专家,其次才是技术专家。由此,建立完善的运维制度是最主要的工作内容,是企业(机构)信息化有效执行和监督的立足点。数据中心本身管理不好,就不可能为业务部门提供满意的信息服务,业务部门对信息部门的满意度就会低,满意度低又会影响IT投资及新项目的开展,使信息部门陷入困境。所以,建立高效规范的运维机制是数据中心主管走向战略管理的第一步。对于数据中心来说,可从以下几个方面着手,使运行管理制度化。
(1)转变运维观念,树立规范化意识。只有树立制度化的IT运维意识,才能在日常繁杂琐碎的工作中有效地区分任务的优先级,将有限的资源投入到最能满足“用户”需要的工作中,减少与用户直接接触的成本开支。
天下大事必做细。那么,如何保证运维工作的“无微不至”呢?方法是把运维工作和制度化紧紧地捆绑到一起。没有规矩,不成方圆。运维工作很琐碎,关键在于规范而不是创新。只有各类运维人员一丝不苟、老老实实按规范做,才能够把事情做好。
同时,建立IT运维制度非常重要,但是,有了制度还要有人去执行,要强化执行制度比建立制度更重要的观念和意识。因此,对于数据中心来说,尽管由于人力、财力非常有限,难以系统建设ITIL流程,但是制度化的ITIL运维思想的引入仍然是必要的。
(2)建立事件处理流程,强化规范执行力度。流程是最重要的,因为流程是IT管理的基础,在IT管理的过程中,针对同一问题的具体实施步骤可能不同,但流程是不会改变的。
首先,需要建立故障和事件处理流程,利用运维管理系统或表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾,从中辨识和发现问题的线索和根源,提取经典“案例”形成知识库。建立每种事件的规范化处理指南,减少运维操作的随意性,在最大程度上降低故障发生的概率。其次,采用基于工作流技术实现的流程管理,它具有以下优点:
①每个员工的工作在流程中有明确定义,方便进行工作量化管理。
②管理者可以监控所有工作流程的执行状态,实现闭环管理和精确管理。
③增强业务各环节的协作能力,使业务运作更加顺畅。
④及时发现业务瓶颈,以便改善业务流程。
(3)设立ITIL服务台,引入优先处理原则。设立服务台以确定服务要求和IT运维目标,ITIL指南要求企业(机构)定义服务台的关键流程,不仅仅定义流程是什么,还包括它们是如何运作的,并指出每个流程对企业(机构)有什么影响和意义。贯彻了ITIL中的IT服务台及服务级别协议思想,例行的事就有人处理了;有了服务级别协议,制定了事件处理优先级次序,就可把事件再细分为例行事件和例外事件。
(4)最后要引入运维服务评价管理。数据中心建立完善运维绩效评价标准,给各类人员负责管理的系统或者客户服务建立一个能够量化的运维目标,这样不仅能够务实地提高服务质量和管理水平,也能够在目标达成后作为团队工作改进的成绩得到肯定,提高IT人员的工作成就感。
为促成运维目标的实现,作为系统管理人员要定期检查系统运行情况,发现问题及时处理,而数据中心的负责人除了要负责监督系统运行外,还要对本部门各类人员的工作进行检查和监督,积极做好各类人员的管理工作。只有这样,才能保证数据中心为各层管理服务,充分发挥数据中心的作用。
3.管理制度
各类数据中心业务各异,职能不同,其运行管理制度也不尽相同。下面以某院校数据中心的机房管理规定、运行管理规定和数据中心用户管理制度为例,详细阐述为了加强运行管理,对数据中心各类人员和机房环境、基础设施、安全管理、运行报告等各个环节都做出哪些相关要求,以供相关数据中心用户参考。
(1)机房管理规定。
①数据中心机房主要是为信息系统设备提供运行环境的场所,可以是一幢建筑物或者建筑物的一部分,包括主机房、辅助区、支持区和行政管理区等。
②主机房主要是进行电子信息处理、存储、交换和传输设备的安装和运行的建筑空间,包括服务器机房、网络机房、存储机房等功能区域。
③辅助区是进行电子信息设备和软件的安装、调试、维护、运行监控和管理的场所,包括进线间、测试机房、监控中心、备件库、打印室、维修室等。
④支持区是支持并保障完成信息处理过程和必要的技术作业的场所,包括变配电室、柴油发电机房、不间断电源系统室、电池室、空调机房、动力站房、消防设施用房、消防和安防控制室等。
⑤行政管理区是进行日常行政管理及客户对托管设备进行管理的场所,包括工作人员办公室、门厅、值班室、盥洗室、更衣间和用户工作室等。
机房是数据中心重要的信息化基础设施,设立机房的目的,一是为数据中心中的IT关键设备运营管理和数据信息安全,提供7 d×24 h的保障环境;二是防止各种非法人员进入,保护IT关键设备运营管理和数据信息安全。
为了保障信息机房内各种设备、信息系统的安全、可靠运行,要根据企业的特点,建立、健全机房管理规定,在规定中要明确机房管理人员职责,将责任落实到人。对人员进出管理、设备管理、卫生管理、机房环境管理等方面提出相关要求,并制定机房管理细则,加强日常巡检,完备机房运行日志,凡进出机房的人员必须遵守机房管理规定。
(2)运行管理规定。
在数据中心运行管理中,制度建设是一道必要的保障。信息化不能一蹴而就,不会一化就灵,信息化不是万能的,还要靠制度去保障、规范使用者的操作行为。换句话说,只有用严格的制度去约束人的行为,才能杜绝随意性。
系统的运行是长期的,而不是突击性的,而且大多数情况下都处于正常工作状态,所以随着时间的推移,运行管理常常被忽视。例如,无票操作、不按规程操作、小问题不在乎等。其实,管理本身就不是突击性的,要使每一个操作系统的人养成遵守管理制度的习惯。对运行中的异常情况要做好记录、及时报告,以便得到及时处理,否则可能酿成大问题,甚至出现灾难性故障。
系统中的数据是院校极其宝贵的资源,任何情况下不得以非正常方式修改系统中的数据。例如,未经许可擅自用工具软件直接修改数据是绝对禁止的。
数据备份是保证系统安全的一个重要措施,它能够保证在系统发生故障后能恢复到最近发生的时间点上。对数据的重要修改前也应有相应的备份功能,以便保证系统数据的绝对安全。为了保障数据中心各种设备、信息系统的安全、可靠运行,保证数据信息安全,规范运行维护管理工作,提高运行管理水平,要根据企业的实际情况,制订数据中心的运行管理规定。在规定中要明确运行管理人员的职责,将责任落实到人,并对值班和巡检管理、工作票与作业管理、设备管理、事件与缺陷管理、安全管理、人员进出管理、机房环境管理、运行报告管理等方面提出相关要求。现仍以某院校数据中心运行管理规定为例,介绍运行管理规定的主要内容,以供读者参考。
值班管理:
①在法定工作日的工作时间内,应安排值班人员在监控中心进行现场值班,其余时间应安排非现场值班,并确保在出现问题时值班人员能在1 h内赶至现场。
②值班人员应佩戴胸卡,不得擅离岗位,忠于职守,并按规定填写值班日志。
③信息机房应设置专用值班电话,并向用户通告电话号码,且应报上级单位备案。
④值班电话应保证工作时间内有人接听,并做好相关记录。不得人为切断和私人占用值班电话。如果不能马上解决用户问题,应及时安排相关专业工程师协助解决。
⑤值班人员每日对机房监控系统进行例行检查,记录信息机房运行环境的物理参数,确保监控系统的正常运行,保证物理环境的安全稳定。
⑥交班时要对设备巡检、故障处理及各种变动情况进行交代,做到手续清楚,责任明确,前后衔接,防止错交、漏交。因错交、漏交发生的问题由交班人负责,对交班内容检查不清楚发生的问题由接班人负责。
⑦交接班时,如设备或系统发生事故或正在进行调试,暂缓进行的交接工作,接班人员应密切配合协同处理,待故障恢复或工作告一段落后再进行交接工作。
日常巡检:
①每日巡检,应包含如下内容:
·服务器。包括指示灯、系统日志、报警等。
·网络设备。包括网络接口状态、网络流量、系统日志、各类报警等。
·安全设备。包括网络接口状态、系统日志、各类报警等。
·应用系统。包括应用系统运行是否正常、系统服务性能是否满足要求。
·备份系统。包括数据备份运行是否正常、是否有可用备份磁带等。
·机房环境。包括机房市电输入配电情况、UPS电压、UPS电流、UPS负载率、温度、湿度、卫生、照明、门禁以及其他报警情况。
②每月定检,应包含如下内容:
·服务器。包括CPU、内存、磁盘空间使用率、安全授权等。
·网络设备。包括网络流量分析、网络时延与抖动等安全设备,还包括安全授权、磁盘空间使用率等。
·防雷设备。包括设备运行状态等。
·机房环境。包括消防设施运行状态、应急照明状况、空调运行状态等。
③每半年定检,应包含如下内容:
·UPS放电检查。
·检查电源电压、信号线连接是否可靠。
④每年定检包含但不限于如下内容:
·测量信息机房内接地电阻有无变化。
·检查风扇运行情况,包括风力大小、防尘、注油。
·空调室外机检查。
·用系统诊断程序对设备进行功能检查。
工作票管理:
①对涉及以下内容的操作行为,必须填写工作票,说明需要操作的设备名称、工作目的、工作时间、影响范围,同时提出操作步骤、采取的安全措施等。
·故障排除。
·缺陷消除。
·新系统安装、调试。
·系统升级及配置变更。
·系统投运与停运。
·其他可能对系统运行造成影响的操作。
②工作票由相应工作负责人提出申请,并由符合规定的工作票签发人签发后生效。工作票签发人不得兼任该项工作的负责人。
③工作票审核应从整体上考虑操作的必要性、可行性、安全性,检查安全措施是否适当,防止操作影响系统安全运行。
④如操作将会或可能会对用户造成影响,应提前通知用户。
⑤进行系统重大变更操作,如结构调整、核心设备变更或大面积用户停止服务,应报信息部门负责人审批,并提前两天发出系统停运通告。
⑥外单位人员施工应由信息部门批准并安排监护人员,经运维人员进行信息机房工作安全技术交底,方可施工。
⑦应指定人员对工作票进行定期检查,并向信息部门汇报工作票执行情况。
⑧工作票应归档长期保存,以备查验,并定期进行统计。
作业管理:
①操作实施过程应严格按照工作步骤执行,应有监护人对操作进行监护、监督,并逐条落实工作票上的安全措施。
②操作过程应开启日志记录,并进行归档。
③要控制在机房工作的人数,在机房内禁止做与工作无关的事情。
④施工人员用电必须申请,经批准后,按照规定使用电源,不得乱拉电源线、插座。
⑤严禁日常作业使用信息机房内UPS电源供电。
⑥设备使用完毕后应注销或锁定系统,以避免不当使用。
⑦工作完成后,应立即进行测试检查,确认是否达到作业目的,合格后清理工作现场。
设备管理:
①设备标签。
·信息机房内设备均应贴上标签,注明设备名称、设备编码、责任人、投运时间等,对多用途设备应额外标注用途。
·标签应选用不易损坏的材料,必须打印,不允许手写。
②设备台账。
·在信息机房内所有设备,都必须登记入册,包括设备的型号、采购日期、配置等。
·设备登记列账应由专人负责,定期盘查,做到设备台账与实物相符、条理清楚。
③设备调入和运出。
·设备进入信息机房前,必须由设备管理员向运维负责人提出申请,经审批同意后,由运维负责人安排设备位置及安装时间,并在规定的时间内,将设备放置指定位置。
·设备如需运出,由设备管理员向运维负责人申请,经运维负责人同意后,方可运出。
④设备日常维护。
·建立设备专管责任制,精心维护、精心操作,确保设备安全可靠运行。
·认真监控设备运行情况,发现异常应及时向设备管理员和信息部门负责人报告,并做好现场状态信息的记录。
·接到设备停运通知应填写工作票,根据设备停运安排和注意事项,进行数据备份、设备停运并挂上设备停运标志,还要登记设备停运时间。
·停运设备重新投运需经信息部门负责人批准方可执行,并登记复运时间。设备发生故障,启动相应的故障处理应急预案,在得到信息部门负责人通知后方可进行故障处理工作。
·对设备硬件进行维修作业时,维修操作必须严格按照维修手册或说明中的操作规程进行,严禁带电作业,不得在通电情况下进行设备的更换、拆卸、焊接(热插拔设备除外)。
·更换部件或设备工作变更时,全程工作必须至少有2人参加,工作完成后及时做好维修记录。
·对不能处理的故障或无把握处理的故障,报相关领导后再处理。
UPS管理:
①做好UPS测试预案,定期做好UPS系统的测试和电源的切换。
②严格按照后备电池的运行方式和寿命,做好后备电池的定期充(放)电和更换。
③UPS市电供应出现故障时,若在后备电池容量范围内仍不能恢复市电,系统运行人员须通知有关人员对运行系统的数据进行保存,尽量降低辅助系统、显示器等非核心设备的耗电,以最大限度地保证核心系统的运行。
④UPS本身发生故障时,应采用市电直接供电以保证系统的正常运行。
⑤利用UPS的监控管理功能和故障报警功能,保证在UPS故障情况下发出警告并及时对设备进行相关操作。
事件与缺陷管理:
①事件(故障)管理。
·发生故障后,值班人员应立即报告信息部门负责人,同时,信息部门组织人员对故障进行处理,并记录处理过程。故障处理过程要在保障安全性的基础上恢复系统的可用性,必要时,应启动应急预案。
·信息部门应对故障影响的范围和严重程度做出判断,所有故障须通报相关领导;对不能立即排除的故障,应通知相关用户并向相关领导进行汇报。
·信息部门应制定系统关键点故障处理的应急预案,并通过演练完善应急预案。
②缺陷管理。
·运维人员发现缺陷后应及时报告运维负责人,对缺陷进行定性并记入缺陷记录。
·危急缺陷或严重缺陷由运维人员15 min内报告信息部门负责人,并通知设备管理员和系统管理员。运维人员应立即分析缺陷原因,提出解决办法。30 min内无法解决的缺陷,应及时联系相关设备厂商协助解决。
·一般缺陷由运维人员及时处理或添加至缺陷处理计划中,并填写运行日志。在缺陷没有得到处理以前,应加强监视或采取必要措施,防止进一步恶化。已经记录的缺陷,如在监视过程中有进一步恶化的趋势,应及时上报。
·缺陷消缺后,由运维负责人对缺陷进行消缺检查。
·缺陷消除后,运维人员需填写缺陷处理报告并及时注销记录。·定期对未消除的缺陷进行清理,并对处理完的缺陷汇总、归档。
安全管理:
①人员进出管理。
·来访人员必须经信息部门批准后方可进入,期间必须由相关人员全程陪同并及时做好登记工作,同时记录来访者进入和离开机房的时间。
·所有来访者要予以监督,只允许来访者访问特定的、已授权的设备,并介绍区域安全要求和应急程序说明。
·第三方支持服务人员,只有在需要时才能访问受限安全区域或敏感信息处理设施,所有操作必须进行记录。
·携带计算机、磁盘、摄像机、照相机等进出机房,必须经信息部门同意,并由机房管理人员进行核查登记。
·禁止携带强磁物品、放射性物品、武器、易燃物、易爆物或具有腐蚀性等危险物品进入信息机房,与工作无关的物品(包括个人手提包等)不得带入信息机房。
·机房门禁卡必须统一管理和发放,使用人员必须妥善保管,不得擅自借给他人使用。
·值班人员离开机房时,必须随手关门。
·加强设备和用电安全管理,未经批准不得随意搬移、拆毁和插接各种用电设备。
·信息机房内的安全监控资料应妥善保管,保存期至少为3个月;查阅、更新、销毁该资料须经信息部门批准。
②设备安全管理。
·重要设备应坚持“双人开机、双人关机”原则,开机前认真检查电源、空调设备是否正常运行。
·硬件设备的技术支持原则上不使用远程技术支持,确需进行远程技术支持的报经信息部门同意后,方可进行。
·设备维修特别是需离场维修或承包给公司外部人员维护、维修时,应核实该设备中是否存储有涉及公司秘密、不宜公开的内部资料和账号、密码等,如有应采取拆卸硬盘、有效删除有关资料等有效措施,防止泄密。
·设备的硬件维护操作时必须戴防静电手套。
·对怀疑有故障的设备不允许在机房内测试,避免出现电路短路现象。
机房环境管理:
①机房安全出入口应有明显标志和企业VI标志。
②机房须保持干净整洁、布线整齐、排列有序。
③应定期对机房地板进行吸尘打扫,保证地板干净、干燥。
资料管理:
①资料应由专人负责管理,并负责资料安全、严防机密资料外泄。
②应做好资料的收集、整理、登记、造册、保管、鉴定、利用等工作,设备技术资料应齐全、正确、统一、清晰。
③在进行项目建设时,由项目经理或指定专人负责收集和整理整个工程过程中产生的文档,进行分类,标注必要的说明,在工程验收后1周内将全部项目文档资料提交文档管理人员归档。
④信息机房内的设备配置、网络拓扑等资料,未经批准不得任意抄录、复制。
⑤根据资料的重要程度与保密要求,将重要资料复印并备份电子资料。
⑥信息机房内的各种图纸、资料、文件、工具、仪表在使用后应归还原处,未经允许不得擅自带离信息机房。
⑦设备调动时,原随机的技术资料应随机转移,使用过程中建立的资料,可择其重要性予以复制,并列出清单,随机转移。
⑧设备维护报告、定期测试记录、故障分析报告和其他原始记录等,均应集中存放、专人保管,经信息部门同意后方可进行销毁或删除。
存储介质管理:
①所有存储介质未经同意一律不准外借,不准流出公司。
②备份介质需定期(每半年)进行检查,一旦发现介质损坏,应立即更换。
③磁盘、磁带等介质使用有效期为3年,3年后须更换新介质进行备份。
运行报告管理:
①应定期对设备及应用系统运行情况进行统计分析,对设备及应用系统的缺陷及故障进行登记,并做好运行维修记录,每月、每年提供运行报告报送信息部门。
②运行月报应包含设备及应用系统运行情况、存在的主要问题和处理措施,下月主要工作计划等内容。
③对统计数据应进行认真分析,积极查找问题原因,提出合理分析和建议。
④定期召开运行质量分析会,针对运行过程中发现的薄弱环节提出改进措施,并落实责任人。质量分析会议要有记录,下次会议要检查措施执行情况及质量改善情况。
4.数据中心用户管理制度
数据中心作为主机托管的提供者,应尽力保障数据中心环境中的网络设备和服务器能够稳定、可靠地运行,从而达到高水平的管理,向客户提供高质量的服务。作为数据中心的用户,有责任和义务来了解数据中心的管理制度,并遵守数据中心的有关规范,从而确保数据中心的正常运作,也为保障用户系统的安全运行创造了良好的环境和基础。
安全保密制度:
(1)遵守国家有关法律、法规,严格执行中华人民共和国计算机信息网络安全保密规定。
(2)不得泄露有关数据中心的机密信息、数据以及文件等。
(3)不得泄露服务器客户资料,如账号、密码等信息,严禁盗用其他客户的账号和IP地址。
(4)未经授权,任何人都不得进入数据中心非公开区域,不得接触和使用数据中心或其他客户的设备,不得干扰和妨碍数据中心或其他客户的正常工作。
(5)未经许可,任何人不得随意变换机房内网络及服务器等设备的安装环境,不得擅自更改网络及服务器等设备的各项参数。
(6)严禁随意挪用、变换和破坏机房内的公共设施。
(7)配合数据中心管理人员和保安人员进行必要的安全检查。如有违反安全保密制度的情况,将视其情节轻重,根据数据中心管理规定,对当事人进行必要的处理。如果该行为构成犯罪的,将交由公安检察部门依法追究其刑事责任。
用户出入机房制度:
(1)进出机房的管理制度。
(2)严禁携带照相机、摄像机及强磁物进入机房。机房内严禁吸烟,不得乱扔废弃物。
(3)请穿鞋套进入机房,出门时,请将使用过的鞋套扔到指定的地方。
(4)禁止客户在机架以外的地方放置机器设备,禁止私接电源。
(5)对违反本管理规定造成的后果和损失,该公司不承担任何责任。
(6)用户在服务器上架前,应提前24 h和业务人员确认是否已经将《数据中心托管开工单》下到IDC机房,以便机房管理人员进行相关准备工作。
(7)用户服务器进入机房前应去除包装箱等纸质材料,并由机房管理人员根据工单进行验收并确认,无关设备一律不得进入机房。
(8)原则上一台服务器只允许分配一个IP地址、一个网络端口。如有特殊情况,以合同规定为准。
(9)用户撤机应向管理部门提供设备清单,管理部门收到撤机清单后,依据设备清单检查用户设备(包括设备型号、数量),开具“出门条”,用户方可搬出机房。
(10)用户需搬出设备检修或更换设备时,应将印有身份证复印件及盖有公司公章的搬机申请文件交管理部门。申请文件内容要求有单位名称、设备型号、数量、搬机日期、搬设备人员的姓名及身份证号码。管理人员检查用户设备与内容一致,开具《出门条》,用户设备方可搬出机房。