理论教育 数据仓库系统灾备规划优化方案

数据仓库系统灾备规划优化方案

时间:2023-06-06 理论教育 版权反馈
【摘要】:任何灾难造成的数据仓库系统停运,都会对一些重要机构产生重大的影响,特别是金融机构。下面详细介绍关于数据仓库的灾难备份架构规划。但是同城灾难备份对大规模灾难的防范能力较弱。利用先进的远程数据备份技术和可靠的网络通信可以实现异地灾难备份。数据系统分析是对各个业务系统的数据存储情况进行分析。识别可能造成系统中断的各种风险。

数据仓库系统灾备规划优化方案

任何灾难造成的数据仓库系统停运,都会对一些重要机构产生重大的影响,特别是金融机构。根据国务院信息办《重要信息系统灾难恢复指南》《信息安全风险评估指南》和中国人民银行银行业信息系统灾难恢复管理规范》,对灾难做如下定义:

灾难是由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切换到备用场地运行。

很多金融机构为了预防灾难,都会对重要的系统建设同城和异地的数据备份中心,对于同城的数据备份中心来说,它可以接管所有核心的业务系统,而异地数据备份中心应该具备恢复所需环境的能力,并且时刻处于运行或者就绪状态。下面详细介绍关于数据仓库的灾难备份(灾难备份)架构规划

1.灾难备份建设的方法论

关于灾难备份建设的方法论,主要分成以下几个阶段:分析阶段、架构设计阶段、技术方案选择阶段、实施阶段、维护阶段,如图9-28所示。

978-7-111-50289-0-Chapter09-34.jpg

图9-28 灾难备份建设的方法论

(1)分析阶段

分析因为中断和灾难对该机构造成的影响,确定系统恢复的优先顺序和相关性,包括恢复的时间目标和恢复点目标,明确关键功能的业务连续性需求等。

(2)架构设计阶段

确定灾难备份业务恢复策略,进行灾难备份架构的设计,以便在规定时间内恢复业务系统。

(3)技术方案选择阶段

在选择方案方面,首先了解IT系统建设现状以及发展趋势,其次是对灾难备份技术进行评估,提出方案建议,最后结合成本收益,选择最佳方案并实施。

(4)实施阶段

制定实施业务连续性的计划,便于在规定时间内完成业务的恢复。包括建立紧急事件处理中心。对于金融行业来说,一般都需要进行“两地三中心”的建设,例如,在第一期完成同城灾难备份中心的建设,第二期完成异地灾难备份中心的建设。

同城灾难备份中心是指生产中心和灾难备份中心在同一个城市或者相近区域内,主要防范火灾、建筑物破坏等灾难风险,保证在生产中心遭到灾难打击后,在极短的时间内可以快速恢复运营。但是同城灾难备份对大规模灾难的防范能力较弱。

异地灾难备份中心是指生产中心和灾难备份中心距离比较远,可能是跨省或者跨区域。利用先进的远程数据备份技术和可靠的网络通信可以实现异地灾难备份。

(5)维护阶段

开展对全部工作人员的灾难备份意识培养和技能培训工作。制定合适的规章制度和策略,以保证各个部门之间的协调响应。

2.需求分析与灾难备份策略

针对灾难备份建设的需求分析与灾难备份策略设计,主要包含以下几个步骤:现状分析、风险分析、业务影响分析和灾难备份策略选择,如图9-29所示。

978-7-111-50289-0-Chapter09-35.jpg

图9-29 需求分析与灾难备份策略

(1)现状分析

现状分析主要包括对应用系统、网络情况和数据系统的分析。

应用系统的分析主要包括服务器部署环境分析、操作系统分析数据库系统分析和应用关联关系分析等内容。其中服务器部署环境分析包括生产中心服务器系统现状分析(小型机服务器系统、PC服务器系统等)、生产中心存储系统现状分析(存储系统情况、生产数据情况)、数据备份情况等。数据系统分析是对各个业务系统的数据存储情况进行分析。

(2)风险分析

风险分析需要对数据中心物理环境、运行状况进行梳理。风险分析的结果可以作为业务连续性规划的工作数据。

从系统可靠性和性能的角度识别服务器、操作系统、数据库、存储和网络的风险。识别可能造成系统中断的各种风险。

根据识别出来的风险,判断是否在用户能够接受的范围之内。对于不能接受的风险,判断是否可以通过技术或者管理手段去防范和控制风险。同时提供降低风险和控制风险的合理建议。

风险分析工作的流程主要包括:前期调研、问卷整理、现场访谈,以及撰写及提交报告,如图9-30所示。

978-7-111-50289-0-Chapter09-36.jpg

图9-30 风险分析工作的流程

1)前期调研。

主要针对业务系统进行调研,了解IT系统的架构、业务运行情况和应用系统运行情况等内容,确定风险评估的应用范围。通过前期调研,了解相关部门的组织架构、人员职责等,为后面的问卷调研做好准备。

2)问卷整理。

通过对用户管理现状的调研,编写调查问卷,可以把调查问卷内容分成以下几个部分:IT系统基础架构,开发和运维管理,基础设施建设,机房管理等。针对相应的管理人员和技术人员进行访谈,整理问卷的访谈结果,识别管理过程中存在的各种问题,制定对各种风险的分类和定义。双方达成一致。

问卷涉及的内容如图9-31所示。

978-7-111-50289-0-Chapter09-37.jpg

图9-31 问卷涉及的内容

●IT系统基础架构

IT系统基础架构是针对IT基础架构管理设计的,问卷主要偏重于主机、数据库、网络和各种存储设备等。该问卷的目的是了解IT系统基础架构和运行维护方面的情况。

●开发和运维管理

问卷主要偏重于软件架构的灵活性、安全性、可用性和可靠性的调研,目的是从架构的角度了解软件开发的部署、运维管理方面的情况。同时问卷也倾向于服务水平、故障处理、故障分类等领域。目的是收集在过去运维过程中发生的各类安全事件等信息。

●基础设施建设

基础设施建设主要是针对基础设施现状和运维能力而设计的,问卷主要偏重于基础设施的建设标准、运行现状、管理水平和运行监控等能力的调研。

●机房管理

机房管理主要针对机房基础设施管理进行调研,包括机房的运行能力,目的是收集机房运行的潜在风险和曾经发生的各类安全事故。

3)现场访谈。现场访谈是在问卷调研的基础上进行的,首先对问卷调研结果进行初步整理,确定访谈的策略,然后总结访谈的结果,得出相关系统脆弱性的列表。可以在IT部门范围内选择技术骨干进行访谈和交流。将调研结果和行业标准、最佳实践进行比较,把握企业管理水平的现状,为降低和控制信息管理风险提供可行的意见。

4)撰写及提交报告。根据前期讨论的结果,结合信息管理风险的评估方法,进行风险识别、等级分析等工作。同时,撰写风险评估报告,正式提交文档。

(3)业务影响分析

业务影响分析(Business Impact Analysis),简称BIA。英国标准协会制定的关于业务连续性管理对其定义为“一种分析机构的业务功能以及一旦业务中断所带来的影响的过程”。业务影响分析是通过调研,分析信息系统事故或者灾难造成业务中断时所产生的影响和业务恢复所依赖的资源,评估各业务功能的灾难恢复需求,为制定灾难恢复策略提供依据。

业务影响分析的流程如图9-32所示。

978-7-111-50289-0-Chapter09-38.jpg

图9-32 业务影响分析的流程

业务影响分析的流程是首先识别组织业务活动、评估中断造成的影响、确定容忍中断时间,然后确定关键业务活动及恢复优先顺序,识别关键活动依赖的IT资源,确定目标恢复时间、恢复的资源,最后形成业务影响分析报告。

具体的业务影响分析实施步骤如图9-33所示,主要包括前期沟通、调研问卷、培训、访谈和撰写报告。

1)前期沟通。主要针对业务影响分析的工作内容和方法进行沟通,根据实际情况,确定业务影响分析的工作范围和实施方式。

2)调研问卷。根据前期IT现状梳理及应用关联分析的结果,对调研问卷进行客户化修订,以方便业务人员能够准确、客观地进行填写。

978-7-111-50289-0-Chapter09-39.jpg

图9-33 业务影响分析实施步骤

3)培训。对业务人员进行业务影响分析问卷填写的培训,使参与实施的业务部门了解实施业务影响分析的意义。

4)访谈。各业务部门对业务影响分析调研问卷进行填写。确认问卷填写内容,了解补充信息。

5)撰写报告。根据调研收集的资料,完成报告初稿。最后整理出业务影响分析报告。

(4)灾难备份策略选择

通过业务影响分析,确定业务之间的关键功能和其中的关键点,决定业务连续性策略和所需成本。利用这一信息,管理层可以制订出合适的灾难备份策略。一般来说,典型的灾难备份中心策略包括:系统容灾的等级和灾难备份中心的运行模式。

关于灾难备份策略的选择,只有在充分调研现状的基础上,制定符合机构现状的策略,实现灾难备份系统建设的真正落地,才能发挥出应有的价值。灾难备份策略选择主要包含六个级别:

●第一个级别

每周至少进行一次数据备份,在灾难应对方面,是经过测试和演练的灾难恢复预案。

●第二个级别

在满足第一个级别的基础上,对备用数据处理系统和网络系统进行定义。

●第三个级别

每天进行一次完整的数据备份,利用网络进行定时的数据备份传输。

●第四个级别

在第三个级别的基础上,配置灾难恢复所需的全部数据处理设备和网络设备,并且处于就绪状态。

●第五个级别

要求数据备份系统达到实时数据传输的能力,灾难备份中心可以提供7×24小时的技术支持能力。

●第六个级别

要求达到对远程数据的实时备份,达到零数据丢失。

3.灾难备份方案设计

为了提高风险管理能力,需要建立符合国际标准的业务连续性保障体系,主要包括需求分析、灾难识别、灾难备份启动、灾难备份恢复和灾难备份切换演练。通过“两地三中心”的规划布局,保障核心数据的安全和业务的连续性。(www.daowen.com)

完成生产中心灾难备份系统的建设,使生产中心具备较强的防灾、抗灾能力,以避免因为意外灾难引起的不良后果,大大减少损失。

下面讲解主要从几个方面进行灾难备份体系的建设,如图9-34所示,包括灾难接管和恢复、应用处理能力、数据备份与数据复制、网络备份系统和“两地三中心”建设总体方案等。

其中“两地三中心”建设总体方案的目的是保证数据仓库系统的抗灾能力,系统可以快速恢复,如图9-35所示。

灾难备份系统建设的流程如图9-36所示,包括规划设计阶段、实施阶段和运营管理阶段。

●规划设计阶段

规划设计阶段主要包括灾难备份需求分析、灾难备份建设规划、技术方案设计等内容。

978-7-111-50289-0-Chapter09-40.jpg

图9-34 生产中心灾难备份系统的建设

978-7-111-50289-0-Chapter09-41.jpg

图9-35 “两地三中心”总体建设方案

978-7-111-50289-0-Chapter09-42.jpg

图9-36 灾难备份系统建设的流程

●实施阶段

实施阶段主要包括灾难备份中心的建设、灾难备份中心运营管理体系的建设、灾难备份系统的验证等内容。

●运营管理阶段

运营管理阶段主要包括异地灾难备份系统日常运营管理、灾难备份系统切换、生产运行管理等内容。

4.灾难备份应急预案与灾难备份演练

(1)灾难备份应急预案

灾难备份应急预案是在数据仓库系统灾难发生之前,建立相应的灾难恢复组织并制定相关人员职责。这样可以确保灾难备份运行规范。

例如,当应用系统故障,存储系统故障,人为错误,网络故障水灾、火灾、地震等灾难(见图9-37)发生时,知道如何进行应急处理。

978-7-111-50289-0-Chapter09-43.jpg

图9-37 不同故障、错误或灾难发生时均有灾难备份应急预案

1)应用系统故障。当应用系统发生故障时,可以采用双机热备的方式进行切换。

2)存储系统故障。当存储系统发生故障时,可暂时采用本地存储替代生产系统。

3)人为错误。可以通过提取本地数据库快照,将数据恢复到灾难时间点前。

4)网络故障。当生产中心的网络发生故障时,通过设备冗余解决该问题。

5)水灾、火灾、地震等灾难。当水灾、火灾、地震等灾难发生时,通过重新部署硬件设施,利用灾难备份中心的业务数据,在短时间内恢复生产。

(2)灾难备份演练

根据数据仓库系统灾难备份技术方案,对灾难备份演练涉及的部门、人员,系统范围,演练步骤,进度安排,防范措施等内容提出建议。灾难备份演练需要制定灾难备份演练计划,实施容灾技术切换演练,对演练工作进行总结和评估。最后,针对演练过程中的问题提出改进建议。

当演练结束后,需要对相关预案及操作手册进行完善。

灾难备份演练可以有以下两种场景:

1)当生产中心发生火灾、数据丢失等事件时,会造成系统中断。这时可以直接启用同城灾难备份中心。例如,当灾难发生后,生产中心数据遭到损坏,造成系统不可用,业务中断,直接启用同城灾难备份中心接管生产。

2)当生产中心系统恢复后,回切生产中心,继续业务运行。

5.灾难备份中心建设

数据仓库系统灾难备份中心的建设主要包括基础设施建设、人员组织机构建设、运维管理体系建设,如图9-38所示。

(1)基础设施建设

978-7-111-50289-0-Chapter09-44.jpg

图9-38 数据仓库系统灾难备份中心的建设

生产中心和灾难备份中心应该保持一定的距离,同时应该保证电力供给的可靠性及交通的便捷性,远离火灾隐患和地质、地震灾害的高发区域。关于灾难备份中心的选址,应该考虑以下几种因素:地理位置、配套的设施、人力资源条件、地区政策、周边环境、建设和运营的成本,如图9-39所示。

978-7-111-50289-0-Chapter09-45.jpg

图9-39 基础设施建设

1)地理位置。应该选择远离地震、台风洪水自然灾害频发地区,气候条件要舒适稳定,环境要清洁,交通也要方便。

2)配套的设施。配套的设施主要是指当地的经济发展水平、交通便利条件、人力资源供应等方面。灾难备份中心对各种社会资源的要求都非常高。

3)人力资源条件。人力资源条件主要是指当地的科技文化水平、人力资源是否充足等方面。

4)地区政策。地区政策主要是当地政府提供的政策。

5)周边环境。所在地的周边环境条件。选址时应避开生产或存储易爆物产品的工厂、仓库等,远离高速路、铁路等,避免震动对于主机的影响。

6)建设和运营的成本。成本是一个需要反复权衡的因素。成本一般涉及当地的土地价格、房屋建筑价格、通信费用、用电价格和人力成本等多种因素。

(2)人员组织机构建设

人员组织机构建设主要是指建立或设立项目领导小组、项目技术委员会、项目经理、项目管理组、项目实施组和项目支持组。

●项目领导小组。

人员构成:由项目负责人和客户项目负责人组成。

具体职责:协调项目参与方与客户相关部门的关系,协调解决各方的重大争议,协调项目与厂商的合作关系。审核项目的总体方案和实施计划等。对项目的进度、质量状况和风险等进行宏观调控,对项目的各个方面进行管理,协调用户内部、各厂商及合作伙伴之间的关系。制定计划,明确分工责任等。

●项目技术委员会。

人员构成:由技术专家组成。

具体职责:技术专家主要负责项目总体技术的把关,以及解决重大技术问题。

●项目经理。

人员构成:项目管理人员。

具体职责:负责项目的组织、管理和协调;制定项目实施方案和计划;协调项目成员与用户人员之间的工作关系;负责监督项目的具体实施,安排各阶段工作任务;负责向项目领导小组汇报项目进展情况。

●项目管理组。

人员构成:由项目质量管理人员组成。

具体职责:作为项目的质量保障机构,负责制定质量标准和计划等,参与项目的实施,负责监督项目的实施过程,并在发现问题后进行处理和改进。

●项目实施组。

人员构成:由项目实施人员组成。

具体职责:负责软硬件设备的安装、调试。汇报项目各阶段的进展情况和存在的问题等。负责对用户运营维护人员的技术培训。

●项目支持组。

人员构成:由技术专家组成。

具体职责:负责系统规划和项目实施的审核工作。为项目实施组提供技术支持。负责解答用户的专业技术问题。

(3)运维管理体系建设

数据仓库系统运维服务管理对象包括基础设施、应用系统、用户、运维部门及供应商

具体内容如下:

●基础设施

主要包括网络、主机系统、存储和备份系统、安全系统等。

●应用系统

主要包括办公系统、门户网站等应用系统。

●用户

主要包括使用产品或服务的一方和产品或服务的购买者。

●供应商

主要包括基础设施、应用系统和IT运维的供应商。

●运维部门

主要包括参与运维活动的相关部门和人员。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈