实施数据中心的容灾备份,是企业业务持续运作的要求、同时也是企业规避风险健康发展、进行全球化战略发展和布局、成为世界级企业的要求。也是行业监管政策的必要措施。2007年7月,国家标准《信息系统灾难恢复规范》(GB/T20988-2007)出台,并于2007年11月1日开始正式实施。
企业的业务连续管理包含的内容如下图所示。
DRP(Disaster Recovery Plan)灾难恢复预案是IT的关注点,负责灾难发生时IT系统的恢复。BCP业务连续性计划关注灾难后企业业务的持续运作,如银行网点在银行信息系统灾难后的恢复正常营业。业务连续管理的内容还包括供应链管理,安全管理,突发事件管理。本文要介绍的是灾难恢复计划(DRP)的相关内容。
根据灾难恢复的保护级别和数据丢失程度不同,国家标准将信息系统灾难恢复划分为六个等级,如下图。
灾难恢复等级是基于对灾难恢复七要素的不同要求来定义的,灾难恢复的七大要素如下图。
如果灾难恢复要达到六级的保护等级,灾难恢复七要素需要达到如下图所示的要求。
国家标准中的灾难恢复预案框架(DRP)包含的内容有:
1 目标和范围。
2 组织和职责。
3 联络和通信。
4 紧急响应流程:灾难预警;人员疏散;损害评估;研判和灾难宣告。
5 恢复和重新继续运行流程:恢复;重续运行。
6 灾后重建和回退。
7 预案的保障条件。
8 附录:人员疏散计划;产品说明书;IT系统标准操作流程;服务级别协议;资源清单;预案保存和分发方法;业务影响分析报告。
其中附录中的业务影响分析报告是设计灾备中心时的最初着手点,业务影响分析报告从各个应用的重要性不同出发,判断对各应用采取什么样的等级保护并设计出方案。
开发DRP的各个工作阶段如下图所示(流程由左至右)。
灾备中心的设计有几个很重要的灾难恢复业务参数:RTO(Recovery Time Objective)时间恢复目标;RPO(Recovery Point Objective)恢复点目标;NRO(Network Recovery Objective)网络恢复目标;RAO(Recovery Access Objective)访问恢复目标。
RTO 时间恢复目标是指发生灾难后恢复物理系统环境的时间,例如服务器重启、数据库重启、数据恢复、应用回归正常运行。
RPO 恢复点目标,指灾难发生前最后一次备份的时间即数据丢失量标准,灾备中心和数据中心的距离会影响RPO值,同城时应为零,异地距离较远时则应控制在分钟级水平。
NRO 网络恢复目标是灾难发生后的网络恢复时间,即用户在灾难后可以连接到灾备中心的时间。
RAO 访问恢复目标指验证业务能正常运行的时间,如以银行为例,在向客户和最终用户发布灾难恢复环境以恢复服务/运作之前,银行服务员应可以像用户那样登陆和正确执行交易。
下面是一个银行客户的灾难恢复业务影响分析。银行客户大约有60个应用,关键应用需要同时运行在主机和开放平台上。根据业务的保护性要求不同将业务分为三类,如下图。
Ⅰ类是银行面向客户的业务,含24×7小时、8×7小时两种;Ⅱ类为银行的外部链接和批处理业务等;Ⅲ类为银行内部办公和管理系统应用。其中Ⅰ类和Ⅱ类应用需要第6级(无数据丢失)灾难恢复支持,Ⅲ类应用需要第5级或第4级灾难恢复支持。
银行的部分应用分类如下图。
根据应用的分类和灾难恢复等级确定RTO、RPO等参数指标,如下图。图中包含灾备中心和数据中心同城,异地两种情况。
从RTO目标来确定数据备份需求和连接需求,根据RTO目标不同设计的三个方案如下图。随着RTO值要求降低,一些应用的连接需求FC(Fiber Channel)值也降低,部分应用的复制方式也不一定需要同步进行。