为什么今年大家都在提灾备体系建设,主要是银保监发的211号文,要求银行业进行整改,2020年年底前建成符合监管要求的灾备备份系统,2021年所有重要信息系统要具备灾备真实接管生产的能力。2021年底之前要完成重要信息系统至少完成一次真实接管业务的灾备切换演练,且在备中心运行一段时间。
原先进行的模拟切换演练已经不能满足监管对灾备的要求,且业务连续性的开展不只是科技一个部门的要求。目前大部分单位的业务连续性都是科技牵头制定灾难恢复预案和业务连续性咨询,也都是从科技的角度做的IT灾备体系建设,个人认为这部分还是比较容易实现的,你想实现的RTO和RPO,只要单位肯花钱,都是可以实现的;灾备切换演练操作也是跟切换演练系统相关的业务部门的系统相关人员参与的演练,都是在演练科技的IT能力,真正实现真实切换做的工作远不止这些。
业务连续性还是要从全行的角度去进行规章制度的建设,灾难切换演练也要从全行的角度进行应急和灾难恢复预案的制定,真正能够实现在发生灾难的时候各个部门有条不紊的进行灾难恢复预案的执行。
我前短时间也发了一个问题“两地三中心双活系统灾备切换场景和数据补录问题”,就是想让我们在灾备体系建设的时候能够在上线前,把涉及到的灾难切换场景都覆盖到,并预测到所有可能发生的问题,并制定相对应的灾难恢复专项预案,真正实现灾难切换的时候能够帮助业务快速恢复。往往发生灾难的时候都是非计划内的灾难恢复场景,所以非计划内的存储和数据库的切换关系到我们的RTO和RPO的时间。
回到上面的问题,双活数据中心的管理我认为可以从这几个方面去考虑:
1、双活数据中心的业务系统和基础环境配置的更新问题,建议制定相关的制度保障主数据业务和环境配置更新的时候同时更新也要覆盖同城灾备和异地灾备数据中心,保障每个数据中心的应用、数据库、存储等配置都保持一样的版本。建议上制度的同时上统一发布平台,使发布实现线上化,减少误操作和漏发布情况发生。大家应该都知道不一致可能出现的问题。
2、数据中心日常运维问题,我个人认为现在数据中心都可以实现远程监控操作和智能化巡检,灾备机房人员配置可以根据各单位人员数量进行轮值安排,主要保障同城灾备中心要有日常值班人员,每周或者每月安排相关基础环境维护人员定期进行机房巡检和问题处理,这个可以根据单位实力去平衡。
3、IT灾备体系的管理建议建立统一灾切平台,实现预案全部线上化,实时对灾备数据中心的数据库和存储状态进行检查,保障灾备数据中心的可用性。通过灾切平台可以实现快速的一键切换,缩短RTO时间和降低人员的操作风险。
最后,建立完善的制度的同时,也要保障制度的可行性,能够真正的实现制度的价值,而不是成为纸上谈兵和带来工作上的复杂性。