存储双活如何管控,如何制定匹配制度?

        关于江苏农信的851120阐述的灾备目的,个人十分赞同,灾备不是为了备份,不是为了实现技术成就,是切实能够实现银行的业务连续性管理目标,我再补充两句,灾备不是建设完毕就完毕了,是要有与之配套的管理手段,是要切实能够使用,在风险发生时能够起到决定作用的。   ...显示全部

        关于江苏农信的851120阐述的灾备目的,个人十分赞同,灾备不是为了备份,不是为了实现技术成就,是切实能够实现银行的业务连续性管理目标,我再补充两句,灾备不是建设完毕就完毕了,是要有与之配套的管理手段,是要切实能够使用,在风险发生时能够起到决定作用的。
       关于同城双活技术方案,是以行内业务特性为根本参考进行制定的,因此我们在涉及架构,制定方案时,除却要考虑技术方案,同时重点分析行内业务特性,从而选型,完成实施,对此业内均有可借鉴的内容,厂商也能够提供成熟的方案。
        在我行建设灾备的过程中,我遇到很多令人头疼的问题,而这些问题都跟技术没有太大的关系,借助这次讨论,我希望向已经完成灾备建设,形成成熟管理体制的前辈们讨教下,如何管理灾备中心,如何针对选定的技术方案制定相应的制度,比如我们建设的是存储+应用+DB均能实现双活的架构,我们要如何管理,应该有什么样与之配套的制度?比如我们建设的是存储+应用能实现双活,DB使用ADG(热备)的架构,我们要如何管理,有什么样与之配套的技术?

收起
参与12

查看其它 3 个回答summit的回答

summitsummit联盟成员架构管理岗某城商银行

      为什么今年大家都在提灾备体系建设,主要是银保监发的211号文,要求银行业进行整改,2020年年底前建成符合监管要求的灾备备份系统,2021年所有重要信息系统要具备灾备真实接管生产的能力。2021年底之前要完成重要信息系统至少完成一次真实接管业务的灾备切换演练,且在备中心运行一段时间。

  原先进行的模拟切换演练已经不能满足监管对灾备的要求,且业务连续性的开展不只是科技一个部门的要求。目前大部分单位的业务连续性都是科技牵头制定灾难恢复预案和业务连续性咨询,也都是从科技的角度做的IT灾备体系建设,个人认为这部分还是比较容易实现的,你想实现的RTO和RPO,只要单位肯花钱,都是可以实现的;灾备切换演练操作也是跟切换演练系统相关的业务部门的系统相关人员参与的演练,都是在演练科技的IT能力,真正实现真实切换做的工作远不止这些。
  业务连续性还是要从全行的角度去进行规章制度的建设,灾难切换演练也要从全行的角度进行应急和灾难恢复预案的制定,真正能够实现在发生灾难的时候各个部门有条不紊的进行灾难恢复预案的执行。
  我前短时间也发了一个问题“两地三中心双活系统灾备切换场景和数据补录问题”,就是想让我们在灾备体系建设的时候能够在上线前,把涉及到的灾难切换场景都覆盖到,并预测到所有可能发生的问题,并制定相对应的灾难恢复专项预案,真正实现灾难切换的时候能够帮助业务快速恢复。往往发生灾难的时候都是非计划内的灾难恢复场景,所以非计划内的存储和数据库的切换关系到我们的RTO和RPO的时间。
  回到上面的问题,双活数据中心的管理我认为可以从这几个方面去考虑:
  1、双活数据中心的业务系统和基础环境配置的更新问题,建议制定相关的制度保障主数据业务和环境配置更新的时候同时更新也要覆盖同城灾备和异地灾备数据中心,保障每个数据中心的应用、数据库、存储等配置都保持一样的版本。建议上制度的同时上统一发布平台,使发布实现线上化,减少误操作和漏发布情况发生。大家应该都知道不一致可能出现的问题。
  2、数据中心日常运维问题,我个人认为现在数据中心都可以实现远程监控操作和智能化巡检,灾备机房人员配置可以根据各单位人员数量进行轮值安排,主要保障同城灾备中心要有日常值班人员,每周或者每月安排相关基础环境维护人员定期进行机房巡检和问题处理,这个可以根据单位实力去平衡。
  3、IT灾备体系的管理建议建立统一灾切平台,实现预案全部线上化,实时对灾备数据中心的数据库和存储状态进行检查,保障灾备数据中心的可用性。通过灾切平台可以实现快速的一键切换,缩短RTO时间和降低人员的操作风险。
  最后,建立完善的制度的同时,也要保障制度的可行性,能够真正的实现制度的价值,而不是成为纸上谈兵和带来工作上的复杂性。
银行 · 2020-03-27
浏览2557

回答者

summit
架构管理岗某城商银行
擅长领域: 云计算服务器容器

summit 最近回答过的问题

回答状态

  • 发布时间:2020-03-27
  • 关注会员:5 人
  • 回答浏览:2557
  • X社区推广