银监会在《商业银行数据中心监管指引》中明确要求“商业银行每年至少进行一次重要信息系统专项灾备切换演练,每三年至少一次重要信息系统全面灾备切换演练,以真实业务接管为目标,验证灾备系统有效接管生产系统与安全回切的能力,并且积极建设自动化运维工具平台,逐步达到75%的自动化覆盖率”。
随着银行信息系统不断发展,灾备真实切换、灾备模拟演练等灾备使用场景的操作也日趋复杂,传统人工操作方式的操作风险较高,而操作效率缺比较低下,灾备切换等实施工作已经逐步无法满足信息系统发展的要求。
本文分享的是UWin优维为国内某省级商业银行实施同城异地灾备自动化方案建设的实践经验:优维基于该银行业务系统及整体基础架构情况,帮助客户最终实现了“两地三中心”的灾备自动化切换,在灾备演练中,备份快,恢复快,有效保障业务连续性,提升数据中心韧性。
Part1
项目背景
该银行有一套核心系统需要快速上线,涉及新建核心业务系统和利旧改造业务系统共102套。目前灾备切换模式仍然以人工手动为主,由于系统数量多、种类杂,操作过程中各种状况频发,难以实现预期的RTO目标,导致切换效率低下且结果不可控,针对以上痛点,优维为该银行搭建了一个“两地三中心”的IT部署架构,同时构建了一个以业务为中心、以流程为导向的自动化运维管理平台,实现灾备切换的标准化、可控化、自动化和可视化,提升工作效率降低人工操作风险。
Part2
项目解决方案
由于灾备切换涉及到两地三个中心区域,为了统筹好跨地域、跨中心的灾备切换工作,优维为其搭建的自动化运维管理平台,通过集成应用CMDB、自动化、DevOps持续部署、监控四大产品的能力,最大化保障该银行业务系统连续性和核心数据的安全性及高可用性。
资源纳管
众所周知,数据是实现自动化操作的基石。在与优维达成合作时,该银行与其他平台同期建设的系统也在如期进行。为了在灾备切换的情况下,确保服务的快速恢复与正常运行,优维CMDB平台与该银行其他同期建设的系统进行深度对接,将所有IT资源统一纳管,为灾备切换的自动化操作提供数据支撑。该银行通过优维CMDB平台纳管了102套系统,1000多台虚拟机等。
自动化
上述讲到该银行共涉及到102套系统的改造开发,而要快速把上百个系统在短时间内部署到生产环境,且每隔一段时间更新一次,如此非常高的部署频率,必须要借助自动化的平台才能达到效果。该银行利用优维DevOps持续部署的能力,通过流水线,将部署过程流程化、自动化,支持滚动部署、蓝绿部署、灰度部署等多种部署方式,帮助该银行快速完成系统的部署工作。
同时,该银行基于优维自动化平台,封装了114个自动化工具脚本,在灾备切换演练时,帮助该银行快速实现系统的切换、回切的操作,大幅度提升了灾备切换效率。
监控
灾备整体环境如果平时不能得到有效维护,在真实使用时就难以成功完成切换任务,但如何有效的监控“两地三中心”业务系统技术架构是否可用,出现故障的点是否会影响某些业务系统的切换。为了保障灾备的可靠性和可用性,该银行加大与优维监控平台的联动,利用优维监控平台,对各业务系统灾备资源,如主机、CPU、硬盘、内存、中间机、数据库等资源的运行情况进行异常监控,设置一定的告警阈值及告警策略,将告警事件信息推送给对应的负责人,助力该银行及时处理异常问题,快速恢复业务系统。
Part3
实施效益
近日,该银行已经通过优维搭建的“两地三中心”灾备自动化方案成功完成了本年度数据中心灾备切换的演练,整个演练历时26小时,历经“切换、运行、回切”三个关键环节。演练覆盖该银行基础云平台、国产分布式数据库、复杂分布式应用架构以及全行所有业务系统,涵盖了201个营业网店,984台自主设备,及手机银行、网上银行、柜面等全行全量业务。本次演练是该银行发展史上首次真正意义的无停机、无中断的实战演练。
Part4
未来
发展数字经济、建设数字中国已经上升为国家战略。作为数字经济的重要生产要素,数据在提高社会生产和运行效率等方面发挥重要作用。在此背景下,做好灾备建设,保障极端情况下的灾难恢复和业务连续性,具有重要意义。优维科技将继续输出自身在灾备建设方面的技术储备和最佳实践,让灾备系统不再成为空中楼阁,为国计民生数字化转型保驾护航。
有疑问加站长微信联系(非本文作者)