摘要: 银行作为传统金融行业,其IT基础环境系统需具备开放、稳定、高效、灵活、安全的技术特点,本文通过对集中式高端存储系统需求和使用场景进行分析,结合实际应用介绍商业银行对于华为OceanStor Dorado 18000 系列高端全闪存储服务的运维实践经验。
全文共分为三个部分:需求分析与选型思路篇、POC 测试篇、运维经验篇;本文为第三部分:运维经验篇。
随着大数据、生物识别、人工智能等新系统的开发上线,新兴应用对存储需求的快速变化以及不确定性成为主要挑战,对象存储、分布式软件定义存储正逐渐成为存储业界的新宠儿,作为以x86 服务器为技术栈,其技术架构的初衷就不是稳定性,而是成本节约和集群规模。但是作为传统行业的金融企业,其上承载的关键系统业务的系统稳定性、可靠性挑战着IT系统 有效支撑能力。 随着业务量的增长, OLAP 业务和关系型数据库大量上线应用,海量文件存贮,超高的性能和时延要求,集中式存储服务管理,这些因素决定着集中式存储在银行这样的传统行业当下承担着IT基础设施中重要的角色。现阶段金融行业关键业务系统存储服务主要以SAN 存储、NAS存储为主,当前大部分业务系统结构化和非结构化数据都采用NAS和SAN存储作为主要存储方案。 笔者将结合本行关键系统应用场景下基于华为OceanStor Dorado 18000 系列高端全闪存储的运维实践经验,与同行共同探讨S AN 、N AS 存储的运维思路与方法。
目前IT基础设施系统环境主要分为生产环境、待投产环境和开发测试环境。生产环境主要是支撑平日生产运行的关键业务系统、渠道系统、管理系统以及内部其他系统;待投产环境是新系统上线前需要对目标业务系统进行硬件资源、操作系统、网络连接、软件安装、存储分配等分配部署,后经上线前环境配置检查交付给业务部门进行投产;开发测试环境则是包含了联调环境、UAT环境、SIT 环境、编译环境等供项目组日常程序开发、项目测试的系统环境。对于存储服务来讲,无论系统环境重要程度如何划分,提供稳定可靠的存储环境是存储管理工作的底线。
作为IT资源管理部门,ITIL服务管理体系支撑着IT系统服务流程,存储服务也包含在其中,主要服务的需求场景如下:
以上是存储服务在ITIL体系下日常的工单服务场景,针对存储设备的运维,主要场景如下:
由于近年来国际形势日益紧迫,外来势力逐渐对我国加大施压,“自主可控、国芯国魂”华为依然成为IT系统国产化的行业巨头,其经过了多年沉淀生产的OceanStor Dorado 18000 系列高端全闪存储已然在金融行业占领了一席之地。
3.1、具备良好的兼容性
3.2、支持功能
4.1、整体架构
运维工作整体从结构上划分为三层,分别是服务层、资源层和设备层。
4.2、服务层架构
作为提供服务的主要接口,需要对工单流程制度清晰掌握,了解系统运行数据状态,精通对各项数据指标和阈值界限的意义及处置方式。
4.3、资源层架构
根据存储资源池对应的标签,按照业务系统应用场景并依据系统历史负载情况作为依据进行合理的资源分配。存储设备的生产运行数据也要作为数据资产通过集中管理平台或第三方运维监控平台妥善利用和保存。
4.4、设备层基础服务架构
存储管理员负责日常的存储配置运维工作,需要熟练掌握存储管理工作的命令与操作常识。
5.1、整合纳管现有资产
按需求纳管现有华为OceanStor Dorado 18000 系列高端全闪存储设备,通过华为原厂的集中运维管理平台esight或DME纳管资产。纳管设备后,参照现有CMDB系统导入配置信息,补全存储光纤连接线标签信息、设备实际物理物质。按照运维习惯,制作统计报表、配置报表、台账流水报表为运维工作提供数据支撑。利用标签技术从多个逻辑和维度整体规划盘阵级别、存储池类型、设备用途、服务能力等方便业务针对不同存储服务需求的资源定位。
5.2、配置规范管理
规范所有命名配置,如设备通用名、存储池命名、LUN命名、存储前端口命名 、映射视图命名、 Zone命名、 Alies命名等。这些命名规范内容要考虑数据中心代号、设备型号、集群名称、主机名 、网络拓扑等信息,从配置命名大致看出整理链路中各元素的关系,有助于整体环境的掌控和故障定位。
5.3、硬件故障识别自愈
集中管控平台收集华为 DeviceManager 内硬件告警,根据命名规范和拓扑结构识别翻译故障说明,分析整合告警信息,减少重复无用告警影响故障判断,并通过短信平台主动上报,通过收集量化物理部件性能指标,形成指标曲线。例如通过收集HBA卡SFP光模块的光功率指标,可清晰观察到故障模块光功率曲线下滑趋势,能做到故障部件提前预更换,在故障发生前解决故障。针对 业务连续性,通过高精度的设备健康状态监控和亚健康识别能力,快速识别故障点并通过冗余接管技术进行故障隔离和故障自愈修复,修复成功则继续接入到系统中提供服务,修复失败在通过设备告警提示人工介入进行故障部件更换。
5.4、存储资源管理
通过esight和DME的集中式管理,掌握全环境存储资源裸容量、池容量、重删压缩节省率,并按不同维度展示当前容量、增长率、历史趋势,根据容量趋势为扩容资源提供数据支撑。掌握存储设备CPU利用率、时延、IOPS、带宽等性能数据,设置性能阈值整体把控设备运行压力状况。
5.5、流程管理
5.5.1、SAN存储流程
SAN存储服务流程从工单接到需求开始,在接到工单的同时收集主机信息 ,其中包括:
1、 主机名称(主机名作为流程唯一识别标识)、IP信息、业务名称(根据业务重要性识别存储标签)、物理位置;根据收集到的主机信息结合主机系统内和光纤交换机login的wwn信息进行设备的物理连线。
2、 物理环境准备完毕,进行存储设备与主机设备的连接工作,首先根据主机和存储设备的物理位置确定连通交换机,按照业务级别标签选择容量富裕的存储设备(在存储池内根据本单位采购扩容流程周期设置存储容量阈值并参考存储设备自身的使用性能);随后进行光纤交换机的配置工作,根据光纤交换机、物理主机、存储设备名称编排 Zone name,例如:SAN753 _ bancs01_HW01 , A lias名称使用主机名后接HBA卡端口号命名,存储前端口组根据连接业务系统主机数量和性能带宽繁忙程度进行选择。
3、 完成链路连通工作后对主机进行多路径软件安装,使用自动化编排工具进行安装并建立多路径软件版本库。
4、 最后,按照新建、扩容需求创建LUN并划分LUN Group,存储端注册主机信息,对主机组、磁盘组、存储前端口组进行 Mapping建立,主机端识别存储逻辑设备,检查多路径状态正常后交付工作。
5.5.2、NAS存储流程
NAS存储服务流程从工单接到需求开始,在接到工单的同时收集主机信息其 中包括:
1、 主机名称(主机名作为流程唯一识别标识)、IP信息(管理网段IP地址和NAS网段IP地址)、业务名称(根据业务重要性识别存储标签)、业务系统客户端文件系统挂载点。根据业务系统主机NAS网段IP地址、存储设备使用率、存储设备运行压力选择存储设备并确定NFS或CIFS和容量需求。
2、 根据工单需求整理包含主机名称、share文件系统名称(文件系统名使用主机名后接客户端挂载点命名)、NAS IP地址、管理IP地址、客户端挂载点、业务名称等信息归档成配置文件,根据配置文件创建share文件系统并在业务系统客户端针对NFS和CIFS不同的共享方式对文件系统进行网络映射。
3、 针对文件系统的增加缩减操作,华为存储的SmartThin功能支撑存储端在线变更文件系统容量,做到操作系统层面无感知,对于NAS存储的回收工作,需要先从系统端解除映射,之后判断系统的NAS IP地址是否能ping通,在确认NAS IP地址被回收后再在存储端删除该文件系统的export配置,根据业务系统重要级别设置反悔期限,到期后再对目标回收文件系统进行删除操作。
5.5.3、存储升级流程
为了确保各个业务有序投产和信息技术系统稳定运行,存储设备作为IT基础设施的基底,其固件升级也尤为重要:
1、 升级前准备 :确认升级前版本、准备Smartkit升级工具及升级包。
打开smartkit选择升级前工勘进行升级策略设置“设置目标版本及升级方式”。
添加设备进行升级评估,评估完成后查看不通过项。
选择 “ 阵列 信息收集”窗口,在设备列表中,选择需要收集信息的设备,单击“收集”开始收集 信息收集,以备后期查看配置信息。
2、 升级操作: 返回首页点击设备升级进入升级策略设置。
添加设备后选择升级包及升级方式。
选择数据备份路径后勾选设备,点击确定进入阵列升级。
在设备升级界面,单击“阵列升级”开始升级操作 。
单击“执行升级”按钮开始升级 。
系统弹出“升级确认”对话框,确认完成后,选中复选框并单击“确定”按钮进行升级 。
系统进入设备升级 ,自动 导入升级包 、升级前检查、数据备份、执行升级、升级后验证。
3、升级后验证后需要 查看升级后版本与升级包是否一致,确认升级完成。
快速升级完成后,单击“巡检”
巡检后查看 “查看报告”
通过使用 OceanStor Dorado 18000 系列高端全闪存环境,针对不同厂商存储解决方案的性能和特性,提升自身业务持续发展的可控性。对于全闪存储发展来看,相较于多年前的传统非闪存存储,在性能上有着质的飞跃。
本次存储选型与对华为OceanStor Dorado 18000 系列高端存储的实际运维,作为银行I T 一线人员,笔者也切实体会到 存储系统的运维涉及到多方面的问题,不同于其他IT技术运维,处理的问题都是比较底层的问题。由于存储设备的精密和昂贵,培养一个存储运维人员的时间和成本较其他技术领域代价相对会大一些,但管理层面上可能只是信息科技部门下属处室的一个组,但仍要面对很多管理问题。所以存储运维工作要分层开展。按照层级划分,将各种服务细化:
设备层提供最基础的存储设备级服务,此层面我们需要保证每一台存储是可以正常工作的,是可以正常使用对外提供服务的,并且保障存储设备的正常运行且是可管理的,基础设施层的维护是为了对资源层的交付使用而服务的。
资源层对存储设备有了统一逻辑上的管理,在这个层面有系统性的统一管理体系,容量系统,监控系统,此层面可以发现底层存在的问题,并交由设备底层处理,并在这个层面保证应用服务的正常运行。
服务层主要是接受需求部门请求,将存储 服务管理业务过程 落地 到IT系统管理中 。
随着业务的发展和云计算大行其道,金融行业关键业务系统对存储运维能力不断挑战,传统的运维方式也逐渐展现出疲态,所以探索新的运维技术也是作为IT从业人员的使命,通过集中管控平台扩展自动化、智能化、一体化的运维管理方案来改变当前略显落后的运维体系,不断的创新求索才是立命之本。
## 相关链接:
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞3
添加新评论2 条评论
2023-03-30 16:44
2022-09-01 18:40