云平台分布式存储运维需要注意以下几个方面:
1、硬件
云平台分布式存储与集中式存储相比,使用的是通用服务器和组件,而非专用硬件。运维上同样需要做好监控告警,主要包括内存、RAID卡、硬盘、网卡等组件,尽早发现问题来规避可能的风险。
主流的分布式存储,通过软件定义的能力,实现了硬件的全方位监控和告警,也支持硬件亚健康诊断与隔离,例如网络亚健康、硬盘亚健康。对于运维管理员,选型分布式存储时需要关注这些功能,日常运维阶段只需要留意云平台有无异常告警即可。
2、性能
关注一定周期内存储性能负载情况,及时评估对业务的影响,关键指标包括延时、IOPS、Block Size等。
3、资源
关注存储集群的资源利用率,尤其是使用精简置备卷的场景,通过分布式存储软件提供的自定义存储利用率告警阈值,提前发现资源瓶颈。主流的分布式存储产品,还具备资源用量预测能力,使得组织有更充足时间窗口去启动扩容流程。
4、高危操作
专业的厂商在交付后都会有全面的培训,其中包括高危操作,运维管理员一定要谨慎,例如,不能在集群数据恢复期间对节点关机或调整存储网络等。
收起分布式存储与集中式存储在基本运维操作方面大部分是相通的,最主要的区别是集中式存储无需关心额外的网络部分,硬件监控也比较成熟。而分布式存储规模本身较大,且是一个包含服务器、网络、软件等各个方面,因此也是最需要注意的:
1、硬件基础设施方面,服务器节点,网络及硬盘的负载、 健康状态等监控,亚健康管理。当有节点负载过高异常,或网络丢包重传,硬盘寿命即将终结或慢盘等,靠人工难以完成。因此,分布式存储软件对于硬件基础设施的细粒度监控,亚健康管理及自动隔离非常必要,依赖系统自身智能处理,避免人为误操作。
2、数据均衡方面,分布式存储随着运行过程中扩容、硬盘更换、节点维护等,可能存在容量不均衡的情况,运维人员经常做容量重平衡操作。传统存储则无需这样的维护,因此,分布式存储可以自动化重平衡各服务器节点容量可以避免运维人员操作数据均衡的操作。