我们存储管理员在日常生产运维中经常会碰到这样的情况,主机端反应IO慢,应用负责人首先向存储管理员发难:“是不是存储有问题?”那么作为存储管理员,该如何下手去分析问题,定位问题呢?
我们都知道主机到存储的IO经过主机板卡、交换机、存储,中间任一环节,甚至包括线路都有可能造成主机端IO慢。而存储端的监控基本是控制器、存储池、端口的整体监控,而且往往看到的性能数据是一个结果而非原因,那么该如何从存储监控的这些数据中提炼出和某个主机相关的能反映或者推测出主机端IO慢的原因的蛛丝马迹,从而确认问题和存储端无关呢?
想要“自证清白”,口说无凭,一定要借助存储性能监控软件或性能数据分析结果。具体的说,就是通过监控软件设置性能相关的事件和报警触发条件:
任何异常报警的产生,都可能是造成性能问题的根本原因。反过来说,没有报警,则是“自证清白”的第一步。如未出现任何报警或异常状态,则进一步通过分析问题时间段的存储性能日志,以及结合端到端的 IO 处理过程中涉及到的所有环节的追踪分析,比如主机、应用、传输链路等环节对应的日志,多方协查来定位造成性能问题的根本原因。
另外,华为存储本身有监控模块,可以对控制器整体性能、单个 LUN 或文件系统的性能、端口性能、后端磁盘性能等进行监控,且有在线工具可以实时查看当前性能、离线工具可以查看历史性能,通过对比主机出现性能问题的时间点,分析、查看存储侧对应时间点的性能表现,也可以来 “ 自证清白 ”
收起这个问题很好。好多环节其实都存在这种问题。,软件,硬件。网络都存在这种互相推诿。需要自证清白的情况。信息化到现在每一个环节结合都很紧密。
如果单纯的想要资政清白。其实无非就是从生产环境下断下来。独立运行测试怀疑的性能。但对于现在的信息化系统来说。很多时候这种情况无法做到。所以我觉得出现问题的时候首要的一个原则是各个部门先不要主管的判断是对方的问题。这个态度很关键。共同从各自的角度分析。互相配合。才可能更快的分析问题
以主机和存储为例,当主机端反映IO缓慢。可以从及几部分来验证。主机端。进行对主机本地的存储进行读写测试。对比在存储上的IO。判断是否是主机性能本身的问题。存储段。可以对比与其他主机之间的IO读写看看是否是单节点主机的问题。有条件的话可以跨过SAN交换机。单独接入新主机。来排除线路与san网络之间的问题。
互相配合。逐级替换,测试应该可以更有助于找到问题的根本。
不少存储都有性能监控,拉出性能监控包括控制器 卷 磁盘 自证无问题。san交换机上检查链路质量 看看有没有crc,fcping 存储 主机hba口查看延时。当然这是要在延时高这个问题持续发生的情况下才能分析出问题在哪里。
收起