零售/批发OSDOSD 无响应

osd 龟速 无响应,会是那些方面的问题?

参与7

3同行回答

宁泽阳宁泽阳系统工程师某科技公司
检查下集群是否存在slow request,如果存在的话可以看一下集中在哪些osd,这些osd是否硬盘故障或者网络中断,将这些osd踢出集群是否可以恢复。显示全部

检查下集群是否存在slow request,如果存在的话可以看一下集中在哪些osd,这些osd是否硬盘故障或者网络中断,将这些osd踢出集群是否可以恢复。

收起
互联网服务 · 2020-08-31
浏览940
Lucien168Lucien168存储工程师地平线机器人
一个反复出现的问题是 OSD 龟速或无响应。在深入性能问题前,你应该先确保不是其他故障。例如,确保你的网络运行正常、且 OSD 在运行,还要检查 OSD 是否被恢复流量拖住了。Tip: 较新版本的 Ceph 能更好地处理恢复,可防止恢复进程耗尽系统资源而导致 up 且 in 的 OSD 不可用或响...显示全部

一个反复出现的问题是 OSD 龟速或无响应。在深入性能问题前,你应该先确保不是其他故障。例如,确保你的网络运行正常、且 OSD 在运行,还要检查 OSD 是否被恢复流量拖住了。

Tip: 较新版本的 Ceph 能更好地处理恢复,可防止恢复进程耗尽系统资源而导致 up 且 in 的 OSD 不可用或响应慢。

网络问题

Ceph 是一个分布式存储系统,所以它依赖于网络来互联 OSD 们、复制对象、从错误中恢复和检查心跳。网络问题会导致 OSD 延时和震荡(反复经历 up and down,详情可参考下文中的相关小节) 。

确保 Ceph 进程和 Ceph 依赖的进程已建立连接和/或在监听。

netstat -a | grep ceph
netstat -l | grep ceph
sudo netstat -p | grep ceph

检查网络统计信息。

netstat -s

收起
互联网服务 · 2020-08-29
浏览1065
zhuqibszhuqibs软件开发工程师Adidas
不太明白,是什么行为的慢(1)io慢, 分布式存储的写,必然比单盘慢,因为有多副本,有网络传输时间; 使用ssd盘,采用高速网络,是解决之道;(2)如果是load balance慢, 那就是单看网络了;其他,需要很多的参数调优...显示全部

不太明白,是什么行为的慢
(1)io慢, 分布式存储的写,必然比单盘慢,因为有多副本,有网络传输时间; 使用ssd盘,采用高速网络,是解决之道;
(2)如果是load balance慢, 那就是单看网络了;
其他,需要很多的参数调优

收起
互联网服务 · 2020-08-27
浏览1012

提问者

eversmily
数据库管理员浙江一鸣食品股份有限公司
擅长领域: 存储灾备云计算

问题来自

问题状态

  • 发布时间:2020-08-27
  • 关注会员:4 人
  • 问题浏览:2038
  • 最近回答:2020-08-31
  • X社区推广