本次故障缘起,pve系统盘突然坏了,导致ceph集群降级,重装pve系统后,发现ceph不能加入原有的集群,需要清除所有配置才可完成
首先需要从集群中删除故障ceph
ceph的配置文件路径 /etc/ceph/ceph.conf
此次故障的节点是pve3,在一个正常的节点配置文件中删除故障的节点
同时需要在web页面 监视器中销毁之前故障的节点
osd销毁
cephfs 销毁
全部销毁完成后,通过shell命令行操作
登录集群任意物理正常节点系统,执行如下命令查看ceph osd状态: ceph osd tree
离线有问题的ceph osd,执行的操作如下 ceph osd out osd.X X 代表 osd数字
删除已经离线osd认证信息,执行的操作如下: ceph auth del osd.X
彻底删除故障osd,操作如下:ceph osd rm osd.X
查看集群osd状态,操作如下: ceph osd tree
查看故障节点的ceph监视器,操作如下:ceph mon stat
删除故障节点的ceph监视器,操作如下:ceph mon rm pve3
擦除故障节点的ceph磁盘:dmsetup remove ceph–557aXXXXXX
这样就删除了之前的旧的信息,然后就可以重新加入集群,通过web页面一一创建监视器、OSD、CephFS
文章来源:https://www.cnaaa.net,转载请注明出处:https://www.cnaaa.net/archives/11504