存储构架
整机3物理盘,其中1盘为5T的HDD大盘,2块480GSSD小盘。
两块SSD中做raid1(md1)加入vg0,HDD单独加入vg0;vg0/lv-root分在md1中,另HDD与md1的一部分做LVMcache。参考:https://www.liujason.com/article/507.html
故障发生
HDD故障(当时未知),发现应用故障,尝试重启应用服务失败,尝试重启失败。进入emergency模式,发现是HDD故障不识别。
恢复过程
在rescue下lvs可以看到两个lv:root和storage,vgdisplay可以看到vg0下有三块盘,理论上讲SSD均无故障,root数据不会丢失,即使SSD故障一块,raid1下的另一块SSD中的数据也能全部恢复,因此先移出HDD,尝试启动。
vgreduce --removeissing --verbose vg0 --force
成功移出后可以看到磁盘下只剩md1,但是依旧进不去vg0:
发现是未将恢复后的lvm标记为active,所以只需vgchange即可:
lvm vgchange -ay
尝试挂载成功,修改fstab中挂载storage的内容,重启成功。