Tego popołudnia ktoś w naszym biurze postanowił wyciągnąć wtyczkę z naszego serwera, ponieważ burza na zewnątrz. Nie zamknęli go, po prostu wyciągnęli wtyczkę z gniazdka podczas pracy.
Serwer ma 4 dyski SATA w programowej konfiguracji RAID 10, a LVM działa na RAID. Serwer działa w systemie CentOS 6.2 Minimal i jest hostem maszyny wirtualnej korzystającym z KVM. W momencie odłączenia od sieci na komputerze działało wiele maszyn-gości. Każdy gość ma jedną lub więcej partycji LVM, które wykorzystuje bezpośrednio jako dyski twarde. Partycjami gościa są EXT3, EXT4 i NTFS. System operacyjny hosta znajduje się na partycji EXT4.
Później, kiedy zasilanie wróciło, ta osoba ponownie je podłączyła i uruchomiło się. Ponieważ podłączono go bez uprzedniego podłączenia monitora, nie ma sposobu, aby zobaczyć, co pojawiło się na ekranie. Próbowałem teraz podłączyć monitor, ale nie będzie on działać, chyba że monitor zostanie podłączony podczas rozruchu. Zostawiłem to, dokładnie tak, jak jest, dopóki nie mogę uzyskać porady, ponieważ nie chcę niczego zepsuć (dalej).
Mogę dostać się do hosta przez SSH. Nie uruchomiłem go jeszcze na wypadek, gdyby w logu znajdowało się coś, co może być przydatne.
Muszę sprawdzić wszystkie dyski i partycje pod kątem integralności danych, jeśli to w ogóle możliwe. Myślę, że RAID 10 używa pamięci podręcznej opartej na pamięci i martwię się, że dyski będą niespójne lub pliki zostaną uszkodzone, jeśli w pamięci były zapisy na dysku, które nie zostały jeszcze zapisane.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Niepokoi mnie również to, że nazywa moje tablice „prawie kopiami”. Czy to normalne?
Jakiego rodzaju sprawdzanie dysku należy uruchomić, aby upewnić się, że wszystko jest w porządku z dyskami i danymi? Czy są jeszcze jakieś rzeczy, które powinienem sprawdzić?
AKTUALIZACJA
Dane wyjściowe mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3