Jak sprawdzić host VM serwera CentOS 6 po zaniku zasilania?

9

Tego popołudnia ktoś w naszym biurze postanowił wyciągnąć wtyczkę z naszego serwera, ponieważ burza na zewnątrz. Nie zamknęli go, po prostu wyciągnęli wtyczkę z gniazdka podczas pracy.

Serwer ma 4 dyski SATA w programowej konfiguracji RAID 10, a LVM działa na RAID. Serwer działa w systemie CentOS 6.2 Minimal i jest hostem maszyny wirtualnej korzystającym z KVM. W momencie odłączenia od sieci na komputerze działało wiele maszyn-gości. Każdy gość ma jedną lub więcej partycji LVM, które wykorzystuje bezpośrednio jako dyski twarde. Partycjami gościa są EXT3, EXT4 i NTFS. System operacyjny hosta znajduje się na partycji EXT4.

Później, kiedy zasilanie wróciło, ta osoba ponownie je podłączyła i uruchomiło się. Ponieważ podłączono go bez uprzedniego podłączenia monitora, nie ma sposobu, aby zobaczyć, co pojawiło się na ekranie. Próbowałem teraz podłączyć monitor, ale nie będzie on działać, chyba że monitor zostanie podłączony podczas rozruchu. Zostawiłem to, dokładnie tak, jak jest, dopóki nie mogę uzyskać porady, ponieważ nie chcę niczego zepsuć (dalej).

Mogę dostać się do hosta przez SSH. Nie uruchomiłem go jeszcze na wypadek, gdyby w logu znajdowało się coś, co może być przydatne.

Muszę sprawdzić wszystkie dyski i partycje pod kątem integralności danych, jeśli to w ogóle możliwe. Myślę, że RAID 10 używa pamięci podręcznej opartej na pamięci i martwię się, że dyski będą niespójne lub pliki zostaną uszkodzone, jeśli w pamięci były zapisy na dysku, które nie zostały jeszcze zapisane.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

Niepokoi mnie również to, że nazywa moje tablice „prawie kopiami”. Czy to normalne?

Jakiego rodzaju sprawdzanie dysku należy uruchomić, aby upewnić się, że wszystko jest w porządku z dyskami i danymi? Czy są jeszcze jakieś rzeczy, które powinienem sprawdzić?

AKTUALIZACJA

Dane wyjściowe mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— Nacięcie
źródło

3

RAID jest w porządku, wszystkie UUUU oznaczają, że wszystkie dyski w macierzy są uruchomione. Na razie nawet się o to nie martwię.

Jeśli chodzi o maszyny wirtualne, jeśli chcesz uruchomić na nich fscks, zatrzymaj maszyny wirtualne i uruchom

fsck.ext3 (ext4, etc) /path/to/lvm (zwykle jak / dev / vg-name / lv-name)

Jeśli używasz KVM, powinieneś być w stanie virshzrobić wszystko, czego potrzebujesz do maszyn wirtualnych. Oto link do strony man virsh http://linux.die.net/man/1/virsh

Jeśli naprawdę chcesz uruchomić sprawdzanie dysku na macierzach RAID, będziesz musiał ponownie uruchomić komputer w trybie pojedynczego użytkownika lub uruchomić z płyty CD na żywo, abyś mógł sprawdzić poszczególne urządzenia / dev / mdX. Ponieważ podstawowym systemem plików jest EXT4, nie zawracałbym sobie głowy, jest znacznie lepszy niż EXT3 z przerwami w zasilaniu.

— jemmille
źródło

+1, spróbuje jutro.

— Nick

1

Spróbuj mdadm --detail / dev / md0 (to samo dla md1 i md2).

Następnie wypróbuj porady podane tutaj: http://linas.org/linux/raid.html

— oda
źródło

Opublikowałem wynik mdadm --detail /dev/md0powyżej. Przeczytałem przewodnik, do którego linkujesz, ale nie wspomina on o systemach plików EXT4, ani co konkretnie mogę zrobić, aby sprawdzić integralność?

— Nick

Typ systemu plików nie powinien mieć znaczenia pod względem integralności RAID. Jeśli masz okres konserwacji, możesz odmontować zagrożone systemy plików i fsckje. Jeśli chcesz sprawdzić same urządzenia RAID, możesz zrobić coś takiego echo "check" > /sys/block/md0/md/sync_action. Lub powtórz „naprawę”, aby wykonać jakąś naprawę mdadm.

— cjc,

Spróbuję tego jutro i zdam raport.

— Nick