Moje serwery Xen to openSUSE 11.1 z open-iscsi do naszego klastra SAN iSCSI. Moduły SAN znajdują się w grupie przełączania awaryjnego IP za wirtualnym adresem IP, z którym łączą się inicjatorzy.
W przypadku awarii podstawowego serwera SAN serwer pomocniczy przejmuje rolę służącą jako cel. Wszystko to jest obsługiwane przez oprogramowanie LeftHand SAN / iQ i działa dobrze w większości sytuacji.
Problem, który mam, polega na tym, że czasami niektóre z moich Xen DomU będą miały swój główny system plików tylko do odczytu po przełączeniu awaryjnym IP. Nie jest spójny i zdarza się w innym podzbiorze za każdym razem, gdy nastąpi przełączenie awaryjne. Wszystkie działają na tym samym obrazie oprogramowania openSUSE 11.1.
Główne systemy plików dla każdego DomU są montowane przez open-iscsi w Dom0, a następnie Xen używa standardowego sterownika urządzenia blokowego, aby udostępnić go DomU.
Dokładnym objawem jest to, że jako root podczas działania touch /test
zwraca błąd „system plików tylko do odczytu”. Jednak wynik mount
pokazuje, że jest montowany jako odczyt-zapis. Oczywiście, wszystkie inne wejścia / wyjścia w domU również zawodzą w tym czasie, więc maszyna mocno się psuje. Ponowne uruchomienie z xm
poziomu Dom0 bez ponownego połączenia sesji iSCSI sprawia, że wszystko działa ponownie.
Po stronie Dom0 komunikaty syslog podczas przełączania awaryjnego są następujące:
kernel: connection1:0: iscsi: detected conn error (1011)
iscsid: Kernel reported iSCSI connection 1:0 error (1011) state (3)
iscsid: connection1:0 is operational after recovery (1 attempts)
Trudno mi ustalić, na jakiej warstwie debugować ten problem, czy jest to coś w jądrze DomU? lub na poziomie Dom0 lub Xen? Myślę, że prawdopodobnie istnieje jakiś parametr, który wymaga modyfikacji, aby zwiększyć limit czasu, ale nie jestem pewien, gdzie szukać.
Naprawdę nie sądzę, że jest to problem z open-iscsi po prostu dlatego, że podłączone urządzenie blokowe jest nadal możliwe do odczytu i zapisu z Dom0.