Przygotowujemy się do przeprowadzenia dużej aktualizacji na naszych serwerach SQL i zauważamy nietypowe zachowanie w Grupach dostępności rozproszonej, które próbuję rozwiązać przed przejściem do przodu.
W zeszłym miesiącu zaktualizowałem zdalny serwer pomocniczy z SQL Server 2016 do SQL Server 2017. Serwer ten jest częścią wielu grup dostępności rozproszonej (DAG) i oddzielnej grupy dostępności (AG) . Kiedy zaktualizowaliśmy ten serwer, nie byliśmy świadomi, że stanie się on nieczytelny , więc w ciągu ostatniego miesiąca polegaliśmy wyłącznie na serwerze głównym.
W ramach nadchodzącej aktualizacji zastosowałem łatkę CU 4 na serwerze i zrestartowałem ją. Kiedy serwer wrócił do trybu online, właśnie łatane oprogramowanie dodatkowe pokazało, że wszystkie DAG / AG synchronizują się bez żadnych problemów.
Jednak głównym było pokazanie zupełnie innej historii. Zgłaszało to
- oddzielna AG synchronizowała się bez żadnych problemów
- ale DAG były w nie Synchronzing / nie jest zdrowe państwo
Po początkowej panice próbowałem następujących rzeczy, aby ponownie zsynchronizować rzeczy w DAG:
- Od podstawowego zatrzymałem i wznowiłem przepływ danych. Nie rozpoczęło się synchronizowanie danych.
- Na drugim (tym, który właśnie załatałem) uruchomiłem
ALTER DATABASE [<database] SET HADR RESUME;
- które działają bez błędów, ale nie wznowiły żadnej synchronizacji
Moją ostatnią próbą ponownej synchronizacji danych było zalogowanie się do pomocniczego i ręczne zrestartowanie usługi SQL Server. Ręczne ponowne uruchomienie usługi wydaje się nieco ekstremalne, ponieważ oczekiwałbym, że ponowne uruchomienie serwera byłoby wystarczające.
Czy ktoś napotkał ten problem polegający na tym, że DAG nie zaczyna synchronizować się z urządzeniem pomocniczym po ponownym uruchomieniu? Jeśli tak, to jak to rozwiązać?
Sprawdziłem zarówno dziennik błędów programu SQL Server, jak i przeglądarkę zdarzeń na serwerze pomocniczym, nic nie widziałem.