Zauważyłem dziwne zachowanie na klastrze HA z 2 serwerami i miałem nadzieję, że ktoś potwierdzi moje podejrzenie lub może zaoferuje inne wyjaśnienie ... Oto moja konfiguracja:
- Instalacja 2 serwerów SQL 2012 SP1
- SQL AlwaysOn HA został włączony dla kilku baz danych
- Procesory to 2,4 GHz, 4 rdzenie
- Pamięć RAM wynosi 34 GB (jest to instancja AWS, stąd liczba nieparzysta)
- Wykorzystanie zasobów jest stosunkowo niskie - każdy serwer ma ponad 14 GB wolnej pamięci, a SQL nie jest ograniczony ilością pamięci do użycia
- Czas dostępu do dysku jest w porządku - rzadko przekracza 15ms / odczyt lub zapis
- Bazy danych nie są duże - 1 GB, 1,5 GB, 7,5 GB
- Proces serwera SQL używa 16 GB prywatnych bajtów, 15 GB zestawu roboczego
Ogólnie rzecz biorąc, nie odnotowano problemów z zasobami. Teraz część nieparzysta. SQL nie jest uruchamiany ponownie (proces działa od prawie 6 miesięcy), ale wydaje się, że co ~ 50 dni licznik Oczekiwanej długości życia strony spada do (prawie) 0. Do tego momentu stale rośnie, bez żadnych spadków. Oto wykres perf:
Kiedy patrzę na dane licznika (nie mam dokładnej liczby, tylko godzinna agregacja), wydaje się, że wartość licznika PLE osiągała około 4 295 000 sekund (około 50 dni) za każdym razem (przynajmniej za każdym razem, gdy mam dane).
Moją szaloną teorią jest to, że liczba PLE jest utrzymywana w milisekundach jako liczba całkowita bez znaku (która ma limit 4 294 967 295) i po 49,71 dni resetuje się, albo z założenia, albo z powodu błędu. To wyjaśniałoby zachowanie dwóch serwerów i identyczny wzorzec, jaki mają. Lub może to być coś zupełnie innego i po prostu nie mam sensu. :)
Czy ktoś widział coś takiego lub może wyjaśnić to zachowanie?
PS Widziałem ten post, ale moja sprawa wydaje się nieco inna.
PPS To jest repost - pierwotnie opublikowałem go tutaj , ale doradzono mi, że publiczność tutaj jest bardziej odpowiednia.
Dzięki!