Niestety wygląda na to, że możemy nie dojść do sedna tego, czym była aplikacja, ale aby uzyskać pewną wartość z tego incydentu, chciałem utworzyć odpowiedź referencyjną. Jest to VMware i wirtualne zarządzanie warstwami. Wielu administratorów jest posegregowanych i nie może szybko uzyskać dostępu do gościa lub magazynu, a to dla nich :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swf wydaje się najbardziej pasować do rzeczywistej aplikacji, którą znalazł @MosheKatz.
Jeśli tak się stanie w przyszłości, dochodzenie powinno wyglądać następująco:
- Zauważysz, że niektóre maszyny wirtualne uległy awarii. Podejrzewasz, że jest to spowodowane problemem z pamięcią masową (ponieważ jest to zwykle najbardziej prawdopodobna przyczyna)
- Najpierw spróbuj wyodrębnić wspólny czynnik. Czy wszystkie awarie maszyn wirtualnych współużytkują ten sam magazyn danych? W tym przypadku były, ale niektóre Maszyny były w porządku, więc wykluczyliśmy oczywiste problemy ze sprzętem.
- Sprawdź wszystkie uszkodzone maszyny wirtualne, aby zobaczyć, czy istnieje wspólny czynnik (czas, funkcja itp.). W tym przypadku nie było.
Sprawdź inne niezwykłe zdarzenia. Coś podniosło tutaj flagę:
- Pamięć masowa NFS była cienko zabezpieczona (na poziomie macierzy). Oznacza to, że chociaż np. 200 GB jest prezentowane hostom ESXi, w rzeczywistości dostępne jest tylko 100 GB. Jednak tylko tablica ma tę wiedzę. Odkryliśmy, że wiele maszyn wirtualnych zostało wstrzymanych, ponieważ zabrakło miejsca na dysku. Myśleliśmy, że mogła to być główna przyczyna, więc naszym pierwszym działaniem było przydzielenie większej ilości miejsca na zapleczu, aby usunąć to jako problem.
Gdy problem został rozwiązany (prosta zmiana interfejsu użytkownika), a wstrzymane maszyny wirtualne zostały pomyślnie zrestartowane, wróciliśmy do pierwotnego problemu. Zainstalowaliśmy dyski wirtualne z uszkodzonych maszyn wirtualnych na działającej maszynie wirtualnej i zauważyliśmy, że na dyskach nie ma tabeli partycji. Nie mieliśmy dostępnej przeglądarki hexów, więc musieliśmy założyć, że dyski są teraz puste.
System monitorowania zaalarmował nową maszynę wirtualną, która właśnie przestała odpowiadać. To było świetne, ponieważ ładunek maszyn wirtualnych miał kilka minut, zanim przestał odpowiadać z powodu problemu z miejscem na dysku, więc fakt, że ta nowa maszyna wirtualna została szybko znaleziona, był oznaką dobrego zarządzania monitorowaniem.
Otworzyliśmy konsolę, sprawdziliśmy gościa i zobaczyliśmy powyższy zrzut ekranu.
- Na tym etapie poszedłem do pokoju rozmów z błędami serwera, aby sprawdzić, czy program można zidentyfikować, a mój kolega z magazynu sprawdził wszystkie dzienniki i zdarzenia warstwy wirtualnej, aby upewnić się, że z naszego obszaru nie działa żadna operacja magazynowania.
- To, co powinniśmy zrobić, to zawiesić maszynę wirtualną, pozwolić na zapisanie pliku zawieszenia i przeanalizować zrzut, aby sprawdzić, czy można zidentyfikować działający program. Zawieś maszynę wirtualną do podstawowego pliku PDF VMware KB
Pod koniec dnia wiedzieliśmy, że narzędzia infrastruktury wirtualnej nie zgłosiłyby się u gościa, jak to miało miejsce powyżej. Widzieliśmy, że nie było zamontowanego ISO i nie zarejestrowano żadnych zdarzeń na maszynie wirtualnej. Widzieliśmy, że maszyna wirtualna nie była „cyklicznie zasilana”, a jedynie miękki restart (jest to niewidoczne dla infrastruktury). Wiedzieliśmy, że to nie jest magazyn, ponieważ już to wykluczyliśmy. Podejrzewaliśmy, że nie został zautomatyzowany, ponieważ działo się to w ciągu kilku godzin na określonych maszynach wirtualnych. Domyślamy się, że to nie było złośliwe, bo dlaczego konsola miałaby zgłaszać czyszczenie dysku, gdyby tak było :)
Konkluzją było więc czyszczenie dysku inicjowane przez użytkownika. Tak daleko, jak poszło moje śledztwo, ale mam nadzieję, że okaże się to przydatne.
Wyciągnięte wnioski:
- Wykonaj kopię zapasową i przetestuj przywrócone pliki
- Upewnij się, że wszyscy użytkownicy, w szczególności użytkownicy administracyjni, wiedzą, że pracują w środowisku z elastyczną obsługą administracyjną i powinni unikać formatowania dysku z zapisem (np. Zapisywać obciążenia 1
- Przygotuj dobry system monitorowania.
- I dla mnie nowe: w każdym dużym środowisku wirtualnym przygotuj maszynę wirtualną do narzędzi, nawet wyłączoną, z zainstalowanymi narzędziami diagnostycznymi; wydajność, pamięć sieciowa. Gdyby to było możliwe, moglibyśmy zamontować i wykonać zrzut heksadecymalny na uszkodzonym dysku, aby sprawdzić, czy jest on naprawdę pusty, czy po prostu brakuje mbr. Moglibyśmy także zobaczyć, czy został napisany z jedynkami.