Nieznane narzędzie czyści nasze maszyny wirtualne i nie możemy ich zidentyfikować


18

Widok konsoli maszyny wirtualnej Windows 2008 R2 na vSphere pokazuje następujący ekran:

Zrzut ekranu programu

„Operacja 2 z 2” „Wycieranie dysku”

Czy ktoś może doradzić, co to jest ten program?

Kilka informacji na temat tej tajemnicy:

Liczba maszyn wirtualnych jest teraz wykonywana. Objaw pojawia się po ponownym uruchomieniu systemu Pojawia się komunikat „Nie znaleziono systemu operacyjnego”.

  • Maszyny wirtualne działają na ESXi. Maszyny wirtualne działają w określonym magazynie danych
  • Netapp NFS Montowanie dysku w działającym pudełku pokazuje brak tablicy partycji, nie udało się jeszcze wykonać zrzutu heksadecymalnego.
  • VM nie było twardego resetu, musiałby to być miękki reset inicjowany przez system operacyjny
  • Nie ma zainstalowanego ISO. Nie było dostępu do maszyny wirtualnej typu „gość”, więc musiałby to być RDP lub podobny
  • Kopie zapasowe są wykonywane przy użyciu oprogramowania do tworzenia kopii zapasowych Netapp przez noc
  • NFS, o którym mowa, jest cienko alokowany na zapleczu (na poziomie tablicy) i zabrakło miejsca tuż po tym, jak zobaczyliśmy te problemy.

1
Czy potwierdziłeś, że nie ma skonfigurowanego serwera PXE, który mógłby to robić?
Dan

@DAN no PXE jest odbierane po ponownym uruchomieniu VM - stąd „no os found”, chyba że jest to bardzo ukierunkowana konfiguracja pxe. Również brak
dostępu do pamięci w systemie plików

1
Czy jest to ograniczone do twoich maszyn wirtualnych z systemem Windows, czy wszystkich tych maszyn wirtualnych, które masz na tym hoście?
MDMoore313,

9
Czysto oparty na projekcie okna, zawarte w nim ciągi znaków, jako garść podobnych zrzutów ekranu, wygląda na to, że narzędzie jest czymś zbudowanym przez Acronis. Oto przykład narzędzia Acronis zbudowanego dla Seagate (kliknij kilka razy przycisk „Dalej”, aby go zobaczyć), który wygląda bardzo podobnie.
Moshe Katz

1
Widziałem podobny układ interfejsu użytkownika w programie Acronis Disc Director. Najwyraźniej ma funkcję „wyczyść dysk” (google go), z której nigdy nie korzystałem. Wygląda na to, że działa na twoim gościu. Konfigurujesz go za pomocą GUI (być może ma także exe wiersza poleceń) i takie rzeczy zdarzają się po restarcie.
Daniel F

Odpowiedzi:


10

Niestety wygląda na to, że możemy nie dojść do sedna tego, czym była aplikacja, ale aby uzyskać pewną wartość z tego incydentu, chciałem utworzyć odpowiedź referencyjną. Jest to VMware i wirtualne zarządzanie warstwami. Wielu administratorów jest posegregowanych i nie może szybko uzyskać dostępu do gościa lub magazynu, a to dla nich :)

http://support.seagate.com/kbimg/flash/laptop/Laptop.swf wydaje się najbardziej pasować do rzeczywistej aplikacji, którą znalazł @MosheKatz.

Jeśli tak się stanie w przyszłości, dochodzenie powinno wyglądać następująco:

  • Zauważysz, że niektóre maszyny wirtualne uległy awarii. Podejrzewasz, że jest to spowodowane problemem z pamięcią masową (ponieważ jest to zwykle najbardziej prawdopodobna przyczyna)
  • Najpierw spróbuj wyodrębnić wspólny czynnik. Czy wszystkie awarie maszyn wirtualnych współużytkują ten sam magazyn danych? W tym przypadku były, ale niektóre Maszyny były w porządku, więc wykluczyliśmy oczywiste problemy ze sprzętem.
  • Sprawdź wszystkie uszkodzone maszyny wirtualne, aby zobaczyć, czy istnieje wspólny czynnik (czas, funkcja itp.). W tym przypadku nie było.
  • Sprawdź inne niezwykłe zdarzenia. Coś podniosło tutaj flagę:

    • Pamięć masowa NFS była cienko zabezpieczona (na poziomie macierzy). Oznacza to, że chociaż np. 200 GB jest prezentowane hostom ESXi, w rzeczywistości dostępne jest tylko 100 GB. Jednak tylko tablica ma tę wiedzę. Odkryliśmy, że wiele maszyn wirtualnych zostało wstrzymanych, ponieważ zabrakło miejsca na dysku. Myśleliśmy, że mogła to być główna przyczyna, więc naszym pierwszym działaniem było przydzielenie większej ilości miejsca na zapleczu, aby usunąć to jako problem.
  • Gdy problem został rozwiązany (prosta zmiana interfejsu użytkownika), a wstrzymane maszyny wirtualne zostały pomyślnie zrestartowane, wróciliśmy do pierwotnego problemu. Zainstalowaliśmy dyski wirtualne z uszkodzonych maszyn wirtualnych na działającej maszynie wirtualnej i zauważyliśmy, że na dyskach nie ma tabeli partycji. Nie mieliśmy dostępnej przeglądarki hexów, więc musieliśmy założyć, że dyski są teraz puste.

  • System monitorowania zaalarmował nową maszynę wirtualną, która właśnie przestała odpowiadać. To było świetne, ponieważ ładunek maszyn wirtualnych miał kilka minut, zanim przestał odpowiadać z powodu problemu z miejscem na dysku, więc fakt, że ta nowa maszyna wirtualna została szybko znaleziona, był oznaką dobrego zarządzania monitorowaniem.

  • Otworzyliśmy konsolę, sprawdziliśmy gościa i zobaczyliśmy powyższy zrzut ekranu.

    • Na tym etapie poszedłem do pokoju rozmów z błędami serwera, aby sprawdzić, czy program można zidentyfikować, a mój kolega z magazynu sprawdził wszystkie dzienniki i zdarzenia warstwy wirtualnej, aby upewnić się, że z naszego obszaru nie działa żadna operacja magazynowania.
  • To, co powinniśmy zrobić, to zawiesić maszynę wirtualną, pozwolić na zapisanie pliku zawieszenia i przeanalizować zrzut, aby sprawdzić, czy można zidentyfikować działający program. Zawieś maszynę wirtualną do podstawowego pliku PDF VMware KB

Pod koniec dnia wiedzieliśmy, że narzędzia infrastruktury wirtualnej nie zgłosiłyby się u gościa, jak to miało miejsce powyżej. Widzieliśmy, że nie było zamontowanego ISO i nie zarejestrowano żadnych zdarzeń na maszynie wirtualnej. Widzieliśmy, że maszyna wirtualna nie była „cyklicznie zasilana”, a jedynie miękki restart (jest to niewidoczne dla infrastruktury). Wiedzieliśmy, że to nie jest magazyn, ponieważ już to wykluczyliśmy. Podejrzewaliśmy, że nie został zautomatyzowany, ponieważ działo się to w ciągu kilku godzin na określonych maszynach wirtualnych. Domyślamy się, że to nie było złośliwe, bo dlaczego konsola miałaby zgłaszać czyszczenie dysku, gdyby tak było :)

Konkluzją było więc czyszczenie dysku inicjowane przez użytkownika. Tak daleko, jak poszło moje śledztwo, ale mam nadzieję, że okaże się to przydatne.

Wyciągnięte wnioski:

  • Wykonaj kopię zapasową i przetestuj przywrócone pliki
  • Upewnij się, że wszyscy użytkownicy, w szczególności użytkownicy administracyjni, wiedzą, że pracują w środowisku z elastyczną obsługą administracyjną i powinni unikać formatowania dysku z zapisem (np. Zapisywać obciążenia 1
  • Przygotuj dobry system monitorowania.
  • I dla mnie nowe: w każdym dużym środowisku wirtualnym przygotuj maszynę wirtualną do narzędzi, nawet wyłączoną, z zainstalowanymi narzędziami diagnostycznymi; wydajność, pamięć sieciowa. Gdyby to było możliwe, moglibyśmy zamontować i wykonać zrzut heksadecymalny na uszkodzonym dysku, aby sprawdzić, czy jest on naprawdę pusty, czy po prostu brakuje mbr. Moglibyśmy także zobaczyć, czy został napisany z jedynkami.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.