Jedna ze stron mojego klienta otrzymała bezpośrednie uderzenie pioruna w zeszłym tygodniu (przypadkowo w piątek 13! ).
Byłem daleko od strony, ale pracując z kimś na miejscu, odkryłem dziwny wzór uszkodzeń. Oba łącza internetowe były wyłączone, większość serwerów była niedostępna. Wiele uszkodzeń miało miejsce w MDF , ale jeden IDF podłączony do światłowodu stracił również 90% portów w elemencie stosu przełączników. Dostępnych było wystarczająco dużo zapasowych portów przełączników, aby rozprowadzić okablowanie w innym miejscu i przeprogramować, ale wystąpiły przestoje, gdy ścigaliśmy uszkodzone urządzenia.
To był nowy budynek / obiekt magazynowy i wiele planowania poświęcono na zaprojektowanie serwerowni. Główna serwerownia jest zasilana z internetowego zasilacza UPS APC SmartUPS RT 8000VA z podwójną konwersją, wspieranego przez generator. Prawidłowy rozdział mocy do wszystkich podłączonych urządzeń. Miała miejsce replikacja danych poza siedzibą i kopie zapasowe systemów.
Podsumowując, szkoda (której jestem świadom) to:
- Awaria 48-portowej karty linii w przełączniku obudowy Cisco 4507R-E .
Awaria przełącznika Cisco 2960 w stosie 4-elementowym.(ups ... luźny kabel do układania w stosy)- Kilka niestabilnych portów na przełączniku Cisco 2960.
- Płyta główna i zasilacz HP ProLiant DL360 G7
- Moduł równoważący łącza Elfiq WAN.
- Jeden modem faksu Multitech.
- WiMax / Stała bezprzewodowa antena internetowa i wtryskiwacz mocy.
- Wiele urządzeń podłączonych do PoE (telefony VoIP, punkty dostępu Cisco Aironet, kamery bezpieczeństwa IP)
Większość problemów dotyczyła utraty całego przełącznika w Cisco 4507R-E. Zawierało to część sieci VMware NFS i łącze do zapory ogniowej witryny. Host VMWare zawiódł, ale HA zajął się maszyną wirtualną po przywróceniu łączności sieciowej z pamięcią masową. Zostałem zmuszony do ponownego uruchomienia / wyłączenia zasilania wielu urządzeń, aby wyczyścić funky stany zasilania. Czas na wyzdrowienie był krótki, ale jestem ciekawy, jakich lekcji należy się nauczyć ...
- Jakie dodatkowe zabezpieczenia należy wdrożyć, aby chronić sprzęt w przyszłości?
- Jak podejść do gwarancji i wymiany? Cisco i HP wymieniają elementy w ramach umowy. Drogi moduł równoważący łącza WAN Elfiq ma na swojej stronie napis, który w zasadzie powiedział „szkoda, użyj zabezpieczenia przeciwprzepięciowego ”. (wygląda na to, że oczekują tego typu awarii)
- Pracowałem w branży IT wystarczająco długo, aby w przeszłości spotkać się z uszkodzeniami spowodowanymi przez burze, ale z bardzo ograniczonym wpływem; np. interfejs sieciowy taniego komputera lub zniszczenie mini przełączników.
- Czy jest coś jeszcze, co mogę zrobić, aby wykryć potencjalnie niestabilny sprzęt, czy po prostu muszę czekać na pojawienie się dziwnego zachowania?
- Czy to wszystko po prostu pech, czy coś, co naprawdę powinno zostać uwzględnione w procesie odzyskiwania po awarii?
Przy wystarczającej liczbie $$$ można zbudować różnego rodzaju zwolnienia w środowisku, ale jaka jest rozsądna równowaga między zapobiegawczym / przemyślanym projektem a efektywnym wykorzystaniem zasobów?