Mała uczelnia, w której pracuję, ma bardzo dziwne problemy z siecią. Szukam tutaj porady lub pomysłów. Latem wszystko było w porządku, ale kłopoty zaczęły się kilka dni po powrocie studentów do kampusu w okresie jesiennym.
Objawy
Głównym objawem jest to, że dostęp do Internetu będzie działał, ale jest bardzo powolny ... często do przekroczenia limitu czasu. Na przykład typowy wynik z Speedtest.net zwróci pobieranie .4 Mb / s, ale zezwoli na szybkość przesyłania od 3 do 8 Mb / s. Mniejsze objawy mogą obejmować poważnie ograniczoną wydajność przesyłania danych do iz naszego serwera plików, a nawet w niektórych przypadkach niemożność zalogowania się na komputerze (brak dostępu do kontrolera domeny). Problem dotyczy wielu sieci vlan i wpłynął na działanie urządzeń na prawie każdym vlanie, który obsługujemy.
Problem nie dotyczy wszystkich komputerów w sieci. Na nienaruszoną maszynę zazwyczaj pobiera się co najmniej 11 Mb / s ze strony speedtest.net, a być może znacznie więcej, w zależności od większych natężeń ruchu w kampusie w tym czasie.
Istnieje jeden wariant większego problemu. Mamy jeden vlan, w którym użytkownicy nie byli w stanie zalogować się na prawie wszystkich komputerach. Personel IT zalogowałby się przy użyciu lokalnego konta administratora (lub w niektórych przypadkach buforowanych danych uwierzytelniających), a stamtąd wydanie / odnowienie lub pingowanie bramy umożliwiłoby maszynie ... na chwilę. Problem komplikuje to, że ten vlan obejmuje nasze laboratoria komputerowe, które używają oprogramowania o nazwie Deep Freeze, aby całkowicie zresetować dyski twarde po ponownym uruchomieniu. Może to być ten sam problem objawiający się inaczej z powodu przestarzałych danych na komputerach, które od tygodni nie zmieniły trwale informacji niskiego poziomu. Byliśmy jednak w stanie to rozwiązać, tworząc nowy vlan i przenosząc laboratoria do nowej hurtowni vlan.
Podżegania
W końcu zauważyliśmy, że wszystkie zautomatyzowane maszyny miały niedawno dzierżawę DHCP. Możemy przewidzieć, kiedy maszyna stanie się „wolna”, obserwując, kiedy dzierżawa dhcp pojawia się w celu odnowienia. Graliśmy z ustawieniem bardzo krótkiego czasu dzierżawy dla testowego vlana, ale wszystko, co zrobiliśmy, to usunięcie naszej zdolności przewidywania, kiedy maszyna zwolni. Maszyny ze statycznymi adresami IP prawie zawsze działały normalnie. Ręczne zwalnianie / odnawianie adresu nigdy nie spowoduje spowolnienia komputera. W rzeczywistości w niektórych przypadkach ten proces został naprawionymaszyna w tym stanie. Jednak przez większość czasu to nie pomaga. Zauważyliśmy również, że maszyny mobilne, takie jak laptopy, prawdopodobnie staną się wolne, gdy przejdą do nowych sieci. Sieć bezprzewodowa w kampusie jest podzielona na „strefy”, gdzie każda strefa przypisana jest do małego zestawu budynków. Przeprowadzka do nowego budynku może umieścić cię w strefie, przez co otrzymasz nowy adres. Bardzo prawdopodobne jest, że maszyna wychodząca z trybu uśpienia będzie działać wolno.
Łagodzenie
Czasami, ale nie zawsze, wyczyszczenie pamięci podręcznej arp na zaatakowanej maszynie pozwoli jej normalnie działać. Jak już wspomniano, zwolnienie / odnowienie adresu IP komputera lokalnego może naprawić ten komputer, ale nie jest to gwarantowane. Pingowanie domyślnej bramy może czasem pomóc przy powolnym komputerze.
To, co wydaje się najbardziej pomóc w złagodzeniu problemu, to wyczyszczenie pamięci podręcznej arp na naszym głównym przełączniku warstwy 3. Ten przełącznik jest używany w naszym systemie dhcp jako domyślna brama na wszystkich sieciach VLAN i obsługuje routing między vlanami. Model to 3Com 4900SX. Aby spróbować rozwiązać ten problem, ustawiliśmy limit czasu pamięci podręcznej na przełączniku aż do najniższego możliwego czasu, ale to nie pomogło. Przygotowałem również skrypt, który działa co kilka minut, aby automatycznie połączyć się z przełącznikiem i zresetować pamięć podręczną. Niestety, nie zawsze to działa, a nawet może spowodować, że niektóre maszyny znajdą się w stanie spowolnienia na krótki czas (chociaż wydają się one poprawiać po kilku minutach). Obecnie mamy zaplanowane zadanie, które będzie uruchamiane co 10 minut, aby zmusić przełącznik główny do wyczyszczenia pamięci podręcznej ARP, ale nie jest to doskonałe ani pożądane.
Reprodukcja
Mamy teraz maszynę testową, którą możemy dowolnie wymusić. Jest podłączony do przełącznika z portami skonfigurowanymi dla każdego z naszych vlanów. Spowalniamy maszynę, łącząc się z różnymi sieciami, a po nowym połączeniu lub dwóch będzie wolna.
Warto również zauważyć w tej sekcji, że zdarzyło się to wcześniej na początku poprzednich terminów, ale w przeszłości problem zniknął po kilku dniach. Rozwiązało się samo, zanim mieliśmy okazję wykonać wiele prac diagnostycznych ... dlatego pozwoliliśmy temu tak długo przeciągać się do terminu tym razem; spodziewano się, że będzie to sytuacja krótkotrwała.
Inne czynniki
Warto wspomnieć, że w ciągu ostatniego roku mieliśmy około pół tuzina przełączników, które po prostu uległy awarii. Są to głównie 3Comy z epoki 2003/2004 (głównie 4200), które zostały zainstalowane mniej więcej w tym samym czasie. Powinny być nadal objęte gwarancją, zakup HP sprawił, że obsługa jest nieco trudniejsza. Głównie w zasilaczach, które uległy awarii, ale w kilku przypadkach użyliśmy zasilacza z przełącznika z uszkodzoną płytą główną, aby przywrócić przełącznik z uszkodzonym zasilaczem do życia. Mamy teraz zasilacze UPS na wszystkich z wyjątkiem trzech z czterech przełączników, ale tak nie było, kiedy zaczynałem dwa i pół roku temu. Poważne ograniczenia budżetowe (byliśmy kilka lat temu na liście wydziałów instytucji finansowych Eda) zmusiły mnie do poszukiwania zamienników takich jak Netgear i TrendNet,
Warto również wspomnieć, że dużą zmianą w naszej sieci tego lata była migracja z jednego bezprzewodowego SSID między kampusami na wspomniane wcześniej podejście strefowe. Nie sądzę, że to jest źródłem problemu, jak już powiedziałem: widzieliśmy to wcześniej. Możliwe jednak, że zaostrza to problem i może być jednym z powodów, dla których tak trudno było go wyodrębnić.
Diagnoza
Na początku wydawało nam się jasne, biorąc pod uwagę czas i trwały charakter problemu, że źródłem problemu była zainfekowana (lub złośliwa) maszyna studencka zatruwająca pamięć podręczną ARP. Jednak wielokrotne próby izolacji źródła nie powiodły się. Próby te obejmują liczne ślady pakietów wireshark, a nawet wyłączanie całych budynków na krótki czas. Nie udało nam się nawet znaleźć złej pozycji ARP dla palącego pistoletu. Moje najlepsze przypuszczenie to przeciążony lub niedziałający przełącznik główny, ale nie jestem pewien, jak to sprawdzić, a koszt jego wymiany na ślepo jest ogromny.
Znów doceniono wszelkie pomysły.
Aktualizacja:
Przełącznik główny został wymieniony. Po 4 dniach wszystko działa poprawnie ... ale poczekam na dwa tygodnie, zanim problem zostanie rozwiązany.
mtr
może być pomocny tutaj.