Problem z przepustowością sieci (związany z ARP)


9

Mała uczelnia, w której pracuję, ma bardzo dziwne problemy z siecią. Szukam tutaj porady lub pomysłów. Latem wszystko było w porządku, ale kłopoty zaczęły się kilka dni po powrocie studentów do kampusu w okresie jesiennym.

Objawy

Głównym objawem jest to, że dostęp do Internetu będzie działał, ale jest bardzo powolny ... często do przekroczenia limitu czasu. Na przykład typowy wynik z Speedtest.net zwróci pobieranie .4 Mb / s, ale zezwoli na szybkość przesyłania od 3 do 8 Mb / s. Mniejsze objawy mogą obejmować poważnie ograniczoną wydajność przesyłania danych do iz naszego serwera plików, a nawet w niektórych przypadkach niemożność zalogowania się na komputerze (brak dostępu do kontrolera domeny). Problem dotyczy wielu sieci vlan i wpłynął na działanie urządzeń na prawie każdym vlanie, który obsługujemy.

Problem nie dotyczy wszystkich komputerów w sieci. Na nienaruszoną maszynę zazwyczaj pobiera się co najmniej 11 Mb / s ze strony speedtest.net, a być może znacznie więcej, w zależności od większych natężeń ruchu w kampusie w tym czasie.

Istnieje jeden wariant większego problemu. Mamy jeden vlan, w którym użytkownicy nie byli w stanie zalogować się na prawie wszystkich komputerach. Personel IT zalogowałby się przy użyciu lokalnego konta administratora (lub w niektórych przypadkach buforowanych danych uwierzytelniających), a stamtąd wydanie / odnowienie lub pingowanie bramy umożliwiłoby maszynie ... na chwilę. Problem komplikuje to, że ten vlan obejmuje nasze laboratoria komputerowe, które używają oprogramowania o nazwie Deep Freeze, aby całkowicie zresetować dyski twarde po ponownym uruchomieniu. Może to być ten sam problem objawiający się inaczej z powodu przestarzałych danych na komputerach, które od tygodni nie zmieniły trwale informacji niskiego poziomu. Byliśmy jednak w stanie to rozwiązać, tworząc nowy vlan i przenosząc laboratoria do nowej hurtowni vlan.

Podżegania

W końcu zauważyliśmy, że wszystkie zautomatyzowane maszyny miały niedawno dzierżawę DHCP. Możemy przewidzieć, kiedy maszyna stanie się „wolna”, obserwując, kiedy dzierżawa dhcp pojawia się w celu odnowienia. Graliśmy z ustawieniem bardzo krótkiego czasu dzierżawy dla testowego vlana, ale wszystko, co zrobiliśmy, to usunięcie naszej zdolności przewidywania, kiedy maszyna zwolni. Maszyny ze statycznymi adresami IP prawie zawsze działały normalnie. Ręczne zwalnianie / odnawianie adresu nigdy nie spowoduje spowolnienia komputera. W rzeczywistości w niektórych przypadkach ten proces został naprawionymaszyna w tym stanie. Jednak przez większość czasu to nie pomaga. Zauważyliśmy również, że maszyny mobilne, takie jak laptopy, prawdopodobnie staną się wolne, gdy przejdą do nowych sieci. Sieć bezprzewodowa w kampusie jest podzielona na „strefy”, gdzie każda strefa przypisana jest do małego zestawu budynków. Przeprowadzka do nowego budynku może umieścić cię w strefie, przez co otrzymasz nowy adres. Bardzo prawdopodobne jest, że maszyna wychodząca z trybu uśpienia będzie działać wolno.

Łagodzenie

Czasami, ale nie zawsze, wyczyszczenie pamięci podręcznej arp na zaatakowanej maszynie pozwoli jej normalnie działać. Jak już wspomniano, zwolnienie / odnowienie adresu IP komputera lokalnego może naprawić ten komputer, ale nie jest to gwarantowane. Pingowanie domyślnej bramy może czasem pomóc przy powolnym komputerze.

To, co wydaje się najbardziej pomóc w złagodzeniu problemu, to wyczyszczenie pamięci podręcznej arp na naszym głównym przełączniku warstwy 3. Ten przełącznik jest używany w naszym systemie dhcp jako domyślna brama na wszystkich sieciach VLAN i obsługuje routing między vlanami. Model to 3Com 4900SX. Aby spróbować rozwiązać ten problem, ustawiliśmy limit czasu pamięci podręcznej na przełączniku aż do najniższego możliwego czasu, ale to nie pomogło. Przygotowałem również skrypt, który działa co kilka minut, aby automatycznie połączyć się z przełącznikiem i zresetować pamięć podręczną. Niestety, nie zawsze to działa, a nawet może spowodować, że niektóre maszyny znajdą się w stanie spowolnienia na krótki czas (chociaż wydają się one poprawiać po kilku minutach). Obecnie mamy zaplanowane zadanie, które będzie uruchamiane co 10 minut, aby zmusić przełącznik główny do wyczyszczenia pamięci podręcznej ARP, ale nie jest to doskonałe ani pożądane.

Reprodukcja

Mamy teraz maszynę testową, którą możemy dowolnie wymusić. Jest podłączony do przełącznika z portami skonfigurowanymi dla każdego z naszych vlanów. Spowalniamy maszynę, łącząc się z różnymi sieciami, a po nowym połączeniu lub dwóch będzie wolna.

Warto również zauważyć w tej sekcji, że zdarzyło się to wcześniej na początku poprzednich terminów, ale w przeszłości problem zniknął po kilku dniach. Rozwiązało się samo, zanim mieliśmy okazję wykonać wiele prac diagnostycznych ... dlatego pozwoliliśmy temu tak długo przeciągać się do terminu tym razem; spodziewano się, że będzie to sytuacja krótkotrwała.

Inne czynniki

Warto wspomnieć, że w ciągu ostatniego roku mieliśmy około pół tuzina przełączników, które po prostu uległy awarii. Są to głównie 3Comy z epoki 2003/2004 (głównie 4200), które zostały zainstalowane mniej więcej w tym samym czasie. Powinny być nadal objęte gwarancją, zakup HP sprawił, że obsługa jest nieco trudniejsza. Głównie w zasilaczach, które uległy awarii, ale w kilku przypadkach użyliśmy zasilacza z przełącznika z uszkodzoną płytą główną, aby przywrócić przełącznik z uszkodzonym zasilaczem do życia. Mamy teraz zasilacze UPS na wszystkich z wyjątkiem trzech z czterech przełączników, ale tak nie było, kiedy zaczynałem dwa i pół roku temu. Poważne ograniczenia budżetowe (byliśmy kilka lat temu na liście wydziałów instytucji finansowych Eda) zmusiły mnie do poszukiwania zamienników takich jak Netgear i TrendNet,

Warto również wspomnieć, że dużą zmianą w naszej sieci tego lata była migracja z jednego bezprzewodowego SSID między kampusami na wspomniane wcześniej podejście strefowe. Nie sądzę, że to jest źródłem problemu, jak już powiedziałem: widzieliśmy to wcześniej. Możliwe jednak, że zaostrza to problem i może być jednym z powodów, dla których tak trudno było go wyodrębnić.

Diagnoza

Na początku wydawało nam się jasne, biorąc pod uwagę czas i trwały charakter problemu, że źródłem problemu była zainfekowana (lub złośliwa) maszyna studencka zatruwająca pamięć podręczną ARP. Jednak wielokrotne próby izolacji źródła nie powiodły się. Próby te obejmują liczne ślady pakietów wireshark, a nawet wyłączanie całych budynków na krótki czas. Nie udało nam się nawet znaleźć złej pozycji ARP dla palącego pistoletu. Moje najlepsze przypuszczenie to przeciążony lub niedziałający przełącznik główny, ale nie jestem pewien, jak to sprawdzić, a koszt jego wymiany na ślepo jest ogromny.

Znów doceniono wszelkie pomysły.

Aktualizacja:
Przełącznik główny został wymieniony. Po 4 dniach wszystko działa poprawnie ... ale poczekam na dwa tygodnie, zanim problem zostanie rozwiązany.


Czy widzisz utratę pakietów na zaatakowanych komputerach? Jeśli tak, to gdzie następuje utrata pakietu? mtrmoże być pomocny tutaj.
EEAA

3
Wygląda to podejrzanie, jakby jeden z przełączników był uszkodzony, niszcząc tablice arp i przenosząc uszkodzone wpisy do innych przełączników. Stąd częściowa ulga, gdy tabele są czyszczone na rdzeniu L3. Zdecydowanie zalecamy zresetowanie WSZYSTKICH przełączników przed dalszymi próbami rozwiązania problemu. Przy odrobinie szczęścia całkowicie rozwiązuje to problem. Jeśli przełącznik jest naprawdę uszkodzony, miejmy nadzieję, że nie powiedzie się jego diagnostyka po ponownym uruchomieniu. PS Nieznaczne wahania w sieci energetycznej mogą mieć ten efekt. Jeśli przełączniki nie są zasilane przez UPS, może to być podstawowa przyczyna.
Tonny,

@ErikA mamy pewną utratę pakietów. Zobaczę, czy uda mi się uzyskać lepszy ślad ... ale utrata pakietów pochodzi z każdej lokalizacji w kampusie, co oznacza, że ​​jedynym wspólnym punktem połączenia jest przełącznik główny i przełącznik podłączony do naszych serwerów.
Joel Coel,

1
@ Tonny Zresetowaliśmy wszystkie (no prawie wszystkie) przełączniki co najmniej dwa razy w ramach rozwiązywania problemów. Wydawało się, że to zmniejsza (nie eliminuje) skargi na około półtora dnia / dnia. Mamy około 40 jednostek przełączających, z urządzeniami UPS dla wszystkich oprócz trzech lub czterech. Najważniejsze jest to, że wszystkie nasze przełączniki zostały zainstalowane mniej więcej w tym samym czasie, a mieliśmy 6 całkowitych awarii w ciągu ostatniego roku, więc jest to bardzo wiarygodne.
Joel Coel,

1
Nie mam doświadczenia z 3com, ale być może istnieje sposób na ograniczenie liczby adresów mac nauczonych z danego portu. Możesz to zrobić na wszystkich portach dostępu do komputerów studentów na wypadek, gdyby ktoś zalał komputer Mac, zmieniając Twoje przełączniki w koncentratory.
Bad Dos

Odpowiedzi:


2

Joel,

Ponieważ masz skonfigurowane łącza i możesz zduplikować problem do woli. Zainstaluj Wireshark na laptopie i wykonaj kopię lustrzaną / łączącą port łącza zwrotnego. Jeśli widzisz szybkość pakietów przekraczającą 10 000 lub wykorzystanie portu w pobliżu prędkości maksymalnej, masz problem.

Być może masz problem ze sprzętem / drzewem opinającym. Zwykle znalazłem użytkowników podłączających oba nics na swoim komputerze, „aby uzyskać większą przepustowość”.

Zwykle w przypadku problemów z drzewem opinającym można włączyć wykrywanie pętli lub ograniczanie emisji na port od dostawcy. To zabije każdy port ze znalezioną pętlą. Możesz także włączyć „ochronę bpdu”, co oznacza wyłączenie portu, na który bpdu zostało odebrane, i wysłanie błędu do odbiorników pułapek syslog / snmp.

Joe


1

Widziałem wcześniej podobne problemy i była to pętla w sieci LAN, która powoduje chaos i nasycenie całej podsieci (prawdopodobnie z ruchu rozgłoszeniowego z powodu przełącznika widzącego swój własny MAC na dodatkowym porcie).

EDYCJA: Jest to również powszechne w placówkach edukacyjnych (dwa z moich poprzednich zadań sysadmin), ponieważ małe ukochane lubią bawić się z kablami / gniazdami krosowymi ...


Spędziliśmy dużo czasu, sprawdzając dokładnie to, ale ostatecznie to wykluczyliśmy.
Joel Coel

0

Brzmi dla mnie, gdy masz zły sprzęt, który powoduje burze nadawcze. Użyj Wireshark, aby oglądać transmisje i znaleźć hosta, który sprawia ci problemy ...


Jest bardzo mało prawdopodobne, aby niektóre maszyny działały dobrze, a inne nie. Burza z transmisją błyskawicznie rzuci całą sieć VLAN na kolana.
Paul Gear

0

Pomysł Joe jest dobry, ale biorąc pod uwagę, że prawdopodobnie nie jest to burza nadawców, która tworzy twój problem (myślę, że jesteś na dobrej drodze z zatruciem pamięci podręcznej ARP lub podobnym problemem; może to być nawet konflikt adresów IP), prawdopodobnie nie rozwiąże problemu.

Powiązana technika korzystania z dynamicznej kontroli ARP i DHCP, jeśli Twoje przełączniki ją obsługują. Jeśli to włączysz, przełączniki będą obserwować transakcje DHCP i zezwalają tylko na wpisy ARP, które pasują do znanych wpisów w bazie danych DHCP lub te, które zostały ręcznie określone.

Jeśli twoje przełączniki nie mają tej funkcji, inną opcją do śledzenia jest narzędzie Linux Arpwatch - śledzi wszystkie żądania ARP i informuje, kiedy zauważy zmianę mapowania IP-MAC.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.