Ostatnio wykorzystanie procesora przez silnik routingu na dwóch naszych routerach równorzędnych Juniper wzrosło z ~ 10-20% średniego obciążenia do 80 +%. Próbuję dowiedzieć się, co to powoduje (i jak przywrócić to wysokie obciążenie).
Kilka informacji na temat routerów: oba działają w tej samej wersji JunOS, oba są podłączone do tych samych dwóch równorzędnych sieci LAN IXP i mają dużą liczbę (kilkaset) (prawie identycznych) sesji IPv4 i IPv6. Oba routery mają połączenie z innym dostawcą tranzytowym IP i są podłączone w ten sam sposób do reszty naszej sieci. Obciążenie procesora silników routingu nie jest równe 80%, spadki wracają do normalnych poziomów od minut do godzin, ale spadki te nie są tak częste.
Rzeczy, które sprawdziłem:
- w chwili rozpoczęcia zwiększania nie wprowadzono żadnych zmian konfiguracji
- nie ma wzrostu ruchu bez emisji pojedynczej skierowanego na płaszczyznę kontrolną
- nie ma (istotnej) zmiany w ilości przekazywanego ruchu (choć nawet wzrost nie powinien mieć znaczenia)
show system processes summary
wskazuje, żerpd
proces powoduje duże obciążenie procesora- nie ma szybko trzepoczących peerów BGP powodujących dużą liczbę zmian BGP
Jednym z możliwych wyjaśnień, jakie mogę wymyślić, jest peer (lub więcej) na jednym z IXP, oba routery są podłączone do wysyłania dużej liczby aktualizacji BGP. Obecnie mam tylko statystyki dotyczące liczby komunikatów BGP dla moich sesji tranzytowych (nie wykazujących nienormalnej aktywności), a przy kilkuset sesjach BGP w równorzędnych sieciach LAN nie jest łatwo dostrzec problematyczne sesje, jeśli powinienem utworzyć wykresy dla wszystkie sesje.
Moje pytania to:
- czy są jeszcze inne rzeczy, które powinienem sprawdzić, aby znaleźć przyczynę tego wzrostu obciążenia procesora w silnikach routingu?
- jak mogę łatwo dowiedzieć się, które sesje powodują te problemy (jeśli moje założenie jest słuszne)? Włączenie opcji śledzenia BGP generuje ogromne ilości danych, ale nie jestem pewien, czy daje mi to prawdziwy wgląd.