Potrzebuję świeżej pary oczu.
Używamy 15-kilometrowej linii światłowodowej, przez którą multipleksowany jest kanał światłowodowy i 10GbE (pasywny optyczny CWDM). Dla FC mamy lasery dalekiego zasięgu odpowiednie do 40 km ( Skylane SFCxx0404F0D ). Multiplekser jest ograniczony przez SFP, które mogą wykonać max. Fibrechannel 4Gb. Przełącznik FC to seria Brocade 5000. Odpowiednie długości fal wynoszą 1550, 1570,1590 i 1610 nm dla FC i 1530 nm dla 10 GbE.
Problem polega na tym, że tkaniny 4GbFC prawie nigdy nie są czyste. Czasami są one przez pewien czas nawet przy dużym ruchu. Wtedy mogą nagle zacząć generować błędy (RX CRC, kodowanie RX, rozbieżność RX, ...) nawet przy niewielkim ruchu na nich. Dołączam niektóre wykresy błędów i ruchu. Błędy są obecnie rzędu 50-100 błędów na 5 minut przy ruchu 1 Gb / s.
Optyka
Oto podsumowana moc wyjściowa jednego portu (zebrana za pomocą sfpshow
różnych przełączników)
Jednostki SITE-A = uW (mikrowatt) SITE-B ********************************************** FAB1 SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko) RX 95,2 TX 1175,6 FAB2 SW2 TX 1422.0 RX 104,6 SW4 1610nm (ok) RX 54,3 TX 1468,4
W tym momencie ciekawi mnie asymetria poziomów mocy. Podczas gdy SW2 nadaje 1422uW, które SW4 odbiera przy 104uW, SW2 odbiera sygnał SW4 o podobnej pierwotnej mocy tylko przy 54uW.
Odwrotnie dla SW1-3.
W każdym razie SFP mają czułość RX do -18dBm (ok. 20uW), więc w każdym razie powinno być dobrze ... Ale nic nie jest.
Niektóre SFP zostały zdiagnozowane przez producenta jako nieprawidłowe (1550 nm pokazano powyżej z „ko”). Te 1610 nm najwyraźniej są w porządku, zostały przetestowane przy użyciu generatora ruchu. Dzierżawiona linia została również przetestowana więcej niż raz. Wszystko mieści się w granicach tolerancji. Czekam na zamienniki, ale z jakiegoś powodu nie wierzę, że to poprawi sytuację, ponieważ pozornie dobre nie powodują błędów ZERO.
Wcześniej był zaangażowany aktywny sprzęt (pewien rodzaj retimeru 4GFC) przed umieszczeniem sygnału na linii. Nie mam pojęcia dlaczego. Ten sprzęt został wyeliminowany z powodu problemów, więc teraz mamy tylko:
- laser dalekiego zasięgu w przełączniku,
- (nowy) 10 m kabel monomodowy LC-SC do multipleksera (dla każdej tkaniny),
- dzierżawiona linia,
- to samo, ale odwrotnie po drugiej stronie linku.
Przełączniki FC
Oto konfiguracja portu z Brocade portcfgshow
(oczywiście tak jest po obu stronach)
Numer obszaru: 0 Poziom prędkości: 4G Fill Word (On Active) 0 (Idle-Idle) Fill Word (Current) 0 (Idle-Idle) AL_PA Przesunięcie 13: WYŁ Port Trunk ON Long Distance LS VC Link Init OFF Pożądana odległość 32 km Zarezerwowane bufory 70 Zablokowany L_Port WYŁ Zablokowany G_Port WYŁ Wyłączone E_Port OFF Zablokowany E_Port WYŁ ISL R_RDY Tryb WYŁ Wyłączony RSCN Trwałe Wyłącz WYŁ Włącz LOS TOV WYŁ Możliwość NPIV WŁĄCZONA QOS E_Port OFF Automatyczne wyłączanie portu: WYŁ Limit stawki WYŁ EX Port OFF Port lustra wyłączony Odzyskiwanie kredytu WŁĄCZONE Bufory F_Port wyłączone Opóźnienie błędu: 0 (R_A_TOV) Limit NPIV PP: 126 Tryb CSCTL: WYŁ
Wymuszanie linków do 2GbFC nie powoduje żadnych błędów, ale kupiliśmy 4GbFC i chcemy 4GbFC.
Nie wiem już, gdzie szukać. Wszelkie pomysły, co wypróbować dalej lub jak kontynuować?
Jeśli nie możemy sprawić, by 4GbFC działało niezawodnie, zastanawiam się, co robią ludzie pracujący z 8 lub 16… Nie zakładam, że „kilka błędów tu i tam” jest do przyjęcia.
Aha i BTW, jesteśmy w kontakcie ze wszystkimi producentami (przełącznik FC, MUX, SFP, ...) Z wyjątkiem zmiany SFP (niektóre były zmieniane wcześniej) nikt nie ma pojęcia. Brocade SAN Health twierdzi, że tkanina jest w porządku. MUX, cóż, jest pasywny, to tylko pryzmat, natura w najlepszym wydaniu.
Jakieś strzały w ciemności?
DODATEK: Odpowiedzi na twoje pytania
@ Chopper3: Jest to druga generacja Brocades wykazująca problem. Wcześniej mieliśmy 5000, teraz mamy 5100. Na początku, kiedy jeszcze mieliśmy aktywne MUX, wypożyczyliśmy jeden raz laser długodystansowy, aby umieścić go bezpośrednio w przełączniku w celu wykonania testów na jeden dzień, w tym dniu był oczywiście czysty. Ale jak powiedziałem, czasami jest tak po prostu czyste. A czasem tak nie jest. Alternatywne przełączniki oznaczałyby przebudowanie całej sieci SAN za pomocą przełączników tylko do przetestowania. Alternatywne SFP, cóż, trudno jest po prostu tak po prostu dostać.
@longneck: Linia jest dzierżawiona. Jest to ciemne włókno (monomod 9um), więc nie ma na nim nikogo innego. Pewnie, że są spawy. Nie mogę iść i szukać, ale muszę ufać, że zostały wykonane poprawnie. Jak powiedziałem, linia została sprawdzona i ponownie sprawdzona (za pomocą optycznego reflektometru w dziedzinie czasu). Oczywiście nie masz tego całego sprzętu, ponieważ jest o wiele za drogi.
@mdpc: Jaki według Ciebie byłby „zły” typ kabla? Do przełącznika wszystko jest jednomodowe, tak. Złącza też są poprawne. Tak, wiem, że są zielone, w których światłowód jest odcinany pod pewnym kątem itp. Ale mamy odpowiednie dla wszystkiego, co wiem.
Raport z postępów nr 1
Mieliśmy dwie tkaniny (= 2x2 przełączniki) z Brocade 5100s z FabricOS 6.4.1 i dwie tkaniny (kolejne 2x4 przełączniki) w FabricOS 7.0.2.
Na ISL długodystansowych (po jednym w każdym materiale) okazało się, że przy ustawieniu FOS 6.4.1 na dalekie odległości pojawia się ostrzeżenie o ustawieniu VC Init, a tym samym słowie wypełnienia. Ale to tylko ostrzeżenia. FOS 7.0.2 wymaga modyfikacji VCI i słów kluczowych dla łączy długodystansowych.
Ustawienie FOS 6.4.1 na ustawienie LS (długodystansowa odległość statyczna) z niewłaściwym ustawieniem VCI i słowa-wypełnienia sprawiło, że cała tkanina nie działała (utknęła w pętli SCN, użyj, fabriclog -s
aby zobaczyć, nie widzisz jej nigdzie indziej, brak błędu portu liczniki lub cokolwiek rosnącego).
Obecnie daję jednej tkaninie z IMHO bardziej poprawnymi ustawieniami bicie i wydaje się, że dobrze sobie radzi, podczas gdy druga bez większego ruchu nadal ma błędy tu i tam.
W skrócie:
- Wyeliminowaliśmy aktywną część MUX (retimer FC).
- Umieszczamy SFP na duże odległości w samych urządzeniach końcowych.
- Dla pewności kupiliśmy nowe kable monomodowe do podłączenia sprzętu końcowego do pozostałej pasywnej części MUX.
- Próbujemy teraz kilku konfiguracji na duże odległości.
To prawie czarna magia. Wszystko, co się dzieje, jest głównie empiryczne, nikt nie ma pojęcia, jakie są dokładne powody, aby coś zrobić. („Próbowaliśmy tego i to nie działało, a następnie próbowaliśmy i działało, więc utknęliśmy z tym.” Ale nikt tak naprawdę nie wie, dlaczego.)
Będę Cie informować na bieżąco.
Raport z postępu prac nr 2
Otrzymaliśmy nowe lasery do jednego z materiałów objętych gwarancją. Jest ultra czysty nawet na 4GbFC.
Nadają z mocą około 2 mW (3dBm), podczas gdy inne mają tylko 1,5 mW (1,5 dBm), chociaż to naprawdę powinno wystarczyć.
Druga tkanina (gdzie lasery są najwyraźniej w porządku) nadal rzadko wytwarza jeden lub dwa CRC.
Korzystanie sfpshow
z SFP generującego rzeczywiste błędy RX pokazuje
Status / Ctrl: 0x82 Flagi alarmów [0,1] = 0x5, 0x40 Ostrzegaj flagi [0,1] = 0x5, 0x40
Teraz będę musiał dowiedzieć się, co to znaczy. Nie jestem pewien, czy już tam był.
Cóż, najpierw oczyszczę głowę z tygodni wakacji. 8-)