Niepokoje pojedynczymi zdarzeniami nie są już kwestią przestrzeni ani samolotów; widzieliśmy, jak zdarzają się na powierzchni od ponad dekady, może teraz dwóch.
Jak już wspomniano, przynajmniej w aplikacjach kosmicznych mamy do czynienia z zdenerwowaniem za pomocą potrójnego głosowania (każdy bit to tak naprawdę trzy, a dwie trzecie głosów wygrywa, więc jeśli jest taki, który się zmienia, pozostałe dwa to pokryją). A następnie ECC lub EDAC , z płuczkami, które przechodzą przez pamięć RAM z częstotliwością wyższą niż przewidywana częstotliwość aktualizacji pojedynczych zdarzeń, aby usunąć zakłócenia pojedynczych zdarzeń (te, które faktycznie popychają dwie trzecie głosów źle).
Następnie jest całkowita dawka; z czasem materiał staje się zbyt radioaktywny, aby mógł działać, więc zużywasz wystarczającą ilość materiału, aby przedłużyć żywotność pojazdu. Nie jest to coś, o co normalnie się martwimy na powierzchni. (I zatrzaśnięcie) Używanie trzech / wielu zestawów logicznych równolegle jest / było sposobem, aby spróbować nie musieć używać tradycyjnej technologii rad-hard, i cóż, możesz sprawdzić, jak dobrze to działa.
Ludzie, którzy kiedyś wiedzieli, jak robić rzeczy dla kosmosu, przeszli na emeryturę lub przenieśli się, więc mamy teraz wiele programów tworzących śmieci kosmiczne. Lub traktując kosmos jak produkty związane z ziemią, zamiast próbować zmusić wszystkich do pracy i mieć kontrolowane ponowne wejście i wypalenie, oczekujemy teraz pewnej ilości śmieci kosmicznych z każdej konstelacji.
Na powierzchni widzimy zdenerwowania. Każdy zakupiony Memory Stick ( DRAM ) ma FIT, Failures In Time, a każdy układ z pamięcią RAM (wszystkie procesory, wiele innych) również będzie miał specyfikację FIT (dla bloków RAM (SRAM)). Pamięć RAM jest bardziej gęsta i wykorzystuje mniejsze tranzystory, więc jest bardziej podatna na zdenerwowanie, tworzenie wewnętrzne lub zewnętrzne. Przez większość czasu nie zauważamy ani nie dbamy o to, że pamięć, której używamy do przechowywania danych, oglądania wideo itp. Jest zapisywana, odczytywana i nie jest ponownie wykorzystywana, zanim pozostanie wystarczająco długo, aby mieć zdenerwowanie. Część pamięci, na przykład zawierająca program lub jądro, jest bardziej ryzykowna. Ale od dawna przyzwyczailiśmy się do ponownego uruchamiania naszego komputera lub resetowania / ponownego uruchamiania telefonu (niektóre telefony / marki musiałyby Państwo regularnie usuwać baterię okresowo). Czy były to problemy, złe oprogramowanie lub połączenie?
Numery FIT dla twojego indywidualnego produktu mogą przekraczać okres użytkowania tego produktu, ale weź dużą farmę serwerów, weźmiesz pod uwagę całą pamięć RAM lub układy scalone lub cokolwiek innego, a MTBF przechodzi od lat lub zamówień po tym, do dni lub godzin, gdzieś w farma. I masz ECC, aby objąć to, co możesz z nich. Następnie rozkładasz obciążenie przetwarzania za pomocą przełączania awaryjnego, aby objąć maszyny lub oprogramowanie, które nie wykonuje zadania.
Pragnienie pamięci półprzewodnikowej i odejście od spinningowych mediów stworzyło związany z tym problem. Pamięć masowa używana na dyski SSD (i inne nieulotne), aby uzyskać szybsze i tańsze, jest znacznie bardziej niestabilna niż byśmy tego chcieli i zależy od EDAC, ponieważ bez niej stracilibyśmy dane. Wrzucają wiele dodatkowych bitów i zajmują się tym wszystkim, robiąc matematykę, aby zrównoważyć szybkość, koszty i długowieczność przechowywania. Nie widzę nas zawracających; ludzie chcą wszędzie więcej nieulotnego miejsca do przechowywania, które mieści się w niewielkim opakowaniu i nie dominuje w cenie produktu.
Jeśli chodzi o normalne obwody, od pierwszych dni używania tranzystorów do obwodów cyfrowych do teraźniejszości, przechodzimy przez liniową część tranzystora i używamy go jako przełącznika, uderzamy go między szynami z pewnym nadmiarem, aby upewnić się, że się trzyma . Podobnie jak włącznik światła na ścianie, obracasz go o ponad połowę, a sprężyna pomaga reszcie i trzyma ją tam. Dlatego używamy technologii cyfrowej, a nie próbujemy żyć w regionie liniowym; próbowali wcześnie, ale się nie udało. Nie mogli zostać skalibrowani.
Więc po prostu trzaskujemy tranzystor w jego szyny, a obie strony sygnału ustabilizują się w następnym cyklu zegara. Podejmowane są wielkie wysiłki, a obecne narzędzia są znacznie lepsze niż kiedyś, przeprowadzając analizę projektu układu, aby zobaczyć, że z założenia istnieje margines czasu. Następnie przetestuj każdą matrycę na każdym waflu (tym i / lub po zapakowaniu), aby sprawdzić, czy każdy chip jest dobry.
Technologia Chip opiera się w dużej mierze na statystykach opartych na eksperymentach. Kiedy podkręcasz procesor, cóż, przesuwasz ten margines, pozostajesz w granicach reklamowanej częstotliwości zegara, temperatury itp., A twoje szanse są znacznie mniejsze. Procesor xyz 3 GHz to po prostu układ 4 GHz, który zawiódł przy 4 GHz, ale przeszedł na 3 GHz. Części są sortowane pod względem prędkości zasadniczo z linii produkcyjnej.
Następnie istnieją połączenia między układami scalonymi lub płytami, które również podlegają problemom, a wiele czasu i wysiłku poświęcane jest na tworzenie standardów i projektów płyt itp., Aby złagodzić błędy na tych interfejsach. USB , klawiatura, mysz, HDMI , SATA i tak dalej. Jak również wszystkie ślady na planszy. Na tablicy i poza nią masz problemy z przesłuchami; ponownie, dostępnych jest wiele narzędzi, jeśli ich używasz, a także doświadczenie w unikaniu problemów, ale jest to jeszcze jeden sposób, w którym możemy nie zauważyć, że zera i zera są w pełni zaangażowane.
Żadna z technologii, nawet kosmos, nie jest idealna. Musi być wystarczająco dobry, wystarczająca część produktu musi pokryć wystarczającą oczekiwaną żywotność produktu. Pewna część smartfonów musi przetrwać co najmniej dwa lata i to wszystko. Starsze odlewnie lub technologie mają więcej danych eksperymentalnych i mogą produkować bardziej niezawodny produkt, ale są wolniejsze i mogą nie być nowymi projektami, więc proszę bardzo. Najnowocześniejsze to po prostu hazard dla wszystkich.
Na konkretne pytanie tranzystory na każdym końcu sygnału są szybko przepychane przez ich region liniowy i przechylają się na jedną z szyn. Analiza jest przeprowadzana na każdej ścieżce kombinacyjnej, aby ustalić, że ustabilizuje się, zanim zegar na końcu ścieżki zatrzaśnie ją, tak że jest ona rzeczywiście równa zero lub jeden. Analiza oparta jest na eksperymentach. Pierwsze układy linii produktów są wypychane poza granice projektu, tworzone są wykresy schmoo w celu ustalenia marginesu w projekcie. Wprowadzono zmiany w procesie i / lub znaleziono poszczególnych kandydatów, którzy reprezentują wolne i szybkie żetony. Jest to skomplikowany proces, a niektóre mają więcej materiału, inne mają mniej, pracują szybciej, ale zużywają więcej energii lub pracują wolniej itp.
Przesuwasz je również na margines. Zasadniczo możesz poczuć ciepłe, rozmyte wrażenie, że projekt jest w porządku, aby przejść do produkcji. JTAG / skanowanie granic są używane do uruchamiania losowych wzorów przez chipy między każdym stanem zatrzaśnięcia, aby zobaczyć, że ścieżki kombinacyjne są solidne dla projektu. W razie wątpliwości mogą również wystąpić ukierunkowane testy funkcjonalne. Dalsze testy pierwszego krzemu i być może losowe testy, aby upewnić się, że produkt jest dobry. Jeśli wystąpią awarie, może to popchnąć cię z powrotem do większej liczby testów funkcjonalnych na linii produkcyjnej. Zależy to w dużej mierze od statystyk / procentów. 1/1000000 źle wychodzących może być w porządku, 1/1000 lub cokolwiek; zależy to od tego, ile ich wyprodukujesz.
Luki w zabezpieczeniach są wymienione tutaj i wraz z innymi. Najpierw sam układ, jak dobry był projekt i proces, jak blisko marży jest najsłabsza ścieżka konkretnego układu w zakupionym produkcie. Jeśli zbyt blisko krawędzi, zmiana temperatury lub inna może powodować problemy z synchronizacją, a bity zatrzaskują dane, które nie ustabilizowały się na wartości jeden lub zero. Następnie występują problemy z pojedynczym zdarzeniem. A potem jest hałas. znowu rzeczy już wspomniane ...