Gdy rozmiar technologii maleje, rezystancja / pojemność drutu nie może być skalowana proporcjonalnie do opóźnienia propagacji obecnie szybszych / mniejszych tranzystorów. Z tego powodu opóźnienie staje się w dużej mierze zdominowane przez przewody (ponieważ tranzystory tworzące bramki kurczą się; zmniejsza się zarówno ich pojemność wejściowa, jak i możliwości napędu wyjściowego).
Zatem istnieje kompromis między szybszym tranzystorem a możliwościami napędu tego samego tranzystora dla danego obciążenia. Jeśli weźmiesz pod uwagę, że najbardziej znaczącym obciążeniem dla większości bramek cyfrowych jest pojemność drutu i ochrona przed wyładowaniami elektrostatycznymi w następujących bramkach, zrozumiesz, że istnieje punkt, w którym zmniejszenie tranzystorów (szybsze i słabsze) nie zmniejsza już opóźnienia in situ (ponieważ obciążenie bramki jest zdominowane przez rezystancję / pojemność drutów i ESD / pojemność drutów oraz ochronę ESD do następnej bramki).
Procesory mogą to złagodzić, ponieważ wszystko jest zintegrowane z drutami o proporcjonalnych rozmiarach. Mimo to skalowanie opóźnienia bramki nie jest dopasowane do skalowania opóźnienia między połączeniami. Pojemność drutu zmniejsza się, zmniejszając drut (krótszy i / lub cieńszy) i izolując go od pobliskich przewodów. Zmniejszenie grubości drutu powoduje efekt uboczny również zwiększenia rezystancji drutu.
Po zejściu z układu scalonego rozmiary drutów łączących poszczególne układy scalone stają się zbyt duże (grubość i długość). Nie ma sensu tworzyć układów scalonych, które przełączają się z częstotliwością 2 GHz, kiedy mogą one praktycznie napędzać tylko 2FF. Nie ma sposobu na połączenie układów scalonych bez przekroczenia maksymalnych możliwości napędu. Na przykład „długi” drut w nowszych technologiach procesowych (7-22 nm) ma od 10 do 100um długości (i być może 80 nm grubości i 120 nm szerokości). Nie można tego racjonalnie osiągnąć bez względu na to, jak mądry jesteś dzięki rozmieszczeniu poszczególnych monolitycznych układów scalonych.
Zgadzam się również z Jonkiem, jeśli chodzi o ESD i buforowanie danych wyjściowych.
Jako numeryczny przykład dotyczący buforowania wyjściowego, rozważ praktyczną aktualną technologię bramka NAND ma opóźnienie 25ps przy odpowiednim obciążeniu, a wejście wejściowe ~ 25ps.
Ignorowanie opóźnienia przejścia przez pady / obwody ESD; ta brama może prowadzić tylko ~ 2-3fF. Aby buforować to do odpowiedniego poziomu na wyjściu, możesz potrzebować wielu etapów buforowania.
Każdy etap bufora będzie miał opóźnienie około ~ 20ps przy fanout 4. Możesz więc zobaczyć, że bardzo szybko tracisz korzyść z szybszych bramek, kiedy musisz tak bardzo buforować wyjście.
Załóżmy po prostu, że pojemność wejściowa przez zabezpieczenie ESD + drut (obciążenie, które każda brama musi być w stanie prowadzić) wynosi około 130fF, co prawdopodobnie jest bardzo niedoceniane. Używając fanout ~ 4 dla każdego etapu, potrzebujesz 2fF-> 8fF-> 16fF-> 32fF-> 128fF: 4 etapy buforowania.
Zwiększa to opóźnienie NAND 25ps do 105ps. Oczekuje się, że ochrona ESD przy następnej bramie również spowoduje znaczne opóźnienie.
Zatem istnieje równowaga między „stosowaniem najszybszej możliwej bramki i buforowaniem wyjścia” i „korzystaniem z wolniejszej bramki, która z natury (z powodu większych tranzystorów) ma większą moc wyjściową, a zatem wymaga mniejszych stopni buforowania wyjściowego”. Domyślam się, że to opóźnienie występuje około 1 ns dla bramek logicznych ogólnego przeznaczenia.
Procesory, które muszą łączyć się ze światem zewnętrznym, uzyskują większy zwrot z inwestycji w buforowanie (a zatem nadal stosują coraz mniejsze technologie), ponieważ zamiast płacić ten koszt między każdą bramą, płacą go raz na każdym porcie we / wy.