Upadek tak naprawdę nie usuwa neuronów, po prostu te konkretne neurony nie odgrywają żadnej roli (nie aktywują się) dla danej partii danych.
Przykład - załóżmy, że jest droga o 8 pasach - kiedy nadjeżdżają samochody ciężarowe, przejeżdżają przez pasy 1,2,4,6,7, gdy nadjeżdżają samochody, mijają pasy 2,3,4,7,8, a gdy nadjeżdżają rowery , przechodzą przez pasy 1,2,5,8. Niezależnie od pojazdu, wszystkie pasy są dostępne, ale tylko niektóre z nich są używane.
Podobnie, wszystkie neurony są używane w całym modelu, ale tylko pewien podzbiór neuronów jest aktywowany dla określonej partii danych. Model nie jest później wycinany, złożoność modelu pozostaje niezmienna.
Dlaczego warto skorzystać z dropouta?
Jak podano w książce Deep learning autorstwa Iana Goodfellowa,
rezygnacja jest bardziej skuteczna niż inne standardowe niedrogie obliczeniowo normalizatory, takie jak zanik masy, ograniczenia norm filtracyjnych i rzadka regularyzacja aktywności.
Mówi także -
Jedną z zalet rezygnacji jest to, że jest bardzo tanio obliczeniowa.
Inną znaczącą zaletą rezygnacji jest to, że nie ogranicza ona znacząco rodzaju modelu lub procedury szkoleniowej, którą można zastosować. Działa dobrze z prawie każdym modelem, który korzysta z reprezentacji rozproszonej i może być trenowany ze stochastycznym spadkiem gradientu. Obejmuje to sprzężone sieci neuronowe, modele probabilistyczne, takie jak ograniczone maszyny Boltzmanna (Srivastava i in., 2014), oraz nawracające sieci neuronowe (Bayer i Osendorfer, 2014; Pascanu i in., 2014a).
Ta książka mówi:
Podstawową ideą jest to, że wprowadzenie szumu do wartości wyjściowych warstwy może przełamać nieistotne wzorce zdarzeń, które sieć zacznie zapamiętywać, jeśli nie będzie żadnego hałasu.