Jak należy inicjalizować i regulować uprzedzenie?

Przeczytałem kilka artykułów na temat inicjalizacji jądra i wiele artykułów wspomina, że używają regulowania L2 jądra (często z ). $\lambda = 0.0001$

Czy ktoś robi coś innego niż inicjowanie błędu systematycznego zerowym i nieregulowanie go?

Dokumenty inicjujące jądro

Mishkin and Matas: Wszystko czego potrzebujesz to dobry init
Xavier Glorot i Yoshua Bengio: Zrozumienie trudności w trenowaniu głębokich sieci neuronowych
On i wsp .: Zagłębiając się w prostowniki: przewyższające wydajność na poziomie ludzkim w klasyfikacji ImageNet

neural-network

— Martin Thoma
źródło

Z Notatki Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Inicjowanie błędów. Jest możliwe i powszechne inicjowanie odchyleń na zero, ponieważ łamanie asymetrii jest zapewnione przez małe liczby losowe w wagach. W przypadku nieliniowości ReLU, niektórzy ludzie lubią stosować małą stałą wartość, taką jak 0,01 dla wszystkich stronniczości, ponieważ zapewnia to, że wszystkie jednostki ReLU odpalają na początku, a zatem uzyskują i propagują pewien gradient. Nie jest jednak jasne, czy zapewnia to stałą poprawę (w rzeczywistości niektóre wyniki wskazują na to, że działa to gorzej) i bardziej powszechne jest po prostu stosowanie inicjalizacji błędu 0.

W LSTM często inicjuje się odchylenia na 1 - patrz na przykład http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

— Lukas Biewald
źródło