Jak należy inicjalizować i regulować uprzedzenie?


13

Przeczytałem kilka artykułów na temat inicjalizacji jądra i wiele artykułów wspomina, że ​​używają regulowania L2 jądra (często z ).λ=0,0001

Czy ktoś robi coś innego niż inicjowanie błędu systematycznego zerowym i nieregulowanie go?

Dokumenty inicjujące jądro

Odpowiedzi:


15

Z Notatki Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Inicjowanie błędów. Jest możliwe i powszechne inicjowanie odchyleń na zero, ponieważ łamanie asymetrii jest zapewnione przez małe liczby losowe w wagach. W przypadku nieliniowości ReLU, niektórzy ludzie lubią stosować małą stałą wartość, taką jak 0,01 dla wszystkich stronniczości, ponieważ zapewnia to, że wszystkie jednostki ReLU odpalają na początku, a zatem uzyskują i propagują pewien gradient. Nie jest jednak jasne, czy zapewnia to stałą poprawę (w rzeczywistości niektóre wyniki wskazują na to, że działa to gorzej) i bardziej powszechne jest po prostu stosowanie inicjalizacji błędu 0.

W LSTM często inicjuje się odchylenia na 1 - patrz na przykład http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.