Przeczytałem to:
Aby wytrenować naszą sieć neuronową, zainicjujemy każdy parametr W (l) ijWij (l) i każdy b (l) ibi (l) do małej losowej wartości bliskiej zeru (powiedzmy zgodnie z Normalną (0, ϵ2) Normalną (0 , ϵ2) rozkład dla niektórych małych ϵϵ, powiedzmy 0,01)
z samouczków głębokiego uczenia się Stanforda w siódmym akapicie algorytmu propagacji wstecznej
Nie rozumiem, dlaczego inicjalizacja wagi lub odchylenia powinna wynosić około 0 ?