Tak, ma to znaczenie techniczne. Zasadniczo do optymalizacji. Warto przeczytać Efficient Backprop LeCun i in.
Istnieją dwa powody tego wyboru (zakładając, że znormalizowałeś swoje dane, a to jest bardzo ważne):
Mając silniejsze gradienty: ponieważ dane są wyśrodkowane wokół 0, pochodne są wyższe. Aby to zobaczyć, oblicz pochodną funkcji tanh i zauważ, że jej zakres (wartości wyjściowe) wynosi [0,1].
Zakres funkcji tanh wynosi [-1,1], a zakres funkcji sigmoidalnej wynosi [0,1]
Unikanie stronniczości gradientów. Wyjaśnia to bardzo dobrze w artykule i warto je przeczytać, aby zrozumieć te problemy.
Mam niewielkie wątpliwości w zaproponowanym przez ciebie artykule. Na stronie 14, „Gdy MLP mają wspólne wagi (np. Sieci splotowe), szybkość uczenia się powinna być wybrana w taki sposób, aby była proporcjonalna do pierwiastka kwadratowego liczby połączeń dzielących wagę”. Czy możesz wyjaśnić dlaczego?
To bardzo ogólne pytanie. Krótko mówiąc: funkcja kosztu określa, co powinna zrobić sieć neuronowa: klasyfikacja lub regresja i jak. Gdybyś mógł dostać kopię „Sieci neuronowych do rozpoznawania wzorców” Christophera Bishopa, byłoby świetnie. Również „Uczenie maszynowe” Mitchella daje dobre wyjaśnienie na bardziej podstawowym poziomie.
Przykro mi, Satyo, zazwyczaj jestem dość zajęty w ciągu tygodnia. Jak dokładnie znormalizować swoje dane? en.wikipedia.org/wiki/Whitening_transformation Nie jestem do końca pewien, jaki może być twój problem. Najłatwiej jest odjąć średnią, a następnie wyrównać ją z macierzą kowariancji. Evtl. musisz dodać jakiś komponent dla wysokich częstotliwości (patrz transformacja ZCA w odnośniku powyżej)
Wielkie dzięki Juampa. Naprawdę bardzo mi pomagasz. Sugerowana lektura jest bardzo dobra. W rzeczywistości realizuję projekt eksploracji danych klimatycznych. 50% moich cech wejściowych to temperatura (zakres 200 K-310 K), a 50% moich cech wejściowych to wartości ciśnienia (zakres od 50000pa do 100000pa). Robię wybielanie. Przed pca, czy jest jakaś potrzeba, aby to znormalizować ... Jeśli tak, jak mam to znormalizować? Czy powinienem normalizować przed odejmowaniem od środka czy po odjęciu od środka? Otrzymuję różne wyniki, jeśli normalizuję się różnymi metodami ...
Wielkie dzięki @jpmuc! Zainspirowany twoją odpowiedzią osobno obliczyłem i narysowałem pochodną funkcji tanh i standardowej funkcji sigmoidalnej. Chciałbym się z wami wszystkimi podzielić. Oto co mam. Jest to pochodna funkcji tanh. Dla danych wejściowych między [-1,1] mamy pochodną między [0,42, 1].
Jest to pochodna standardowej funkcji sigmoidalnej f (x) = 1 / (1 + exp (-x)). Dla danych wejściowych między [0,1] mamy pochodną między [0,20, 0,25].
Innym sposobem spojrzenia na to jest to, że σ (2x) jest takie samo jak σ (x), ale z zastosowanym rozciągnięciem poziomym współczynnik skali 1/2 (tj. Jest to ten sam wykres, ale wszystko jest wciśnięte w kierunku osi y). Kiedy go
Nie rozumiem, dlaczego miałoby to mieć jakąkolwiek różnicę. Skala i squash będą losowe dla każdego węzła i (z przesunięciami i wagami na wejściu i wyjściu) oba będą uniwersalnymi aproksymatorami, zbiegającymi się do tego samego wyniku.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.