Zasadniczo moje pytanie brzmi: w perceptronach wielowarstwowych perceptrony są używane z funkcją aktywacji sigmoidalnej. Tak więc w regule aktualizacji jest obliczany jako
Czym zatem ten „sigmoidalny” Perceptron różni się od regresji logistycznej?
Powiedziałbym, że jednowarstwowy sigmoidalny perceptron jest równoważny regresji logistycznej w tym sensie, że obaj używają w regule aktualizacji. Również oba zwracają w prognozie. Jednak w wielowarstwowych perceptronach funkcja aktywacji sigmoidalnej jest używana do zwracania prawdopodobieństwa, a nie sygnału włączenia i wyłączenia w przeciwieństwie do regresji logistycznej i perceptronu jednowarstwowego. znak( y =1
Myślę, że użycie terminu „Perceptron” może być nieco niejednoznaczne, dlatego przedstawię nieco tła w oparciu o moje obecne rozumienie perceptronów jednowarstwowych:
Klasyczna reguła perceptronowa
Po pierwsze, klasyczny perceptron F. Rosenblatta, w którym mamy funkcję krokową:
zaktualizować wagi
Więc jest obliczany jako
Spadek gradientu
Korzystając z opadania gradientu, optymalizujemy (minimalizujemy) funkcję kosztów
gdzie mamy „rzeczywiste” liczby, więc widzę to w zasadzie analogiczne do regresji liniowej z tą różnicą, że nasze wyniki klasyfikacji są progowe.
W tym przypadku robimy krok w kierunku ujemnego gradientu, gdy aktualizujemy wagi
Ale tutaj mamy zamiast y =
Ponadto obliczamy sumę błędów kwadratowych dla pełnego przejścia przez cały zestaw danych treningowych (w trybie uczenia wsadowego) w przeciwieństwie do klasycznej reguły perceptronów, która aktualizuje wagi wraz z nadejściem nowych próbek treningowych (analogicznie do stochastycznego spadku gradientu - online uczenie się).
Funkcja aktywacji sigmoidalnej
Oto moje pytanie:
W wielowarstwowych perceptronach perceptrony są używane z funkcją aktywacji sigmoidalnej. Tak więc w regule aktualizacji jest obliczany jako
Czym zatem ten „sigmoidalny” Perceptron różni się od regresji logistycznej?