co sprawia, że sieci neuronowe są nieliniowym modelem klasyfikacji?

18

Próbuję zrozumieć matematyczne znaczenie nieliniowych modeli klasyfikacji:

Właśnie przeczytałem artykuł mówiący o sieciach neuronowych będących nieliniowym modelem klasyfikacji.

Ale zdaję sobie sprawę, że:

Pierwsza warstwa:

$h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2}$

$h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2}$

Kolejna warstwa

$y=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y}$

Można to uprościć

$=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y}$

$=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y})$

Dwuwarstwowa sieć neuronowa To tylko prosta regresja liniowa

$=b^′+x_1∗W_1^′+x_2∗W_2^′$

Można to pokazać na dowolnej liczbie warstw, ponieważ liniowa kombinacja dowolnej liczby wag jest znowu liniowa.

Co tak naprawdę sprawia, że sieć neuronowa jest nieliniowym modelem klasyfikacji?
Jak funkcja aktywacji wpłynie na nieliniowość modelu?
Możesz mi wytłumaczyć?

neural-networks nonlinear-regression nonlinear

— Alvaro Joao
źródło

18

Myślę, że zapomnisz funkcję aktywacji w węzłach w sieci neuronowej, która jest nieliniowa i sprawi, że cały model będzie nieliniowy.

W twojej formule nie jest całkowicie poprawne, gdzie,

h_{1} \neq w_{1} x_{1} + w_{2)} x_{2)}

$h_1 \neq w_1x_1+w_2x_2$

ale

h_{1} = sigmoid (w_{1} x_{1} + w_{2)} x_{2)})

$h_1 = \text{sigmoid}(w_1x_1+w_2x_2)$

gdzie sigmoid działa w ten sposób, $\text{sigmoid}(x)=\frac 1 {1+e^{-x}}$

Użyjmy liczbowego przykładu, aby wyjaśnić wpływ funkcji sigmoidalnej, załóżmy, że masz a następnie . Z drugiej strony załóżmy, że masz , i jest prawie taki sam jak , który jest nieliniowy. $w_1x_1+w_2x_2=4$ $\text{sigmoid}(4)=0.99$ $w_1x_1+w_2x_2=4000$ $\text{sigmoid}(4000)=1$ $\text{sigmoid}(4)$

Ponadto myślę, że slajd 14 w tym samouczku może pokazać, gdzie dokładnie popełniłeś błąd. W przypadku nie otuput to nie -7,65, ale $H_1$ $\text{sigmoid}(-7.65)$

— Haitao Du
źródło

1

Jak funkcja aktywacji wpłynie na nieliniowość modelu? Możesz mi wytłumaczyć?

— Alvaro Joao,

3

Masz rację, że wiele warstw liniowych może być równoważnych pojedynczej warstwie liniowej. Jak powiedziano w innych odpowiedziach, nieliniowa funkcja aktywacji umożliwia klasyfikację nieliniową. Powiedzenie, że klasyfikator jest nieliniowy, oznacza, że ma nieliniową granicę decyzyjną. Granica decyzji jest powierzchnią, która oddziela klasy; klasyfikator przewidzi jedną klasę dla wszystkich punktów po jednej stronie granicy decyzji, a drugą klasę dla wszystkich punktów po drugiej stronie.

Rozważmy powszechną sytuację: przeprowadzanie klasyfikacji binarnej za pomocą sieci zawierającej wiele warstw nieliniowych jednostek ukrytych i jednostki wyjściowej z funkcją aktywacji sigmoidalnej. daje wynik, jest wektorem aktywacji ostatniej ukrytej warstwy, jest wektorem ich ciężarów na jednostce wyjściowej, a jest stronniczością jednostki wyjściowej. Dane wyjściowe to: $y$ $h$ $w$ $b$

y = σ (h w + b)

$y = \sigma(hw + b)$

gdzie jest logistyczną funkcją sigmoidalną. Dane wyjściowe interpretowane są jako prawdopodobieństwo, że klasa wynosi . Przewidywana klasa to: $\sigma$ $1$ $c$

do = {\begin{array}{cl} 0 & y \leq 0,5 \\ 1 & y > 0,5 \end{array}

$c = \left \{ \begin{array}{cl} 0 & y \le 0.5 \\ 1 & y > 0.5 \\ \end{array} \right .$

Rozważmy regułę klasyfikacji w odniesieniu do aktywacji ukrytych jednostek. Widzimy, że aktywacje ukrytej jednostki są rzutowane na linię . Reguła przypisywania klasy jest funkcją , która jest monotonicznie związana z rzutowaniem wzdłuż linii. Reguła klasyfikacji jest zatem równoważna z ustaleniem, czy rzut wzdłuż linii jest mniejszy lub większy niż jakiś próg (w tym przypadku próg jest podawany przez ujemne odchylenie). Oznacza to, że granica decyzyjna jest hiperpłaszczyzną prostopadłą do linii i przecina linię w punkcie odpowiadającym temu progowi. $hW + b$ $y$

Powiedziałem wcześniej, że granica decyzji jest nieliniowa, ale hiperpłaszczyzna jest samą definicją granicy liniowej. Ale rozważaliśmy granicę jako funkcję ukrytych jednostek tuż przed wyjściem. Aktywacje ukrytych jednostek są nieliniową funkcją oryginalnych danych wejściowych, ze względu na poprzednie ukryte warstwy i ich nieliniowe funkcje aktywacji. Jednym ze sposobów myślenia o sieci jest to, że mapuje dane nieliniowo na pewną przestrzeń funkcji. Współrzędne w tej przestrzeni są podawane przez aktywacje ostatnich ukrytych jednostek. Sieć dokonuje następnie klasyfikacji liniowej w tej przestrzeni (w tym przypadku regresji logistycznej). Możemy również myśleć o granicy decyzji jako funkcji oryginalnych danych wejściowych. Ta funkcja będzie nieliniowa w wyniku mapowania nieliniowego od wejść do aktywacji ukrytych jednostek.

Ten post na blogu pokazuje ładne postacie i animacje tego procesu.

— user20160
źródło

1

Nieliniowość pochodzi od funkcji aktywacji sigmoidalnej, 1 / (1 + e ^ x), gdzie x jest liniową kombinacją predyktorów i wag, do których odnosiłeś się w pytaniu.

Nawiasem mówiąc, granice tej aktywacji wynoszą zero i jeden, ponieważ albo mianownik staje się tak duży, że ułamek zbliża się do zera, lub e ^ x staje się tak mały, że ułamek zbliża się do 1/1.

— Ryan Zotti
źródło

co sprawia, że ​​sieci neuronowe są nieliniowym modelem klasyfikacji?

co sprawia, że sieci neuronowe są nieliniowym modelem klasyfikacji?