Masz rację, że wiele warstw liniowych może być równoważnych pojedynczej warstwie liniowej. Jak powiedziano w innych odpowiedziach, nieliniowa funkcja aktywacji umożliwia klasyfikację nieliniową. Powiedzenie, że klasyfikator jest nieliniowy, oznacza, że ma nieliniową granicę decyzyjną. Granica decyzji jest powierzchnią, która oddziela klasy; klasyfikator przewidzi jedną klasę dla wszystkich punktów po jednej stronie granicy decyzji, a drugą klasę dla wszystkich punktów po drugiej stronie.
Rozważmy powszechną sytuację: przeprowadzanie klasyfikacji binarnej za pomocą sieci zawierającej wiele warstw nieliniowych jednostek ukrytych i jednostki wyjściowej z funkcją aktywacji sigmoidalnej. daje wynik, jest wektorem aktywacji ostatniej ukrytej warstwy, jest wektorem ich ciężarów na jednostce wyjściowej, a jest stronniczością jednostki wyjściowej. Dane wyjściowe to:h w byhwb
y= σ( h w + b )
gdzie jest logistyczną funkcją sigmoidalną. Dane wyjściowe interpretowane są jako prawdopodobieństwo, że klasa wynosi . Przewidywana klasa to:1 cσ1do
c = { 01y≤ 0,5y> 0,5
Rozważmy regułę klasyfikacji w odniesieniu do aktywacji ukrytych jednostek. Widzimy, że aktywacje ukrytej jednostki są rzutowane na linię . Reguła przypisywania klasy jest funkcją , która jest monotonicznie związana z rzutowaniem wzdłuż linii. Reguła klasyfikacji jest zatem równoważna z ustaleniem, czy rzut wzdłuż linii jest mniejszy lub większy niż jakiś próg (w tym przypadku próg jest podawany przez ujemne odchylenie). Oznacza to, że granica decyzyjna jest hiperpłaszczyzną prostopadłą do linii i przecina linię w punkcie odpowiadającym temu progowi.h W.+ by
Powiedziałem wcześniej, że granica decyzji jest nieliniowa, ale hiperpłaszczyzna jest samą definicją granicy liniowej. Ale rozważaliśmy granicę jako funkcję ukrytych jednostek tuż przed wyjściem. Aktywacje ukrytych jednostek są nieliniową funkcją oryginalnych danych wejściowych, ze względu na poprzednie ukryte warstwy i ich nieliniowe funkcje aktywacji. Jednym ze sposobów myślenia o sieci jest to, że mapuje dane nieliniowo na pewną przestrzeń funkcji. Współrzędne w tej przestrzeni są podawane przez aktywacje ostatnich ukrytych jednostek. Sieć dokonuje następnie klasyfikacji liniowej w tej przestrzeni (w tym przypadku regresji logistycznej). Możemy również myśleć o granicy decyzji jako funkcji oryginalnych danych wejściowych. Ta funkcja będzie nieliniowa w wyniku mapowania nieliniowego od wejść do aktywacji ukrytych jednostek.
Ten post na blogu pokazuje ładne postacie i animacje tego procesu.