Dlaczego regresja logistyczna jest klasyfikatorem liniowym?

Skoro używamy funkcji logistycznej do przekształcania liniowej kombinacji danych wejściowych w nieliniowe dane wyjściowe, w jaki sposób regresję logistyczną można uznać za klasyfikator liniowy?

Regresja liniowa jest jak sieć neuronowa bez warstwy ukrytej, więc dlaczego sieci neuronowe są uważane za klasyfikatory nieliniowe, a regresja logistyczna jest liniowa?

logistic classification neural-networks

— Jack Twain
źródło

Przekształcenie „liniowej kombinacji wejścia do wyjścia nieliniowego” jest podstawowym elementem definicji z klasyfikatora liniowy . To sprowadza to pytanie do drugiej części, co sprowadza się do wykazania, że sieci neuronowe zasadniczo nie mogą być wyrażone jako klasyfikatory liniowe.

— whuber

@ whuber: Jak wyjaśnić fakt, że model regresji logistycznej może przyjmować wielomianowe zmienne predykcyjne (np.

) w celu uzyskania nieliniowej granicy decyzji? Czy to wciąż klasyfikator liniowy?

w_{1} \cdot x_{1}^{2} + w_{2} \cdot x_{2}^{3}

$w_1 \cdot x_1^2 + w_2 \cdot x_2^3$

— stackoverflowuser2010

@Stack Wydaje się, że koncepcja „klasyfikatora liniowego” pochodzi od koncepcji modelu liniowego. „Liniowość” w modelu może przybierać różne formy, jak opisano na stronie stats.stackexchange.com/a/148713 . Jeśli zaakceptujemy klasyfikację liniową klasyfikatorów w Wikipedii , wówczas twój przykład wielomianowy byłby postrzegany jako nieliniowy pod względem podanych „cech”

ale byłby liniowy pod względem cech

x_{1}

$x_1$

x_{2}

$x_2$

x_{1}^{2}

$x_1^2$

x_{2}^{3}

$x_2^3$ . To rozróżnienie stanowi użyteczny sposób wykorzystania właściwości liniowości.

— whuber

Nadal jestem nieco zdezorientowany, czy granica decyzji klasyfikatora logistycznego jest liniowa? Uczestniczyłem w kursie uczenia maszynowego Andrew Ng na Coursera i wspomniał o następujących rzeczach:! [Wprowadź opis zdjęcia tutaj ] ( i.stack.imgur.com/gHxfr.png ) Tak więc wydaje mi się, że nikt nie odpowiada na to pytanie zależy od liniowości lub nieliniowości granicy decyzji, która zależy od funkcji Hipoteza zdefiniowanej jako Htheta (X), gdzie X jest wejściem, a Theta to zmienne naszego problemu. Czy to ma dla ciebie sens?

— brokensword

Odpowiedzi:

Regresja logistyczna jest liniowa w tym sensie, że przewidywania można zapisać jako A zatem, przewidywanie może być napisany w zakresie , który jest liniową funkcją. (Dokładniej, przewidywany logarytmiczny iloraz jest funkcją liniową.)

\hat{p} = \frac{1}{1 + e^{- \hat{μ}}}, where \hat{μ} = \hat{θ} \cdot x .

$\hat{p} = \frac{1}{1 + e^{-\hat{\mu}}}, \text{ where } \hat{\mu} = \hat{\theta} \cdot x.$

\hat{μ}

$\hat{\mu}$

x

$x$

x

$x$

I odwrotnie, nie ma sposobu, aby podsumować wynik sieci neuronowej pod względem funkcji liniowej , i dlatego sieci neuronowe nazywane są nieliniowymi. $x$

Ponadto, dla regresji logistycznej, decyzja granica liniowa: to rozwiązanie . Granica decyzyjna sieci neuronowej zasadniczo nie jest liniowa. $\{x:\hat{p} = 0.5\}$ $\hat{\theta} \cdot x = 0$

— Stefan Wager
źródło

Jak dotąd odpowiedź jest dla mnie najbardziej przejrzysta i nieskomplikowana. Ale jestem trochę zmieszany. Niektórzy twierdzą, że predykat logarytmiczny jest funkcją liniową

a inni twierdzą, że jest to funkcja liniowa

. Więc?!

x

$x$

θ

$\theta$

— Jack Twain

to także przez twoje wyjaśnienie. Czy możemy powiedzieć, że predykcja sieci neuronowej jest liniową funkcją aktywacji ostatniej ukrytej warstwy?

— Jack Twain

\hat{θ} \cdot x

$\hat{\theta} \cdot x$

\hat{θ}

$\hat{\theta}$

x

$x$

x

$x$

x

$x$

x

$x$

x

$x$

@Pegah Wiem, że to stare, ale: regresja logistyczna ma liniową granicę decyzyjną. Sam ouptut nie jest oczywiście liniowy, jego logistyka. W zależności od tego, po której stronie linii spada punkt, całkowita moc wyjściowa zbliży się (ale nigdy nie osiągnie) odpowiednio 0 lub 1. I aby dodać do odpowiedzi Stefana Wagnersa: ostatnie zdanie nie jest całkowicie poprawne, sieć neuronowa jest nieliniowa, gdy zawiera nieliniowe aktywacje lub funkcje wyjściowe. Ale może być również liniowy (na wypadek, gdyby nie dodano żadnych nieliniowości).

— Chris

Jak zauważa Stefan Wagner, granica decyzyjna dla klasyfikatora logistycznego jest liniowa. (Klasyfikator wymaga, aby dane wejściowe były liniowo rozdzielne.) Chciałem rozwinąć matematykę, na wypadek, gdyby nie było to oczywiste.

\frac{1}{1 + e^{- θ \cdot x}} = 0.5

${1 \over {1 + e^{-{\theta \cdot x}}}} = 0.5$

1 = e^{- θ \cdot x}

${1 = e^{-{\theta \cdot x}}}$

i biorąc naturalny log z obu stron,

0 = - θ \cdot x = - \sum_{i = 0}^{n} θ_{i} x_{i}

$0 = -\theta \cdot x = -\sum\limits_{i=0}^{n} \theta_i x_i$

więc granica decyzji jest liniowa.

Powodem, dla którego granica decyzyjna dla sieci neuronowej nie jest liniowa, jest to, że istnieją dwie warstwy funkcji sigmoidalnych w sieci neuronowej: jedna w każdym z węzłów wyjściowych oraz dodatkowa funkcja sigmoidalna do łączenia i progowania wyników każdego węzła wyjściowego.

— Phil Bogle
źródło

W rzeczywistości można uzyskać nieliniową granicę decyzyjną z aktywacją tylko jednej warstwy. Zobacz standardowy przykład XOR z 2-warstwową siecią przesyłania dalej.

— James Hirschorn,

$C_{0}$ $C_{1}$

P (C_{0} | x) = \frac{P (x | C_{0}) P (C_{0})}{P (x)}

$P(C_{0}|x) = \frac{P(x|C_{0})P(C_{0})}{P(x)}$

P (C_{0} | x) = \frac{P (x | C_{0}) P (C_{0})}{P (x | C_{0}) P (C_{0}) + P (x | C_{1}) P (C_{1})} = \frac{1}{1 + \exp (- \log \frac{P (x | C_{0})}{P (x | C_{1})} - \log \frac{P (C_{0})}{P (C_{1})})}

$P(C_{0}|x) = \frac{P(x|C_{0})P(C_{0})}{P(x|C_{0})P(C_{0})+P(x|C_{1})P(C_{1})} = \frac{1}{1+ \exp\left(-\log\frac{P(x|C_{0})}{P(x|C_{1})}-\log \frac{P(C_{0})}{P(C_{1})}\right)}$

1 + e^{ω x}

$1+e^{\omega x}$

P (x | C_{i}) = \exp (\frac{θ_{i} x - b (θ_{i})}{a (ϕ)} + c (x, ϕ))

$P(x|C_{i}) = \exp \left(\frac{\theta_{i} x -b(\theta_{i})}{a(\phi)}+c(x,\phi)\right)$

\log \frac{P (x | C_{0})}{P (x | C_{1})} = [(θ_{0} - θ_{1}) x - b (θ_{0}) + b (θ_{1})] / a (ϕ)

$\log\frac{P(x|C_{0})}{P(x|C_{1})} = \left[ (\theta_{0}-\theta_{1})x - b(\theta_{0})+b(\theta_{1}) \right]/a(\phi)$

Zauważ, że zakładamy, że obie dystrybucje należą do tej samej rodziny i mają te same parametry dyspersji. Ale przy takim założeniu regresja logistyczna może modelować prawdopodobieństwa dla całej rodziny rozkładów wykładniczych.

— jpmuc
źródło