Hiperplany optymalnie klasyfikują dane, gdy dane wejściowe są warunkowo niezależne

10

W artykule zatytułowanym Głębokie uczenie się i zasada wąskiego gardła informacji autorzy stwierdzają w sekcji II A), co następuje:

Pojedyncze neurony klasyfikują tylko liniowo separowalne dane wejściowe, ponieważ mogą implementować tylko hiperpłaszczyzny w swojej przestrzeni wejściowej $u = wh+b$ . Hiperplany mogą optymalnie klasyfikować dane, gdy dane wejściowe są warunkowo niezależne.

Aby to pokazać, wyprowadzają następujące. Korzystając z twierdzenia Bayesa, uzyskują:

$p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})}$ (1)

Gdzie $x$ jest wejściem, $y$ jest klasą i $y'$ jest przewidywaną klasą (zakładam, $y'$ Nie określono). Kontynuując, twierdzą, że:

$\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)}$ (2)

Gdzie $N$ jest wymiarem wejściowym i $n$ Nie jestem pewien (znowu oba są niezdefiniowane). Biorąc pod uwagę neuron esicy, z funkcją aktywacji esicy $\sigma(u) = \frac{1}{1+exp(-u)}$ i wstępna aktywacja $u$ , po wstawieniu (2) do (1) otrzymujemy optymalne wartości masy $w_j = log\frac{p(x_j|y)}{p(x_j|y')}$ i $b=log\frac{p(y)}{p(y')}$ , gdy wartości wejściowe $h_j=np(x_j)$ .

Teraz przejdź do moich pytań. Rozumiem, jak wstawianie (2) do (1) prowadzi do optymalnej masy i wartości wejściowych $w,b,h$ . Jednak nie rozumiem, co następuje:

Jak powstaje (1) przy użyciu twierdzenia Bayesa?
Jak powstaje (2)? Co jest $n$ ? Jakie jest jego znaczenie? Zakładam, że ma to coś wspólnego z warunkową niezależnością
Nawet jeśli wymiary x są warunkowo niezależne, to jak można stwierdzić, że jest ono równe skalowanemu prawdopodobieństwu? (tj. jak możesz to stwierdzić $h_j=np(x_j)$ ?)

EDYCJA: zmienna $y$ jest zmienną klasy binarnej. Z tego zakładam, że $y'$ jest „inną” klasą. To rozwiązałoby pytanie 1. Zgadzasz się?

bayesian neural-networks information-theory

— Spurra
źródło

Staram się zrozumieć, skąd pochodzi równanie 2, pomimo wskazówek w odpowiedzi autora artykułu (prof. Tishby). Rozumiem część wynikającą z założenia o warunkowej niezależności. Nie jestem jednak pewien wykładnika

n p (x_{j})

$n p(x_j)$ - dlaczego tam jest?

— IcannotFix Ten

5

Przepraszam za brakujące szczegóły w naszym krótkim artykule, ale te relacje i powiązania między testem ilorazu wiarygodności a neuronami sigmoidalnymi z pewnością nie są nowe i można je znaleźć w podręcznikach (np. Bishop 2006). W naszym artykule „N” jest wymiarem wejściowym, a „n” jest rozmiarem próbki testowej (który faktycznie przełożył się na wejściowy SNR przy założeniu, że SNR rośnie jak sqrt (n)). Połączenie z funkcją sigmoidalną odbywa się za pomocą reguły Bayesa, jako a posteriori klasy. Reszta artykułu i nasz nowszy i ważniejszy artykuł z 2017 roku nie zależy od tego.

Naftali Tishby

— Naftali Tishby
źródło

2

Dziękujemy za wyjaśnienie tego tutaj. Standardową praktyką w tej społeczności jest pisanie pełnych cytatów, aby zainteresowani czytelnicy mogli szukać źródeł. Czy możesz to zrobić dla Bishopa (2006)?

— mkt - Przywróć Monikę

5

Jest to konfiguracja modelu, w której autorzy używają specjalnej formy twierdzenia Bayesa, która ma zastosowanie, gdy masz interesującą zmienną binarną. Najpierw wyprowadzają tę specjalną formę twierdzenia Bayesa jako równanie (1), a następnie pokazują, że warunek w równaniu (2) prowadzi ich do postaci liniowej określonej dla ich sieci. Należy zauważyć, że to ostatnie równanie nie wywodzi się z poprzednich warunków - jest to raczej warunek dla postaci liniowej, której używają do swojej sieci.

Wyprowadzenie pierwszego równania: równanie (1) w pracy jest tylko formą twierdzenia Bayesa, która określa warunkowe prawdopodobieństwo zainteresowania w kategoriach standardowej funkcji logistycznej (sigmoidalnej) działającej na funkcjach prawdopodobieństwa i wcześniejszych. Nabierający $y$ i $y'$ być dwoma wynikami binarnymi zmiennej losowej $Y$ i zastosowanie twierdzenia Bayesa daje:

\begin{aligned} p (y | x) = \frac{p (y, x)}{p (x)} & = \frac{p (x | y) p (y)}{p (x | y) p (y) + p (x | y^{'}) p (y^{'})} \\ = \frac{1}{1 + p (x | y^{'}) p (y^{'}) / p (x | y) p (y)} \\ = \frac{1}{1 + \exp (\log (\frac{p (x | y^{'}) p (y^{'})}{p (x | y) p (y)}))} \\ = \frac{1}{1 + \exp (- \log \frac{p (x | y)}{p (x | y^{'})} - \log \frac{p (y)}{p (y^{'})})} \\ = logistyka (\log \frac{p (x | y)}{p (x | y^{'})} + \log \frac{p (y)}{p (y^{'})}) . \end{aligned}

$\begin{equation} \begin{aligned} p(y|\mathbf{x}) = \frac{p(y,\mathbf{x})}{p(\mathbf{x})} &= \frac{p(\mathbf{x}|y) p(y)}{p(\mathbf{x}|y) p(y)+p(\mathbf{x}|y') p(y')} \\[6pt] &= \frac{1}{1+ p(\mathbf{x}|y') p(y')/p(\mathbf{x}|y) p(y)} \\[6pt] &= \frac{1}{1+ \exp \Big( \log \Big( \tfrac{p(\mathbf{x}|y') p(y')}{p(\mathbf{x}|y) p(y)} \Big) \Big)} \\[6pt] &= \frac{1}{1+ \exp \Big( - \log \tfrac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} - \log \tfrac{p(y)}{p(y')} \Big)} \\[6pt] &= \text{logistic} \Bigg( \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} + \log \frac{p(y)}{p(y')} \Bigg). \\[6pt] \end{aligned} \end{equation}$

Wykorzystanie równania (2) jako warunku dla formy lienarnej sieci: Jak stwierdzono powyżej, równanie to nie jest czymś, co wynika z wcześniejszych wyników. Jest to raczej wystarczający warunek, który prowadzi do formy liniowej, którą autorzy stosują w swoim modelu - tj. Autorzy twierdzą, że jeśli to równanie się zachowuje, to następują pewne kolejne wyniki. Pozwalając na wektor wejściowy $\mathbf{x} = (x_1,...,x_N)$ mieć długość $N$ , jeśli równanie (2) się utrzymuje, to przyjęcie logarytmów obu stron daje:

\begin{aligned} \log \frac{p (x | y)}{p (x | y^{'})} & = \log \prod_{ja = 1}^{N.} [\frac{p (x_{ja} | y)}{p (x_{ja} | y^{'})}]^{n p (x_{ja})} \\ = \sum_{ja = 1}^{N.} n p (x_{ja}) \log [\frac{p (x_{ja} | y)}{p (x_{ja} | y^{'})}] \\ = \sum_{ja = 1}^{N.} h_{ja} w_{ja} . \end{aligned}

$\begin{equation} \begin{aligned} \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} &= \log \prod_{i=1}^N \Big[ \frac{p(x_i|y)}{p(x_i|y')} \Big]^{n p (x_i)} \\[6pt] &= \sum_{i=1}^N n p (x_i) \log \Big[ \frac{p(x_i|y)}{p(x_i|y')} \Big] \\[6pt] &= \sum_{i=1}^N h_i w_i. \\[6pt] \end{aligned} \end{equation}$

Pod tym warunkiem otrzymujemy zatem formę tylną:

\begin{aligned} p (y | x) & = logistyka (\log \frac{p (x | y)}{p (x | y^{'})} + \log \frac{p (y)}{p (y^{'})}) \\ = logistyka (\sum_{ja = 1}^{N.} h_{ja} w_{ja} + b), \end{aligned}

$\begin{equation} \begin{aligned} p(y|\mathbf{x}) &= \text{logistic} \Bigg( \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} + \log \frac{p(y)}{p(y')} \Bigg) \\[6pt] &= \text{logistic} \Bigg( \sum_{i=1}^N h_i w_i + b \Bigg), \\[6pt] \end{aligned} \end{equation}$

która jest formą używaną przez autorów w ich sieci. Jest to modelowa forma postulowana przez autorów w sekcji tła, przed podaniem równań (1) - (2). Artykuł nie definiuje $n$ jest w konfiguracji tego modelu, ale jak zauważyłeś, odpowiedź prof Tishby mówi, że jest to wielkość próbki testowej. W odniesieniu do trzeciego pytania wydaje się, że wymóg równania (2) oznacza, że wartości w $\mathbf{x}$ nie są podane warunkowo niezależnie $y$ .

— Ben - Przywróć Monikę
źródło

Profesor Tishby (autor) mówi w swojej własnej odpowiedzi, że

n

$n$ to wielkość próbki testowej. Właśnie dlatego czułem, że eq (2) ma znacznie bogatszą interpretację niż tylko arbitralny warunek dla liniowej formy sieci.

— IcannotFix Ten

Dzięki - zredagowałem swoją odpowiedź, aby odzwierciedlić te dodatkowe informacje.

— Ben - Przywróć Monikę

4

Za 1

$P(y \mid x) = \frac{P(y, x)}{P(x)}$

$= \frac{P(y,x)}{\sum_{i}P(y_{i},x)}$

Teraz jak $y_{i}$ jest binarny, staje się:

$= \frac{P(y,x)}{P(y,x)+P(y',x)}$

$= \frac{1}{1+\frac{P(y',x)}{P(y,x)}}$

$= \frac{1}{1+exp[-log \ \frac{P(y,x)}{P(y',x)}]}$

a stamtąd jego właściwością logarytmu jest przejście do ostatecznej formy (do tego momentu powinno być wystarczająco jasne, daj mi znać, jeśli nie).

— Chris Ormandy
źródło

Hiperplany optymalnie klasyfikują dane, gdy dane wejściowe są warunkowo niezależne - dlaczego?