W artykule zatytułowanym Głębokie uczenie się i zasada wąskiego gardła informacji autorzy stwierdzają w sekcji II A), co następuje:
Pojedyncze neurony klasyfikują tylko liniowo separowalne dane wejściowe, ponieważ mogą implementować tylko hiperpłaszczyzny w swojej przestrzeni wejściowej . Hiperplany mogą optymalnie klasyfikować dane, gdy dane wejściowe są warunkowo niezależne.
Aby to pokazać, wyprowadzają następujące. Korzystając z twierdzenia Bayesa, uzyskują:
(1)
Gdzie jest wejściem, jest klasą i jest przewidywaną klasą (zakładam, Nie określono). Kontynuując, twierdzą, że:
(2)
Gdzie jest wymiarem wejściowym i Nie jestem pewien (znowu oba są niezdefiniowane). Biorąc pod uwagę neuron esicy, z funkcją aktywacji esicy i wstępna aktywacja , po wstawieniu (2) do (1) otrzymujemy optymalne wartości masy i , gdy wartości wejściowe .
Teraz przejdź do moich pytań. Rozumiem, jak wstawianie (2) do (1) prowadzi do optymalnej masy i wartości wejściowych. Jednak nie rozumiem, co następuje:
- Jak powstaje (1) przy użyciu twierdzenia Bayesa?
- Jak powstaje (2)? Co jest? Jakie jest jego znaczenie? Zakładam, że ma to coś wspólnego z warunkową niezależnością
- Nawet jeśli wymiary x są warunkowo niezależne, to jak można stwierdzić, że jest ono równe skalowanemu prawdopodobieństwu? (tj. jak możesz to stwierdzić?)
EDYCJA: zmienna jest zmienną klasy binarnej. Z tego zakładam, żejest „inną” klasą. To rozwiązałoby pytanie 1. Zgadzasz się?