Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione.
Podsumowując, niektóre materiały pozwalają, by był neuronem wyjściowym przed zastosowaniem aktywacji, gdzie jest wyjściem poprzedniej ukrytej warstwy, jest wektorem ciężarów, a jest skalarem skalarnym. Wektor wejściowy jest oznaczony (którego jest funkcją), a wartość wyjściowa jest oznaczona gdzie jest funkcją sigmoidalną. Książka chce zdefiniować rozkład prawdopodobieństwa dla za pomocą wartości . Z drugiego akapitu strony 183:
W tej chwili pomijamy zależność od aby omówić, jak zdefiniować rozkład prawdopodobieństwa dla za pomocą wartości . Sigmoid można motywować, konstruując nienormalizowany rozkład prawdopodobieństwa , który nie sumuje się do 1. Możemy następnie podzielić przez odpowiednią stałą, aby uzyskać prawidłowy rozkład prawdopodobieństwa. Jeśli zaczniemy od założenia, że nienormalizowane prawdopodobieństwa logarytmiczne są liniowe w i , możemy potęgować potęgowanie, aby uzyskać nietypowe prawdopodobieństwa. Następnie normalizujemy się, aby zobaczyć, że daje to rozkład Bernoulliego kontrolowany przez sigmoidalną transformację z:
Pytania: Mam wątpliwości co do dwóch rzeczy, szczególnie pierwszej:
- Skąd się bierze początkowe założenie? Dlaczego nieznormalizowanych prawdopodobieństwo dziennika liniowa i ? Czy ktoś może dać mi trochę informacji na temat tego, jak autorzy zaczęli od ?z log ˜ P ( y ) = y z
- Jak przebiega ostatnia linia?