Znalezienia różnic można dokonać, patrząc na modele. Najpierw spójrzmy na rzadkie kodowanie.
Rzadkie kodowanie
Rzadkie kodowanie minimalizuje cel
gdzie W jest macierzą zasad, H jest macierzą kodów, a X jest macierzą danych, które chcemy reprezentować. λ realizuje wymianę między rzadkością a rekonstrukcją. Zauważ, że jeśli otrzymamy H , oszacowanie W jest łatwe za pomocą najmniejszych kwadratów.
Lsc=||WH−X||22reconstruction term+λ||H||1sparsity term
WXλHW
Na początku jednak nie mamy Jednak istnieje wiele algorytmów, które mogą rozwiązać powyższy cel względem H . Właściwie w ten sposób wnioskujemy: musimy rozwiązać problem optymalizacji, jeśli chcemy poznać h należące do niewidzialnego x .HHhx
Auto enkodery
Automatyczne enkodery to rodzina nienadzorowanych sieci neuronowych. Jest ich całkiem sporo, np. Głębokie auto kodery lub te, które mają różne sztuczki regularyzacji - np. Denoising, skurcz, rzadki. Istnieją nawet sieci probabilistyczne, takie jak generatywne sieci stochastyczne lub wariacyjny auto koder. Ich najbardziej abstrakcyjną formą jest
ale na razie skorzystamy z dużo prostszej:
L ae = | | W σ ( W T X )
D(d(e(x;θr);θd),x)
gdzie
σ jest funkcją nieliniową, taką jak logistyczna sigmoid
σ ( x ) = 1Lae=||Wσ(WTX)−X||2
σ .
σ(x)=11+exp(−x)
Podobieństwa
Zauważ, że wygląda prawie jak L a e po ustawieniu H = σ ( W T X ) . Różnica polega na tym, że i) auto kodery nie zachęcają do rzadkości w swojej ogólnej formie ii) autoencoder używa modelu do wyszukiwania kodów, podczas gdy rzadkie kodowanie robi to za pomocą optymalizacji.LscLaeH=σ(WTX)
W odniesieniu do danych obrazu, naturalnego związku ze stałą koderów samochodowych i rzadki kodowania często są zbieżne . Auto kodery są jednak znacznie wydajniejsze i można je z łatwością uogólnić na znacznie bardziej skomplikowane modele. Np. Dekoder może być wysoce nieliniowy, np. Głęboka sieć neuronowa. Co więcej, nie ma się związku z kwadratową stratą (od której zależy oszacowanie W dla L s c .)WWLsc
Również różne metody regularyzacji dają reprezentacje o różnej charakterystyce. Wykazano również, że automatyczne kodowanie odszumiania jest równoważne pewnej formie RBM itp.
Ale dlaczego?
Jeśli chcesz rozwiązać problem z prognozowaniem, nie będziesz potrzebował auto koderów, chyba że masz tylko mało danych oznaczonych i dużo danych nieznakowanych. Wtedy na ogół lepiej jest wyszkolić głęboki auto koder i umieścić na nim liniowy SVM zamiast trenować głęboką sieć neuronową.
Są to jednak bardzo potężne modele do przechwytywania charakterystyki dystrybucji. Jest to niejasne, ale obecnie prowadzone są badania przekształcające to w twarde fakty statystyczne. Głęboko utajone modele gaussowskie, zwane także koderami Variational Auto lub generatywnymi sieciami stochastycznymi, są dość interesującymi sposobami uzyskania auto koderów, które w wiarygodny sposób szacują podstawowy rozkład danych.