Dobra analiza teoretyczna zi bez zastępczych schematów w kontekście algorytmów iteracyjnych opartych na losowych losowaniach (które są przeszkodami dla wielu przeszkolonych głębokich sieci neuronowych (DNN)) można znaleźć tutaj
Krótko mówiąc, okazuje się, że pobieranie próbek bez zamiany prowadzi do szybszej konwergencji niż pobieranie próbek z zamianą.
Dam tutaj krótką analizę na podstawie dostarczonego przez nich przykładu zabawki: Powiedzmy, że chcemy zoptymalizować następującą funkcję celu:
xopt=argminx12∑i=1N(x−yi)2
gdzie cel . W tym przykładzie, staramy się rozwiązać za optymalny x , podanych N etykietach rw I oczywiście.yi∼N(μ,σ2)xN.yi
Ok, więc jeśli mielibyśmy rozwiązać bezpośrednio dla powyższego optymalne , wówczas wzięlibyśmy pochodną funkcji straty tutaj, ustawiliśmy ją na 0 i rozwiązaliśmy dla x . Tak więc w naszym powyższym przykładzie strata jestxx
L=12∑i=1N(x−yi)2
i jego pierwszą pochodną byłoby:
δLδx=∑i=1N(x−yi)
Ustawienie do 0 i rozwiązanie dlax, daje:δLδxx
xopt=1N∑i=1Nyi
Innymi słowy, optymalne rozwiązanie jest niczym innym jak średnią próbki dla wszystkich próbek y .Ny
Teraz, jeśli nie moglibyśmy wykonać powyższego obliczenia naraz, musielibyśmy to zrobić rekurencyjnie, korzystając z poniższego równania aktualizacji spadku gradientu:
xi=xi−1−λi∇(f(xi−1))
a po prostu wstawienie tutaj naszych warunków daje:
xi=xi−1−λi(xi−1−yi)
Jeśli prowadzimy wyżej dla wszystkich , to skutecznie wykonujemy tę aktualizację bez wymiany. Powstaje zatem pytanie: czy możemy w ten sposób uzyskać optymalną wartość x ? (Pamiętaj, że optymalna wartość x to nic innego jak średnia próbki y ). Odpowiedź brzmi tak, jeśli pozwolisz λ i = 1 / i . Aby to zobaczyć, rozszerzamy:i∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
Ostatnie równanie jest jednak niczym innym jak wzorem średniej bieżącej! Tak więc, gdy przechodzimy przez zestaw od , i = 2 itd. Aż do i = N , wykonalibyśmy nasze aktualizacje bez wymiany, a nasza formuła aktualizacji daje nam optymalne rozwiązaniei=1i=2i=N , czyli próbka średnia!x
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
W przeciwieństwie do tego, gdybyśmy faktycznie rysowali z zamianą, to podczas gdy nasze losowania byłyby wtedy naprawdę niezależne, zoptymalizowana wartość byłaby różna od (optymalnej) średniej μ , a błąd kwadratowy dałby:xNμ
E{(xN−μ)2}
która będzie wartością dodatnią, a ten prosty przykład zabawki można rozszerzyć na większe wymiary. Powoduje to, że chcielibyśmy wykonywać próbkowanie bez wymiany jako bardziej optymalne rozwiązanie.
Mam nadzieję, że to wyjaśni to jeszcze bardziej!