Pytania otagowane jako optimization

Użyj tego tagu do dowolnego wykorzystania optymalizacji w statystykach.

8
Dlaczego metoda Newtona nie jest szeroko stosowana w uczeniu maszynowym?
To mnie denerwuje od jakiegoś czasu i nie mogłem znaleźć satysfakcjonujących odpowiedzi online, więc oto: Po przejrzeniu zestawu wykładów na temat optymalizacji wypukłej metoda Newtona wydaje się znacznie lepszym algorytmem niż zejście gradientu do znajdowania globalnie optymalnych rozwiązań, ponieważ metoda Newtona może zapewnić gwarancję rozwiązania, jest niezmienna afiniczna, a przede …


6
Czy można trenować sieć neuronową bez propagacji wstecznej?
Wiele książek i samouczków dotyczących sieci neuronowych spędza dużo czasu na algorytmie propagacji wstecznej, który jest zasadniczo narzędziem do obliczania gradientu. Załóżmy, że budujemy model z ~ 10 000 parametrów / wag. Czy można uruchomić optymalizację przy użyciu niektórych algorytmów optymalizacji bez gradientu? Myślę, że obliczanie gradientu numerycznego byłoby zbyt …


7
Po co optymalizować maksymalne prawdopodobieństwo dziennika zamiast prawdopodobieństwa
W większości zadań uczenia maszynowego, w których można sformułować pewne prawdopodobieństwo które należy zmaksymalizować, faktycznie zoptymalizowalibyśmy prawdopodobieństwo zamiast prawdopodobieństwa dla niektórych parametrów . Np. W treningu z maksymalnym prawdopodobieństwem jest to zwykle logarytm prawdopodobieństwa. W przypadku tej metody gradientowej wiąże się to z czynnikiem:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} …

7
Optymalizacja, gdy funkcja kosztu wolno ocenia
Spadek gradientu i wiele innych metod jest przydatnych do znajdowania lokalnych minimów w funkcjach kosztów. Mogą być wydajne, gdy funkcja kosztu może być szybko oszacowana w każdym punkcie, zarówno liczbowo, jak i analitycznie. Mam coś, co wydaje mi się niezwykłą sytuacją. Każda ocena mojej funkcji kosztów jest kosztowna. Usiłuję znaleźć …

5
Jakie jest intuicyjne wyjaśnienie, w jaki sposób PCA zmienia się z problemu geometrycznego (z odległościami) w problem algebry liniowej (z wektorami własnymi)?
Dużo czytałem o PCA, w tym różne tutoriale i pytania (takie jak ten , ten , ten i ten ). Geometryczny problem, który PCA próbuje zoptymalizować, jest dla mnie jasny: PCA próbuje znaleźć pierwszy główny składnik, minimalizując błąd rekonstrukcji (projekcji), który jednocześnie maksymalizuje wariancję rzutowanych danych. Kiedy po raz pierwszy …


1
Zrozumienie „prawie wszystkie lokalne minimum mają bardzo podobną wartość funkcji do globalnego optimum”
W ostatnim poście na blogu Rong Ge powiedziano, że: Uważa się, że w przypadku wielu problemów, w tym uczenia się sieci głębokich, prawie wszystkie lokalne minimum mają bardzo podobną wartość funkcji do globalnego optimum, a zatem znalezienie lokalnego minimum jest wystarczające. Skąd się bierze ta wiara?

1
Jak działa metoda Adama stochastycznego spadku gradientu?
Jestem zaznajomiony z podstawowymi algorytmami spadku gradientu do szkolenia sieci neuronowych. Czytałem artykuł proponujący Adam: ADAM: METODA OPTYMALIZACJI STOCHASTYCZNEJ . Chociaż zdecydowanie mam pewne spostrzeżenia (przynajmniej), papier wydaje się być dla mnie ogólnie za wysoki. Na przykład funkcja kosztu jest często sumą wielu różnych funkcji, dlatego w celu zoptymalizowania jej …

1
Sieci neuronowe: pęd zmiany masy i spadek masy ciała
Momentum służy do zmniejszenia wahań zmian masy w kolejnych iteracjach:αα\alpha gdzieE(w)jest funkcją błędu,w- wektor wag,η- szybkość uczenia się.Δ ωja( t + 1 ) = - η∂mi∂wja+ α Δ ωja( t ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Rozpad masy karze zmiany masy:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- …

5
Praktyczna optymalizacja hiperparametrów: wyszukiwanie losowe vs. siatka
Obecnie przechodzę przez Losowe wyszukiwanie Bengio i Bergsta w celu optymalizacji hiperparametrów [1], w którym autorzy twierdzą, że losowe wyszukiwanie jest bardziej wydajne niż wyszukiwanie siatkowe w osiąganiu w przybliżeniu jednakowej wydajności. Moje pytanie brzmi: czy ludzie tutaj zgadzają się z tym twierdzeniem? W swojej pracy korzystałem z wyszukiwania siatki …

1
Dlaczego glmer nie osiąga maksymalnego prawdopodobieństwa (potwierdzonego przez dalszą optymalizację ogólną)?
Wyprowadzanie liczbowe MLE z GLMM jest trudne i, w praktyce, wiem, nie powinniśmy stosować optymalizacji siły brutalnej (np. Używając optimw prosty sposób). Ale dla własnego celu edukacyjnego chcę go wypróbować, aby upewnić się, że poprawnie rozumiem model (patrz poniższy kod). Odkryłem, że zawsze otrzymuję niespójne wyniki glmer(). W szczególności, nawet …

3
Porównanie SVM i regresji logistycznej
Czy ktoś może mi podpowiedzieć, kiedy wybrać SVM lub LR? Chcę zrozumieć intuicję stojącą za różnicą między kryteriami optymalizacji uczenia się hiperpłaszczyzny tych dwóch, gdzie odpowiednie cele są następujące: SVM: Spróbuj zmaksymalizować margines między najbliższymi wektorami wsparcia LR: Maksymalizuj prawdopodobieństwo tylnej klasy Rozważmy liniową przestrzeń cech dla SVM i LR. …

5
Czy potrafisz się dopasować, trenując algorytmy uczenia maszynowego za pomocą CV / Bootstrap?
To pytanie może być zbyt otwarte, aby uzyskać ostateczną odpowiedź, ale mam nadzieję, że nie. Algorytmy uczenia maszynowego, takie jak SVM, GBM, Random Forest itp., Generalnie mają pewne wolne parametry, które poza pewną wskazówką praktyczną, muszą być dostosowane do każdego zestawu danych. Zazwyczaj odbywa się to za pomocą pewnego rodzaju …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.