Funkcja celu w głównej analizie składników (PCA) polega na minimalizowaniu błędu rekonstrukcji w normie L2 (patrz sekcja 2.12 tutaj . Inny pogląd stara się zmaksymalizować wariancję projekcji. Mamy też doskonały post tutaj: Jaka jest funkcja celu PCA ? ). Moje pytanie brzmi: czy wypukła jest optymalizacja PCA? (Znalazłem tutaj kilka …
Niedawno przeczytałem artykuł Yanna Dauphina i in. Identyfikowanie i atakowanie problemu punktu siodłowego w wielowymiarowej nie wypukłej optymalizacji , w której wprowadzono interesujący algorytm opadania o nazwie Saddle-Free Newton , który wydaje się być dokładnie dostosowany do optymalizacji sieci neuronowej i nie powinien cierpieć z powodu utknięcia w punktach siodłowych …
To pytanie ma już odpowiedzi tutaj : Algorytm propagacji wstecznej (2 odpowiedzi) Zamknięte 4 miesiące temu . Co to jest algorytm wstecznej propagacji i jak on działa?
Oto przykładowy kod keras, który go używa: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))
Próbuję dostroić hiperparametry algorytmu regresji procesu gaussowskiego, który zaimplementowałem. Chcę po prostu zmaksymalizować prawdopodobieństwo krańcowe dziennika podane przez formułę gdzie K jest macierzą kowariancji z elementy K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) + a …
Oto problem najmniejszych odchyleń bezwzględnych:. Wiem, że można to zmienić jako problem LP w następujący sposób:argminwL ( w ) = ∑ni = 1|yi−wTx |argminwL.(w)=∑ja=1n|yja-wT.x| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min ∑ni = 1ujamin∑ja=1nuja\min \sum_{i=1}^{n}u_{i} uja≥ xT.w - yjai = 1 , … , nuja≥xT.w-yjaja=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n uja≥ - …
TL; DR: lme4optymalizacja wydaje się domyślnie liniowa pod względem liczby parametrów modelu i jest znacznie wolniejsza niż równoważny glmmodel ze zmiennymi fikcyjnymi dla grup. Czy mogę coś przyspieszyć? Próbuję dopasować dość duży hierarchiczny model logit (~ 50 000 wierszy, 100 kolumn, 50 grup). Dopasowywanie normalnego modelu logu do danych (ze …
Według odniesień Księga 1 , Księga 2 i papier . Wspomniano, że istnieje równoważność między regresją regulowaną (Ridge, LASSO i Elastic Net) a ich formułami ograniczeń. Patrzyłem również na Cross Validated 1 i Cross Validated 2 , ale nie widzę wyraźnej odpowiedzi pokazującej, że równoważność lub logika. Moje pytanie brzmi …
Czy użycie „wariacyjnego” zawsze odnosi się do optymalizacji poprzez wnioskowanie wariacyjne? Przykłady: „Automatyczny enkoder wariacyjny” „Wariacyjne metody bayesowskie” „Grupa renormalizacji wariantów”
Przeprowadzam eksperymenty na zestawie walidacyjnym EMNIST przy użyciu sieci z RMSProp, Adamem i SGD. Osiągam 87% dokładności dzięki SGD (współczynnik uczenia się 0,1) i porzucaniu (0,1 porzuceniu prob), a także regularyzacji L2 (kara 1e-05). Podczas testowania tej samej dokładnej konfiguracji z RMSProp i Adamem, a także początkowej szybkości uczenia się …
W uczeniu maszynowym (w przypadku problemów z regresją) często widzę błąd średniej kwadratowej (MSE) lub średni błąd bezwzględny (MAE) jako funkcję błędu w celu zminimalizowania (plus termin regularyzacji). Zastanawiam się, czy istnieją sytuacje, w których zastosowanie współczynnika korelacji byłoby bardziej odpowiednie? jeżeli taka sytuacja istnieje, to: W jakich sytuacjach współczynnik …
Szukam optymalnej metody binowania (dyskretyzacji) zmiennej ciągłej w odniesieniu do danej zmiennej binarnej odpowiedzi (celu) i maksymalnej liczby interwałów jako parametru. przykład: mam zestaw obserwacji ludzi ze zmiennymi „wzrost” (ciągłe cyfry) i „has_back_pains” (binarne). Chcę dyskretyzować wzrost na 3 przedziały (grupy) co najwyżej z różnym odsetkiem osób z bólami pleców, …
Aby zapobiec nadmiernemu dopasowywaniu się ludzi, dodaj funkcję regularyzacji (proporcjonalną do kwadratowej sumy parametrów modelu) z parametrem regularyzacji do funkcji kosztu regresji liniowej. Czy ten parametr taki sam jak mnożnik lagrange'a? Czy zatem regularyzacja jest taka sama jak metoda mnożnika lagrange'a? Lub w jaki sposób te metody są połączone? λλλ\lambdaλλ\lambda
Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.