Statystyki i duże zbiory danych optimization

3

Funkcja celu w głównej analizie składników (PCA) polega na minimalizowaniu błędu rekonstrukcji w normie L2 (patrz sekcja 2.12 tutaj . Inny pogląd stara się zmaksymalizować wariancję projekcji. Mamy też doskonały post tutaj: Jaka jest funkcja celu PCA ? ). Moje pytanie brzmi: czy wypukła jest optymalizacja PCA? (Znalazłem tutaj kilka …

13 machine-learning pca optimization convex

1

Dlaczego algorytm zniżania „Saddle-Free Newton” nie jest stosowany w praktyce?

Niedawno przeczytałem artykuł Yanna Dauphina i in. Identyfikowanie i atakowanie problemu punktu siodłowego w wielowymiarowej nie wypukłej optymalizacji , w której wprowadzono interesujący algorytm opadania o nazwie Saddle-Free Newton , który wydaje się być dokładnie dostosowany do optymalizacji sieci neuronowej i nie powinien cierpieć z powodu utknięcia w punktach siodłowych …

13 optimization deep-learning gradient-descent

2

Czy głębokie uczenie się jest przydatne do optymalizacji kombinatorycznej?

Czy istnieją grupy badawcze pracujące nad wykorzystaniem głębokiego uczenia się w kombinatorycznych problemach optymalizacyjnych?

13 optimization deep-learning

3

Czy ktoś może wyjaśnić algorytm wstecznej propagacji? [duplikować]

To pytanie ma już odpowiedzi tutaj : Algorytm propagacji wstecznej (2 odpowiedzi) Zamknięte 4 miesiące temu . Co to jest algorytm wstecznej propagacji i jak on działa?

13 algorithms optimization neural-networks

2

Co to jest ograniczenie maxnorm? Jak to jest użyteczne w sieciach neuronowych splotowych?

Oto przykładowy kod keras, który go używa: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))

13 neural-networks regularization conv-neural-network optimization

1

Strojenie hiperparametrów w regresji procesu Gaussa

Próbuję dostroić hiperparametry algorytmu regresji procesu gaussowskiego, który zaimplementowałem. Chcę po prostu zmaksymalizować prawdopodobieństwo krańcowe dziennika podane przez formułę gdzie K jest macierzą kowariancji z elementy K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) + a …

13 regression optimization gaussian-process hyperparameter

2

Jak rozwiązać najmniejsze odchylenie bezwzględne metodą simpleks?

Oto problem najmniejszych odchyleń bezwzględnych:. Wiem, że można to zmienić jako problem LP w następujący sposób:argminwL ( w ) = ∑ni = 1|yi−wTx |arg⁡minwL.(w)=∑ja=1n|yja-wT.x| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min ∑ni = 1ujamin∑ja=1nuja\min \sum_{i=1}^{n}u_{i} uja≥ xT.w - yjai = 1 , … , nuja≥xT.w-yjaja=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n uja≥ - …

12 regression optimization quantile-regression linear-programming least-absolute-deviations

1

Domyślny optymalizator Lme4 wymaga dużej liczby iteracji dla danych wielowymiarowych

TL; DR: lme4optymalizacja wydaje się domyślnie liniowa pod względem liczby parametrów modelu i jest znacznie wolniejsza niż równoważny glmmodel ze zmiennymi fikcyjnymi dla grup. Czy mogę coś przyspieszyć? Próbuję dopasować dość duży hierarchiczny model logit (~ 50 000 wierszy, 100 kolumn, 50 grup). Dopasowywanie normalnego modelu logu do danych (ze …

12 r mixed-model optimization lme4-nlme numerics

2

Pokazuje równoważność

Według odniesień Księga 1 , Księga 2 i papier . Wspomniano, że istnieje równoważność między regresją regulowaną (Ridge, LASSO i Elastic Net) a ich formułami ograniczeń. Patrzyłem również na Cross Validated 1 i Cross Validated 2 , ale nie widzę wyraźnej odpowiedzi pokazującej, że równoważność lub logika. Moje pytanie brzmi …

12 regression optimization lasso ridge-regression elastic-net

1

Co oznacza „wariacyjny”?

Czy użycie „wariacyjnego” zawsze odnosi się do optymalizacji poprzez wnioskowanie wariacyjne? Przykłady: „Automatyczny enkoder wariacyjny” „Wariacyjne metody bayesowskie” „Grupa renormalizacji wariantów”

12 machine-learning optimization inference

1

RMSProp i Adam vs SGD

Przeprowadzam eksperymenty na zestawie walidacyjnym EMNIST przy użyciu sieci z RMSProp, Adamem i SGD. Osiągam 87% dokładności dzięki SGD (współczynnik uczenia się 0,1) i porzucaniu (0,1 porzuceniu prob), a także regularyzacji L2 (kara 1e-05). Podczas testowania tej samej dokładnej konfiguracji z RMSProp i Adamem, a także początkowej szybkości uczenia się …

12 machine-learning optimization sgd adam

2

Użyj współczynnika korelacji Pearsona jako celu optymalizacji w uczeniu maszynowym

W uczeniu maszynowym (w przypadku problemów z regresją) często widzę błąd średniej kwadratowej (MSE) lub średni błąd bezwzględny (MAE) jako funkcję błędu w celu zminimalizowania (plus termin regularyzacji). Zastanawiam się, czy istnieją sytuacje, w których zastosowanie współczynnika korelacji byłoby bardziej odpowiednie? jeżeli taka sytuacja istnieje, to: W jakich sytuacjach współczynnik …

12 regression machine-learning svm optimization deep-learning

2

Optymalne binowanie w odniesieniu do danej zmiennej odpowiedzi

Szukam optymalnej metody binowania (dyskretyzacji) zmiennej ciągłej w odniesieniu do danej zmiennej binarnej odpowiedzi (celu) i maksymalnej liczby interwałów jako parametru. przykład: mam zestaw obserwacji ludzi ze zmiennymi „wzrost” (ciągłe cyfry) i „has_back_pains” (binarne). Chcę dyskretyzować wzrost na 3 przedziały (grupy) co najwyżej z różnym odsetkiem osób z bólami pleców, …

12 r dataset optimization discrete-data binning

1

Jaki jest związek między regularyzacją a metodą mnożników Lagrange'a?

Aby zapobiec nadmiernemu dopasowywaniu się ludzi, dodaj funkcję regularyzacji (proporcjonalną do kwadratowej sumy parametrów modelu) z parametrem regularyzacji do funkcji kosztu regresji liniowej. Czy ten parametr taki sam jak mnożnik lagrange'a? Czy zatem regularyzacja jest taka sama jak metoda mnożnika lagrange'a? Lub w jaki sposób te metody są połączone? λλλ\lambdaλλ\lambda

12 regression optimization regularization

1

Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

Pytania otagowane jako optimization