Pytania otagowane jako optimization

Użyj tego tagu do dowolnego wykorzystania optymalizacji w statystykach.

2
Optymalizacja maszyny wektora pomocniczego za pomocą programowania kwadratowego
Próbuję zrozumieć proces szkolenia maszyny wektora liniowego wsparcia . Zdaję sobie sprawę, że właściwości SMV pozwalają na ich optymalizację znacznie szybciej niż za pomocą kwadratowego solvera programistycznego, ale do celów edukacyjnych chciałbym zobaczyć, jak to działa. Dane treningowe set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 …
12 r  svm  optimization 

2
Parametry maksymalnego prawdopodobieństwa odbiegają od rozkładów bocznych
Mam funkcję prawdopodobieństwa dla prawdopodobieństwa moich danych biorąc pod uwagę niektóre parametry modelu , które chciałbym oszacować. Zakładając płaskie priorytety parametrów, prawdopodobieństwo jest proporcjonalne do prawdopodobieństwa a posteriori. Używam metody MCMC, aby zbadać to prawdopodobieństwo.L(d|θ)L(d|θ)\mathcal{L}(d | \theta)dddθ∈RNθ∈RN\theta \in \mathbf{R}^N Patrząc na wynikowy zbieżny łańcuch, stwierdzam, że parametry maksymalnego prawdopodobieństwa nie …

2
Czy współczynnik błędów jest funkcją wypukłą parametru regulowania lambda?
Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …

3
Optymalizacja stochastycznych modeli komputerowych
Jest to dla mnie trudny temat do wyszukiwania w Google, ponieważ optymalizacja słów i stochastyczna w wyszukiwaniu prawie automatycznie domyślnie wyszukuje optymalizację stochastyczną. Ale tak naprawdę chcę wiedzieć, jakie istnieją metody optymalizacji modeli komputerowych, gdy wyniki modelu komputerowego są stochastyczne, tj. Nie deterministyczne? Na przykład, jeśli weźmiemy pod uwagę model …

1
Zagadka fryzjera
Moja fryzjerka Stacey zawsze robi radosną minę, ale często stresuje ją zarządzanie czasem. Dzisiaj Stacey była spóźniona na moje spotkanie i bardzo przepraszała. Podczas strzyżenia zastanawiałem się: jak długo powinny trwać jej standardowe spotkania? (jeśli preferencje klienta dotyczące czystych okrągłych numerów można na chwilę zignorować). Należy wziąć pod uwagę pewien …

3
Kryterium zatrzymania dla miodu Neldera
Próbuję zaimplementować algorytm Neldera-Meada do optymalizacji funkcji. Strona wikipedii o Nelder-Mead jest zaskakująco jasna na temat całego algorytmu, z wyjątkiem kryterium zatrzymania. Tam niestety mówi: Sprawdź zbieżność [potrzebne wyjaśnienie] . Sam wypróbowałem i przetestowałem kilka kryteriów: Przestań, jeśli gdzie jest mały i gdzie jest wierzchołkiem simpleksa, uporządkowanym od niskiego ( …

1
R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
MAP jest rozwiązaniem dla
Natknąłem się na te slajdy (slajd 16 i 17) na jednym z kursów online. Instruktor próbował wyjaśnić, w jaki sposób Maximum Posterior Estimate (MAP) jest faktycznie rozwiązaniem , gdzie \ theta ^ {*} to prawdziwy parametr.L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} Czy ktoś może wyjaśnić, jak to wygląda? Edycja: Dodano slajdy …

1
LASSO zależność pomiędzy
Rozumiem, że regresja LASSO jest taka, że ​​współczynniki regresji są wybrane w celu rozwiązania problemu minimalizacji: minβ. Y- Xβ∥2)2) s . t . ∥ β∥1≤ tminβ‖y-Xβ‖2)2) s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t W praktyce odbywa się to za pomocą mnożnika Lagrange'a, co powoduje problem do rozwiązania …


2
W jaki sposób Tensorflow `tf.train.Optimizer` oblicza gradienty?
Postępuję zgodnie z samouczkiem mens Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Samouczek używa tf.train.Optimizer.minimize(konkretnie tf.train.GradientDescentOptimizer). Nigdzie nie widzę żadnych argumentów do zdefiniowania gradientów. Czy przepływ Tensor jest domyślnie domyślnie różnicowany numerycznie? Czy istnieje sposób, aby przejść w gradienty, jak można z scipy.optimize.minimize?

1
Dlaczego system oceny Elo używa niewłaściwej reguły aktualizacji?
System oceny Elo wykorzystuje algorytm minimalizacji spadku gradientu funkcji utraty entropii krzyżowej między spodziewanym i obserwowanym prawdopodobieństwem wyniku w porównaniach w parach. Możemy zapisać funkcje strat ogólnych jako E=−∑n,ipiLog(qi)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) gdzie suma jest wykonywana dla wszystkich wyników i wszystkich przeciwników n . p i to obserwowana częstotliwość …


4
Model historii zdarzeń dyskretnych (przeżycie) w R.
Próbuję dopasować model czasu dyskretnego do R, ale nie jestem pewien, jak to zrobić. Czytałem, że możesz zorganizować zmienną zależną w różnych wierszach, po jednym dla każdej obserwacji czasu, i użyć glmfunkcji z łączem logit lub cloglog. W tym sensie, mam trzy kolumny: ID, Event(1 lub 0, w każdym okresie …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

4
Optymalizacja spadku gradientu
Próbuję zrozumieć optymalizację spadku gradientu w algorytmach ML (uczenie maszynowe). Rozumiem, że jest to funkcja, gdzie koszt celem jest minimalizacja błędu . W scenariuszu, w którym wagi są optymalizowane w celu uzyskania minimalnego błędu i stosowane są pochodne częściowe, czy zmienia on zarówno jak i na każdym etapie, czy też …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.