Pytania otagowane jako optimization

Użyj tego tagu do dowolnego wykorzystania optymalizacji w statystykach.

4
Po co stosować regularyzację w regresji wielomianowej zamiast obniżać stopień?
Na przykład podczas regresji, dwoma hiperparametrami do wyboru są często pojemność funkcji (np. Największy wykładnik wielomianu) i ilość regularyzacji. Jestem zdezorientowany, dlaczego nie po prostu wybrać funkcję niskiej pojemności, a następnie zignorować jakąkolwiek regularyzację? W ten sposób nie będzie pasował. Jeśli mam funkcję dużej pojemności wraz z regularyzacją, czy to …

1
Funkcja celu PCA: jaki jest związek między maksymalizacją wariancji a minimalizacją błędu?
Algorytm PCA można sformułować w kategoriach macierzy korelacji (załóżmy, że dane XXX zostały już znormalizowane i rozważamy jedynie rzut na pierwszy komputer). Funkcję celu można zapisać jako: maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. To jest w porządku i używamy mnożników Lagrangian, aby go rozwiązać, tj. Przepisując go …
32 pca  optimization 


1
XGBoost Loss function Approximation With Taylor Expansion
Na przykład, ma funkcję celu modelu XGBoost w sprawie ttt „tą iterację procedury: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) gdzie ℓℓ\ell jest utrata funkcji, ftftf_t jest ttt -tym wyjście drzewa i ΩΩ\Omega jest regularyzacji. Jednym z (wielu) kluczowych kroków do szybkiego obliczenia jest przybliżenie: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), w którym gigig_i i hihih_i są to pierwsze i …

1
Obliczanie powtarzalności efektów z modelu Lmer
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Czy stopnie swobody mogą być liczbą niecałkowitą?
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Jakie są skutki wyboru różnych funkcji strat w klasyfikacji do przybliżonej straty 0-1
Wiemy, że niektóre funkcje celu są łatwiejsze do optymalizacji, a niektóre są trudne. I jest wiele funkcji utraty, których chcemy używać, ale trudnych w użyciu, na przykład utrata 0-1. Dlatego znajdziemy kilka funkcji utraty proxy do wykonania pracy. Na przykład używamy utraty zawiasu lub straty logistycznej do „przybliżenia” utraty 0-1. …


6
Dlaczego mniejsze ciężary powodują prostsze modele regularyzacji?
Ukończyłem kurs uczenia maszynowego Andrew Nga około rok temu, a teraz piszę moje badanie matematyki w szkole średniej na temat działania regresji logistycznej i technik optymalizacji wydajności. Jedną z tych technik jest oczywiście regularyzacja. Celem regularyzacji jest zapobieganie nadmiernemu dopasowaniu poprzez rozszerzenie funkcji kosztów o cel prostoty modelu. Możemy to …


1
Jakie są klasyczne zapisy w statystyce, algebrze liniowej i uczeniu maszynowym? Jakie są powiązania między tymi notacjami?
Kiedy czytamy książkę, zrozumienie zapisów odgrywa bardzo ważną rolę w zrozumieniu treści. Niestety różne społeczności mają różne konwencje zapisu w odniesieniu do formułowania modelu i problemu optymalizacji. Czy ktoś mógłby tutaj streścić niektóre zapisy formuł i podać możliwe powody? Podam tutaj przykład: w literaturze algebry liniowej klasyczna książka jest wstępem …

6
Czy w przypadku problemów wypukłych gradient w Stochastic Descent Gradient (SGD) zawsze wskazuje na ekstremalną wartość globalną?
Biorąc pod uwagę funkcję wypukłego kosztu, wykorzystującą SGD do optymalizacji, będziemy mieli gradient (wektor) w pewnym punkcie podczas procesu optymalizacji. Moje pytanie brzmi: biorąc pod uwagę punkt na wypukłości, czy gradient wskazuje tylko w kierunku, w którym funkcja rośnie / zmniejsza się najszybciej, czy gradient zawsze wskazuje na optymalny / …

3
Jaki jest powód, dla którego Adam Optimizer jest uważany za odporny na wartość swoich hiper parametrów?
Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Deep Learning autorstwa Bengio, Goodfellow i Courville: Adam jest ogólnie uważany za dość odpornego na wybór hiper parametrów, chociaż szybkość uczenia się czasami trzeba zmienić w stosunku do sugerowanego domyślnego. jeśli to prawda, …

1
Jak zdefiniować warunek zakończenia opadania gradientu?
Właściwie chciałem zapytać, jak mogę zdefiniować warunek końcowy zejścia gradientu. Czy mogę to zatrzymać na podstawie liczby iteracji, tj. Biorąc pod uwagę wartości parametrów, powiedzmy, 100 iteracji? A może powinienem poczekać, aż różne wartości dwóch parametrów „nowy” i „stary” będą bardzo małe w stosunku do powiedzmy ? To na pewno …

4
Oszacowanie maksymalnego prawdopodobieństwa EM dla rozkładu Weibulla
Uwaga: wysyłam pytanie od mojego byłego studenta, który nie jest w stanie samodzielnie napisać ze względów technicznych. Biorąc pod uwagę próbkę z rozkładu Weibulla z pdf czy użyteczne brak reprezentacji zmiennej a zatem powiązany algorytm EM (maksymalizacja oczekiwań), którego można użyć do znalezienia MLE zamiast prostego optymalizacja numeryczna?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.