Statystyki i duże zbiory danych optimization

4

Po co stosować regularyzację w regresji wielomianowej zamiast obniżać stopień?

Na przykład podczas regresji, dwoma hiperparametrami do wyboru są często pojemność funkcji (np. Największy wykładnik wielomianu) i ilość regularyzacji. Jestem zdezorientowany, dlaczego nie po prostu wybrać funkcję niskiej pojemności, a następnie zignorować jakąkolwiek regularyzację? W ten sposób nie będzie pasował. Jeśli mam funkcję dużej pojemności wraz z regularyzacją, czy to …

32 regression machine-learning optimization regularization polynomial

1

Funkcja celu PCA: jaki jest związek między maksymalizacją wariancji a minimalizacją błędu?

Algorytm PCA można sformułować w kategoriach macierzy korelacji (załóżmy, że dane XXX zostały już znormalizowane i rozważamy jedynie rzut na pierwszy komputer). Funkcję celu można zapisać jako: maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. To jest w porządku i używamy mnożników Lagrangian, aby go rozwiązać, tj. Przepisując go …

32 pca optimization

6

Dlaczego nie wykorzystać trzeciej pochodnej do optymalizacji numerycznej?

Jeśli Hesjanie są tak dobrzy do optymalizacji (patrz np . Metoda Newtona ), po co się tu zatrzymywać? Użyjmy trzeciej, czwartej, piątej i szóstej pochodnej? Dlaczego nie?

29 optimization gradient-descent hessian

1

XGBoost Loss function Approximation With Taylor Expansion

Na przykład, ma funkcję celu modelu XGBoost w sprawie ttt „tą iterację procedury: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) gdzie ℓℓ\ell jest utrata funkcji, ftftf_t jest ttt -tym wyjście drzewa i ΩΩ\Omega jest regularyzacji. Jednym z (wielu) kluczowych kroków do szybkiego obliczenia jest przybliżenie: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), w którym gigig_i i hihih_i są to pierwsze i …

28 optimization loss-functions boosting xgboost taylor-series

1

Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

Jakie są skutki wyboru różnych funkcji strat w klasyfikacji do przybliżonej straty 0-1

Wiemy, że niektóre funkcje celu są łatwiejsze do optymalizacji, a niektóre są trudne. I jest wiele funkcji utraty, których chcemy używać, ale trudnych w użyciu, na przykład utrata 0-1. Dlatego znajdziemy kilka funkcji utraty proxy do wykonania pracy. Na przykład używamy utraty zawiasu lub straty logistycznej do „przybliżenia” utraty 0-1. …

27 machine-learning classification optimization loss-functions

6

Po co studiować optymalizację wypukłą dla teoretycznego uczenia maszynowego?

Pracuję nad teoretycznym uczeniem maszynowym - a konkretnie nad uczeniem się przez transfer - dla mojego doktoratu. Z ciekawości, dlaczego powinienem wziąć kurs optymalizacji wypukłej? Jakie wnioski z optymalizacji wypukłej mogę wykorzystać w swoich badaniach nad teoretycznym uczeniem maszynowym?

27 machine-learning optimization convex transfer-learning

6

Dlaczego mniejsze ciężary powodują prostsze modele regularyzacji?

Ukończyłem kurs uczenia maszynowego Andrew Nga około rok temu, a teraz piszę moje badanie matematyki w szkole średniej na temat działania regresji logistycznej i technik optymalizacji wydajności. Jedną z tych technik jest oczywiście regularyzacja. Celem regularyzacji jest zapobieganie nadmiernemu dopasowaniu poprzez rozszerzenie funkcji kosztów o cel prostoty modelu. Możemy to …

27 regression machine-learning optimization regularization overfitting

1

Przykład automatycznego różnicowania w trybie odwrotnym

Nie jestem pewien, czy to pytanie należy tutaj, ale jest ściśle związane z metodami gradientu w optymalizacji, co wydaje się być tutaj na temat. W każdym razie możesz swobodnie przeprowadzić migrację, jeśli uważasz, że inna społeczność ma lepsze doświadczenie w tym temacie. Krótko mówiąc, szukam krok po kroku przykładu automatycznego …

27 optimization derivative tensorflow automatic-differentiation

1

Jakie są klasyczne zapisy w statystyce, algebrze liniowej i uczeniu maszynowym? Jakie są powiązania między tymi notacjami?

Kiedy czytamy książkę, zrozumienie zapisów odgrywa bardzo ważną rolę w zrozumieniu treści. Niestety różne społeczności mają różne konwencje zapisu w odniesieniu do formułowania modelu i problemu optymalizacji. Czy ktoś mógłby tutaj streścić niektóre zapisy formuł i podać możliwe powody? Podam tutaj przykład: w literaturze algebry liniowej klasyczna książka jest wstępem …

26 machine-learning probability self-study optimization

6

Czy w przypadku problemów wypukłych gradient w Stochastic Descent Gradient (SGD) zawsze wskazuje na ekstremalną wartość globalną?

Biorąc pod uwagę funkcję wypukłego kosztu, wykorzystującą SGD do optymalizacji, będziemy mieli gradient (wektor) w pewnym punkcie podczas procesu optymalizacji. Moje pytanie brzmi: biorąc pod uwagę punkt na wypukłości, czy gradient wskazuje tylko w kierunku, w którym funkcja rośnie / zmniejsza się najszybciej, czy gradient zawsze wskazuje na optymalny / …

25 neural-networks optimization gradient-descent sgd convex

3

Jaki jest powód, dla którego Adam Optimizer jest uważany za odporny na wartość swoich hiper parametrów?

Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Deep Learning autorstwa Bengio, Goodfellow i Courville: Adam jest ogólnie uważany za dość odpornego na wybór hiper parametrów, chociaż szybkość uczenia się czasami trzeba zmienić w stosunku do sugerowanego domyślnego. jeśli to prawda, …

24 neural-networks deep-learning optimization hyperparameter adam

1

Jak zdefiniować warunek zakończenia opadania gradientu?

Właściwie chciałem zapytać, jak mogę zdefiniować warunek końcowy zejścia gradientu. Czy mogę to zatrzymać na podstawie liczby iteracji, tj. Biorąc pod uwagę wartości parametrów, powiedzmy, 100 iteracji? A może powinienem poczekać, aż różne wartości dwóch parametrów „nowy” i „stary” będą bardzo małe w stosunku do powiedzmy ? To na pewno …

24 algorithms optimization gradient-descent

4

Oszacowanie maksymalnego prawdopodobieństwa EM dla rozkładu Weibulla

Uwaga: wysyłam pytanie od mojego byłego studenta, który nie jest w stanie samodzielnie napisać ze względów technicznych. Biorąc pod uwagę próbkę z rozkładu Weibulla z pdf czy użyteczne brak reprezentacji zmiennej a zatem powiązany algorytm EM (maksymalizacja oczekiwań), którego można użyć do znalezienia MLE zamiast prostego optymalizacja numeryczna?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = …

24 optimization missing-data expectation-maximization weibull gumbel

Pytania otagowane jako optimization