Statystyki i duże zbiory danych model-selection

1

Czy autokorelowane wzorce resztkowe pozostają nawet w modelach z odpowiednimi strukturami korelacji i jak wybrać najlepsze modele?

Kontekst To pytanie używa R, ale dotyczy ogólnych problemów statystycznych. Analizuję wpływ czynników umieralności (% umieralności z powodu chorób i pasożytnictwa) na tempo wzrostu populacji ćmy w czasie, gdy populacje larw pobierano z 12 miejsc raz w roku przez 8 lat. Dane dotyczące tempa wzrostu populacji pokazują wyraźny, ale nieregularny …

17 model-selection autocorrelation residuals panel-data spatio-temporal

1

Jak zbudować ostateczny model i dostroić próg prawdopodobieństwa po zagnieżdżonej weryfikacji krzyżowej?

Po pierwsze, przepraszam za opublikowanie pytania, które zostało już obszernie omówione tutaj , tutaj , tutaj , tutaj , tutaji do odtworzenia starego tematu. Wiem, że @DikranMarsupial pisał na ten temat obszernie w postach i gazetach, ale nadal jestem zdezorientowany i sądząc po liczbie podobnych postów tutaj, wciąż jest to …

17 machine-learning cross-validation model-selection glmnet hyperparameter

2

Czy stosowanie macierzy korelacji do wybierania predyktorów regresji jest prawidłowe?

Kilka dni temu mój psycholog-badacz powiedział mi o swojej metodzie wyboru zmiennych do modelu regresji liniowej. Chyba nie jest dobrze, ale muszę poprosić kogoś innego, żeby się upewnić. Metoda jest następująca: Spójrz na macierz korelacji między wszystkimi zmiennymi (w tym zmienną zależną Y) i wybierz te predyktory X, które najbardziej …

17 regression correlation model-selection

1

Dlaczego kryterium informacyjne Akaike nie jest częściej wykorzystywane w uczeniu maszynowym?

Właśnie natknąłem się na „kryterium informacyjne Akaike” i zauważyłem dużą ilość literatury na temat wyboru modelu (wydaje się, że istnieją również takie rzeczy jak BIC). Dlaczego współczesne metody uczenia maszynowego nie wykorzystują kryteriów wyboru modeli BIC i AIC?

16 machine-learning model-selection aic bic

1

Czy prywatna tabela liderów Kaggle jest dobrym predyktorem wydajności poza próbą zwycięskiego modelu?

Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego? Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki …

16 model-selection overfitting out-of-sample

1

Problem ze zdefiniowaniem zamówienia ARIMA

To jest długi post, więc mam nadzieję, że poradzisz sobie ze mną i popraw mnie tam, gdzie się mylę. Moim celem jest tworzenie dziennej prognozy na podstawie danych historycznych z 3 lub 4 tygodni. Dane to 15 minutowe dane lokalnego obciążenia jednej z linii transformatora. Mam problem ze znalezieniem zamówienia …

16 forecasting arima model-selection seasonality fourier-transform

7

Jaka jest definicja „najlepszego” w znaczeniu „najlepszego dopasowania” i weryfikacji krzyżowej?

Jeśli dopasujesz funkcję nieliniową do zestawu punktów (zakładając, że dla każdej odciętej jest tylko jedna rzędna), wynikiem może być: bardzo złożona funkcja z małymi resztkami bardzo prosta funkcja z dużymi resztkami Krzyżowa walidacja jest powszechnie stosowana w celu znalezienia „najlepszego” kompromisu między tymi dwoma skrajnościami. Ale co znaczy „najlepszy”? Czy …

16 model-selection cross-validation

1

Jakiej metody wielokrotnego porównania użyć w modelu Lmer: lsmeans czy glht?

Analizuję zestaw danych przy użyciu modelu efektów mieszanych z jednym ustalonym efektem (warunkiem) i dwoma efektami losowymi (uczestnik ze względu na projekt i parę wewnątrz przedmiotu). Model ten został wygenerowany z lme4pakietu: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Następnie wykonałem test współczynnika wiarygodności tego modelu względem modelu bez ustalonego efektu (warunku) i mam znaczącą różnicę. …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

5

Czy mogę zignorować współczynniki dla nieistotnych poziomów czynników w modelu liniowym?

Po szukaniu wyjaśnienia na temat współczynników modeli liniowych tutaj mam pytanie uzupełniające dotyczące braku oznakowania (wysoka wartość p) dla współczynników poziomów czynników. Przykład: jeśli mój model liniowy zawiera współczynnik z 10 poziomami, a tylko 3 z tych poziomów mają powiązane z nimi znaczące wartości p, to przy użyciu modelu do …

15 statistical-significance linear-model model-selection regression-coefficients regression-strategies

2

LASSO / LARS a metoda ogólna do konkretnej (GETS)

Zastanawiam się, dlaczego metody wyboru modeli LASSO i LARS są tak popularne, mimo że są to po prostu warianty stopniowego wybierania do przodu (a zatem cierpią na zależność od ścieżki)? Podobnie, dlaczego metody Ogólnego do Specyficznego (GETS) wyboru modelu są w większości ignorowane, nawet jeśli działają lepiej niż LARS / …

15 feature-selection model-selection lasso stepwise-regression lars

4

Porównywanie modeli efektów mieszanych o tej samej liczbie stopni swobody

Mam eksperyment, który spróbuję tu streścić. Wyobraź sobie, że rzucam przed sobą trzy białe kamienie i proszę, abyś osądził ich pozycję. Rejestruję różnorodne właściwości kamieni i twoją odpowiedź. Robię to na wiele tematów. Generuję dwa modele. Jednym z nich jest to, że najbliższy kamień przewiduje Twoją odpowiedź, a drugi to, …

15 r mixed-model model-selection

3

Wybór optymalnego K dla KNN

Wykonałem 5-krotne CV, aby wybrać optymalną K dla KNN. I wydaje się, że im większy K, tym mniejszy błąd ... Niestety nie miałem legendy, ale różne kolory reprezentują różne próby. Jest ich łącznie 5 i wygląda na to, że między nimi jest niewielka różnorodność. Błąd zawsze wydaje się zmniejszać, gdy …

15 model-selection k-nearest-neighbour

1

Jak interpretować macierz kowariancji z dopasowania krzywej?

Nie jestem zbyt dobry w statystyce, więc przepraszam, jeśli to proste pytanie. Dopasowuję krzywą do niektórych danych, a czasami moje dane najlepiej pasują do ujemnego wykładniczego w postaci * e( - b ∗ x )+ cza∗mi(-b∗x)+doa * e^{(-b * x)} + c , a czasami dopasowanie jest bliższe . Czasami …

15 variance model-selection python curve-fitting covariance-matrix

4

Optymalny wybór kar dla lasso

Czy są jakieś wyniki analityczne lub prace eksperymentalne dotyczące optymalnego wyboru współczynnika kary karnej ℓ1ℓ1\ell_1Przez „ optymalny” rozumiem parametr, który maksymalizuje prawdopodobieństwo wyboru najlepszego modelu lub minimalizuje oczekiwaną stratę. Pytam, ponieważ często niepraktyczne jest wybranie parametru za pomocą weryfikacji krzyżowej lub bootstrapu, albo z powodu dużej liczby przypadków problemu, albo …

15 model-selection lasso shrinkage

1

Jak porównać modele na podstawie AIC?

Mamy dwa modele, które używają tej samej metody do obliczania prawdopodobieństwa logarytmicznego, a AIC dla jednego jest niższy niż drugi. Jednak ten z niższym AIC jest znacznie trudniejszy do interpretacji. Mamy problem z podjęciem decyzji, czy warto wprowadzić trudność, i oceniliśmy to na podstawie różnicy procentowej w AIC. Stwierdziliśmy, że …

15 model-selection aic

Pytania otagowane jako model-selection