Pytania otagowane jako cross-validation

Wielokrotnie wstrzymywanie podzbiorów danych podczas dopasowywania modelu w celu kwantyfikacji wydajności modelu na wstrzymanych podzbiorach danych.

2
Czy regularyzacja może być pomocna, jeśli interesuje nas tylko modelowanie, a nie prognozowanie?
Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem? Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale co, jeśli robisz tradycyjną ekonomię, a wszystko, na czym ci zależy, to szacowanie …


2
Stabilność walidacji krzyżowej w modelach bayesowskich
Dopasowuję Bayesian HLM w JAGS przy użyciu k-krotnej walidacji krzyżowej (k = 5). Chciałbym wiedzieć, czy szacunki parametru są stabilne we wszystkich fałdach. Jak najlepiej to zrobić?ββ\beta Jednym z pomysłów jest znalezienie różnic w tylnej stronie i sprawdzenie, czy 0 jest w 95% CI różnicy. Innymi słowy, wynosi 0 w …

6
Czy strojenie hiperparametrów na próbce zestawu danych jest złym pomysłem?
Mam zestaw danych zawierający 140000 przykładów i 30 funkcji, dla których uczę kilku klasyfikatorów do klasyfikacji binarnej (SVM, regresja logistyczna, losowy las itp.) W wielu przypadkach dostrajanie hiperparametrów w całym zbiorze danych przy użyciu wyszukiwania siatkowego lub losowego jest zbyt kosztowne pod względem czasowym. Zacząłem stosować następującą technikę Podpróbka mojego …

4
Dlaczego dzielenie danych na zestaw szkoleniowy i testowy nie wystarczy
Wiem, że aby uzyskać dostęp do wyników klasyfikatora, muszę podzielić dane na zestaw szkoleniowy / testowy. Ale czytając to : Podczas oceny różnych ustawień („hiperparametrów”) dla estymatorów, takich jak ustawienie C, które należy ręcznie ustawić dla SVM, nadal istnieje ryzyko przeregulowania zestawu testowego, ponieważ parametry można modyfikować, dopóki estymator nie …


1
Dowód formuły LOOCV
Z An Introduction to Statistical Learning przez James i wsp., Przerwa, jeden z krzyżowego (LOOCV) oszacowanie jest określone przez CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i gdzieMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2. Bez dowodu równanie (5.2) stwierdza, że ​​dla regresji metodą najmniejszych kwadratów lub wielomianu (to, czy dotyczy to regresji tylko jednej zmiennej, jest dla mnie nieznane), …

5
Zmienność wyników cv.glmnet
Używam cv.glmnetdo znajdowania predyktorów. Konfiguracja, której używam jest następująca: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Aby upewnić się, że wyniki są powtarzalne ja set.seed(1). Wyniki są bardzo zmienne. Uruchomiłem dokładnie ten sam kod 100, aby zobaczyć, jak zmienne były wyniki. W biegach 98/100 zawsze wybierano jeden konkretny predyktor (czasem tylko sam); …

3
Imputacja przed lub po podziale na pociąg i test?
Mam zestaw danych z N ~ 5000 i brakuje mi około 1/2 co najmniej jednej ważnej zmiennej. Główną metodą analityczną będą proporcjonalne zagrożenia Coxa. Planuję zastosować wielokrotne przypisanie. Podzielę się również na pociąg i zestaw testowy. Czy należy podzielić dane, a następnie przypisać osobno, czy przypisać, a następnie podzielić? Jeżeli …

4
Krzyżowa walidacja i dostrajanie parametrów
Czy ktoś może mi powiedzieć, co dokładnie daje wynik analizy krzyżowej? Czy to tylko średnia dokładność, czy daje jakiś model z dostrojonymi parametrami? Ponieważ słyszałem gdzieś, że do dostrajania parametrów używana jest walidacja krzyżowa.

2
Ile razy powinniśmy powtarzać K-fold CV?
Natknąłem się na ten wątek, patrząc na różnice między ładowaniem początkowym a weryfikacją krzyżową - przy okazji, świetna odpowiedź i referencje. Zastanawiam się teraz, czy gdybym powtórzył 10-krotne CV, aby obliczyć dokładność klasyfikatora, ile razy n powinienem to powtórzyć? Czy n zależy od liczby fałd? Na wielkości próbki? Czy jest …

1
Czy możemy użyć pominięcia jednej średniej i standardowego odchylenia, aby ujawnić wartości odstające?
Załóżmy, że normalnie rozpowszechniłem dane. Dla każdego elementu danych chcę sprawdzić, ile SD jest oddalonych od średniej. Dane mogą zawierać wartości odstające (prawdopodobnie tylko jeden, ale mogą być również dwa lub trzy) lub nie, ale ta wartość odstająca jest zasadniczo tym, czego szukam. Czy sensowne jest tymczasowe wykluczenie elementu, na …

5
Szybka metoda znajdowania najlepszych metaparametrów SVM (jest szybsza niż wyszukiwanie w siatce)
Używam modeli SVM do krótkoterminowego prognozowania zanieczyszczeń powietrza. Aby wytrenować nowy model, muszę znaleźć odpowiednie metaparametry dla modelu SVM (mam na myśli C, gamma i tak dalej). Dokumentacja Libsvm (i wiele innych książek, które przeczytałem) sugeruje użycie wyszukiwania siatki w celu znalezienia tych parametrów - w zasadzie trenuję model dla …

2
Dlaczego warto korzystać z skalowanie Platta?
Aby skalibrować poziom ufności do prawdopodobieństwa w nadzorowanym uczeniu się (powiedzmy, aby odwzorować pewność z SVM lub drzewa decyzyjnego przy użyciu danych z nadpróbkowanych danych) jedną z metod jest zastosowanie skalowania Platta (np. Uzyskiwanie skalibrowanych prawdopodobieństw z wzmocnienia ). Zasadniczo używa się regresji logistycznej do mapowania na . Zmienna zależna …

3
Jak uzyskać hiper parametry w sprawdzaniu poprawności zagnieżdżonej?
Przeczytałem następujące posty dotyczące sprawdzania poprawności krzyżowania zagnieżdżonego i wciąż nie jestem w 100% pewien, co mam zrobić z wyborem modelu za pomocą sprawdzania poprawności krzyżowania zagnieżdżonego: Zagnieżdżone sprawdzanie poprawności wyboru modelu Wybór modelu i walidacja krzyżowa: właściwa droga Aby wyjaśnić moje zamieszanie, pozwól mi przejść krok po kroku przez …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.