Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem? Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale co, jeśli robisz tradycyjną ekonomię, a wszystko, na czym ci zależy, to szacowanie …
W podręcznikach i wykładach na YouTubie wiele się nauczyłem o modelach iteracyjnych, takich jak zwiększanie, ale nigdy nie widziałem nic na temat określania przedziału prognoz. Krzyżową walidację stosuje się w następujących przypadkach: Wybór modelu : Wypróbuj różne modele i wybierz ten, który najlepiej pasuje. W przypadku wzmocnienia użyj CV, aby …
Dopasowuję Bayesian HLM w JAGS przy użyciu k-krotnej walidacji krzyżowej (k = 5). Chciałbym wiedzieć, czy szacunki parametru są stabilne we wszystkich fałdach. Jak najlepiej to zrobić?ββ\beta Jednym z pomysłów jest znalezienie różnic w tylnej stronie i sprawdzenie, czy 0 jest w 95% CI różnicy. Innymi słowy, wynosi 0 w …
Mam zestaw danych zawierający 140000 przykładów i 30 funkcji, dla których uczę kilku klasyfikatorów do klasyfikacji binarnej (SVM, regresja logistyczna, losowy las itp.) W wielu przypadkach dostrajanie hiperparametrów w całym zbiorze danych przy użyciu wyszukiwania siatkowego lub losowego jest zbyt kosztowne pod względem czasowym. Zacząłem stosować następującą technikę Podpróbka mojego …
Wiem, że aby uzyskać dostęp do wyników klasyfikatora, muszę podzielić dane na zestaw szkoleniowy / testowy. Ale czytając to : Podczas oceny różnych ustawień („hiperparametrów”) dla estymatorów, takich jak ustawienie C, które należy ręcznie ustawić dla SVM, nadal istnieje ryzyko przeregulowania zestawu testowego, ponieważ parametry można modyfikować, dopóki estymator nie …
Załóżmy, że wykonuję walidację krzyżową K-fold z K = 10 fałd. Dla każdej zakładki będzie jedna matryca pomieszania. Czy zgłaszając wyniki, powinienem obliczyć średnią macierz zamieszania, czy po prostu zsumować macierze zamieszania?
Z An Introduction to Statistical Learning przez James i wsp., Przerwa, jeden z krzyżowego (LOOCV) oszacowanie jest określone przez CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i gdzieMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2. Bez dowodu równanie (5.2) stwierdza, że dla regresji metodą najmniejszych kwadratów lub wielomianu (to, czy dotyczy to regresji tylko jednej zmiennej, jest dla mnie nieznane), …
Używam cv.glmnetdo znajdowania predyktorów. Konfiguracja, której używam jest następująca: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Aby upewnić się, że wyniki są powtarzalne ja set.seed(1). Wyniki są bardzo zmienne. Uruchomiłem dokładnie ten sam kod 100, aby zobaczyć, jak zmienne były wyniki. W biegach 98/100 zawsze wybierano jeden konkretny predyktor (czasem tylko sam); …
Mam zestaw danych z N ~ 5000 i brakuje mi około 1/2 co najmniej jednej ważnej zmiennej. Główną metodą analityczną będą proporcjonalne zagrożenia Coxa. Planuję zastosować wielokrotne przypisanie. Podzielę się również na pociąg i zestaw testowy. Czy należy podzielić dane, a następnie przypisać osobno, czy przypisać, a następnie podzielić? Jeżeli …
Czy ktoś może mi powiedzieć, co dokładnie daje wynik analizy krzyżowej? Czy to tylko średnia dokładność, czy daje jakiś model z dostrojonymi parametrami? Ponieważ słyszałem gdzieś, że do dostrajania parametrów używana jest walidacja krzyżowa.
Natknąłem się na ten wątek, patrząc na różnice między ładowaniem początkowym a weryfikacją krzyżową - przy okazji, świetna odpowiedź i referencje. Zastanawiam się teraz, czy gdybym powtórzył 10-krotne CV, aby obliczyć dokładność klasyfikatora, ile razy n powinienem to powtórzyć? Czy n zależy od liczby fałd? Na wielkości próbki? Czy jest …
Załóżmy, że normalnie rozpowszechniłem dane. Dla każdego elementu danych chcę sprawdzić, ile SD jest oddalonych od średniej. Dane mogą zawierać wartości odstające (prawdopodobnie tylko jeden, ale mogą być również dwa lub trzy) lub nie, ale ta wartość odstająca jest zasadniczo tym, czego szukam. Czy sensowne jest tymczasowe wykluczenie elementu, na …
Używam modeli SVM do krótkoterminowego prognozowania zanieczyszczeń powietrza. Aby wytrenować nowy model, muszę znaleźć odpowiednie metaparametry dla modelu SVM (mam na myśli C, gamma i tak dalej). Dokumentacja Libsvm (i wiele innych książek, które przeczytałem) sugeruje użycie wyszukiwania siatki w celu znalezienia tych parametrów - w zasadzie trenuję model dla …
Aby skalibrować poziom ufności do prawdopodobieństwa w nadzorowanym uczeniu się (powiedzmy, aby odwzorować pewność z SVM lub drzewa decyzyjnego przy użyciu danych z nadpróbkowanych danych) jedną z metod jest zastosowanie skalowania Platta (np. Uzyskiwanie skalibrowanych prawdopodobieństw z wzmocnienia ). Zasadniczo używa się regresji logistycznej do mapowania na . Zmienna zależna …
Przeczytałem następujące posty dotyczące sprawdzania poprawności krzyżowania zagnieżdżonego i wciąż nie jestem w 100% pewien, co mam zrobić z wyborem modelu za pomocą sprawdzania poprawności krzyżowania zagnieżdżonego: Zagnieżdżone sprawdzanie poprawności wyboru modelu Wybór modelu i walidacja krzyżowa: właściwa droga Aby wyjaśnić moje zamieszanie, pozwól mi przejść krok po kroku przez …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.