Statystyki i duże zbiory danych cross-validation

1

Kiedy / gdzie zastosować funkcjonalną analizę danych?

Jestem bardzo nowy w funkcjonalnej analizie danych (FDA). Czytam: Ramsay, James O. i Silverman, Bernard W. (2006), Functional Data Analysis, 2. wyd., Springer, New York. Jednak nadal nie jestem bardzo jasne, gdzie / kiedy stosować FDA? Czy ktoś mógłby mi podać przykład szczególnie w badaniach medycznych? Naprawdę nie wiem, gdzie …

15 statistical-significance cross-validation nonparametric

2

Jaka jest procedura „walidacji bootstrap” (inaczej „ponownej próbkowania cross-validation”)?

„Walidacja bootstrap” / „ponowna próbkowanie cross-validation” jest dla mnie nowa, ale została omówiona w odpowiedzi na to pytanie . Rozumiem, że dotyczy to 2 rodzajów danych: danych rzeczywistych i danych symulowanych, w których dany zestaw danych symulowanych jest generowany z danych rzeczywistych przez ponowne próbkowanie z wymianą, aż dane symulowane …

15 cross-validation bootstrap validation resampling

2

Jak przeprowadzić walidację krzyżową za pomocą proporcjonalnego modelu zagrożeń Coxa?

Załóżmy, że zbudowałem model predykcyjny dla wystąpienia określonej choroby w jednym zestawie danych (zestaw danych budowania modelu) i teraz chcę sprawdzić, jak dobrze model działa w nowym zestawie danych (zestaw danych sprawdzania poprawności). Dla modelu zbudowanego z regresją logistyczną obliczałbym przewidywane prawdopodobieństwo dla każdej osoby w zbiorze danych sprawdzania poprawności …

15 predictive-models cross-validation survival roc

2

Duża różnorodność weryfikacji krzyżowej z pominięciem jednego z nich

Czytałem w kółko, że walidacja krzyżowa „Leave-one-out-out” ma dużą wariancję ze względu na duże nakładanie się fałdów treningowych. Nie rozumiem jednak, dlaczego tak jest: czy wydajność walidacji krzyżowej nie powinna być bardzo stabilna (niska wariancja) właśnie dlatego, że zestawy treningowe są prawie identyczne? Czy też źle rozumiem pojęcie „wariancji”? Nie …

15 variance cross-validation bias

1

Co jeśli wysoka dokładność walidacji, ale niska dokładność testu w badaniach?

Mam konkretne pytanie dotyczące walidacji w badaniach nad uczeniem maszynowym. Jak wiemy, system uczenia maszynowego prosi badaczy o szkolenie modeli na temat danych szkoleniowych, wybranie spośród modeli kandydujących według zestawu walidacyjnego i podanie dokładności zestawu testowego. W bardzo rygorystycznych badaniach zestaw testowy może być użyty tylko raz. Jednak nigdy nie …

15 machine-learning cross-validation reproducible-research

2

Jackknife vs. LOOCV

Czy naprawdę jest jakaś różnica między scyzorykiem a pominięciem jednej weryfikacji krzyżowej? Procedura wydaje się identyczna. Czy coś brakuje?

15 cross-validation jackknife

2

Dlaczego funkcja bootstrap scikit-learn ponownie próbkuje zestaw testowy?

Kiedy używałem bootstrapowania do oceny modelu, zawsze myślałem, że próbki z torebki były bezpośrednio używane jako zestaw testowy. Jednak wydaje się, że nie jest tak w przypadku przestarzałego podejścia scikit-learnBootstrap , które wydaje się budować zestaw testowy na podstawie rysowania z zastępowaniem z podzbioru danych poza torbą. Jakie jest uzasadnienie …

15 cross-validation bootstrap random-forest scikit-learn bagging

3

Jak przeprowadzić rozbudowę danych i rozdzielić walidację pociągu?

Dokonuję klasyfikacji obrazów przy użyciu uczenia maszynowego. Załóżmy, że mam pewne dane treningowe (obrazy) i podzielę dane na zestawy szkoleniowe i walidacyjne. Chcę też rozszerzyć dane (tworzyć nowe obrazy z oryginalnych) przez losowe obroty i wstrzykiwanie szumu. Augmentacja odbywa się offline. Jaki jest właściwy sposób na powiększanie danych? Najpierw podziel …

14 machine-learning classification cross-validation dataset data-augmentation

3

Szkolenie, testowanie, sprawdzanie poprawności problemu analizy przeżycia

Przeglądałem tutaj różne wątki, ale nie sądzę, aby na moje dokładne pytanie zostało udzielone odpowiedzi. Mam zbiór danych obejmujący ~ 50 000 studentów i ich czas na rezygnację. Zamierzam przeprowadzić proporcjonalną regresję zagrożeń z dużą liczbą potencjalnych zmiennych towarzyszących. Zamierzam również przeprowadzić regresję logistyczną w przypadku porzucenia / pozostania w. …

14 cross-validation survival train

4

Jakie są studia przypadków w badaniach polityki zdrowia publicznego, w których nieuczciwe / mylone / nieprawidłowe badania lub modele były niewłaściwie wykorzystywane?

Przygotowuję przegląd literatury na temat aktualnego problemu zdrowia publicznego, w którym dane są pomieszane: Jakie są typowe historyczne studia przypadków wykorzystywane w edukacji zdrowotnej / epidemiologicznej, w których nieważne lub zakłócone relacje lub wnioski były celowo lub błędnie stosowane w polityce i ustawodawstwie w zakresie zdrowia publicznego? Fala fatality samochodowe …

14 cross-validation reliability epidemiology biostatistics

2

Optymalizacja: źródło wszelkiego zła w statystykach?

Słyszałem wcześniej następujące wyrażenie: „Optymalizacja jest źródłem wszelkiego zła w statystykach”. Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu. Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej) Z tego, co …

14 cross-validation optimization overfitting

6

Jak podzielić zestaw danych, aby wykonać 10-krotną weryfikację krzyżową

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Teraz mam Rramkę danych (szkolenie). Czy ktoś może mi powiedzieć, jak losowo podzielić ten zestaw danych, aby wykonać 10-krotną weryfikację krzyżową?

14 cross-validation

3

Jaka jest funkcja kosztu w cv.glm w pakiecie rozruchowym R.

Przeprowadzam weryfikację krzyżową przy użyciu metody „zostaw-jeden-out”. Mam odpowiedź binarną i używam pakietu rozruchowego dla R oraz funkcji cv.glm . Mój problem polega na tym, że nie do końca rozumiem część „kosztu” w tej funkcji. Z tego, co rozumiem, jest to funkcja, która decyduje, czy wartość szacunkową należy zaklasyfikować jako …

14 r cross-validation

2

Zamawianie szeregów czasowych do uczenia maszynowego

Po przeczytaniu jednej z „Porad badawczych” RJ Hyndmana na temat walidacji krzyżowej i szeregów czasowych wróciłem do mojego starego pytania, które spróbuję tutaj sformułować. Chodzi o to, że w problemach z klasyfikacją lub regresją kolejność danych nie jest ważna, a zatem można zastosować k- krotną walidację krzyżową. Z drugiej strony, …

14 time-series machine-learning cross-validation

2

AIC, BIC i GCV: co jest najlepsze do podejmowania decyzji w metodach regresji karnej?

Ogólnie rozumiem, że AIC zajmuje się kompromisem między dobrem dopasowania modelu a złożonością modelu. A jado= 2 k - 2 l n ( L )AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = liczba parametrów w modelu L.LL = prawdopodobieństwo Bayesowskie kryterium informacyjne BIC jest ściśle powiązane z AIC. AIC karać liczbę parametrów słabiej …

14 cross-validation lasso aic ridge-regression bic

Pytania otagowane jako cross-validation