Pytania otagowane jako cross-validation

Wielokrotnie wstrzymywanie podzbiorów danych podczas dopasowywania modelu w celu kwantyfikacji wydajności modelu na wstrzymanych podzbiorach danych.


2
Jaka jest procedura „walidacji bootstrap” (inaczej „ponownej próbkowania cross-validation”)?
„Walidacja bootstrap” / „ponowna próbkowanie cross-validation” jest dla mnie nowa, ale została omówiona w odpowiedzi na to pytanie . Rozumiem, że dotyczy to 2 rodzajów danych: danych rzeczywistych i danych symulowanych, w których dany zestaw danych symulowanych jest generowany z danych rzeczywistych przez ponowne próbkowanie z wymianą, aż dane symulowane …

2
Jak przeprowadzić walidację krzyżową za pomocą proporcjonalnego modelu zagrożeń Coxa?
Załóżmy, że zbudowałem model predykcyjny dla wystąpienia określonej choroby w jednym zestawie danych (zestaw danych budowania modelu) i teraz chcę sprawdzić, jak dobrze model działa w nowym zestawie danych (zestaw danych sprawdzania poprawności). Dla modelu zbudowanego z regresją logistyczną obliczałbym przewidywane prawdopodobieństwo dla każdej osoby w zbiorze danych sprawdzania poprawności …

2
Duża różnorodność weryfikacji krzyżowej z pominięciem jednego z nich
Czytałem w kółko, że walidacja krzyżowa „Leave-one-out-out” ma dużą wariancję ze względu na duże nakładanie się fałdów treningowych. Nie rozumiem jednak, dlaczego tak jest: czy wydajność walidacji krzyżowej nie powinna być bardzo stabilna (niska wariancja) właśnie dlatego, że zestawy treningowe są prawie identyczne? Czy też źle rozumiem pojęcie „wariancji”? Nie …

1
Co jeśli wysoka dokładność walidacji, ale niska dokładność testu w badaniach?
Mam konkretne pytanie dotyczące walidacji w badaniach nad uczeniem maszynowym. Jak wiemy, system uczenia maszynowego prosi badaczy o szkolenie modeli na temat danych szkoleniowych, wybranie spośród modeli kandydujących według zestawu walidacyjnego i podanie dokładności zestawu testowego. W bardzo rygorystycznych badaniach zestaw testowy może być użyty tylko raz. Jednak nigdy nie …


2
Dlaczego funkcja bootstrap scikit-learn ponownie próbkuje zestaw testowy?
Kiedy używałem bootstrapowania do oceny modelu, zawsze myślałem, że próbki z torebki były bezpośrednio używane jako zestaw testowy. Jednak wydaje się, że nie jest tak w przypadku przestarzałego podejścia scikit-learnBootstrap , które wydaje się budować zestaw testowy na podstawie rysowania z zastępowaniem z podzbioru danych poza torbą. Jakie jest uzasadnienie …

3
Jak przeprowadzić rozbudowę danych i rozdzielić walidację pociągu?
Dokonuję klasyfikacji obrazów przy użyciu uczenia maszynowego. Załóżmy, że mam pewne dane treningowe (obrazy) i podzielę dane na zestawy szkoleniowe i walidacyjne. Chcę też rozszerzyć dane (tworzyć nowe obrazy z oryginalnych) przez losowe obroty i wstrzykiwanie szumu. Augmentacja odbywa się offline. Jaki jest właściwy sposób na powiększanie danych? Najpierw podziel …

3
Szkolenie, testowanie, sprawdzanie poprawności problemu analizy przeżycia
Przeglądałem tutaj różne wątki, ale nie sądzę, aby na moje dokładne pytanie zostało udzielone odpowiedzi. Mam zbiór danych obejmujący ~ 50 000 studentów i ich czas na rezygnację. Zamierzam przeprowadzić proporcjonalną regresję zagrożeń z dużą liczbą potencjalnych zmiennych towarzyszących. Zamierzam również przeprowadzić regresję logistyczną w przypadku porzucenia / pozostania w. …

4
Jakie są studia przypadków w badaniach polityki zdrowia publicznego, w których nieuczciwe / mylone / nieprawidłowe badania lub modele były niewłaściwie wykorzystywane?
Przygotowuję przegląd literatury na temat aktualnego problemu zdrowia publicznego, w którym dane są pomieszane: Jakie są typowe historyczne studia przypadków wykorzystywane w edukacji zdrowotnej / epidemiologicznej, w których nieważne lub zakłócone relacje lub wnioski były celowo lub błędnie stosowane w polityce i ustawodawstwie w zakresie zdrowia publicznego? Fala fatality samochodowe …

2
Optymalizacja: źródło wszelkiego zła w statystykach?
Słyszałem wcześniej następujące wyrażenie: „Optymalizacja jest źródłem wszelkiego zła w statystykach”. Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu. Moje pierwsze pytanie brzmi: czy ten cytat można przypisać komukolwiek w szczególności? (np. w literaturze statystycznej) Z tego, co …


3
Jaka jest funkcja kosztu w cv.glm w pakiecie rozruchowym R.
Przeprowadzam weryfikację krzyżową przy użyciu metody „zostaw-jeden-out”. Mam odpowiedź binarną i używam pakietu rozruchowego dla R oraz funkcji cv.glm . Mój problem polega na tym, że nie do końca rozumiem część „kosztu” w tej funkcji. Z tego, co rozumiem, jest to funkcja, która decyduje, czy wartość szacunkową należy zaklasyfikować jako …

2
Zamawianie szeregów czasowych do uczenia maszynowego
Po przeczytaniu jednej z „Porad badawczych” RJ Hyndmana na temat walidacji krzyżowej i szeregów czasowych wróciłem do mojego starego pytania, które spróbuję tutaj sformułować. Chodzi o to, że w problemach z klasyfikacją lub regresją kolejność danych nie jest ważna, a zatem można zastosować k- krotną walidację krzyżową. Z drugiej strony, …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.