Pytania otagowane jako cross-validation

Wielokrotnie wstrzymywanie podzbiorów danych podczas dopasowywania modelu w celu kwantyfikacji wydajności modelu na wstrzymanych podzbiorach danych.



2
Jak przeprowadzić walidację krzyżową dla PCA w celu ustalenia liczby głównych składników?
Próbuję napisać własną funkcję do analizy głównych składników, PCA (oczywiście jest już dużo napisanych, ale jestem zainteresowany tylko implementacją różnych rzeczy). Głównym problemem, jaki napotkałem, jest krok weryfikacji krzyżowej i obliczanie przewidywanej sumy kwadratów (PRASA). Nie ma znaczenia, z której walidacji krzyżowej korzystam, chodzi głównie o teorię, ale zastanów się …


3
Dzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji
Jaki jest najlepszy sposób na podzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji, gdzie zestaw walidacji byłby wykorzystywany do strojenia hiperparametrów? Mamy 3-letnie dzienne dane dotyczące sprzedaży, a naszym planem jest wykorzystanie danych szkoleniowych 2015-2016, a następnie losowe próbkowanie 10 tygodni z danych z 2017 r., Które …

2
Dokładna definicja miary dewiacji w pakiecie glmnet, z weryfikacją krzyżową?
Dla mojego obecnego reseach używam metody Lasso poprzez pakiet glmnet w R na zmiennej zależnej dwumianowej. W glmnet optymalna lambda jest określana poprzez walidację krzyżową, a uzyskane modele można porównać z różnymi miarami, np. Błędem błędnej klasyfikacji lub dewiacją. Moje pytanie: jak dokładnie definiuje się dewiację w glmnet? Jak to …


2
Czy współczynnik błędów jest funkcją wypukłą parametru regulowania lambda?
Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …

2
Czy dzielenie danych na zestawy testowe i szkoleniowe to czysto „statystyki”?
Jestem studentem fizyki studiującym uczenie maszynowe / informatykę, więc nie mam na myśli, aby to pytanie wywoływało jakiekolwiek konflikty :) Jednak dużą częścią każdego programu licencjackiego z fizyki jest przeprowadzanie laboratoriów / eksperymentów, co oznacza dużo danych przetwarzanie i analiza statystyczna. Zauważam jednak wyraźną różnicę między sposobem, w jaki fizycy …

4
Jaki jest najbardziej odpowiedni sposób na utworzenie zestawu podtrzymującego: aby usunąć niektóre przedmioty lub usunąć niektóre obserwacje z każdego przedmiotu?
Mam zestaw danych z 26 funkcjami i 31000 wierszami. Jest to zbiór danych 38 podmiotów. To jest dla systemu biometrycznego. Więc chcę być w stanie zidentyfikować podmioty. Aby mieć zestaw testowy, wiem, że muszę usunąć niektóre wartości. Więc co lepiej robić i dlaczego? (a) trzymaj 30 osób jako zestaw szkoleniowy …

1
Dlaczego duży wybór K obniża mój wynik weryfikacji krzyżowej?
Zabawy z Boston Housing zestawem danych i RandomForestRegressor(W / domyślne parametry) w scikit-learn, zauważyłem coś dziwnego: średni wynik walidacji krzyżowej spadła jak zwiększona ilość fałd poza 10. Moja strategia cross-walidacja była następująca: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... gdzie num_cvsbyło zróżnicowane. Ustawić test_sizena 1/num_cvslustro pociągu …

2
Krzyżowa walidacja po LASSO w złożonych danych pomiarowych
Próbuję dokonać wyboru modelu na niektórych predyktorach kandydujących przy użyciu LASSO z ciągłym wynikiem. Celem jest wybór optymalnego modelu o najlepszej wydajności predykcji, co zwykle można wykonać przez K-krotnie walidację krzyżową po uzyskaniu ścieżki rozwiązania parametrów strojenia z LASSO. Problem polega na tym, że dane pochodzą ze złożonego, wieloetapowego projektu …

3
Przedział ufności dla krzyżowo potwierdzonej dokładności klasyfikacji
Pracuję nad problemem klasyfikacji, który oblicza podobieństwo między dwoma wejściowymi obrazami rentgenowskimi. Jeśli obrazy przedstawiają tę samą osobę (etykieta „prawa”), obliczona zostanie wyższa metryka; wprowadzenie obrazów dwóch różnych osób (oznaczenie „zły”) spowoduje obniżenie wartości. Użyłem warstwowej 10-krotnej walidacji krzyżowej, aby obliczyć prawdopodobieństwo błędnej klasyfikacji. Mój obecny rozmiar próbki wynosi około …

1
Uśrednianie precyzji i przywoływanie podczas korzystania z weryfikacji krzyżowej
Przeprowadziłem klasyfikację przy użyciu wielu klasyfikatorów dla danych oznaczonych 2 klasami i użyłem 5-krotnej walidacji krzyżowej. Dla każdej zakładki obliczyłem tp, tn, fp i fn. Następnie obliczyłem dokładność, precyzję, wycofanie i wynik F dla każdego testu. Moje pytanie brzmi: kiedy chcę uśrednić wyniki, wziąłem średnią dokładności, ale czy mogę również …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.