Statystyki i duże zbiory danych cross-validation

2

Krzyżowa walidacja i porządkowa regresja logistyczna

Próbuję zrozumieć cross-validation dla porządkowej regresji logistycznej. Celem gry jest sprawdzenie modelu zastosowanego w analizie ... Najpierw buduję zestaw danych zabawek: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 # P( y …

12 regression cross-validation ordered-logit rms

1

Jak wybrać jądro dla PCA jądra?

Jakie są sposoby wyboru, które jądro spowodowałoby dobre rozdzielenie danych w końcowym wyjściu danych przez jądro PCA (analiza głównych składników) i jakie są sposoby optymalizacji parametrów jądra? Warunki laika, jeśli to możliwe, byłyby bardzo mile widziane, a linki do artykułów wyjaśniających takie metody byłyby również miłe.

12 pca cross-validation dimensionality-reduction kernel-trick manifold-learning

2

Jak przeprowadzić walidację krzyżową dla PCA w celu ustalenia liczby głównych składników?

Próbuję napisać własną funkcję do analizy głównych składników, PCA (oczywiście jest już dużo napisanych, ale jestem zainteresowany tylko implementacją różnych rzeczy). Głównym problemem, jaki napotkałem, jest krok weryfikacji krzyżowej i obliczanie przewidywanej sumy kwadratów (PRASA). Nie ma znaczenia, z której walidacji krzyżowej korzystam, chodzi głównie o teorię, ale zastanów się …

12 pca cross-validation matlab

1

Jak można wykryć, czy proces gaussowski jest nadmiernie dopasowany?

Uczę procesu Gaussa z jądrem ARD z wieloma parametrami, maksymalizując krańcowe rozszerzanie danych, zamiast walidacji krzyżowej. Podejrzewam, że to jest nadmierne dopasowanie. Jak mogę przetestować to podejrzenie w kontekście bayesowskim?

12 machine-learning cross-validation gaussian-process

3

Dzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji

Jaki jest najlepszy sposób na podzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji, gdzie zestaw walidacji byłby wykorzystywany do strojenia hiperparametrów? Mamy 3-letnie dzienne dane dotyczące sprzedaży, a naszym planem jest wykorzystanie danych szkoleniowych 2015-2016, a następnie losowe próbkowanie 10 tygodni z danych z 2017 r., Które …

12 time-series cross-validation validation

2

Dokładna definicja miary dewiacji w pakiecie glmnet, z weryfikacją krzyżową?

Dla mojego obecnego reseach używam metody Lasso poprzez pakiet glmnet w R na zmiennej zależnej dwumianowej. W glmnet optymalna lambda jest określana poprzez walidację krzyżową, a uzyskane modele można porównać z różnymi miarami, np. Błędem błędnej klasyfikacji lub dewiacją. Moje pytanie: jak dokładnie definiuje się dewiację w glmnet? Jak to …

12 cross-validation lasso glmnet deviance lars

1

Czy „sprawiedliwe” jest ustawienie nasion w losowej regresji leśnej w celu uzyskania najwyższej dokładności?

Mam losową regresję lasu zbudowaną przy użyciu skl i zauważam, że uzyskuję różne wyniki w oparciu o ustawienie losowych nasion na różne wartości. Jeśli użyję LOOCV do ustalenia, które nasiona najlepiej działają, czy jest to poprawna metoda?

11 cross-validation random-forest

2

Czy współczynnik błędów jest funkcją wypukłą parametru regulowania lambda?

Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …

11 cross-validation error regularization validation optimization

2

Czy dzielenie danych na zestawy testowe i szkoleniowe to czysto „statystyki”?

Jestem studentem fizyki studiującym uczenie maszynowe / informatykę, więc nie mam na myśli, aby to pytanie wywoływało jakiekolwiek konflikty :) Jednak dużą częścią każdego programu licencjackiego z fizyki jest przeprowadzanie laboratoriów / eksperymentów, co oznacza dużo danych przetwarzanie i analiza statystyczna. Zauważam jednak wyraźną różnicę między sposobem, w jaki fizycy …

11 regression machine-learning cross-validation dataset experiment-design

4

Jaki jest najbardziej odpowiedni sposób na utworzenie zestawu podtrzymującego: aby usunąć niektóre przedmioty lub usunąć niektóre obserwacje z każdego przedmiotu?

Mam zestaw danych z 26 funkcjami i 31000 wierszami. Jest to zbiór danych 38 podmiotów. To jest dla systemu biometrycznego. Więc chcę być w stanie zidentyfikować podmioty. Aby mieć zestaw testowy, wiem, że muszę usunąć niektóre wartości. Więc co lepiej robić i dlaczego? (a) trzymaj 30 osób jako zestaw szkoleniowy …

11 machine-learning cross-validation out-of-sample

1

Dlaczego duży wybór K obniża mój wynik weryfikacji krzyżowej?

Zabawy z Boston Housing zestawem danych i RandomForestRegressor(W / domyślne parametry) w scikit-learn, zauważyłem coś dziwnego: średni wynik walidacji krzyżowej spadła jak zwiększona ilość fałd poza 10. Moja strategia cross-walidacja była następująca: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... gdzie num_cvsbyło zróżnicowane. Ustawić test_sizena 1/num_cvslustro pociągu …

11 machine-learning cross-validation random-forest sample-size scikit-learn

2

Krzyżowa walidacja po LASSO w złożonych danych pomiarowych

Próbuję dokonać wyboru modelu na niektórych predyktorach kandydujących przy użyciu LASSO z ciągłym wynikiem. Celem jest wybór optymalnego modelu o najlepszej wydajności predykcji, co zwykle można wykonać przez K-krotnie walidację krzyżową po uzyskaniu ścieżki rozwiązania parametrów strojenia z LASSO. Problem polega na tym, że dane pochodzą ze złożonego, wieloetapowego projektu …

11 cross-validation survey lasso glmnet

3

Przedział ufności dla krzyżowo potwierdzonej dokładności klasyfikacji

Pracuję nad problemem klasyfikacji, który oblicza podobieństwo między dwoma wejściowymi obrazami rentgenowskimi. Jeśli obrazy przedstawiają tę samą osobę (etykieta „prawa”), obliczona zostanie wyższa metryka; wprowadzenie obrazów dwóch różnych osób (oznaczenie „zły”) spowoduje obniżenie wartości. Użyłem warstwowej 10-krotnej walidacji krzyżowej, aby obliczyć prawdopodobieństwo błędnej klasyfikacji. Mój obecny rozmiar próbki wynosi około …

11 classification confidence-interval cross-validation matlab

1

Uśrednianie precyzji i przywoływanie podczas korzystania z weryfikacji krzyżowej

Przeprowadziłem klasyfikację przy użyciu wielu klasyfikatorów dla danych oznaczonych 2 klasami i użyłem 5-krotnej walidacji krzyżowej. Dla każdej zakładki obliczyłem tp, tn, fp i fn. Następnie obliczyłem dokładność, precyzję, wycofanie i wynik F dla każdego testu. Moje pytanie brzmi: kiedy chcę uśrednić wyniki, wziąłem średnią dokładności, ale czy mogę również …

11 classification cross-validation precision-recall

1

Bayesowska, MDL lub ML interpretacja krzyżowej walidacji?

Czy jest jakaś znana interpretacja krzyżowa walidacji według Bayesa, ML lub MDL? Czy mogę zinterpretować weryfikację krzyżową jako wykonanie właściwej aktualizacji na specjalnie spreparowanym wcześniej?

11 bayesian cross-validation maximum-likelihood

Pytania otagowane jako cross-validation