Próbuję zrozumieć cross-validation dla porządkowej regresji logistycznej. Celem gry jest sprawdzenie modelu zastosowanego w analizie ... Najpierw buduję zestaw danych zabawek: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 # P( y …
Jakie są sposoby wyboru, które jądro spowodowałoby dobre rozdzielenie danych w końcowym wyjściu danych przez jądro PCA (analiza głównych składników) i jakie są sposoby optymalizacji parametrów jądra? Warunki laika, jeśli to możliwe, byłyby bardzo mile widziane, a linki do artykułów wyjaśniających takie metody byłyby również miłe.
Próbuję napisać własną funkcję do analizy głównych składników, PCA (oczywiście jest już dużo napisanych, ale jestem zainteresowany tylko implementacją różnych rzeczy). Głównym problemem, jaki napotkałem, jest krok weryfikacji krzyżowej i obliczanie przewidywanej sumy kwadratów (PRASA). Nie ma znaczenia, z której walidacji krzyżowej korzystam, chodzi głównie o teorię, ale zastanów się …
Uczę procesu Gaussa z jądrem ARD z wieloma parametrami, maksymalizując krańcowe rozszerzanie danych, zamiast walidacji krzyżowej. Podejrzewam, że to jest nadmierne dopasowanie. Jak mogę przetestować to podejrzenie w kontekście bayesowskim?
Jaki jest najlepszy sposób na podzielenie danych szeregów czasowych na zestawy pociągu / testu / walidacji, gdzie zestaw walidacji byłby wykorzystywany do strojenia hiperparametrów? Mamy 3-letnie dzienne dane dotyczące sprzedaży, a naszym planem jest wykorzystanie danych szkoleniowych 2015-2016, a następnie losowe próbkowanie 10 tygodni z danych z 2017 r., Które …
Dla mojego obecnego reseach używam metody Lasso poprzez pakiet glmnet w R na zmiennej zależnej dwumianowej. W glmnet optymalna lambda jest określana poprzez walidację krzyżową, a uzyskane modele można porównać z różnymi miarami, np. Błędem błędnej klasyfikacji lub dewiacją. Moje pytanie: jak dokładnie definiuje się dewiację w glmnet? Jak to …
Mam losową regresję lasu zbudowaną przy użyciu skl i zauważam, że uzyskuję różne wyniki w oparciu o ustawienie losowych nasion na różne wartości. Jeśli użyję LOOCV do ustalenia, które nasiona najlepiej działają, czy jest to poprawna metoda?
Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …
Jestem studentem fizyki studiującym uczenie maszynowe / informatykę, więc nie mam na myśli, aby to pytanie wywoływało jakiekolwiek konflikty :) Jednak dużą częścią każdego programu licencjackiego z fizyki jest przeprowadzanie laboratoriów / eksperymentów, co oznacza dużo danych przetwarzanie i analiza statystyczna. Zauważam jednak wyraźną różnicę między sposobem, w jaki fizycy …
Mam zestaw danych z 26 funkcjami i 31000 wierszami. Jest to zbiór danych 38 podmiotów. To jest dla systemu biometrycznego. Więc chcę być w stanie zidentyfikować podmioty. Aby mieć zestaw testowy, wiem, że muszę usunąć niektóre wartości. Więc co lepiej robić i dlaczego? (a) trzymaj 30 osób jako zestaw szkoleniowy …
Zabawy z Boston Housing zestawem danych i RandomForestRegressor(W / domyślne parametry) w scikit-learn, zauważyłem coś dziwnego: średni wynik walidacji krzyżowej spadła jak zwiększona ilość fałd poza 10. Moja strategia cross-walidacja była następująca: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... gdzie num_cvsbyło zróżnicowane. Ustawić test_sizena 1/num_cvslustro pociągu …
Próbuję dokonać wyboru modelu na niektórych predyktorach kandydujących przy użyciu LASSO z ciągłym wynikiem. Celem jest wybór optymalnego modelu o najlepszej wydajności predykcji, co zwykle można wykonać przez K-krotnie walidację krzyżową po uzyskaniu ścieżki rozwiązania parametrów strojenia z LASSO. Problem polega na tym, że dane pochodzą ze złożonego, wieloetapowego projektu …
Pracuję nad problemem klasyfikacji, który oblicza podobieństwo między dwoma wejściowymi obrazami rentgenowskimi. Jeśli obrazy przedstawiają tę samą osobę (etykieta „prawa”), obliczona zostanie wyższa metryka; wprowadzenie obrazów dwóch różnych osób (oznaczenie „zły”) spowoduje obniżenie wartości. Użyłem warstwowej 10-krotnej walidacji krzyżowej, aby obliczyć prawdopodobieństwo błędnej klasyfikacji. Mój obecny rozmiar próbki wynosi około …
Przeprowadziłem klasyfikację przy użyciu wielu klasyfikatorów dla danych oznaczonych 2 klasami i użyłem 5-krotnej walidacji krzyżowej. Dla każdej zakładki obliczyłem tp, tn, fp i fn. Następnie obliczyłem dokładność, precyzję, wycofanie i wynik F dla każdego testu. Moje pytanie brzmi: kiedy chcę uśrednić wyniki, wziąłem średnią dokładności, ale czy mogę również …
Czy jest jakaś znana interpretacja krzyżowa walidacji według Bayesa, ML lub MDL? Czy mogę zinterpretować weryfikację krzyżową jako wykonanie właściwej aktualizacji na specjalnie spreparowanym wcześniej?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.