Pytania otagowane jako cross-validation

Wielokrotnie wstrzymywanie podzbiorów danych podczas dopasowywania modelu w celu kwantyfikacji wydajności modelu na wstrzymanych podzbiorach danych.

2
Zastosowanie zagnieżdżonej weryfikacji krzyżowej
Strona Scikit Learn na temat wyboru modelu wspomina o zagnieżdżonej weryfikacji krzyżowej: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dwie pętle wzajemnej weryfikacji są wykonywane równolegle: jedna przez estymator GridSearchCV, aby ustawić gamma, a druga przez cross_val_score, aby zmierzyć wydajność predykcji estymatora. Wynikowe wyniki są obiektywnymi …

2
Interpretacja i walidacja modelu regresji proporcjonalnych hazardów Coxa przy użyciu R w języku angielskim
Czy ktoś może mi wyjaśnić mój model Coxa zwykłym angielskim? Dopasowałem następujący model regresji Coxa do wszystkich moich danych za pomocą tej cphfunkcji. Moje dane są zapisywane w obiekcie o nazwie Data. Zmienne w, xi ysą ciągłe; zjest czynnikiem dwóch poziomów. Czas mierzony jest w miesiącach. Niektórym moim pacjentom brakuje …

1
Luka między błędami „pociąg a test” i jej związek z nadmiernym wyposażeniem: pogodzenie sprzecznych porad
Wydaje się, że istnieją sprzeczne porady na temat tego, jak radzić sobie z porównywaniem błędu pociągu z błędem testu, szczególnie gdy istnieje między nimi różnica. Wydaje mi się, że istnieją dwie szkoły myślenia, które wydają mi się sprzeczne. Chcę zrozumieć, jak pogodzić te dwie rzeczy (lub zrozumieć, czego tu brakuje). …

2
Jak pasuje k-krotnie walidacja krzyżowa w kontekście zestawów szkoleniowych / walidacyjnych / testowych?
Moje główne pytanie dotyczy prób zrozumienia, w jaki sposób k-krotna walidacja krzyżowa pasuje w kontekście posiadania zestawów szkoleniowych / walidacyjnych / testowych (jeśli w ogóle pasuje w takim kontekście). Zwykle ludzie mówią o podziale danych na zestaw treningowy, walidacyjny i testowy - powiedzmy w stosunku 60/20/20 na kurs Andrew Ng …

2
Krzyżowa walidacja i optymalizacja parametrów
Mam pytanie dotyczące optymalizacji parametrów, gdy korzystam z 10-krotnej walidacji krzyżowej. Chcę zapytać, czy parametry powinny zostać naprawione podczas treningu modelu każdego złożenia, tj. (1) wybierz jeden zestaw zoptymalizowanych parametrów dla średniej dokładności każdego złożenia. lub (2) Powinienem znaleźć zoptymalizowany parametr dla każdego zagięcia, a następnie każde zagięcie używa różnych …

5
Filozoficzne pytanie dotyczące regresji logistycznej: dlaczego nie trenuje się optymalnej wartości progowej?
Zwykle w regresji logistycznej dopasowujemy model i uzyskujemy prognozy dotyczące zestawu treningowego. Następnie weryfikujemy krzyżowo te prognozy treningowe (coś takiego jak tutaj ) i decydujemy o optymalnej wartości progowej na podstawie czegoś takiego jak krzywa ROC. Dlaczego nie uwzględnimy weryfikacji krzyżowej progu w rzeczywistym modelu i nie przeszkolimy tego od …

1
Oceń Random Forest: OOB vs CV
Kiedy oceniamy jakość Losowego Lasu, na przykład za pomocą AUC, czy bardziej odpowiednie jest obliczenie tych ilości na podstawie próbek po wyjęciu z torby lub na podstawie zestawu krzyżowego sprawdzania poprawności? Słyszałem, że obliczenie go na próbkach OOB daje bardziej pesymistyczną ocenę, ale nie rozumiem dlaczego.

4
Czym różni się weryfikacja krzyżowa od szpiegowania danych?
Właśnie skończyłem „Wprowadzenie do uczenia statystycznego” . Zastanawiałem się, czy zastosowanie weryfikacji krzyżowej w celu znalezienia najlepszych parametrów dostrajania różnych technik uczenia maszynowego różni się od szpiegowania danych? Wielokrotnie sprawdzamy, która wartość parametru strojenia daje najlepszy wynik predykcyjny w zestawie testowym. Co się stanie, jeśli parametr strojenia, do którego doszliśmy, …

1
Czy stosując średnią k-krotną weryfikację uśredniasz wszystkie modele
Kiedy przeprowadzam walidację krzyżową k-fold, rozumiem, że uzyskujesz miary dokładności, wskazując wszystkie fałdy z wyjątkiem jednego w tym folderze i przewidując, a następnie powtórz ten proces razy. Następnie możesz uruchomić wskaźniki dokładności dla wszystkich swoich instancji (precyzja, przywołanie,% sklasyfikowane poprawnie), które powinny być takie same, jakbyś je obliczał za każdym …

2
Opis ładowania początkowego do sprawdzania poprawności i wyboru modelu
Wydaje mi się, że rozumiem, jak działają podstawy ładowania początkowego , ale nie jestem pewien, czy rozumiem, jak mogę użyć ładowania początkowego do wyboru modelu lub uniknąć nadmiernego dopasowania. Na przykład, aby wybrać model, czy po prostu wybierzesz model, który daje najniższy błąd (może wariancję?) We wszystkich próbkach ładowania początkowego? …

2
Keras: dlaczego strata maleje, a val_loss rośnie?
Ustawiam wyszukiwanie siatki dla kilku parametrów. Próbuję znaleźć najlepsze parametry dla sieci neuronowej Keras, która dokonuje klasyfikacji binarnej. Dane wyjściowe to 1 lub 0. Istnieje około 200 funkcji. Kiedy przeszukałem siatkę, dostałem kilka modeli i ich parametrów. Najlepszy model miał następujące parametry: Epochs : 20 Batch Size : 10 First …

1
Jak naprawić brak konwergencji w LogisticRegressionCV
Korzystam ze scikit-learn, aby przeprowadzić regresję logistyczną z weryfikacją krzyżową na zestawie danych (około 14 parametrów z> 7000 znormalizowanych obserwacji). Mam również docelowy klasyfikator, który ma wartość 1 lub 0. Problem, jaki mam, polega na tym, że niezależnie od używanego solwera wciąż otrzymuję ostrzeżenia o konwergencji ... model1 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='newton-cg',penalty='l2') …

1
Czy są jakieś współczesne zastosowania jackknifing?
Pytanie: Bootstrapping jest lepszy od jackknifing; Zastanawiam się jednak, czy istnieją przypadki, w których podnoszenie jest jedyną lub przynajmniej realną opcją charakteryzowania niepewności na podstawie oszacowań parametrów. Ponadto w sytuacjach praktycznych, w jaki sposób stronniczy / niedokładny jest walenie w nogę w stosunku do ładowania początkowego, i czy wyniki noża …

4
Czy można porównać różne metody klastrowania w zbiorze danych bez prawdziwej prawdy poprzez wzajemną weryfikację?
Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy istnieje sposób na użycie zestawu K-fold w tym zestawie danych do zweryfikowania moich wyników?

1
Różnice między PROC Mixed i lme / lmer w R - stopnie swobody
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.