Strona Scikit Learn na temat wyboru modelu wspomina o zagnieżdżonej weryfikacji krzyżowej: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dwie pętle wzajemnej weryfikacji są wykonywane równolegle: jedna przez estymator GridSearchCV, aby ustawić gamma, a druga przez cross_val_score, aby zmierzyć wydajność predykcji estymatora. Wynikowe wyniki są obiektywnymi …
Czy ktoś może mi wyjaśnić mój model Coxa zwykłym angielskim? Dopasowałem następujący model regresji Coxa do wszystkich moich danych za pomocą tej cphfunkcji. Moje dane są zapisywane w obiekcie o nazwie Data. Zmienne w, xi ysą ciągłe; zjest czynnikiem dwóch poziomów. Czas mierzony jest w miesiącach. Niektórym moim pacjentom brakuje …
Wydaje się, że istnieją sprzeczne porady na temat tego, jak radzić sobie z porównywaniem błędu pociągu z błędem testu, szczególnie gdy istnieje między nimi różnica. Wydaje mi się, że istnieją dwie szkoły myślenia, które wydają mi się sprzeczne. Chcę zrozumieć, jak pogodzić te dwie rzeczy (lub zrozumieć, czego tu brakuje). …
Moje główne pytanie dotyczy prób zrozumienia, w jaki sposób k-krotna walidacja krzyżowa pasuje w kontekście posiadania zestawów szkoleniowych / walidacyjnych / testowych (jeśli w ogóle pasuje w takim kontekście). Zwykle ludzie mówią o podziale danych na zestaw treningowy, walidacyjny i testowy - powiedzmy w stosunku 60/20/20 na kurs Andrew Ng …
Mam pytanie dotyczące optymalizacji parametrów, gdy korzystam z 10-krotnej walidacji krzyżowej. Chcę zapytać, czy parametry powinny zostać naprawione podczas treningu modelu każdego złożenia, tj. (1) wybierz jeden zestaw zoptymalizowanych parametrów dla średniej dokładności każdego złożenia. lub (2) Powinienem znaleźć zoptymalizowany parametr dla każdego zagięcia, a następnie każde zagięcie używa różnych …
Zwykle w regresji logistycznej dopasowujemy model i uzyskujemy prognozy dotyczące zestawu treningowego. Następnie weryfikujemy krzyżowo te prognozy treningowe (coś takiego jak tutaj ) i decydujemy o optymalnej wartości progowej na podstawie czegoś takiego jak krzywa ROC. Dlaczego nie uwzględnimy weryfikacji krzyżowej progu w rzeczywistym modelu i nie przeszkolimy tego od …
Kiedy oceniamy jakość Losowego Lasu, na przykład za pomocą AUC, czy bardziej odpowiednie jest obliczenie tych ilości na podstawie próbek po wyjęciu z torby lub na podstawie zestawu krzyżowego sprawdzania poprawności? Słyszałem, że obliczenie go na próbkach OOB daje bardziej pesymistyczną ocenę, ale nie rozumiem dlaczego.
Właśnie skończyłem „Wprowadzenie do uczenia statystycznego” . Zastanawiałem się, czy zastosowanie weryfikacji krzyżowej w celu znalezienia najlepszych parametrów dostrajania różnych technik uczenia maszynowego różni się od szpiegowania danych? Wielokrotnie sprawdzamy, która wartość parametru strojenia daje najlepszy wynik predykcyjny w zestawie testowym. Co się stanie, jeśli parametr strojenia, do którego doszliśmy, …
Kiedy przeprowadzam walidację krzyżową k-fold, rozumiem, że uzyskujesz miary dokładności, wskazując wszystkie fałdy z wyjątkiem jednego w tym folderze i przewidując, a następnie powtórz ten proces razy. Następnie możesz uruchomić wskaźniki dokładności dla wszystkich swoich instancji (precyzja, przywołanie,% sklasyfikowane poprawnie), które powinny być takie same, jakbyś je obliczał za każdym …
Wydaje mi się, że rozumiem, jak działają podstawy ładowania początkowego , ale nie jestem pewien, czy rozumiem, jak mogę użyć ładowania początkowego do wyboru modelu lub uniknąć nadmiernego dopasowania. Na przykład, aby wybrać model, czy po prostu wybierzesz model, który daje najniższy błąd (może wariancję?) We wszystkich próbkach ładowania początkowego? …
Ustawiam wyszukiwanie siatki dla kilku parametrów. Próbuję znaleźć najlepsze parametry dla sieci neuronowej Keras, która dokonuje klasyfikacji binarnej. Dane wyjściowe to 1 lub 0. Istnieje około 200 funkcji. Kiedy przeszukałem siatkę, dostałem kilka modeli i ich parametrów. Najlepszy model miał następujące parametry: Epochs : 20 Batch Size : 10 First …
Korzystam ze scikit-learn, aby przeprowadzić regresję logistyczną z weryfikacją krzyżową na zestawie danych (około 14 parametrów z> 7000 znormalizowanych obserwacji). Mam również docelowy klasyfikator, który ma wartość 1 lub 0. Problem, jaki mam, polega na tym, że niezależnie od używanego solwera wciąż otrzymuję ostrzeżenia o konwergencji ... model1 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='newton-cg',penalty='l2') …
Pytanie: Bootstrapping jest lepszy od jackknifing; Zastanawiam się jednak, czy istnieją przypadki, w których podnoszenie jest jedyną lub przynajmniej realną opcją charakteryzowania niepewności na podstawie oszacowań parametrów. Ponadto w sytuacjach praktycznych, w jaki sposób stronniczy / niedokładny jest walenie w nogę w stosunku do ładowania początkowego, i czy wyniki noża …
Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy istnieje sposób na użycie zestawu K-fold w tym zestawie danych do zweryfikowania moich wyników?
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.