To pytanie może być zbyt otwarte, aby uzyskać ostateczną odpowiedź, ale mam nadzieję, że nie. Algorytmy uczenia maszynowego, takie jak SVM, GBM, Random Forest itp., Generalnie mają pewne wolne parametry, które poza pewną wskazówką praktyczną, muszą być dostosowane do każdego zestawu danych. Zazwyczaj odbywa się to za pomocą pewnego rodzaju …
Ostatnio natknąłem się na artykuł, który proponuje użycie klasyfikatora k-NN w określonym zbiorze danych. Autorzy wykorzystali wszystkie dostępne próbki danych, aby przeprowadzić k-krotną weryfikację krzyżową dla różnych wartości k i zgłosić wyniki walidacji krzyżowej najlepszej konfiguracji hiperparametrów. Według mojej wiedzy wynik ten jest stronniczy i powinni zachować osobny zestaw testowy, …
Powiedziano mi, że korzystne jest stosowanie warstwowej weryfikacji krzyżowej, zwłaszcza gdy klasy odpowiedzi są niezrównoważone. Jeśli jednym z celów walidacji krzyżowej jest pomoc w rozliczeniu losowości naszej oryginalnej próbki danych treningowych, na pewno sprawienie, by każda zakładka miała taki sam rozkład klas, działałoby przeciwko temu, chyba że byłeś pewien, że …
Sprawdzam krzyżowo model, który próbuje przewidzieć liczbę. Gdyby to był problem z klasyfikacją binarną, obliczyłbym nieoczekiwane AUC, a jeśli byłby to problem regresji, obliczyłbym nieoczekiwanie RMSE lub MAE. W przypadku modelu Poissona, jakich mierników błędów mogę użyć do oceny „dokładności” prognoz poza próbą? Czy istnieje rozszerzenie AUC Poissona, które sprawdza, …
Próbuję poznać różne metody walidacji krzyżowej, przede wszystkim z zamiarem zastosowania do nadzorowanych technik analizy wielowymiarowej. Dwa, z którymi się spotkałem, to techniki K-fold i Monte Carlo. Czytałem, że K-fold jest odmianą Monte Carlo, ale nie jestem pewien, czy w pełni rozumiem, co składa się na definicję Monte Carlo. Czy …
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
Mam pytanie dotyczące procesu weryfikacji krzyżowej. Jestem w trakcie kursu uczenia maszynowego na Cursera. Jeden z tematów dotyczy weryfikacji krzyżowej. Trochę trudno było mnie śledzić. Wiem, dlaczego potrzebujemy CV, ponieważ chcemy, aby nasze modele działały dobrze na przyszłych (nieznanych) danych, a CV zapobiega nadmiernemu dopasowaniu. Jednak sam proces jest mylący. …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Powszechnie wiadomo, zwłaszcza w przetwarzaniu języka naturalnego, że uczenie maszynowe powinno przebiegać w dwóch etapach: w szkoleniu i w ewaluacji oraz powinny wykorzystywać różne dane. Dlaczego to? Intuicyjnie proces ten pomaga uniknąć przeładowania danych, ale nie widzę (teoretycznego) powodu, dla którego tak jest. W związku z tym widziałem, jak rzucano …
W klasyfikacji tekstowej mam zestaw szkoleniowy z około 800 próbkami i zestaw testowy z około 150 próbkami. Zestaw testowy nigdy nie był używany i czeka na użycie do końca. Używam całego zestawu 800 próbek treningowych, z 10-krotnym sprawdzaniem poprawności podczas strojenia i poprawiania klasyfikatorów i funkcji. Oznacza to, że nie …
Walidacja krzyżowa K-krotnie może być wykorzystana do oszacowania możliwości generalizacji danego klasyfikatora. Czy mogę (lub powinienem) również obliczyć wariancję zbiorczą ze wszystkich przebiegów sprawdzania poprawności, aby uzyskać lepsze oszacowanie jej wariancji? Jeśli nie to dlaczego? Znalazłem artykuły, które wykorzystują połączone odchylenie standardowe w wielu testach krzyżowych . Znalazłem także artykuły …
W pytaniu w innym miejscu na tej stronie, w kilku odpowiedziach wspomniano, że AIC jest równoważny walidacji krzyżowej z pominięciem jednego (LOO) i że BIC jest równoważny krzyżowej walidacji K-krotnie. Czy istnieje sposób empirycznego zademonstrowania tego w R, aby techniki zastosowane w LOO i K-fold zostały wyjaśnione i wykazano, że …
Rozumiem, że przy weryfikacji krzyżowej i wyborze modelu staramy się rozwiązać dwie rzeczy: P1 . Oszacuj oczekiwaną stratę w populacji podczas treningu z naszą próbą P2 . Zmierz i zgłoś naszą niepewność dotyczącą tego oszacowania (wariancja, przedziały ufności, stronniczość itp.) Standardową praktyką wydaje się być powtarzanie krzyżowej weryfikacji, ponieważ zmniejsza …
W niektórych wykładach i samouczkach , które widziałem, sugerują podzielenie danych na trzy części: szkolenie, walidacja i test. Nie jest jednak jasne, w jaki sposób należy używać zestawu danych testowych, ani w jaki sposób to podejście jest lepsze niż weryfikacja krzyżowa całego zestawu danych. Załóżmy, że zapisaliśmy 20% naszych danych …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.