Po pierwsze, przepraszam za opublikowanie pytania, które zostało już obszernie omówione tutaj , tutaj , tutaj , tutaj , tutaji do odtworzenia starego tematu. Wiem, że @DikranMarsupial pisał na ten temat obszernie w postach i gazetach, ale nadal jestem zdezorientowany i sądząc po liczbie podobnych postów tutaj, wciąż jest to …
Jeśli mam dane i prowadzę klasyfikację (powiedzmy losowy las na tych danych) z walidacją krzyżową (powiedzmy 5-krotnie), czy mogę dojść do wniosku, że w mojej metodzie nie ma nadmiernego dopasowania?
Używałem powtarzanej k-krotnej walidacji krzyżowej i zgłaszałem średnią (metryki oceny, np. Czułości, swoistości) obliczoną jako średnia średnia dla fałdów różnych przebiegów walidacji krzyżowej. Nie jestem jednak pewien, jak powinienem zgłosić wariancję. Znalazłem tutaj wiele pytań omawiających powtórną walidację krzyżową, jednak żadne, o których jestem świadomy, wyraźnie odpowiada na pytanie wariancji …
Czy dane normalizujące (mające zerową średnią i odchylenie standardowe jedności) przed powtórzeniem k-krotnej walidacji krzyżowej mają jakieś negatywne konsekwencje, takie jak nadmierne dopasowanie? Uwaga: dotyczy to sytuacji, gdy # skrzynki> łączna liczba funkcji Przekształcam niektóre moje dane za pomocą transformacji dziennika, a następnie normalizuję wszystkie dane jak wyżej. Następnie dokonuję …
Daszek pakiet jest genialna biblioteka R do budowy wielu modeli uczenia maszynowego i ma kilka funkcji dla budynku modelu i oceny. Do dostrajania parametrów i treningu modeli pakiet Caret oferuje „repeatcv” jako jedną z metod. Dobrą praktyką jest dostrajanie parametrów za pomocą zagnieżdżonej krzyżowej weryfikacji K-fold, która działa w następujący …
Zetknąłem się z tym artykułem z 2012 r. Autorstwa Gitte Vanwinckelen i Hendrika Blockeela, który kwestionuje użyteczność wielokrotnej walidacji krzyżowej, która stała się popularną techniką zmniejszania wariancji walidacji krzyżowej. Autorzy wykazali, że chociaż wielokrotne sprawdzanie poprawności krzyżowej zmniejsza wariancję prognoz modelu, ponieważ próbka tego samego zestawu danych jest ponownie próbkowana, …
Mam zestaw danych 120 próbek w 10-krotnym ustawieniu walidacji krzyżowej. Obecnie wybieram dane treningowe pierwszego wstrzymania i wykonuję na nim 5-krotną weryfikację krzyżową, aby wybrać wartości gamma i C za pomocą wyszukiwania siatki. Używam SVM z jądrem RBF. Ponieważ przeprowadzam dziesięć-krotną weryfikację krzyżową, aby zgłosić precyzję, pamiętajcie, czy wykonuję to …
Jeśli dopasujesz funkcję nieliniową do zestawu punktów (zakładając, że dla każdej odciętej jest tylko jedna rzędna), wynikiem może być: bardzo złożona funkcja z małymi resztkami bardzo prosta funkcja z dużymi resztkami Krzyżowa walidacja jest powszechnie stosowana w celu znalezienia „najlepszego” kompromisu między tymi dwoma skrajnościami. Ale co znaczy „najlepszy”? Czy …
Właśnie obejrzałem ponownie wykład z kursu Machine Learning na Coursera. W części, w której profesor omawia PCA do wstępnego przetwarzania danych w nadzorowanych aplikacjach edukacyjnych, mówi, że PCA powinno być wykonywane tylko na danych szkoleniowych, a następnie mapowanie służy do transformacji zestawów walidacji krzyżowej i testów. Zobacz także PCA i …
Biorąc pod uwagę macierz , Faktoryzacja macierzy nieujemnej (NMF) znajduje dwie nieujemne macierze i ( tzn. ze wszystkimi elementami ) do reprezentowania rozłożonej macierzy jako:Vm×nVm×n\mathbf V^{m \times n}H k × n ≥0Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, na przykład wymagając, aby nieujemne …
Scikit ma CalibratedClassifierCV , co pozwala nam skalibrować nasze modele na konkretnej parze X, y. Stwierdza to również jasnodata for fitting the classifier and for calibrating it must be disjoint. Jeśli muszą być rozłączne, czy uzasadnione jest przeszkolenie klasyfikatora w następujących kwestiach? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Obawiam się, że …
Analizuję zestaw danych przy użyciu modelu efektów mieszanych z jednym ustalonym efektem (warunkiem) i dwoma efektami losowymi (uczestnik ze względu na projekt i parę wewnątrz przedmiotu). Model ten został wygenerowany z lme4pakietu: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Następnie wykonałem test współczynnika wiarygodności tego modelu względem modelu bez ustalonego efektu (warunku) i mam znaczącą różnicę. …
Jestem całkiem nowy w losowych lasach. W przeszłości zawsze porównywałem dokładność dopasowania vs test z dopasowaniem vs pociągiem, aby wykryć przeregulowanie. Ale właśnie przeczytałem tutaj, że: „W losowych lasach nie ma potrzeby weryfikacji krzyżowej ani oddzielnego zestawu testowego, aby uzyskać obiektywne oszacowanie błędu zestawu testowego. Jest ono szacowane wewnętrznie podczas …
Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …
TLDR: Mój zestaw danych to dość małe (120) próbki. Czy podczas 10-krotnej weryfikacji krzyżowej powinienem: Zbierać wyniki z każdego testu, połączyć je w wektor, a następnie obliczyć błąd na tym pełnym wektorze prognoz (120 próbek)? Czy powinienem zamiast tego obliczyć błąd na wyjściach, które otrzymuję przy każdej fałdzie (z 12 …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.