Odnosi się do praktyki oceniania wydajności modelu na pewnym zbiorze danych „testowych”, „wstrzymanych” lub „spoza próby”, które nie zostały wykorzystane do budowy modelu.
Załóżmy, że mamy kogoś, kto buduje model predykcyjny, ale ten ktoś niekoniecznie jest dobrze obeznany z właściwymi zasadami statystyki lub uczenia maszynowego. Może pomagamy tej osobie w trakcie nauki, a może ta osoba korzysta z pakietu oprogramowania, który wymaga minimalnej wiedzy. Teraz ta osoba może bardzo dobrze rozpoznać, że prawdziwy …
Idea adaptacyjnej analizy danych polega na tym, że zmieniasz swój plan analizowania danych, gdy dowiadujesz się więcej na ten temat. W przypadku eksploracyjnej analizy danych (EDA) jest to ogólnie dobry pomysł (często szukasz nieprzewidzianych wzorców w danych), ale w przypadku badania potwierdzającego jest to powszechnie akceptowane jako bardzo błędna metoda …
Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy: Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”: Wiele osób uważa, że są w porządku, ponieważ używają danych z próby do szkolenia i danych z …
Czytałem o walidacji k-fold i chcę się upewnić, że rozumiem, jak to działa. Wiem, że w przypadku metody wstrzymania dane są podzielone na trzy zestawy, a zestaw testowy jest używany tylko na samym końcu do oceny wydajności modelu, podczas gdy zestaw sprawdzania poprawności służy do dostrajania hiperparametrów itp. W metodzie …
Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego? Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki …
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 2 lata temu . Obecnie śledzę program główny koncentrujący się na statystyce / ekonometrii. U mojego mistrza wszyscy studenci …
W mojej klasie podczas eksploracji danych wprowadzono metodę wstrzymania jako sposób oceny wydajności modelu. Kiedy jednak wziąłem pierwszą klasę modeli liniowych, nie zostało to wprowadzone jako metoda walidacji lub oceny modelu. Moje badania online również nie wykazały żadnego skrzyżowania. Dlaczego metoda Holdout nie jest stosowana w statystyce klasycznej?
Mam zestaw danych z 26 funkcjami i 31000 wierszami. Jest to zbiór danych 38 podmiotów. To jest dla systemu biometrycznego. Więc chcę być w stanie zidentyfikować podmioty. Aby mieć zestaw testowy, wiem, że muszę usunąć niektóre wartości. Więc co lepiej robić i dlaczego? (a) trzymaj 30 osób jako zestaw szkoleniowy …
O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że fakt błędu OOB obliczanego podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet …
Mam pytanie, które moim zdaniem będzie dość proste dla wielu użytkowników. Używam modeli regresji liniowej, aby (i) zbadać związek kilku zmiennych objaśniających i mojej zmiennej odpowiedzi oraz (ii) przewidzieć moją zmienną odpowiedzi za pomocą zmiennych objaśniających. Wydaje się, że jedna szczególna zmienna objaśniająca X ma znaczący wpływ na moją zmienną …
Wiem, że prawdopodobnie zostało to omówione gdzie indziej, ale nie udało mi się znaleźć jednoznacznej odpowiedzi. Próbuję użyć wzoru aby obliczyć poza próbą modelu regresji liniowej, gdzie jest sumą kwadratów reszt, a jest sumą kwadratów. W przypadku zestawu treningowego jasne jest, żeR2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.