Pytania otagowane jako out-of-sample

Odnosi się do praktyki oceniania wydajności modelu na pewnym zbiorze danych „testowych”, „wstrzymanych” lub „spoza próby”, które nie zostały wykorzystane do budowy modelu.

8
Jak mogę pomóc upewnić się, że dane testowe nie przeciekają do danych szkoleniowych?
Załóżmy, że mamy kogoś, kto buduje model predykcyjny, ale ten ktoś niekoniecznie jest dobrze obeznany z właściwymi zasadami statystyki lub uczenia maszynowego. Może pomagamy tej osobie w trakcie nauki, a może ta osoba korzysta z pakietu oprogramowania, który wymaga minimalnej wiedzy. Teraz ta osoba może bardzo dobrze rozpoznać, że prawdziwy …

4
Czy czasopismo Science poparło analizę Garden of Forking Pathes Analyzes?
Idea adaptacyjnej analizy danych polega na tym, że zmieniasz swój plan analizowania danych, gdy dowiadujesz się więcej na ten temat. W przypadku eksploracyjnej analizy danych (EDA) jest to ogólnie dobry pomysł (często szukasz nieprzewidzianych wzorców w danych), ale w przypadku badania potwierdzającego jest to powszechnie akceptowane jako bardzo błędna metoda …

5
Nowy rewolucyjny sposób eksploracji danych?
Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy: Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”: Wiele osób uważa, że ​​są w porządku, ponieważ używają danych z próby do szkolenia i danych z …


1
Czy prywatna tabela liderów Kaggle jest dobrym predyktorem wydajności poza próbą zwycięskiego modelu?
Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego? Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki …

4
Modele predykcyjne: statystyki nie są w stanie pokonać uczenia maszynowego? [Zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 2 lata temu . Obecnie śledzę program główny koncentrujący się na statystyce / ekonometrii. U mojego mistrza wszyscy studenci …

3
Dlaczego metoda Holdout (dzielenie danych na szkolenia i testy) nie jest stosowana w statystyce klasycznej?
W mojej klasie podczas eksploracji danych wprowadzono metodę wstrzymania jako sposób oceny wydajności modelu. Kiedy jednak wziąłem pierwszą klasę modeli liniowych, nie zostało to wprowadzone jako metoda walidacji lub oceny modelu. Moje badania online również nie wykazały żadnego skrzyżowania. Dlaczego metoda Holdout nie jest stosowana w statystyce klasycznej?


4
Jaki jest najbardziej odpowiedni sposób na utworzenie zestawu podtrzymującego: aby usunąć niektóre przedmioty lub usunąć niektóre obserwacje z każdego przedmiotu?
Mam zestaw danych z 26 funkcjami i 31000 wierszami. Jest to zbiór danych 38 podmiotów. To jest dla systemu biometrycznego. Więc chcę być w stanie zidentyfikować podmioty. Aby mieć zestaw testowy, wiem, że muszę usunąć niektóre wartości. Więc co lepiej robić i dlaczego? (a) trzymaj 30 osób jako zestaw szkoleniowy …

1
Czy modelowanie za pomocą losowych lasów wymaga krzyżowej weryfikacji?
O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że ​​fakt błędu OOB obliczanego podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet …

2
„Znacząca zmienna”, która nie poprawia przewidywań poza próbą - jak interpretować?
Mam pytanie, które moim zdaniem będzie dość proste dla wielu użytkowników. Używam modeli regresji liniowej, aby (i) zbadać związek kilku zmiennych objaśniających i mojej zmiennej odpowiedzi oraz (ii) przewidzieć moją zmienną odpowiedzi za pomocą zmiennych objaśniających. Wydaje się, że jedna szczególna zmienna objaśniająca X ma znaczący wpływ na moją zmienną …

1
Jak obliczyć z kwadratu próbki R?
Wiem, że prawdopodobnie zostało to omówione gdzie indziej, ale nie udało mi się znaleźć jednoznacznej odpowiedzi. Próbuję użyć wzoru aby obliczyć poza próbą modelu regresji liniowej, gdzie jest sumą kwadratów reszt, a jest sumą kwadratów. W przypadku zestawu treningowego jasne jest, żeR2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.