Statystyki i duże zbiory danych out-of-sample

8

Jak mogę pomóc upewnić się, że dane testowe nie przeciekają do danych szkoleniowych?

Załóżmy, że mamy kogoś, kto buduje model predykcyjny, ale ten ktoś niekoniecznie jest dobrze obeznany z właściwymi zasadami statystyki lub uczenia maszynowego. Może pomagamy tej osobie w trakcie nauki, a może ta osoba korzysta z pakietu oprogramowania, który wymaga minimalnej wiedzy. Teraz ta osoba może bardzo dobrze rozpoznać, że prawdziwy …

60 machine-learning classification predictive-models cross-validation out-of-sample

4

Czy czasopismo Science poparło analizę Garden of Forking Pathes Analyzes?

Idea adaptacyjnej analizy danych polega na tym, że zmieniasz swój plan analizowania danych, gdy dowiadujesz się więcej na ten temat. W przypadku eksploracyjnej analizy danych (EDA) jest to ogólnie dobry pomysł (często szukasz nieprzewidzianych wzorców w danych), ale w przypadku badania potwierdzającego jest to powszechnie akceptowane jako bardzo błędna metoda …

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

5

Nowy rewolucyjny sposób eksploracji danych?

Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy: Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”: Wiele osób uważa, że są w porządku, ponieważ używają danych z próby do szkolenia i danych z …

21 data-mining curve-fitting out-of-sample

3

Czy potrzebujemy zestawu testowego, gdy korzystamy z krzyżowej weryfikacji k-fold?

Czytałem o walidacji k-fold i chcę się upewnić, że rozumiem, jak to działa. Wiem, że w przypadku metody wstrzymania dane są podzielone na trzy zestawy, a zestaw testowy jest używany tylko na samym końcu do oceny wydajności modelu, podczas gdy zestaw sprawdzania poprawności służy do dostrajania hiperparametrów itp. W metodzie …

21 cross-validation validation out-of-sample

1

Czy prywatna tabela liderów Kaggle jest dobrym predyktorem wydajności poza próbą zwycięskiego modelu?

Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne dopasowanie do prywatnego zestawu testowego? Według „Pseudo-matematyki i finansowego szarlatanizmu: skutki …

16 model-selection overfitting out-of-sample

4

Modele predykcyjne: statystyki nie są w stanie pokonać uczenia maszynowego? [Zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 2 lata temu . Obecnie śledzę program główny koncentrujący się na statystyce / ekonometrii. U mojego mistrza wszyscy studenci …

14 machine-learning forecasting predictive-models prediction out-of-sample

3

Dlaczego metoda Holdout (dzielenie danych na szkolenia i testy) nie jest stosowana w statystyce klasycznej?

W mojej klasie podczas eksploracji danych wprowadzono metodę wstrzymania jako sposób oceny wydajności modelu. Kiedy jednak wziąłem pierwszą klasę modeli liniowych, nie zostało to wprowadzone jako metoda walidacji lub oceny modelu. Moje badania online również nie wykazały żadnego skrzyżowania. Dlaczego metoda Holdout nie jest stosowana w statystyce klasycznej?

12 regression validation model-evaluation out-of-sample

1

Różnica między prognozami „w próbie” i „pseudo poza próbą”

Czy istnieje wyraźna różnica między prognozami w próbie a pseudo prognozami poza próbą . Oba mają na celu ocenę i porównanie modeli prognozowania.

12 forecasting model-comparison out-of-sample in-sample

4

Jaki jest najbardziej odpowiedni sposób na utworzenie zestawu podtrzymującego: aby usunąć niektóre przedmioty lub usunąć niektóre obserwacje z każdego przedmiotu?

Mam zestaw danych z 26 funkcjami i 31000 wierszami. Jest to zbiór danych 38 podmiotów. To jest dla systemu biometrycznego. Więc chcę być w stanie zidentyfikować podmioty. Aby mieć zestaw testowy, wiem, że muszę usunąć niektóre wartości. Więc co lepiej robić i dlaczego? (a) trzymaj 30 osób jako zestaw szkoleniowy …

11 machine-learning cross-validation out-of-sample

1

Czy modelowanie za pomocą losowych lasów wymaga krzyżowej weryfikacji?

O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że fakt błędu OOB obliczanego podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet …

10 cross-validation random-forest overfitting out-of-sample

2

„Znacząca zmienna”, która nie poprawia przewidywań poza próbą - jak interpretować?

Mam pytanie, które moim zdaniem będzie dość proste dla wielu użytkowników. Używam modeli regresji liniowej, aby (i) zbadać związek kilku zmiennych objaśniających i mojej zmiennej odpowiedzi oraz (ii) przewidzieć moją zmienną odpowiedzi za pomocą zmiennych objaśniających. Wydaje się, że jedna szczególna zmienna objaśniająca X ma znaczący wpływ na moją zmienną …

10 statistical-significance predictive-models p-value prediction out-of-sample

1

Jak obliczyć z kwadratu próbki R?

Wiem, że prawdopodobnie zostało to omówione gdzie indziej, ale nie udało mi się znaleźć jednoznacznej odpowiedzi. Próbuję użyć wzoru aby obliczyć poza próbą modelu regresji liniowej, gdzie jest sumą kwadratów reszt, a jest sumą kwadratów. W przypadku zestawu treningowego jasne jest, żeR2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma …

10 regression machine-learning r-squared out-of-sample

Pytania otagowane jako out-of-sample