Dlaczego metoda Holdout (dzielenie danych na szkolenia i testy) nie jest stosowana w statystyce klasycznej?

12

W mojej klasie podczas eksploracji danych wprowadzono metodę wstrzymania jako sposób oceny wydajności modelu. Kiedy jednak wziąłem pierwszą klasę modeli liniowych, nie zostało to wprowadzone jako metoda walidacji lub oceny modelu. Moje badania online również nie wykazały żadnego skrzyżowania. Dlaczego metoda Holdout nie jest stosowana w statystyce klasycznej?

— tirkquest
źródło

22

Bardziej produktywnym pytaniem może być „dlaczego nie wykorzystano go w klasycznych statystykach, których się nauczyłem?”

W zależności od poziomu (poziomów) nauczania, treść kursu (i dostępny czas) może wynikać z kombinacji różnych czynników. Często pomija się ważne tematy, ponieważ z tego czy innego powodu należy uczyć innych materiałów z nadzieją, że zostaną one omówione w późniejszych tematach.

Przynajmniej w niektórych aspektach pojęcie to było od dawna używane przez różne osoby. To było bardziej powszechne w niektórych obszarach niż w innych. Wiele zastosowań statystyki nie ma przewidywania lub wyboru modelu jako głównego komponentu (lub w niektórych przypadkach nawet w ogóle), w takim przypadku użycie próbek wstrzymania może być mniej krytyczne niż wtedy, gdy głównym punktem jest przewidywanie. Prawdopodobnie powinien był zostać bardziej rozpowszechniony na wcześniejszym etapie w niektórych istotnych aplikacjach niż miał, ale to nie to samo, co bycie nieznanym.

Jeśli spojrzysz na obszary, które koncentrują się na predykcji, pojęcie oceny modelu poprzez przewidywanie danych, których nie wykorzystałeś do oszacowania modelu, z pewnością było w pobliżu (choć nie uniwersalne). Z pewnością robiłem to za pomocą modelowania szeregów czasowych, które robiłem w latach 80. XX wieku, na przykład tam, gdzie przewidywanie wyników najnowszych danych poza próbą było szczególnie ważne.

Pojęcie pominięcia przynajmniej niektórych danych zastosowano na przykład w regresji (usunięte resztki, PRASA, podnośnik itp.), A także w analizie wartości odstających.

Niektóre z tych pomysłów jeszcze wcześniej sporo dawały. Stone (1974) [1] odnosi się do artykułów na temat walidacji krzyżowej (ze słowem w tytule) z lat 50. i 60. Być może nawet bliżej twoich zamiarów, wspomina użycie przez Simona (1971) terminów „próbka konstrukcyjna” i „próbka walidacyjna” - ale zwraca również uwagę, że „Larson (1931) zastosował losowy podział próby w wielokrotności edukacyjnej - badanie regresji ”.

Tematy takie jak walidacja krzyżowa oraz wykorzystanie statystyk opartych na prognozach itd. Stały się znacznie częstsze w literaturze statystycznej na przykład w latach 70. i 80., ale wiele podstawowych pomysłów pojawiło się już od dłuższego czasu, nawet następnie.

[1]: Stone, M., (1974)
„Cross-Validatory Choice and Assessment of Statistics Predictions,”
Journal of Royal Statistics Society. Seria B (metodologiczna) , tom. 36, nr 2, s. 111–147

— Glen_b - Przywróć Monikę
źródło

Dla przypomnienia, M. Stone nie jest mną, ani nie jest ze mną spokrewniony, chyba że za pośrednictwem Adama i Ewy.

— Mark L. Stone

11

Aby uzupełnić odpowiedź udzieloną przez Glen_b, statystyki klasyczne często kładły nacisk na optymalne wykorzystanie danych, optymalne testy, optymalne estymatory, wystarczalność itd., Aw tych ramach teoretycznych trudno uzasadnić nieużywanie części informacji ! Częścią tej tradycji jest nacisk na sytuacje z małymi próbkami, w których trzymanie się jest praktycznie trudne.

Fisher pracował na przykład głównie z genetyką i eksperymentami rolniczymi, a na tych polach regułą była niewielka liczba obserwacji. Był więc głównie narażony na takie problemy z małymi zestawami danych.

— kjetil b halvorsen
źródło

6

Odpowiem z zastosowanej dziedziny, która może znajduje się pomiędzy statystyką klasyczną a uczeniem maszynowym: chemometria, tj. Statystyka do analiz chemicznych. Dodam dwa różne scenariusze, w których wstrzymanie nie jest tak ważne, jak w typowych zajęciach uczenia maszynowego.

Scenariusz 1:

Myślę, że jedną z kluczowych kwestii jest uświadomienie sobie, że istnieje zasadnicza różnica w tym, co jest małą próbką do treningu a testowania:

W przypadku szkolenia zazwyczaj stosunek liczby przypadków: złożoność modelu (liczba parametrów) ma znaczenie (stopnie swobody)
Do testowania liczy się bezwzględna liczba przypadków testowych.
(Jakość procedury testowej musi być niezależna od modelu: jest to traktowane jako czarna skrzynka przez zatwierdzenie w niezależnych przypadkach testowych)

$\gg$

Teraz wykłady statystyczne na temat „klasycznych” modeli liniowych często bardzo mocno podkreślają modele jednowymiarowe. W przypadku jednowymiarowego modelu liniowego wielkość próbki szkoleniowej prawdopodobnie nie jest mała: rozmiary próbki szkoleniowej są zazwyczaj oceniane w porównaniu ze złożonością modelu, a model liniowy ma tylko dwa parametry, przesunięcie i nachylenie. W chemii analitycznej mamy normę, która mówi, że powinieneś mieć co najmniej 10 próbek kalibracyjnych do jednoznacznej kalibracji liniowej. Zapewnia to sytuację, w której niestabilność modelu niezawodnie nie stanowi problemu, więc podtrzymywanie nie jest potrzebne.

Jednak w uczeniu maszynowym, a także w nowoczesnych detektorach wielokanałowych w analizie chemicznej (czasami 10⁴ „kanałów”, np. W spektrometrii mas), stabilność modelu (tj. Wariancja) jest ważnym zagadnieniem. Dlatego konieczne jest wstrzymanie lub lepsze ponowne próbkowanie.

Scenariusz 2:

Zupełnie inna sytuacja polega na tym, że wstrzymanie może zostać pominięte na korzyść kombinacji łatwiejszego (reszt) i bardziej zaawansowanego pomiaru wydajności. Zauważ, że hold-w sensie (losowo) na bok ustawienia część z zestawu danych i wyłączając z tego szkolenia jest nie równowartość co niezależne testy można osiągnąć. W chemii analitycznej można przeprowadzić dedykowane eksperymenty walidacyjne, które obejmą np. Pomiar pogorszenia wydajności w czasie (dryft przyrządu), którego nie można zmierzyć przez zatrzymanie i ustalenie np. Wydajności czujnika w rzeczywistym środowisku przemysłowym (podczas gdy kalibracja czujnika zostało zrobione w laboratorium na próbkach kalibracyjnych). Zobacz także /stats//a/104750/4598 aby uzyskać więcej informacji na temat niezależnych testów vs. wstrzymania.

— cbeleites niezadowoleni z SX
źródło

Powyżej, w Sceanario 1, myślę, że chciałeś powiedzieć (odchylenie << odchylenie)? Proszę popraw!

— kjetil b halvorsen

1

@kjetilbhalvorsen nie, ponieważ odnosi się do niedopasowania w tym akapicie (model, który nie jest wystarczająco złożony).

— Marc Claesen

@kjetilbhalvorsen; Marc Claesen ma rację, podkreśliłem, że dotyczy to sytuacji, w których można mieć pewność, że problem jest niedopasowany.

— cbeleites niezadowoleni z SX

DOBRZE. niektóre listy do spełnienia

— wymagają