Krytyczne jest rozróżnienie, czy chcesz:
- [Najczęstszy przypadek]: konstruuj oszacowanie skuteczności nowych tematów (na podstawie tej samej populacji, co Twoje dane).
- Skonstruuj oszacowanie wyników na podstawie nowych obserwacji z tych samych przedmiotów, co w Twojej próbie.
O wiele bardziej powszechnym przypadkiem jest numer sprawy (1). Np. Jak dobrze przewidujesz ataki serca u kogoś, kto przyjdzie na izbę przyjęć? A jeśli jesteś w przypadku (1), prawie na pewno powinieneś zrobić (a) podmiotową weryfikację krzyżową zamiast (b) ewidencyjną weryfikację krzyżową. Dokonanie rekordowej walidacji w przypadku (1) najprawdopodobniej doprowadzi do nieuzasadnionych wysokich, fałszywych oszacowań wyników na nowych tematach.
Nie rozumiem dokładnie, co próbujesz zrobić (i być może jest to samokształcenie, więc pytanie nie jest całkowicie realistyczne). Nie wiem, w jakim jesteś przypadku. Jeśli jesteś w znacznie mniej powszechnym przypadku (2), sprawdzanie poprawności zapisu może być w porządku.
Ogólnym tematem w statystykach jest dokładne przemyślenie tego, co jest niezależne, a co skorelowane. Ogólnie rzecz biorąc, niezależna obserwacja jest zwykle innym tematem. Jeśli chcesz przewidzieć wyniki na nowych tematach, musisz przetestować przedmioty, na których nie trenowałeś!
Dlaczego pod względem przedmiotowym sprawdzanie poprawności krzyżowej zamiast rejestrowania?
W typowych ustawieniach powtarzane obserwacje tej samej osoby są skorelowane ze sobą nawet po uwarunkowaniu cech. Dlatego dzięki rekordowej weryfikacji krzyżowej Twój zestaw testowy nie jest niezależny od zestawu treningowego! W skrajnym przypadku idealnej korelacji miałbyś dokładnie takie same obserwacje w zestawie treningowym i zestawie testowym! Będziesz trenował na zestawie testowym! Wyniki mierzone w ramach walidacji krzyżowej nie byłyby w stanie przewidzieć wyników w odniesieniu do nowych podmiotów.
Na przykład ten najnowszy artykuł nazywa rekordową weryfikację krzyżową `` Voodoo Machine Learning ''.
Ale co zrobić z tak małą liczbą tematów ...
k = n
Aby zmaksymalizować dane do szkolenia, możesz pominąć jeden temat do wzajemnej weryfikacji. Każdej iteracji, testuj inny temat trzymania się i trenuj na wszystkich pozostałych.
n = 38