Jak wybrać rozmiar zestawu szkoleniowego, walidacji krzyżowej i zestawu testowego dla danych o małej próbce?

10

Załóżmy, że mam małą próbkę, np. N = 100, i dwie klasy. Jak wybrać rozmiar zestawu szkoleniowego, walidacyjnego i testowego do uczenia maszynowego?

Intuicyjnie wybrałbym

Rozmiar zestawu treningowego wynosi 50
Zestaw do walidacji krzyżowej rozmiar 25 i
Rozmiar testowy wynosi 25.

Ale prawdopodobnie ma to mniej lub bardziej sens. Jak naprawdę zdecydować o tych wartościach? Czy mogę wypróbować różne opcje (choć myślę, że nie jest to tak preferowane ... większa możliwość ponaduczenia się)?

Co jeśli miałbym więcej niż dwie klasy?

— est
źródło

2

100 jest dla mnie za małe. Zdecydowałbym się na strategię jednoznaczną zarówno dla walidacji krzyżowej, jak i oceny testów.

— Memming

Nie widziałem żadnej literatury na ten temat (minimalne rozmiary próbek do walidacji). Nie pewny dlaczego. Wydaje się to ważną kwestią.

— Charles

15

Z pewnością znalazłeś bardzo podobne pytanie: Wybór K w K-krotnie walidacji krzyżowej ?
(Łącznie z linkiem do pracy Rona Kohaviego)
$k$ ogólnie zalecane.
Co ciekawe, przy tych problemach z klasyfikacją bardzo małych próbek walidacja jest często trudniejsza (pod względem potrzeb dotyczących wielkości próby) w porównaniu ze szkoleniem przyzwoitego modelu. Jeśli potrzebujesz literatury na ten temat, zobacz np. Nasz artykuł na temat planowania wielkości próby:
Beleites, C. and Neugebauer, U. i Bocklitz, T. and Krafft, C. and Popp, J .:
Planowanie wielkości próby dla modeli klasyfikacji. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
zaakceptowano manuskrypt na arXiv: 1211.1323
Kolejną ważną kwestią jest dobre wykorzystanie możliwości iteracji / powtórzenia walidacji krzyżowej (co jest jednym z powodów przeciwko LOO): pozwala to zmierzyć stabilność prognoz w odniesieniu do zaburzeń (tj. Kilku różnych przypadków) treningu dane.

Literatura:
- Beleites, C. i Salzer, R .: Ocena i poprawa stabilności modeli chemometrycznych w sytuacjach o małej wielkości próbki Anal Bioanal Chem, 2008, 390, 1261-1271.
  DOI: 10.1007 / s00216-007-1818-6
- Dixon, SJ; Heinrich, N .; Holmboe, M .; Schaefer, ML; Reed, RR; Trevejo, J. i Brereton, RG: Zastosowanie metod klasyfikacji, gdy liczebność grup jest nierówna, poprzez uwzględnienie wcześniejszych prawdopodobieństw w trzech powszechnych podejściach: Zastosowanie do symulacji i chemicznych sygnałów moczowych, Chemom Intell Lab Syst, 2009, 99, 111-120.
  DOI: 10.1016 / j.chemolab.2009.07.016
Jeśli zdecydujesz się na pojedyncze uruchomienie zestawu testowego wstrzymania (bez iteracji / powtórzeń),
- pamiętaj, że większość błędów, które możesz popełnić podczas weryfikacji krzyżowej (co doprowadzi do optymistycznego nastawienia), może również wystąpić przy zestawie testów podtrzymujących.
- sprawdź szerokość wynikowego przedziału ufności dla pomiaru wydajności i upewnij się, że umożliwia to sensowną interpretację wyników (patrz dokument dotyczący planowania wielkości próby).

— cbeleites niezadowoleni z SX
źródło

+1 wyłącznie za porady dotyczące optymalizacji parametrów i złożoności modelu. ale wszystkie te porady są fantastyczne.

— Charles

1

Biorąc pod uwagę, że twoja próbka jest niewielka, dobrą praktyką byłoby pominięcie sekcji weryfikacji krzyżowej i zastosowanie współczynnika 60–40 lub 70–30.

Jak widać w sekcji 2.8 Wstępu do Clementine i Data Mining, a także w Bibliotece MSDN - Data Mining - Zestawy szkoleniowe i testowe współczynnik 70-30 jest powszechny. Według wykładów Machine Learning Andrew Ng zalecany jest stosunek 60 - 20 - 20.

Mam nadzieję, że byłam pomocna. Z poważaniem.

— mrdatamx
źródło