Szukanym terminem jest „krzywa uczenia się”, która daje (średnią) wydajność modelu w zależności od wielkości próbki treningowej.
Krzywe uczenia się zależą od wielu rzeczy, np
- metoda klasyfikacji
- złożoność klasyfikatora
- jak dobrze klasy są rozdzielone.
(Myślę, że dla LDA dwuklasowej możesz być w stanie wyprowadzić teoretyczne obliczenia mocy, ale kluczowym faktem jest zawsze to, czy twoje dane faktycznie spełniają założenie „równej normalnej wielowymiarowej wartości COV”. Chciałbym przejść do symulacji dla obu LDA założenia i ponowne próbkowanie już istniejących danych).
n
Innym aspektem, który możesz wziąć pod uwagę, jest to, że zwykle nie wystarczy wyszkolić dobrego klasyfikatora, ale musisz także udowodnić, że klasyfikator jest dobry (lub wystarczająco dobry). Musisz więc zaplanować również wielkość próbki potrzebną do weryfikacji z określoną precyzją. Jeśli chcesz podać te wyniki jako ułamek sukcesu wśród tylu przypadków testowych (np. Dokładność / precyzja / czułość / dodatnia wartość predykcyjna producenta lub konsumenta), a zadanie klasyfikacji dodatniej jest dość łatwe, może to wymagać większej liczby niezależnych przypadków niż szkolenie dobry model.
Zasadniczo w przypadku szkolenia wielkość próbki jest zwykle omawiana w odniesieniu do złożoności modelu (liczba przypadków: liczba zmiennych), podczas gdy bezwzględne granice wielkości próbki testowej można podać dla wymaganej precyzji pomiaru wydajności.
Oto artykuł, w którym wyjaśniliśmy te rzeczy bardziej szczegółowo, a także omawiamy, jak
konstruować krzywe uczenia się: Beleites, C. and Neugebauer, U. i Bocklitz, T. and Krafft, C. and Popp, J .: Planowanie wielkości próby dla modeli klasyfikacyjnych. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
zaakceptowano manuskrypt na arXiv: 1211.1323
Jest to „zwiastun”, pokazujący łatwy problem z klasyfikacją (w rzeczywistości mamy jedno takie łatwe rozróżnienie w naszym problemie z klasyfikacją, ale inne klasy są znacznie trudniejsze do rozróżnienia):
Nie próbowaliśmy ekstrapolować na większe rozmiary próbek treningowych, aby określić, ile potrzeba więcej przypadków treningowych, ponieważ rozmiary próbek testowych są naszym wąskim gardłem, a większe rozmiary próbek treningowych pozwoliłyby nam zbudować bardziej złożone modele, więc ekstrapolacja jest wątpliwa. Do tego rodzaju zestawów danych podchodzę iteracyjnie, mierząc kilka nowych przypadków, pokazując, jak wiele rzeczy uległo poprawie, mierzę więcej przypadków i tak dalej.
Może to być dla Ciebie inne, ale artykuł zawiera odniesienia literaturowe do artykułów wykorzystujących ekstrapolację do większych rozmiarów próbek w celu oszacowania wymaganej liczby próbek.