Zastanawiam się, czy jest jakaś heurystyka na temat liczby cech w porównaniu z liczbą obserwacji. Oczywiście, jeśli liczba cech jest równa liczbie obserwacji, model się dopasuje. Stosując rzadkie metody (LASSO, elastyczna siatka) możemy usunąć kilka funkcji w celu zmniejszenia modelu.
Moje pytanie brzmi (teoretycznie): czy przed użyciem wskaźników do oceny wyboru modelu istnieją jakieś obserwacje empiryczne, które wiążą optymalną liczbę cech z liczbą obserwacji?
Na przykład: w przypadku problemu z klasyfikacją binarną obejmującego 20 instancji w każdej klasie, czy istnieje górny limit liczby używanych funkcji?