Jest to dziedzina statystyki zwana wyborem modelu. Przeprowadzono wiele badań w tej dziedzinie i nie ma jednoznacznej i łatwej odpowiedzi.
Załóżmy, że masz i i chcesz wiedzieć, czy powinieneś uwzględnić w modelu wyrażenie . W takiej sytuacji Twój bardziej oszczędny model jest zagnieżdżony w bardziej złożonym modelu. Innymi słowy, zmienne i (model oszczędny) są podzbiorem zmiennych i (model złożony). W budowaniu modeli masz (przynajmniej) jeden z następujących dwóch głównych celów:X1,X2X3X23X1,X2X3X1,X2,X3X23
- Wyjaśnij dane: próbujesz zrozumieć, jak pewien zestaw zmiennych wpływa na twoją zmienną odpowiedzi, lub jesteś zainteresowany tym, jak wpływa na , kontrolując efektyX1YX2,...Xp
- Przewiduj : chcesz dokładnie przewidzieć , nie dbając o to, co lub ile zmiennych jest w twoim modeluYY
Jeśli Twoim celem jest numer 1, polecam test współczynnika wiarygodności (LRT). LRT jest używany, gdy masz modele zagnieżdżone i chcesz wiedzieć, „czy dane znacznie częściej pochodzą z modelu złożonego niż z modelu oszczędnego?”. Dzięki temu dowiesz się, który model lepiej wyjaśnia związek między twoimi danymi.
Jeśli twoim celem jest numer 2, zalecam jakąś technikę weryfikacji krzyżowej (CV) krotnie, CV z pominięciem jednego, CV z treningu testowego) w zależności od wielkości twoich danych. Podsumowując, te metody budują model na podzbiorze danych i przewidują wyniki na pozostałych danych. Wybierz model, który najlepiej prognozuje pozostałe dane.k