Mam pytanie dotyczące wyboru modelu i wydajności modelu w regresji logistycznej. Mam trzy modele oparte na trzech różnych hipotezach. Pierwsze dwa modele (nazwijmy je z i x) mają tylko jedną zmienną objaśniającą w każdym modelu, a trzeci (nazwijmy to w) jest bardziej skomplikowany. Używam AIC do wyboru zmiennych dla modelu w, a następnie AIC do porównywania, który z trzech modeli najlepiej wyjaśnia zmienną zależną. Odkryłem, że model w ma najniższy AIC i teraz chcę zrobić statystyki wydajności dla tego modelu, aby uzyskać pewne pojęcie o mocy predykcyjnej modelu. Ponieważ wiem tylko, że ten model jest lepszy od pozostałych dwóch, ale nie jest tak dobry.
Ponieważ wykorzystałem wszystkie dane do nauki modelu (aby móc porównać wszystkie trzy modele), jak mam postępować z wydajnością modelu? Z tego, co zebrałem, nie mogę po prostu wykonać k-krotnej walidacji krzyżowej na ostatecznym modelu, który otrzymałem z wyboru modelu za pomocą AIC, ale muszę zacząć od początku ze wszystkimi zmiennymi objaśniającymi, czy to prawda? Wydaje mi się, że jest to ostateczny model, który wybrałem z AIC, i chcę wiedzieć, jak dobrze działa, ale zdaj sobie sprawę, że trenowałem na wszystkich danych, więc model może być stronniczy. Więc jeśli zacznę od początku ze wszystkimi zmiennymi objaśniającymi we wszystkich fałdach, otrzymam różne modele końcowe dla niektórych fałdów, czy mogę po prostu wybrać model z fałdu, który dał najlepszą moc predykcyjną i zastosować go do pełnego zestawu danych do porównania AIC z dwoma innymi modelami (z i x)? Lub jak to działa?
Druga część mojego pytania jest podstawowym pytaniem o nadmiernej parametryzacji. Mam 156 punktów danych, 52 to 1, reszta to 0. Mam 14 zmiennych objaśniających do wyboru dla modelu w, zdaję sobie sprawę, że nie mogę uwzględnić wszystkich ze względu na nadmierną parametryzację, przeczytałem, że powinieneś używać tylko 10% grupy zmiennej zależnej z najmniejszą liczbą obserwacji, które dla mnie byłoby tylko 5. Próbuję odpowiedzieć na pytanie z ekologii, czy dobrze jest wybrać zmienne początkowe, które moim zdaniem wyjaśniają zależność najlepiej po prostu na podstawie ekologii? Lub jak wybrać początkowe zmienne objaśniające? Nie wydaje się słuszne całkowite wykluczenie niektórych zmiennych.
Tak naprawdę mam trzy pytania:
- Czy testowanie wydajności na modelu wyuczonym na pełnym zbiorze danych z weryfikacją krzyżową może być w porządku?
- Jeśli nie, jak wybrać ostateczny model podczas weryfikacji krzyżowej?
- Jak wybrać zmienne początkowe, aby zmienić parametry?
Przepraszam za moje niechlujne pytania i moją ignorancję. Wiem, że zadawano podobne pytania, ale nadal czuję się trochę zdezorientowany. Doceń wszelkie przemyślenia i sugestie.