To prawdopodobnie nie jest dobra rzecz do zrobienia. Najpierw spojrzenie na wszystkie poszczególne zmienne towarzyszące, a następnie zbudowanie modelu z tymi, które są znaczące, jest logicznie równoważne automatycznej procedurze wyszukiwania. Chociaż takie podejście jest intuicyjne, wnioski wynikające z tej procedury są nieprawidłowe (np. Prawdziwe wartości p różnią się od tych zgłaszanych przez oprogramowanie). Problem jest powiększany, im większy jest rozmiar początkowego zestawu zmiennych towarzyszących. Jeśli i tak to zrobisz (i niestety wiele osób tak robi), nie możesz poważnie potraktować wynikowego modelu. Zamiast tego musisz przeprowadzić zupełnie nowe badanie, gromadząc niezależną próbkę i dopasowując poprzedni model, aby go przetestować. Wymaga to jednak wielu zasobów, a ponadto, ponieważ proces jest wadliwy, a poprzedni model prawdopodobnie jest kiepski,marnować dużo zasobów.
Lepszym sposobem jest ocena modeli istotnych dla Ciebie. Następnie użyj kryterium informacyjnego, które karze elastyczność modelu (np. AIC), aby orzec w sprawie tych modeli. W przypadku regresji logistycznej AIC to:
AIC=−2×ln(likelihood)+2k
gdzie jest liczbą zmiennych towarzyszących zawartych w tym modelu. Chcesz model o najmniejszej wartości dla AIC, wszystkie rzeczy są równe. Jednak nie zawsze jest to takie proste; bądź ostrożny, gdy kilka modeli ma podobne wartości dla AIC, nawet jeśli jeden może być najniższy. k
Podaję tutaj pełną formułę AIC, ponieważ różne oprogramowanie generuje różne informacje. Być może będziesz musiał obliczyć to na podstawie prawdopodobieństwa, możesz też otrzymać ostateczny AIC lub cokolwiek pośredniego.