Mam pytanie, które moim zdaniem będzie dość proste dla wielu użytkowników.
Używam modeli regresji liniowej, aby (i) zbadać związek kilku zmiennych objaśniających i mojej zmiennej odpowiedzi oraz (ii) przewidzieć moją zmienną odpowiedzi za pomocą zmiennych objaśniających.
Wydaje się, że jedna szczególna zmienna objaśniająca X ma znaczący wpływ na moją zmienną odpowiedzi. W celu przetestowania wartości dodanej tej zmiennej objaśniającej X na potrzeby przewidywań mojej zmiennej odpowiedzi poza próbą zastosowałem dwa modele: model (a), który wykorzystał wszystkie zmienne objaśniające, i model (b), który wykorzystał wszystkie zmienne oprócz zmiennej X. W przypadku obu modeli zgłaszam wyłącznie wyniki poza próbą. Wygląda na to, że oba modele zachowują się prawie tak samo dobrze. Innymi słowy, dodanie zmiennej objaśniającej X nie poprawia przewidywań poza próbą. Zauważ, że użyłem również modelu (a), tj. Modelu ze wszystkimi zmiennymi objaśniającymi, aby stwierdzić, że zmienna objaśniająca X ma znaczący wpływ na moją zmienną odpowiedzi.
Moje pytanie brzmi: jak zinterpretować to odkrycie? Bezpośredni wniosek jest taki, że chociaż zmienna X wydaje się znacząco wpływać na moją zmienną odpowiedzi za pomocą modeli wnioskowania, nie poprawia ona przewidywań poza próbą. Mam jednak problem z dalszym wyjaśnieniem tego odkrycia. Jak to możliwe i jakie są wyjaśnienia tego odkrycia?
Z góry dziękuję!
Informacje dodatkowe: przy „znaczącym wpływie” mam na myśli to, że 0 nie jest uwzględnione w najwyższym 95% przednim przedziale gęstości szacunku parametru (im stosując podejście bayesowskie). W kategoriach częstych odpowiada to mniej więcej wartości p niższej niż 0,05. Używam tylko rozproszonych (nieinformacyjnych) priorów dla wszystkich parametrów moich modeli. Moje dane mają strukturę podłużną i zawierają łącznie około 7000 obserwacji. Do prognoz poza próbą wykorzystałem 90% danych, aby dopasować je do moich modeli, a 10% danych do oceny modeli przy użyciu wielu replikacji. Oznacza to, że przeprowadziłem wielokrotny test pociągu i ostatecznie podałem średnie wskaźniki wydajności.