Więc pracuję z modelami regresji logistycznej w R. Chociaż wciąż jestem nowy w statystyce, wydaje mi się, że do tej pory zrozumiałem trochę modeli regresji, ale wciąż coś mnie niepokoi:
Patrząc na połączone zdjęcie, widać podsumowanie wydruków R dla przykładowego modelu, który stworzyłem. Model próbuje przewidzieć, czy wiadomość e-mail w zestawie danych zostanie odrzucona, czy nie (zmienna binarna isRefound
), a zestaw danych zawiera dwie zmienne ściśle ze sobą powiązane isRefound
, a mianowicie next24
i next7days
- są one również binarne i określają, czy wiadomość zostanie kliknięta w następnym 24 godziny / kolejne 7 dni od bieżącego punktu w logach.
Wysoka wartość p powinna wskazywać, że wpływ tej zmiennej na prognozę modelu jest dość przypadkowy, prawda? Na tej podstawie nie rozumiem, dlaczego precyzja prognoz modeli spada poniżej 10%, gdy te dwie zmienne są pominięte w formule obliczeniowej. Jeśli zmienne te wykazują tak małe znaczenie, dlaczego usunięcie ich z modelu ma tak duży wpływ?
Z pozdrowieniami i z góry dziękuję, Rickyfox
EDYTOWAĆ:
Najpierw usunąłem dopiero next24, co powinno dać niewielki wpływ, ponieważ jego cefka jest dość mała. Zgodnie z oczekiwaniami, niewiele się zmieniło - nie wrzucę do tego zdjęcia.
Usunięcie następnych 7 dni miało duży wpływ na model: AIC 200k w górę, precyzja do 16% i wycofanie do 73%
isRefound ~ day + next24
i pomijasz wszystkie pozostałe zmienne?