zrozumienie wartości pw wielokrotnej regresji liniowej


12

Jeśli chodzi o wartość p analizy wielokrotnej regresji liniowej, wprowadzenie ze strony internetowej Minitab pokazano poniżej.

Wartość p dla każdego terminu testuje hipotezę zerową, że współczynnik jest równy zero (brak efektu). Niska wartość p (<0,05) oznacza, że ​​możesz odrzucić hipotezę zerową. Innymi słowy, predyktor o niskiej wartości p prawdopodobnie będzie znaczącym dodatkiem do twojego modelu, ponieważ zmiany wartości predyktora są związane ze zmianami zmiennej odpowiedzi.

Na przykład mam wynikowy model MLR jako . a wyjście jest pokazane poniżej. Następnie można obliczyć za pomocą tego równania.y=0,46753X1-0,2668X2)+1,6193X3)+4,5424X4+14,48y

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Na podstawie powyższego wstępu hipoteza zerowa jest taka, że ​​współczynnik wynosi 0. Moje rozumienie jest takie, że współczynnik, na przykład współczynnik , zostanie ustawiony na 0, a kolejne y zostanie obliczone jako . Następnie sparowany test t-test przeprowadza się dla i , a wartość p o t-test jest 6.9e-12, który nie równej 0.1292 (p wartości współczynnika .X4y2)=0,46753X1-0,2668X2)+1,6193X3)+0X4+14,48yy2)X4

Czy ktoś może pomóc w poprawnym zrozumieniu? Wielkie dzięki!


czy potrafisz pokazać wyniki procedury regresji?
Aksakal,

Twój opis obliczania wartości p jest niestandardowy. Jak myślisz, dlaczego należy to obliczyć tak, jak to opisujesz? Wartość p na wyjściu jest obliczana z macierzy parametrów Var-Cov. Jeśli chcesz uruchomić test ograniczeń, taki jak Wald, to nie tak opisujesz. Trzeba będzie ponownie oszacować model przy użyciu 3 zmiennych, uzyskać logeli wiarygodności itp.
Aksakal

1
Zgodnie z tym wprowadzeniem masz tylko jedną „znaczącą” zmienną - „przechwycenie” - ponieważ tylko jej wartość p jest niewielka. Aby wyjść poza naiwną i mylącą praktykę cytatu, musisz dowiedzieć się więcej o regresji wielokrotnej. Aby dowiedzieć się, czego można się w tym zakresie nauczyć, rozważ zbadanie odpowiednich wątków na naszej stronie .
Whuber

2
Sprawdź odpowiedzi na te dwa pytania: - stats.stackexchange.com/questions/5135/... oraz - stats.stackexchange.com/questions/126179/... Pomogły mi zrozumieć, w jaki sposób obliczane są wartości p, mam nadzieję, że je znajdziesz również pomocne.
Giacomo

Odpowiedzi:


7

Jest to nieprawidłowe z kilku powodów:

  1. Model „bez” X4 niekoniecznie będzie miał takie same oszacowania współczynników dla innych wartości. Zamontuj zredukowany model i przekonaj się sam.

  2. Y

  3. Test statystyczny przeprowadzany dla istotności statystycznej współczynnika jest testem t dla jednej próby. Jest to mylące, ponieważ nie mamy „próbki” wielu współczynników dla X4, ale mamy oszacowanie właściwości dystrybucyjnych takiej próbki przy użyciu centralnego twierdzenia granicznego. Średni i standardowy błąd opisują lokalizację i kształt takiego ograniczającego rozkładu. Jeśli weźmiesz kolumnę „Est” i podzielisz przez „SE” i porównasz ze standardowym rozkładem normalnym, otrzymasz wartości pw czwartej kolumnie.

  4. Czwarty punkt: krytyka strony pomocy minitabu. Taki plik pomocy nie mógł, w jednym akapicie, podsumować lat szkolenia statystycznego, więc nie muszę się z tym pogodzić. Jednak stwierdzenie, że „predyktor” jest „ważnym wkładem”, jest niejasne i prawdopodobnie niepoprawne. Uzasadnienie wyboru zmiennych, które należy uwzględnić w modelu wielowymiarowym, jest subtelne i opiera się na naukowym uzasadnieniu, a nie wnioskowaniu statystycznym.


0

Twoja początkowa interpretacja wartości p wydaje się poprawna, co oznacza, że ​​tylko punkt przecięcia ma współczynnik, który jest znacząco różny od 0. Zauważysz, że oszacowanie współczynnika dla x4 jest wciąż dość wysokie, ale jest wystarczający błąd, że nie jest to znaczący różny od 0.

Twój sparowany test t y1 i y2 sugeruje, że modele różnią się od siebie. Tego należy się spodziewać, w jednym modelu zawarłeś duży, ale nieprecyzyjny współczynnik, który w znacznym stopniu przyczynia się do twojego modelu. Nie ma powodu sądzić, że wartość p tych modeli różniąca się od siebie powinna być taka sama, jak wartość p współczynnika x4 różna od 0.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.