Masz rację, że te wartości mówią tylko, czy średnia każdego poziomu jest znacząco różna od średniej poziomu odniesienia. Dlatego mówią tylko o różnicach między parami między poziomami. Testowanie, czy predyktor jakościowy jako całość jest znaczący, jest równoważne testowaniu, czy istnieje jakakolwiek niejednorodność w średnich poziomów predyktora. Gdy w modelu nie ma innych predyktorów, jest to klasyczny problem ANOVA .p
Gdy w modelu występują inne predyktory. masz dwie opcje sprawdzenia znaczenia predyktora jakościowego:
(1) Test ilorazu wiarygodności: Załóżmy, że masz wynik , predyktorami ilościowe x I 1 , . . . , X i P , a kategoryczne czynnikiem C i o k poziomach. Model bez predyktora jakościowego jestYiXi1,...,XipCik
Yi=β0+β1Xi1+...+βpXip+εi
W Rmożna dopasować ten model za pomocą lm()polecenia i wyodrębnić prawdopodobieństwo dziennika za pomocą logLikpolecenia. Nazwij to prawdopodobieństwo logarytmu . Następnie możesz dopasować model do predyktora jakościowego:L0
Yi=β0+β1Xi1+...+βpXip+∑j=1k−1αjBj+εi
w którym jest zmienną, która jest obojętne 1 jeśli D i = j i 0 inaczej. Poziom k jest poziomem odniesienia, dlatego suma zawiera tylko terminy k - 1 . automatycznie wykona to kodowanie dla Ciebie, jeśli podasz zmienną kategorialną do . Możesz dopasować ten model podobnie i wyodrębnić prawdopodobieństwo dziennika jak wyżej. Nazwij to prawdopodobieństwo dziennika L 1 . Następnie, zgodnie z hipotezą zerową, że D i nie ma wpływu,Bj1Di=j0kk−1Rlm()L1Di
λ=2(L1−L0)
ma rozkład z k - 1 stopniami swobody. Możesz więc obliczyć wartość p za pomocą in, aby sprawdzić istotność.χ2k−1p1-pchisq(2*(L1-L0),df=k-1)R
(2) Test :F Bez wchodzenia w szczegóły (które są podobne do LRT, z wyjątkiem tego, że używa się sum kwadratów zamiast prawdopodobieństw logarytmicznych), wyjaśnię, jak to zrobić R. Jeśli dopasujesz model „pełny” (tj. Model ze wszystkimi predyktorami, w tym predyktorem jakościowym) przy Rużyciu lm()polecenia (nazwij to g1) i model bez predyktora jakościowego (nazwij to g0), wówczas anova(g1,g0)przetestuje tę hipotezę dla równie dobrze.
Uwaga: oba podejścia, o których tu wspomniałem, wymagają normalności błędów. Również test współczynnika prawdopodobieństwa jest bardzo ogólnym narzędziem stosowanym do porównań zagnieżdżonych, dlatego tutaj o nim wspominam (i dlaczego pojawia się najpierw), chociaż test jest bardziej znany w porównywaniu modeli regresji liniowej.F
x3do wygenerowaniays, więc powinien zostać uwzględniony w modelu, a wartość zgadza się z tym wnioskiem.