Masz rację, że te wartości mówią tylko, czy średnia każdego poziomu jest znacząco różna od średniej poziomu odniesienia. Dlatego mówią tylko o różnicach między parami między poziomami. Testowanie, czy predyktor jakościowy jako całość jest znaczący, jest równoważne testowaniu, czy istnieje jakakolwiek niejednorodność w średnich poziomów predyktora. Gdy w modelu nie ma innych predyktorów, jest to klasyczny problem ANOVA .p
Gdy w modelu występują inne predyktory. masz dwie opcje sprawdzenia znaczenia predyktora jakościowego:
(1) Test ilorazu wiarygodności: Załóżmy, że masz wynik , predyktorami ilościowe x I 1 , . . . , X i P , a kategoryczne czynnikiem C i o k poziomach. Model bez predyktora jakościowego jestYiXi1,...,XipCik
Yi=β0+β1Xi1+...+βpXip+εi
W R
można dopasować ten model za pomocą lm()
polecenia i wyodrębnić prawdopodobieństwo dziennika za pomocą logLik
polecenia. Nazwij to prawdopodobieństwo logarytmu . Następnie możesz dopasować model do predyktora jakościowego:L0
Yi=β0+β1Xi1+...+βpXip+∑j=1k−1αjBj+εi
w którym jest zmienną, która jest obojętne 1 jeśli D i = j i 0 inaczej. Poziom k jest poziomem odniesienia, dlatego suma zawiera tylko terminy k - 1 . automatycznie wykona to kodowanie dla Ciebie, jeśli podasz zmienną kategorialną do . Możesz dopasować ten model podobnie i wyodrębnić prawdopodobieństwo dziennika jak wyżej. Nazwij to prawdopodobieństwo dziennika L 1 . Następnie, zgodnie z hipotezą zerową, że D i nie ma wpływu,Bj1Di=j0kk−1R
lm()
L1Di
λ=2(L1−L0)
ma rozkład z k - 1 stopniami swobody. Możesz więc obliczyć wartość p za pomocą in, aby sprawdzić istotność.χ2k−1p1-pchisq(2*(L1-L0),df=k-1)
R
(2) Test :F Bez wchodzenia w szczegóły (które są podobne do LRT, z wyjątkiem tego, że używa się sum kwadratów zamiast prawdopodobieństw logarytmicznych), wyjaśnię, jak to zrobić R
. Jeśli dopasujesz model „pełny” (tj. Model ze wszystkimi predyktorami, w tym predyktorem jakościowym) przy R
użyciu lm()
polecenia (nazwij to g1
) i model bez predyktora jakościowego (nazwij to g0
), wówczas anova(g1,g0)
przetestuje tę hipotezę dla równie dobrze.
Uwaga: oba podejścia, o których tu wspomniałem, wymagają normalności błędów. Również test współczynnika prawdopodobieństwa jest bardzo ogólnym narzędziem stosowanym do porównań zagnieżdżonych, dlatego tutaj o nim wspominam (i dlaczego pojawia się najpierw), chociaż test jest bardziej znany w porównywaniu modeli regresji liniowej.F
x3
do wygenerowaniay
s, więc powinien zostać uwzględniony w modelu, a wartość zgadza się z tym wnioskiem.