Moja sytuacja to:
Mam 1 zmienną ciągłą zależną i 1 ciągłą zmienną predykcyjną, którą przekształciłem logarytmicznie, aby znormalizować ich reszty dla prostej regresji liniowej.
Byłbym wdzięczny za wszelką pomoc dotyczącą powiązania tych zmienionych zmiennych z ich pierwotnym kontekstem.
Chcę użyć regresji liniowej, aby przewidzieć liczbę dni, w których uczniowie opuścili szkołę w 2011 r., Na podstawie liczby dni, które opuścili w 2010 r. Większość uczniów opuściło 0 dni lub zaledwie kilka dni, dane są przesunięte w lewo. Dlatego istnieje potrzeba transformacji, aby zastosować regresję liniową.
Użyłem log10 (var + 1) dla obu zmiennych (użyłem +1 dla uczniów, którzy opuścili 0-dniową szkołę). Używam regresji, ponieważ chcę dodać czynniki kategoryczne - płeć / pochodzenie etniczne itp.
Mój problem to:
Odbiorcy, którym chcę przekazać informacje, nie zrozumieliby log10 (y) = log (stała) + log (var2) x (i szczerze mówiąc, ja też nie).
Moje pytania to:
a) Czy istnieją lepsze sposoby interpretacji transformowanych zmiennych w regresji? Tj. Na zawsze 1 dzień pominięty w 2010 r. Będą brakować 2 dni w 2011 r. W przeciwieństwie do kiedykolwiek 1 zmiany jednostki logu w 2010 r., Nastąpi zmiana x jednostek logów w 2011 roku?
b) W szczególności, biorąc pod uwagę cytowany fragment z tego źródła, jak następuje:
„Jest to oszacowanie ujemnej regresji dwumianowej dla jednostronnego wzrostu standardowego wyniku testu matematycznego, biorąc pod uwagę, że pozostałe zmienne są utrzymywane na stałym poziomie w modelu. Jeśli student miałby zwiększyć swój wynik testu matematycznego o jeden punkt, różnica w logach spodziewane liczby będą się zmniejszać o 0,0016 jednostki, utrzymując pozostałe zmienne w modelu jako stałe.
Chciałbym wiedzieć:
- Czy ten fragment mówi, że dla każdej jednostki wzrost wyniku
UNTRANSFORMED
zmiennej matematyki prowadzi do 0,0016 spadku od stałej (a), więc jeśliUNTRANSFORMED
wynik matematyki wzrośnie o dwa punkty, odejmuję 0,0016 * 2 od stałej a? - Czy to oznacza, że otrzymuję średnią geometryczną za pomocą wykładniczej (a)) i wykładniczej (a + beta * 2) i że muszę obliczyć różnicę procentową między tymi dwoma, aby powiedzieć, jaki wpływ mają zmienne predyktorowe / masz zmienną zależną?
- Czy też całkowicie się pomyliłem?
Używam SPSS v20. Przepraszamy za kadrowanie tego w długim pytaniu.
R
zawiera pakiety dla modeli z zerowym napełnieniem; przeszukaj tę stronę .)