Czy szukam lepszego zachowania dla danej zmiennej niezależnej, czy też ograniczenia efektu wartości odstających, czy czegoś innego?
Czy szukam lepszego zachowania dla danej zmiennej niezależnej, czy też ograniczenia efektu wartości odstających, czy czegoś innego?
Odpowiedzi:
Zawsze waham się przeskoczyć do wątku z tyloma doskonałymi odpowiedziami, ale uderza mnie to, że niewiele odpowiedzi daje powód, aby preferować logarytm od innej transformacji, która „wyciska” dane, takie jak root lub wzajemność.
Zanim do tego dojdziemy , podsumujmy mądrość istniejących odpowiedzi w bardziej ogólny sposób. Niektóre nieliniowe ponowne wyrażanie zmiennej zależnej jest wskazane, gdy spełniony jest jeden z poniższych warunków:
Resztki mają przekrzywiony rozkład. Celem transformacji jest uzyskanie resztek, które są w przybliżeniu symetrycznie rozmieszczone (oczywiście około zera).
Rozkład reszt zmienia się systematycznie wraz z wartościami zmiennej zależnej („heteroscedastyczność”). Celem transformacji jest usunięcie tej systematycznej zmiany w rozprzestrzenianiu, osiągając w przybliżeniu „homoscedastyczność”.
Zlinearyzować relację.
Gdy wskazuje teoria naukowa. Na przykład chemia często sugeruje wyrażanie stężeń jako logarytmów (dawanie aktywności lub nawet dobrze znane pH).
Gdy bardziej mglista teoria statystyczna sugeruje, że reszty odzwierciedlają „błędy losowe”, które nie kumulują się addytywnie.
Aby uprościć model. Na przykład czasami logarytm może uprościć liczbę i złożoność terminów „interakcji”.
(Te wskazówki mogą być ze sobą sprzeczne; w takich przypadkach konieczna jest ocena).
Tak więc, gdy jest logarytm wskazano zamiast innej transformacji?
Reszty mają „silnie” dodatnio wypaczony rozkład. W swojej książce o EDA John Tukey podaje ilościowe sposoby oszacowania transformacji (w rodzinie Box-Coxa, czyli transformacji mocy) na podstawie statystyk rangowych reszt. Naprawdę sprowadza się to do tego, że jeśli przyjmowanie logu symetrycznego do reszt, to prawdopodobnie była to właściwa forma ponownego wyrażania; w przeciwnym razie konieczne jest inne wyrażenie.
Gdy SD reszt jest wprost proporcjonalne do dopasowanych wartości (a nie do pewnej mocy dopasowanych wartości).
Gdy relacja jest bliska wykładniczej.
Kiedy uważa się, że reszty odzwierciedlają błędy kumulujące się wielokrotnie.
Naprawdę potrzebujesz modelu, w którym zmiany marginalne w zmiennych objaśniających są interpretowane w kategoriach zmian multiplikatywnych (procentowych) w zmiennej zależnej.
Wreszcie niektóre inne powody, dla których nie należy używać wyrażenia :
Wykonywanie wartości odstających nie wygląda jak wartości odstające. Wartość odstająca to układ odniesienia, który nie pasuje do pewnego oszczędnego, stosunkowo prostego opisu danych. Zmiana opisu w celu poprawienia wyglądu wartości odstających jest zwykle niepoprawnym odwróceniem priorytetów: najpierw uzyskaj naukowo poprawny, statystycznie dobry opis danych, a następnie zbadaj wartości odstające. Nie pozwól, aby okazjonalne wartości odstające określały, jak opisać resztę danych!
Ponieważ oprogramowanie zrobiło to automatycznie. (Wystarczająco powiedziane!)
Ponieważ wszystkie dane są pozytywne. (Pozytywność często oznacza skośność dodatnią, ale nie musi. Co więcej, inne transformacje mogą działać lepiej. Na przykład root często działa najlepiej z zliczonymi danymi).
Aby „złe” dane (być może niskiej jakości) wyglądały na dobrze zachowane.
Aby móc wykreślić dane. (Jeśli transformacja jest potrzebna do wykreślenia danych, prawdopodobnie jest potrzebna z co najmniej jednego dobrego powodu, o którym już wspomniano. Jeśli jedynym powodem transformacji jest naprawdę kreślenie, śmiało i zrób to - ale tylko aby wykreślić dane. Pozostaw dane nietransformowane do analizy).
Zawsze mówię uczniom, że istnieją trzy powody, aby przekształcić zmienną, przyjmując logarytm naturalny. Powód zarejestrowania zmiennej określa, czy chcesz rejestrować zmienne niezależne, zależne czy oba. Mówiąc jasno, mówię o przyjęciu logarytmu naturalnego.
Po pierwsze, aby poprawić dopasowanie modelu, jak zauważyli inni plakaty. Na przykład, jeśli twoje reszty nie są normalnie rozłożone, wówczas przyjęcie logarytmu skośnej zmiennej może poprawić dopasowanie, zmieniając skalę i sprawiając, że zmienna jest bardziej „normalnie” rozłożona. Na przykład zarobki są obcinane do zera i często wykazują dodatnie pochylenie. Jeśli zmienna ma ujemne pochylenie, możesz najpierw odwrócić zmienną przed przyjęciem logarytmu. Myślę tu szczególnie o skalach Likerta, które są wprowadzane jako zmienne ciągłe. Chociaż zwykle dotyczy to zmiennej zależnej, czasami masz problemy z resztkami (np. Heteroscedastyczność) spowodowane przez zmienną niezależną, którą czasami można skorygować, przyjmując logarytm tej zmiennej. Na przykład podczas uruchamiania modelu, który wyjaśniał oceny wykładowców na zbiorze wykładowców i zmiennych towarzyszących klasy, zmienna „wielkość klasy” (tj. Liczba studentów na wykładzie) miała wartości odstające, które wywoływały heteroscedastyczność, ponieważ wariancja ocen wykładowcy była mniejsza w większym kohorty niż mniejsze kohorty. Rejestrowanie zmiennej ucznia pomogłoby, chociaż w tym przykładzie albo obliczenie Solidnych Standardowych Błędów, albo użycie Ważonych Najmniejszych Kwadratów może ułatwić interpretację.
I wreszcie może istnieć teoretyczny powód. Na przykład niektóre modele, które chcielibyśmy oszacować, są multiplikatywne, a zatem nieliniowe. Biorąc logarytmy, modele te można oszacować za pomocą regresji liniowej. Dobrym przykładem tego jest funkcja produkcji Cobba-Douglasa w ekonomii i równanie Mincera w edukacji. Funkcja produkcji Cobba-Douglasa wyjaśnia, w jaki sposób dane wejściowe są przekształcane w dane wyjściowe:
gdzie
Biorąc logarytmy tego, funkcja ta jest łatwa do oszacowania za pomocą regresji liniowej OLS jako takiej:
Aby uzyskać więcej informacji na temat doskonałego argumentu Whubera na temat powodów, dla których wolę logarytm od niektórych innych przekształceń, takich jak pierwiastek lub odwrotność, ale skupiając się na unikalnej interpretacji współczynników regresji wynikających z transformacji logarytmicznej w porównaniu do innych przekształceń, zobacz:
Oliver N. Keene. Transformacja dziennika jest wyjątkowa. Statystyka w medycynie 1995; 14 (8): 811–819. DOI: 10.1002 / sim . 4780140810 . (PDF wątpliwej legalności dostępny na stronie http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).
Jeśli logujesz zmienną niezależną x do podstawy b , możesz interpretować współczynnik regresji (i CI) jako zmianę zmiennej zależnej y na b- krotny wzrost x . (Logi do podstawy 2 są zatem często przydatne, ponieważ odpowiadają zmianie y na podwojenie x lub logi do podstawy 10, jeśli x zmienia się w wielu rzędach wielkości, co jest rzadsze). Inne transformacje, takie jak pierwiastek kwadratowy, nie mają tak prostej interpretacji.
Jeśli zarejestrujesz zmienną zależną y (nie pierwotne pytanie, ale takie, na które odnosiło się kilka poprzednich odpowiedzi), uważam, że pomysł Tima Cole'a na „sympercenty” jest atrakcyjny do prezentacji wyników (użyłem ich nawet raz w gazecie), chociaż wydaje się, że nie złapali się tak szeroko:
Tim J Cole. Sympercents: symetryczne różnice procentowe w skali 100 log (e) upraszczają prezentację danych transformowanych logami. Statystyka w medycynie 2000; 19 (22): 3109–3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Cieszę się, że Stat Med przestał używać SICI jako DOI ...]
Zwykle przyjmuje się dziennik zmiennej wejściowej, aby go skalować i zmieniać rozkład (np. Aby był normalnie dystrybuowany). Nie można tego jednak zrobić na ślepo; podczas skalowania należy zachować ostrożność, aby mieć pewność, że wyniki będą nadal interpretowalne.
Jest to omówione w większości wstępnych tekstów statystycznych. Możesz także przeczytać artykuł Andrew Gelmana na temat „Skalowania danych regresji poprzez podzielenie przez dwa odchylenia standardowe” w celu omówienia tego. Ma również bardzo miłą dyskusję na ten temat na początku „Analizy danych przy użyciu regresji i modeli wielopoziomowych / hierarchicznych” .
Zapisywanie dziennika nie jest odpowiednią metodą radzenia sobie ze złymi danymi / wartościami odstającymi.
Masz tendencję do robienia dzienników danych, gdy występuje problem z resztkami. Na przykład, jeśli wykreślisz reszty względem określonego współzmiennego i zaobserwujesz rosnący / malejący wzór (kształt lejka), transformacja może być odpowiednia. Reszty nieprzypadkowe zwykle wskazują, że założenia modelu są błędne, tj. Dane nienormalne.
Niektóre typy danych automatycznie poddają się transformacjom logarytmicznym. Na przykład zwykle biorę dzienniki, gdy mam do czynienia z koncentracją lub wiekiem.
Chociaż transformacje nie są przede wszystkim używane do rozwiązywania wartości odstających, pomagają, ponieważ zapisywanie dzienników niszczy dane.
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Chciałbym odpowiedzieć na pytanie użytkownika 1690130, które zostało jako komentarz do pierwszej odpowiedzi z 26 października 12 i brzmi następująco: „A co ze zmiennymi, takimi jak gęstość zaludnienia w regionie lub stosunek liczby dzieci do nauczycieli w każdym okręgu szkolnym lub liczba zabójstw na 1000 w populacji? Widziałem, jak profesorowie biorą dziennik tych zmiennych. Nie jest dla mnie jasne, dlaczego. Na przykład, czy wskaźnik zabójstw nie jest już procentem? Dziennik byłby procentową zmianą oceń? Dlaczego log relacji dziecko-nauczyciel byłby preferowany? ”
Chciałem odpowiedzieć na podobny problem i chciałem podzielić się tym, co mówi mój stary podręcznik statystyk ( Jeffrey Wooldridge. 2006. Wstępna ekonometria - nowoczesne podejście, wydanie czwarte. Rozdział 6 Analiza wielu regresji: Dalsze problemy. 191 ). Wooldridge radzi:
Zmienne występujące w postaci procentowej lub procentowej, takie jak stopa bezrobocia, wskaźnik uczestnictwa w planie emerytalnym, odsetek studentów zdających standardowy egzamin oraz wskaźnik aresztowania w sprawie zgłoszonych przestępstw - mogą występować w postaci oryginalnej lub logarytmicznej , chociaż istnieje tendencja do używania ich w postaci poziomej . Wynika to z faktu, że wszelkie współczynniki regresji obejmujące zmienną pierwotną - niezależnie od tego, czy jest to zmienna zależna, czy zmienna niezależna - będą miały interpretację zmiany punktu procentowego. Jeśli użyjemy, powiedzmy, log ( unem ) w regresji, gdzie unem to odsetek osób bezrobotnych, musimy bardzo ostrożnie rozróżniać zmianę punktu procentowego od zmiany procentowej. Pamiętaj, że jeśli unemwynosi od 8 do 9, co stanowi wzrost o jeden punkt procentowy, ale wzrost o 12,5% w stosunku do początkowego poziomu bezrobocia. Korzystanie z dziennika oznacza, że patrzymy na procentową zmianę stopy bezrobocia: log (9) - log (8) = 0,118 lub 11,8%, co jest logarytmicznym przybliżeniem rzeczywistego wzrostu o 12,5%.
Opierając się na tym i skarbonce na wcześniejszym komentarzu Whubera do pytania użytkownika 1690130, unikałbym użycia logarytmu zmiennej gęstości lub stopy procentowej w celu uproszczenia interpretacji, chyba że użycie postaci dziennika powoduje poważny kompromis, taki jak możliwość zmniejszenia skośności gęstości lub zmienna stawki.
Punkt Shane'a, że podejmowanie dziennika w celu radzenia sobie ze złymi danymi jest dobrze przemyślane. Podobnie jak Colin w kwestii znaczenia normalnych reszt. W praktyce uważam, że zwykle można uzyskać normalne wartości resztkowe, jeśli zmienne wejściowe i wyjściowe są również względnie normalne. W praktyce oznacza to przyglądanie się rozkładowi przekształconych i nietransformowanych zestawów danych oraz upewnianie się, że stały się one bardziej normalne i / lub przeprowadzanie testów normalności (np. Testy Shapiro-Wilka lub Kołmogorowa-Smirnowa) i ustalenie, czy wynik jest bardziej normalny. Ważna jest także interpretacja i tradycja. Na przykład w psychologii poznawczej często stosuje się logarytmiczne transformacje czasu reakcji, jednak przynajmniej dla mnie interpretacja log RT jest niejasna. Ponadto,