Dlaczego nie przekształcić logów wszystkich zmiennych, które nie są głównym przedmiotem zainteresowania?


10

Książki i dyskusje często stwierdzają, że w obliczu problemów (których jest kilka) za pomocą predyktora, transformacja logów jest możliwa. Rozumiem teraz, że zależy to od rozkładów, a normalność w predyktorach nie jest założeniem regresji; ale transformacja dziennika sprawia, że ​​dane są bardziej jednolite, mniej zależne od wartości odstających i tak dalej.

Myślałem o transformacji logarytmicznej wszystkich moich ciągłych zmiennych, które nie są najważniejsze, tj. Zmiennych, które tylko dostosowuję.

Czy to źle? Dobrze? Nieprzydatny?

Odpowiedzi:


24

Rozumiem teraz, że zależy to od rozkładów i normalności w predyktorach

transformacja logów sprawia, że ​​dane są bardziej jednolite

Zasadniczo jest to nieprawda --- ale nawet gdyby tak było, dlaczego jednolitość byłaby ważna?

Zastanów się na przykład

i) binarny predyktor przyjmujący tylko wartości 1 i 2. Zapisywanie logów pozostawiłoby go jako predyktor binarny przyjmujący tylko wartości 0 i log 2. To tak naprawdę nie wpływa na nic poza przechwytywaniem i skalowaniem terminów obejmujących ten predyktor. Nawet wartość p predyktora pozostanie niezmieniona, podobnie jak wartości dopasowane.

wprowadź opis zdjęcia tutaj

ii) weź pod uwagę predyktor pochylenia w lewo. Teraz weź dzienniki. Zwykle staje się bardziej pochylony w lewo.

wprowadź opis zdjęcia tutaj

iii) jednolite dane stają się zniekształcone

wprowadź opis zdjęcia tutaj

(często zmiana nie zawsze jest tak ekstremalna)

mniej dotknięte wartościami odstającymi

Zasadniczo jest to nieprawda. Rozważ niskie wartości odstające w predyktorze.

wprowadź opis zdjęcia tutaj

Myślałem o transformacji logów wszystkich moich ciągłych zmiennych, które nie są przedmiotem głównego zainteresowania

W jakim celu? Gdyby pierwotnie relacje były liniowe, nie byłyby dłużej.

wprowadź opis zdjęcia tutaj

A jeśli były już zakrzywione, robienie tego automatycznie może pogorszyć je (bardziej zakrzywione), a nie lepsze.

-

Wykonywanie dzienników predyktora (niezależnie od tego, czy jest to główny interes, czy nie) może czasami być odpowiednie, ale nie zawsze tak jest.


2
Wielkie dzięki za tę wspaniałą odpowiedź. Myślę, że wielu z nas, a przynajmniej ja, musiało zobaczyć to w ten sposób wizualizowane. Ale czy zgadzasz się również z tym, że odpowiednio skośne dane powinny podlegać transformacji logów? Więcej niż inne skosy i formy?
Adam Robinsson,

1
Nie ogólnie nie. Być może w pewnych bardzo szczególnych warunkach.
Glen_b

β^=0,50

(con't) niż na przykład w przypadku wzrostu obwodu obwodu pnia o jeden cal, średnia wysokość drzewa wzrasta o pół stopy. Później jest łatwiejszy do interpretacji i łatwiejszy do obliczenia w terenie bez kalkulatora.
StatsStudent,

10

Moim zdaniem nie ma sensu przeprowadzać transformacji logów (i żadnej transformacji danych , dla samej sprawy). Jak wspomniano w poprzednich odpowiedziach, w zależności od danych, niektóre transformacje byłyby albo nieprawidłowe , albo bezużyteczne . Gorąco polecam przeczytanie następującego doskonałego materiału wprowadzającego IMHO na temat transformacji danych : http://fmwww.bc.edu/repec/bocode/t/transint.html . Należy pamiętać, że przykłady kodu w tym dokumencie są napisane w języku Stata , ale poza tym dokument jest wystarczająco ogólny , a zatem przydatny również dla użytkowników spoza Stata.

W tym artykule można znaleźć kilka prostych technik i narzędzi radzenia sobie z typowymi problemami związanymi z danymi , takimi jak brak normalności , wartości odstające i rozkłady mieszanin (zauważ, że rozwarstwienie jako podejście do radzenia sobie z rozkładem mieszanin jest najprawdopodobniej najprostsze - bardziej ogólnym i złożonym podejściem do tego jest analiza mieszaniny , znana również jako modele mieszanki skończonej , której opis wykracza poza zakres tej odpowiedzi). Transformacja Box-Coxa, krótko wspomniany w dwóch odnośnikach powyżej, jest dość ważną transformacją danych, szczególnie w przypadku danych nienormalnych (z pewnymi zastrzeżeniami). Więcej informacji na temat transformacji Box-Cox znajduje się w tym artykule wprowadzającym .


2
Świetne referencje Aleksandr. Dzięki za podzielenie się tak potrzebną sceptycyzmem. Dzięki.
Adam Robinsson,

1
@AdamRobinsson: Cała przyjemność po mojej stronie, Adam! Cieszę się, że polubiłeś moją odpowiedź.
Aleksandr Blekh,

8

Przekształcanie dziennika nie ZAWSZE poprawia sytuację. Oczywiście nie można przekształcać logarytmicznie zmiennych, które osiągają wartości zerowe lub ujemne, a nawet te dodatnie, które obejmują zero, mogą uzyskać ujemne wartości odstające, jeśli przekształcą log.

Nie powinieneś po prostu rutynowo rejestrować wszystkiego, ale dobrym pomysłem jest POMYŚL o transformacji wybranych pozytywnych predyktorów (odpowiednio, często log, ale może coś innego) przed dopasowaniem modelu. To samo dotyczy zmiennej odpowiedzi. Ważna jest również wiedza merytoryczna. Niektóre teorie z fizyki lub socjologii lub cokolwiek, co może naturalnie prowadzić do pewnych transformacji. Zasadniczo, jeśli widzisz zmienne skośne, to może pomóc log (a może pierwiastek kwadratowy lub odwrotność).

Niektóre teksty regresji wydają się sugerować, że musisz spojrzeć na wykresy diagnostyczne przed rozważeniem jakichkolwiek przekształceń, ale nie zgadzam się. Myślę, że lepiej jest zrobić najlepszą robotę, dokonując tych wyborów, zanim dopasujesz jakiekolwiek modele, abyś miał najlepszy możliwy punkt wyjścia; następnie spójrz na diagnostykę, aby sprawdzić, czy musisz dostosować od tego miejsca.


Wszyscy dodają, że te rozważania dotyczą zarówno ważnych, jak i nieistotnych predyktorów.
Russ Lenth

Dzięki @rvl! Zawsze jestem zdezorientowany niezgodą między czasem i sposobem wyboru transformacji; książki często stwierdzają, że, jak napisałeś, przed dotknięciem regresji należy sprawdzić formę wszystkich zmiennych. Dziękujemy za udzielenie informacji.
Adam Robinsson,

@rvl, dziękuję za odpowiedź. Czy logowałbyś transformację snoqzestawu danych w tym wątku CrossValidated (mając na uwadze, że celem jest dopasowanie mieszaniny Gaussów)?
Zhubarb

-3

1) dane zliczania (y> 0) -> log (y) lub y = exp (b0 + biXi) 2) dane zliczania + zero (y> = 0) -> model przeszkód (dwumianowy + reg. Zliczania) 3) wszystkie błędne efekty (i błędy) będą addytywne 4) wariancja ~ średnia -> log (y) lub y = exp (b0 + biXi) 5) ...


Ta odpowiedź jest trudna do odczytania i nie jest jasne, czy próbuje odpowiedzieć na pytanie.
Juho Kokkala,

1
T.miX
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.