Jaki jest powód transformacji dziennika w przypadku rozkładów o skośnych prawach?

18

Kiedyś to słyszałem

transformacja log jest najbardziej popularna dla rozkładów o skośnych prawach w regresji liniowej lub regresji kwantowej

Chciałbym wiedzieć, czy jest jakiś powód tego stwierdzenia? Dlaczego transformacja logów jest odpowiednia dla dystrybucji o skośnych prawach?

Co powiesz na rozkład pochylony w lewo?

— użytkownik3269
źródło

26

Ekonomiści (jak ja) uwielbiają transformację kłód. Szczególnie uwielbiam go w modelach regresji, tak:

\begin{aligned} \ln Y_{i} & = β_{1} + β_{2} \ln X_{i} + ϵ_{i} \end{aligned}

$\begin{align} \ln{Y_i} &= \beta_1 + \beta_2 \ln{X_i} + \epsilon_i \end{align}$

Dlaczego tak bardzo to kochamy? Oto lista powodów, dla których podaję studentom wykład na ten temat:

Przestrzega pozytywności . Wiele razy w rzeczywistych zastosowaniach w ekonomii i poza nią, z natury jest liczbą dodatnią. Może to być cena, stawka podatkowa, wyprodukowana ilość, koszt produkcji, wydatki na pewną kategorię towarów itp. Przewidywane wartości z nietransformowanej regresji liniowej mogą być ujemne. Prognozowane wartości z regresji transformowanej logarytmicznie nigdy nie mogą być ujemne. Są $Y$ $Y$ (Zobaczwcześniejszą odpowiedźdotyczącą pochodnych). $\widehat{Y}_j=\exp{\left(\beta_1 + \beta_2 \ln{X_j}\right)} \cdot \frac{1}{N} \sum \exp{\left(e_i\right)}$
Forma funkcjonalna log-log jest zaskakująco elastyczna. Wskazówka: Co daje nam: To jest wiele różnych kształtów. Linia (której nachylenie zostanie określone przez , a więc może mieć dowolne nachylenie dodatnie), hiperbola, parabola i kształt „pierwiastka kwadratowego”. Narysowałem to zi, ale w prawdziwym zastosowaniu żadne z nich nie byłoby prawdziwe, tak że nachylenie i wysokość krzywych w $\begin{aligned} \ln Y_{i} & = β_{1} + β_{2} \ln X_{i} + ϵ_{i} \\ Y_{i} & = \exp (β_{1} + β_{2} \ln X_{i}) \cdot \exp (ϵ_{i}) \\ Y_{i} & = {(X_{i})}^{β_{2}} \exp (β_{1}) \cdot \exp (ϵ_{i}) \end{aligned}$ $\begin{align} \ln{Y_i} &= \beta_1 + \beta_2 \ln{X_i} + \epsilon_i \\ Y_i &= \exp{\left(\beta_1 + \beta_2 \ln{X_i}\right)}\cdot\exp{\left(\epsilon_i\right)}\\ Y_i &= \left(X_i\right)^{\beta_2}\exp{\left(\beta_1\right)}\cdot\exp{\left(\epsilon_i\right)}\\ \end{align}$ $\exp{\left(\beta_1\right)}$ $\beta_1=0$ $\epsilon=0$ byłby kontrolowany przez tych, a nie ustawiony na 1. $X=1$
Jak wspomniała TrynnaDoStat, forma dziennika „rysuje” duże wartości, co często ułatwia przeglądanie danych, a czasem normalizuje wariancję między obserwacjami.
Współczynnik jest interpretowany jako elastyczność. Jest to procentowy wzrost z wzrost o jeden procent . $\beta_2$ $Y$ $X$
Jeśli jest zmienną fikcyjną, dołączasz ją bez logowania. W tym przypadku jest różnicą procentową w między kategorią a kategorią . $X$ $\beta_2$ $Y$ $X=1$ $X=0$
Jeśli jest czasem, zwykle dołączasz go bez logowania, zwykle. W tym przypadku to tempo wzrostu w --- mierzone w dowolnych jednostkach czasu, w których jest mierzone. Jeśli oznacza lata, to współczynnik jest na przykład roczną stopą wzrostu w $X$ $\beta_2$ $Y$ $X$ $X$ $Y$
Współczynnik nachylenia staje się niezmienny w skali. Oznacza to, z jednej strony, że nie ma jednostek, az drugiej strony, że jeśli przeskalujesz (tj. Zmienisz jednostki) lub , nie będzie to absolutnie żadnego wpływu na oszacowaną wartość . Cóż, przynajmniej z OLS i innymi powiązanymi estymatorami. $\beta_2$ $X$ $Y$ $\beta_2$
Jeśli dane są normalnie dystrybuowane w dzienniku, transformacja dziennika powoduje, że są one normalnie dystrybuowane. Normalnie dystrybuowane dane mają wiele dla nich.

Statystycy uważają, że ekonomiści są zbyt entuzjastycznie nastawieni do tej konkretnej transformacji danych. Myślę, że dzieje się tak, ponieważ oceniają mój punkt 8 i drugą połowę punktu 3 jako bardzo ważne. Zatem w przypadkach, gdy dane nie są normalnie rozmieszczone w logu lub gdy rejestrowanie danych nie powoduje, że transformowane dane mają jednakową wariancję między obserwacjami, statystycy nie będą bardzo lubili transformacji. Ekonomista prawdopodobnie i tak poczyni postępy, ponieważ to, co naprawdę lubimy w transformacji, to punkty 1,2 i 4-7.

— Rachunek
źródło

7

Są to standardowe punkty, ale bardzo dobrze jest je zebrać zwięźle. Wiele kont obejmuje tylko niektóre z tych punktów. Drobna uwaga: uważam, że twój kontrast między postawami ekonomistów a postawami statystów jest nieco przesadzony. Na przykład znaczenie łącza w rodzinie błędów przebiega w uogólnionej literaturze dotyczącej modeli liniowych, chociaż mogłoby to przynieść więcej trąbkowania. Keene, Oliver N. 1995. Transformacja kłód jest wyjątkowa. Statystyki w medycynie 14: 811-819. DOI: 10.1002 / sim. 4780140810 to kolejny przykład.

— Nick Cox

21

Najpierw zobaczmy, co zwykle dzieje się, gdy bierzemy dzienniki czegoś, co jest właściwie przekrzywione.

Górny wiersz zawiera histogramy dla próbek z trzech różnych, coraz bardziej wypaczonych rozkładów.

Dolny rząd zawiera histogramy dla swoich dzienników.

wprowadź opis zdjęcia tutaj

Widać, że przypadek środkowy ( $y$ ) został przekształcony w symetrię, natomiast bardziej łagodny prawy przypadek pochylenia ( $x$ ) jest teraz nieco lewy. Z drugiej strony najbardziej zmienną skośnością ( $z$ ) jest nadal (lekko) prawy skos, nawet po pobraniu logów.

Jeśli chcieliśmy, aby nasze dystrybucje wyglądały bardziej normalnie, transformacja zdecydowanie poprawiła drugi i trzeci przypadek. Widzimy, że to może pomóc.

Dlaczego to działa?

Zauważ, że kiedy patrzymy na zdjęcie kształtu dystrybucyjnego, nie bierzemy pod uwagę średniej ani odchylenia standardowego - to tylko wpływa na etykiety na osi.

Możemy więc sobie wyobrazić spojrzenie na jakieś „znormalizowane” zmienne (powiedzmy, pozostając pozytywne, wszystkie mają podobną lokalizację i rozprzestrzenianie się, powiedzmy)

Biorąc logi „wciąga” bardziej ekstremalne wartości po prawej stronie (wysokie wartości) w stosunku do mediany, podczas gdy wartości skrajnie lewe (niskie wartości) mają tendencję do rozciągania się z powrotem, dalej od mediany.

wprowadź opis zdjęcia tutaj

$x$ $y$ $z$

$y$

Ale kiedy bierzemy kłody, zostaje ona cofnięta w kierunku środkowej; po pobraniu logów jest to tylko około 2 przedziały międzykwartylowe powyżej mediany.

$y$

wprowadź opis zdjęcia tutaj

Nieprzypadkowo stosunek 750/150 do 150/30 wynosi 5, gdy zarówno log (750), jak i log (30) znalazły się w tej samej odległości od mediany log (y). Tak działają logi - przekształcając stałe proporcje w stałe różnice.

Nie zawsze jest tak, że dziennik pomoże zauważalnie. Na przykład, jeśli weźmiesz na przykład lognormalną zmienną losową i przesuniesz ją zasadniczo w prawo (tj. Dodasz do niej dużą stałą), tak aby średnia stała się duża w stosunku do odchylenia standardowego, wówczas przyjęcie logarytmu z tego nie miałoby większego znaczenia dla kształt. Byłoby mniej przekrzywienie - ale ledwo.

Ale inne transformacje - powiedzmy pierwiastek kwadratowy - również przyciągną w ten sposób duże wartości. Dlaczego w szczególności dzienniki są bardziej popularne?

$-0.162$

Wiele danych ekonomicznych i finansowych zachowuje się tak, na przykład (stały lub prawie stały wpływ na skalę procentową). Skala dziennika ma w tym przypadku sens. Ponadto w wyniku tego efektu skali procentowej. rozpiętość wartości wydaje się być większa wraz ze wzrostem średniej - a rejestrowanie dzienników ma tendencję do stabilizowania spreadu. To zazwyczaj bardziej istotne niż normalności. Rzeczywiście, wszystkie trzy rozkłady na oryginalnym diagramie pochodzą z rodzin, w których odchylenie standardowe wzrośnie wraz ze średnią, a przyjmowanie dzienników stabilizuje wariancję. [Nie dzieje się tak jednak w przypadku wszystkich wypaczonych danych. Jest to po prostu bardzo częste w przypadku danych, które pojawiają się w określonych obszarach aplikacji.]

Są też chwile, kiedy pierwiastek kwadratowy sprawi, że wszystko stanie się bardziej symetryczne, ale zwykle dzieje się tak przy mniej przekrzywionych rozkładach, niż używam w moich przykładach tutaj.

Moglibyśmy (dość łatwo) skonstruować kolejny zestaw trzech bardziej łagodnych skośnych przykładów, w których pierwiastek kwadratowy spowodował jedno pochylenie w lewo, jedno symetryczne, a trzeci nadal był w prawo (ale nieco mniej niż poprzednio).

Co z rozkładami ukośnymi w lewo?

Jeśli zastosujesz transformację logu do rozkładu symetrycznego, będzie on powodował, że będzie on przechylał w lewo z tego samego powodu, dla którego często powoduje, że pochylenie jest jeszcze bardziej symetryczne - patrz odpowiednia dyskusja tutaj .

Odpowiednio, jeśli zastosujesz transformację logów do czegoś, co już zostało pochylone, będzie miało tendencję do jeszcze większego pochylania w lewo, pociągając rzeczy powyżej mediany jeszcze mocniej i rozciągając rzeczy poniżej mediany w dół jeszcze mocniej.

Zatem transformacja dziennika nie byłaby wtedy pomocna.

Zobacz także transformacje mocy / drabina Tukeya. Rozkłady, które pozostały pochylone, można uczynić bardziej symetrycznymi, biorąc moc (większą niż 1 - powiedzmy do kwadratu) lub wykładniczo. Jeśli ma on oczywistą górną granicę, można odjąć obserwacje od górnej granicy (dając prawy wypaczony wynik), a następnie spróbować ją przekształcić.

— Glen_b - Przywróć Monikę
źródło

Dziękuję Glen_b za tę doskonałą odpowiedź. Dajesz nam dane empiryczne do zilustrowania, a następnie podajesz intuicyjne wyjaśnienie, dlaczego / jak ta transformacja działa. Mile widziane.

— Ram

5

$y = ln(x)$ $x$

Teraz w rozkładzie skośnym w prawo masz kilka bardzo dużych wartości. Transformacja logów zasadniczo przewraca te wartości do środka rozkładu, dzięki czemu wygląda bardziej jak rozkład normalny.

— TrynnaDoStat
źródło

1

Wszystkie te odpowiedzi są punktami sprzedaży dla naturalnej transformacji kłód. Istnieją pewne zastrzeżenia dotyczące jego używania, zastrzeżenia, które można uogólnić na każdą transformację. Zasadniczo wszystkie przekształcenia matematyczne przekształcają PDF podstawowych zmiennych surowych, niezależnie od tego, czy działają w celu kompresji, rozwijania, odwracania, przeskalowywania, cokolwiek. Największym wyzwaniem, jakie stanowi to z czysto praktycznego punktu widzenia, jest to, że w przypadku modeli regresji, w których prognozy są kluczowym wynikiem modelu, przekształcenia zmiennej zależnej, Y-hat, podlegają potencjalnie istotnemu uprzedzeniu w zakresie ponownej transformacji. Zauważ, że naturalne transformacje logów nie są odporne na to uprzedzenie, po prostu nie mają na nie takiego wpływu, jak niektóre inne, działające transformacje. Istnieją artykuły oferujące rozwiązania tego błędu, ale tak naprawdę nie działają zbyt dobrze. Moim zdaniem, jesteś na znacznie bezpieczniejszym gruncie, nie wkurzasz się z próbą transformacji Y i znalezieniem solidnych form funkcjonalnych, które pozwolą ci zachować pierwotną metrykę. Na przykład, poza logarytmem naturalnym, istnieją inne transformacje, które ściskają ogon zmiennych skośnych i kurtotycznych, takich jak odwrotny sinus hiperboliczny lub Lambert's W. Oba te transformacje działają bardzo dobrze na generowanie plików PDF symetrycznych, a zatem Gaussa-like błędów, począwszy od informacji heavy-tailed, ale uważaj na ukos przy próbie przynieść przewidywania powrotem do oryginalnej skali dla DV, Y . To może być brzydkie.

— Mike Hunter
źródło

3

To wydaje się kończyć na tym, co zrobić z rozkładami o grubych ogonach (przez kurtotic rozumiesz posiadanie wysokiej kurtozy). Myślę, że musisz wyjaśnić, w jaki sposób odnosi się to do pytania. Podobnie, jak Lambert's

W

$W$ odnosi się do pytania nie jest jasne. Nie rozumiem, w jaki sposób stronniczość transformacji jest mniejszym możliwym problemem dla transformacji logarytmicznej niż dla pokrewnych transformacji (które?), Jak pod tym względem, a pod innymi logarytmiczność zachowuje się tak, jak można oczekiwać jako członek szerszej rodziny, ponieważ na przykład jako efekt pośredni między pierwiastkiem kwadratowym a odwrotnością.

— Nick Cox,

3

Wszyscy jesteśmy obrzydzeni różnymi aspektami zasad, ale wielu z nas nadal tutaj wchodzi w interakcje, ponieważ doszliśmy do ich mądrości i znaleźliśmy konstruktywne sposoby obejścia pozornych ograniczeń. Ta zasada jest fundamentalna: post, który nie odpowiada na pytanie, nie należy. Ma tendencję do utrzymywania spójności każdego wątku, ograniczania go, czyszczenia i prowadzenia tematów. Jest to klucz do tworzenia materiałów, które wydają się być bardziej przydatne i interesujące niż na jakiejkolwiek innej stronie pytań i odpowiedzi.

— whuber

3

Majstrowałeś przy tym, ale moim zdaniem pozostaje to bardzo problematyczne jako odpowiedź. 1. Rozszerzasz pytanie na kilka sposobów, np. Wprowadzając również dystrybucje o dużych rozmiarach. To może być rozsądne w niektórych wątkach, ale tutaj jest dobrze skoncentrowany wątek z wysokiej jakości odpowiedziami, a dodatkowa odpowiedź tutaj polega na dużym zamuleniu wód. Kiedy istnieją dobre odpowiedzi na pytanie, musi istnieć naprawdę dobry powód dla nowej odpowiedzi.

— Nick Cox,

4

2. Twierdzenia dotyczące stronniczości transformacji nadal wymachują ręką; nie ma precyzji technicznej w odpowiedzi, która odpowiada twierdzeniom, w tym tajemnicze twierdzenie, że log jest mniej problematyczny niż inne podobne transformacje.

— Nick Cox,

4

3. Szczegóły dotyczące Lamberta

W

$W$ pozostaje tajemniczy. Mówiąc szerzej, przesłanie jest takie, że transformacje są wątpliwe, z wyjątkiem tego, że asinh i Lambert mogą być dobre. Wydaje się to sprzeczne i nie jest dobrze wyjaśnione. Jesteś wyraźnie bardzo kompetentny, ale to musi być prostszy styl ekspozycyjny, aby był cenny. Dlatego nie mogę głosować za tym z czystym sumieniem. Wcześniejsza decyzja o jej usunięciu była moim zdaniem lepsza. Tu i gdzie indziej nie sądzę, żebyś łapał styl CV: nie ma sztywnej recepty, ale odpowiedzi muszą być skoncentrowane; gadatliwe, dyskursywne posty zwykle nie pasują do siebie.

— Nick Cox,

0

Poczyniono wiele interesujących uwag. Trochę więcej?

1) Sugerowałbym, że innym problemem związanym z regresją liniową jest to, że „lewa strona” równania regresji to E (y): wartość oczekiwana. Jeśli rozkład błędów nie jest symetryczny, wówczas zalety badania wartości oczekiwanej są słabe. Oczekiwana wartość nie jest przedmiotem zainteresowania, gdy błędy są asymetryczne. Zamiast tego można zbadać regresję kwantową. Zatem badanie, powiedzmy, mediany lub innych punktów procentowych może być warte nawet, jeśli błędy są asymetryczne.

2) Jeśli zdecydujesz się przekształcić zmienną odpowiedzi, możesz chcieć przekształcić jedną lub więcej zmiennych objaśniających o tej samej funkcji. Na przykład, jeśli ktoś ma wynik „końcowy” jako odpowiedź, wówczas może mieć wynik „wyjściowy” jako zmienną objaśniającą. Do interpretacji ma sens transformacja „końcowa” i „bazowa” o tej samej funkcji.

3) Głównym argumentem przemawiającym za przekształceniem zmiennej objaśniającej jest często liniowość relacji odpowiedź - objaśnienie. Obecnie można rozważyć inne opcje, takie jak ograniczone splajny sześcienne lub ułamkowe wielomiany dla zmiennej objaśniającej. Z pewnością jednak często występuje pewna jasność, jeśli można znaleźć liniowość.

— Gordon Hilton Fick
źródło