Najpierw zobaczmy, co zwykle dzieje się, gdy bierzemy dzienniki czegoś, co jest właściwie przekrzywione.
Górny wiersz zawiera histogramy dla próbek z trzech różnych, coraz bardziej wypaczonych rozkładów.
Dolny rząd zawiera histogramy dla swoich dzienników.
Widać, że przypadek środkowy ( y ) został przekształcony w symetrię, natomiast bardziej łagodny prawy przypadek pochylenia ( x ) jest teraz nieco lewy. Z drugiej strony najbardziej zmienną skośnością ( z ) jest nadal (lekko) prawy skos, nawet po pobraniu logów.
Jeśli chcieliśmy, aby nasze dystrybucje wyglądały bardziej normalnie, transformacja zdecydowanie poprawiła drugi i trzeci przypadek. Widzimy, że to może pomóc.
Dlaczego to działa?
Zauważ, że kiedy patrzymy na zdjęcie kształtu dystrybucyjnego, nie bierzemy pod uwagę średniej ani odchylenia standardowego - to tylko wpływa na etykiety na osi.
Możemy więc sobie wyobrazić spojrzenie na jakieś „znormalizowane” zmienne (powiedzmy, pozostając pozytywne, wszystkie mają podobną lokalizację i rozprzestrzenianie się, powiedzmy)
Biorąc logi „wciąga” bardziej ekstremalne wartości po prawej stronie (wysokie wartości) w stosunku do mediany, podczas gdy wartości skrajnie lewe (niskie wartości) mają tendencję do rozciągania się z powrotem, dalej od mediany.
xyz
y
Ale kiedy bierzemy kłody, zostaje ona cofnięta w kierunku środkowej; po pobraniu logów jest to tylko około 2 przedziały międzykwartylowe powyżej mediany.
y
Nieprzypadkowo stosunek 750/150 do 150/30 wynosi 5, gdy zarówno log (750), jak i log (30) znalazły się w tej samej odległości od mediany log (y). Tak działają logi - przekształcając stałe proporcje w stałe różnice.
Nie zawsze jest tak, że dziennik pomoże zauważalnie. Na przykład, jeśli weźmiesz na przykład lognormalną zmienną losową i przesuniesz ją zasadniczo w prawo (tj. Dodasz do niej dużą stałą), tak aby średnia stała się duża w stosunku do odchylenia standardowego, wówczas przyjęcie logarytmu z tego nie miałoby większego znaczenia dla kształt. Byłoby mniej przekrzywienie - ale ledwo.
Ale inne transformacje - powiedzmy pierwiastek kwadratowy - również przyciągną w ten sposób duże wartości. Dlaczego w szczególności dzienniki są bardziej popularne?
−0.162
Wiele danych ekonomicznych i finansowych zachowuje się tak, na przykład (stały lub prawie stały wpływ na skalę procentową). Skala dziennika ma w tym przypadku sens. Ponadto w wyniku tego efektu skali procentowej. rozpiętość wartości wydaje się być większa wraz ze wzrostem średniej - a rejestrowanie dzienników ma tendencję do stabilizowania spreadu. To zazwyczaj bardziej istotne niż normalności. Rzeczywiście, wszystkie trzy rozkłady na oryginalnym diagramie pochodzą z rodzin, w których odchylenie standardowe wzrośnie wraz ze średnią, a przyjmowanie dzienników stabilizuje wariancję. [Nie dzieje się tak jednak w przypadku wszystkich wypaczonych danych. Jest to po prostu bardzo częste w przypadku danych, które pojawiają się w określonych obszarach aplikacji.]
Są też chwile, kiedy pierwiastek kwadratowy sprawi, że wszystko stanie się bardziej symetryczne, ale zwykle dzieje się tak przy mniej przekrzywionych rozkładach, niż używam w moich przykładach tutaj.
Moglibyśmy (dość łatwo) skonstruować kolejny zestaw trzech bardziej łagodnych skośnych przykładów, w których pierwiastek kwadratowy spowodował jedno pochylenie w lewo, jedno symetryczne, a trzeci nadal był w prawo (ale nieco mniej niż poprzednio).
Co z rozkładami ukośnymi w lewo?
Jeśli zastosujesz transformację logu do rozkładu symetrycznego, będzie on powodował, że będzie on przechylał w lewo z tego samego powodu, dla którego często powoduje, że pochylenie jest jeszcze bardziej symetryczne - patrz odpowiednia dyskusja tutaj .
Odpowiednio, jeśli zastosujesz transformację logów do czegoś, co już zostało pochylone, będzie miało tendencję do jeszcze większego pochylania w lewo, pociągając rzeczy powyżej mediany jeszcze mocniej i rozciągając rzeczy poniżej mediany w dół jeszcze mocniej.
Zatem transformacja dziennika nie byłaby wtedy pomocna.
Zobacz także transformacje mocy / drabina Tukeya. Rozkłady, które pozostały pochylone, można uczynić bardziej symetrycznymi, biorąc moc (większą niż 1 - powiedzmy do kwadratu) lub wykładniczo. Jeśli ma on oczywistą górną granicę, można odjąć obserwacje od górnej granicy (dając prawy wypaczony wynik), a następnie spróbować ją przekształcić.