Główne pytanie dotyczące przekształcania proporcji (użyję jako symbolu, podobnie, ale nie identycznie do twojej notacji), pozwala na kilka ogólnych komentarzy.x
W dalszej części przyjmuję, że głównym motywem transformacji proporcji, które są współzmienne (predyktory, zmienne niezależne), jest poprawa aproksymacji do liniowości relacji lub, jeśli w trybie eksploracyjnym, aby uzyskać wyraźniejsze graficzne wyobrażenie o kształcie lub istnieniu jakikolwiek związek. Jak zwykle to, czy zmienna towarzysząca jest (np.) W przybliżeniu normalnie rozłożona, nie jest istotne jako takie. (Proporcje są niezbyt odległym krewnym zmiennych wskaźnikowych o wartościach których nigdy nie można normalnie rozłożyć, a także proporcje są koniecznie ograniczone.)0 , 1
Jeśli proporcje mogą osiągnąć dokładne zera lub dokładne, konieczne jest zdefiniowanie transformacji dla tych granic, co wyraźnie wyklucza , ponieważ log 0 jest nieokreślony. Poza tym konkretny kształt idealnie wymaga uzasadnienia merytorycznego (naukowego, praktycznego), ale brakuje w nim prostej analizy, że log ( x + c ) jest bardzo wrażliwy na wartość c , jak sugerujesz. logxlog0log( x + c )do
Jest to trochę łatwiejsze do zauważenia przy logarytmach do podstawy , więc tymczasowo rozważmy c = 10 k , aby log 10 ( x + 10 k ) odwzorował x = 0 na k .10c = 10klog10(x+10k)x=0k
Stąd odwzorowuje x = od 0 do 0 i x = 1 do około 0,301 , podczas gdy k = - 3 , c = 0,001 odwzorowuje x = od 0 do - 3, a x = 1 tylko do smidgenu większego niż 0 .k=0,c=1x=00x=10.301k=−3,c=0.001x=0−3x=10
Podobnie, cokolwiek oznacza, że 0 jest odwzorowane na te same granice, podczas gdy dla coraz lepszego przybliżenia x = 1 jest odwzorowane na 0 .k=−6,−9,0x=10
Tak więc dolna granica jest rozciągana na zewnątrz z coraz mniejszymi dodanymi stałymi , podczas gdy górna granica pozostaje mniej więcej taka sama. Takie przekształcenia mogą zatem nadmiernie rozciągać dolną część zakresu, a nawet tworzyć wartości odstające od bardzo małych wartości równych lub bliskich zeru .c0
Po prostu ludzie sugerujący to prawdopodobnie wyobrażają sobie, że (teraz do dowolnej bazy, którą lubisz) powinien zachowywać się bardzo podobnie do log x dla małego c , co jest wyraźnie prawdziwe dla dużego x , ale wcale nie jest prawdziwe dla małego x . Innymi słowy, bardziej strome i większe nachylenie log x w funkcji x, ponieważ x ↓ 0 może tutaj ugryźć bardzo mocno.log(x+c)logxcxxlogxxx↓0
Wydaje się, że lepiej skupić się na transformacjach, które różnią się bardziej stopniowo w pobliżu i (z innych, ale powiązanych powodów) również w pobliżu x = 1 .x=0x=1
Pierwiastki kwadratowe i pierwiastki sześcianu i inne potęgi są doskonale dobrze zdefiniowane dla x = 0 , 1 i często pomagają, gdy zachodzi potrzeba rozciągnięcia wartości w pobliżu 0 . Ale te transformacje są dobrze znane i skupiam się tutaj bardziej na innej możliwości.xpx=0,10
Rodzina złożonych mocy spopularyzowana przez JW Tukeya ( Exploratory Data Analysis , Reading, MA: Addison-Wesley, 1977) jest jedną z możliwości i wynosi
. Chociaż nie ma przymusu, aby wybrać uprawnienia, które umożliwiają proste nazwy sugestywne, wybory p = 1 / 2 (złożona root) i p = 1 / 3 (złożona pierwiastek) wydaje się najbardziej użytecznych członków tej rodziny.xp−(1−x)pp=1/2p = 1 / 3
Rodzina przypomina znaną transformację i rzeczywiście logit jest ograniczającym przypadkiem, ponieważ p dąży do 0 . Kluczową różnicą jest to, że siły złożone są zdefiniowane dla x = 0 , 1 i p ≠ 0 .logit x = log x - log( 1 - x )p0x = 0 , 1p ≠ 0
Moce złożone, w tym teraz logit, traktują ekstremalne przypadki w pobliżu i 1 skośno-symetrycznie i wykreślają jako odwrotne krzywe sigmoidalne (niektóre wykresy poniżej) mieszając zachowanie addytywne i multiplikatywne, powtarzając często jakościowe (jeśli nie fizyczne, biologiczne, ekonomiczne, cokolwiek) fakty leżące u podstaw zjawiska, które01
różnica od powiedzmy do 0,02 może być „wielką sprawą” (oczywiście, x zmienia się tylko o 0,01 , ale podwaja się)0,010,02x0,01
różnica między powiedzmy a 0,99 może być również „wielką sprawą” (oczywiście, x zmienia się tylko o 0,01 , ale „ułamek bez” 1 - x również o połowę)0,980,99x0,011 - x
różnica od powiedzmy do 0,51 może być „mniejszą transakcją” (oczywiście x zmienia się również o 0,01 , ale zmiana proporcjonalna jest znacznie mniejsza)0,500,51x0,01
Być może najłatwiej jest pomyśleć, kiedy wyobrażamy sobie jakąś podstawową dynamikę: rosnąca część powiedzmy, że ludzie piśmienni potrzebują dużego nacisku, aby zacząć, przyspiesza, a następnie zwalnia, gdy zbliża się do asymptoty powszechnej umiejętności czytania. Krzywa w czasie może więc przypominać rosnącą lub malejącą logistykę. Fakt, że do proporcji i 1 dochodzi się wolniej lub bardziej, jest naturalnie jedną z kilku motywacji dla logit i podobnych modeli dla proporcjonalnych odpowiedzi; chociaż koncentrujemy się tutaj na współzmiennych proporcjonalnych, sigmoidy mogą być również przydatne tutaj.01
Składane moce, takie jak składany korzeń lub pierwiastek kostki, nie są tak silnie sigmoidalne jak logit, ale cenną zaletą jest ich bezpośrednie i łatwe zdefiniowanie bez krówek, kludów i szturchańców dla .x = 0 , 1
Przechodząc do twojego fałszywego, ale z pozoru realistycznego zestawu danych (który zaimportowałem do mojego ulubionego oprogramowania, ale analiza jest prosta w jakiejkolwiek przyzwoitej formie), okazuje się, że żadna z tych transformacji w ogóle nie pomaga. Ale wykresowanie danych daje wyraźne ostrzeżenie, że nawet jest potężną silną transformacją, co można zobaczyć również poprzez bezpośrednie wykreślenie.log( x + 0,001 )
Dwie główne kwestie, o których chciałbym wspomnieć, to:
log( x + c )x
W przypadku przykładowych danych żadna transformacja, której próbowałem, nie wydaje się pomóc.
Jednocześnie inne możliwości nie są jeszcze wyczerpane. (W szczególności nie próbowałem pierwiastka kwadratowego ani pierwiastka sześcianu i podkreślam, że w wielu innych problemach mogą to być oczywiste i poważne kandydatury).
01
R2)= 3,7= 0,994
y610
EDYCJA: Oryginalne dane mogą być wykreślone tutaj, ponieważ PO krótko opublikował dane, ale później je usunął.
Inne wątki wykorzystujące złożone siły to
Przekształcanie danych proporcji: gdy pierwiastek kwadratowy arcsin nie wystarczy
Regresja: Wykres rozproszenia z niskimi do kwadratu R i wysokimi wartościami p
Wykreśl mocno wypaczony zestaw danych