Jaki jest najbardziej odpowiedni sposób na przekształcenie proporcji, gdy są one zmienną niezależną?

Myślałem, że rozumiem ten problem, ale teraz nie jestem tego taki pewien i chciałbym skonsultować się z innymi, zanim przejdę dalej.

Mam dwie zmienne Xi Y. Yjest stosunkiem i nie jest ograniczony przez 0 i 1 i jest zwykle rozkładem normalnym. Xjest proporcją i jest ograniczony przez 0 i 1 (biegnie od 0,0 do 0,6). Kiedy przeprowadzam regresję liniową Y ~ Xi dowiaduję się o tym Xi Ysą one istotnie liniowo powiązane. Jak na razie dobrze.

Ale potem badam dalej i zaczynam myśleć, że może Xi Yzwiązek może być bardziej krzywoliniowy niż liniowy. Dla mnie to wygląda relacji Xi Ymoże być bliżej Y ~ log(X), Y ~ sqrt(X)lub Y ~ X + X^2, czy coś takiego. Mam empiryczne powody, aby przypuszczać, że związek może być krzywoliniowy, ale nie ma powodów, aby zakładać, że jakikolwiek jeden nieliniowy związek może być lepszy niż jakikolwiek inny.

Mam tutaj kilka powiązanych pytań. Po pierwsze, moja Xzmienna przyjmuje cztery wartości: 0, 0,2, 0,4 i 0,6. Kiedy loguję lub przekształcam pierwiastek kwadratowy te dane, odstępy między tymi wartościami są zniekształcone, tak że wartości 0 są znacznie dalej od wszystkich innych. Z braku lepszego sposobu zadawania pytań, czy tego właśnie chcę? Zakładam, że tak nie jest, ponieważ otrzymuję bardzo różne wyniki w zależności od akceptowanego poziomu zniekształceń. Jeśli nie tego chcę, jak mam tego uniknąć?

Po drugie, aby przekształcić dane w te dane, muszę dodać pewną wartość do każdej Xwartości, ponieważ nie można przyjąć logarytmu 0. Gdy dodam bardzo małą ilość, powiedzmy 0,001, otrzymuję bardzo znaczne zniekształcenie. Kiedy dodam większą ilość, powiedzmy 1, mam bardzo małe zniekształcenie. Czy istnieje „poprawna” kwota do dodania do Xzmiennej? A może niewłaściwe jest dodawanie czegokolwiek do Xzmiennej zamiast wyboru alternatywnej transformacji (np. Pierwiastek sześcienny) lub modelu (np. Regresja logistyczna)?

To, czego niewiele udało mi się dowiedzieć na ten temat, sprawia, że czuję, że powinienem iść ostrożnie. Dla innych użytkowników R. ten kod utworzyłby niektóre dane o strukturze podobnej do mojej.

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

— Bajcz
źródło

Mówisz, że Y jest proporcją, ale w twoich danych jest między 6 a 10?

Tak, naprawiłem to powyżej - to stosunek, a nie proporcja.

— Bajcz

Główne pytanie dotyczące przekształcania proporcji (użyję jako symbolu, podobnie, ale nie identycznie do twojej notacji), pozwala na kilka ogólnych komentarzy. $x$

W dalszej części przyjmuję, że głównym motywem transformacji proporcji, które są współzmienne (predyktory, zmienne niezależne), jest poprawa aproksymacji do liniowości relacji lub, jeśli w trybie eksploracyjnym, aby uzyskać wyraźniejsze graficzne wyobrażenie o kształcie lub istnieniu jakikolwiek związek. Jak zwykle to, czy zmienna towarzysząca jest (np.) W przybliżeniu normalnie rozłożona, nie jest istotne jako takie. (Proporcje są niezbyt odległym krewnym zmiennych wskaźnikowych o wartościach których nigdy nie można normalnie rozłożyć, a także proporcje są koniecznie ograniczone.) $0, 1$

Jeśli proporcje mogą osiągnąć dokładne zera lub dokładne, konieczne jest zdefiniowanie transformacji dla tych granic, co wyraźnie wyklucza , ponieważ jest nieokreślony. Poza tym konkretny kształt idealnie wymaga uzasadnienia merytorycznego (naukowego, praktycznego), ale brakuje w nim prostej analizy, że jest bardzo wrażliwy na wartość , jak sugerujesz. $\log x$ $\log 0$ $\log (x + c)$ $c$

Jest to trochę łatwiejsze do zauważenia przy logarytmach do podstawy , więc tymczasowo rozważmy , aby odwzorował na . $10$ $c = 10^k$ $\log_{10} (x + 10^k)$ $x = 0$ $k$

Stąd odwzorowuje do i do około , podczas gdy odwzorowuje do a tylko do smidgenu większego niż . $k = 0, c = 1$ $x = 0$ $0$ $x = 1$ $0.301$ $k = -3, c = 0.001$ $x = 0$ $-3$ $x = 1$ $0$

Podobnie, cokolwiek oznacza, że jest odwzorowane na te same granice, podczas gdy dla coraz lepszego przybliżenia jest odwzorowane na . $k = -6, -9,$ $0$ $x = 1$ $0$

Tak więc dolna granica jest rozciągana na zewnątrz z coraz mniejszymi dodanymi stałymi , podczas gdy górna granica pozostaje mniej więcej taka sama. Takie przekształcenia mogą zatem nadmiernie rozciągać dolną część zakresu, a nawet tworzyć wartości odstające od bardzo małych wartości równych lub bliskich . $c$ $0$

Po prostu ludzie sugerujący to prawdopodobnie wyobrażają sobie, że (teraz do dowolnej bazy, którą lubisz) powinien zachowywać się bardzo podobnie do dla małego , co jest wyraźnie prawdziwe dla dużego , ale wcale nie jest prawdziwe dla małego . Innymi słowy, bardziej strome i większe nachylenie w funkcji ponieważ może tutaj ugryźć bardzo mocno. $\log (x + c)$ $\log x$ $c$ $x$ $x$ $\log x$ $x$ $x \downarrow 0$

Wydaje się, że lepiej skupić się na transformacjach, które różnią się bardziej stopniowo w pobliżu i (z innych, ale powiązanych powodów) również w pobliżu . $x = 0$ $x = 1$

Pierwiastki kwadratowe i pierwiastki sześcianu i inne potęgi są doskonale dobrze zdefiniowane dla i często pomagają, gdy zachodzi potrzeba rozciągnięcia wartości w pobliżu . Ale te transformacje są dobrze znane i skupiam się tutaj bardziej na innej możliwości. $x^p$ $x = 0, 1$ $0$

Rodzina złożonych mocy spopularyzowana przez JW Tukeya ( Exploratory Data Analysis , Reading, MA: Addison-Wesley, 1977) jest jedną z możliwości i wynosi . Chociaż nie ma przymusu, aby wybrać uprawnienia, które umożliwiają proste nazwy sugestywne, wybory (złożona root) i (złożona pierwiastek) wydaje się najbardziej użytecznych członków tej rodziny. $x^p - (1 - x)^p$ $p = 1/2$ $p = 1/3$

Rodzina przypomina znaną transformację i rzeczywiście logit jest ograniczającym przypadkiem, ponieważ dąży do . Kluczową różnicą jest to, że siły złożone są zdefiniowane dla i . $\text{logit}\ x = \log x - \log (1 - x)$ $p$ $0$ $x = 0, 1$ $p \ne 0$

Moce złożone, w tym teraz logit, traktują ekstremalne przypadki w pobliżu i skośno-symetrycznie i wykreślają jako odwrotne krzywe sigmoidalne (niektóre wykresy poniżej) mieszając zachowanie addytywne i multiplikatywne, powtarzając często jakościowe (jeśli nie fizyczne, biologiczne, ekonomiczne, cokolwiek) fakty leżące u podstaw zjawiska, które $0$ $1$

różnica od powiedzmy do może być „wielką sprawą” (oczywiście, zmienia się tylko o , ale podwaja się) $0.01$ $0.02$ $x$ $0.01$
różnica między powiedzmy a może być również „wielką sprawą” (oczywiście, zmienia się tylko o , ale „ułamek bez” również o połowę) $0.98$ $0.99$ $x$ $0.01$ $1 - x$
różnica od powiedzmy do może być „mniejszą transakcją” (oczywiście zmienia się również o , ale zmiana proporcjonalna jest znacznie mniejsza) $0.50$ $0.51$ $x$ $0.01$

Być może najłatwiej jest pomyśleć, kiedy wyobrażamy sobie jakąś podstawową dynamikę: rosnąca część powiedzmy, że ludzie piśmienni potrzebują dużego nacisku, aby zacząć, przyspiesza, a następnie zwalnia, gdy zbliża się do asymptoty powszechnej umiejętności czytania. Krzywa w czasie może więc przypominać rosnącą lub malejącą logistykę. Fakt, że do proporcji i dochodzi się wolniej lub bardziej, jest naturalnie jedną z kilku motywacji dla logit i podobnych modeli dla proporcjonalnych odpowiedzi; chociaż koncentrujemy się tutaj na współzmiennych proporcjonalnych, sigmoidy mogą być również przydatne tutaj. $0$ $1$

Składane moce, takie jak składany korzeń lub pierwiastek kostki, nie są tak silnie sigmoidalne jak logit, ale cenną zaletą jest ich bezpośrednie i łatwe zdefiniowanie bez krówek, kludów i szturchańców dla . $x = 0, 1$

Przechodząc do twojego fałszywego, ale z pozoru realistycznego zestawu danych (który zaimportowałem do mojego ulubionego oprogramowania, ale analiza jest prosta w jakiejkolwiek przyzwoitej formie), okazuje się, że żadna z tych transformacji w ogóle nie pomaga. Ale wykresowanie danych daje wyraźne ostrzeżenie, że nawet jest potężną silną transformacją, co można zobaczyć również poprzez bezpośrednie wykreślenie. $\log(x + 0.001)$

Dwie główne kwestie, o których chciałbym wspomnieć, to:

$\log (x + c)$ $x$
W przypadku przykładowych danych żadna transformacja, której próbowałem, nie wydaje się pomóc.

Jednocześnie inne możliwości nie są jeszcze wyczerpane. (W szczególności nie próbowałem pierwiastka kwadratowego ani pierwiastka sześcianu i podkreślam, że w wielu innych problemach mogą to być oczywiste i poważne kandydatury).

$0$ $1$

$R^2 = 3.7$ $= 0.994$

$y$ $6$ $10$

EDYCJA: Oryginalne dane mogą być wykreślone tutaj, ponieważ PO krótko opublikował dane, ale później je usunął.

Inne wątki wykorzystujące złożone siły to

Przekształcanie danych proporcji: gdy pierwiastek kwadratowy arcsin nie wystarczy

Regresja: Wykres rozproszenia z niskimi do kwadratu R i wysokimi wartościami p

Wykreśl mocno wypaczony zestaw danych

— Nick Cox
źródło

Doskonała odpowiedź i bardzo dokładna. Myślę, że powinienem powiedzieć, że mój Ystosunek jest raczej proporcją niż proporcją, co jest prawdopodobnie dość znaczną różnicą, więc dobrze, że zwróciłeś na to uwagę.

— Bajcz

Proporcje są ograniczone, gdy je definiuję. Dzięki za wyjaśnienie, które nie ma znaczenia dla mojej analizy (dlatego oznaczyłem to drobnym szczegółem).

— Nick Cox,

Dalszy komentarz: Zasadniczo można sprawdzić krzywiznę itp. Za pomocą splajnów lub wygładzaczy, ale tylko z 4 różnymi poziomami predyktora, co nie jest łatwe. Rozważę regresję kwantową dla twoich danych.

— Nick Cox,

x^{2}

$x^2$

x^{3}

$x^3$

1 ↓

$1\downarrow$

0 ↑

$0\uparrow$

x = 0, 1

$x = 0,1$