Jakie jest intuicyjne znaczenie liniowej zależności między logami dwóch zmiennych?

20

Mam dwie zmienne, które nie wykazują dużej korelacji, gdy są nanoszone względem siebie, ale bardzo wyraźna liniowa zależność, kiedy rysuję logi każdej zmiennej przeciw drugiej.

Skończyłem więc na modelu tego typu:

\log (Y) = a \log (X) + b

$\log(Y) = a \log(X) + b$ , co jest świetne matematycznie, ale wydaje się, że nie ma wartości objaśniającej zwykłego modelu liniowego.

Jak mogę zinterpretować taki model?

regression correlation log

— Dzieci Akaike
źródło

5

Nie mam nic istotnego do dodania do istniejących odpowiedzi, ale logarytm w wyniku i predyktorem jest elastyczność. Poszukiwania tego terminu powinny znaleźć dobre zasoby do interpretacji tego związku, co nie jest zbyt intuicyjne.

— Upper_Case-Stop Harming Monica

Interpretacja modelu log-log, w którym zmienną zależną jest log (y), a zmienną niezależną jest log (x), to:

% Δ = β_{1} % Δ x

$\%Δ=β_1\%Δx$ .

— Bob

3

Uzupełniające połączenie log-log jest idealną specyfikacją GLM, gdy wynik jest binarny (model ryzyka), a ekspozycja jest kumulatywna, na przykład liczba partnerów seksualnych kontra zakażenie wirusem HIV. jstor.org/stable/2532454

— AdamO

2

@Alexis możesz zobaczyć lepkie punkty, jeśli nałożysz krzywe. Spróbuj curve(exp(-exp(x)), from=-5, to=5)kontra curve(plogis(x), from=-5, to=5). Wklęsłość przyspiesza. Jeśli ryzyko zdarzenia z pojedynczego spotkania wynosi

p

$p$ , wówczas ryzyko po drugim zdarzeniu powinno wynosić

1 - (1 - p)^{2}

$1-(1-p)^2$ itd., To logit kształtu probabilistycznego nie zostanie przechwycony. Wysokie naświetlenia znacznie bardziej przekrzywiłyby wyniki regresji logistycznej (fałszywie zgodnie z wcześniejszą regułą prawdopodobieństwa). Jakaś symulacja by to pokazała.

— AdamO

1

@AdamO Prawdopodobnie zostanie napisany artykuł pedagogiczny zawierający taką symulację, która motywuje, jak wybrać konkretny dychotomiczny link wyników spośród trzech, w tym sytuacje, w których robi to i nie robi różnicy.

— Alexis

27

Wystarczy wziąć wykładnik po obu stronach równania, aby uzyskać potencjalną relację, która może mieć sens w przypadku niektórych danych.

\log (Y) = a \log (X) + b

$\log(Y) = a\log(X) + b$

\exp (\log (Y)) = \exp (a \log (X) + b)

$\exp(\log(Y)) = \exp(a \log(X) + b)$

Y = e^{b} \cdot X^{a}

$Y = e^b\cdot X^a$

A ponieważ jest tylko parametrem, który może przyjąć dowolną wartość dodatnią, ten model jest równoważny z: $e^b$

Y = c \cdot X^{a}

$Y=c \cdot X^a$

Należy zauważyć, że wyrażenie modelu powinno zawierać termin błędu, a ta zmiana zmiennych ma na to interesujący wpływ:

\log (Y) = a \log (X) + b + ϵ

$\log(Y) = a \log(X) + b + \epsilon$

Y = e^{b} \cdot X^{a} \cdot \exp (ϵ)

$Y = e^b\cdot X^a\cdot \exp(\epsilon)$

Oznacza to, że Twój model z dodatkowymi błędami spełniającymi warunki OLS (błędy normalnie rozłożone ze stałą wariancją) jest równoważny potencjalnemu modelowi z błędami multiplikatywnymi, których logarytm ma rozkład normalny ze stałą wariancją.

— Pere
źródło

3

OP może być zainteresowany tym, że ta dystrybucja ma nazwę log-normal: en.wikipedia.org/wiki/Log-normal_distribution

— gardenhead

2

Co z efektem nierówności Jensena? Ogólnie dla wypukłych g,

E [g (X)] \geq g (E [X])

$E[g(X)]≥g(E[X])$

— Statystyki

14

Możesz wziąć swój model i obliczyć całkowitą różnicę, otrzymasz coś w rodzaju: który daje $\log(Y)=a\log(X)+b$

\frac{1}{Y} d Y = a \frac{1}{X} d X

$\frac{1}YdY=a\frac{1}XdX$

\frac{d Y}{d X} \frac{X}{Y} = a

$\frac{dY}{dX}\frac{X}{Y}=a$

W związku z tym jeden prosty interpretacja współczynnika będzie procentową zmianę na procent zmiany w . Oznacza to ponadto, że zmienne narośla na stałą frakcję ( ) szybkości wzrostu . $a$ $Y$ $X$ $Y$ $a$ $X$

— RScrlli
źródło

Więc jeśli wykres log-log jest liniowy, oznaczałoby to stałą stopę wzrostu?

— Dimitriy V. Masterov

W rzeczywistości tempo wzrostu będzie stałe wtedy i tylko wtedy, gdy .

Y

$Y$

a = 0

$a=0$

— RScrlli

Nie z biegiem czasu tempo wzrostu w stosunku do wzrostu x.

— Dimitriy V. Masterov

zmiana kolejności nie pomaga,

— usunę

1

@ DimitriyV.Masterov OK, a następnie od jest liniowa to znaczy, że wartość zmiennej rośnie w frakcji stałej szybkości wzrostu . Czy według ciebie jest coś nie tak z moją odpowiedzią?

\log (Y)

$\log(Y)$

\log (X)

$\log(X)$

Y

$Y$

X

$X$

— RScrlli

7

Intuicyjnie podaje nam rząd wielkości zmiennej, dzięki czemu możemy zobaczyć relację, ponieważ rzędy wielkości dwóch zmiennych są liniowo powiązane. Na przykład zwiększenie predyktora o jeden rząd wielkości może być związane ze wzrostem o trzy rzędy wielkości odpowiedzi. $\log$

Podczas rysowania za pomocą wykresu logarytmiczno-logicznego mamy nadzieję zaobserwować zależność liniową. Korzystając z przykładu z tego pytania , możemy sprawdzić założenia modelu liniowego:

log-log

— qwr
źródło

3

+1 za intuicyjną odpowiedź na nieintuicyjną koncepcję. Jednak dołączony obraz wyraźnie narusza stałą wariancję błędu w predyktorze.

— Frans Rodenburg

1

Odpowiedź jest prawidłowa, ale przypisanie autorstwa jest błędne. Obraz nie powinien być przypisany do Grafiki Google, ale przynajmniej do strony internetowej, na której można go znaleźć, którą można znaleźć, klikając na obrazy Google.

— Pere

@Pere Niestety nie mogę znaleźć oryginalnego źródła obrazu (przynajmniej przy użyciu wyszukiwania wstecznego)

— qwr

Wygląda na to, że pochodzi z diagramss.us, chociaż ta strona jest wyłączona, a większość jej stron nie znajduje się w archiwum internetowym oprócz strony głównej

— Henry

4

Rozważ pogodzenie odpowiedzi @Rscrill z rzeczywistymi danymi dyskretnymi

\log (Y_{t}) = a \log (X_{t}) + b, \log (Y_{t - 1}) = a \log (X_{t - 1}) + b

$\log(Y_t) = a\log(X_t) + b,\;\;\; \log(Y_{t-1}) = a\log(X_{t-1}) + b$

⟹ \log (Y_{t}) - \log (Y_{t - 1}) = a [\log (X_{t}) - \log (X_{t - 1})]

$\implies \log(Y_t) - \log(Y_{t-1}) = a\left[\log(X_t)-\log(X_{t-1})\right]$

Ale

\log (Y_{t}) - \log (Y_{t - 1}) = \log (\frac{Y_{t}}{Y_{t - 1}}) \equiv \log (\frac{Y_{t - 1} + Δ Y_{t}}{Y_{t - 1}}) = \log (1 + \frac{Δ Y_{t}}{Y_{t - 1}})

$\log(Y_t) - \log(Y_{t-1}) = \log\left(\frac{Y_t}{Y_{t-1}}\right) \equiv \log\left(\frac{Y_{t-1}+\Delta Y_t}{Y_{t-1}}\right) = \log\left(1+\frac{\Delta Y_t}{Y_{t-1}}\right)$

$\frac{\Delta Y_t}{Y_{t-1}}$ jest zmiana procentowa pomiędzy okresami i lub szybkości wzrostu , np . Gdy jest mniejsza niż , mamy akceptowalne przybliżenie $Y$ $t-1$ $t$ $Y_t$ $g_{Y_{t}}$ $0.1$

\log (1 + \frac{Δ Y_{t}}{Y_{t - 1}}) \approx \frac{Δ Y_{t}}{Y_{t - 1}} = g_{Y_{t}}

$\log\left(1+\frac{\Delta Y_t}{Y_{t-1}}\right) \approx \frac{\Delta Y_t}{Y_{t-1}}=g_{Y_{t}}$

Dlatego otrzymujemy

g_{Y_{t}} \approx a g_{X_{t}}

$g_{Y_{t}}\approx ag_{X_{t}}$

który potwierdza w badaniach empirycznych teoretyczne traktowanie @Rscrill.

— Alecos Papadopoulos
źródło

1

Prawdopodobnie to matematyk nazwałby intuicyjnym :)

— Richard Hardy

2

Liniowa zależność między logami jest równoważna zależności zależności od mocy : W fizyce takie zachowanie oznacza, że system jest pozbawiony skali lub niezmiennik skali . Przykładowo, jeśli jest odległością lub czasem, oznacza to, że zależności od nie można scharakteryzować charakterystyczną skalą długości lub czasu (w przeciwieństwie do rozkładów wykładniczych). W efekcie, taki system wykazuje zależność dalekiego zasięgu na w .

Y \sim X^{α}

$Y \sim X^\alpha$

X

$X$

X

$X$

Y

$Y$

X

$X$

— Itamar
źródło