Jeśli regresja liniowa jest powiązana z korelacją Pearsona, czy istnieją jakieś techniki regresji związane z korelacjami Kendalla i Spearmana?

27

Może to pytanie jest naiwne, ale:

Jeśli regresja liniowa jest ściśle związana ze współczynnikiem korelacji Pearsona, czy istnieją jakieś techniki regresji ściśle związane ze współczynnikami korelacji Kendalla i Spearmana?

— Miroslav Sabo
źródło

3

W prostym przykładzie, gdzie trzeba objaśniający i zmienną zależną: regresji liniowej z szeregu z

i

dałoby współczynnik korelacji Spearmana tak, współczynnik regresji. I w tym przypadku

i

są wymienne w regresji.

x

$x$

y

$y$

x

$x$

y

$y$

— COOLSerdash

2

Kilka myśli. Zarówno

Kendalla, jak i

Spearmana są współczynnikami korelacji opartymi na rangach. Poszukiwany związek między

i

musiałby wówczas obejmować ich szeregi. Jednak obliczanie rang wprowadza zależność między obserwacjami, co z kolei narzuca zależność między terminami błędów, eliminując regresję liniową. Jednakże, w innym otoczeniu, modelowanie struktury zależności między

i

z copulas stałaby związek z Kendalla

i / lub Spearmana

to możliwe, w zależności od wyboru kopułą.

τ

$\tau$

ρ

$\rho$

x

$x$

y

$y$

x

$x$

y

$y$

τ

$\tau$

ρ

$\rho$

— QuantIbex,

1

@QuantIbex czy ta zależność z konieczności oznacza

?

E [ε_{i} ε_{j}] \neq 0

$E[\varepsilon_i\varepsilon_j]\neq 0$

— shadowtalker

21

Istnieje bardzo prosty sposób użycia prawie dowolnej miary korelacji w celu dopasowania do regresji liniowych i który odtwarza najmniejsze kwadraty, gdy używasz korelacji Pearsona.

$\beta$ $y-\beta x$ $x$ $0$

$0$

$\tilde{\beta}$ $y-\tilde{\beta} x$ $x$ $0$

Ta definicja działa na przykład z wszystkimi rodzajami korelacji opartych na rangach. Można go również wykorzystać do uzyskania odstępu dla nachylenia (w zwykły sposób - poprzez znalezienie nachyleń, które wyznaczają granicę między tylko znaczącymi korelacjami a tylko nieistotnymi korelacjami).

$y-\tilde{\beta}x$

Oto wykreślona korelacja względem nachylenia cardanych w R:

wprowadź opis zdjęcia tutaj

Korelacja Pearsona przecina 0 na zboczu co najmniej kwadratów, 3,932
Korelacja Kendalla przecina 0 na zboczu Theil-Sen, 3,667
Korelacja Spearmana przecina 0, dając nachylenie „linii włóczni” 3,714

Są to trzy szacunkowe wartości nachylenia dla naszego przykładu. Teraz potrzebujemy przechwyceń. Dla uproszczenia użyję średniej resztkowej dla pierwszego przechwytywania i mediany dla pozostałych dwóch (w tym przypadku nie ma to większego znaczenia):

           intercept
 Pearson:  -17.573 *     
 Kendall:  -15.667
 Spearman: -16.285

* (niewielka różnica od najmniejszych kwadratów wynika z błędu zaokrąglania w oszacowaniu nachylenia; bez wątpienia w innych oszacowaniach występuje podobny błąd zaokrąglania)

Odpowiednie dopasowane linie (przy użyciu tego samego schematu kolorów co powyżej) to:

wprowadź opis zdjęcia tutaj

Edycja: Dla porównania nachylenie kwadrantu-korelacji wynosi 3,333

Zarówno korelacja Kendalla, jak i nachylenie Spearmana są znacznie bardziej odporne na wpływowe wartości odstające niż najmniejsze kwadraty. Zobacz tutaj dramatyczny przykład w przypadku Kendall.

— Glen_b - Przywróć Monikę
źródło

(+1) Świetne wyjaśnienie! Czy jest jakiś powód, dla którego Kendall wydaje się w tym kontekście bardziej preferowany od Spearmana (przynajmniej sądząc z faktu, że korelacja Kendalla odpowiada estymatorowi nachylenia, który ma nazwę, Theil-Sen, podczas gdy Spearmana nie jest)?

— ameba mówi Przywróć Monikę

4

Istnieje wiele powodów, dla których wydaje się, że tak jest. Po pierwsze, linia Theil-Sen ma prosto opisany estymator (mediana par w zboczach), którego brakuje Spearmanowi; w małych próbkach jest bardzo odpowiedni do obliczeń ręcznych. Korelacja Kendalla szybciej zbliża się do normalności i jest łatwiejsza do obliczenia matematycznego . Zobacz także tutaj i tutaj .

— Glen_b

20

$X$ $Y$ $Y$

$\chi^2$

Model PO jest szczególnym przypadkiem bardziej ogólnej rodziny modeli skumulowanego prawdopodobieństwa (niektóre połączenia skumulowane połączenie), w tym probit, proporcjonalnych zagrożeń i uzupełniających modeli log-log. Studium przypadku znajduje się w rozdziale 15 moich materiałów informacyjnych .

— Frank Harrell
źródło

4

Aaron Han (1987 w ekonometrii) zaproponował estymator maksymalnej korelacji rang, który pasuje do modeli regresji poprzez maksymalizację tau. Dougherty i Thomas (2012 w literaturze psychologicznej) zaproponowali ostatnio bardzo podobny algorytm. Istnieje wiele prac nad MRC ilustrujących jego właściwości.

Aaron K. Han, Analiza nieparametryczna uogólnionego modelu regresji: estymator maksymalnej korelacji rang, Journal of Econometrics, tom 35, wydania 2–3, lipiec 1987, strony 303-316, ISSN 0304-4076, http: // dx.doi.org/10.1016/0304-4076(87)90030-3 . ( http://www.sciencedirect.com/science/article/pii/0304407687900303 )

Dougherty, MR i Thomas, RP (2012). Solidne podejmowanie decyzji w świecie nieliniowym. Przegląd psychologiczny, 119 (2), 321. Źródło: http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf .

— rankingman
źródło