Kiedy kowariancja odległości jest mniej odpowiednia niż kowariancja liniowa?

Właśnie zostałem (niejasno) wprowadzony do kowariancji / korelacji odległości . Wydaje się to szczególnie przydatne w wielu sytuacjach nieliniowych, gdy testuje się zależność. Ale nie wydaje się, aby był używany bardzo często, chociaż kowariancja / korelacja są często stosowane w przypadku danych nieliniowych / chaotycznych.

To sprawia, że myślę, że mogą istnieć pewne wady kowariancji odległości. Czym więc są i dlaczego nie zawsze wszyscy używają kowariancji odległości?

correlation covariance distance-covariance

— naught101
źródło

Dla porównania, stworzyłem wersję korelacji odległość z wykresu korelacji Wikipedia

— naught101

Czytałem, że używasz dcov do porównywania nieliniowych szeregów czasowych i łączenia ich z wagą. Zastanawiałem się, czy to, co zrobiłeś, to stosowanie kowariancji odległości ważonej. Oznacza to, że podałeś różne wagi danych za pomocą wektora masy do obliczenia korelacja odległości? Próbuję to zrobić, ale nie jestem pewien, czy wprowadzenie wektora ciężaru do wzorów korelacji odległości jest właściwą drogą.

— user3757561,

Nie, przepraszam @ user3757561, próbowałem tylko korelacji odległości jako zamiennika korelacji, a następnie na tej podstawie tworzyłem wagi. Ale i tak go nie

— użyłem

Odpowiedzi:

Próbowałem zebrać kilka uwag na temat kowariancji odległości w oparciu o moje wrażenia z przeczytania poniższych referencji. Nie uważam się jednak za eksperta w tym temacie. Komentarze, poprawki, sugestie itp. Są mile widziane.

Uwagi są (silnie) tendencyjne w stosunku do potencjalnych wad, zgodnie z pierwotnym pytaniem .

Moim zdaniem potencjalne wady są następujące:

Metodologia jest nowa . Domyślam się, że jest to obecnie największy czynnik związany z brakiem popularności. Artykuły przedstawiające kowariancję odległości zaczynają się w połowie 2000 roku i postępują do dnia dzisiejszego. Artykuł cytowany powyżej jest tym, który cieszył się największym zainteresowaniem (szumem?) I ma mniej niż trzy lata. Natomiast teoria i wyniki dotyczące korelacji i miar podobnych do korelacji mają już za sobą ponad sto lat pracy.
Podstawowe pojęcia są trudniejsze . Korelację pomiędzy momentem Pearson a produktem na poziomie operacyjnym można dość łatwo wyjaśnić studentowi pierwszego roku studiów bez rachunku różniczkowego. Można stworzyć prosty „algorytmiczny” punkt widzenia, a intuicję geometryczną łatwo opisać. Natomiast w przypadku kowariancji odległości nawet pojęcie sumy iloczynu par euklidesowych odległości jest nieco trudniejsze, a pojęcie kowariancji w odniesieniu do procesu stochastycznego wykracza daleko poza to, co można rozsądnie wytłumaczyć takiej publiczności .
Jest to obliczeniowo bardziej wymagające . Podstawowym algorytmem obliczania statystyki testowej jest w wielkości próby, w przeciwieństwie do dla standardowych miar korelacji. W przypadku małych próbek nie jest to wielka sprawa, ale w przypadku większych staje się ważniejsza. $O(n^2)$ $O(n)$
Statystyka testu nie jest wolna od dystrybucji, nawet asymptotycznie . Można mieć nadzieję, że dla statystyki testowej, która jest spójna ze wszystkimi alternatywami, rozkład - przynajmniej asymptotycznie - może być niezależny od leżących u podstaw rozkładów i pod hipotezą zerową. Nie dzieje się tak w przypadku kowariancji odległości, ponieważ rozkład poniżej wartości zerowej zależy od leżącego u podstaw rozkładu i nawet gdy wielkość próbki zmierza do nieskończoności. Prawdą jest, że rozkłady są równomiernie ograniczone , co pozwala na obliczenie zachowawczej wartości krytycznej. $X$ $Y$ $X$ $Y$ $\chi^2_1$
Korelacja odległości jest transformacją jeden-do-jednegow dwuwymiarowym normalnym przypadku $|\rho|$ . To nie jest tak naprawdę wada, a nawet można ją postrzegać jako siłę. Ale jeśli zaakceptuje się dwuwymiarowe normalne przybliżenie danych, które może być dość powszechne w praktyce, wówczas niewiele, jeśli w ogóle, można uzyskać dzięki zastosowaniu korelacji odległości zamiast standardowych procedur.
Nieznane właściwości mocy . Spójność ze wszystkimi alternatywami zasadniczo gwarantuje, że kowariancja odległości musi mieć bardzo niską moc w stosunku do niektórych alternatyw. W wielu przypadkach można zrezygnować z ogólności, aby zyskać dodatkową moc w stosunku do konkretnych alternatyw interesujących. Oryginalne prace pokazują kilka przykładów, w których twierdzą, że mają dużą moc w stosunku do standardowych wskaźników korelacji, ale uważam, że wracając do (1.) powyżej, jej zachowanie wobec alternatyw nie jest jeszcze dobrze poznane.

Powtarzając, ta odpowiedź prawdopodobnie wydaje się dość negatywna. Ale nie o to chodzi. Istnieje kilka bardzo pięknych i interesujących pomysłów związanych z kowariancją odległości, a jej względna nowość otwiera również możliwości badawcze dla pełniejszego zrozumienia.

Referencje :

GJ Szekely i ML Rizzo (2009), kowariancja odległości Browna , Ann. Appl. Statystyk. , vol. 3, nr 4, 1236–1265.
GJ Szekely, ML Rizzo i NK Bakirov (2007), Pomiar i testowanie niezależności przez korelację odległości , Ann. Statystyk. , vol. 35, 2769–2794.
R. Lyons (2012), kowariancja odległości w przestrzeniach metrycznych , Ann. Probab (pojawić się).

— kardynał
źródło

Doskonała odpowiedź, dziękuję. Niektóre z nich są trochę ponad moją głową, ale myślę, że sam będę w stanie to naprawić :)

— naught101

Zobacz także Podsumowanie i dyskusja na temat: „Journal Browary Covariance”, Journal Journal Club, 36-825 Benjamin Cowley i Giuseppe Vinci 27 października 2014 stat.cmu.edu/~ryantibs/journalclub/dcov.pdf

— Felipe G. Nievinski

O (n \log n)

$\mathcal{O}(n \log n)$

Mógłbym coś przeoczyć, ale samo oszacowanie nieliniowej zależności między dwiema zmiennymi nie wydaje się mieć dużej korzyści. Nie powie ci on kształtu relacji. Nie da ci żadnego sposobu przewidywania jednej zmiennej z drugiej. Analogicznie, podczas eksploracyjnej analizy danych czasami stosuje się krzywą lessową (lokalnie ważoną wygładzającą wykres rozrzutu) jako pierwszy krok w kierunku sprawdzenia, czy dane najlepiej modelować z linią prostą, kwadratową, sześcienną itp. Ale less sam w sobie nie jest bardzo przydatnym narzędziem predykcyjnym. To tylko pierwsze przybliżenie na drodze do znalezienia praktycznego równania opisującego dwuwymiarowy kształt. To równanie, w przeciwieństwie do lessa (lub wyniku kowariancji odległości), może stanowić podstawę modelu potwierdzającego.

— rolando2
źródło

Dla moich celów ma on spłatę. Nie używam dcov () do przewidywania czegokolwiek, raczej do porównywania wielu nieliniowych szeregów czasowych w zespole i łączenia ich z wagami na podstawie ich zależności. W tej sytuacji dcov () ma potencjalnie duże zalety.

— naught101

@ naught101 Czy możesz podać więcej informacji. - kiedy powiesz „kombinacja”? Brzmi interesująco dla mnie pod względem wagi opartej na zależności nieliniowej. Czy masz na myśli kategoryzację szeregów czasowych w grupy? A także - co podkreślają wysokie i niskie wagi w tym scenariuszu?

— karawan

@PraneethVepakomma: sprawdź moją odpowiedź na stats.stackexchange.com/questions/562/…

— naught101

Ponadto, jeśli znasz ogólną formę zależności (np. Równanie wielomianowe), możesz oszacować siłę zależności za pomocą współczynnika determinacji, patrz np. Obliczanie skorygowanej R2 dla regresji wielomianowych

— Felipe G. Nievinski