Czy „w porządku” jest wykreślenie linii regresji dla danych rankingowych (korelacja Spearmana)?


12

Mam dane, dla których obliczyłem korelację Spearmana i chcę ją wizualizować dla publikacji. Zmienna zależna jest uszeregowana, zmienna niezależna nie jest. To, co chcę zwizualizować, to bardziej ogólny trend niż faktyczne nachylenie, więc uszeregowałem niezależność i zastosowałem korelację / regresję Spearmana. Ale kiedy sporządziłem swoje dane i miałem zamiar wstawić je do mojego rękopisu, natknąłem się na to oświadczenie (na tej stronie internetowej ):

Prawie nigdy nie użyjesz linii regresji ani do opisu, ani do prognozy podczas korelacji rang Spearmana, więc nie obliczaj ekwiwalentu linii regresji .

i później

Możesz wykreślić dane korelacji rang Spearmana w taki sam sposób, jak w przypadku regresji liniowej lub korelacji. Nie należy jednak umieszczać linii regresji na wykresie ; wprowadzanie liniowej linii regresji na wykresie byłoby mylące, gdy analizowałbyś ją za pomocą korelacji rang.

Chodzi o to, że linie regresji nie różnią się tak bardzo, jak kiedy nie oceniam niezależności i nie obliczam korelacji Pearsona. Trend jest taki sam, ale z powodu wygórowanych opłat za kolorową grafikę w czasopismach poszedłem z monochromatyczną reprezentacją, a rzeczywiste punkty danych nakładają się tak bardzo, że nie można ich rozpoznać.

Mógłbym oczywiście obejść ten problem, tworząc dwa różne wykresy: jeden dla punktów danych (w rankingu) i jeden dla linii regresji (nierankingowany), ale jeśli okaże się, że podane przeze mnie źródło jest nieprawidłowe lub problem w moim przypadku nie jest to problematyczne, ułatwiłoby mi to życie. (Widziałem też to pytanie , ale to mi nie pomogło).

Edytuj, aby uzyskać dodatkowe informacje:

Zmienna niezależna na osi x reprezentuje liczbę cech, a zmienna zależna na osi y reprezentuje pozycję algorytmów klasyfikacji w porównaniu z ich wydajnością. Teraz mam kilka algorytmów, które są porównywalne średnio, ale chcę powiedzieć z moją fabułą: „Podczas gdy klasyfikator A staje się lepszy, tym więcej funkcji jest obecnych, klasyfikator B jest lepszy, gdy obecnych jest mniej funkcji”

Edytuj 2, aby uwzględnić moje wykresy:

Przedstawiono rangi algorytmów w zależności od liczby cech wprowadź opis zdjęcia tutaj

Przedstawiono rangi algorytmów w stosunku do liczby funkcji w rankingu wprowadź opis zdjęcia tutaj

Tak więc, aby powtórzyć pytanie z tytułu:

Czy można sporządzić linię regresji dla danych rankingowych korelacji / regresji Spearmana?


Ile jest kategorii w rankingu? Czy przetestowałeś założenie proporcjonalności? Jest wielu badaczy, którzy doskonale radzą sobie z traktowaniem danych porządkowych (np. Rankingów) jako ciągłych. Czasami, jeśli jest wiele kategorii, ma to sens.
robin.datadrivers

1
Jest siedem stopni, są one używane do testu Friedmana
Sentry

Odpowiedzi:


10

Korelacja rang może być wykorzystana do ustalenia monotonicznego związku między zmiennymi, jak zauważasz; jako taki, normalnie nie rysowałbyś linii do tego.

Są sytuacje, w których sensowne jest użycie korelacji rang, aby faktycznie dopasować linie do liczbowego-y vs numerycznego-x, czy to Kendalla, czy Spearmana (lub innego). Zobacz dyskusję (w szczególności ostatnią fabułę) tutaj .

Ale to nie twoja sytuacja. W twoim przypadku chciałbym przedstawić wykres rozrzutu oryginalnych danych, być może z płynną relacją (np. Przez LOESS).

Oczekujesz, że związek będzie monotoniczny; być może możesz spróbować oszacować i wykreślić monotoniczny związek. [Omówiono tutaj funkcję R , która może pasować do regresji izotonicznej - podczas gdy na przykładzie unimodal nie jest izotoniczny, funkcja może wykonywać dopasowania izotoniczne.]

Oto przykład tego, co mam na myśli:

wprowadź opis zdjęcia tutaj

Wykres pokazuje monotoniczną zależność między xiy; czerwona krzywa jest gładka lessowa (w tym przypadku generowana w R przez scatter.smooth), która również jest montoniczna (istnieją sposoby na uzyskanie gładkich dopasowań, które są gwarantowane jako monotoniczne, ale w tym przypadku domyślna gładka lessowa była monotoniczna, więc Nie czułem potrzeby się martwić.

wprowadź opis zdjęcia tutaj
Wykres rangi (y) vs ranga (x), wskazujący na związek monotoniczny. Zielona linia pokazuje rangi dopasowanych wartości krzywej lessowej względem rangi (x).

Korelacja między rzędami xiy (tj. Korelacja Spearmana) wynosi 0,892 - wysoki związek monotoniczny. Podobnie korelacja Spearmana między (montoniczną) dopasowaną krzywą wygładzoną metodą lessową ( ) a wartościami y wynosi również 0,892. [Nie jest to jednak zaskakujące, ponieważ byłoby tak w przypadku każdej krzywej, która jest monotoniczną funkcją x, z których wszystkie odpowiadałyby również zielonej linii. Zielona linia nie jest linią regresji między rangą (x) a rangą (y), ale jest linią odpowiadającą monotonicznemu dopasowaniu na oryginalnym wykresie. „Linia regresji” dla danych rankingowych ma nachylenie 0,892, a nie 1, więc jest trochę „bardziej płaska”.]y^

Jeśli nie wyświetlasz nic oprócz rangi (Y) vs X, myślę, że unikałbym używania linii na wykresach; o ile widzę, nie przekazują one zbyt wiele wartości powyżej współczynnika korelacji. I już powiedziałem, że interesuje Cię tylko ten trend.

[Nie wiem, czy źle jest wykreślić linię regresji na wykresie ranking-y vs ranking-x, trudność polegałaby na jej interpretacji.]


Dzięki, twoja odpowiedź jest dobra i dobrze wyjaśniona. Uświadomiłem sobie jednak, że mogłem pominąć kluczowe informacje. Czy nadal jest ważny z dodatkowymi informacjami, które podałem? Wykresy pojawiają się później, kiedy jestem na komputerze w pracy.
Sentry,

Spójrz na moją aktualizację i sprawdź, czy uważasz, że którekolwiek z nich ma jakąkolwiek wartość.
Glen_b

Tak, ma wartość, ale bardziej ogólnie. Zgadzam się również, że „zło” wynika z trudności w interpretacji fabuły. Obawiam się, że ludzie zawsze zakładają, że chcę przewidzieć rangę na podstawie funkcji, nawet jeśli stwierdzę, że chcę tylko pokazać trend .
Sentry

Patrząc na swoje działki - pokazujecie rangi, ale czy macie oryginalne pomiary wydajności, na których były oparte rangi?
Glen_b

Tak, tak, ale nie można ich tutaj wykorzystać, uwierz mi. Moje badania koncentrują się na porównaniu algorytmów za pomocą testu Friedmana, który je klasyfikuje. Istnieje wiele zestawów danych o bardzo różnych zakresach wydajności, więc interesujące jest tylko porównanie między nimi.
Sentry,

3

Zastosowanie Spearmana jest równoważne użyciu proporcjonalnych kursy porządkowej modelu logistycznego, jeśli jeden z nich rangi wektor podczas modelowania. Model PO zazwyczaj modeluje w oryginalnej skali i może zawierać terminy nieliniowe. Aby uzyskać prognozy, korzystne jest zastosowanie podejścia opartego na modelu. Możesz na przykład wykreślić względem przewidywanej średniej lub przewidywanej mediany z dopasowania modelu PO. Przykłady znajdują się w materiałach informacyjnych z http://biostat.mc.vanderbilt.edu/rms .ρXXXYY

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.