Co to są powiązane dane w kontekście współczynnika korelacji rang?

16

Nie jestem w dziedzinie statystyki.

Podczas czytania o współczynnikach korelacji rang widziałem słowo „powiązane dane”.

Co to są powiązane dane?
Jaki jest przykład powiązanych danych?

correlation nonparametric ranks

— BB01
źródło

5

Oznacza to dane o tej samej wartości; na przykład, jeśli masz 1,2,3,3,4 jako zestaw danych, wówczas dwie 3 to powiązane dane. Jeśli masz 1,2,3,4,5,5,5,6,7,7 jako zbiór danych, to 5 i 7 to powiązane dane.

— quarkdown27
źródło

14

„Dane powiązane” pojawiają się w kontekście nieparametrycznych testów statystycznych opartych na rangach.

Testy nieparametryczne : testy, które nie zakładają określonego rozkładu prawdopodobieństwa, np. Nie zakładają krzywej w kształcie dzwonu.

oparte na rangach : duża klasa testów nieparametrycznych rozpoczyna się od przekształcenia liczb (np. „3 dni”, „5 dni” i „4 dni”) w szeregi (np. „najkrótszy czas (3)”, „najdłuższy czas trwania (1.) „,„ drugi najdłuższy czas trwania (2.) ”). Do tych szeregów stosuje się tradycyjną metodę testowania parametrycznego.

Wiązane dane stanowią problem, ponieważ liczby, które są identyczne, należy teraz przekonwertować na rangę. Czasami szeregi są losowo przydzielane, czasem używana jest średnia ranga. Co najważniejsze, należy opisać protokół przełamywania powiązanych szeregów w celu zapewnienia powtarzalności wyniku.

— Ming K.
źródło

5

To po prostu dwie identyczne wartości danych, takie jak obserwacja 7 razy w tym samym zbiorze danych.

Pojawia się to w kontekście metod statystycznych, które zakładają, że dane mają ciągły charakter, a zatem identyczne pomiary są niemożliwe (lub technicznie, prawdopodobieństwo identycznych wartości wynosi zero). Praktyczne komplikacje pojawiają się, gdy metody te są stosowane do danych, które są zaokrąglane lub obcinane, dzięki czemu identyczne pomiary są nie tylko możliwe, ale dość powszechne.

— John D. Cook
źródło

1

Nie zgadzam się z tym rozumowaniem, ponieważ nie można tego powiedzieć z powodu jego zerowego prawdopodobieństwa, że to zdarzenie może nigdy się nie wydarzyć. To nie jest dobre uzasadnienie.

— Henry.L

2

Pytanie ma fundamentalne znaczenie:

Co to jest powiązana obserwacja / dane / para?

$T^+$

(Więc nie sądzę, aby odpowiedź @ Ming-Chih Kao była właściwa, wprowadzając najpierw testy nieparametryczne. Ale ponieważ tytuł brzmi „Czym są powiązane dane w kontekście współczynnika korelacji rang?”, Kupię je.)

$Z_{i}=X_{i}-Y_{i}$

$(X_{i},Y_{i})$

$Z_{i}$ : 2 -1 -1 2 1 1 -1 -1 1 3

Weź ich wartość bezwzględną $Z_{i}$

$|Z_{i}|$ : 2 1 1 2 1 1 1 1 1 3

$\{(1,-1) (1,-1)\},\{ (1,2) (1,2) (2,1) (2,1) (2,3) (2,3) (3,2) \},\{(3,0)\}$

Spróbujmy tego bardzo łatwego sposobu, oceniamy od lewej do prawej i dajemy:

$R_{i}$

Ale tutaj znowu powinniśmy zapytać, dlaczego tak inny ranking nie jest odpowiedni, ponieważ nie ma różnicy między tymi identycznymi $|Z_{i}|$ jak:

$R_{i}$ : 8 7 6 9 5 4 3 2 1 10

Dlatego możemy po prostu wziąć pod uwagę średnią tych identycznych $|Z_{i}|$ i przypisz ponownie:

$R_{i}$ : 8 7 6 9 5 4 3 2 1 10

Pogrubienie oznacza pierwszą związaną grupę $|Z_{i}|=1$ obserwacje; kursywą oznacza drugą związaną grupę $|Z_{i}|=2$ obserwacje.

Każdej obserwacji przypisanej do pierwszej grupy przypisujemy rangę $\frac{1+\cdots+7}{7}=4$ ; przypisujemy każdej obserwacji w drugiej grupie rangę $\frac{8+9}{2}=8.5$ . Dlatego mamy:

$R_{i}$ : 8,5 4 4 8,5 4 4 4 4 4 10

To zmodyfikowało rankingi i sprawiło, że każda z powiązanych obserwacji ma taki sam wpływ na obliczanie statystyk rankingowych, a więc na test rangowy.

Jakie są rozwiązania dla powiązanej obserwacji / danych / pary?

(1) Przypisz średnią rangę. Właśnie to zrobiliśmy powyżej. Przypisując tę samą rangę związanym danym w tej samej grupie, sprawiamy, że ich wpływ w teście rankingowym jest taki sam, a zatem eliminujemy możliwą niedokładność spowodowaną powiązanymi obserwacjami.

(2) Przydziel losową rangę. Po prostu przydziel rangi losowo do każdego z powiązanych elementów grupy. Jedynym ograniczeniem jest to $MaxRank_{first group}<MinRank_{second group}$ since if $MaxRank_{first group}>MinRank_{second group}$ , that breaks the ranking law; if $MaxRank_{first group}=MinRank_{second group}$ , then we have to merge two tied groups into one.

(3)Perturbation of data. This requires very careful consideration about the nature of the data. This works only if the data is not categorical(discrete). In the above example, we can just make a This will put different weights manually to each of the elements in the tied group. For a continuous distribution, for example, it makes little difference if you perturb it in $\epsilon$ manner.

(@John D. Cook 's answer is a bit misleading in this way. A better way of saying this point is that when the distribution is continuous, $P{X=x}=0$ . However, we shall observe ties since our measurement is of limited accuracy, i.e. any sample space in reality is actually finite.) (@quarkdown27 's answer is simple but correct in each word.)

— Henry.L
źródło