Współczynnik korelacji wewnątrzklasowej vs. test F (jednokierunkowa ANOVA)?

Jestem trochę zdezorientowany, jeśli chodzi o współczynnik korelacji wewnątrzklasowej i jednokierunkową ANOVA. Jak rozumiem, oba mówią ci, jak podobne są obserwacje w grupie, w porównaniu z obserwacjami w innych grupach.

Czy ktoś mógłby wyjaśnić to nieco lepiej, a może wyjaśnić sytuację, w której każda metoda jest bardziej korzystna?

— Blep
źródło

Poświęć trochę czasu na sprawdzenie wiarygodności lub tagów między oceniającymi . ICC opiera się na tabeli ANOVA, ale pomysł polega jedynie na analizie składników wariancji zamiast na tworzeniu pojedynczej statystyki testowej o znanych właściwościach dystrybucyjnych, takich jak test F. Jaką aplikację masz na myśli?

— chl

@chl Chcę analizować indywidualne wyniki dla zgrupowanych danych. Widziałem kilka artykułów analizujących różnice między wynikami rodziców i dzieci, używając ICC do stwierdzenia, czy istnieje znacząca różnica w odpowiedziach rodziców na dzieci. Myślę, że ICC jest tym, czego chcę tutaj, ale jak już wspomniałem, tak naprawdę nie rozumiem różnicy między nimi. Waham się z pytaniem o więcej, ale czy znasz jakieś dobre (podstawowe) referencje? Moje tło statystyczne zatrzymało się przy regresji liniowej i wydaje mi się, że zadaję pytania, które nie są dobrze sformułowane. Dziękuję Ci.

— blep

Wygląda na to, że sparowałeś dane. Rozważając oddzielne grupy (rodzice kontra ich dzieci) i korzystając z ICC do zgłaszania wiarygodności wyników, wyrzucisz część informacji, tj. Czy oceny od rodziców i ich krewnych działają w spójny sposób. Twoje dwie karty ICC powiedzą ci tylko, czy obie serie wyników, zakładane jako niezależne, są „wiarygodne”, w tym sensie, że znaczna część wariancji może wynikać z efektu oceny. (...)

— chl.

(...) Podsumowując, jeśli chcesz wykazać, że oceny rodzicielskie są bardziej wiarygodne niż oceny dzieci, skorzystanie z ICC jest w porządku; z drugiej strony, jeśli chcesz zbadać, w jaki sposób oceny rodzicielskie odnoszą się do ocen dzieci, możesz skorzystać z innego rodzaju analizy (a dokładniej analizy danych dynamicznych).

— chl

Obie metody opierają się na tym samym pomyśle, polegającym na rozkładaniu obserwowanej wariancji na różne części lub komponenty. Istnieją jednak subtelne różnice w tym, czy traktujemy przedmioty i / lub mierniki jako efekty stałe czy losowe. Oprócz powiedzenia, jaka część całkowitej zmienności jest wyjaśniona przez czynnik między (lub o ile różnica między odchyleniem odbiega od wariancji resztkowej), test F nie mówi wiele. Przynajmniej dotyczy to jednokierunkowej ANOVA, w której zakładamy stały efekt (i który odpowiada opisanemu poniżej ICC (1,1)). Z drugiej strony ICC zapewnia ograniczony indeks przy ocenie wiarygodności ratingowej dla kilku wskaźników „wymiennych” lub jednorodności między jednostkami analitycznymi.

Zazwyczaj dokonujemy następującego rozróżnienia między różnymi rodzajami kart ICC. Wynika to z przełomowego dzieła Shrout and Fleiss (1979):

Jednokierunkowy model efektów losowych , ICC (1,1): każdy element jest oceniany przez różnych oceniających, którzy są uważani za pobranych z większej puli potencjalnych ocen, dlatego są one traktowane jako efekty losowe; ICC jest następnie interpretowane jako% całkowitej wariancji uwzględnionej przez wariancję przedmiotów / przedmiotów. Nazywa się to konsystencją ICC.
Dwukierunkowy model efektów losowych , ICC (2,1): oba czynniki - wskaźniki i przedmioty / podmioty - są postrzegane jako efekty losowe, a oprócz wariancji rezydualnej mamy dwa składniki wariancji (lub średnie kwadraty); ponadto zakładamy, że oceniający oceniają wszystkie przedmioty / przedmioty; ICC podaje w tym przypadku% wariancji przypisywanej przez osoby oceniające + przedmioty / przedmioty.
Dwukierunkowy model mieszany , ICC (3,1): w przeciwieństwie do podejścia jednokierunkowego, tutaj mierniki są uważane za efekty ustalone (bez uogólnienia poza próbą), ale przedmioty / podmioty są traktowane jako efekty losowe; jednostką analizy może być ocena indywidualna lub średnia.

Odpowiada to przypadkom od 1 do 3 w tabeli 1. Można wprowadzić dodatkowe rozróżnienie w zależności od tego, czy uważamy, że zaobserwowane oceny są średnią z kilku ocen (nazywane są ICC (1, k), ICC (2, k), i ICC (3, k)) lub nie.

Podsumowując, musisz wybrać odpowiedni model (jednokierunkowy vs. dwukierunkowy), co zostało w dużej mierze omówione w pracy Shrout i Fleiss. Model jednokierunkowy ma tendencję do uzyskiwania mniejszych wartości niż model dwukierunkowy; podobnie model efektów losowych generalnie daje niższe wartości niż model efektów stałych. ICC pochodząca z modelu efektów stałych jest uważana za sposób oceny spójności wskaźników (ponieważ ignorujemy wariancję oceny), natomiast w przypadku modelu efektów losowych mówimy o oszacowaniu zgodności wskaźników (niezależnie od tego, czy wskaźniki są wymienne, czy nie). Tylko modele dwukierunkowe uwzględniają interakcję rater x podmiot, co może być interesujące, gdy próbuje się rozwikłać nietypowe wzorce oceny.

Poniższy rysunek łatwo kopii / pasty przykład z ICC()w psych pakietu (dane pochodzą z Shrout i Fleiss, 1979). Dane składają się z 4 sędziów (J) posiadających 6 badanych lub celów (S) i są podsumowane poniżej (założę, że są przechowywane jako macierz R o nazwie sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Ten przykład jest interesujący, ponieważ pokazuje, jak wybór modelu może wpłynąć na wyniki, a zatem interpretację badania wiarygodności. Wszystkie 6 modeli ICC przedstawia się następująco (jest to Tabela 4 w pracy Shrout i Fleiss)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Jak można zauważyć, uznanie mierników za efekty ustalone (a zatem nie próbowanie uogólnienia do szerszej puli mierników) dałoby znacznie wyższą wartość jednorodności pomiaru. (Podobne wyniki można uzyskać przy pomocy pakietem irr ( icc()), chociaż musimy bawić się inną opcją dla typu modelu i jednostki analizy.)

Co mówi nam podejście ANOVA? Musimy dopasować dwa modele, aby uzyskać odpowiednie średnie kwadraty:

model jednokierunkowy, który uwzględnia wyłącznie przedmiot; pozwala to oddzielić oceniane cele (MS między grupami, BMS) i uzyskać oszacowanie terminu błędu (WMS)
model dwukierunkowy, który uwzględnia podmiot + oceniającego + ich interakcję (gdy nie ma replikacji, ten ostatni termin zostanie pomieszany z resztami); pozwala to oszacować główny efekt oceniającego (JMS), który można uwzględnić, jeśli chcemy zastosować model efektów losowych (tj. dodamy go do całkowitej zmienności)

Nie trzeba patrzeć na test F, interesujące są tylko państwa członkowskie.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Teraz możemy złożyć różne elementy w rozszerzonym Stole ANOVA, który wygląda jak ten pokazany poniżej (jest to Tabela 3 w pracy Shrout i Fleiss):

_{(źródło: mathurl.com )}

gdzie pierwsze dwa rzędy pochodzą z modelu jednokierunkowego, podczas gdy dwa następne pochodzą z dwustronnej ANOVA.

Łatwo jest sprawdzić wszystkie formuły w artykule Shrout i Fleiss, a my mamy wszystko, czego potrzebujemy, aby oszacować wiarygodność pojedynczej oceny . Co z wiarygodnością średniej z wielu ocen (która często jest wielkością zainteresowania badaniami między oceniającymi )? Po Hays i Revicki (2005) można go uzyskać z powyższego rozkładu po prostu zmieniając całkowitą stwardnienie rozsiane rozważane w mianowniku, z wyjątkiem dwukierunkowego modelu efektów losowych, dla którego musimy przepisać stosunek stwardnienia rozsianego.

W przypadku ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) ogólną niezawodność oblicza się jako (BMS-WMS) /BMS=0.443.
W przypadku ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) ogólna niezawodność wynosi (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
Wreszcie dla ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) mamy wiarygodność (BMS-EMS) /BMS=0.909.

Ponownie stwierdzamy, że ogólna niezawodność jest wyższa, gdy rozważa się wskaźniki jako efekty stałe.

Bibliografia

Shrout, PE and Fleiss, JL (1979). Korelacje międzyklasowe: Wykorzystuje się do oceny wiarygodności oceny . Biuletyn Psychologiczny , 86, 420-3428.
Hays, RD i Revicki, D. (2005). Wiarygodność i ważność (w tym szybkość reakcji). In Fayers, P. and Hays, RD (red.), Assessing Quality of Life in Clinical Trials , 2nd ed., Str. 25-39. Oxford University Press.

— chl
źródło