Statystyka Kappa ( ) jest wskaźnikiem jakości, który porównuje zaobserwowaną zgodność między 2 wskaźnikami w skali nominalnej lub porządkowej z poziomem zgodności oczekiwanym przez sam przypadek (tak, jakby wskaźniki zmieniły się). Istnieją rozszerzenia dla przypadku wielu wskaźników (2, s. 284–291). W przypadku danych porządkowych można użyć ważonego κ , który zasadniczo odczytuje jak zwykle κ z elementami o przekątnej przyczyniającymi się do pomiaru zgodności. Fleiss (3) przedstawił wytyczne do interpretacji wartości κ , ale są to jedynie podstawowe zasady.κ κκκ
κ
κ
kWn>7k(n−1)W∼χ2(n−1)nkFρWStatystyka: można obliczyć bezpośrednio ze średniej korelacji Spearmana w parach (tylko dla niezwiązanych obserwacji).W
Korelację polichoryczną (dane porządkowe) można również wykorzystać jako miarę porozumienia między osobami oceniającymi . Rzeczywiście pozwalają
- oszacować, jaka byłaby korelacja, gdyby oceny były dokonywane w ciągłej skali,
- test marginalnej jednorodności między wskaźnikami.
W rzeczywistości można wykazać, że jest to szczególny przypadek modelowania cech ukrytych, który pozwala rozluźnić założenia dystrybucyjne (4).
Jeśli chodzi o pomiary ciągłe (lub tak zakładane), ICC, która określa ilościowo wariancję przypisywaną wariancji między podmiotami, jest w porządku. Ponownie zalecane są elementy CI z bootstrapem. Jak powiedział @ars, istnieją zasadniczo dwie wersje - zgodność i spójność - które mają zastosowanie w przypadku badań zgodności (5), i które różnią się głównie sposobem obliczania sumy kwadratów; „spójność” ICC jest ogólnie szacowana bez uwzględnienia interakcji pozycja x oceniający. Struktura ANOVA jest przydatna w przypadku konkretnego projektu bloku, w którym chce się zminimalizować liczbę ocen ( BIBD ) - w rzeczywistości była to jedna z pierwotnych motywacji pracy Fleiss. Jest to również najlepsza droga dla wielu mierników. Naturalne rozszerzenie tego podejścia nazywa się teorią generalizowalności . Krótki przegląd znajduje się w Rater Models: An Introduction , w przeciwnym razie standardowym odniesieniem jest książka Brennan, recenzowana w Psychometrika 2006 71 (3) .
Co do ogólnych odniesień, polecam rozdział 3 statystyk w psychiatrii od Grahama Dunna (Hodder Arnold, 2000). Aby uzyskać pełniejszą analizę badań niezawodności, najlepszym odniesieniem do tej pory jest
Dunn, G (2004). Projektowanie i analiza badań niezawodności . Arnold. Zobacz recenzję w International Journal of Epidemiology .
Dobre wprowadzenie online jest dostępne na stronie internetowej Johna Uebersaxa, Intraclass Correlation and Related Methods ; zawiera omówienie zalet i wad podejścia ICC, szczególnie w odniesieniu do skal porządkowych.
Odpowiednie pakiety R do dwukierunkowej oceny (pomiary porządkowe lub ciągłe) znajdują się w widoku zadań psychometrii ; Zazwyczaj używam pakietów psy , psych lub irrit . Jest też pakiet zgody , ale nigdy go nie użyłem. Aby poradzić sobie z więcej niż dwoma miernikami, pakiet lme4 jest dobrym rozwiązaniem, ponieważ pozwala łatwo włączyć losowe efekty, ale większość projektów niezawodności można analizować za pomocą, aov()ponieważ musimy tylko oszacować komponenty wariancji.
Referencje
- J Cohen. Ważona kappa: Nominalne porozumienie dotyczące skali z zastrzeżeniem niezgodności skal częściowego kredytu. Psychological Bulletin , 70 , 213–220, 1968.
- S Siegel i Jr N. John Castellan. Statystyka nieparametryczna dla nauk behawioralnych . McGraw-Hill, drugie wydanie, 1988.
- JL Fleiss. Metody statystyczne dla stawek i proporcji . New York: Wiley, drugie wydanie, 1981.
- JS Uebersax. Współczynniki korelacji tetrachorycznej i polichorycznej . Metody statystyczne strony internetowej Rater Agreement, 2006. Dostępne pod adresem: http://john-uebersax.com/stat/tetra.htm . Dostęp 24 lutego 2010 r.
- PE Shrout i JL Fleiss. Korelacja międzyklasowa: Wykorzystuje się do oceny wiarygodności oceny . Psychological Bulletin , 86 , 420–428, 1979.
- MG Kendall i B. Babington Smith. Problem rankingu m . Annals of Mathematical Statistics , 10 , 275–287, 1939.
- P Legendre. Współczynnik zgodności . W NJ Salkind, redaktor, Encyclopedia of Research Design . Publikacje SAGE, 2010.
- JL Fleiss. Równoważność ważonej kappa i współczynnik korelacji wewnątrzklasowej jako miary niezawodności . Educational and Psychological Measurement , 33 , 613-619, 1973.