Ta odpowiedź omówi możliwe modele z perspektywy pomiaru , w których otrzymujemy zestaw obserwowanych (oczywistych) powiązanych ze sobą zmiennych lub miar, których zakłada się, że wspólna wariancja mierzy dobrze zidentyfikowaną, ale nieobserwowalną konstrukcję (ogólnie, w sposób refleksyjny sposób), który będzie uważany za zmienną ukrytą . Jeśli nie znasz modelu pomiaru cech utajonych, poleciłbym następujące dwa artykuły: Atak psychometrów Denny'ego Borsboooma i Utajone modelowanie zmiennych: ankieta Andersa Skrondala i Sophii Rabe-Hesketh. Najpierw wykonam niewielką dygresję za pomocą wskaźników binarnych, zanim zajmę się przedmiotami o wielu kategoriach odpowiedzi.
Jednym ze sposobów przekształcania danych z poziomu porządkowego na skalę przedziałów jest użycie pewnego rodzaju modelu odpowiedzi przedmiotowej . Dobrze znanym przykładem jest model Rascha , który rozszerza ideę równoległego modelu testowego od klasycznej teorii testów do radzenia sobie z pozycjami binarnymipoprzez uogólniony (z łączem logit) model liniowy z mieszanym efektem (w niektórych „nowoczesnych” implementacjach oprogramowania), w którym prawdopodobieństwo zatwierdzenia danego przedmiotu jest funkcją „trudności przedmiotu” i „zdolności osoby” (przy założeniu, że nie ma interakcja między umiejscowieniem mierzonej cechy utajonej a lokalizacją przedmiotu na tej samej skali logitów - którą można uchwycić za pomocą dodatkowego parametru dyskryminacji przedmiotów, lub interakcja z cechami charakterystycznymi dla poszczególnych osób - co nazywa się funkcjonowaniem różnicowym przedmiotów ). Zakłada się, że konstrukt bazowy jest jednowymiarowy, a logika modelu Rascha polega na tym, że respondent ma pewną „ilość konstruktu” - porozmawiajmy o odpowiedzialności podmiotu (jego / jej „zdolności”),θθ, podobnie jak każdy element definiujący ten konstrukt (ich „trudność”). Interesująca jest różnica między lokalizacją respondenta a lokalizacją przedmiotu w skali pomiarowej . Aby podać konkretny przykład, rozważ następujące pytanie: „Trudno mi było skupić się na czymkolwiek innym niż mój niepokój” (tak / nie). Osoba cierpiąca na zaburzenia lękowe jest bardziej skłonna odpowiedzieć pozytywnie na to pytanie w porównaniu z przypadkową osobą pobraną z populacji ogólnej i niemającą w przeszłości depresji lub zaburzeń związanych z lękiem.θ
Ilustrację 29 krzywych odpowiedzi na pozyskanie z wielkoskalowego badania w USA, którego celem jest zbudowanie skalibrowanego banku pozycji oceniającego zaburzenia związane z lękiem (1,2), pokazano poniżej. Wielkość próbki wynosi ; eksploracyjna analiza czynnikowa potwierdziła jednowymiarowość skali (z pierwszą wartością własną znacznie powyżej drugiej wartości własnej (o 17-krotną wartość) oraz niewiarygodną drugą oś czynnika (wartość własna powyżej 1), co potwierdzono analizą równoległą), a ta skala pokazuje wiarygodność indeks w dopuszczalnym zakresie, oceniany przez alfa Cronbacha ( , z 95% CI bootstrapα = 0,971 [ 0,967 ; 0,975 ]N.= 766α = 0,971[ 0,967 ; 0,975 ]). Początkowo zaproponowano pięć kategorii odpowiedzi (1 = „Nigdy”, 2 = „Rzadko”, 3 = „Czasami”, 4 = „Często” i 5 = „Zawsze”) dla każdego elementu. Rozważymy tutaj tylko odpowiedzi z oceną binarną.
(W tym przypadku odpowiedzi na pozycje typu Likerta zostały zakodowane jako odpowiedzi binarne (1/2 = 0, 3-5 = 1) i uważamy, że każdy element jest jednakowo dyskryminujący dla poszczególnych osób, stąd równoległość między nachyleniami krzywej przedmiotów (Rasch Model).)
Jak widać, ludzie znajdujący się po prawej stronie osi , która odzwierciedla utajoną cechę (lęk), którzy, jak się uważa, wyrażają więcej tej cechy, chętniej odpowiedzą pozytywnie na pytania typu „Czułem się przerażony” (przerażający ) lub „Miałem nagłe poczucie paniki” (panika) niż osoby znajdujące się po lewej stronie (normalna populacja, mało prawdopodobne, aby uznać ją za przypadek); z drugiej strony nie jest mało prawdopodobne, że ktoś z ogólnej populacji zgłosi problem z zasypianiem (spaniem): dla kogoś znajdującego się w średnim zasięgu utajonej cechy, powiedzmy 0 logit, jego / jej prawdopodobieństwo zdobycia 3 lub więcej wynosi około 0,5 (co jest trudnością przedmiotu).x
Dla polytomous przedmiotów z zamówionych kategorii, istnieje kilka możliwości: do częściowego modelu kredytowego , w modelu skali ratingowej , lub stopniowanie modelu odpowiedzi , by wymienić tylko kilka, które są najczęściej wykorzystywane w badaniach stosowanych. Pierwsze dwa należą do tak zwanej „rodziny Rasch” modeli IRT i mają następujące właściwości: (a) monotoniczność funkcji prawdopodobieństwa odpowiedzi (krzywa odpowiedzi pozycja / kategoria), (b) wystarczalność całkowitego wyniku indywidualnego (z utajonym parametr uznany za stały), (c) lokalna niezależność, co oznacza, że reakcje na elementy są niezależne, uwarunkowane utajoną cechą oraz (d) brak różnicowego funkcjonowania elementu co oznacza, że w zależności od ukrytej cechy odpowiedzi są niezależne od zewnętrznych zmiennych specyficznych dla danej osoby (np. płeć, wiek, pochodzenie etniczne, SES).
Rozszerzając poprzedni przykład na przypadek, w którym pięć kategorii odpowiedzi jest skutecznie uwzględnionych, pacjent będzie miał większe prawdopodobieństwo wyboru kategorii odpowiedzi od 3 do 5, w porównaniu z osobą, z której pobrano próbkę z populacji ogólnej, bez jakiegokolwiek wcześniejszego wystąpienia zaburzeń związanych z lękiem. W porównaniu z opisanym powyżej modelowaniem dychotomii, modele te uwzględniają albo kumulatywny (np. Szanse na odpowiedź 3 vs 2 lub mniej), albo próg przyległej kategorii (szanse na odpowiedź 3 vs 2), co jest również omówione w Categorical Agresti Analiza danych(rozdział 12). Główna różnica między wyżej wymienionymi modelami polega na sposobie, w jaki obsługiwane są przejścia z jednej kategorii odpowiedzi do drugiej: model częściowego uznania nie zakłada, że różnica między daną lokalizacją progową a średnią lokalizacji progowej cechy ukrytej jest równa lub jednolite we wszystkich pozycjach, w przeciwieństwie do modelu skali ocen. Inną subtelną różnicą między tymi modelami jest to, że niektóre z nich (takie jak nieograniczona stopniowana odpowiedź lub model częściowego zaliczenia) pozwalają na nierówne parametry dyskryminacji między pozycjami. Aby uzyskać więcej informacji, zobacz Stosowanie modelowania teorii odpowiedzi na pytania do oceny właściwości pozycji i skali kwestionariusza , autorstwa Reeve i Fayers, lub Podstawa teorii odpowiedzi na pytanie , autorstwa Franka B. Bakera.
Ponieważ w poprzednim przypadku omawialiśmy interpretację krzywych prawdopodobieństwa odpowiedzi dla pozycji dychotomicznie punktowanych, spójrzmy na krzywe odpowiedzi elementu uzyskane z modelu stopniowanej odpowiedzi, podkreślając te same elementy docelowe:
(Nieograniczony model stopniowanej odpowiedzi, umożliwiający nierówną dyskryminację między elementami).
Tutaj na uwagę zasługują następujące obserwacje:
- Kategorie odpowiedzi dla „śpiącego” elementu są mniej dyskryminujące niż, powiedzmy, te związane z „fantastycznym”: w przypadku „spania” dla dwóch osób znajdujących się w dwóch skrajnych odstępach na utajonym Cecha (w jednostkach logit), ich prawdopodobieństwo wyboru czwartej odpowiedzi („ często miał trudności ze snem”) wynosi od ok. Od 0,35 do 0,4; w przypadku „wspaniałego” prawdopodobieństwo to wynosi od mniej niż 0,1 do około 0,25 (przerywana niebieska linia). Jeśli chcesz rozróżnić między dwoma pacjentami wykazującymi oznaki niepokoju, ten drugi element jest bardziej pouczający.[ 2 ; 2,5 ]
- Istnieje ogólna zmiana, od lewej do prawej, między pozycjami oceniającymi jakość snu a tymi oceniającymi cięższe warunki, chociaż zaburzenia snu nie są rzadkie. Można się tego spodziewać: w końcu nawet ludzie w ogólnej populacji mogą mieć pewne trudności z zasypianiem, niezależnie od ich stanu zdrowia, a osoby poważnie przygnębione lub niespokojne mogą mieć takie problemy. Jednak „normalne osoby” (jeśli miałyby to jakiekolwiek znaczenie) raczej nie wykażą pewnych oznak zaburzenia panicznego (prawdopodobieństwo, że wybiorą najwyższą kategorię odpowiedzi, wynosi zero dla osób znajdujących się w zakresie pośrednim lub większym utajonej cechy, [ 0; 1]).
W obu przypadkach omówionych powyżej ta skala która odzwierciedla indywidualną odpowiedzialność za zakładaną cechę ukrytą, ma właściwość skali interwałowejθ .
Oprócz tego, że są uważane za prawdziwe modele pomiarowe , tym, co czyni modele Rascha atrakcyjnymi, jest to, że wyniki sumaryczne, jako wystarczająca statystyka , mogą być użyte jako surogaty utajonych wyników. Co więcej, właściwość wystarczalności z łatwością implikuje rozdzielność parametrów modelu (osób i przedmiotów) (w przypadku elementów polimorficznych nie należy zapominać, że wszystko ma zastosowanie na poziomie kategorii odpowiedzi na przedmioty), stąd łączna addytywność.
Dobry przegląd modelu IRT hierarchii, z realizacji R jest dostępny w Mair and Hatzinger w artykule opublikowanym w Journal of Statistical Software : Rozszerzony Rasch Modelowanie: ERM pakiet dla stosowania modeli IRT w badania . Inne modele obejmują logarytmiczne modele liniowe , model nieparametryczny, taki jak model Mokkena lub modele graficzne .
Oprócz R nie znam implementacji Excela, ale w tym wątku zaproponowano kilka pakietów statystycznych: Jak rozpocząć stosowanie teorii odpowiedzi na pytania i jakiego oprogramowania użyć?
Na koniec, jeśli chcesz przestudiować relacje między zestawem elementów a zmienną odpowiedzi bez uciekania się do modelu pomiarowego, interesująca może być również pewna forma kwantyzacji zmiennej poprzez optymalne skalowanie . Oprócz implementacji R omówionych w tych wątkach, zaproponowano również rozwiązania SPSS w wątkach pokrewnych .
Bibliografia
- Pilkonis, P., Choi, S., Reise, S., Stover, A. and Riley, W. i in. (2011). Banki przedmiotów do pomiaru stresu emocjonalnego z systemu informacyjnego pomiaru wyników zgłaszanych przez pacjenta (PROMIS): Depresja, lęk i gniew . Ocena , 18 (3), 263–283.
- Choi, S., Gibbons, L. and Crane, P. (2011). lordif: Pakiet R do wykrywania różnicowego funkcjonowania elementu przy użyciu iteracyjnej hybrydowej regresji logistycznej porządkowej / Teorii Reakcji na Przedmiot i symulacji Monte Carlo . Journal of Statistics Software , 39 (8).