Jak przekształcić dane porządkowe z kwestionariusza w odpowiednie dane przedziałowe?

Czy istnieją jakieś proste metody przekształcania danych z poziomu porządkowego na poziom przedziałowy (podobnie jak w przypadku odwrotnej)? I wykonalne w Excelu lub SPSS?

Mając dane, powiedzmy: 10 pytań na poziomie porządkowym (powiedzmy skalę 0-5, gdzie 0 = „wcale”, 5 = „cały czas”), chcę je przekształcić, aby można je było traktować jako prawidłowe dane na poziomie przedziałów do celów testowania parametrycznego (rozkład normalny, testy nieparametryczne poza pytaniem).

Byłbym bardzo wdzięczny za odpowiedzi!

— Gil
źródło

Jak można mieć wartości 6, 7, 8, 9, 10 w skali 0-5, czy coś mi umknie?

— ttnphns

Co rozumiesz przez proste? Konwersja zmiennych kategorialnych na skale metryczne nie jest prostym zadaniem. Istnieje kilka ukrytych modeli zmiennych (takich jak modele IRT), które przy pewnych założeniach zachowują, pozwalają na to. Innym sposobem jest optymalne skalowanie. Ale do tego przypuszczam, że musisz chcieć robić rzeczy z R i zagłębić się w zaawansowane statystyki, takie jak ukryte modele zmiennych lub nieliniowe PCA. Czy to brzmi dobrze?

— Momo

Ta odpowiedź omówi możliwe modele z perspektywy pomiaru , w których otrzymujemy zestaw obserwowanych (oczywistych) powiązanych ze sobą zmiennych lub miar, których zakłada się, że wspólna wariancja mierzy dobrze zidentyfikowaną, ale nieobserwowalną konstrukcję (ogólnie, w sposób refleksyjny sposób), który będzie uważany za zmienną ukrytą . Jeśli nie znasz modelu pomiaru cech utajonych, poleciłbym następujące dwa artykuły: Atak psychometrów Denny'ego Borsboooma i Utajone modelowanie zmiennych: ankieta Andersa Skrondala i Sophii Rabe-Hesketh. Najpierw wykonam niewielką dygresję za pomocą wskaźników binarnych, zanim zajmę się przedmiotami o wielu kategoriach odpowiedzi.

Jednym ze sposobów przekształcania danych z poziomu porządkowego na skalę przedziałów jest użycie pewnego rodzaju modelu odpowiedzi przedmiotowej . Dobrze znanym przykładem jest model Rascha , który rozszerza ideę równoległego modelu testowego od klasycznej teorii testów do radzenia sobie z pozycjami binarnymipoprzez uogólniony (z łączem logit) model liniowy z mieszanym efektem (w niektórych „nowoczesnych” implementacjach oprogramowania), w którym prawdopodobieństwo zatwierdzenia danego przedmiotu jest funkcją „trudności przedmiotu” i „zdolności osoby” (przy założeniu, że nie ma interakcja między umiejscowieniem mierzonej cechy utajonej a lokalizacją przedmiotu na tej samej skali logitów - którą można uchwycić za pomocą dodatkowego parametru dyskryminacji przedmiotów, lub interakcja z cechami charakterystycznymi dla poszczególnych osób - co nazywa się funkcjonowaniem różnicowym przedmiotów ). Zakłada się, że konstrukt bazowy jest jednowymiarowy, a logika modelu Rascha polega na tym, że respondent ma pewną „ilość konstruktu” - porozmawiajmy o odpowiedzialności podmiotu (jego / jej „zdolności”), $\theta$ , podobnie jak każdy element definiujący ten konstrukt (ich „trudność”). Interesująca jest różnica między lokalizacją respondenta a lokalizacją przedmiotu w skali pomiarowej . Aby podać konkretny przykład, rozważ następujące pytanie: „Trudno mi było skupić się na czymkolwiek innym niż mój niepokój” (tak / nie). Osoba cierpiąca na zaburzenia lękowe jest bardziej skłonna odpowiedzieć pozytywnie na to pytanie w porównaniu z przypadkową osobą pobraną z populacji ogólnej i niemającą w przeszłości depresji lub zaburzeń związanych z lękiem. $\theta$

Ilustrację 29 krzywych odpowiedzi na pozyskanie z wielkoskalowego badania w USA, którego celem jest zbudowanie skalibrowanego banku pozycji oceniającego zaburzenia związane z lękiem ^(1,2), pokazano poniżej. Wielkość próbki wynosi ; eksploracyjna analiza czynnikowa potwierdziła jednowymiarowość skali (z pierwszą wartością własną znacznie powyżej drugiej wartości własnej (o 17-krotną wartość) oraz niewiarygodną drugą oś czynnika (wartość własna powyżej 1), co potwierdzono analizą równoległą), a ta skala pokazuje wiarygodność indeks w dopuszczalnym zakresie, oceniany przez alfa Cronbacha ( , z 95% CI bootstrap $N=766$ $\alpha=0.971$ $[0.967;0.975]$ ). Początkowo zaproponowano pięć kategorii odpowiedzi (1 = „Nigdy”, 2 = „Rzadko”, 3 = „Czasami”, 4 = „Często” i 5 = „Zawsze”) dla każdego elementu. Rozważymy tutaj tylko odpowiedzi z oceną binarną.

wprowadź opis zdjęcia tutaj
_{(W tym przypadku odpowiedzi na pozycje typu Likerta zostały zakodowane jako odpowiedzi binarne (1/2 = 0, 3-5 = 1) i uważamy, że każdy element jest jednakowo dyskryminujący dla poszczególnych osób, stąd równoległość między nachyleniami krzywej przedmiotów (Rasch Model).)}

Jak widać, ludzie znajdujący się po prawej stronie osi , która odzwierciedla utajoną cechę (lęk), którzy, jak się uważa, wyrażają więcej tej cechy, chętniej odpowiedzą pozytywnie na pytania typu „Czułem się przerażony” (przerażający ) lub „Miałem nagłe poczucie paniki” (panika) niż osoby znajdujące się po lewej stronie (normalna populacja, mało prawdopodobne, aby uznać ją za przypadek); z drugiej strony nie jest mało prawdopodobne, że ktoś z ogólnej populacji zgłosi problem z zasypianiem (spaniem): dla kogoś znajdującego się w średnim zasięgu utajonej cechy, powiedzmy 0 logit, jego / jej prawdopodobieństwo zdobycia 3 lub więcej wynosi około 0,5 (co jest trudnością przedmiotu). $x$

Dla polytomous przedmiotów z zamówionych kategorii, istnieje kilka możliwości: do częściowego modelu kredytowego , w modelu skali ratingowej , lub stopniowanie modelu odpowiedzi , by wymienić tylko kilka, które są najczęściej wykorzystywane w badaniach stosowanych. Pierwsze dwa należą do tak zwanej „rodziny Rasch” modeli IRT i mają następujące właściwości: (a) monotoniczność funkcji prawdopodobieństwa odpowiedzi (krzywa odpowiedzi pozycja / kategoria), (b) wystarczalność całkowitego wyniku indywidualnego (z utajonym parametr uznany za stały), (c) lokalna niezależność, co oznacza, że reakcje na elementy są niezależne, uwarunkowane utajoną cechą oraz (d) brak różnicowego funkcjonowania elementu co oznacza, że w zależności od ukrytej cechy odpowiedzi są niezależne od zewnętrznych zmiennych specyficznych dla danej osoby (np. płeć, wiek, pochodzenie etniczne, SES).

Rozszerzając poprzedni przykład na przypadek, w którym pięć kategorii odpowiedzi jest skutecznie uwzględnionych, pacjent będzie miał większe prawdopodobieństwo wyboru kategorii odpowiedzi od 3 do 5, w porównaniu z osobą, z której pobrano próbkę z populacji ogólnej, bez jakiegokolwiek wcześniejszego wystąpienia zaburzeń związanych z lękiem. W porównaniu z opisanym powyżej modelowaniem dychotomii, modele te uwzględniają albo kumulatywny (np. Szanse na odpowiedź 3 vs 2 lub mniej), albo próg przyległej kategorii (szanse na odpowiedź 3 vs 2), co jest również omówione w Categorical Agresti Analiza danych(rozdział 12). Główna różnica między wyżej wymienionymi modelami polega na sposobie, w jaki obsługiwane są przejścia z jednej kategorii odpowiedzi do drugiej: model częściowego uznania nie zakłada, że różnica między daną lokalizacją progową a średnią lokalizacji progowej cechy ukrytej jest równa lub jednolite we wszystkich pozycjach, w przeciwieństwie do modelu skali ocen. Inną subtelną różnicą między tymi modelami jest to, że niektóre z nich (takie jak nieograniczona stopniowana odpowiedź lub model częściowego zaliczenia) pozwalają na nierówne parametry dyskryminacji między pozycjami. Aby uzyskać więcej informacji, zobacz Stosowanie modelowania teorii odpowiedzi na pytania do oceny właściwości pozycji i skali kwestionariusza , autorstwa Reeve i Fayers, lub Podstawa teorii odpowiedzi na pytanie , autorstwa Franka B. Bakera.

Ponieważ w poprzednim przypadku omawialiśmy interpretację krzywych prawdopodobieństwa odpowiedzi dla pozycji dychotomicznie punktowanych, spójrzmy na krzywe odpowiedzi elementu uzyskane z modelu stopniowanej odpowiedzi, podkreślając te same elementy docelowe:

wprowadź opis zdjęcia tutaj
_{(Nieograniczony model stopniowanej odpowiedzi, umożliwiający nierówną dyskryminację między elementami).}

Tutaj na uwagę zasługują następujące obserwacje:

Kategorie odpowiedzi dla „śpiącego” elementu są mniej dyskryminujące niż, powiedzmy, te związane z „fantastycznym”: w przypadku „spania” dla dwóch osób znajdujących się w dwóch skrajnych odstępach na utajonym Cecha (w jednostkach logit), ich prawdopodobieństwo wyboru czwartej odpowiedzi („ często miał trudności ze snem”) wynosi od ok. Od 0,35 do 0,4; w przypadku „wspaniałego” prawdopodobieństwo to wynosi od mniej niż 0,1 do około 0,25 (przerywana niebieska linia). Jeśli chcesz rozróżnić między dwoma pacjentami wykazującymi oznaki niepokoju, ten drugi element jest bardziej pouczający. $[2;2.5]$
Istnieje ogólna zmiana, od lewej do prawej, między pozycjami oceniającymi jakość snu a tymi oceniającymi cięższe warunki, chociaż zaburzenia snu nie są rzadkie. Można się tego spodziewać: w końcu nawet ludzie w ogólnej populacji mogą mieć pewne trudności z zasypianiem, niezależnie od ich stanu zdrowia, a osoby poważnie przygnębione lub niespokojne mogą mieć takie problemy. Jednak „normalne osoby” (jeśli miałyby to jakiekolwiek znaczenie) raczej nie wykażą pewnych oznak zaburzenia panicznego (prawdopodobieństwo, że wybiorą najwyższą kategorię odpowiedzi, wynosi zero dla osób znajdujących się w zakresie pośrednim lub większym utajonej cechy, [ 0; 1]).

W obu przypadkach omówionych powyżej ta skala która odzwierciedla indywidualną odpowiedzialność za zakładaną cechę ukrytą, ma właściwość skali interwałowej $\theta$ .

Oprócz tego, że są uważane za prawdziwe modele pomiarowe , tym, co czyni modele Rascha atrakcyjnymi, jest to, że wyniki sumaryczne, jako wystarczająca statystyka , mogą być użyte jako surogaty utajonych wyników. Co więcej, właściwość wystarczalności z łatwością implikuje rozdzielność parametrów modelu (osób i przedmiotów) (w przypadku elementów polimorficznych nie należy zapominać, że wszystko ma zastosowanie na poziomie kategorii odpowiedzi na przedmioty), stąd łączna addytywność.

Dobry przegląd modelu IRT hierarchii, z realizacji R jest dostępny w Mair and Hatzinger w artykule opublikowanym w Journal of Statistical Software : Rozszerzony Rasch Modelowanie: ERM pakiet dla stosowania modeli IRT w badania . Inne modele obejmują logarytmiczne modele liniowe , model nieparametryczny, taki jak model Mokkena lub modele graficzne .

Oprócz R nie znam implementacji Excela, ale w tym wątku zaproponowano kilka pakietów statystycznych: Jak rozpocząć stosowanie teorii odpowiedzi na pytania i jakiego oprogramowania użyć?

Na koniec, jeśli chcesz przestudiować relacje między zestawem elementów a zmienną odpowiedzi bez uciekania się do modelu pomiarowego, interesująca może być również pewna forma kwantyzacji zmiennej poprzez optymalne skalowanie . Oprócz implementacji R omówionych w tych wątkach, zaproponowano również rozwiązania SPSS w wątkach pokrewnych .

Bibliografia

Pilkonis, P., Choi, S., Reise, S., Stover, A. and Riley, W. i in. (2011). Banki przedmiotów do pomiaru stresu emocjonalnego z systemu informacyjnego pomiaru wyników zgłaszanych przez pacjenta (PROMIS): Depresja, lęk i gniew . Ocena , 18 (3), 263–283.
Choi, S., Gibbons, L. and Crane, P. (2011). lordif: Pakiet R do wykrywania różnicowego funkcjonowania elementu przy użyciu iteracyjnej hybrydowej regresji logistycznej porządkowej / Teorii Reakcji na Przedmiot i symulacji Monte Carlo . Journal of Statistics Software , 39 (8).

— chl
źródło

@Momo Thanks. To ciekawe. Podczas odpowiadania (i ponownego edytowania tej odpowiedzi dzisiaj) nie zauważyłem twojego komentarza, który jest wart dużej +1. Prosimy o edycję mojej odpowiedzi tam, gdzie uważasz to za stosowne.

— chl

W swojej książce Analiza porządkowych danych kategorycznych Alan Agresti obejmuje kilka. Jedną z nich są zagadki, które omawiam na moim blogu

— Peter Flom - Przywróć Monikę
źródło

Czy możesz to trochę wyjaśnić? Na pierwszy rzut oka wydaje się, że jakakolwiek metoda, która twierdzi, że obiektywnie tłumaczy dane porządkowe na dane przedziałowe, byłaby magiczna, ponieważ wydaje się, że zawsze można podać niezbyt patologiczne kontrprzykłady, które „złamałyby” dowolną metodę, ale mogłem tego nie mieć Coś ważnego. Wydaje się również, że wymagałoby to uprzedniego pojęcia odległości między kategoriami porządkowymi - skąd to się bierze?

— Makro

Formuły znajdują się w poście na blogu, a pełna dyskusja znajduje się w książce Agresti, ale zasadniczo używa danych do tworzenia „średnich skumulowanych proporcji”, a następnie wykorzystuje je jako wyniki. Odległość wynika z proporcji w każdej reakcji, a nie z czegokolwiek w samych kategoriach.

— Peter Flom - Przywróć Monikę

+1. Ridits można łatwo wytłumaczyć jako ułamek mniejszy niż + (1/2) ułamek równy. Zatem jeśli 1, 2, 3, 4, 5 zaobserwowało ułamki lub prawdopodobieństwa 0,2, 0,4, 0,2, 0,1, 0,1, wówczas ridit z 1 wynosi 0,1; wartość 2 wynosi 0,4 itd. U jeźdźców traktuje się kategorie symetrycznie i jest mniej prawdopodobne, że ułamek mniej lub ułamek więcej będzie zawierać 0 lub 1, co jest często niezręczne.

— Nick Cox

Sama nazwa ridit została wymyślona przez Brossa (uwaga: potrzebne odniesienie), a rzekome wyjaśnienie to bełkot. Lepsze nazwy to funkcja średniej dystrybucji (Parzen 1993) i funkcja oceny Haberman (1996). Haberman, SJ 1996. Zaawansowane statystyki Tom I: Opis populacji . Nowy Jork: Springer. Parzen, E. 1993. Zmień wykres PP i funkcję kwantyli próbki ciągłej. Komunikacja w statystyce - teoria i metody 22: 3287-3304.

— Nick Cox,

Same jeźdźców można przepychać np. Przez normalne lub gaussowskie funkcje kwantylowe.

— Nick Cox,