Zakładam, że zmienna „kategoryczna” faktycznie oznacza zmienną porządkową; w przeciwnym razie nie ma sensu traktować go jako ciągłego, chyba że jest to zmienna binarna (kodowana 0/1), jak wskazuje @Rob. Powiedziałbym wtedy, że problemem nie jest to, w jaki sposób traktujemy zmienną, chociaż do tej pory opracowano wiele modeli analizy danych kategorycznych - patrz np . Analiza uporządkowanych danych kategorycznych: przegląd i przegląd ostatnich zmiany z Liu i Agresti--, niż zakładamy podstawową skalę pomiaru. Moja odpowiedź skupi się na tym drugim punkcie, chociaż najpierw krótko omówię przypisanie wyników liczbowych do zmiennych kategorii lub poziomów.
Stosując proste numeryczne rekodowanie zmiennej porządkowej, zakładasz, że zmienna ma właściwości przedziałowe (w sensie klasyfikacji podanej przez Stevensa, 1946). Z punktu widzenia teorii pomiarów (w psychologii) może to być często zbyt mocne założenie, ale w przypadku badań podstawowych (tj. Gdy do wyrażenia opinii o codziennej czynności z wyraźnym sformułowaniem używany jest pojedynczy element) wszelkie wyniki monotoniczne powinny dawać porównywalne wyniki . Cochran (1954) już to zauważył
dowolny zestaw wyników daje prawidłowy
test, pod warunkiem że są one konstruowane bez konsultacji z wynikami eksperymentu. Jeśli zestaw wyników jest słaby, ponieważ źle zniekształca skalę numeryczną, która naprawdę leży u podstaw uporządkowanej klasyfikacji, test nie będzie wrażliwy. Wyniki powinny zatem zawierać najlepszy możliwy wgląd w sposób, w jaki skonstruowano i zastosowano klasyfikację. (str. 436)
(Wielkie podziękowania dla @whuber za przypomnienie mi o tym w jednym z jego komentarzy, który doprowadził mnie do ponownego przeczytania książki Agresti, z której pochodzi ten cytat.)
W rzeczywistości kilka testów domyślnie traktuje takie zmienne jak skale interwałowe: na przykład statystyka do testowania trendu liniowego (jako alternatywa dla prostej niezależności) opiera się na podejściu korelacyjnym ( , Agresti, 2002, s. 87).M 2 = ( n - 1 ) r 2M.2)M.2)= ( n - 1 ) r2)
Cóż, możesz również zdecydować o przekodowaniu zmiennej w nieregularnym zakresie lub agregacji niektórych jej poziomów, ale w tym przypadku silna nierównowaga między zakodowanymi kategoriami może zniekształcać testy statystyczne, np. Wspomniany test trendu. Przyjemna alternatywa dla przypisywania odległości między kategoriami została już zaproponowana przez @Jeromy, a mianowicie optymalne skalowanie.
Omówmy teraz drugi punkt, który zrobiłem, dotyczący bazowego modelu pomiaru. Zawsze waham się przed dodaniem znacznika „psychometrii”, gdy widzę tego rodzaju pytanie, ponieważ konstrukcja i analiza skal pomiarowych są objęte teorią psychometryczną (schludny przegląd Nunnally i Bernstein, 1994). Nie będę się zastanawiał nad wszystkimi modelami, które faktycznie są kierowane w ramach teorii odpowiedzi na przedmiot , i uprzejmie odsyłam zainteresowanego czytelnika do samouczka I. Partcheva, Wizualnego przewodnika po teorii odpowiedzi na przedmiot, dla delikatnego wprowadzenia do IRT oraz do odniesień (5-8) wymienionych na końcu dla możliwych taksonomii IRT. Krótko mówiąc, chodzi o to, że zamiast przypisywać arbitralne odległości między zmiennymi kategoriami, zakładasz ukrytą skalę i szacujesz ich lokalizację na tym kontinuum, wraz z umiejętnościami i odpowiedzialnością poszczególnych osób. Prosty przykład jest wart notacji matematycznej, dlatego rozważmy następujący element (pochodzący z kwestionariusza jakości życia EORTC QLQ-C30 ):
Martwiłeś się?
który jest kodowany w czteropunktowej skali, od „wcale” do „bardzo”. Surowe wyniki są obliczane przez przypisanie wyniku od 1 do 4. Wyniki na przedmiotach należących do tej samej skali można następnie dodać razem, aby uzyskać tak zwany wynik skali, który oznacza pozycję danej osoby na podstawie konstruktu leżącego u podstaw (tutaj składnik zdrowia psychicznego ). Takie sumowane wyniki skali są bardzo praktyczne ze względu na łatwość punktacji (dla lekarza lub pielęgniarki), ale są niczym więcej jak dyskretną (uporządkowaną) skalą.
Możemy również uznać, że prawdopodobieństwo zatwierdzenia danej kategorii odpowiedzi jest zgodne z pewnym modelem logistycznym, jak opisano w samouczku I. Partcheva, o którym mowa powyżej. Zasadniczo chodzi o pewien rodzaj modelu progowego (który prowadzi do równoważnego sformułowania pod względem proporcjonalnych lub skumulowanych modeli szans) i modelujemy szanse na bycie w jednej kategorii odpowiedzi zamiast poprzedniej lub szanse na zdobycie wyniku powyżej pewna kategoria, zależna od położenia badanych na cechy ukrytej. Ponadto możemy narzucić, że kategorie odpowiedzi są równomiernie rozmieszczone w skali utajonej (jest to model Skali Oceny) - tak właśnie robimy, przypisując regularnie rozmieszczone wyniki liczbowe - lub nie (jest to model Częściowego Kredytu) .
Oczywiście nie dodajemy wiele do Klasycznej Teorii Testów, w której zmienne porządkowe są traktowane jak zmienne numeryczne. Wprowadzamy jednak model probabilistyczny, w którym zakładamy skalę ciągłą (z właściwościami przedziałów) i w którym można uwzględnić konkretne błędy pomiaru, i możemy wprowadzić te wyniki czynnikowe w dowolnym modelu regresji.
Bibliografia
- SS Stevens. Na temat teorii skal pomiarowych. Science , 103 : 677-680, 1946.
- WG Cochran. Niektóre metody wzmacniania wspólnych testów . Biometrics , 10 : 417-451, 1954.χ2
- J Nunnally i I Bernstein. Teoria psychometryczna . McGraw-Hill, 1994
- Alan Agresti. Analiza danych kategorycznych . Wiley, 1990.
- CR Rao i S Sinharay, redaktorzy. Handbook of Statistics, Vol. 26: Psychometria . Elsevier Science BV, Holandia, 2007.
- A Boomsma, MAJ van Duijn i TAB Snijders. Eseje na temat teorii odpowiedzi na przedmiot . Springer, 2001.
- D Thissen i L. Steinberg. Taksonomia modeli reakcji na pozycje. Psychometrika , 51 (4) : 567–577, 1986.
- P Mair i R. Hatzinger. Rozszerzony Rasch Modelowanie: ERM Pakiet do stosowania w modelach IRT R . Journal of Statistics Software , 20 (9) , 2007.