Sprawdzanie poprawności kwestionariuszy

12

Projektuję kwestionariusz do mojej rozprawy. Jestem w trakcie sprawdzania poprawności kwestionariusza. Zastosowałem test alfa Cronbacha do początkowej grupy próbek. Odpowiedzi na kwestionariusz są w skali Likerta; może ktoś zasugerować jakiekolwiek dalsze testy, które należy zastosować, aby pomóc przetestować jego ważność. Nie jestem ekspertem w dziedzinie statystyki, więc każda pomoc byłaby mile widziana.

Przeprowadziłem pewne badania i wydaje się, że mogę przeprowadzić analizę Rasch, czy ktoś ma jakieś strony z bezpłatnym oprogramowaniem do zastosowania tego testu i porad?

— ttnphns
źródło

22

Zakładam, że twój kwestionariusz należy traktować jako jedną jednowymiarową skalę (w przeciwnym razie alfa Cronbacha nie ma większego sensu). Aby to sprawdzić, warto przeprowadzić eksploracyjną analizę czynnikową. Pozwoli ci również zobaczyć, jak przedmioty odnoszą się do wagi (tj. Poprzez ich ładunki).

Podstawowe kroki sprawdzania poprawności elementów i wagi powinny obejmować:

pełny raport na temat podstawowych statystyk pozycji (zasięg, kwartyle, tendencja centralna, efekty pułapu i podłogi, jeśli występują);
sprawdzanie wewnętrznej spójności, jak w przypadku alfa (najlepiej, daj 95% przedziały ufności, ponieważ jest ona zależna od próbki);
opisz swoją sumaryczną miarę (np. wynik całkowity lub średni, inaczej wynik skali) ze zwykłymi statystykami (histogram + gęstość, kwantyle itp.);
sprawdź odpowiedzi podsumowujące względem konkretnych zmiennych towarzyszących, które powinny być powiązane z konstrukcją, którą oceniasz - określa się to jako ważność znanej grupy;
jeśli to możliwe, sprawdź odpowiedzi podsumowujące w porównaniu ze znanymi instrumentami, które mogą mierzyć ten sam konstrukt ( ważność równoczesna lub zbieżna).

Jeśli twoja skala nie jest jednowymiarowa, należy wykonać te kroki dla każdej podskali, a także możesz rozłożyć macierz korelacji swoich czynników, aby ocenić strukturę czynników drugiego rzędu (lub zastosować modelowanie równań strukturalnych lub analizę czynnikową potwierdzającą lub cokolwiek chcesz). Można także ocenić trafność zbieżną i dyskryminacyjną, stosując skalowanie wielu cech lub modelowanie wielu metod (oparte na korelacjach międzymiastowych w obrębie i między skalami) lub, ponownie, SEM.

Powiedziałbym wtedy, że teoria odpowiedzi na przedmioty nie pomogłaby aż tak bardzo, chyba że jesteś zainteresowany skróceniem kwestionariusza, odfiltrowaniem niektórych elementów, które pokazują funkcjonowanie elementów różnicowych , lub skorzystaniem z testu w jakimś rodzaju komputerowego testu adaptacyjnego .

W każdym razie model Rasch jest przeznaczony do elementów binarnych. W przypadku zamówionych artykułów z polimomią najczęściej stosowanymi modelami są:

model stopniowanej odpowiedzi
model częściowego kredytu
model skali ratingowej.

Tylko dwie ostatnie pochodzą z rodziny Rasch i zasadniczo używają sąsiedniej formuły szans, z ideą, że badany musi „przekroczyć” kilka progów, aby zatwierdzić daną kategorię odpowiedzi. Różnica między tymi dwoma modelami polega na tym, że PCM nie narzuca, że progi są równomiernie rozmieszczone na skali theta ( zdolność lub lokalizacja obiektu na cechy utajonej). Model stopniowanej odpowiedzi opiera się na formule skumulowanych szans. Pamiętaj, że wszystkie te modele zakładają, że skala jest jednowymiarowa; tzn. istnieje tylko jedna ukryta cecha. Istnieją dodatkowe założenia, takie jak np. Lokalna niezależność (tj. Korelacje między odpowiedziami są wyjaśnione przez zmienność w skali umiejętności).

W każdym razie, można znaleźć bardzo kompletną dokumentację i użyteczne wskazówki do zastosowania metod psychometrycznych w badania w objętości 20 Journal of Statistical Software: Special Objętość: Psychometria w R . Zasadniczo, większość pakietów interesujący R, który używam w mojej codziennej pracy są: LTM , ERM , psych , psy . Inne są wymienione w widoku zadań CRAN Psychometrics . Inne interesujące zasoby to:

Uwagi na temat wykorzystania R. w eksperymentach psychologicznych i kwestionariuszach
Używanie R. do badań psychologicznych (W. Revelle pisze książkę o psychometrii w R. )
PsychoR projekt (nie koncentrować się na rozwoju i IRT skalę, choć).

Dobry przegląd zastosowania FA vs. IRT w rozwoju skali można znaleźć w Konstrukcji i ocenie skali w praktyce: Przegląd analizy czynnikowej w porównaniu do teorii teorii odpowiedzi na odpowiedź , przeprowadzony przez dziesięć Holt i wsp. (Psychological Test and Assessment Modeling (2010) 52 (3): 272–297).

— chl
źródło

11

Wspierając wszystko, co powiedziano powyżej, sugeruję wykonanie następujących czynności (w podobnej kolejności)

Po pierwsze, powinieneś używać R, jeśli nie, powinieneś zacząć. Poniższe porady dotyczą użycia R.

Zakładam, że w tym momencie obliczyłeś statystyki opisowe i in. Jeśli nie, pakiet psych ma funkcję opisującą (), która powinna dać ci potrzebne statystyki.

Zainstaluj pakiet psych z CRAN. Załaduj pakiet psych. Skorzystaj z fa.parallel rutyny na swoich danych. To powinno dać ci szereg czynników do zachowania. Następnie użyj VSS (procedura). Oblicza to kryterium MAP, które daje inną (zwykle) liczbę czynników do zachowania. Użyj formy analizy czynnikowej (nie głównych składników) i skośnego obrotu dla każdej liczby czynników. Jeśli twoje czynniki nie wydają się być skorelowane po skośnym obrocie, przełącz na obrót orhogonalny. Dzieje się tak, ponieważ strukturę ortogonalną można określić na podstawie skośnego obrotu, ale nie odwrotnie.

Wyodrębnij wszystkie rozwiązania czynnikowe między kryterium MAP a kryterium analizy równoległej. Ustal, który z nich ma najlepiej dopasowane wskaźniki i czy ma sens. Ten powinieneś zachować.

Na IRT, używając zarówno LTM, jak i eRm, sugerowałbym zacząć od eRm. Ma lepsze funkcje graficzne dla twoich modeli, a obsługa modeli polimorficznych jest większa. To powiedziawszy, pasuje tylko do modeli Rascha i często dane z psychologicznych kwestionariuszy nie spełniają ich wymagań. Powodzenia! Psychometria to świetna zabawa, bez wątpienia odkryjesz.

— richiemorrisroe
źródło

1

(+1) Brzmi nieźle. Dziękujemy za podzielenie się swoimi doświadczeniami z modelowaniem IRT i FA. Oprócz funkcji graficznych podejście warunkowe w eRm jest bardziej zgodne z początkowym myśleniem theta autorstwa Rascha (jako parametru stałego).

— chl

1

Walidacja kwestionariusza oznacza udowodnienie, że mierzy to, co powinien zmierzyć. Tak więc powiedziałbym, że w większości nie jest to pytanie statystyczne i nie można na nie odpowiedzieć bez znajomości konkretnych treści kwestionariusza. Cronbach alfa nie polega na trafności, ale na wewnętrznej spójności, która jest w pewnym stopniu związana z niezawodnością (lub można powiedzieć, że jest to wiarygodność, zakładając, że twoje pytania są wymienne - ale nie są).

Co więc możesz zrobić, aby zweryfikować swój kwestionariusz? Możesz zbadać, które procesy psychologiczne prowadzą do określonego wzorca wyników (np. Próbując wywołać takie wzorce za pomocą manipulacji eksperymentalnych lub stosując procedurę przemyślenia na głos [„analiza protokołu”, Ericsson i Simon, 1992]). Lub porównaj niektóre grupy kontrastowe (np. Pacjenci z grupą kontrolną), które powinny mieć różne wyniki. Lub skoreluj to z zewnętrznym kryterium, które powinno być skorelowane z cechą, którą mierzysz. Lub zmierzyć cechę za pomocą Psychoskopu (TM) i użyć tego jako kryterium.

Inne odpowiedzi są bardziej przydatne w wskazywaniu tego, co prawdopodobnie możesz realistycznie zrobić - nawet jeśli większość z nich, ściśle mówiąc, nie dotyczy ważności (z wyjątkiem odniesień Chi do „znanej ważności grupy” i zewnętrznej ważności).

Zobacz także Markus i Borsboom (2013), aby zapoznać się z nowoczesnym podejściem do ważności (ta i kilka innych przydatnych referencji na stronie głównej Borsboom ).

— lebatsnok
źródło