Jak na formułę proroctwa Spearmana-Browna wpływają pytania o różnych trudnościach?


10

Jaki wpływ na wyniki formuły proroctwa Spearmana-Browna mają pytania testowe o różnych trudnościach lub oceniający, którzy są łatwymi lub trudnymi równiarkami. Jeden szanowany tekst mówi, że dotyczy to SB, ale nie podaje szczegółów. (Zobacz cytat poniżej.)

Guion, R. M (2011). Ocena, pomiary i przewidywanie decyzji kadrowych, wydanie drugie. Pg 477

„Niezawodność można zwiększyć, łącząc wskaźniki, stosując równanie Spearmana-Browna. ... Jeśli wiarygodność pojedynczej oceny wynosi .50, to wiarygodność dwóch, czterech lub sześciu równoległych ocen wyniesie około .67, .80 i odpowiednio .86 ”(Houston, Raymond i Svec, 1991, s. 409). Podoba mi się ten cytat, ponieważ słowo w przybliżeniu rozpoznaje, że szacunki statystyczne są „średnio” stwierdzeniami tego, czego można się spodziewać, jeśli wszystko pójdzie zgodnie z założeniami. Poza tym słowo operacyjne jest równoległe. Uśrednianie ocen (lub użycie Spearmana-Browna), jeśli jeden oceniający jest na przykład systematycznie łagodny, po prostu nie pasuje do założenia. Jeśli każdy z esejów jest oceniany przez dwa stopnie, jeden łagodniejszy od drugiego, problem polega na tym, że stosuje się dwa testy wielokrotnego wyboru o nierównej trudności (formy nierównoległe). Wyniki oparte na różnych (nierównych) formularzach testowych nie są porównywalne. Tak samo jest z mieszaniem łagodnych i trudnych wskaźników; wiarygodność połączonych ocen jest niepoprawnie oszacowana przez równanie Spearmana-Browna klasycznej teorii testów. Sprawy są gorsze, jeśli każdy sędzia definiuje konstrukt nieco inaczej. ”


1
Myślę, że problem z poszukiwaniem wiarygodnego źródła polega na tym, że odpowiedź pochodzi z teorii testów i jest to dość oczywiste, jeśli rozumiesz podstawową teorię, a zwłaszcza ograniczenia naszej zdolności do oceny wiarygodności. Dlatego Guion nie zadaje sobie trudu, aby to wyjaśnić. Ale i tak powodzenia w wyszukiwaniu - być może ktoś gdzieś zna lepsze wytłumaczenie.
Jeremy Miles

Odpowiedzi:


10

Chociaż czuję się trochę zakłopotany, zaprzeczając zarówno „szanowanemu tekstowi”, jak i innemu użytkownikowi CV, wydaje mi się, że na formułę Spearmana-Browna nie wpływają przedmioty o różnym stopniu trudności. Dla pewności formuła Spearmana-Browna zwykle wywodzi się z założenia, że ​​mamy równoległe przedmioty, co implikuje (między innymi), że przedmioty mają jednakową trudność. Ale okazuje się, że to założenie nie jest konieczne; można go rozluźnić, aby umożliwić nierówne trudności, a formuła Spearmana-Browna nadal będzie obowiązywać. Pokazuję to poniżej.


Przypomnijmy, że w klasycznej teorii testu przyjmuje się , że pomiar jest sumą składowej „wyniku rzeczywistego” i składowej błędu , to znaczy przy nieskorelowanym iZałożeniem równoległych elementów jest to, że wszystkie elementy mają takie same prawdziwe wyniki, różniące się tylko składowymi błędów, chociaż zakłada się, że mają one jednakową wariancję. Symbolami, dla każdej pary pozycji iT E X = T + E , T E X X T = T XTE

X=T+E,
TEXXT = T + c
T=Tvar(E)=var(E).
Zobaczmy, co się stanie, gdy rozluźnimy pierwsze założenie, tak że elementy mogą różnić się trudnościami, a następnie uzyskamy wiarygodność całkowitego wyniku testu na podstawie tych nowych założeń. W szczególności załóżmy, że prawdziwe wyniki mogą różnić się stałą addytywną, ale błędy wciąż mają tę samą wariancję. W symbolach Wszelkie różnice w poziomie trudności są rejestrowane przez stałą addytywną. Na przykład, jeśli , to wyniki na są zwykle wyższe niż wyniki na , więc jest „łatwiejsze” niż . Możemy to nazwać zasadniczo równoległymic > 0 X X X X
T=T+cvar(E)=var(E).
c>0XXXXelementy, analogicznie do założenia „istotnej równoważności tau”, która rozluźnia model równoważny tau w podobny sposób.

Teraz, aby uzyskać wiarygodność formy testowej takich przedmiotów. Rozważ test składający się z zasadniczo równoległych pozycji, których suma daje wynik testu. Wiarygodność jest z definicji stosunkiem prawdziwej wariancji punktacji do obserwowanej wariancji punktacji. Jeśli chodzi o niezawodność poszczególnych elementów, z definicji istotnego równoległości wynika, że ​​mają one tę samą niezawodność, którą oznaczamy za pomocą , z jest prawdziwą wariancją wyniku, a wariancją błędu. Aby uzyskać wiarygodność całkowitego wyniku testu, najpierw badamy wariancję całkowitego wyniku testu, który wynosi ρ = σ 2 T / ( σ 2 T + σ 2 E ) σ 2 T σ 2 E var ( k i = 1 T i + E i )kρ=σT2/(σT2+σE2)σT2σE2

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,

@JeremyMiles podnosi kilka interesujących i ważnych punktów na temat tego, co może się zdarzyć, gdy zwiększymy długość testu „w prawdziwym świecie”, ale przynajmniej zgodnie z wyidealizowanymi założeniami klasycznej teorii testów, różnice w trudnościach przedmiotów nie mają znaczenia dla wiarygodności formularz testowy (w jaskrawym kontraście z założeniami współczesnej teorii odpowiedzi na przedmiot!). Ta sama podstawowa linia rozumowania jest również powodem, dla którego zwykle mówimy o zasadniczej równoważności tau zamiast równoważności tau, ponieważ większość wszystkich ważnych wyników dotyczy bardziej łagodnego przypadku, w którym trudności przedmiotów (tj. Środki) mogą się różnić.


2
Tak, dobra uwaga. To, co napisałem, niekoniecznie jest ważne.
Jeremy Miles

5

Nie jest łatwo powiedzieć.

Po pierwsze, Spearman-Brown zakłada, że ​​elementy testowe (lub wskaźniki) są losowo próbkowane z populacji elementów testowych (lub wskaźniki). To nigdy tak naprawdę nie jest prawdziwe, szczególnie w przypadku testów, ponieważ tworzenie większej liczby przedmiotów jest trudne i prawdopodobne jest, że użyjesz lepszych przedmiotów na początek - wtedy przekonasz się, że test musi być dłuższy, więc będziesz „zeskrob beczkę” na przedmioty.

Po drugie, pozycje różnią się pod względem niezawodności, a rzetelność niekoniecznie jest związana z trudnością (jeśli to pomoże, pomyśl o nachyleniu i przecięciu krzywej charakterystycznej pozycji w teorii odpowiedzi na przedmiot). Jednak obliczenia wiarygodności (powiedzmy alfa Cronbacha, która jest formą korelacji wewnątrzklasowej) zakładają, że wszystkie wiarygodności są równe (zakładają zasadniczy model pomiaru równoważności tau - to znaczy, że wszystkie niestandardowe wiarygodności każdej pozycji są wszystkie równy). To prawie na pewno źle. Dodanie elementów może wzrosnąć, może spaść. To zależy od przedmiotów.

Oto inny sposób, aby o tym pomyśleć. Losowo wybieram próbkę z populacji i obliczam średnią i błąd standardowy średniej. Ta średnia będzie bezstronnym estymatorem średniej populacji. Następnie zwiększam rozmiar mojej próbki - oczekiwana wartość średniej jest taka sama, ale jest mało prawdopodobne, że faktycznie będzie taka sama - prawie na pewno wzrośnie lub spadnie. Tak jak spodziewam się, że standardowy błąd zmniejszy się, ale jego skurcz nie będzie spójny (i nie jest niemożliwe, aby standardowy błąd się powiększył).


Czy wzór SB podaje wartość minimalną, maksymalną lub jakąś wartość pośrednią dla oczekiwanej niezawodności? Ponadto, skoro wiarygodności obliczane są w kategoriach korelacji, dlaczego łatwe / trudne pozycje lub wskaźniki mają jakikolwiek wpływ?
Joel W.

Formuła SB zapewnia oczekiwaną niezawodność. Może być wyższa lub niższa. Jednym z problemów jest to, że istnieje więcej niż jeden sposób obliczenia wiarygodności, a przyjęte przez nich założenia rzadko są spełnione. Całość jest w pewnym sensie zakorzeniona w klasycznej teorii testów - teoria odpowiedzi na przedmiot jest bardziej nowoczesnym sposobem myślenia o pomiarze i ma sens przez większość czasu, na przykład wiarygodność testu nie jest taka sama dla każdego osoba w IRT.
Jeremy Miles

Jeśli pytanie jest bardzo trudne lub bardzo łatwe, może to wpłynąć na korelację. Np. „7 * 11” może być wiarygodnym pytaniem dla 3. klasy, ale dla studentów matematyki nie jest.
Jeremy Miles

1
<test musi być dłuższy, abyś „zeskrobał beczkę” na przedmioty. Najwyraźniej masz doświadczenie w prawdziwym świecie, przygotowując testy.
Joel W.
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.