PYTANIE:
Mam dane binarne dotyczące pytań egzaminacyjnych (poprawne / niepoprawne). Niektóre osoby mogły mieć wcześniejszy dostęp do podzbioru pytań i prawidłowych odpowiedzi. Nie wiem kto, ilu lub który. Gdyby nie było oszukiwania, załóżmy, że modelowałbym prawdopodobieństwo poprawnej odpowiedzi dla elementu jako , gdzie reprezentuje trudność pytania, a to ukryta zdolność danej osoby. Jest to bardzo prosty model odpowiedzi na przedmiot, który można oszacować za pomocą funkcji takich jak ltm's rasch () w R. Oprócz oszacowań (gdzie indeksuje pojedyncze osoby) zmiennej utajonej, mam dostęp do osobnych oszacowań \ hat {q} _joo j j q j tej samej ukrytej zmiennej, która została uzyskana z innego zestawu danych, w którym oszukiwanie nie było możliwe.
Celem jest zidentyfikowanie osób, które prawdopodobnie oszukiwały oraz przedmiotów, o które oszukali. Jakie możesz zastosować metody? Oprócz nieprzetworzonych danych, , i są dostępne, chociaż pierwsze dwa będą miały pewne uprzedzenia z powodu oszukiwania. Idealnie byłoby, gdyby rozwiązanie miało postać probabilistycznego grupowania / klasyfikacji, chociaż nie jest to konieczne. Praktyczne pomysły są mile widziane, podobnie jak podejście formalne.
Do tej pory porównałem korelację wyników pytań dla par osób z wyższymi vs. niższymi wynikami (gdzie jest przybliżony wskaźnik prawdopodobieństwa, że oszukali). Na przykład posortowałem osoby według a następnie narysowałem korelację kolejnych par wyników pytań poszczególnych osób. Próbowałem również wykreślić średnią korelację wyników dla osób, których wartości \ hat {q} _j - \ hat {z} _j były większe niż kwantyl z , jako funkcja . Brak oczywistych wzorów dla obu podejść.
AKTUALIZACJA:
W końcu połączyłem pomysły z @SheldonCooper i pomocny artykuł Freakonomics, na który skierował mnie @whuber. Mile widziane inne pomysły / komentarze / krytyka.
Niech będzie wynikiem binarnym osoby dla pytania . Oszacuj logit modelu reakcji na przedmiot (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j,
Prawdopodobieństwo zaobserwowanego wyniku , zależne od łatwości przedmiotu i umiejętności osoby, można zapisać gdzie jest przewidywanym prawdopodobieństwem poprawna odpowiedź, a jest odwrotnym . Następnie, cech przedmiotu i osoby, wspólne prawdopodobieństwo, że osoba ma obserwacje wynosi i podobnie, wspólne prawdopodobieństwo, że pozycja ma obserwacje p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) , P i j ( ^ β i , ^ q j ) = i l o g i t ( ^
Dodatkowym krokiem, który próbowałem, jest pobranie r% najmniej prawdopodobnych osób (tj. Osób o najniższym r% posortowanych wartości p_j), obliczenie średniej odległości między ich zaobserwowanymi wynikami x_j (co powinno być skorelowane dla osób o niskim r, które są możliwymi oszustami) i wykreśl dla r = 0,001, 0,002, ..., 1.000. Średnia odległość wzrasta dla r = 0,001 do r = 0,025, osiąga maksimum, a następnie powoli spada do minimum przy r = 1. Nie do końca to, na co liczyłem.