Jak formalnie przetestować pod kątem „przerwy” w normalnym (lub innym) rozkładzie

10

Często pojawia się w naukach społecznych, że zmienne, które powinny być w jakiś sposób rozłożone, powiedzmy normalnie, kończą się nieciągłością w ich rozkładzie wokół pewnych punktów.

Na przykład, jeśli istnieją określone wartości graniczne, takie jak „przejście / porażka” i jeśli środki te podlegają zniekształceniu, może wystąpić nieciągłość w tym punkcie.

Jednym z wybitnych przykładów (cytowanych poniżej) jest to, że ustandaryzowane wyniki testów uczniów są zwykle rozkładane zasadniczo wszędzie, z wyjątkiem 60%, gdzie jest bardzo mała masa od 50-60% i nadmierna masa około 60-65%. Dzieje się tak w przypadkach, gdy nauczyciele oceniają własne egzaminy uczniów. Autorzy badają, czy nauczyciele naprawdę pomagają uczniom zdawać egzaminy.

Najbardziej przekonujący dowód bez wątpienia pochodzi z pokazania wykresów krzywej dzwonowej z dużą nieciągłością wokół różnych wartości odcięcia dla różnych testów. Jak byś jednak zajął się opracowaniem testu statystycznego? Próbowali interpolacji, a następnie porównując ułamek powyżej lub poniżej, a także test t dla ułamka 5 punktów powyżej i poniżej wartości granicznej. Choć rozsądne, są one ad hoc. Czy ktoś może wymyślić coś lepszego?

Link: Zasady i dyskrecja w ocenie uczniów i szkół: przypadek egzaminów Regents w Nowym Jorku http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

Rozkład wyników testu, z możliwością manipulacji na czarno, zwróć uwagę na gwałtowny spadek gęstości poniżej wartości granicznej i odpowiedni wzrost powyżej

normal-distribution pdf

— d_a_c321
źródło

Tylko dla wyjaśnienia - czy testujesz ogólny brak, np. Normalności, czy obecność nieciągłości we wcześniej określonym punkcie? Twój przykład pochodzi z tego drugiego, ale oczywiście posłuży Ci każdy test dopasowania, np. Anderson-Darling lub Shapiro-Wilk for Normality, chociaż przy wysoce specyficznej alternatywie możesz zbudować mocniejsze testy. Ponadto na powyższym wykresie widocznie masz próbkę tysięcy; czy to też byłoby typowe?

— jbowman

6

Ważne jest odpowiednie sformułowanie pytania i przyjęcie użytecznego koncepcyjnego modelu wyników.

Pytanie

Potencjalne progi oszustwa, takie jak 55, 65 i 85, są znane z góry niezależnie od danych: nie trzeba ich określać na podstawie danych. (Dlatego nie jest to ani problem wykrywania wartości odstających, ani problem dopasowania rozkładu). Test powinien ocenić dowody, że niektóre (nie wszystkie) wyniki tylko poniżej tych progów zostały przesunięte do tych progów (lub, być może, nieco powyżej tych progów).

Model koncepcyjny

W przypadku modelu koncepcyjnego kluczowe jest zrozumienie, że wyniki prawdopodobnie nie będą miały rozkładu normalnego (ani żadnego innego łatwo parametryzowanego rozkładu). Jest to całkowicie jasne w opublikowanym przykładzie i we wszystkich innych przykładach z oryginalnego raportu. Te wyniki stanowią mieszankę szkół; nawet jeśli dystrybucja w jakiejkolwiek szkole była normalna (nie jest), mieszanina prawdopodobnie nie będzie normalna.

Proste podejście akceptuje fakt, że istnieje prawdziwy rozkład wyników: ten, który zostałby zgłoszony, z wyjątkiem tej szczególnej formy oszukiwania. Jest to zatem ustawienie nieparametryczne. To wydaje się zbyt szerokie, ale istnieją pewne cechy rozkładu wyników, które można przewidzieć lub zaobserwować w rzeczywistych danych:

Liczby wyników , oraz będą ściśle skorelowane, . $i-1$ $i$ $i+1$ $1 \le i \le 99$
Będą różnice w tych liczbach wokół jakiejś wyidealizowanej gładkiej wersji rozkładu wyników. Te zmiany będą zwykle miały rozmiar równy pierwiastkowi kwadratowemu zliczenia.
$t$ $i\ge t$ $i$ $c(i)$ $\delta(t-i)c(i)$ $t(i)$
$\delta(i)$ $i=1,2,\ldots$

$t$ $\delta(1)=0$ $\delta$ $0$ $\delta(1)\gt 0$

Konstruowanie testu

$c'(i) = c(i+1)-c(i)$ $i$ $t$ $t$ $t+1$

c^{″} (i) = c^{'} (i + 1) - c^{'} (i) = c (i + 2) - 2 c (i + 1) + c (i),

$c''(i) = c'(i+1) - c'(i) = c(i+2) - 2c(i+1) + c(i),$

ponieważ przy połączy to duży ujemny spadek z ujemnym dużym dodatnim wzrostem , zwiększając w ten sposób efekt oszukiwania . $i = t-1$ $c(t+1)-c(t)$ $c(t) - c(t-1)$

Mam zamiar postawić hipotezę - i można to sprawdzić - że szeregowa korelacja zliczeń w pobliżu progu jest dość mała. (Korelacja szeregowa gdzie indziej nie ma znaczenia.) Oznacza to, że wariancja wynosi około $c''(t-1) = c(t+1) - 2c(t) + c(t-1)$

var (c^{″} (t - 1)) \approx var (c (t + 1)) + (- 2)^{2} var (c (t)) + var (c (t - 1)) .

$\text{var}(c''(t-1)) \approx \text{var}(c(t+1)) + (-2)^2\text{var}(c(t)) + \text{var}(c(t-1)).$

Wcześniej zasugerowałem, że dla wszystkich (coś, co można również sprawdzić). Skąd $\text{var}(c(i)) \approx c(i)$ $i$

z = c^{″} (t - 1) / \sqrt{c (t + 1) + 4 c (t) + c (t - 1)}

$z = c''(t-1) / \sqrt{c(t+1) + 4c(t) + c(t-1)}$

powinien mieć w przybliżeniu wariancję jednostkową. W przypadku populacji o dużej liczbie punktów (opublikowana wygląda na około 20 000) możemy również spodziewać się rozkładu normalnego . Ponieważ oczekujemy, że wysoce ujemna wartość będzie wskazywać na wzorzec oszukiwania, z łatwością uzyskujemy test rozmiaru : writing dla cdf standardowego rozkładu normalnego, odrzucamy hipotezę o braku oszustwa na progu gdy . $c''(t-1)$ $\alpha$ $\Phi$ $t$ $\Phi(z) \lt \alpha$

Przykład

Weźmy na przykład ten zestaw prawdziwych wyników testu, narysowanych na podstawie mieszaniny trzech rozkładów normalnych:

Histogram prawdziwych wyników

Do tego zastosowałem harmonogram oszustwa na progu zdefiniowanym przez . To skupia prawie wszystkie oszustwa na jednym lub dwóch wynikach bezpośrednio poniżej 65: $t=65$ $\delta(i) = \exp(-2 i)$

Histogram wyników po oszukiwaniu

Aby zrozumieć, co robi test, obliczyłem dla każdego wyniku, a nie tylko , i nakreśliłem go w stosunku do wyniku: $z$ $t$

Działka Z

(W rzeczywistości, aby uniknąć problemów z małymi liczbami, najpierw dodałem 1 do każdej liczby od 0 do 100, aby obliczyć mianownik .) $z$

Wahania w pobliżu 65 są widoczne, podobnie jak tendencja do wszystkich innych wahań wielkości około 1, zgodnie z założeniami tego testu. Statystyka testu wynosi przy odpowiedniej wartości p , co jest niezwykle znaczącym wynikiem. Porównanie wizualne z liczbą w samym pytaniu sugeruje, że ten test zwróciłby wartość p co najmniej tak małą. $z = -4.19$ $\Phi(z) = 0.0000136$

(Należy jednak pamiętać, że sam test nie wykorzystuje tego wykresu, który pokazano w celu zilustrowania pomysłów. Test sprawdza tylko wykreśloną wartość na progu, nigdzie indziej. Niemniej jednak dobrą praktyką byłoby tworzenie takiego wykresu aby potwierdzić, że statystyki testowe naprawdę wyodrębniają oczekiwane progi jako loci oszukiwania i że wszystkie inne wyniki nie podlegają takim zmianom. Tutaj widzimy, że przy wszystkich innych wynikach występują wahania między około -2 a 2, ale rzadko Zwróć też uwagę, że tak naprawdę nie trzeba obliczać odchylenia standardowego wartości na tym wykresie, aby obliczyć , unikając w ten sposób problemów związanych z efektami oszustwa zwiększającymi fluktuacje w wielu lokalizacjach.) $z$

Przy stosowaniu tego testu do wielu progów rozsądne byłoby dopasowanie wielkości testu Bonferroniego. Dobrym pomysłem byłoby również dodatkowe dostosowanie w przypadku zastosowania do wielu testów jednocześnie.

Ocena

Tej procedury nie można poważnie zaproponować do użycia, dopóki nie zostanie przetestowana na rzeczywistych danych. Dobrym sposobem byłoby zebranie ocen za jeden test i zastosowanie niekrytycznej oceny za test jako wartości progowej. Przypuszczalnie taki próg nie był przedmiotem tej formy oszukiwania. Symuluj oszustwo zgodnie z tym modelem koncepcyjnym i badaj symulowany rozkład . Wskazuje to (a) czy wartości p są dokładne i (b) moc testu do wskazania symulowanej formy oszukiwania. Rzeczywiście, można zastosować takie badanie symulacyjne na samych danych, które ocenia się, zapewniając niezwykle skuteczny sposób sprawdzenia, czy test jest odpowiedni i jaka jest jego rzeczywista moc. Ponieważ statystyki testowe $z$ $z$ jest tak proste, że symulacje będą wykonalne i szybkie do wykonania.

— Whuber
źródło

Ten test należy nieco dostosować, ponieważ oczekiwanie jest (w przybliżeniu) proporcjonalne do drugiej pochodnej rozkładu. W przykładzie, w którym próg znajduje się w pobliżu trybu, druga pochodna jest bliska zeru, więc nie ma problemu, ale dla progu w obszarze o wysokiej krzywiźnie (około 70 lub 90 w symulowanych danych) dostosowanie może być istotne. Jeśli będę miał szansę, odpowiednio zmodyfikuję tę odpowiedź.

z

$z$

— whuber

1

Sugeruję dopasowanie modelu, który wyraźnie przewiduje spadki, a następnie pokazanie, że znacznie lepiej pasuje do danych niż naiwny.

Potrzebujesz dwóch komponentów:

wstępny rozkład wyników,
procedura ponownego sprawdzania (uczciwego lub nie) wyników, gdy jeden mieści się poniżej progu.

Jednym z możliwych modeli pojedynczego progu (wartości ) jest: gdzie $t$

p_{f i n a l} (s) = p_{i n i t i a l} (s) - p_{i n i t i a l} (s) m (s \to t) + δ (s = t) \sum_{s^{'} = 0}^{t - 1} p_{i n i t i a l} (s^{'}) m (s^{'} \to t),

$p_{final}(s) = p_{initial}(s) - p_{initial}(s)m(s\rightarrow t)+ \delta(s=t)\sum_{s'=0}^{t-1}p_{initial}(s')m(s'\rightarrow t),$

$p_{final}(s)$ - rozkład prawdopodobieństwa wyniku końcowego,
$p_{initial}(s)$ - rozkład prawdopodobieństwa, jeśli nie ma progów,
$m(s'\rightarrow t)$ - prawdopodobieństwo manipulacji wynikiem w wyniku przejścia , $s'$ $t$
$\delta(s=t)$ to delta Kroneckera, tzn. 1 jeśli a 0 w przeciwnym razie. $s=t$

Zazwyczaj nie można dużo podnieść wyników. Podejrzewam, że rozkład wykładniczy , gdzie jest proporcją ponownie sprawdzonych (zmanipulowanych) wyników. $m(s'\rightarrow t)\approx a q^{t-s'}$ $a$

Jako rozkład początkowy możesz spróbować użyć rozkładu Poissona lub Gaussa. Oczywiście najlepiej byłoby mieć ten sam test, ale dla jednej grupy nauczycieli podać progi, a dla drugiej - bez progów.

Jeśli jest więcej progów, można zastosować tę samą formułę, ale z poprawkami dla każdego . Być może byłoby inne (np. Ponieważ różnica między zaliczeniem może być ważniejsza niż między dwoma zaliczonymi ocenami). $t_i$ $a_i$

Uwagi:

Czasami zdarzają się procedury sprawdzania sprawdzianów, jeśli są tuż poniżej oceny pozytywnej. Wtedy trudniej jest powiedzieć, które przypadki były uczciwe, a które nie.
$m(s\rightarrow t)$ z pewnością będzie zależeć od rodzaju testu. Na przykład, jeśli są otwarte pytania, niektóre odpowiedzi mogą być niejednoznaczne, a ich liczba zależy od (więc dla niskiej punktacji łatwiej jest podnieść wynik). Podczas gdy w teście wyboru zamkniętego nie powinno być żadnej różnicy w liczbie poprawnych i niepoprawnych odpowiedzi. $s$
Czasami „skorygowane” wyniki mogą być powyżej - zamiast idealizowanego można podłączyć coś innego. $t$ $\delta(s=t)$

— Piotr Migdal
źródło

Nie jestem pewien, czy odpowiada na moje dokładne pytanie. W takim przypadku nie możemy ponownie sprawdzić żadnych egzaminów. Obserwuje się jedynie rozkład wyników końcowych. Rozkład jest w większości normalny. Poza tym wokół pewnego punktu odcięcia, w którym podejrzewamy manipulację, występuje przerwa w normalnej krzywej. Jeśli null jest, że krzywa będzie „gładki” w tym punkcie, w jaki sposób możemy przetestować go przed alternatywnej hipotezy, gdzie jest „wyboista”

— d_a_c321

Myślę, że rozumiem to pytanie. Miałem na myśli: dopasować Gaussa (2 parametry) i obliczyć , a następnie dopasować (2 parametry dla Gaussa + (t + 1) parametry dla progów) i obliczyć jego . Obliczanie gładkości (np. W postaci )) może być interesujące, ale ważne jest sprawdzenie podstawowych założeń itp. ( np. w przypadku testów z dużą ilością pytań o 2 punkty może występować dość wysoka „początkowa” postrzępienie). Jeśli ktoś ma dostęp do surowych danych (czyli wszystkich odpowiedzi, nie tylko całkowitej punktacji), to nie jest jeszcze więcej miejsca do testowania ...

X^{2}

$X^2$

p_{f i n a l}

$p_{final}$

X^{2}

$X^2$

\sum_{s = 0}^{99} | p (s + 1) - p (s) |^{2}

$\sum_{s=0}^{99}|p(s+1)-p(s)|^2$

— Piotr Migdal

1

Podzielę ten problem na dwa podproblemy:

Oszacuj parametry rozkładu, aby dopasować je do danych
Wykonaj wykrywanie wartości odstających, używając dopasowanego rozkładu

Istnieją różne sposoby rozwiązania jednego z podproblemów.

Wydaje mi się, że rozkład Poissona pasowałby do danych, gdyby były one niezależnie i identycznie rozłożone (iid) , co oczywiście uważamy, że nie jest. Jeśli naiwnie spróbujemy oszacować parametry rozkładu, będziemy wypaczać wartości odstające. Dwa możliwe sposoby przezwyciężenia tego to użycie technik regresji silnej lub metody heurystycznej, takiej jak walidacja krzyżowa.

W przypadku wykrywania wartości odstających ponownie istnieje wiele podejść. Najprościej jest użyć przedziałów ufności z rozkładu, który dopasowaliśmy w etapie 1. Inne metody obejmują metody ładowania początkowego i podejścia Monte-Carlo.

Chociaż nie powie ci to, że w rozkładzie występuje „skok”, powie ci, czy jest więcej wartości odstających niż oczekiwano dla wielkości próby.

Bardziej złożonym podejściem byłoby zbudowanie różnych modeli danych, takich jak rozkłady złożone, i zastosowanie pewnego rodzaju metody porównywania modeli (AIC / BIC) w celu ustalenia, który z modeli najlepiej pasuje do danych. Jeśli jednak po prostu szukasz „odchylenia od oczekiwanego rozkładu”, wydaje się to przesadą.

— tdc
źródło