Wiedząc, jak różnią równiarki jest dobra, ale nadal nie powiedzieć, co do zrekompensowania stopnie do . Dla uproszczenia wyobraź sobie tylko dwie równiarki. Nawet jeśli stwierdzimy, że równiarka 1 jest konsekwentnie o 5 ocen bardziej hojna niż równiarka 2, to nie mówi ci, co zrobić z dwoma uczniami, którzy mieli po 70 stopni, jeden według równiarki 1 i jeden według równiarki 2. Czy mówimy, że równiarka 2 był ostry znacznik i podwyższył wartość z 70 do 75, utrzymując 70 z niezmienioną równiarką 1? Czy też zakładamy, że równiarka 1 była nadmiernie łagodna, powalił swojego ucznia do 65 ocen i utrzymał 70 równiarki w niezmienionej formie? Czy idziemy na kompromis w połowie drogi - rozciągając się na twoją sprawę, na podstawie średniej z 11 równiarki? Liczą się oceny absolutne, więc znajomość względnej hojności nie wystarczy.
Twój wniosek może zależeć od tego, jak „obiektywny” czujesz, że powinna być ostateczna ocena absolutna. Jednym z modeli mentalnych byłoby zaproponowanie, aby każdy uczeń miał „poprawną” ocenę - tę, która byłaby przyznawana przez Asesora wiodącego, gdyby mieli czas na ocenę każdej pracy osobno - do której obserwowane oceny są przybliżone. W tym modelu obserwowane oceny muszą zostać zrekompensowane dla ich równiarki, aby zbliżyć ich jak najbliżej do niezauważonej „prawdziwej” oceny. Innym modelem może być to, że wszystkie oceny są subiektywne i staramy się przekształcić każdą obserwowaną ocenę w kierunku oceny, którą przewidujemy, że zostałaby przyznana, gdyby wszyscy równiarki wzięli pod uwagę ten sam papier i osiągnęli dla niego jakiś kompromis lub średnią ocenę. Uważam, że drugi model jest mniej przekonujący jako rozwiązanie, nawet jeśli przyznanie podmiotowości jest bardziej realistyczne. W środowisku edukacyjnym zwykle jest ktoś, kto ponosi ostateczną odpowiedzialność za ocenę, aby zapewnić, że uczniowie otrzymają „ocenę, na jaką zasługują”, ale ta wiodąca rola zasadniczo zwolniła odpowiedzialność od tych równiarki, których już znamy, wyraźnie się nie zgadzają. Odtąd zakładam, że tamjest jedną „poprawną” oceną, którą staramy się oszacować, ale jest to propozycja podlegająca zaskarżeniu i może nie pasować do twoich okoliczności.
Załóżmy, że uczniowie A, B, C i D, wszyscy w tej samej kohorcie, „powinni” otrzymać odpowiednio 75, 80, 85 i 90, ale ich hojny równiarka konsekwentnie notuje 5 punktów za wysoko. Obserwujemy 80, 85, 90 i 95 i powinniśmy odjąć 5, ale znalezienie liczby do odjęcia jest problematyczne. Nie można tego zrobić, porównując wyniki między kohortami, ponieważ spodziewamy się, że kohorty będą się różnić średnią zdolnością. Jedną z możliwości jest wykorzystanie wyników testu wielokrotnego wyboru, aby przewidzieć prawidłowe wyniki drugiego zadania, a następnie użyć tego do oceny różnic między poszczególnymi równiarkami i prawidłowymi ocenami. Ale wykonanie tej prognozy nie jest trywialne - jeśli spodziewasz się innej średniej i standardowego odchylenia między dwiema ocenami, nie możesz po prostu założyć, że oceny drugiego stopnia powinny pasować do pierwszego.
Ponadto uczniowie różnią się względnymi umiejętnościami przy ocenie wielokrotnego wyboru i ocenach pisemnych. Można to potraktować jako pewnego rodzaju efekt losowy, stanowiący element ocen „obserwowanych” i „prawdziwych” ucznia, ale nie uchwyconych przez ich „przewidywaną” ocenę. Jeśli kohorty różnią się systematycznie, a uczniowie w kohorcie zwykle są podobni, nie powinniśmy oczekiwać, że efekt ten wyrówna się do zera w każdej kohorcie. Jeśli obserwowane przez kohortę oceny wynoszą średnio +5 w porównaniu z przewidywanymi, jest to prawda niemożliwew celu ustalenia, czy wynika to z hojnej równiarki, kohorty szczególnie lepiej nadającej się do oceny pisemnej niż wielokrotnego wyboru, czy jakiejś kombinacji tych dwóch. W skrajnym przypadku kohorta może mieć nawet mniejszą zdolność przy drugiej ocenie, ale zrekompensowała to bardzo hojna równiarka - lub odwrotnie. Nie możesz tego rozdzielić. Jest zmieszany.
Wątpię również w adekwatność tak prostego modelu addytywnego dla twoich danych. Równiarki mogą różnić się od Głównego Asesora nie tylko zmianą lokalizacji, ale także rozprzestrzenianiem się - chociaż ponieważ kohorty prawdopodobnie różnią się jednorodnością, nie można po prostu sprawdzić rozkładu obserwowanych ocen w każdej grupie, aby to wykryć. Co więcej, większość rozkładu ma wysokie wyniki, dość zbliżone do teoretycznego maksimum 100. Spodziewam się tego wprowadzenia nieliniowości z powodu kompresji w pobliżu maksimum - bardzo hojny równiarka może dawać znaki A, B, C i D, takie jak 85, 90, 94, 97. Trudniej jest to odwrócić niż tylko odjęcie stałej. Co gorsza, możesz zobaczyć „obcinanie” - wyjątkowo hojna równiarka może klasyfikować je jako 90, 95, 100, 100. Jest to niemożliweodwrócić, a informacje o względnej wydajności C i D zostaną bezpowrotnie utracone.
Twoi równiarki zachowują się zupełnie inaczej. Czy jesteś pewien, że różnią się one jedynie ogólną hojnością, a nie hojnością w różnych elementach oceny? Może to być warte sprawdzenia, ponieważ może wprowadzić różne komplikacje - np. Obserwowana ocena dla B może być gorsza niż ocena A, mimo że B jest o 5 punktów „lepsza”, nawet jeśli oceny przyznane przez równiarki dla każdego elementu są funkcją monotonicznie rosnącą Głównego Asesora! Załóżmy, że ocena jest podzielona między Q1 (A powinien uzyskać wynik 30/50, B 45/50) i Q2 (A powinien uzyskać wynik 45/50, B 35/50). Wyobraź sobie, że równiarka jest bardzo łagodna w Q1 (obserwowane oceny: A 40/50, B 50/50), ale surowa w Q2 (obserwowana: A 42/50, 30/50), a następnie obserwujemy sumy 82 dla A i 80 dla B. Jeśli musisz wziąć pod uwagę wyniki składowe,
Prawdopodobnie jest to rozszerzony komentarz, a nie odpowiedź, w tym sensie, że nie proponuje konkretnego rozwiązania w pierwotnych granicach problemu. Ale jeśli twoje równiarki już obsługują około 55 papierów każdy, to czy jest tak źle, że muszą spojrzeć na pięć lub dziesięć więcej do celów kalibracji? Masz już dobry pomysł na umiejętności uczniów, więc możesz wybrać próbkę artykułów z różnych klas. Następnie możesz ocenić, czy musisz zrekompensować hojność równiarki w całym teście, czy w każdym elemencie, i czy to zrobić, dodając / odejmując stałą, czy coś bardziej zaawansowanego, np. Interpolację (np. Jeśli martwisz się liniowość blisko 100). Ale słowo ostrzeżenia dotyczące interpolacji: załóżmy, że główny oceniający oznaczy pięć przykładowych prac jako 70, 75, 80, 85 i 90, podczas gdy równiarka oznacza je jako 80, 88, 84, 93 i 96, więc istnieje pewna różnica zdań co do porządku. Prawdopodobnie chcesz zmapować obserwowane oceny od 96 do 100 w przedziale od 90 do 100, a obserwowane oceny od 93 do 96 w przedziale od 85 do 90. Ale oceny wymagają nieco więcej. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”.