12 nauczycieli uczy 600 uczniów. 12 kohort nauczanych przez tych nauczycieli mieści się w przedziale od 40 do 90 studentów i oczekujemy systematycznych różnic między kohortami, ponieważ absolwenci byli nieproporcjonalnie przydzieleni do poszczególnych kohort, a wcześniejsze doświadczenia wykazały, że średnia ocena absolwentów jest znacznie wyższa niż studenci studiów licencjackich.
Nauczyciele ocenili wszystkie artykuły ze swojej kohorty i przyznali im ocenę na 100.
Każdy nauczyciel spojrzał również na jeden losowo wybrany artykuł spośród trzech innych nauczycieli i przyznał mu ocenę na 100. Każdy nauczyciel ma trzy swoje prace oznaczone przez innego nauczyciela. W ten sposób oznaczono krzyżowo 36 różnych artykułów i nazywam to moimi danymi kalibracyjnymi.
Widzę też, ilu absolwentów było w każdej grupie.
Moje pytania to:
A) Jak mogę wykorzystać te dane kalibracyjne, aby dostosować oryginalne znaki, aby były bardziej sprawiedliwe? W szczególności chciałbym zmyć jak najwięcej efektów nadmiernie hojnych / niewdzięcznych twórców.
B) Jak odpowiednie są moje dane kalibracyjne? Nie miałem wyboru w raczej ograniczonych 36 punktach danych kalibracyjnych, które otrzymałem w tym kursie, i nie mam żadnej opcji, aby zebrać więcej w bieżącym semestrze. Jeśli jednak ta sytuacja się powtórzy, być może uda mi się zebrać więcej danych kalibracyjnych lub zgromadzić różne rodzaje danych kalibracyjnych.
To pytanie jest spokrewnione z popularnym pytaniem, które zadałem na: Jak najlepiej radzić sobie z efektami markerów o różnych poziomach hojności w ocenianiu prac studentów? . Jest to jednak inny kurs i nie jestem pewien, jak przydatne byłoby czytanie tego pytania jako tła dla obecnego, ponieważ głównym problemem było to, że nie miałem danych kalibracyjnych.
lm(score ~ gradStudent + ... + teacherID
powinno to zrobić.