Oto jedna z możliwości.
Ocenianie wyników nauczycieli było tradycyjnie trudne. Jedną z części tej trudności jest to, że różni studenci mają różne poziomy zainteresowania danym przedmiotem. Jeśli dany uczeń otrzyma ocenę A, niekoniecznie oznacza to, że nauczanie było doskonałe - może to raczej oznaczać, że bardzo utalentowany i zainteresowany uczeń dołożył wszelkich starań, aby odnieść sukces nawet pomimo niskiej jakości nauczania. I odwrotnie, uczeń otrzymujący literę D niekoniecznie oznacza, że nauczanie było kiepskie - może raczej oznaczać, że bezinteresowny uczeń rzucił się pomimo najlepszych wysiłków nauczyciela, aby edukować i inspirować.
Trudność pogarsza fakt, że selekcja studentów (a zatem poziom zainteresowania studentów) nie jest losowa. Szkoły często kładą nacisk na jeden przedmiot (lub grupę przedmiotów) na inne. Na przykład szkoła może kłaść nacisk na przedmioty techniczne nad humanistyczne. Uczniowie w takich szkołach są prawdopodobnie tak zainteresowani kwestiami technicznymi, że dostaną pozytywną ocenę nawet z najgorszym nauczycielem. Tak więc część uczniów, którzy zaliczyli matematykę, nie jest dobrym miernikiem nauczania - oczekujemy, że dobrzy nauczyciele poradzą sobie znacznie lepiej niż uczniowie, którzy tak chętnie się uczą. Natomiast ci sami uczniowie mogą wcale nie być zainteresowani sztuką. Trudno byłoby oczekiwać nawet od najlepszego nauczyciela, że wszyscy uczniowie otrzymają literę A.
Inną trudnością jest to, że nie wszystkie sukcesy w danej klasie można przypisać bezpośrednio nauczycielowi tej klasy. Sukces może raczej wynikać z faktu, że szkoła (lub cały okręg) tworzy motywację i ramy do osiągnięcia.
Aby uwzględnić wszystkie te trudności, badacze stworzyli model oceniający „wartość dodaną” nauczyciela. Zasadniczo model uwzględnia wewnętrzne cechy każdego ucznia (ogólny poziom zainteresowania i powodzenia w nauce), a także wkład szkoły i dystryktu w sukces ucznia oraz przewiduje stopnie uczniów, których można by oczekiwać przy „przeciętnej” nauczanie w tym środowisku. Następnie model porównuje oceny rzeczywiste z przewidywanymi i na jego podstawie decyduje, czy nauczanie było odpowiednie, biorąc pod uwagę wszystkie inne względy, lepsze niż odpowiednie, czy gorsze. Chociaż model może wydawać się złożony matematyce, jest w rzeczywistości dość prosty i standardowy. Matematycy używają podobnych (a nawet bardziej skomplikowanych) modeli od dziesięcioleci.
Podsumowując, przypuszczenia pani Isaacson są prawidłowe. Mimo że 65 z jej 66 uczniów uzyskało biegłość w teście państwowym, osiągnęliby taki sam wynik, nawet gdyby ich nauczycielem był pies. Właściwy dobry nauczyciel umożliwiłby tym uczniom osiągnięcie nie tylko „biegłości”, ale w rzeczywistości „dobrych” wyników z tego samego testu.
W tym miejscu mógłbym wspomnieć o niektórych moich obawach dotyczących modelu. Na przykład twórcy modelu twierdzą, że rozwiązuje niektóre problemy z oceną jakości nauczania. Czy mam wystarczające powody, by im wierzyć? Okolice o niższych dochodach będą miały niższe oczekiwane wyniki „okręgowe” i „szkolne”. Powiedzmy, że sąsiedztwo będzie miało spodziewany wynik 2,5. Nauczyciel, który osiągnie średnio 3, otrzyma dobrą ocenę. Może to skłonić nauczycieli do dążenia do wyniku 3, a nie, powiedzmy, 4 lub 5. Innymi słowy, nauczyciele będą dążyć do mierności, a nie do doskonałości. Czy chcemy, żeby tak się stało? Wreszcie, mimo że model jest prosty matematycznie, działa on w sposób bardzo odmienny od działania ludzkiej intuicji. W rezultacie nie mamy oczywistego sposobu na sprawdzenie lub zakwestionowanie modelu ” decyzja. Niefortunny przykład pani Isaacson ilustruje, do czego może to prowadzić. Czy chcemy ślepo polegać na komputerze w czymś tak ważnym?
Zauważ, że jest to wyjaśnienie dla laika. Ominąłem tutaj kilka potencjalnie kontrowersyjnych kwestii. Na przykład nie chciałem powiedzieć, że okręgi szkolne o niskich dochodach powinny osiągać gorsze wyniki, ponieważ nie byłoby to dobre dla laika.
Przyjąłem również, że celem jest właściwie uzasadnienie modelu. Ale jestem całkiem pewien, że to nie był cel NYT. Tak więc moim zdaniem przynajmniej część powodów, dla których ich wyjaśnienie jest słabe, to celowe FUD.