Równania w wiadomościach: Tłumaczenie modelu wielopoziomowego dla ogółu odbiorców

24

„New York Times” długo komentuje „oceniający wartość dodaną” system oceniania nauczycieli, który służy do przekazywania informacji nauczycielom z Nowego Jorku. Lede to równanie używane do obliczania wyników - przedstawione bez kontekstu. Retoryczna strategia wydaje się zastraszaniem za pomocą matematyki:

alternatywny tekst

Pełny tekst artykułu jest dostępny pod adresem : http://www.nytimes.com/2011/03/07/education/07winerip.html

Autor, Michael Winerip, twierdzi, że znaczenie tego równania jest poza zasięgiem kogokolwiek innego niż, um, Matt Damon, do zrozumienia, a tym bardziej przeciętnego nauczyciela:

„Obliczenie przewidywanego wyniku Pani Isaacson na poziomie 3,69 jest jeszcze bardziej zniechęcające. Opiera się ono na 32 zmiennych - w tym na tym, czy uczeń„ został zatrzymany w klasie przed rokiem przedtestowym ”i czy uczeń jest„ nowy w mieście w teście przedtestowym lub posttestowym rok."

Te 32 zmienne są podłączone do modelu statystycznego, który wygląda jak jedno z tych równań, które w „Good Will Hunting” tylko Matt Damon był w stanie rozwiązać.

Proces wydaje się przejrzysty, ale jest przejrzysty jak błoto, nawet dla inteligentnych świeckich, takich jak nauczyciele, dyrektorzy i - waham się powiedzieć - dziennikarze.

Pani Isaacson może mieć dwa stopnie Ivy League, ale jest zagubiona. „Nie mogę tego zrozumieć”, powiedziała.

Mówiąc wprost, najlepiej zgaduje pani Isaacson o tym, co departament próbuje jej powiedzieć: mimo że 65 z jej 66 uczniów uzyskało biegłość w teście państwowym, więcej jej 3s powinno być 4s.

Ale to tylko przypuszczenie. ”

Jak wytłumaczysz model laikowi? Do Twojej wiadomości, pełny raport techniczny znajduje się w:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Aktualizacja: Andrew Gelman oferuje swoje przemyślenia tutaj: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

regression multilevel-analysis statistics-in-media

— Andrzej
źródło

1

Warto przemyśleć myśli Gelmana i komentarze do jego postu. System punktacji prawie na pewno jest śmieciem: weź pod uwagę, że 95% CI dla tego nauczyciela wynosi .

[0 %, 52 %]

$[0\%,~52\%]$

— gung - Przywróć Monikę

12

Oto jedna z możliwości.

Ocenianie wyników nauczycieli było tradycyjnie trudne. Jedną z części tej trudności jest to, że różni studenci mają różne poziomy zainteresowania danym przedmiotem. Jeśli dany uczeń otrzyma ocenę A, niekoniecznie oznacza to, że nauczanie było doskonałe - może to raczej oznaczać, że bardzo utalentowany i zainteresowany uczeń dołożył wszelkich starań, aby odnieść sukces nawet pomimo niskiej jakości nauczania. I odwrotnie, uczeń otrzymujący literę D niekoniecznie oznacza, że nauczanie było kiepskie - może raczej oznaczać, że bezinteresowny uczeń rzucił się pomimo najlepszych wysiłków nauczyciela, aby edukować i inspirować.

Trudność pogarsza fakt, że selekcja studentów (a zatem poziom zainteresowania studentów) nie jest losowa. Szkoły często kładą nacisk na jeden przedmiot (lub grupę przedmiotów) na inne. Na przykład szkoła może kłaść nacisk na przedmioty techniczne nad humanistyczne. Uczniowie w takich szkołach są prawdopodobnie tak zainteresowani kwestiami technicznymi, że dostaną pozytywną ocenę nawet z najgorszym nauczycielem. Tak więc część uczniów, którzy zaliczyli matematykę, nie jest dobrym miernikiem nauczania - oczekujemy, że dobrzy nauczyciele poradzą sobie znacznie lepiej niż uczniowie, którzy tak chętnie się uczą. Natomiast ci sami uczniowie mogą wcale nie być zainteresowani sztuką. Trudno byłoby oczekiwać nawet od najlepszego nauczyciela, że wszyscy uczniowie otrzymają literę A.

Inną trudnością jest to, że nie wszystkie sukcesy w danej klasie można przypisać bezpośrednio nauczycielowi tej klasy. Sukces może raczej wynikać z faktu, że szkoła (lub cały okręg) tworzy motywację i ramy do osiągnięcia.

Aby uwzględnić wszystkie te trudności, badacze stworzyli model oceniający „wartość dodaną” nauczyciela. Zasadniczo model uwzględnia wewnętrzne cechy każdego ucznia (ogólny poziom zainteresowania i powodzenia w nauce), a także wkład szkoły i dystryktu w sukces ucznia oraz przewiduje stopnie uczniów, których można by oczekiwać przy „przeciętnej” nauczanie w tym środowisku. Następnie model porównuje oceny rzeczywiste z przewidywanymi i na jego podstawie decyduje, czy nauczanie było odpowiednie, biorąc pod uwagę wszystkie inne względy, lepsze niż odpowiednie, czy gorsze. Chociaż model może wydawać się złożony matematyce, jest w rzeczywistości dość prosty i standardowy. Matematycy używają podobnych (a nawet bardziej skomplikowanych) modeli od dziesięcioleci.

Podsumowując, przypuszczenia pani Isaacson są prawidłowe. Mimo że 65 z jej 66 uczniów uzyskało biegłość w teście państwowym, osiągnęliby taki sam wynik, nawet gdyby ich nauczycielem był pies. Właściwy dobry nauczyciel umożliwiłby tym uczniom osiągnięcie nie tylko „biegłości”, ale w rzeczywistości „dobrych” wyników z tego samego testu.

W tym miejscu mógłbym wspomnieć o niektórych moich obawach dotyczących modelu. Na przykład twórcy modelu twierdzą, że rozwiązuje niektóre problemy z oceną jakości nauczania. Czy mam wystarczające powody, by im wierzyć? Okolice o niższych dochodach będą miały niższe oczekiwane wyniki „okręgowe” i „szkolne”. Powiedzmy, że sąsiedztwo będzie miało spodziewany wynik 2,5. Nauczyciel, który osiągnie średnio 3, otrzyma dobrą ocenę. Może to skłonić nauczycieli do dążenia do wyniku 3, a nie, powiedzmy, 4 lub 5. Innymi słowy, nauczyciele będą dążyć do mierności, a nie do doskonałości. Czy chcemy, żeby tak się stało? Wreszcie, mimo że model jest prosty matematycznie, działa on w sposób bardzo odmienny od działania ludzkiej intuicji. W rezultacie nie mamy oczywistego sposobu na sprawdzenie lub zakwestionowanie modelu ” decyzja. Niefortunny przykład pani Isaacson ilustruje, do czego może to prowadzić. Czy chcemy ślepo polegać na komputerze w czymś tak ważnym?

Zauważ, że jest to wyjaśnienie dla laika. Ominąłem tutaj kilka potencjalnie kontrowersyjnych kwestii. Na przykład nie chciałem powiedzieć, że okręgi szkolne o niskich dochodach powinny osiągać gorsze wyniki, ponieważ nie byłoby to dobre dla laika.

Przyjąłem również, że celem jest właściwie uzasadnienie modelu. Ale jestem całkiem pewien, że to nie był cel NYT. Tak więc moim zdaniem przynajmniej część powodów, dla których ich wyjaśnienie jest słabe, to celowe FUD.

— Sheldon Cooper
źródło

Być może zmieniłbym drugie zdanie ostatniego akapitu i powiedział: „Mimo że 65 z jej 66 uczniów uzyskało ocenę„ sprawną ”w teście państwowym, najprawdopodobniej osiągnęliby taką samą ocenę, nawet gdyby mieli nieudolnego nauczyciela”.

— Wayne,

11

„Twój wynik w nauce zależy od tego, jak dobrze poradzili sobie twoi uczniowie w porównaniu z przewidywaniami opartymi na

To, co wiedzieli wcześniej, mierzone za pomocą testu wstępnego,
Jak dobrze naszym zdaniem uczniowie mogą się uczyć w oparciu o to, co wiemy o nich indywidualnie (ich „cechy”),
I jak dobrze radzą sobie uczniowie w twojej dzielnicy, szkole i klasie (jeśli w twojej klasie są inni nauczyciele).

„Innymi słowy, oceniamy cię na podstawie zmierzonego poziomu uczenia się , po uwzględnieniu przygotowania i cech uczniów oraz typowych osiągnięć wszystkich uczniów w ustawieniach takich jak twój z dostępnymi zasobami.

„W ten sposób twój wynik odzwierciedla to , co przyczyniłeś się do osiągnięć uczniów, o ile możemy to ustalić. Oczywiście nie możemy wiedzieć wszystkiego: wiemy, że miałeś wyjątkowych i wyjątkowych uczniów i że sytuacji, z którą się spotkałeś, nigdy nie można powielić. wiedz, że ten wynik jest tylko szacunkiem, który niedokładnie odzwierciedla to, jak dobrze uczyłeś, ale jest to bardziej sprawiedliwy i dokładniejszy szacunek niż ten oparty wyłącznie na posttestingu lub na surowych wynikach testów uzyskanych przez twoją klasę. ”

— Whuber
źródło

2

Uwaga: Proszę nie przypisywać mi tych myśli! Po prostu staram się wyartykułować i bronić podanego modelu, zgodnie z życzeniem. To, czy ten model jest odpowiedni, odpowiedni, dobrze dopasowany itp., Stanowi osobną kwestię.

— whuber

(+1) Ostatni akapit jest bardzo dobrze ułożony.

— chl

2

Nie ma tu nic do zrozumienia.

Cóż, ok, to tylko standardowy model regresji liniowej. Zakłada, że wynik ucznia można opisać jako funkcję liniową kilku czynników, w tym współczynników wydajności szkoły i nauczyciela - w ten sposób dzieli wszystkie standardowe problemy modeli liniowych, głównie fakt, że jest to świetne przybliżenie nieliniowe świat i równie dobrze może działać idealnie lub krępująco źle w zależności od sytuacji i od tego, jak daleko można by się z nią ekstrapolować. (Należy się jednak spodziewać autorów działu technicznego, którzy to sprawdzili i stwierdzili, że jest w porządku ;-)).

Ale prawdziwym problemem jest to, że jest to narzędzie analityczne i nie powinno się go wykorzystywać do oceny osiągnięć ludzi - w ten sposób (całkowicie niezależnie od tego, czy oceny są uczciwe czy nie) każdy ewaluator stara się zrozumieć jego / jego ocenę (prawdopodobnie w nadziei optymalizacji) spotka tylko beznadziejne zamieszanie, jak w tym przypadku.

3

„nie ma tu nic do zrozumienia - to tylko standardowy model regresji liniowej” - teehee… jakby to była pociecha dla matematyków. Rozumiem, że nigdy nie miałeś przyjemności uczyć kursów licencjackich ze statystyk, powiedzmy, socjologii lub, niech Bóg mi pomoże, kierunków komunikacyjnych.

— fabians

@fabians To tylko potwierdza mój punkt widzenia - konfrontacja ludzi z matematyką bardziej złożoną niż liczenie jest największą wadą tego podejścia =] Ale spróbuję to przeredagować.

Jest to uzasadniona krytyka - szczególnie część dotycząca zakładania liniowości - ale tak naprawdę nie odpowiada na pierwotne pytanie (chyba że twoim celem jest obrażenie hipotetycznego „laika”).

— whuber