Czy „Hunting of the Snark” Joela Spolsky'ego zawiera poprawną analizę treści statystycznych?

Jeśli ostatnio czytałeś biuletyny społecznościowe, prawdopodobnie widziałeś The Hunting of the Snark, post na oficjalnym blogu StackExchange autorstwa Joela Spolsky'ego, CEO sieci StackExchange. Omawia analizę statystyczną przeprowadzoną na próbie komentarzy SE w celu oceny ich „przyjazności” z perspektywy użytkownika zewnętrznego. Komentarze zostały losowo pobrane z StackOverflow, a analitycy treści byli członkami społeczności Mechanical Turk firmy Amazon, rynku pracy, który łączy firmy z pracownikami wykonującymi małe, krótkie zadania za przystępne opłaty.

Nie tak dawno byłem studentem nauk politycznych, a jedną z zajęć, które wziąłem, była analiza treści statystycznych . Ostatnim projektem klasy, a właściwie jej całym celem, było przeprowadzenie szczegółowej analizy raportów wojennych New York Timesa, aby sprawdzić, czy wiele założeń Amerykanów dotyczących relacji z wiadomości podczas wojen było trafnych (spoiler: dowody sugerują, że nie). Projekt był ogromny i dość zabawny, ale zdecydowanie najbardziej bolesną częścią była „faza szkolenia i testowania niezawodności”, która miała miejsce, zanim mogliśmy przeprowadzić pełną analizę. Miał dwa cele (szczegółowy opis znajduje się na stronie 9 w powiązanym artykule, a także odniesienia do standardów niezawodności interkodera w literaturze statystycznej analizy treści):

Potwierdź, że wszyscy koderzy, tj. Czytelnicy treści, zostali przeszkoleni w zakresie tych samych definicji jakościowych. W analizie Joela oznaczało to, że każdy dokładnie wiedziałby, w jaki sposób projekt zdefiniował „przyjazny” i „nieprzyjazny”.
Potwierdź, że wszyscy koderzy rzetelnie zinterpretowali te reguły, tzn. Pobraliśmy próbkę, przeanalizowaliśmy podzbiór, a następnie statystycznie zademonstrowaliśmy, że nasze korelacje par w ocenach jakościowych były dość podobne.

Testy niezawodności zaszkodziły, ponieważ musieliśmy to zrobić trzy lub cztery razy. Dopóki -1- nie zostało zablokowane, a -2- wykazało wystarczająco wysokie korelacje par, nasze wyniki dla pełnej analizy były podejrzane. Nie można ich wykazać jako ważnych lub nieważnych. Co najważniejsze, musieliśmy przeprowadzić pilotażowe testy niezawodności przed ostatecznym zestawem próbek.

Moje pytanie brzmi: w analizie statystycznej Joela brakowało testu niezawodności pilota i nie ustalono żadnych operacyjnych definicji „przyjazności”. Czy ostateczne dane były wystarczająco wiarygodne, aby powiedzieć cokolwiek na temat poprawności statystycznej jego wyników?

Dla jednej perspektywy rozważ ten elementarz pod kątem wartości niezawodności interkodera i spójnych definicji operacyjnych. Z głębiej w tym samym źródle możesz przeczytać o testach niezawodności pilota (pozycja 5 na liście).

Zgodnie z sugestią Andy'ego W. w jego odpowiedzi próbuję obliczyć różnorodne statystyki niezawodności dla zestawu danych, który jest dostępny tutaj, przy użyciu tej serii poleceń w R (zaktualizowanej podczas obliczania nowych statystyk).

Statystyki opisowe są tutaj

Zgodność procentowa (z tolerancją = 0): 0,0143

Zgodność procentowa (z tolerancją = 1): 11,8

Alfa Krippendorffa: 0,1529467

Próbowałem również model odpowiedzi na dane dla tych danych w innym pytaniu.

reliability agreement-statistics methodology

— Christopher
źródło

Nie publicznie udostępnić dane kodowania więc można iść i ocenić wiarygodność samych programistów, jeśli ktoś chciał.

— Andy W

Re: # 1 - Należy zauważyć, że nie było to ćwiczenie polegające na tym, czy komentarze były przyjazne, czy nie, ale ćwiczenie polegające na tym, czy komentarze były postrzegane jako przyjazne czy nie dla zewnętrznego użytkownika.

— Rachel

@Rachel Nie sądzę, że to prawda. Gdyby mierzyli, jak osoby postronne postrzegają komentarze na temat SO, potrzebowaliby znacznie większej próby niż 20 osób.

— Christopher

Jest to różnica między wnioskiem o tym, jak osoby postronne postrzegają komentarze, a wnioskiem o samych komentarzach. W pierwszym przypadku potrzebna byłaby znacznie większa grupa ludzi, a wniosek byłby następujący: „Osoby z zewnątrz uważają, że 2,3% komentarzy SO jest nieprzyjaznych”. W drugim przypadku „2,3% komentarzy SO jest nieprzyjaznych”. Są to różne wnioski i myślę, że drugi może nie być możliwy, ponieważ nie możemy wykazać, że koderzy oceniają komentarze podobnie bez testu niezawodności.

— Christopher

@Christopher życzliwość jest jednak bardzo subiektywna. W zależności od tego, kogo zapytasz, ten sam komentarz może być postrzegany jako przyjazny i nieprzyjazny. Dlatego uważam, że ważniejsze jest uzyskanie punktu widzenia od dużej liczby przypadkowych użytkowników zamiast kogoś, kto ma dokładnie taki sam punkt widzenia jak ty.

— Rachel

Odpowiedzi:

Zgodność procentowa (z tolerancją = 0): 0,0143

Zgodność procentowa (z tolerancją = 1): 11,8

Alfa Krippendorffa: 0,1529467

Te środki porozumienia stwierdzają, że praktycznie nie ma porozumienia kategorycznego - każdy programista ma swój własny punkt odcięcia, aby oceniać komentarze jako „przyjazne” lub „nieprzyjazne”.

Jeśli założymy, że trzy kategorie są uporządkowane, tj .: Nieprzyjazny <Neutralny <Przyjazny, możemy również obliczyć korelację wewnątrzklasową jako kolejny miernik zgodności. Na losowej próbie 1000 komentarzy jest ICC (2,1) 0,28 i ICC (2, k) 0,88. Oznacza to, że jeśli weźmiesz tylko jeden z 20 wskaźników, wyniki byłyby bardzo niewiarygodne (.28), jeśli weźmiesz średnio 20 wskaźników, wyniki są wiarygodne (.88). Biorąc różne kombinacje trzech losowych wskaźników, uśredniona niezawodność wynosi od .50 do .60, co nadal byłoby oceniane jako zbyt niskie.

Średnia korelacja dwuwymiarowa między dwoma koderami wynosi 0,34, co również jest dość niskie.

Jeśli te miary zgodności są postrzegane jako miara jakości koderów (którzy faktycznie powinni wykazywać dobrą zgodność), odpowiedź brzmi: nie są oni dobrymi koderami i powinni być lepiej przeszkoleni. Jeśli jest to postrzegane jako miara „jak dobra jest spontaniczna zgoda między przypadkowymi osobami”, odpowiedź brzmi również: niezbyt wysoka. Jako punkt odniesienia średnia korelacja dla ocen atrakcyjności fizycznej wynosi około 0,47 - 0,71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., i Smoot, M. (2000). Maksymy czy mity o pięknie? Przegląd metaanalityczny i teoretyczny. Biuletyn psychologiczny, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390

— Felix S.
źródło

Wiarygodność wyników jest często interpretowana w kategoriach klasycznej teorii testów . Tutaj Xmasz prawdziwy wynik, ale to, co zaobserwujesz przy każdym konkretnym wyniku, to nie tylko prawdziwy wynik, ale prawdziwy wynik z pewnym błędem (tj Observed = X + error.). Teoretycznie, podejmując wiele zaobserwowanych pomiarów tego samego testu podstawowego (przyjmując pewne założenia dotyczące rozkładu błędów tych testów), można następnie zmierzyć nieobserwowany prawdziwy wynik.

Zauważ tutaj, w tym środowisku, że musisz założyć, że wiele zaobserwowanych miar mierzy ten sam test podstawowy. Niska wiarygodność elementów testowych jest następnie często traktowana jako dowód, że zaobserwowane miary nie mierzą tego samego testu podstawowego. Jest to tylko konwencja w tej dziedzinie, ale niska niezawodność sama w sobie nie dowodzi (w żadnym sensie statystycznym), że elementy nie mierzą tej samej konstrukcji. Można więc argumentować, że podejmując wiele zaobserwowanych pomiarów, nawet przy bardzo niewiarygodnych testach, można uzyskać wiarygodną miarę prawdziwej punktacji.

Należy również wspomnieć, że klasyczna teoria testów niekoniecznie jest jedynym sposobem interpretacji takich testów, a wielu uczonych twierdzi, że pojęcie zmiennych utajonych i teorii odpowiedzi na odpowiedź jest zawsze bardziej odpowiednie niż klasyczna teoria testów.

Podobne domniemane założenie w klasycznej teorii testów ma również miejsce, gdy ludzie mówią, że niezawodność jest zbyt wysoka. Nie mówi nic o ważności tego, czy dany element (-y) mierzy jakiś podstawowy test, ale że gdy wiarygodność jest zbyt wysoka, badacze biorą to za dowód, że błędy między testami nie są niezależne.

Nie jestem do końca pewien, dlaczego tak bardzo pragniesz nie wchodzić i samodzielnie obliczać wiarygodności. Dlaczego nie można tego zrobić, a następnie zinterpretować analizę w świetle tych dodatkowych informacji?

— Andy W.
źródło

Po pierwsze, pozwólcie, że zwrócę uwagę, że nie jestem już studentem, który robi statystyki ze słusznego powodu: to nie była moja mocna strona. Być może źle pamiętam metodologię. Niemniej jednak myślę, że ty i ja możemy mówić o różnych miarach niezawodności, a przynajmniej istnieją badania sugerujące zmierzenie niezawodności interkodera przed przeprowadzeniem ostatecznej analizy. Zredagowałem pytanie, aby uwzględnić jedno źródło znalezione w sieci, które cytuje znacznie więcej badań na ten temat.

— Christopher

Jest to inny kontekst (niezawodność dychotomicznych elementów testowych zamiast pewnych ciągłych wyników), ale logika jest funkcjonalnie taka sama. Dlatego nie wymieniłem żadnej konkretnej miary niezawodności (jest ich wiele). Twój cytat nie sugeruje niczego before the final analysis, więc nie jestem całkiem pewien, skąd się to bierze.

— Andy W

Ach ha. Masz rację, nie jest to wcale wymagane. Czytając dalej ten link, który opublikowałem, wygląda na to, że testy pilotażowe są uważane za najlepszą praktykę metodologiczną (poszukiwanie w nim testu pilotażowego).

— Christopher

Zmieniłem pytanie, aby uwzględnić nowe informacje. Dziękuję za pomoc w naprawieniu mojego błędu.

— Christopher

Inne pytanie już się pojawiło.

— Christopher