Jeśli ostatnio czytałeś biuletyny społecznościowe, prawdopodobnie widziałeś The Hunting of the Snark, post na oficjalnym blogu StackExchange autorstwa Joela Spolsky'ego, CEO sieci StackExchange. Omawia analizę statystyczną przeprowadzoną na próbie komentarzy SE w celu oceny ich „przyjazności” z perspektywy użytkownika zewnętrznego. Komentarze zostały losowo pobrane z StackOverflow, a analitycy treści byli członkami społeczności Mechanical Turk firmy Amazon, rynku pracy, który łączy firmy z pracownikami wykonującymi małe, krótkie zadania za przystępne opłaty.
Nie tak dawno byłem studentem nauk politycznych, a jedną z zajęć, które wziąłem, była analiza treści statystycznych . Ostatnim projektem klasy, a właściwie jej całym celem, było przeprowadzenie szczegółowej analizy raportów wojennych New York Timesa, aby sprawdzić, czy wiele założeń Amerykanów dotyczących relacji z wiadomości podczas wojen było trafnych (spoiler: dowody sugerują, że nie). Projekt był ogromny i dość zabawny, ale zdecydowanie najbardziej bolesną częścią była „faza szkolenia i testowania niezawodności”, która miała miejsce, zanim mogliśmy przeprowadzić pełną analizę. Miał dwa cele (szczegółowy opis znajduje się na stronie 9 w powiązanym artykule, a także odniesienia do standardów niezawodności interkodera w literaturze statystycznej analizy treści):
Potwierdź, że wszyscy koderzy, tj. Czytelnicy treści, zostali przeszkoleni w zakresie tych samych definicji jakościowych. W analizie Joela oznaczało to, że każdy dokładnie wiedziałby, w jaki sposób projekt zdefiniował „przyjazny” i „nieprzyjazny”.
Potwierdź, że wszyscy koderzy rzetelnie zinterpretowali te reguły, tzn. Pobraliśmy próbkę, przeanalizowaliśmy podzbiór, a następnie statystycznie zademonstrowaliśmy, że nasze korelacje par w ocenach jakościowych były dość podobne.
Testy niezawodności zaszkodziły, ponieważ musieliśmy to zrobić trzy lub cztery razy. Dopóki -1- nie zostało zablokowane, a -2- wykazało wystarczająco wysokie korelacje par, nasze wyniki dla pełnej analizy były podejrzane. Nie można ich wykazać jako ważnych lub nieważnych. Co najważniejsze, musieliśmy przeprowadzić pilotażowe testy niezawodności przed ostatecznym zestawem próbek.
Moje pytanie brzmi: w analizie statystycznej Joela brakowało testu niezawodności pilota i nie ustalono żadnych operacyjnych definicji „przyjazności”. Czy ostateczne dane były wystarczająco wiarygodne, aby powiedzieć cokolwiek na temat poprawności statystycznej jego wyników?
Dla jednej perspektywy rozważ ten elementarz pod kątem wartości niezawodności interkodera i spójnych definicji operacyjnych. Z głębiej w tym samym źródle możesz przeczytać o testach niezawodności pilota (pozycja 5 na liście).
Zgodnie z sugestią Andy'ego W. w jego odpowiedzi próbuję obliczyć różnorodne statystyki niezawodności dla zestawu danych, który jest dostępny tutaj, przy użyciu tej serii poleceń w R (zaktualizowanej podczas obliczania nowych statystyk).
Zgodność procentowa (z tolerancją = 0): 0,0143
Zgodność procentowa (z tolerancją = 1): 11,8
Alfa Krippendorffa: 0,1529467
Próbowałem również model odpowiedzi na dane dla tych danych w innym pytaniu.