Rozważ następujące kwestie z s. 254–256 Sauro, J. i Lewis, JR (2016). Ocena ilościowa doświadczenia użytkownika: praktyczne statystyki dla badań użytkowników, wydanie 2. Cambridge, MA: Morgan-Kaufmann (możesz zajrzeć do środka na https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
CZY POTRZEBUJESZ TESTU NAJMNIEJ 30 UŻYTKOWNIKÓW?
Z JEDNEJ STRONY
Prawdopodobnie większość z nas, którzy wzięli udział w zajęciach ze statystyki wprowadzającej (lub zna kogoś, kto wziął taką klasę), słyszała ogólną zasadę, że aby oszacować lub porównać średnie, twoja próbka powinna wynosić co najmniej 30. Zgodnie z centralnym twierdzeniem o limicie, wraz ze wzrostem wielkości próby rozkład średniej staje się coraz bardziej normalny, niezależnie od normalności rozkładu podstawowego. Niektóre badania symulacyjne wykazały, że dla szerokiej gamy rozkładów (ale nie wszystkich - patrz Bradley, 1978), rozkład średniej staje się prawie normalny, gdy n = 30.
Inną kwestią jest to, że nieco łatwiej jest używać wyników Z niż wyników T, ponieważ wyniki Z nie wymagają użycia stopni swobody. Jak pokazano w tabeli 9.1 i ryc. 9.2, do czasu osiągnięcia około 30 stopni swobody wartość t zbliża się do wartości z. W rezultacie może się wydawać, że nie musisz zajmować się małymi próbkami, które wymagają statystyk małych prób (Cohen, 1990). ...
Z DRUGIEJ STRONY
Gdy koszt próbki jest drogi, jak zwykle w wielu rodzajach badań użytkowników (np. Moderowane testy użyteczności), ważne jest oszacowanie potrzebnej wielkości próbki tak dokładnie, jak to możliwe, przy założeniu, że jest to wartość szacunkowa. Prawdopodobieństwo, że 30 jest dokładnie właściwą próbą dla danego zestawu okoliczności, jest bardzo niskie. Jak pokazano w naszych rozdziałach na temat szacowania wielkości próby, bardziej odpowiednim podejściem jest przyjęcie wzorów do obliczenia poziomów istotności testu statystycznego i, za pomocą algebry do rozwiązania dla n, konwersja ich do wzorów szacowania wielkości próby. Te formuły dostarczają następnie szczegółowych wskazówek na temat tego, co musisz wiedzieć lub oszacować w danej sytuacji, aby oszacować wymaganą wielkość próby.
Pomysł, że nawet przy rozkładzie t (w przeciwieństwie do rozkładu z) musisz mieć próbkę o wielkości co najmniej 30, jest niezgodny z historią rozwoju rozkładu. W 1899 r. William S. Gossett, niedawny absolwent New College w Oksfordzie ze stopniami chemii i matematyki, stał się jednym z pierwszych naukowców, który dołączył do browaru Guinness. „W porównaniu z gigantami swoich czasów opublikował bardzo niewiele, ale jego wkład ma kluczowe znaczenie. … Charakter procesu warzenia, z jego zmiennością temperatury i składników, oznacza, że nie można pobierać dużych próbek w długim okresie ”(Cowles, 1989, s. 108–109).
Oznaczało to, że Gossett nie mógł używać Z-score w swojej pracy - po prostu nie działają dobrze z małymi próbkami. Po przeanalizowaniu braków rozkładu Z dla testów statystycznych z małymi próbkami, opracował niezbędne korekty w zależności od stopni swobody tworzenia własnych tabel t, opublikowanych pod pseudonimem „Student” ze względu na politykę Guinnessa zabraniającą publikacji przez pracowników (Salsburg, 2001). W pracy, która doprowadziła do publikacji tabel, Gossett przeprowadził wczesną wersję symulacji Monte Carlo (Stigler, 1999). Przygotował 3000 kart oznaczonych pomiarami fizycznymi przeprowadzonymi na przestępcach, przetasował je, a następnie rozłożył na 750 grup o wielkości 4 - o wielkości próbki znacznie mniejszej niż 30.
NASZE ZALECENIE
Ta kontrowersja jest podobna do argumentu „wystarczy pięć” w porównaniu z argumentem „osiem to za mało” opisanym w rozdziale 6, ale dotyczy raczej badań podsumowujących niż formatywnych. W przypadku jakichkolwiek badań liczba użytkowników do przetestowania zależy od celu testu i rodzaju danych, które planujesz zgromadzić. „Magiczna liczba” 30 ma pewne empiryczne uzasadnienie, ale naszym zdaniem jest bardzo słaba. Jak widać z licznych przykładów w tej książce, w których wielkości próbek nie są równe 30 (czasami mniej, czasem więcej), nie trzymamy się tej zasady pod dużym względem. Jak opisano w naszym rozdziale dotyczącym wielkości próby do badań podsumowujących, odpowiedni rozmiar próby do badania zależy od rodzaju rozkładu, oczekiwanej zmienności danych, pożądanych poziomów ufności i mocy,
Jak pokazano na ryc. 9.2, przy zastosowaniu rozkładu t z bardzo małymi próbkami (np. Ze stopniami swobody mniejszymi niż 5), bardzo duże wartości t kompensują małe rozmiary próbek w odniesieniu do kontroli błędów typu I ( twierdzenie, że różnica jest znacząca, kiedy tak naprawdę nie jest). Przy tak małych próbkach przedziały ufności będą znacznie szersze niż w przypadku większych próbek. Ale gdy masz do czynienia z więcej niż 5 stopniami swobody, bardzo niewiele jest absolutnych różnic między wartością z a wartością t. Z punktu widzenia podejścia od t do z, zysk powyżej 10 stopni swobody jest bardzo niewielki.
Korzystanie z rozkładu t nie jest dużo bardziej skomplikowane niż z-rozkład (musisz tylko upewnić się, że używasz właściwej wartości dla stopni swobody), a powodem opracowania rozkładu t było umożliwić analizę małych próbek. Jest to tylko jeden z mniej oczywistych sposobów, w jaki praktycy użyteczności korzystają z nauki i praktyki warzenia piwa. Historycy statystyki powszechnie uważają publikację testu t-Studenta przez Gossetta za przełomowe wydarzenie (Box, 1984; Cowles, 1989; Stigler, 1999). W liście do Ronalda A. Fishera (jednego z ojców współczesnych statystyk), zawierającego wczesną kopię tabel t, Gossett napisał: „Prawdopodobnie jesteś jedynym człowiekiem, który z nich skorzysta” (Box, 1978). Gossett miał wiele rzeczy dobrze, ale na pewno się mylił.
BIBLIOGRAFIA
Box, GEP (1984). Znaczenie praktyki w opracowywaniu statystyk. Technometria, 26 (1), 1-8.
Box, JF (1978). Fisher, życie naukowca. Nowy Jork, NY: John Wiley.
Bradley, JV (1978). Krzepkość? British Journal of Mathematical and Statistics Psychology, 31, 144-152.
Cohen, J. (1990). Czego się nauczyłem (do tej pory). American Psychologist, 45 (12), 1304-1312.
Cowles, M. (1989). Statystyka w psychologii: perspektywa historyczna. Hillsdale, NJ: Lawrence Erlbaum.
Salsburg, D. (2001). Herbata smakująca: jak statystyki zrewolucjonizowały naukę w XX wieku. Nowy Jork, NY: WH Freeman.
Stigler, SM (1999). Statystyki na stole: Historia pojęć i metod statystycznych. Cambridge, MA: Harvard University Press.