Czy magia liczby 20?


12

Mam referencje, które zalecały rozważenie wielkości próby wynoszącej co najmniej 20 dla dystrybucji dopasowania danych.

Czy ma to jakiś sens?

dzięki


3
Generalnie nie, w szczególnych sytuacjach może. Czy masz referencje i jakie są Twoje cele?
image_doctor

1
Zgadzam się z @image_doctor - nie ma ogólnego powodu, dla którego 20 spostrzeżeń należy traktować jako minimum; może tak być w bardzo szczególnych okolicznościach.
Glen_b

3
Pojedyncza wartość będzie działać w niektórych praktycznych przypadkach, na przykład gdy rozkład jest znany (z pewnością), aby być Poissona i obserwacja jest duża liczba. Pozwala to nie tylko dopasować rozkład, ale także pozwala oszacować prawdopodobny błąd w oszacowaniu jego parametru.
whuber

1
Wydaje mi się, że przeczytałem również, że w przypadku normalnych dystrybucji 30 jest regułą. Wydaje mi się, że było to związane z tym, jak blisko t Studenta z 30 stopniami swobody do normalności. Ale to tylko ogólna zasada. To nie magia w tym samym sensie, co wartość . mi
Wayne,

Odpowiedzi:


13

Tak wiele zależy od oczekiwanego rozkładu i pytania badawczego. Zasadniczo powinieneś uważać na zasady praktyczne. Jeśli znasz oczekiwany rozkład, uruchom symulacje o różnych rozmiarach i określ, jak często przykładowe symulacje odzwierciedlają rzeczywisty rozkład. To powinno dać ci wskazówki jako ostateczny wymagany rozmiar próby.


+1 za unikanie skrajnych i dogmatycznych stwierdzeń.
whuber

1
+1 częściowo ze względu na „Zasadniczo powinieneś uważać na praktyczne zasady”.
Wolfgang,

7

Myślałem, że magiczna liczba próbek wynosi 1000. Właśnie to ma większość sondaży krajowych w USA, aby uzyskać margines błędu około 3%: W rzeczywistości efektywne rozmiary próbek są niższe ponad 1000, więcej niż około 700, ze względu na nierówne prawdopodobieństwo wyboru i korekty braku odpowiedzi, co prowadzi do marginesu błędu wynoszącego 3,7%.

z0,9750,50,5/1000=1,960,158=0,031

Przy zaledwie 20 obserwacjach technicznie nie można uzyskać bardzo wysokich wartości skośności i kurtozy (oczywiście znormalizowanych przez standardowe odchylenia standardowe):

|skośność|n-2)n-1=4.58,|kurtoza|n2)-3)n+3)n-1=18,05.
Jeśli dopasowujesz rozkład metodą momentów, to oczywiście nie możesz powiedzieć, że rozkład logarytmiczny ma dość typową wariancję logów równą 1 (rozkłady dochodów w krajach o średnich i wysokich dochodach; USA, Brazylia, Republika Południowej Afryki, Rosja ma większą wariancję dochodów z logów), ponieważ ma zaskakująco dużą kurtozę wynoszącą 111. Oczywiście głupio byłoby dopasować rozkład logarytmiczny metodą momentów, ale chciałem tylko wykazać, że niektóre rzeczywiste rozkłady świata prawdopodobnie będzie bardziej skomplikowane niż to, co można opisać za pomocą 20 obserwacji.

Kolejny widok okucia w dystrybucji mogą być pobierane przez oszacowanie gęstości ziaren: dla próbki o wymiarach The najpopularniejszym reguła zapewnia przepustowość która skutecznie obejmuje całą dystrybucję za pomocą jądra Gaussa. Innymi słowy, większość próbek o rozmiarze 20 będzie wyglądać normalnie, jeśli przeprowadzisz na nich oszacowanie gęstości jądra, chyba że mają wyraźną kurtozę (co oznaczałoby wtedy, że istnieją pewne obserwacje odległe, które pojawią się jako osobne nierówności w gęstości jądra) wątek).h = 1,06 σ n - 1 / 5 = 0,58 σn=20

h=1.06σ^n-1/5=0,58σ^

Nie śledzę znaczenia limitów momentów próbek. Oczywiście w próbce można uzyskać bardzo wysokie oceny skośności i kurtozy. Spróbuj: gdy jest średnią próbki, a SD próbki, wówczas szacowana skośność przy dopasowywaniu momentów w rozkładzie logarytmicznym wynosi . Wygeneruj próbkę z rozkładu o dużej geometrycznej SD ( zadziała), a otrzymasz ogromne oszacowania skośności. A co jeśli skośność surowej próbki jest niewielka? ms(s/m)(3)+(s/m)2))202)
whuber

1
Obowiązkowy link do „syndromu potęgi dziesięciu” w kontekście użycia 1000 jako wielkości próby (w kontekście statystyk związanych z programowaniem, ale dotyczy to również innych miejsc): zedshaw.com/essays/programmer_stats.html
Gary S. Weaver

1
@ whuber, jesteś zbyt mądry, bez obrazy. Większość ludzi obliczałaby skośność jako moment danych, a nie poprzez parametryczne założenie, jak właśnie to zrobiłeś. Teraz, gdybym powiedział „Załóżmy, że dopasowujesz rozkład Pearsona metodą chwilową” - czy zatem ten argument byłby odpowiedni?
StasK

Tak, miałoby to znaczenie w wielu przypadkach. Postępowałem zgodnie z twoją sugestią, aby dopasować rozkład logarytmiczny za pomocą metody momentów i uzyskałem dużą skośność - nic dziwnego. Jest tak, ponieważ dopasowałem tylko pierwsze dwa momenty, pozwalając, by trzeci był tym, czym może być. Gdybym miał zastosować tę samą procedurę z dowolną rodziną dystrybucji o dwóch lub mniej parametrach, która pozwala na dowolnie duże trzecie momenty, myślę, że widziałbym to samo zjawisko. W przypadku rodziny Pearson, która ma więcej niż dwa parametry, prawdopodobnie spróbowalibyśmy dopasować skośność empiryczną, ograniczając w ten sposób jej wartość.
whuber

2

Nie. Nie zdalnie.

Pomyślcie o tym w ten sposób: gdybyście mieli miliardową przestrzeń (ludzkość) i wyciągnęliście 20 próbek za pomocą dowolnej metody (20 osób), czy moglibyście wykorzystać informacje, które zdobyliście, aby właściwie zrozumieć każdą osobę na planecie? Nie zdalnie. W galaktyce Drogi Mlecznej znajduje się 100 miliardów gwiazd. Wybierając (losowo) 20 z nich, możesz zrozumieć całą galaktyczną astronomię? Nie ma mowy.

W przestrzeni 1-d istnieje kilka heurystyk, głównie poprawnych zasad, które mogą pomóc, które opisują, ile pomiarów chcesz wykonać. Obejmują one różne stopnie użyteczności i uzasadnienia, ale są w pewnym sensie lepiej bronione niż „20”. Obejmują one „5 pomiarów na zmienną w twoim równaniu dopasowania”, „co najmniej 35 próbek funkcji gęstości Gaussa” i „co najmniej 300 próbek funkcji dwumianowej”. Prawdziwi statystycy, a nie frajerzy-frajerzy tacy jak ja, będą mogli powiązać określone przedziały ufności i niepewności z pierwszych zasad i bez kalkulatora.

Jeśli zastosujesz zasadę „5 pomiarów na parametr w równaniu dopasowania” i chcesz dopasować gęstość skumulowaną 2-wymiarowo zakrzywionej powierzchni sześciennej pod względem rozkładu wysokości, będziesz mieć układ podstawowy, który jest , stosunek wielomianu 5. rzędu do sześciennego. Będzie miał 6 + 4 = 10 współczynników. Jeśli próbujesz dopasować swoje 10 wartości parametru za pomocą 2 pomiarów na parametr lub za pomocą 20 pomiarów, naruszysz tę heurystykę. Ta heurystyka zaleca minimum 10 * 5 = 50 pomiarów.za3)r3)+za2)r2)+za1r+za0za1r+za0rer

Pamiętajcie, że „najlepszy” jest bezsensownym pomysłem bez „miary dobroci”. Jaka jest najlepsza ścieżka? Jeśli idziesz na swój los, być może wyjątkowo długi i przyjemny. Jeśli wybierasz się na własną koronację, być może krótką i wspaniałą. Jeśli idziesz przez pustynię, chłodny, zacieniony. Jaka jest „najlepsza” liczba próbek? Jest tak oszałamiająco zależny od twojego problemu, że nie można wcześniej odpowiedzieć z autorytetem. Wszyscy? Tyle ile możesz? To ma tylko trochę sensu. Tak, to tak jakby być częściowo martwym lub w ciąży. Bycie częściowo nonsensownym jest konsekwencją bardzo nieokreślonego problemu.

Jeśli próbujesz dokładnie przewidzieć przepływ powietrza nad samolotem? Może być potrzebne kilka milionów pomiarów, aby dostać się do parku. Jeśli chcesz wiedzieć, ile masz wzrostu, jeden lub dwóch może wykonać tę pracę.

Nie przywołuje to ważnych punktów „obejmowania przestrzeni” i „próbkowania w lokalizacjach, które minimalizują wariancje w oszacowaniach parametrów”, ale pytanie sugerowało, że odpowiednia odpowiedź na poziomie początkującym byłaby odpowiednia. Te rzeczy wymagają wiedzy na temat natury problemu, zanim będą mogły zostać wdrożone.

Uwaga: edytowane w celu ulepszenia według sugestii.


1
Wygląda na to, że w pytaniu przeczytałeś „minimum” lub „maksimum” lub „wystarczające”. Nic, co napisałeś, nie wydaje się być sprzeczne z zasadą minimum 20.
whuber

2
@ Whuber, pracuję wśród ludzi, którzy uważają, że dodatkowe pomiary są drogie, a jeśli dostarczę im „minimalną liczbę próbek”, nie będą uważali tego za nierówność, w której potencjalna liczba próbek jest większa. Uważają to za granicę dla problemu optymalizacji związanego z minimalizacją kosztów i starają się działać tylko przy tej wartości. To produkt mojego środowiska.
EngrStudent

1

Być może w kontekście, w którym przeprowadzasz testy t lub ANOVAR - dość powszechny kontekst w podstawowych aplikacjach statystycznych - jest mniej więcej wielkości próby potrzebnej dla każdej grupy, aby mieć dużą pewność, że średnia każdej grupy jest w przybliżeniu rozkład normalny (zgodnie z centralnym twierdzeniem granicznym), gdy można założyć, że rozkład jest mniej więcej jednomodalny i niezbyt szczytowy. Dwadzieścia i nie dziewiętnaście lub dwadzieścia jeden, ponieważ jest to okrągły numer.


0

Sprawdź moc i wielkość próbki Russa Lenth'a, aby znaleźć artykuły na ten temat (w sekcji Porady na środku strony).

Minimalna liczba osobników w próbie różni się bardzo w zależności od wielkości populacji, liczby wymiarów (jeśli dzielisz dane na kategorie) i miar (jeśli podejmujesz ciągłe pomiary dotyczące poszczególnych osób), które podejmujesz, wielkości twój wszechświat, technika analizy, którą zamierzasz zastosować (jest to bardzo ważny punkt - technika jest definiowana podczas planowania badania lub podczas projektowania eksperymentu , nigdy później), a złożoność wykazana przez wcześniejsze badania.

A 20 to za mało na poważne badania poza tematami „rzadkich chorób” i „psychologii eksperymentalnej” (psychicznej, jak zdefiniował Popper w swojej pracy).

Uściślenie odpowiedzi na podstawie poniższych komentarzy:

20 nie wystarcza do poważnych badań poza tematami „rzadkich chorób” i „psychologii eksperymentalnej” (psychicznej, jak zdefiniował Popper w swojej pracy), która obejmuje dopasowanie rozkładu prawdopodobieństwa .

I nie, nie powinieneś zatruwać ludzi, aby dostać się do dużej próbki. Common Sense i Sequential Tests nakazują ci przerwać.


3
Myślę, że to zbyt ekstremalne, aby dać ogólne stwierdzenie, że próbka 20 nie jest „wystarczająca do poważnych badań”. Jest to sprzeczne z twoimi wcześniejszymi stwierdzeniami, że odpowiedni rozmiar próby różni się w zależności od celu, populacji i tak dalej. W niektórych przypadkach wystarczy jeden fałszujący wynik, aby zabić całą teorię.
whuber

1
Studia przypadków i badania jakościowe mogą poradzić sobie z 1-5 uczestnikami.
Behacad 18.04.13

Ok, dodaj do listy „studia przypadków” i „grupy fokusowe”. Są one zawarte w tym, co powiedział Popper, nazywając „psychologią eksperymentalną”.
Lucas Gallindo,

4
Lepiej dodaj astronomię, medycynę, biologię, chemię ... Innymi słowy, równie źle jest twierdzić, że 20 to „za mało”, jak i twierdzić, że jest wystarczająco dobre. W rzeczywistości jest prawdopodobnie gorzej. Wyobraź sobie próbę bezpieczeństwa żywności, w której pierwszych ośmiu pacjentów, którym podano suplement diety, zmarło z powodu nieoczekiwanych skutków ubocznych. Czy opowiedziałbyś się za kontynuowaniem testów na podstawie stwierdzenia „20 za mało”?
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.