Mam referencje, które zalecały rozważenie wielkości próby wynoszącej co najmniej 20 dla dystrybucji dopasowania danych.
Czy ma to jakiś sens?
dzięki
Mam referencje, które zalecały rozważenie wielkości próby wynoszącej co najmniej 20 dla dystrybucji dopasowania danych.
Czy ma to jakiś sens?
dzięki
Odpowiedzi:
Tak wiele zależy od oczekiwanego rozkładu i pytania badawczego. Zasadniczo powinieneś uważać na zasady praktyczne. Jeśli znasz oczekiwany rozkład, uruchom symulacje o różnych rozmiarach i określ, jak często przykładowe symulacje odzwierciedlają rzeczywisty rozkład. To powinno dać ci wskazówki jako ostateczny wymagany rozmiar próby.
Myślałem, że magiczna liczba próbek wynosi 1000. Właśnie to ma większość sondaży krajowych w USA, aby uzyskać margines błędu około 3%: W rzeczywistości efektywne rozmiary próbek są niższe ponad 1000, więcej niż około 700, ze względu na nierówne prawdopodobieństwo wyboru i korekty braku odpowiedzi, co prowadzi do marginesu błędu wynoszącego 3,7%.
Przy zaledwie 20 obserwacjach technicznie nie można uzyskać bardzo wysokich wartości skośności i kurtozy (oczywiście znormalizowanych przez standardowe odchylenia standardowe):
Kolejny widok okucia w dystrybucji mogą być pobierane przez oszacowanie gęstości ziaren: dla próbki o wymiarach The najpopularniejszym reguła zapewnia przepustowość która skutecznie obejmuje całą dystrybucję za pomocą jądra Gaussa. Innymi słowy, większość próbek o rozmiarze 20 będzie wyglądać normalnie, jeśli przeprowadzisz na nich oszacowanie gęstości jądra, chyba że mają wyraźną kurtozę (co oznaczałoby wtedy, że istnieją pewne obserwacje odległe, które pojawią się jako osobne nierówności w gęstości jądra) wątek).h = 1,06 σ n - 1 / 5 = 0,58 σ
Nie. Nie zdalnie.
Pomyślcie o tym w ten sposób: gdybyście mieli miliardową przestrzeń (ludzkość) i wyciągnęliście 20 próbek za pomocą dowolnej metody (20 osób), czy moglibyście wykorzystać informacje, które zdobyliście, aby właściwie zrozumieć każdą osobę na planecie? Nie zdalnie. W galaktyce Drogi Mlecznej znajduje się 100 miliardów gwiazd. Wybierając (losowo) 20 z nich, możesz zrozumieć całą galaktyczną astronomię? Nie ma mowy.
W przestrzeni 1-d istnieje kilka heurystyk, głównie poprawnych zasad, które mogą pomóc, które opisują, ile pomiarów chcesz wykonać. Obejmują one różne stopnie użyteczności i uzasadnienia, ale są w pewnym sensie lepiej bronione niż „20”. Obejmują one „5 pomiarów na zmienną w twoim równaniu dopasowania”, „co najmniej 35 próbek funkcji gęstości Gaussa” i „co najmniej 300 próbek funkcji dwumianowej”. Prawdziwi statystycy, a nie frajerzy-frajerzy tacy jak ja, będą mogli powiązać określone przedziały ufności i niepewności z pierwszych zasad i bez kalkulatora.
Jeśli zastosujesz zasadę „5 pomiarów na parametr w równaniu dopasowania” i chcesz dopasować gęstość skumulowaną 2-wymiarowo zakrzywionej powierzchni sześciennej pod względem rozkładu wysokości, będziesz mieć układ podstawowy, który jest , stosunek wielomianu 5. rzędu do sześciennego. Będzie miał 6 + 4 = 10 współczynników. Jeśli próbujesz dopasować swoje 10 wartości parametru za pomocą 2 pomiarów na parametr lub za pomocą 20 pomiarów, naruszysz tę heurystykę. Ta heurystyka zaleca minimum 10 * 5 = 50 pomiarów.
Pamiętajcie, że „najlepszy” jest bezsensownym pomysłem bez „miary dobroci”. Jaka jest najlepsza ścieżka? Jeśli idziesz na swój los, być może wyjątkowo długi i przyjemny. Jeśli wybierasz się na własną koronację, być może krótką i wspaniałą. Jeśli idziesz przez pustynię, chłodny, zacieniony. Jaka jest „najlepsza” liczba próbek? Jest tak oszałamiająco zależny od twojego problemu, że nie można wcześniej odpowiedzieć z autorytetem. Wszyscy? Tyle ile możesz? To ma tylko trochę sensu. Tak, to tak jakby być częściowo martwym lub w ciąży. Bycie częściowo nonsensownym jest konsekwencją bardzo nieokreślonego problemu.
Jeśli próbujesz dokładnie przewidzieć przepływ powietrza nad samolotem? Może być potrzebne kilka milionów pomiarów, aby dostać się do parku. Jeśli chcesz wiedzieć, ile masz wzrostu, jeden lub dwóch może wykonać tę pracę.
Nie przywołuje to ważnych punktów „obejmowania przestrzeni” i „próbkowania w lokalizacjach, które minimalizują wariancje w oszacowaniach parametrów”, ale pytanie sugerowało, że odpowiednia odpowiedź na poziomie początkującym byłaby odpowiednia. Te rzeczy wymagają wiedzy na temat natury problemu, zanim będą mogły zostać wdrożone.
Uwaga: edytowane w celu ulepszenia według sugestii.
Być może w kontekście, w którym przeprowadzasz testy t lub ANOVAR - dość powszechny kontekst w podstawowych aplikacjach statystycznych - jest mniej więcej wielkości próby potrzebnej dla każdej grupy, aby mieć dużą pewność, że średnia każdej grupy jest w przybliżeniu rozkład normalny (zgodnie z centralnym twierdzeniem granicznym), gdy można założyć, że rozkład jest mniej więcej jednomodalny i niezbyt szczytowy. Dwadzieścia i nie dziewiętnaście lub dwadzieścia jeden, ponieważ jest to okrągły numer.
Sprawdź moc i wielkość próbki Russa Lenth'a, aby znaleźć artykuły na ten temat (w sekcji Porady na środku strony).
Minimalna liczba osobników w próbie różni się bardzo w zależności od wielkości populacji, liczby wymiarów (jeśli dzielisz dane na kategorie) i miar (jeśli podejmujesz ciągłe pomiary dotyczące poszczególnych osób), które podejmujesz, wielkości twój wszechświat, technika analizy, którą zamierzasz zastosować (jest to bardzo ważny punkt - technika jest definiowana podczas planowania badania lub podczas projektowania eksperymentu , nigdy później), a złożoność wykazana przez wcześniejsze badania.
A 20 to za mało na poważne badania poza tematami „rzadkich chorób” i „psychologii eksperymentalnej” (psychicznej, jak zdefiniował Popper w swojej pracy).
20 nie wystarcza do poważnych badań poza tematami „rzadkich chorób” i „psychologii eksperymentalnej” (psychicznej, jak zdefiniował Popper w swojej pracy), która obejmuje dopasowanie rozkładu prawdopodobieństwa .
I nie, nie powinieneś zatruwać ludzi, aby dostać się do dużej próbki. Common Sense i Sequential Tests nakazują ci przerwać.