Czy próbki nielosowe mogą być analizowane przy użyciu standardowych testów statystycznych?


24

Wiele badań klinicznych opiera się na nielosowych próbkach. Jednak większość standardowych testów (np. Testy t, ANOVA, regresja liniowa, regresja logistyczna) opiera się na założeniu, że próbki zawierają „liczby losowe”. Czy wyniki są prawidłowe, jeśli te nielosowe próbki zostały przeanalizowane za pomocą standardowych testów? Dziękuję Ci.

Odpowiedzi:


20

Istnieją dwa ogólne modele do testowania. Pierwszy, oparty na założeniu losowego próbkowania z populacji, jest zwykle nazywany „modelem populacji”.

Na przykład, w teście t dla dwóch niezależnych próbek, zakładamy, że dwie grupy, które chcemy porównać, są losowymi próbkami z odpowiednich populacji. Zakładając, że rozkłady wyników w obrębie dwóch grup są zwykle rozłożone w populacji, możemy następnie uzyskać analitycznie rozkład próbkowania statystyki testowej (tj. Dla statystyki t). Chodzi o to, że gdybyśmy powtórzyli ten proces (losowo losując dwie próbki z odpowiednich populacji) nieskończoną liczbę razy (oczywiście nie robimy tego), uzyskalibyśmy taki rozkład próbkowania dla statystyki testowej.

Alternatywnym modelem do testowania jest „model randomizacji”. Tutaj nie musimy odwoływać się do losowego próbkowania. Zamiast tego uzyskujemy rozkład randomizacji poprzez permutacje naszych próbek.

Na przykład w teście t masz dwie próbki (niekoniecznie uzyskane przez losowe próbkowanie). Teraz, jeśli rzeczywiście nie ma różnicy między tymi dwiema grupami, to to, czy konkretna osoba „należy” do grupy 1 czy grupy 2, jest arbitralne. Możemy więc w kółko przypisywać zadania grupowe, za każdym razem zwracając uwagę na to, jak daleko od siebie są te dwie grupy. W ten sposób uzyskujemy empirycznie rozkład próbkowania. Następnie możemy porównać odległość między tymi dwoma średnimi w oryginalnych próbkach (zanim zaczęliśmy przetasować członkostwo w grupie) i jeśli ta różnica jest „ekstremalna” (tj. Wpada w ogony empirycznie uzyskanego rozkładu próbkowania), to dochodzimy do wniosku członkostwo w grupie nie jest arbitralne i rzeczywiście istnieje różnica między dwiema grupami.

W wielu sytuacjach oba podejścia prowadzą do tego samego wniosku. W pewnym sensie podejście oparte na modelu populacji może być postrzegane jako przybliżenie testu randomizacji. Co ciekawe, Fisher był tym, który zaproponował model randomizacji i zasugerował, że powinien on stanowić podstawę naszych wniosków (ponieważ większość próbek nie jest uzyskiwana przez losowe próbkowanie).

Miły artykuł opisujący różnicę między tymi dwoma podejściami to:

Ernst, MD (2004). Metody permutacji: podstawa do dokładnego wnioskowania. Statistics Science, 19 (4), 676-685 (link) .

Kolejny artykuł, który zawiera ładne podsumowanie i sugeruje, że metoda randomizacji powinna być podstawą naszych wniosków:

Ludbrook, J., i Dudley, H. (1998). Dlaczego testy permutacji przewyższają testy ti F w badaniach biomedycznych. American Statistician, 52 (2), 127-132 (link) .

EDYCJA: Powinienem również dodać, że przy obliczaniu losowości jak w modelu populacyjnym powszechne jest obliczanie tej samej statystyki testowej. Na przykład w celu przetestowania różnicy średnich między dwiema grupami oblicza się zwykłą statystykę t dla wszystkich możliwych permutacji członkostwa w grupach (uzyskując empirycznie wyprowadzony rozkład próbkowania pod hipotezą zerową), a następnie sprawdza się, jak ekstremalne Statystyka t dla pierwotnego członkostwa w grupie mieści się w tym rozkładzie.


8

Twoje pytanie jest bardzo dobre, ale nie ma prostej odpowiedzi.

Większość testów, takich jak te, o których wspominasz, opiera się na założeniu, że próbka jest próbą losową, ponieważ próbka losowa prawdopodobnie reprezentuje populację objętą próbą. Jeżeli założenie jest nieważne, każda interpretacja wyników musi to uwzględnić. Gdy próbka jest bardzo niereprezentatywna dla populacji, wówczas wyniki mogą być mylące. Gdy próbka jest reprezentatywna, mimo że nie jest losowa, wyniki będą całkowicie OK.

Następnym poziomem pytania jest następnie pytanie, w jaki sposób można zdecydować, czy nieprzypadkowość ma znaczenie w konkretnym przypadku. Nie mogę na to odpowiedzieć ;-)


5

Zadajesz bardzo ogólne pytanie, więc odpowiedź nie może być odpowiednia dla wszystkich przypadków. Mogę jednak wyjaśnić. Testy statystyczne ogólnie mają związek z obserwowanym rozkładem w porównaniu z rozkładem hipotetycznym (tak zwany rozkład zerowy lub hipoteza zerowa lub, w niektórych przypadkach, rozkład alternatywny). Próbki mogą być nieprzypadkowe, ale przeprowadzany test jest stosowany do pewnej wartości uzyskanej z próbek. Jeśli ta zmienna może mieć pewne właściwości stochastyczne, to jej rozkład jest porównywany z jakimś rozkładem alternatywnym. Liczy się zatem to, czy statystyka testowa próby zachowałaby się w przypadku innej interesującej populacji i czy założenia dotyczące alternatywnego lub zerowego rozkładu są istotne dla innej interesującej populacji.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.