Czy są jakieś „ezoteryczne” testy statystyczne o bardzo niskiej mocy?

tło

W informatyce, matematyce, a czasem także w innych dziedzinach, przykłady „ezoteryczne” mogą być nie tylko zabawne, ale także pomocne w zilustrowaniu niektórych pojęć, na przykład:

Bogosort i Slowsort to bardzo nieefektywne algorytmy sortowania, które można wykorzystać do zrozumienia właściwości algorytmów, w szczególności w porównaniu z innymi algorytmami sortowania.
Ezoteryczne języki programowania pokazują, jak daleko idąca jest koncepcja języka programowania i pomagają docenić dobre języki programowania.
Funkcja Weierstraß i funkcja Dirichleta znajdują zastosowanie przede wszystkim w celu zilustrowania pewnych nieporozumień dotyczących pojęcia ciągłości.

Obecnie przygotowuję nauczanie na temat stosowania testów hipotez i sądzę, że posiadanie testu o bardzo niskiej mocy (ale bez innych wad) pomogłoby zilustrować pojęcie władzy statystycznej. (Oczywiście nadal muszę sam zdecydować, czy dany przykład jest przydatny dydaktycznie dla moich odbiorców, czy po prostu mylący).

Rzeczywiste pytanie

Czy są jakieś testy statystyczne o celowo niskiej mocy, a dokładniej:

Test mieści się w ogólnych ramach testów hipotez, tzn. Działa z hipotezą zerową, ma wymagania i zwraca (poprawną) wartość p .
Nie jest przeznaczony / proponowany do poważnego zastosowania.
Ma bardzo niską moc (z powodu celowej wady projektowej, a nie z powodu małej wielkości próbki lub efektu).

Jeśli możesz zasadniczo argumentować, że taki test nie może istnieć, uważam to również za prawidłową odpowiedź na moje pytanie. Z drugiej strony, jeśli istnieje mnóstwo takich testów, interesuje mnie najbardziej wydajny dydaktycznie, tj. Powinien on być łatwo dostępny i mieć uderzający efekt.

Zauważ, że nie proszę o ogólny wybór błędów statystycznych (zbieranie wiśni itp.) Lub podobnych.

Co znalazłem do tej pory

Wyszukiwania internetowe nic mi nie zwróciły.

Każda próba skonstruowania czegoś takiego kończyła się albo jakimś (użytecznym) istniejącym testem, albo format nie jest zwykłym testem. Na przykład myślałem o teście, czy populacja ma pozytywną medianę, która zwraca tylko tak, jeśli wszystkie próbki są pozytywne; ale ten test nie zwraca wartości p, a zatem nie pasuje do zwykłych ram testowych. Jeśli po prostu policzę znaki dodatnie i ujemne jako statystykę testową (i odpowiednio obliczę wartości p ), skończę z testem znakowym , który jest rozsądnym testem.

hypothesis-testing teaching humor

— Wrzlprmft
źródło

Będąc bardziej matematycznymi, „ezoterycznymi” przykładami (które są liczne) są zwykle kontrprzykładami popularnych nieporozumień; wiele podręczników zawiera takie przykłady. Na obecnym etapie twoje pytanie jest zasadniczo pytaniem typu „duża lista”, a zatem jest zbyt szerokie (chociaż należy zauważyć, że kilku użytkowników uznało, że pytanie jest niejasne); jeśli możesz wyjaśnić swoje pytanie i zawęzić jego zakres, może lepiej pasować do witryny.

— Glen_b

Niska moc w porównaniu do czego? Lehmann podał przykład uogólnionego testu ilorazu wiarygodności, który miał mniejszą moc pod jakąkolwiek alternatywną hipotezą niż pod zerą.

— Scortchi - Przywróć Monikę

Każdy z głupich estymatorów, do których zastosujesz Rao-Blackwellization, może być użyty jako statystyka testowa. Na przykład pierwsza próbka jest używana w estymatorze średniej. Kiedy Rao-Blackwellized, otrzymujesz średnią próbki. Musiałem wykonać wiele takich ćwiczeń w klasie. W każdym razie, ta statystyka mogłaby zostać użyta zamiast średniej próbki w czymś w rodzaju testu . Ale nie, nie mogę wymyślić niczego bezpośrednio w formie, której szukasz, inaczej pisałbym odpowiedź, a nie komentarz. Ale musi być coś, co ilustruje niepowodzenie ogólnej metody konstrukcji testowej.

t

$t$

— user54038

Wykopię gazetę Lehmanna, gdy będę przy komputerze. Moc testu poniżej zera jest tylko rozmiarem testu.

— Scortchi - Przywróć Monikę

Przykładowy test zastosowany w klasie, w której byłem studentem (wiele lat temu), polegał na „rzucie rzetelną 20-stronną kostką i odrzuceniu, jeśli rzucisz 1” (w ramach dyskusji krzywych mocy). To oczywiście całkowicie ignoruje dane, ale jest to „prawidłowy” test, ponieważ nie ma wyższego poziomu błędu niż pożądany typ I (który wynosił 5% w kontekście podanym w przykładzie).

— Glen_b

Odpowiedzi:

Następuje niewielka uwaga na temat lematu Neymana – Pearsona (dowód w Geisser (2006), Tryby parametrycznego wnioskowania statystycznego , roz. 4.4): definiuje najmniej skuteczny test poziomu , , hipotezy zerowej gęstość vs gęstość z danych .

E ϕ (X) = α

$\operatorname{E}\phi(X)=\alpha$

ϕ (x) = {\begin{cases} 0 & when f_{0} (x) < k f_{1} (x) \\ 1 & when f_{0} (x) > k f_{1} (x) \end{cases}

$\phi(x) = \begin{cases} 0\ & \text{when $f_0(x) < kf_1(x)$} \\ 1\ & \text{when $f_0(x) > kf_1(x)$} \end{cases}$

α

$\alpha$

ϕ

$\phi$

H_{0} :

$H_0:$

f_{0}

$f_0$

H_{1} :

$H_1:$

f_{1}

$f_1$

x

$x$

Na podstawie tego wyniku można uzyskać jednolicie najmniej potężne, lokalnie najmniej potężne, jednolicie najmniej potężne podobne i najmniej skuteczne „całkowicie stronnicze” testy (mam na myśli te o niższej mocy pod jakąkolwiek alternatywą niż pod zerą). Jeśli masz już najbardziej jednorodnie najpotężniejszy, & c. test, wystarczy pomnożyć statystykę testową przez -1, aby zachować partycjonowanie przestrzeni próbki, którą ona wywołuje podczas odwracania kolejności partycji.

Być może, jak sugeruje @ user54038, „niepowodzenie ogólnej metody konstrukcji testowej” może być bardziej interesujące. Lehmann (1950), „Niektóre zasady teorii testowania hipotez statystycznych”, Ann. Matematyka Statystyk. , 21 , 1, przypisuje następujący przykład Steinowi:

Niech będzie losową zmienną zdolną do przyjmowania wartości z prawdopodobieństwami, jak wskazano: $X$ $0, \pm 1, \pm 2$

$\begin{array}{rccccc} - 2 & 2 & - 1 & 1 & 0 \\ Hypothesis H : & \frac{α}{2} & \frac{α}{2} & \frac{1}{2} - α & \frac{1}{2} - α & α \\ Alternatives: & p C & (1 - p) C & \frac{1 - C}{1 - α} (\frac{1}{2} - α) & \frac{1 - C}{1 - α} (\frac{1}{2} - α) & α \frac{1 - c}{1 - α} \end{array}$ $\begin{array}{r c c c c c} & -2 & 2 & -1 & 1 & 0 \\ \hline \text{Hypothesis $H$:} & \frac{\alpha}{2} & \frac{\alpha}{2} & \frac{1}{2} - \alpha & \frac{1}{2} - \alpha & \alpha\\ \hline \text{Alternatives:} & pC & (1-p)C & \frac{1-C}{1-\alpha}\left(\frac{1}{2}-\alpha\right) & \frac{1-C}{1-\alpha}\left(\frac{1}{2}-\alpha\right) & \alpha\frac{1-c}{1-\alpha}\\ \end{array}$ Tutaj, , , są stałymi , , a przedziały w przedziale . $\alpha$ $C$ $0 < \alpha \leq \frac{1}{2}$ $\frac{\alpha}{2-\alpha}< C <\alpha$ $p$ $[0,1]$

Pożądane jest przetestowanie hipotezy na poziomie istotności . Test współczynnika prawdopodobieństwa odrzuca, gdy , a zatem jego moc wynosi stosunku do każdej alternatywy. Ponieważ , test ten jest dosłownie gorszy niż bezużyteczny, ponieważ test z mocą można uzyskać bez przestrzegania w ogóle, po prostu za pomocą tabeli liczb losowych. $H$ $\alpha$ $X=\pm2$ $C$ $C<\alpha$ $\alpha$ $X$

Zauważ, że bierze pod uwagę uogólniony test prawdopodobieństwa, przy czym w roli parametru uciążliwego należy zmaksymalizować. Tak więc, gdy lub , odpowiednio lub , a iloraz prawdopodobieństwa wynosi w obu przypadkach; dla każdej innej wartości jest to niższa wartość . $p$ $X=-2$ $X=2$ $\hat p=1$ $\hat p=0$ $\frac{2C}{\alpha}$ $X$ $\frac{1-C}{1-\alpha}$

— Scortchi
źródło

(Powiązane z komentarzem @Scortchi)

Załóżmy, że i chcemy przetestować hipotezę $X \sim N(\mu, 1)$

\begin{aligned} H_{0} & : μ = 0 \\ H_{1} & : μ \neq 0 \end{aligned}

$\begin{align*} H_0&: \mu = 0 \\ H_1&: \mu \neq 0 \end{align*}$

Ze względu na esetoryzm powiększmy nasze dane o niezależne „rzucie monetą” gdzie jest znane i nie mniejsze niż poziom istotności (tj. ). Rozważ regiony odrzucenia formularza: $Z \sim Bernoulli(p)$ $p$ $\alpha$ $p \in [\alpha, 1]$

R = {(X, Z) | z = 1 \land | x | > Φ^{- 1} (\frac{α}{2 p})}

$R = \left\{(X, Z) \ | \ z = 1 \ \wedge |x| > \Phi^{-1}\left(\frac{\alpha}{2p}\right) \right\}$

Z założenia jest to prawidłowy test rozmiaru . $\alpha$

\begin{aligned} P (X \in R | μ = 0) & = P (Z = 1, | X | > Φ^{- 1} (\frac{α}{2 p})) \\ = P (Z = 1) P (| X | > Φ^{- 1} (\frac{α}{2 p})) \\ = p \frac{α}{p} = α \end{aligned}

$\begin{align*} P(X\in R \ | \ \mu=0) &= P\left(Z=1 \ , \ |X| > \Phi^{-1}\left(\frac{\alpha}{2p}\right)\right) \\ &= P(Z=1)P\left(|X| > \Phi^{-1}\left(\frac{\alpha}{2p}\right)\right) \\ &= p\frac{\alpha}{p} = \alpha \end{align*}$

Moc tego testu nigdy nie może być jednak większa niż . Załóżmy na przykład, że nasze zaobserwowane dane to . Oczywiste jest, że hipotezę zerową należy odrzucić, ale ponieważ nasza moneta „pokazuje ogony”, nie odrzucamy zerowej. Ustawienie prowadzi do jeszcze głupszego przykładu, w którym region odrzucenia wcale nie zależy od , ale nadal jest prawidłowym regionem odrzucenia o rozmiarze . $p$ $(x, z) = (1000000, 0)$ $p=\alpha$ $X$ $\alpha$

Podobne pytanie można zadać jako zadanie domowe, zmieniając punkt przecięcia na związek w regionie odrzucenia. Ten region jest jednakowo mniej potężny niż region bez , ale jest bardziej rozsądny w tym sensie, że moc nie ma górnej granicy. $Z$

— obrotami
źródło

(+1) Ściśle powiązane, ponieważ mając jednowymiarową pomocniczą statystykę , możesz zrezygnować z monetą, pozwalając , gdzie jest funkcją rozkładu .

S

$S$

Z = 1 (S < F_{S}^{- 1} (p))

$Z=\boldsymbol{1}(S<F_S^{-1}(p))$

F_{S} (\cdot)

$F_S(\cdot)$

S

$S$

— Scortchi - Przywróć Monikę