Oprócz testu Durbina-Watsona, jakie testy hipotez mogą przynieść niejednoznaczne wyniki?

10

Statystyka testowa Durbin, Watson może leżeć w obszarze jednoznaczne, w których nie jest możliwe albo odrzucić czy nie odrzucenia hipotezy zerowej (w tym przypadku zero autokorelacji).

Jakie inne testy statystyczne mogą dać „niejednoznaczne” wyniki?

Czy istnieje ogólne wyjaśnienie (machanie ręką jest w porządku), dlaczego ten zestaw testów nie jest w stanie podjąć binarnej decyzji o „odrzuceniu” / „odmowie odrzucenia”?

Byłoby bonusem, gdyby ktoś mógł wspomnieć o implikacjach teoretycznych jako części odpowiedzi na drugie pytanie - czy obecność dodatkowej kategorii (nie) wniosków oznacza, że musimy wziąć pod uwagę koszty typu I i typu II błędy w bardziej wyrafinowany sposób?

hypothesis-testing statistical-significance decision-theory

— Silverfish
źródło

2

Trochę nie na temat, ale losowe testy mają taki smak. W przypadku niektórych wartości danych konieczne jest zrandomizowanie nad akceptowaniem i odrzucaniem.

— Christoph Hanck

@ChristophHanck dzięki, to było ciekawe połączenie, którego bym nie zauważył. Nie to, co zamierzałem, ale celowo utrzymywałem pytanie niejasno, mając nadzieję, że będzie to wszystko - w zależności od odpowiedzi, może później zacieśnić jego skupienie.

— Silverfish

10

Artykuł w Wikipedii wyjaśnia, że rozkład statystyki testowej pod hipotezą zerową zależy od macierzy projektowej - szczególnej konfiguracji wartości predykcyjnych używanych w regresji. Durbin i Watson obliczyli dolne granice dla statystyki testowej, zgodnie z którymi test dodatniej autokorelacji musi odrzucić, przy danych poziomach istotności, dla dowolnej matrycy projektowej, i górne granice, powyżej których test musi nie zostać odrzucony dla dowolnej matrycy projektowej. „Niejednoznaczny region” to tylko region, w którym należy obliczyć dokładne wartości krytyczne, biorąc pod uwagę macierz projektową, aby uzyskać jednoznaczną odpowiedź.

Analogiczną sytuacją byłoby wykonanie testu t dla pojedynczej próby, jeśli znasz tylko statystykę t, a nie wielkość próby ^† : 1,645 i 6,31 (odpowiadające nieskończonym stopniom swobody i tylko jednej) granice dla testu wielkości 0,05.

Jeśli chodzi o teorię decyzji - masz nowe źródło niepewności, które należy wziąć pod uwagę oprócz wariantu próbkowania, ale nie rozumiem, dlaczego nie powinno się go stosować w taki sam sposób, jak w przypadku złożonych hipotez zerowych. Jesteś w takiej samej sytuacji jak ktoś z nieznanym parametrem uciążliwości, niezależnie od tego, jak się tam dostałeś; więc jeśli musisz podjąć decyzję o odrzuceniu / zachowaniu przy jednoczesnym kontrolowaniu błędu Typu I nad wszystkimi możliwościami, odrzuć zachowawczo (tj. gdy statystyki Durbina-Watsona są poniżej dolnej granicy lub statystyki t powyżej 6,31).

† A może straciłeś swoje stoliki; ale pamięta niektóre wartości krytyczne dla standardowego Gaussa i wzór na funkcję kwantyli Cauchy'ego.

— Scortchi - Przywróć Monikę
źródło

(+1) Dzięki. Wiedziałem, że tak jest w przypadku testu Durbina-Watsona (powinienem był o tym wspomnieć w moim pytaniu), ale zastanawiałem się, czy to był przykład bardziej ogólnego zjawiska, a jeśli tak, to czy wszystkie działają zasadniczo w ten sam sposób. Domyślam się, że może się to zdarzyć na przykład podczas wykonywania niektórych testów, podczas gdy jeden ma dostęp tylko do danych podsumowujących (niekoniecznie w regresji), ale DW jest jedynym przypadkiem, który pamiętam, gdy górne i dolne wartości krytyczne zostały skompilowane i zestawione w tabeli . Jeśli masz jakieś przemyślenia na temat tego, w jaki sposób mogę lepiej ukierunkować pytanie, byłoby bardzo mile widziane.

— Silverfish

Pierwsze pytanie jest nieco niejasne („Jakie inne testy statystyczne [...]?”), Ale nie sądzę, że można by je wyjaśnić bez odpowiedzi na drugie („Czy istnieje ogólne wyjaśnienie [...]?”) siebie - ogólnie myślę, że jest w porządku na obecnym etapie.

— Scortchi - Przywróć Monikę

7

Innym przykładem testu z potencjalnie niejednoznacznymi wynikami jest test dwumianowy dla proporcji, gdy dostępna jest tylko proporcja, a nie wielkość próbki. Nie jest to całkowicie nierealne - często widzimy lub słyszymy słabo zgłoszone twierdzenia o formie „73% ludzi zgadza się, że ...” i tak dalej, gdy mianownik nie jest dostępny.

$H_0: \pi = 0.5$ $H_1: \pi \neq 0.5$ $\alpha = 0.05$

$p=5\%$ $\frac{1}{19}$ $5\%$ $\alpha = 0.05$

$p = 49\%$

$p=50\%$ $H_0$

$p=0\%$ $p=50\%$ $p=5\%$ $p=0\%$ $p=100\%$ $p=16\%$ $\Pr(X \leq 3) \approx 0.00221 < 0.025$ $p=17\%$ $\Pr(X \leq 1) \approx 0.109 > 0.025$ $p=16\%$ $p=18\%$ $\Pr(X \leq 2) \approx 0.0327 > 0.025$ $p=19\%$ $\Pr(X \leq 3) \approx 0.0106 < 0.025$

$p=24\%$ $p=13\%$ $\alpha=0.05$ : punkty poniżej linii są jednoznacznie znaczące, ale te powyżej nie są jednoznaczne. Wzór wartości p jest taki, że nie będzie pojedynczych dolnych i górnych granic obserwowanego procentu, aby wyniki były jednoznacznie znaczące.

Najmniej znacząca wartość p testu dwumianowego o nieznanej wielkości próbki

Kod R.

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(Kod zaokrąglania jest wycinany z tego pytania StackOverflow .)

— Silverfish
źródło