Przedział ufności dla chi-kwadrat

10

Próbuję znaleźć rozwiązanie, aby porównać dwa testy „dobroci dopasowania chi-kwadrat”. Dokładniej, chcę porównać wyniki z dwóch niezależnych eksperymentów. W tych eksperymentach autorzy wykorzystali chi-kwadrat dobroci dopasowania, aby porównać losowe zgadywanie (częstotliwości oczekiwane) z częstotliwościami obserwowanymi. Dwa eksperymenty otrzymały taką samą liczbę uczestników, a procedury eksperymentalne są identyczne, zmieniono tylko bodźce. Wyniki dwóch eksperymentów wykazały znaczący chi-kwadrat (exp. 1: X² (18) = 45; p <.0005 i exp. 2: X² (18) = 79; p <.0001).

Teraz chcę przetestować, czy istnieje różnica między tymi dwoma wynikami. Myślę, że rozwiązaniem może być zastosowanie przedziałów ufności, ale nie wiem, jak obliczyć te przedziały ufności tylko z tymi wynikami. A może test do porównania wielkości efektu (w Cohena)?

Czy ktoś ma rozwiązanie?

Wielkie dzięki!

FD

r confidence-interval chi-squared

— Florian
źródło

1

Cześć Florian. Dlaczego nie zastosować testu permutacji dla różnicy między kwadratami chi?

— Tal Galili

Cześć i dziękuję za odpowiedź! Po prostu dlatego, że tak naprawdę nie znam testów permutacji. Czy można przeprowadzić permutację tylko z dwiema wartościami chi-kwadrat (nie mam surowych danych, tylko wyniki)? Jeszcze raz dziękuję :)

— Florian

8

Bardzo ograniczone informacje, które posiadasz, są z pewnością poważnym ograniczeniem! Jednak rzeczy nie są całkowicie beznadziejne.

Przy tych samych założeniach, które prowadzą do asymptotycznego rozkładu dla statystyki testowej testu dobroci dopasowania o tej samej nazwie, statystyka testowa według alternatywnej hipotezy ma asymptotycznie niecentralny rozkład . Jeśli założymy, że dwa bodźce są a) znaczące i b) mają ten sam efekt, powiązane statystyki testowe będą miały taki sam asymptotyczny niecentralny rozkład . Możemy to wykorzystać do skonstruowania testu - zasadniczo poprzez oszacowanie parametrów noncentrality i sprawdzając, czy statystyki testowe są daleko w ogonach w noncentral $\chi^2$ $\chi^2$ $\chi^2$ $\lambda$ $\chi^2(18, \hat{\lambda})$ dystrybucja. (Nie oznacza to jednak, że ten test będzie miał dużą moc.)

Możemy oszacować parametr niecentralności, biorąc pod uwagę dwie statystyki testowe, biorąc ich średnią i odejmując stopnie swobody (metoda estymatora momentów), dając oszacowanie 44, lub przez maksymalne prawdopodobieństwo:

x <- c(45, 79)
n <- 18

ll <- function(ncp, n, x) sum(dchisq(x, n, ncp, log=TRUE))
foo <- optimize(ll, c(30,60), n=n, x=x, maximum=TRUE)
> foo$maximum
[1] 43.67619

Dobra zgodność między naszymi dwoma szacunkami, nic dziwnego, biorąc pod uwagę dwa punkty danych i 18 stopni swobody. Teraz obliczyć wartość p:

> pchisq(x, n, foo$maximum)
[1] 0.1190264 0.8798421

Zatem nasza wartość p wynosi 0,12, co nie wystarcza do odrzucenia hipotezy zerowej, że oba bodźce są takie same.

$\lambda$ $\chi^2$ $(\lambda-\delta, \lambda+\delta)$ $\delta = 1, 2, \dots, 15$ $\delta$ i zobacz, jak często nasz test odrzuca, powiedzmy, na poziomie ufności 90% i 95%.

nreject05 <- nreject10 <- rep(0,16)
delta <- 0:15
lambda <- foo$maximum
for (d in delta)
{
  for (i in 1:10000)
  {
    x <- rchisq(2, n, ncp=c(lambda+d,lambda-d))
    lhat <- optimize(ll, c(5,95), n=n, x=x, maximum=TRUE)$maximum
    pval <- pchisq(min(x), n, lhat)
    nreject05[d+1] <- nreject05[d+1] + (pval < 0.05)
    nreject10[d+1] <- nreject10[d+1] + (pval < 0.10)
  }
}
preject05 <- nreject05 / 10000
preject10 <- nreject10 / 10000

plot(preject05~delta, type='l', lty=1, lwd=2,
     ylim = c(0, 0.4),
     xlab = "1/2 difference between NCPs",
     ylab = "Simulated rejection rates",
     main = "")
lines(preject10~delta, type='l', lty=2, lwd=2)
legend("topleft",legend=c(expression(paste(alpha, " = 0.05")),
                          expression(paste(alpha, " = 0.10"))),
       lty=c(1,2), lwd=2)

co daje:

wprowadź opis zdjęcia tutaj

Patrząc na prawdziwe punkty hipotezy zerowej (wartość na osi x = 0), widzimy, że test jest konserwatywny, ponieważ nie wydaje się odrzucać tak często, jak wskazuje poziom, ale nie w przeważającej mierze. Tak jak się spodziewaliśmy, nie ma dużej mocy, ale jest lepszy niż nic. Zastanawiam się, czy istnieją lepsze testy, biorąc pod uwagę bardzo ograniczoną ilość dostępnych informacji.

— łucznik
źródło

Jestem początkującym w tym temacie, czy mogę prosić o uruchomienie skryptu (jeśli był to skrypt) z odpowiedzi jbowman. W moim przypadku spróbuj uzyskać OR z 90% CI. Jestem naprawdę wdzięczny, jeśli ktoś z was może mi to wytłumaczyć i używam PASW17

Cześć Ash6. W rzeczywistości jest to skrypt dla oprogramowania R (więcej informacji: r-project.org ), a nie składnia dla PASW17. Więc ten skrypt można uruchomić bezpośrednio w konsoli R. Ten skrypt nie oblicza przedziałów ufności, ale podaje wartość p (tutaj dokładnie> pchisq (x, n, foo $ maximum ==> [1] wartość p = 0,1190264) odpowiadającą testowi różnicy między 2 eksperymentami (tutaj pomiędzy dwoma bodźcami, w przypadku hipotezy alternatywnej), a tutaj nie możemy odrzucić hipotezy zerowej, że dwa eksperymenty dały takie same wyniki

— Florian

3

Można uzyskać V Cramera, który można interpretować jako korelację, przekonwertować go na Z. Fishera, a następnie przedział ufności jest prosty (SE = 1 / sqrt (n-3): Z ± se * 1,96). Po uzyskaniu końcówek CI możesz przekonwertować je z powrotem na r.

Czy zastanawiałeś się nad umieszczeniem wszystkich swoich wyników w tabeli awaryjnej z dalszym wymiarem eksperymentu?

— Jan
źródło

Myślałem, że nie jest możliwe użycie Phi z dobrością dopasowania chi-kwadrat Pearsona (1 zmienna). Właśnie dlatego mówiłem o w Cohena, ale formuły są naprawdę podobne (phi = X² / n i w = sqrt (X² / n))! Ale jeśli można obliczyć phi za pomocą tego testu i zastosować transformację r do z, czy zgodziłbyś się podać nam odniesienie do wyceny? Chcielibyśmy użyć tego testu w artykule, a niewielu recenzentów może być bardzo wybrednych ze statystykami. To byłaby dla nas świetna pomoc! O twoim pytaniu: nie mamy nieprzetworzonych danych tylko wartość X², df i p z opublikowanego artykułu. Bardzo dziękuję za Twoją pomoc!

— Florian

Przepraszam ... chciałem odłożyć Cramera V, nie phi. Cramer V może być używany jak phi.

— Jan

I nie, nie mam cytatu. Jeśli masz duży efekt, nie będzie miało znaczenia, czy w tym pomiarze występuje niewielki błąd. Jeśli nie masz dużego efektu, upewnij się, że nie robisz dużych kości na podstawie „znaczenia” jakiegokolwiek testu.

— Jan