Patrzę na arkusz programu Excel, który twierdzi, że oblicza $\chi^2$ , ale nie rozpoznaję tego sposobu i zastanawiałem się, czy coś mi umknęło.

Oto dane, które analizuje:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

A oto sumy, które robi dla każdej grupy, aby obliczyć chi kwadrat:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Tak więc dla każdej grupy $\chi^2$ jest:

A łączna wartość chi-kwadrat jest: 11.54139.

Jednak każdy przykład, jaki widziałem obliczania $\chi^2$ jest zupełnie inny od tego. Zrobiłbym dla każdej grupy:

chiSq = (Observed-Expected)^2 / Expected

I dlatego dla powyższego przykładu uzyskałbym całkowitą wartość chi kwadrat 11.3538.

Moje pytanie brzmi - dlaczego w arkuszu programu Excel obliczają $\chi^2$ w ten sposób? Czy to uznane podejście?

AKTUALIZACJA

Moim powodem, dla którego chcę to wiedzieć, jest to, że próbuję powtórzyć te wyniki w języku R. Korzystam z funkcji chisq.test i nie wychodzi ona z tym samym numerem co arkusz Excela. Więc jeśli ktoś wie, jak zastosować to podejście w R, byłoby bardzo pomocne!

AKTUALIZACJA 2

Jeśli ktoś jest zainteresowany, oto jak obliczyłem to w R:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)

r chi-squared excel

— użytkownik1578653
źródło

Podejście w drugiej aktualizacji powinno dać poprawną statystykę. Jeśli jednak twoje oczekiwania nie są oparte na sumie zaobserwowanych, możesz mieć problem, ponieważ warunkuje tam wartość p. Zauważam jednak, że oczekiwane i zaobserwowane mają taką samą sumę (mało prawdopodobne, że nastąpi to przypadkowo), więc prawdopodobnie wszystko jest w porządku. Możesz to zrobić łatwiej:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))

— Glen_b

@Glen_b W arkuszu programu Excel uważam, że oczekiwania zostały wypracowane przez wykonanie Populacji ogółem * wartości „P”, którą wypracowałem powyżej. Czy to będzie problem? Również całkowita populacja jest różna - w większości jest to 2000, ale może to być naprawdę dowolna liczba. Arkusz Excela, który próbuję tutaj odtworzyć, nie bierze pod uwagę wartości p, więc jeśli nie wpłynie to na statystyki, to może nie jest to problem ...

— user1578653

Pytanie sprowadza się do tego, skąd pochodzą litery p. Czy wymagają spojrzenia na całkowitą zaobserwowaną liczbę?

— Glen_b

Cóż, dla mnie wygląda to na Ps, a zatem oczekiwane jest oparte zarówno na całkowitej liczbie zaobserwowanych, jak i na całkowitej populacji ... Jednak we wszystkich przykładach, które podano w arkuszu Excela, oczekiwana wartość również wydaje się odpowiadać wartości całkowita obserwowana liczba / liczba zliczeń.

— user1578653

Jeśli p są oparte na obliczeniach w ten sposób, oczywiście następują oczekiwania. W takim przypadku wygląda to na stopnie swobody i tak jest w porządku, tak jak zrobiłeś to w R - ale kilka słów mojego wyjaśnienia może wymagać zmiany.

— Glen_b

To okazuje się dość proste.

Jest to wyraźnie dwumianowe próbkowanie. Są na to dwa sposoby.

Metoda 1, czyli z arkusza kalkulacyjnego, służy do leczenia zaobserwowanych zliczeń $X_i$ tak jak $\sim \text{Bin}(N_i,p_i)$ , które mogą być przybliżone jako $\text{N}(\mu_i=N_i\cdot p_i,\sigma_i^2=N_i\cdot p_i(1-p_i))$ . Takie jak, $Z_i=(X_i-\mu_i)/\sigma_i$ są w przybliżeniu standardowe normalne, a $Z$ są niezależne, więc (w przybliżeniu) $\sum_i Z_i^2\sim \chi^2$ .

(Jeśli p są oparte na obserwowanych liczbach, to $Z$ nie są niezależne, ale wciąż ma kwadrat chi z jednym mniejszym stopniem swobody.)

Metoda 2: korzystanie z $(O-E)^2/E$ forma chi-kwadrat również działa, ale wymaga uwzględnienia nie tylko tych w kategorii, którą oznaczyłeś jako „Obserwowane”, ale także tych, które nie należą do tej kategorii:

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

Gdzie $E$ dla pierwszej kolumny są takie, jakie masz, a dla drugiej kolumny są $N_i(1-p_i)$

... a następnie suma $(O-E)^2/E$ w obu kolumnach.

Te dwie formy są algebraicznie równoważne. Zauważ, że $1/p + 1/(1-p) = 1/p(1-p)$ . Rozważ i $^{th}$ rząd kwadratu chi:

\begin{array}{rcl} \frac{(X_{i} - μ_{i})^{2}}{σ_{i}^{2}} & = & \frac{(X_{i} - N_{i} p_{i})^{2}}{N_{i} p_{i} (1 - p_{i})} \\ = & \frac{(X_{i} - N_{i} p_{i})^{2}}{N_{i} p_{i}} + \frac{(X_{i} - N_{i} p_{i})^{2}}{N_{i} (1 - p_{i})} \\ = & \frac{(X_{i} - N_{i} p_{i})^{2}}{N_{i} p_{i}} + \frac{(N_{i} - N_{i} + N_{i} p_{i} - X_{i})^{2}}{N_{i} (1 - p_{i})} \\ = & \frac{(X_{i} - N_{i} p_{i})^{2}}{N_{i} p_{i}} + \frac{(N_{i} - X_{i} - (N_{i} - N_{i} p_{i}))^{2}}{N_{i} (1 - p_{i})} \\ = & \frac{(X_{i} - N_{i} p_{i})^{2}}{N_{i} p_{i}} + \frac{((N_{i} - X_{i}) - N_{i} (1 - p_{i}))^{2}}{N_{i} (1 - p_{i})} \\ = & \frac{(O_{i}^{(A)} - E_{i}^{(A)})^{2}}{E_{i}^{(A)}} + \frac{(O_{i}^{(\bar{A})} - E_{i}^{(\bar{A})})^{2}}{E_{i}^{(\bar{A})}} \end{array}

$\begin{eqnarray} \frac{(X_i - \mu_i)^2}{\sigma_i^2} &=& \frac{(X_i- N_ip_i)^2}{N_ip_i(1-p_i)}\\ &=& \frac{(X_i- N_ip_i)^2}{N_ip_i} +\frac{(X_i- N_ip_i)^2}{N_i(1-p_i)}\\ &=& \frac{(X_i- N_ip_i)^2}{N_ip_i} +\frac{(N_i-N_i+N_ip_i-X_i)^2}{N_i(1-p_i)}\\ &=& \frac{(X_i- N_ip_i)^2}{N_ip_i} +\frac{(N_i-X_i-(N_i-N_ip_i))^2}{N_i(1-p_i)}\\ &=& \frac{(X_i- N_ip_i)^2}{N_ip_i} +\frac{((N_i-X_i)-N_i(1-p_i))^2}{N_i(1-p_i)}\\ &=& \frac{(O^{(A)}_i- E^{(A)}_i)^2}{E^{(A)}_i} +\frac{(O^{(\bar A)}_i-E^{(\bar A)}_i)^2}{E^{(\bar A)}_i} \end{eqnarray}$

Co oznacza, że powinieneś otrzymać tę samą odpowiedź w obie strony, aż do błędu zaokrąglania.

Zobaczmy:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649

Chi-kwadrat = 11,353846 + 0,187548 = 11,54139

Która pasuje do ich odpowiedzi.

— Glen_b - Przywróć Monikę
źródło

Dzięki za pomoc! Nie jestem matematykiem / statystykiem, więc początkowo to mnie pomieszało, ale twoje wyjaśnienie jest bardzo łatwe do zrozumienia.

— user1578653

Dziwny sposób obliczania chi-kwadrat w Excelu vs R.

AKTUALIZACJA

AKTUALIZACJA 2