Jestem statystą noob, więc proszę, pomóżcie mi tutaj.
Moje pytanie brzmi: co właściwie oznacza łączna wariancja ?
Kiedy szukam formuły dla wariancji zbiorczej w Internecie, znajduję dużo literatury przy użyciu następującej formuły (na przykład tutaj: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistic_Tests/thispage/newnode19.html ):
Ale co to właściwie oblicza? Ponieważ kiedy używam tej formuły do obliczania mojej łącznej wariancji, daje to złą odpowiedź.
Rozważmy na przykład te „próbki nadrzędne”:
Wariacja tej próbki nadrzędnej wynosi , a jej średnia to .ˉ x p = 5
Załóżmy teraz, że podzieliłem tę próbkę nadrzędną na dwie podpróbki:
- Pierwsza podpróbka to 2,2,2,2,2 ze średnią i wariancją .S 2 1 =0
- Druga podpróbka to 8,8,8,8,8 ze średnią i wariancją .
Oczywiście, użycie powyższego wzoru do obliczenia wariancji zbiorczej / macierzystej tych dwóch podprób da zero, ponieważ i . Co tak naprawdę oblicza ta formuła ?
Z drugiej strony, po dłuższej derywacji, znalazłem formułę, która daje prawidłową wariancję puli / rodzica:
W powyższym wzorze, i .
Znalazłem podobną formułę z moją, na przykład tutaj: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html, a także w Wikipedii. Chociaż muszę przyznać, że nie wyglądają dokładnie tak samo jak moje.
A więc, co właściwie oznacza łączna wariancja? Czy nie powinno to oznaczać wariancji próbki macierzystej z dwóch podpróbek? Czy całkowicie się mylę?
Z góry dziękuję.
EDYCJA 1: Ktoś mówi, że moje dwie podpróbki powyżej są patologiczne, ponieważ mają zerową wariancję. Cóż, mogę podać inny przykład. Rozważ tę próbkę nadrzędną:
Wariacja tej próbki nadrzędnej wynosi , a jej średnia to .
Załóżmy teraz, że podzieliłem tę próbkę nadrzędną na dwie podpróbki:
- Pierwsza podpróbka to 1,2,3,4,5 ze średnią i wariancją .
- Druga podpróbka wynosi 46,47,48,49,50 ze średnią i wariancją .
Teraz, jeśli użyjesz „formuły literatury”, aby obliczyć wariancję z puli, otrzymasz wartość 2,5, co jest całkowicie błędne, ponieważ wariancja nadrzędna / z puli powinna wynosić 564,7. Zamiast tego, jeśli użyjesz „mojej formuły”, otrzymasz poprawną odpowiedź.
Proszę zrozumieć, używam tutaj ekstremalnych przykładów, aby pokazać ludziom, że formuła rzeczywiście jest zła. Jeśli użyję „normalnych danych”, które nie mają wielu odmian (ekstremalne przypadki), wówczas wyniki z tych dwóch formuł będą bardzo podobne, a ludzie mogą zignorować różnicę z powodu błędu zaokrąglenia, a nie dlatego, że sama formuła jest źle.