Najbardziej oczywistym powodem jest to, że w wartościach często nie ma sekwencji czasowej. Więc jeśli zbierzesz dane, nie ma to znaczenia w informacjach przekazywanych przez dane. Jeśli zastosujemy twoją metodę, to za każdym razem, gdy zbierzesz dane, otrzymujesz inną wariancję próbki.
Bardziej teoretyczną odpowiedzią jest to, że wariancja próbki szacuje prawdziwą wariancję zmiennej losowej. Prawdziwa wariancja zmiennej losowej to
E [ ( X - E X ) 2 ] .X
mi[ ( X- EX)2)] .
Tutaj oznacza oczekiwanie lub „wartość średnią”. Tak więc definicją wariancji jest średnia kwadratowa odległość między zmienną od jej średniej wartości. Gdy spojrzysz na tę definicję, nie ma tu „porządku czasowego”, ponieważ nie ma danych. Jest to tylko atrybut zmiennej losowej.mi
Kiedy zbierasz dane z tej dystrybucji, masz realizacje . Najlepszym sposobem oszacowania oczekiwań jest pobranie średnich próbek. Kluczem tutaj jest to, że otrzymaliśmy dane ID, a zatem nie ma kolejności danych. Próbka x 1 , x 2 , … , xx1, x2), … , Xn jest taka sama jak próbka x 2 , x 5 , x 1 , x n . .x1, x2), … , Xnx2), x5, x1, xn. .
EDYTOWAĆ
Wariancja próbki mierzy określony rodzaj dyspersji dla próbki, która mierzy średnią odległość od średniej. Istnieją inne rodzaje rozproszenia, takie jak zakres danych i zakres między-kwantylowy.
Nawet jeśli posortujesz wartości w porządku rosnącym, nie zmieni to właściwości próbki. Próbki (dane), które otrzymujesz, są realizacjami ze zmiennej. Obliczanie wariancji próbki jest podobne do zrozumienia, ile dyspersji jest w zmiennej. Na przykład, jeśli próbkujesz 20 osób i obliczasz ich wysokość, to są to 20 „realizacji” ze zmiennej losowej wzrost ludzi. Teraz wariancja próbki ma ogólnie mierzyć zmienność wysokości osobników. Jeśli zamówisz dane
100 , 110 , 123 , 124 , … ,X=
100 , 110 , 123 , 124 , … ,
to nie zmienia informacji w próbce.
Spójrzmy na jeszcze jeden przykład. załóżmy, że masz 100 obserwacji z losowej zmiennej uporządkowanej w ten sposób Zatem średnia kolejna odległość wynosi 1 jednostki, więc według twojej metody wariancja będzie wynosić 1.
1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.
Sposób interpretacji „wariancji” lub „dyspersji” polega na zrozumieniu, jaki zakres wartości jest prawdopodobny dla danych. W takim przypadku otrzymasz zakres 0,99 jednostki, co oczywiście nie reprezentuje dobrze tej zmiany.
Jeśli zamiast przyjąć średnią, po prostu zsumujesz kolejne różnice, wówczas twoja wariancja wyniesie 99. Oczywiście, że nie reprezentuje to zmienności w próbce, ponieważ 99 daje zakres danych, a nie poczucie zmienności.