Dlaczego pierwiastek kwadratowy jest pobierany dla liczby próbek „N” we wzorze odchylenia standardowego?

9

Próbuję zrozumieć bardzo podstawową koncepcję odchylenia standardowego.

Ze wzoru $\sigma= \sqrt{ \dfrac{ \sum\limits_{i=1}^n (x_i-\mu)^2} N }$

Nie rozumiem, dlaczego powinniśmy zmniejszyć o połowę populację „N”, tj. Dlaczego chcemy wziąć $\sqrt{N}$ kiedy tego nie zrobiliśmy ${N^2}$ ? Czy to nie wypacza populacji, którą rozważamy?

To nie powinna być formuła $\sigma= \dfrac{ \sqrt{ \sum\limits_{i=1}^n (x_i-\mu)^2} } {N}$

standard-deviation

— Mahesh Subramaniya
źródło

10

Próbujesz znaleźć „typowe” odchylenie od średniej.

Wariancja to „średnia kwadratowa odległość od średniej”.

Odchylenie standardowe jest pierwiastkiem kwadratowym z tego.

To sprawia, że jest to odchylenie średniej kwadratowej od średniej.

Dlaczego mielibyśmy stosować średnie kwadratowe odchylenie? Co sprawia, że wariancja jest interesująca? Między innymi z powodu podstawowego faktu na temat wariancji - że wariancja sumy nieskorelowanych zmiennych jest sumą poszczególnych wariancji. (Jest to omówione w wielu pytaniach, np. Tutaj w CrossValidated. Ta przydatna funkcja nie jest udostępniana na przykład przez średnie bezwzględne odchylenie.
Po co przyjmować pierwiastek kwadratowy z tego? Ponieważ wtedy jest w tych samych jednostkach, co oryginalne obserwacje. Mierzy szczególny rodzaj „typowej odległości” od średniej (jak wspomniano, odległość RMS) - ale z powodu powyższej właściwości wariancji - takiej, która ma kilka fajnych cech.

— Glen_b - Przywróć Monikę
źródło

7

Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji .

Wariancja to średnia kwadratowa odległość danych od średniej. Ponieważ średnia jest sumą podzieloną przez liczbę zsumowanych elementów, wzór na wariancję jest następujący:

Var (X) = E [(X - μ)^{2}] = \frac{\sum_{i = 1}^{N} (x_{i} - μ)^{2}}{N}

$\text{Var}(X)=\text{E}[(X-\mu)^2] = \frac{\sum_{i=1}^N(x_i-\mu)^2}{N}$ Ponownie, odchylenie standardowe jest po prostu pierwiastkiem kwadratowym tego, formuła odchylenia standardowego jest następująca:

S.D. (X) = \sqrt{Var (X)} = \sqrt{\frac{\sum_{i = 1}^{N} (x_{i} - μ)^{2}}{N}}

$\text{S.D.}(X)=\sqrt{\text{Var}(X)} = \sqrt{\frac{\sum_{i=1}^N(x_i-\mu)^2}{N}}$ Nic nie zostało dodane lub zmienione na temat założeń lub wariancji tutaj, po prostu wziął pierwiastek kwadratowy z wariancji, ponieważ to, co odchylenie standardowe jest .

— gung - Przywróć Monikę
źródło

może należy wspomnieć, że ta formuła wariancji jest prawdziwa tylko dla dyskretnych mundurów. w przeciwnym razie mogłoby to wprowadzić w błąd rozróżnienie między wariancją próby a populacją

— Taylor

@Taylor, nie wiem o co ci chodzi. Wzór na wariancję nie jest związany z rozkładem.

— gung - Przywróć Monikę

formuła wariancji (przykładowej) nie ma związku z rozkładem ( en.wikipedia.org/wiki/Expected_value#Definition )

— Taylor

@Taylor, wciąż nie wiem, co masz na myśli. Wzór na wariancję nie jest związany z rozkładem. Cytując na stronie Wikipedii, „wariancja zmiennej losowej X jest oczekiwaną wartością kwadratowego odchylenia od średniej X…

Var (X) = E [(X - μ)^{2}]

$\operatorname{Var}( X ) = E⁡[(X − μ)^2]$ . Definicja ta obejmuje zmienne losowe generowane przez procesy dyskretne, ciągłe, ani mieszane. ”Wzór nie dotyczy tylko dyskretnego munduru.

— Gung - Przywróć Monikę

Tak, zgadza się, jeśli weźmiesz , ale niekoniecznie musi być równy, dla dowolnej zmiennej losowej ,

μ = E X

$\mu = EX$

E [(X - μ)^{2}]

$E[(X-\mu)^2]$

X

$X$

\frac{1}{N} \sum_{i} (x_{i} - μ)^{2}

$\frac{1}{N}\sum_i(x_i - \mu)^2$ . Po pierwsze, pierwsza jest stała, a druga losowa. W rzeczywistości nie jest jasne, czy suma przekracza obsługę

X

$X$ lub liczba próbek. Jeśli to drugie, to dziwne, że wiesz

μ

$\mu$ , co jest rzadkie w praktyce. Jeśli to pierwsze, to tak, dotyczy to tylko dyskretnych (ponieważ jest to suma) mundurów (ponieważ wszystkie wagi są jednolite).

— Taylor,

1

Pierwszą rzeczą do zrozumienia jest to, że odchylenie standardowe (std) różni się od średniego odchylenia bezwzględnego . Te dwa definiują różne właściwości matematyczne dotyczące danych.

W przeciwieństwie do średniego odchylenia bezwzględnego, odchylenie standardowe (std) waży więcej do wartości, które są dalekie od średniej, co odbywa się poprzez podniesienie do kwadratu wartości różnicy.

Np. Dla następujących czterech punktów danych:

\begin{array}{ccc} D a t a (x) & | x - m e a n | & (x - m e a n)^{2} \\ 2 & 2 & 4 \\ - 2 & 2 & 4 \\ - 6 & 6 & 36 \\ 6 & 6 & 36 \\ \sum x = 0 & \sum (| x - m e a n |) = 16 & \sum (x - m e a n)^{2} = 80 \end{array}

$\begin{array}{|c|c|c|} \hline Data (x)& |x - mean| & (x-mean)^2 \\ \hline 2 & 2 & 4\\ \hline -2 &2 &4\\ \hline -6 &6 &36\\ \hline 6 &6 &36\\ \hline \sum x =0 & \sum (|x-mean|) = 16 & \sum (x-mean)^2 = 80 \end{array}$

średnie bezwzględne odchylenie (aad) , oraz $= 16/4 = 4.0$

Odchylenie standardowe (standardowe) = $\sqrt{80/4} = \sqrt 20 = 4.47$

W danych są dwa punkty oddalone od średniej o 6, a dwa punkty oddalone od średniej o 2. Odchylenie 4,47 ma więc większy sens niż 4.

Ponieważ całkowita obserwacja jest zawsze , do obliczenia standardu nie nurkujemy przez , zamiast tego dzielimy całkowitą wariancję przez i bierzemy pierwiastek kwadratowy, aby doprowadzić ją do tej samej jednostki, co oryginalne dane. $N$ $\sqrt N$ $N$

— aumpen
źródło

0

@Mahesh Subramaniya - To jest po prostu matematyka . Kiedy mamy oryginalną wartość jak $a/b = (-)d$ . Możemy uzyskać tę samą wartość za pomocą tych dwóch równań ${a}^2\diagup{b}=c$ i $\sqrt{c\diagup{b}}=d$ .

Np. Po prostu zrób to ${-5}\diagup{2}$ = $-2.5$ . Ale chcemy tylko wartości, a nie minus.

Teraz, ${-5}^2\diagup{2}=12.5$ . I , $\sqrt{12.5\diagup{2}}=2.5$

— Ellephy
źródło