Próbuję zrozumieć różnicę między błędem standardowym a odchyleniem standardowym. Czym się różnią i dlaczego należy zmierzyć błąd standardowy?
Próbuję zrozumieć różnicę między błędem standardowym a odchyleniem standardowym. Czym się różnią i dlaczego należy zmierzyć błąd standardowy?
Odpowiedzi:
Aby uzupełnić odpowiedź na pytanie, Ocram ładnie rozwiązał standardowy błąd, ale nie przeciwstawił go standardowemu odchyleniu i nie wspomniał o zależności od wielkości próby. Jako szczególny przypadek estymatora rozważ średnią z próby. Standardowy błąd dla średniej to gdzieto odchylenie standardowe populacji. W tym przykładzie wyraźnie widzimy, jak błąd standardowy zmniejsza się wraz ze wzrostem wielkości próby. Odchylenie standardowe jest najczęściej stosowane w odniesieniu do poszczególnych obserwacji. Tak więc odchylenie standardowe opisuje zmienność poszczególnych obserwacji, podczas gdy błąd standardowy pokazuje zmienność estymatora. Dobre estymatory są spójne, co oznacza, że są zbieżne z prawdziwą wartością parametru. Gdy ich błąd standardowy zmniejsza się do 0 wraz ze wzrostem wielkości próby, estymatory są spójne, co w większości przypadków się zdarza, ponieważ błąd standardowy idzie do 0, co widzimy wyraźnie ze średnią próbki.
Oto bardziej praktyczna (a nie matematyczna) odpowiedź:
Pamiętaj, że standardowe błędy można obliczyć dla prawie każdego parametru obliczanego na podstawie danych, a nie tylko średniej. Wyrażenie „błąd standardowy” jest nieco niejednoznaczne. Powyższe punkty odnoszą się tylko do standardowego błędu średniej.
(Z przewodnika statystycznego GraphPad, który napisałem.)
(zwróć uwagę, że skupiam się na standardowym błędzie średniej, który moim zdaniem również był pytający, ale możesz wygenerować standardowy błąd dla dowolnej statystyki próbki)
Błąd standardowy związany jest ze standardowym odchyleniem, ale nie są one tym samym, a zwiększenie wielkości próbki nie zbliża ich do siebie. Raczej czyni je bardziej oddalonymi od siebie. Odchylenie standardowe próbki zbliża się do odchylenia standardowego populacji wraz ze wzrostem wielkości próby, ale nie standardowym błędem.
Czasami terminologia wokół tego jest trochę gruba, aby się z nią zapoznać.
Po zebraniu próbki i obliczeniu standardowego odchylenia dla tej próbki, gdy próbka powiększa się, oszacowanie standardowego odchylenia staje się coraz bardziej dokładne. Z twojego pytania wynika, że właśnie o tym myślałeś. Należy również wziąć pod uwagę, że średnia z próby jest zwykle bliższa średniej dla populacji. Ma to kluczowe znaczenie dla zrozumienia standardowego błędu.
Standardowy błąd dotyczy tego, co by się stało, gdybyś otrzymał wiele próbek o danym rozmiarze. Jeśli weźmiesz próbkę 10, możesz uzyskać oszacowanie średniej. Następnie bierzesz kolejną próbkę 10 i nowe średnie oszacowanie i tak dalej. Standardowe odchylenie średnich z tych próbek jest błędem standardowym. Biorąc pod uwagę, że postawiłeś pytanie, prawdopodobnie teraz widzisz, że jeśli N jest wysokie, to błąd standardowy jest mniejszy, ponieważ średnie prawdopodobieństwo, że próbki będą znacznie różnić się od prawdziwej wartości.
Dla niektórych brzmi to trochę cudownie, biorąc pod uwagę, że obliczono to na podstawie jednej próbki. Tak więc, co możesz zrobić, to załadować standardowy błąd poprzez symulację, aby zademonstrować związek. W R wyglądałoby to tak:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
Przekonasz się, że te dwa ostatnie polecenia generują tę samą liczbę (w przybliżeniu). Możesz zmieniać wartości n, m i s, a one zawsze będą zbliżać się do siebie.