Rozważ losowy zestaw liczb, które są zwykle dystrybuowane:
x <- rnorm(n=1000, mean=10)
Chcielibyśmy poznać średnią i błąd standardowy średniej, dlatego wykonujemy następujące czynności:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
Świetny!
Załóżmy jednak, że niekoniecznie wiemy, że nasza pierwotna dystrybucja przebiega normalnie. Logujemy transformacje danych i wykonujemy te same standardowe obliczenia błędów.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Fajnie, ale teraz musimy dokonać transformacji wstecznej, aby uzyskać odpowiedź w jednostkach NIE w dziennikach.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Moje pytanie: Dlaczego w przypadku rozkładu normalnego błąd standardowy różni się w zależności od tego, czy został obliczony na podstawie samego rozkładu, czy też został przekształcony, obliczony i poddany transformacji wstecznej? Uwaga: środki wyszły tak samo, niezależnie od transformacji.
EDYCJA nr 1: Ostatecznie jestem zainteresowany obliczeniem średniej i przedziałów ufności dla danych normalnie rozłożonych, więc jeśli możesz podać jakieś wskazówki, jak obliczyć 95% CI na przekształconych danych, w tym jak przekształcić wstecz na ich jednostki macierzyste , Doceniłbym to!
EDYCJA KOŃCOWA nr 1
EDYCJA 2: Próbowałem użyć funkcji kwantylu, aby uzyskać 95% przedziały ufności:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Tak więc zbiega się to z tą samą odpowiedzią, co jest dobre. Jednak użycie tej metody nie zapewnia dokładnie tego samego interwału przy użyciu niestandardowych danych z „małymi” wielkościami próbek:
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Którą metodę można uznać za „bardziej poprawną”. Zakładam, że ktoś wybrałby najbardziej zachowawczy szacunek?
Jako przykład, czy zgłosiłbyś ten wynik dla danych nienormalnych (t) jako mających średnią 0,92 jednostki z 95% przedziałem ufności wynoszącym [0,211, 4,79]?
KONIEC EDYCJI # 2
Dziękuję za Twój czas!