Z pewnością średnia plus jeden sd może przekroczyć największą obserwację.
Rozważ próbkę 1, 5, 5, 5 -
ma średnią 4 i odchylenie standardowe 2, więc średnia + sd wynosi 6, jeden więcej niż maksimum próbki. Oto obliczenia w R:
> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6
To częste zjawisko. Zdarza się to zwykle wtedy, gdy po lewej stronie znajduje się wiązka wysokich wartości i ogon (tj. Gdy występuje silna skośność w lewo i szczyt blisko wartości maksymalnej).
-
Ta sama możliwość dotyczy rozkładów prawdopodobieństwa, a nie tylko próbek - średnia populacji plus sd populacji może łatwo przekroczyć maksymalną możliwą wartość.
Oto przykład gęstość, która ma maksymalną możliwą wartość 1:beta ( 10 , 12))
W takim przypadku możemy spojrzeć na stronę Wikipedii w celu uzyskania rozkładu wersji beta, który stwierdza, że średnia to:
mi[ X] = αα + β
a wariancja to:
var[ X] = α β( α + β)2)( α + β+ 1 )
(Chociaż nie musimy polegać na Wikipedii, ponieważ są one dość łatwe do uzyskania).
Zatem dla i β = 1α = 10 mamy średnią≈0,9523i sd≈0,0628, a więc średnią + sd≈1,0152, więcej niż możliwe maksimum 1.β= 12)≈ 0,9523≈ 0,0628≈ 1,0152
Oznacza to, że łatwo jest mieć wartość średnią + sd, której nie można zaobserwować jako wartości danych .
-
W każdej sytuacji, w której tryb był maksymalny, skośność trybu Pearsona musi wynosić tylko dla średniej + sd przekraczającej maksimum. Może przyjmować dowolną wartość, dodatnią lub ujemną, dzięki czemu możemy łatwo zauważyć.<- 1
-
Blisko spokrewniony problem jest często postrzegany z przedziałami ufności dla proporcji dwumianowej , gdzie zwykle używany przedział, normalny przedział aproksymacji może dawać granice poza .[ 0 , 1 ]
Na przykład, rozważ 95,4% normalnego przedziału aproksymacji dla odsetka populacji sukcesów w próbach Bernoulliego (wyniki to 1 lub 0, odpowiednio reprezentujące zdarzenia sukcesu i niepowodzenia), gdzie 3 z 4 obserwacji to „ ”, a jedna obserwacja to „ 0 ”.10
Następnie górny limit odstępu jest p + 2 x √p^+ 2 × 14p^( 1 - p^)---------√= p^+ p^( 1 - p^)-------√= 0,75 + 0,433 = 1,183
Jest to tylko średnia próbki + zwykłe oszacowanie sd dla dwumianu ... i daje niemożliwą wartość.
Zazwyczaj próbkę sd 0,1,1,1 wynosi 0,5 zamiast 0,433 (różnią się, ponieważ dwumianowego oszacowanie ml odchylenie standardowe s ( 1 - p ) odpowiada podzieleniu wariancję przez n zamiast N - 1 ) . Ale to nie robi różnicy - w obu przypadkach średnia + sd przekracza największy możliwy odsetek.p^( 1 - p^)nn - 1
Ten fakt - że normalny interwał aproksymacji dla dwumianu może dawać „wartości niemożliwe” jest często odnotowywany w książkach i artykułach. Nie masz jednak do czynienia z danymi dwumianowymi. Niemniej jednak problem - to znaczy + pewna liczba odchyleń standardowych nie jest możliwą wartością - jest analogiczny.
-
W twoim przypadku nietypowa wartość „0” w twojej próbce powoduje, że sd jest większe niż obniża średnią, dlatego średnia + sd jest wysoka.
-
(Pytanie brzmiałoby zamiast tego - z jakiego powodu byłoby to niemożliwe? - ponieważ nie wiedząc, dlaczego ktokolwiek mógłby pomyśleć, że w ogóle jest problem, co rozwiązujemy?)
Logicznie rzecz biorąc, jeden pokazuje, że jest to możliwe, podając przykład, gdzie to się dzieje. Już to zrobiłeś. W przypadku braku określonego powodu, dla którego powinno być inaczej, co masz zrobić?
Jeśli przykład nie jest wystarczający, jaki dowód byłby akceptowalny?
Naprawdę nie ma sensu po prostu wskazywać na oświadczenie w książce, ponieważ każda książka może zawierać oświadczenie błędnie - cały czas je widzę. Należy polegać na bezpośrednim zademonstrowaniu, że jest to możliwe, albo na dowodzie w algebrze (można go zbudować z przykładu beta powyżej, na przykład *), albo na przykładzie numerycznym (który już podałeś), który każdy może zbadać samodzielnie .
* Whuber podaje dokładne komentarze dla wersji beta w komentarzach.