„Jaki jest właściwy sposób zastosowania 68-95-99.7 w mojej sprawie?”
Należy oczekiwać, że ta ogólna zasada będzie obowiązywała tylko wtedy, gdy (1) patrzysz na całą (nieskończoną) populację lub teoretyczny rozkład prawdopodobieństwa , a (2) rozkład jest dokładnie normalny .
Jeśli weźmiesz losową próbkę wielkości 20, nawet z naprawdę normalnego rozkładu, nie zawsze okaże się, że 95% danych (19 z 20 pozycji) mieści się w granicach 2 (lub 1.960) standardowych odchyleń średniej. W rzeczywistości nie ma gwarancji, że 19 z 20 pozycji będzie mieściło się w granicach 1,960 odchyleń standardowych od średniej populacji, ani że 19 z 20 pozycji będzie mieścić się w granicach 1,960 odchyleń standardowych od średniej próby.
Jeśli weźmiesz próbkę danych z rozkładu, który nie jest całkiem normalnie rozłożony, to znowu nie można oczekiwać, że reguła 68-95-99,7 będzie miała zastosowanie dokładnie. Może to jednak być dość bliskie, szczególnie jeśli wielkość próby jest duża (zasada „99,7% pokrycia” może nie być szczególnie znacząca w przypadku wielkości próby poniżej 1000), a rozkład jest dość zbliżony do normalności. Teoretycznie wiele danych, takich jak wzrost czy waga, nie mogło pochodzić z dokładnie normalnego rozkładu lub oznaczałoby to małe, ale niezerowe prawdopodobieństwo, że będą ujemne. Niemniej jednak w przypadku danych o w przybliżeniu symetrycznym i unimodalnym rozkładzie, w których wartości średnie są bardziej powszechne, a ekstremalnie wysokie lub niskie wartości spadają, model rozkładu normalnego może być odpowiedni do celów praktycznych.Jeśli mój histogram pokazuje krzywą w kształcie dzwonu, czy mogę powiedzieć, że moje dane są zwykle dystrybuowane?
Jeśli chcesz teoretycznie wiążących granic, które odnoszą się do dowolnego rozkładu, zobacz nierówność Czebyszewa , która stwierdza, że najwyżej wartości może leżeć więcej niż k1/k2kstandardowe odchylenia od średniej. Gwarantuje to, że co najmniej 75% danych mieści się w granicach dwóch odchyleń standardowych od średniej, a 89% w granicach trzech odchyleń standardowych. Ale te liczby są tylko teoretycznie gwarantowanym minimum. W przypadku wielu rozkładów w przybliżeniu w kształcie dzwonu przekonasz się, że zakres pokrycia dwóch standardowych odchyleń jest znacznie bliższy 95% niż 75%, a zatem „praktyczna zasada” z rozkładu normalnego jest nadal przydatna. Z drugiej strony, jeśli twoje dane pochodzą z dystrybucji, która nie jest zbliżona do kształtu dzwonu, możesz być w stanie znaleźć alternatywny model, który lepiej opisuje dane i ma inną zasadę zasięgu.
(Jedną fajną rzeczą w regule 68-95-99.7 jest to, że ma ona zastosowanie do każdego rozkładu normalnego, niezależnie od jego parametrów dla średniej lub odchylenia standardowego. Podobnie nierówność Czebyszewa obowiązuje niezależnie od parametrów, a nawet rozkładu, chociaż tylko daje niższe granice zasięgu. Ale jeśli zastosujesz, na przykład, ścięty model normalny lub skośny model normalny , wówczas nie będzie prostego odpowiednika zasięgu „68-95-99.7”, ponieważ zależałoby to od parametrów rozkładu .)