W niektórych przypadkach wydaje się jasne, że teoria może działać najlepiej (długość ogona myszy jest prawdopodobnie zwykle rozkładana).
Długości ogonów z pewnością nie są zwykle rozkładane.
Rozkłady normalne mają niezerowe prawdopodobieństwo przyjęcia wartości ujemnych; długości ogona nie.
Słynna wypowiedź George'a Boxa: „ wszystkie modele są złe, ale niektóre są użyteczne ” czyni tę kwestię całkiem dobrą. Przypadki, w których moglibyśmy zasadnie twierdzić o normalności (a nie tylko o przybliżonej normalności), są naprawdę bardzo rzadkie, prawie legendarne stworzenia, złudzenia czasami prawie dostrzegane kątem oka.
W wielu przypadkach prawdopodobnie nie ma teorii do opisania zestawu danych, więc po prostu używasz czegoś, co pasuje dość dobrze do tego, co masz dość, niezależnie od tego, co pierwotnie opracowano, aby to opisać?
W przypadkach, w których ilości, które Cię interesują, nie są szczególnie wrażliwe na wybór (o ile szerokie funkcje dystrybucji są zgodne z tym, co wiadomo), to tak, możesz po prostu użyć czegoś, co dobrze pasuje.
W przypadkach, w których występuje wyższy stopień wrażliwości, samo „użycie czegoś, co pasuje” nie jest wystarczające. Możemy zastosować pewne podejście, które nie przyjmuje szczególnych założeń (być może procedury wolne od dystrybucji, takie jak permutacja, ładowanie początkowe lub inne metody ponownego próbkowania lub solidne procedury). Alternatywnie moglibyśmy określić wrażliwość na założenie dystrybucyjne, na przykład poprzez symulację (rzeczywiście myślę, że jest to ogólnie dobry pomysł).
wydaje się, że istnieje problem, że może powinieneś po prostu użyć rozkładu empirycznego, jeśli naprawdę nie masz pojęcia.
Nie opisałbym tego jako problemu - opieranie wnioskowania na rozkładach empirycznych z pewnością uzasadnione podejście odpowiednie dla wielu rodzajów problemów (permutacja / randomizacja i bootstrapowanie to dwa przykłady).
czy ktoś ma spójny sposób podejścia / myślenia o tym problemie?
ogólnie rzecz biorąc, w wielu przypadkach staram się rozważać pytania takie jak:
1) Co rozumiem * o tym, jak zachowują się środki (lub inne wielkości typu lokalizacji) dla danych tego formularza?
* (czy to z teorii, czy z doświadczenia z tą formą danych, z porad ekspertów lub, jeśli to konieczne, z samych danych, chociaż wiąże się to z problemami, z którymi trzeba sobie poradzić)
2) Co z spreadem (wariancja, IQR itp.) - jak się zachowuje?
3) Co z innymi funkcjami dystrybucji (granice, skośność, dyskrecja itp.)
4) A co z zależnością, niejednorodnością populacji, tendencją do czasami bardzo różnych wartości itp
Ten rodzaj rozważań może pomóc w wyborze między normalnym modelem, GLM, innym modelem lub pewnym solidnym lub wolnym od dystrybucji podejściem (takim jak ładowanie początkowe lub metody permutacji / randomizacji, w tym procedury oparte na rankingu)