Czy lepiej wybrać rozkłady na podstawie teorii, dopasowania czy czegoś innego?


12

Graniczy to z filozoficznym pytaniem, ale interesuje mnie, jak inni z większym doświadczeniem myślą o wyborze dystrybucji. W niektórych przypadkach wydaje się jasne, że teoria może działać najlepiej (długość ogona myszy jest prawdopodobnie zwykle rozkładana). W wielu przypadkach prawdopodobnie nie ma teorii do opisania zestawu danych, więc po prostu używasz czegoś, co pasuje dość dobrze do tego, co masz dość, niezależnie od tego, co pierwotnie opracowano, aby to opisać? Mogę sobie wyobrazić niektóre pułapki związane z jedną lub drugą z nich, i wtedy wydaje się, że istnieje problem, że może powinieneś po prostu użyć rozkładu empirycznego, jeśli naprawdę nie masz pojęcia.

Myślę, że tak naprawdę pytam: czy ktoś ma spójny sposób podejścia / myślenia o tym problemie? Czy są jakieś zasoby, które możesz zasugerować, aby dać temu radę?


4
Zależy to zasadniczo od tego, dlaczego dopasowuje się lub zakłada rozkład i co ma reprezentować. Na tej stronie zadajemy wiele pytań, na których wydaje się, że ludzie czują, że muszą dopasować rozkład do danych lub wielkości pochodnych (takich jak resztki regresji), podczas gdy w rzeczywistości ćwiczenie jest bezcelowe (lub, co gorsza, zwodnicze) w zakresie rozwiązywania problemów statystycznych, które naprawdę jest zaniepokojony. Czy możesz wyjaśnić, jakie rodzaje spraw masz na myśli?
whuber

1
Cześć Whuber, dzięki za komentarz. Ponieważ zacząłem trochę pracować nad probabilistyczną oceną ryzyka, muszę dopasować wszystkie moje dane do rozkładów, dlatego zainteresowałem się bardziej spójnym spojrzeniem na sposób dokonywania wyboru rozkładu. Myślę, że wyjaśnię, naprawdę interesują mnie tylko czasy, w których powinieneś używać dystrybucji, i jak sobie z tym poradzić. Tak jak powiedziałem, niektóre przypadki były łatwe z teorii, innym razem używam rozkładu empirycznego, ponieważ wydaje się to najlepsze, ale moje podejmowanie decyzji jest bardziej przypadkowe, niż bym chciał.
HFBrowning

1
To interesująca puszka robaków, ponieważ to, co naprawdę robisz (nieco abstrakcyjnie), stara się propagować niepewność próbkowania poprzez obliczenia. Powodem spojrzenia na procedurę z tego wysokiego poziomu jest to, że ujawnia ona często popełniony podstawowy błąd: zastępując dane rozkładami, nie uwzględnia się niepewności w szacowanych parametrach rozkładu. Rozliczanie tego nazywa się przez niektórych praktyków PRA „drugiego rzędu”. Chciałbym zasugerować, aby zawęzić pytanie, aby skupić się na tych kwestiach, zamiast pytać ogólnie o dopasowanie dystrybucji.
whuber

1
Pakiet, którego używam do mojej PRA, to monte carlo 2. rzędu ( pakiet mc2d w R), więc przypisuję swoje dystrybucje jako „niepewność”, „zmienność” lub oba. Mam nadzieję, że w miarę możliwości rozliczam ten problem. Jednak moim pierwotnym celem tego pytania było uzyskanie opinii na wyższym poziomie, i przywołałem ocenę ryzyka, aby dać kontekst, dlaczego jestem zainteresowany. I może nie ma lepszego sposobu niż „czasami to robisz, czasem robisz to w ten sposób”, ale miałem nadzieję, że ktoś ma sugestie :) Zwłaszcza, że ​​nie mogę łatwo określić, kiedy może być lepiej -
HFBrowning

3
To zdecydowanie właściwe miejsce na Twój post. Mówisz, że masz problemy z wprowadzaniem zmian? Nawiasem mówiąc, jestem ciekawy, w jaki sposób twoje procedury kwantyfikują niepewność w stosowaniu rozkładu empirycznego. To także wiąże się ze zmiennością próbkowania (która może być głęboka w ogonach, które często mają największe znaczenie w ocenach ryzyka), nawet jeśli nie oszacowano wyraźnie żadnych parametrów.
whuber

Odpowiedzi:


6

Zdecydowanie zależy od danych, o których mowa, i od tego, ile się o nich wie lub co chce założyć. Jak niedawno powiedział @whuber na czacie: „W przypadku prawa fizyki prawie zawsze można zgadywać, co do odpowiedniego sposobu modelowania danych”. (Podejrzewam, że jest to bardziej odpowiednie dla niego niż dla mnie! Mam również nadzieję, że nie jest to niewłaściwie zastosowane w jego oryginalnym kontekście ...) W przypadkach bardziej przypominających ukryte modelowanie konstrukcji w naukach społecznych, często warto skupić się na rozkłady empiryczne jako sposób zrozumienia niuansów mniej znanych zjawisk. Nieco łatwo jest założyć normalną dystrybucję i odrzucić niedopasowanie w ogólnym kształcie jako nieistotne, a dość sprytnie jest odrzucić wartości odstające jako błędne bez większego uzasadnienia niż to, że nie „

Oczywiście znaczna część tego zachowania jest motywowana założeniami analiz, które chce się zastosować. Często najciekawsze pytania wykraczają daleko poza opis lub klasyfikację rozkładów zmiennych. Wpływa to również na właściwą odpowiedź dla danego scenariusza; mogą istnieć powody (np. zapotrzebowanie na ), aby założyć normalny rozkład, gdy nie pasuje on szczególnie dobrze (ani źle dopasowuje), ponieważ metody i w inny sposób również nie są idealne. Niemniej jednak, ryzyko takiego postępowania zwykle polega na tym, że zapomina się zadać interesujące pytania dotyczące rozkładu jednej zmiennej.

Rozważmy na przykład związek między bogactwem a szczęściem: popularne pytanie, które ludzie zazwyczaj chcą zadawać. Można założyć, że bogactwo jest zgodne z rozkładem gamma (Salem i Mount, 1974) lub uogólnioną wersją beta (Parker, 1999) , ale czy naprawdę można bezpiecznie założyć, że szczęście jest zwykle rozdzielane? Naprawdę, nie powinno być wcale konieczne zakładanie tego, aby odpowiedzieć na pierwotne pytanie, ale ludzie czasem tak robią, a następnie ignorują potencjalnie ważne kwestie, takie jak stronniczość odpowiedzi i różnice kulturowe. Na przykład niektóre kultury zwykle udzielają mniej lub bardziej skrajnych odpowiedzi (patrz odpowiedź @ chl na temat analizy czynnikowej kwestionariuszy złożonych z elementów Likerta ), a normy różnią się w odniesieniu do otwartej ekspresji pozytywnych i negatywnych emocji (Tucker, Ozer, Lyubomirsky i Boehm, 2006 ) . Może to zwiększyć znaczenie różnic w empirycznych cechach dystrybucyjnych, takich jak skośność i kurtoza. Gdybym porównywał stosunek bogactwa do subiektywnych ocen szczęścia w Rosji, Chinach i Stanach Zjednoczonych, prawdopodobnie chciałbym ocenić różnice w głównych tendencjach ocen szczęścia. Czyniąc to, wahałbym się przyjąć normalne rozkłady dla każdej z nich dla jednokierunkowej ANOVA (nawet jeśli może to być dość odporne na naruszenia), gdy istnieje powód, by spodziewać się „grubszej” dystrybucji w Chinach, dodatniej dystrybucji w Rosji i negatywnej dystrybucji w USA z powodu różnych zależnych od kultury norm i tendencyjności w odpowiedzi. Ze względu na test istotności (chociaż szczerze mówiąc wolałbym po prostu raportować wielkości efektów), wolałbym zastosować metodę nieparametryczną, a dla rzeczywistego zrozumienia subiektywnego szczęścia w każdej populacji osobno, raczej opisz rozkład empirycznie, niż spróbuj sklasyfikować go jako prostą teoretyczną dystrybucję i zignoruj ​​lub pomaluj wszelkie niedopasowanie. To marnowanie informacji IMO.

Referencje
- Parker, SC (1999). Uogólniona wersja beta jako model podziału zarobków. Economics Letters, 62 (2), 197–200.
- Salem, ABZ i Mount, TD (1974). Wygodny opisowy model podziału dochodu: gęstość gamma. Econometrica, 42 (6), 1115–1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S., i Boehm, JK (2006). Testowanie niezmienności pomiaru w zadowoleniu ze skali życia: Porównanie Rosjan i Amerykanów z Ameryki Północnej. Badania wskaźników społecznych, 78 (2), 341–360. Źródło: http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .


Dzięki za odpowiedź, Nick. Ten przykład był szczególnie pomocny.
HFBrowning

3

długości ogonów myszy są prawdopodobnie zwykle rozłożone

Wątpiłbym w to. Normalne rozkłady wynikają z wielu niezależnych efektów addytywnych. Systemy biologiczne składają się z wielu interaktywnych pętli sprzężenia zwrotnego (wzajemnie zależne efekty multiplikacyjne). Często są też niektóre stany, które są bardziej stabilne niż inne (np. Atraktory). Więc jakiś rozkład długodystansowy lub multimodalny prawdopodobnie opisałby długość ogona. W rzeczywistości rozkład normalny jest prawdopodobnie bardzo słabym domyślnym wyborem do opisania czegokolwiek biologicznego, a jego niewłaściwe użycie jest odpowiedzialne za wiele „wartości odstających” zgłoszonych w tej literaturze. Występowanie tego rozmieszczenia w przyrodzie jest mitem, a nie tylko w sensie „idealnych kręgów tak naprawdę nie istnieje”. Jednak nie wynika z tego, że średnia i sd są bezużyteczne jako statystyki podsumowujące.

Zwłaszcza, że ​​nie jestem w stanie łatwo określić, kiedy lepiej „zaufać danym” (jak ten jeden funky, prawy, wypaczony zestaw danych, który mam, ale n = 160, który biorąc pod uwagę dane nie wydaje się wystarczający) i przejść na empiryczne, lub dopasuj go do dystrybucji Beta, tak jak nalega mój kolega. Podejrzewałem, że wybrał to tylko dlatego, że jest ograniczone do [0,1]. To wszystko wydaje się naprawdę ad hoc. Mam nadzieję, że to wyjaśnia mój zamiar!

Dopasowanie rozkładów empirycznych dostarcza wskazówek na temat leżącego u podstaw procesu, który ułatwia rozwój rozkładów teoretycznych. Następnie rozkład teoretyczny porównuje się z rozkładami empirycznymi w celu przetestowania dowodów dla teorii.

Jeśli twoim celem jest ocena prawdopodobieństwa pewnych wyników na podstawie dostępnych obecnie dowodów i nie masz powodu, aby wybrać ten konkretny rozkład, myślę, że nie rozumiem, w jaki sposób przyjęcie dodatkowych założeń mogłoby być pomocne. Zamiast tego wydaje się, że myli sprawy.

Jeśli jednak próbujesz opisać lub podsumować dane, warto dopasować rozkład.


1
Chociaż mogę zaakceptować tylko jedną odpowiedź, chciałem podziękować za wskazanie, w jaki sposób powstają normalne rozkłady. Zmusiło mnie to do dokładniejszego zastanowienia się, co to znaczy oprzeć coś na teorii.
HFBrowning

3

W niektórych przypadkach wydaje się jasne, że teoria może działać najlepiej (długość ogona myszy jest prawdopodobnie zwykle rozkładana).

Długości ogonów z pewnością nie są zwykle rozkładane.

Rozkłady normalne mają niezerowe prawdopodobieństwo przyjęcia wartości ujemnych; długości ogona nie.

Słynna wypowiedź George'a Boxa: „ wszystkie modele są złe, ale niektóre są użyteczne ” czyni tę kwestię całkiem dobrą. Przypadki, w których moglibyśmy zasadnie twierdzić o normalności (a nie tylko o przybliżonej normalności), są naprawdę bardzo rzadkie, prawie legendarne stworzenia, złudzenia czasami prawie dostrzegane kątem oka.

W wielu przypadkach prawdopodobnie nie ma teorii do opisania zestawu danych, więc po prostu używasz czegoś, co pasuje dość dobrze do tego, co masz dość, niezależnie od tego, co pierwotnie opracowano, aby to opisać?

W przypadkach, w których ilości, które Cię interesują, nie są szczególnie wrażliwe na wybór (o ile szerokie funkcje dystrybucji są zgodne z tym, co wiadomo), to tak, możesz po prostu użyć czegoś, co dobrze pasuje.

W przypadkach, w których występuje wyższy stopień wrażliwości, samo „użycie czegoś, co pasuje” nie jest wystarczające. Możemy zastosować pewne podejście, które nie przyjmuje szczególnych założeń (być może procedury wolne od dystrybucji, takie jak permutacja, ładowanie początkowe lub inne metody ponownego próbkowania lub solidne procedury). Alternatywnie moglibyśmy określić wrażliwość na założenie dystrybucyjne, na przykład poprzez symulację (rzeczywiście myślę, że jest to ogólnie dobry pomysł).

wydaje się, że istnieje problem, że może powinieneś po prostu użyć rozkładu empirycznego, jeśli naprawdę nie masz pojęcia.

Nie opisałbym tego jako problemu - opieranie wnioskowania na rozkładach empirycznych z pewnością uzasadnione podejście odpowiednie dla wielu rodzajów problemów (permutacja / randomizacja i bootstrapowanie to dwa przykłady).

czy ktoś ma spójny sposób podejścia / myślenia o tym problemie?

ogólnie rzecz biorąc, w wielu przypadkach staram się rozważać pytania takie jak:

1) Co rozumiem * o tym, jak zachowują się środki (lub inne wielkości typu lokalizacji) dla danych tego formularza?

* (czy to z teorii, czy z doświadczenia z tą formą danych, z porad ekspertów lub, jeśli to konieczne, z samych danych, chociaż wiąże się to z problemami, z którymi trzeba sobie poradzić)

2) Co z spreadem (wariancja, IQR itp.) - jak się zachowuje?

3) Co z innymi funkcjami dystrybucji (granice, skośność, dyskrecja itp.)

4) A co z zależnością, niejednorodnością populacji, tendencją do czasami bardzo różnych wartości itp

Ten rodzaj rozważań może pomóc w wyborze między normalnym modelem, GLM, innym modelem lub pewnym solidnym lub wolnym od dystrybucji podejściem (takim jak ładowanie początkowe lub metody permutacji / randomizacji, w tym procedury oparte na rankingu)

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.