Co to znaczy, że coś ma dobre właściwości dla częstych?

Często słyszałem to zdanie, ale nigdy całkowicie nie rozumiałem, co to znaczy. Wyrażenie „dobre właściwości dla częstych” ma obecnie około 2750 trafień w google, 536 na scholar.google.com i 4 na stats.stackexchange.com .

Najbliższy rzeczą znalazłem do jasnej definicji pochodzi z końcowego slajd w prezentacji Stanford University , który stanowi,

[T] Znaczenie zgłaszania 95% przedziałów ufności polega na tym, że „pułapkujesz” prawdziwy parametr w 95% twierdzeń, które wysuwasz, nawet w przypadku różnych problemów z oszacowaniem. Jest to cecha charakterystyczna procedur estymacyjnych o dobrych właściwościach częstych: są one poddane kontroli przy wielokrotnym stosowaniu.

Zastanawiając się trochę nad tym, zakładam, że wyrażenie „dobre właściwości częstokształtne” implikuje pewną ocenę metody bayesowskiej, aw szczególności bayesowskiej metody konstrukcji przedziałów. Rozumiem, że przedziały bayesowskie mają zawierać prawdziwą wartość parametru z prawdopodobieństwem . Interwały internauty mają być skonstruowane w taki sposób, że jeśli proces konstruowania interwału zostanie powtórzony wiele razy, około interwałów zawiera prawdziwą wartość parametru. Przerwy bayesowskie zasadniczo nie dają żadnych obietnic dotyczących tego, jaki procent przedziałów pokryje prawdziwą wartość parametru. Jednak niektóre metody bayesowskie mają również tę właściwość, że powtarzane wiele razy obejmują prawdziwą wartość około $p$ $p*100\%$ $p*100\%$ czasu. Kiedy mają tę właściwość, mówimy, że mają „dobre właściwości częstokroć”.

Czy to prawda? Uważam, że musi być w tym coś więcej, ponieważ wyrażenie to odnosi się do dobrych właściwości częstych , a nie do dobrych właściwości częstych .

bayesian terminology frequentist

— user1205901 - Przywróć Monikę
źródło

Naprawdę podoba mi się sposób, w jaki wymyśliłeś to pytanie. Na początku Sir Harold Jeffreys próbował konstruować bayesowskie rozkłady boczne, które zachowywały się jak funkcje prawdopodobieństwa, a zatem miały dobre właściwości częstokształtne. Oznacza to więc zbudowanie „jednolitej” wcześniejszej dystrybucji. Chodzi o to, że stosując takie wcześniejsze środki, przeor jest neutralny i nie wpływa na wnioskowanie. Dotyczy to więc więcej niż tylko tego, aby wiarygodne przedziały wyglądały jak przedziały ufności. Ale Jeffreys wpadł w pewne kłopoty, ponieważ zdarzały się przypadki, w których „mundur” przełożonego był niewłaściwy.

— Michael R. Chernick,

Nieprawidłowe oznacza, że poprzednia gęstość nie integruje się z 1. Wygląda na to, że Jeffreys uważał, że metoda bayesowska musiała być uzasadniona zgodą na metodę częstościową. Bayesianie ostatecznie odrzucili to pojęcie, ponieważ wartość przyjętego przez nich podejścia polega na tym, że istnieją wcześniejsze informacje, które wpływają na wnioskowanie, dlatego wolą stosować odpowiednie „informacyjne” priorytety.

— Michael R. Chernick,

@MichaelChernick: czy możesz podać dokładne odniesienie do tego, że Jeffreys szuka częstych właściwości estymatorów Bayesa? Nigdy nie słyszałem o tej historii. Wątpię też, by Jeffreys w ogóle martwił się stosowaniem niewłaściwych asekuracji, wszystkie teorie prawdopodobieństwa są w porządku .

— Xi'an,

Ja kocham to pytanie!

— Alexis,

@ Xi'an w rzeczywistości, dla modelu Beta-Dwumianowego jest to wcześniejszy Haldane (który jest niewłaściwy), który prowadzi do częstszych szacunków, a nie wcześniejszy Jeffreys (co jest właściwe w tym przypadku). Nigdy też nie słyszałem, że Jeffreys szukał dobrych właściwości częstych: myślałem, że szuka obiektywnych priorów, a przez obiektywizm miał na myśli niezmienność w ramach reparametryzacji.

— DeltaIV

Odpowiedzi:

Trudną rzeczą dotyczącą dobrych właściwości częstych jest to, że są to właściwości procedury, a nie właściwości konkretnego wyniku lub wnioskowania. Dobra procedura częstokierunkowa daje prawidłowe wnioski na temat określonego odsetka przypadków w długim okresie, ale dobra procedura bayesowska jest często tym, który daje prawidłowe wnioskowanie w danym przypadku.

Na przykład rozważmy procedurę bayesowską, która jest „dobra” w sensie ogólnym, ponieważ zapewnia ona tylny rozkład prawdopodobieństwa lub wiarygodny przedział, który poprawnie reprezentuje kombinację dowodów (funkcja prawdopodobieństwa) z poprzednim rozkładem prawdopodobieństwa. Jeśli uprzedni zawiera dokładne informacje (powiedzmy, zamiast pustej opinii lub jakiejś formy nieinformacyjnego uprzedniego), ten późniejszy lub przedział może skutkować lepszym wnioskiem niż częsty wynik z tych samych danych. Lepsze w tym sensie, że prowadzi do dokładniejszego wnioskowania na temat tego konkretnego przypadku lub węższego przedziału szacowania, ponieważ procedura wykorzystuje spersonalizowany wcześniej zawierający dokładne informacje. Na dłuższą metę procent pokrycia interwałów i poprawność wnioskowania zależy od jakości każdego z nich.

Należy zauważyć, że procedura nie określa, w jaki sposób należy uzyskać wcześniejsze, a zatem długoterminowe rozliczanie wyników prawdopodobnie zakłada, że wcześniejszy przypadek byłby wcześniejszy niż uprzednio zaprojektowany dla każdego przypadku.

Procedura bayesowska może mieć dobre właściwości częste. Na przykład w wielu przypadkach procedura bayesowska z niedoinformowanym uprzednim przepisem na receptę będzie miała dość dobre lub doskonałe właściwości dla częstych. Te dobre właściwości byłyby raczej przypadkiem niż cechą projektową i byłyby bezpośrednią konsekwencją takiej procedury zapewniającej podobne odstępy czasu jak procedury częste.

Zatem procedura bayesowska może mieć lepsze właściwości wnioskowania w indywidualnym eksperymencie, a na dłuższą metę mieć słabe właściwości częstokształtne. Równolegle procedury częste z dobrymi długoterminowymi właściwościami dla częstych często mają słabą wydajność w przypadku indywidualnych eksperymentów.

— Michael Lew
źródło

Nie podążam. Za wyjątkiem empirycznych Bayesa, we wszystkich procedurach bayesowskich widziałem, że przeor wybierany jest niezależnie od danych. Tak więc, stosując taką procedurę do wielu zestawów danych pochodzących z tego samego procesu generowania danych (jest to struktura częstości), Bayesian użyje tej samej funkcji prawdopodobieństwa (proces generowania danych jest taki sam) i tego samego wcześniejszego (wcześniejsze jest niezależne od danych w większości procedur Bayesa). Oczywiście, ponieważ dane zmieniają się za każdym razem, wartość prawdopodobieństwa zmienia się, ale jego forma jest taka sama. Teraz, jeśli każda osoba [1/2]

— DeltaIV

[2/2] szacunek jest dokładniejszy, w jaki sposób cała procedura może być mniej dokładna? Jest to możliwe tylko wtedy, gdy szacunek Bayesa nie zawsze jest dokładniejszy. Ponieważ wcześniejsze nie jest dostosowane do obserwowanych danych, nie jestem pewien, co czyni je mniej lub bardziej dokładnymi dla każdego pojedynczego przypadku i / lub „średnio”.

— DeltaIV,

@DeltaV Myślę, że masz do czynienia z niewłaściwym zestawem referencyjnym. Częstotliwościowe właściwości procedury dotyczą długoterminowej wydajności procedury stosowanej we wszystkich nowych przypadkach, a nie tylko powtórzeń danego eksperymentu. Dlatego procedury przedziału ufności dla proporcji dwumianowych muszą działać dla wszystkich wartości parametru, a nie tylko dla wartości odnoszącej się do konkretnego przypadku, w którym stosowana jest procedura. Ten rodzaj „długiego okresu” oznacza, że dostosowany wcześniej, odpowiedni dla danego przypadku, będzie nieodpowiedni w długim okresie.

— Michael Lew,

masz rację, że procedura zaufania częstokroć musi mieć nominalne pokrycie dla wszystkich wartości nieznanego parametru. Zostało to wyraźnie określone przez Newmana i Pearsona i często jest dziś pomijane. Jednak wybierając poprzedni nie wiesz, która jest „prawdziwa” wartość parametru. Masz tylko próbkę, a przeor powinien być niezależny od próbki. Dlatego nadal nie widzę jasno, w jaki sposób można dostosować wcześniejsze w oparciu o próbkę. Czy możesz podać praktyczny przykład?

— DeltaIV,

@DeltaIV Jeśli wiem, że bieżący parametr będący przedmiotem zainteresowania został oszacowany w poprzednim badaniu, mogę ukształtować informacyjny uprzedni na podstawie tego oszacowania. To wcześniejsze będzie odpowiednie dla niniejszej bieżącej analizy, ale nie ma równoważnego odpowiedniego uprzedniego informacyjnego dostępnego dla hipotetycznego zestawu zastosowań tej metody w długim okresie. Zatem analiza może mieć znacznie lepsze właściwości w izolowanym prawdziwym przypadku, niż wydaje się, że ma to w częstej perspektywie częstych.

— Michael Lew,

Odpowiedziałbym, że Twoja analiza jest poprawna. Aby zapewnić jeszcze więcej informacji, wspomnę o dopasowaniu priorów.

Pasujące priory są zazwyczaj priorsami zaprojektowanymi do budowy modeli bayesowskich o własności częstokrzyskiej. W szczególności są one zdefiniowane w taki sposób, że uzyskane przedziały hpd spełniają częste pokrycie przedziału ufności (więc 95% z 95% hpd zawiera prawdziwe wartości na dłuższą metę). Zauważ, że na 1d istnieją rozwiązania analityczne: priory Jeffreysa pasują do priorów. W wyższym wymiarze nie jest to konieczny przypadek (o ile mi wiadomo, nie ma rezultatu świadczącego o tym, że nigdy tak nie jest).

W praktyce ta zasada dopasowania jest czasem stosowana również w celu dostrojenia wartości niektórych parametrów modelu: dane prawdziwej ziemi są wykorzystywane do optymalizacji tych parametrów w tym sensie, że ich wartości maksymalizują częstość pokrycia uzyskanych wiarygodnych przedziałów dla parametru będącego przedmiotem zainteresowania . Z mojego własnego doświadczenia może to być bardzo subtelne zadanie.

— peuhp
źródło

$p$

Teraz, aby odpowiedzieć na twoje pytanie: nie, nie oznacza to żadnej oceny metody bayesowskiej. Pomijanie niuansów i skupianie się na procedurze szacowania w celu uproszczenia: częstość w statystykach polega na pomiarze oszacowania nieznanej ustalonej wielkości lub przetestowaniu hipotezy i ocenieniu takiej procedury w oparciu o jej hipotetyczne powtórzenie. Możesz przyjąć wiele kryteriów oceny procedury. To, co czyni go częstym kryterium, polega na tym, że dba się o to, co się stanie, jeśli zastosuje się tę samą procedurę w kółko. Jeśli to zrobisz, zależy Ci na właściwościach częstych. Innymi słowy: „jakie są właściwości częstokroć?” oznacza „co się stanie, jeśli będziemy powtarzać procedurę w kółko?” Co sprawia, że takie częste właściwości są dobreto kolejna warstwa kryteriów. Najczęstsze właściwości częstokształtne, które są uważane za dobre , to spójność (w oszacowaniu, jeśli próbkowanie będzie kontynuowane, estymator zbliży się do ustalonej wartości, którą szacujesz), wydajność (jeśli nadal próbkujesz, wariancja estymatora spadnie do zera , więc będziesz coraz bardziej dokładny), prawdopodobieństwo pokrycia(w wielu powtórzeniach procedury 95% przedział ufności będzie zawierał prawdziwą wartość 95% czasu). Dwie pierwsze są nazywane właściwościami dużej próbki, trzecia jest rzeczywiście częstą właściwością Neymana w tym sensie, że nie musi koniecznie wykorzystywać wyników asymptotycznych. Podsumowując, w ramach częstych istnieje prawdziwa i nieznana wartość. Szacujesz to i zawsze się mylisz (z wyjątkiem rzadkiego szczęśliwego wypadku) w ocenie, ale próbujesz się ocalić, wymagając, aby przynajmniej przy hipotetycznie nieskończonym powtarzaniu swojej oceny byłbyś coraz mniej błędny lubwiesz, że miałbyś rację określoną ilość razy. Nie będę dyskutować, czy ma to sens, czy też dodatkowe założenia konieczne do uzasadnienia, biorąc pod uwagę, że nie były to twoje pytania. Koncepcyjnie do tego właśnie odnoszą się właściwości częstokroć i które dobre w ogóle oznacza w takim kontekście.

Zakończę, wskazując ci ten artykuł, abyś sam ocenił, czy ma to sens i co oznacza procedurę bayesowską, aby mieć dobre właściwości częstych (znajdziesz tam więcej odnośników):

Little, R. i in., (2011). Skalibrowane bayes, ogólnie dla statystyk, a zwłaszcza brakujących danych. Nauki statystyczne, 26 (2), 162–174.

— Diogo
źródło