Test poprawności dopasowania: pytanie o test Andersona – Darlinga i kryterium Craméra – von Misesa

Czytam strony internetowe pod kątem testów dopasowania, kiedy doszedłem do testu Andersona – Darlinga i kryterium Craméra – von Misesa .

Do tej pory mam rację; wydaje się, że test Andersona – Darlinga i kryterium Craméra – von Misesa są podobne, tylko oparte na innej funkcji wagowej . Istnieje również wariant kryterium Craméra – von Misesa o nazwie test Watsona . $w$

Zasadniczo mam tutaj dwa pytania

Nie ma wielu wyników Google dotyczących tych dwóch metod; czy nadal są najnowocześniejsze? lub zastąpione już lepszymi podejściami?

To trochę zaskakujące, ponieważ zgodnie z tym artykułem na temat porównań mocy Shapiro – Wilka, Kołmogorowa – Smirnova, testów Lillieforsa i Andersona-Darlinga AD radzi sobie całkiem dobrze; zawsze lepszy niż Lilliefors i KS, i bardzo blisko testu SW, który jest specjalnie zaprojektowany dla rozkładu normalnego.
Jaki jest przedział ufności dla takich testów?

W przypadku testów AD, CM i Watson widziałem zmienną statystyki testu zdefiniowaną na stronach wiki, ale nie znalazłem przedziału ufności.

Rzeczy są po prostu łatwiejsze do testu KS: na stronie wiki , przedział ufności jest zdefiniowany przez , który jest zdefiniowany od skumulowanej funkcji rozkładu . $K_\alpha$ $K$

goodness-of-fit anderson-darling

— athos
źródło

Odpowiedzi:

Nie ma jednego najnowocześniejszego narzędzia zapewniającego dobre dopasowanie (na przykład nie będzie żadnego testu UMP w odniesieniu do ogólnych alternatyw, a tak naprawdę nic się nawet nie zbliża - nawet bardzo wysoko oceniane testy omnibus w niektórych sytuacjach mają potworną moc).

Ogólnie przy wyborze statystyki testowej wybierasz rodzaje odchyleń, które są najważniejsze, aby wykryć i użyć statystyki testowej, która jest dobra w tym zadaniu. Niektóre testy sprawdzają się bardzo dobrze w szerokiej gamie interesujących alternatyw, co czyni ich przyzwoitymi domyślnymi wyborami, ale to nie czyni ich „najnowocześniejszymi”.

Anderson Darling jest nadal bardzo popularny i nie bez powodu. Test Cramera-von Misesa jest obecnie znacznie mniej wykorzystywany (ku mojemu zdziwieniu, ponieważ zwykle jest lepszy niż Kolmogorov-Smirnov, ale prostszy niż Anderson-Darling - i często ma lepszą moc niż na różnicach „pośrodku” dystrybucja)

Wszystkie te testy są obciążone pewnymi alternatywami i łatwo jest znaleźć przypadki, w których Anderson-Darling radzi sobie znacznie gorzej (strasznie, naprawdę) niż inne testy. (Jak sugeruję, to bardziej „konie na kursy” niż jeden test rządzący nimi wszystkimi). Niestety często nie bierze się pod uwagę tego problemu (co jest najlepsze w wykrywaniu odchyleń, które są dla mnie najważniejsze?), Niestety.

W niektórych z tych postów możesz znaleźć pewną wartość:

Czy Shapiro – Wilk jest najlepszym testem normalności? Dlaczego może być lepszy niż inne testy, takie jak Anderson-Darling?

2 Próbka Kołmogorowa-Smirnowa vs. Anderson-Darling vs Cramer-von-Mises (około dwóch prób, ale wiele stwierdzeń przenosi się

Motywacja do odległości Kołmogorowa między rozkładami (więcej dyskusji teoretycznej, ale jest kilka ważnych punktów na temat praktycznych konsekwencji)

Nie sądzę, że będziesz w stanie utworzyć przedział ufności dla cdf w statystykach Cramer-von Mises i Anderson Darline, ponieważ kryteria oparte są na wszystkich odchyleniach, a nie tylko na największych.

— Glen_b - Przywróć Monikę
źródło

Uznałem, że „stan techniki” oznacza coś, co znajduje zastosowanie, które nie jest przestarzałe. Istnienie wielu definicji dobroci dopasowania powinno sygnalizować nam, że dobroć nie jest pojedynczym pojęciem. Weź pod uwagę, że „dobre” zależy od „dlaczego” przeprowadzamy regresję. Załóżmy, że dopasowujemy Model A do danych B, aby uzyskać najlepszy predyktor efektu C. Wtedy „dobry” jest najlepszym predyktorem C, a nie B. Najczęściej jednak pytanie o to, jak różnią się B i C, jest ignorowane.

— Carl

@Carl, możesz sprawdzić słownik (lub wikipedię) na temat tego, jaki stan techniki zwykle oznacza - twoja interpretacja wyrażenia nie zależy od tego, jak większość ludzi je czyta. Słowniki mówią takie rzeczy: „ najnowszy etap rozwoju, obejmujący najnowsze pomysły ” i „ najwyższy poziom rozwoju w danym czasie ” oraz „ najnowocześniejszy, wykorzystujący najnowszą technologię ”. W tym kontekście - testowanie dobroci dopasowania - fraza oznacza „najlepsze, co możemy zrobić teraz”. Podkreślam, że tak naprawdę nie można powiedzieć o żadnym pojedynczym teście. ... ctd

— Przywróć Monikę

... np. Możemy powiedzieć, że popularne testy, takie jak Shapiro-Wilk (choć bardzo popularne w testowaniu normalności) mają konkurentów o znacznie lepszej mocy (np. patrz Shapiro i Chen 1995) - ale nie w każdej sytuacji. Nie ma jednego najlepszego wyboru testu (a zatem nie ma rzeczywistego „stanu techniki”). Z pewnością zgadzam się, że to, co najlepsze (najnowocześniejsze), zależy od okoliczności - oto moja odpowiedź; możliwe odpowiedzi są niezliczone - coś dobrego w jednej sytuacji może być bardzo ubogie w innej. Warto wiedzieć, kiedy testy sprawdzają się dobrze, zamiast pytać „co jest najlepsze”, jakby to była jedna rzecz.

— Glen_b

To prawda, że twoja definicja jest bardziej poprawna. Istnieje jednak o wiele więcej metod niż testowanie metod, a „stan techniki” jest w dużej mierze fikcją, tj. „Sztuka” nie ma „stanu”, wszystko co ma bohaterowie. Każda odpowiedź na tak mglistą postawę jest jednoznaczna. Powiedziałem „tak”, a ty odpowiedziałeś „nie” i oboje powiedzieliśmy to samo.

— Carl

BTW, pytanie brzmiało: „stan techniki” lub „zastąpiony”, co miałem na myśli jako „przestarzałe lub nieaktualne”. Był więc kontekst dla mojej odpowiedzi, który brzmiał: „Proszę założyć, że„ najnowocześniejsze ”i„ zastąpić ”są antonimami i proszę wybrać jeden z nich”. Masz rację, że to nie są antonimy, odpowiadałem w kontekście i wybrałeś błaganie o pytanie. Więc moja była grzeczną odpowiedzią. I głosuję na twoją odpowiedź, ponieważ uważam ją za pouczającą, jeśli nie nadmiernie grzeczną.

— Carl

$n=400$ jest silniejszym testem dobroci dopasowania funkcji gęstości skumulowanej niż test Kołmogorowa-Smirnowa i może mieć moc większą lub mniejszą niż test t. Chi-kwadrat ma trudności z niską liczbą komórek, więc do dopasowania ogonów stosuje się ograniczenia zasięgu.

** Pytanie 1: ... czy ... te dwie metody ... wciąż są najnowocześniejsze? lub zastąpione już lepszymi podejściami? Pytanie 2 Jaki jest przedział ufności dla takich testów? **

Odpowiedź: Są najnowocześniejsze. Czasami jednak chcemy, aby przedziały ufności nie były prawdopodobieństwami. Porównując te metody ze sobą, mówimy raczej o sile niż o przedziałach ufności. Czasami dobroć dopasowania jest analizowana za pomocą AIC, BIC i innych kryteriów w przeciwieństwie do prawdopodobieństwa dobrego dopasowania, a czasem kryterium dobroci dopasowania jest nieistotne, na przykład gdy dobroć dopasowania nie jest kryterium dopasowania . W tym drugim przypadku naszym celem regresji może być wielkość fizyczna niezwiązana z dopasowaniem, np. Patrz Tk-GV .

— Carl
źródło

NB Test Andersona-Darlinga jest ważoną wersją testu Cramera-von Misesa; i podobnie, nadaje się do dowolnej ciągłej dystrybucji.

— Scortchi - Przywróć Monikę