Solidny test t dla średniej

17

Próbuję przetestować zerową wartość , względem lokalnej alternatywy , dla zmiennej losowej , z zastrzeżeniem łagodnego do średniego pochylenia i kurtozy zmiennej losowej. Zgodnie z sugestiami Wilcoxa w „Wstęp do solidnego szacowania i testowania hipotez” spojrzałem na testy oparte na skróconej średniej, medianie, a także estymatorze M lokalizacji (procedura „jednoetapowa” Wilcoxa). Te solidne testy przewyższają standardowy test t pod względem mocy podczas testowania z rozkładem, który nie jest przekrzywiony, ale leptokurtotyczny. $E[X] = 0$ $E[X] > 0$ $X$

Jednak podczas testowania z rozkładem, który jest przekrzywiony, te jednostronne testy są albo zbyt zbyt liberalne, albo zdecydowanie zbyt konserwatywne w ramach hipotezy zerowej, w zależności od tego, czy rozkład jest odpowiednio przesunięty w lewo czy w prawo. Na przykład przy 1000 obserwacji test oparty na medianie faktycznie odrzuci ~ 40% czasu, przy nominalnym poziomie 5%. Powód tego jest oczywisty: w przypadku przekrzywionych rozkładów mediana i średnia są raczej różne. Jednak w mojej aplikacji naprawdę muszę przetestować średnią, a nie średnią, a nie średnią obciętą.

Czy istnieje bardziej niezawodna wersja testu t, która faktycznie sprawdza średnią, ale jest odporna na przekrzywienie i kurtozę?

Idealnie byłoby, gdyby procedura działała dobrze również w przypadku braku przekrzywienia i wysokiej kurtozy. Test „jednoetapowy” jest prawie wystarczająco dobry, przy ustawionym stosunkowo wysokim parametrze „zgięcia”, ale jest on mniej skuteczny niż średnie przycięte testy, gdy nie ma pochylenia, i ma pewne problemy z utrzymaniem nominalnego poziomu odrzutów pod pochyleniem .

tło: powodem, dla którego naprawdę zależy mi na średniej, a nie na medianie, jest to, że test zostałby zastosowany w aplikacji finansowej. Na przykład, jeśli chcesz sprawdzić, czy portfel ma dodatnie oczekiwane zwroty z logów, średnia jest w rzeczywistości odpowiednia, ponieważ jeśli zainwestujesz w portfel, zobaczysz wszystkie zwroty (czyli średnią razy liczbę próbek), zamiast duplikaty mediany. Oznacza to, że troszczą się o sumę czerpie z RV . $n$ $n$ $X$

— shabbychef
źródło

Czy istnieje powód, który zabrania stosowania testu t-Welch? Spójrz na moją odpowiedź na to pytanie ( stats.stackexchange.com/questions/305/... ), w której odsyłam do artykułu zalecającego stosowanie Welcha w przypadku nienormalności i heteroscedastyczności.

— Henrik,

1

Problem polega na tym, że chcę testu na 1 próbce, a nie na 2 próbkach! Testuję zerową wartość

, a nie

. Sprawdzę Kubinger et. al., papier (Ich kann schlecht Deutsche).

E [X] = μ

$E[X] = \mu$

E [X_{1}] = E [X_{2}]

$E[X_1] = E[X_2]$

— shabbychef

Dzięki za wytłumaczenie. W takim przypadku papier Kubingera nie będzie dla ciebie bardzo pomocny. Przepraszam.

— Henrik,

5

Dlaczego patrzysz na testy nieparametryczne? Czy naruszone są założenia testu t? Mianowicie dane porządkowe lub nietypowe oraz niestałe odchylenia? Oczywiście, jeśli twoja próbka jest wystarczająco duża, możesz uzasadnić parametryczny test t jego większą mocą pomimo braku normalności w próbce. Podobnie, jeśli Twoim problemem są nierówne wariancje, w teście parametrycznym pojawiają się poprawki, które dają dokładne wartości p (korekcja Welcha).

W przeciwnym razie porównanie wyników z t-testem nie jest dobrym sposobem na obejście tego, ponieważ wyniki testu t są tendencyjne, gdy założenia nie są spełnione. Mann-Whitney U to odpowiednia nieparametryczna alternatywa, jeśli naprawdę tego potrzebujesz. Tracisz moc tylko wtedy, gdy korzystasz z testu nieparametrycznego, gdy możesz w uzasadniony sposób zastosować test t (ponieważ założenia są spełnione).

I, po więcej tła, przejdź tutaj ...

http://www.jerrydallal.com/LHSP/STUDENT.HTM

— Brett
źródło

dane zdecydowanie nie są normalne. nadmiar kurtozy jest rzędu 10-20, pochylenie jest rzędu -0,2 do 0,2. Wykonuję test t dla 1 próbki, więc nie jestem pewien, czy podążam za tobą w sprawie „nierównych wariancji” lub testu U.

— shabbychef

Akceptuję poradę „użyj testu parametrycznego”. nie rozwiązuje dokładnie mojego pytania, ale moje pytanie było prawdopodobnie zbyt otwarte.

— shabbychef

12

Zgadzam się, że jeśli chcesz faktycznie sprawdzić, czy średnie grupy są różne (w przeciwieństwie do testowania różnic między medianami grupy lub środkami przyciętymi itp.), To nie chcesz używać testu nieparametrycznego, który testuje inną hipotezę.

Zasadniczo wartości p z testu t wydają się być dość dokładne, biorąc pod uwagę umiarkowane odstępstwa od założenia normalności reszt. Sprawdź ten aplet, aby uzyskać intuicję na temat tej odporności: http://onlinestatbook.com/stat_sim/robustness/index.html
Jeśli nadal martwisz się naruszeniem założenia normalności, możesz chcieć uruchomić . np. http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JenniferThompson/ms_mtg_18oct07.pdf
Możesz także przekształcić zmienną zależną skośną, aby rozwiązać problemy z odstępstwami od normalności.

— Jeromy Anglim
źródło

2

+1 ładna i jasna odpowiedź. Jeromy, czy mogę zadać pytanie dotyczące punktu 3? Rozumiem powód transformacji danych, ale zawsze coś mi przeszkadzało. Jaka jest ważność zgłaszania wyników testu t na przekształconych danych do danych nietransformowanych (w których nie wolno „wykonać” testu t)? Innymi słowy, jeśli dwie grupy są różne, gdy dane są na przykład przekształcane w dzienniku, na jakich podstawach można powiedzieć, że surowe dane też są inne? Miej na uwadze, że nie jestem statystykiem, więc może powiedziałem coś absolutnie głupiego :)

— nico

2

@nico Nie jestem pewien, jak raportować lub myśleć o wynikach, ale jeśli wszystko, co chcesz pokazać, to że dla niektórych X i Y, mu_X! = mu_Y, powinno być prawdą, że dla wszystkich X_i <X_j, log ( X_i) <log (X_j) i dla wszystkich X_i> X_j, log (X_i)> log (X_j). Dlatego w przypadku testów nieparametrycznych, które działają z szeregami, transformacje danych nie wpływają na wynik. Myślę, że z tego można założyć, że jeśli jakiś test wykaże, że mu_log (X)! = Mu_log (Y), to mu_X! = Mu_Y.

— JoFrhwld

dzięki za odpowiedzi. w rzeczywistości wydaje się, że test t zachowuje nominalną częstość typu I przy lekko wypaczonym / kurtotycznym wejściu. liczyłem jednak na coś o większej mocy. re: 2, wdrożyłem Wilcoxa trimpbi trimcibt, ale są one trochę zbyt wolne, aby wykonać moje testy mocy, przynajmniej według mojego gustu. do: 3, myślałem o tej metodzie, ale interesuje mnie średnia z nieprzetworzonych danych (tj. nie porównuję 2 RV z testem t, w którym to przypadku transformacja monotoniczna byłaby odpowiednia dla porównanie według rang, jak zauważył @JoFrhwld.)

— shabbychef

2

@nico Jeśli rozkład populacji reszt jest taki sam w dwóch grupach, to wyobrażam sobie, że kiedykolwiek zaistnieje różnica w surowej grupie populacji, oznacza to, że będą również różnice w środkach grup transformacji zachowującej porządek. To powiedziawszy, wartości p i przedziały ufności będą się nieznacznie zmieniać w zależności od tego, czy używasz surowych danych, czy danych przekształconych. Ogólnie wolę używać transformacji, gdy wydają się one znaczącą miarą dla zrozumienia zmiennej (np. Skala Richtera, decybele, logi zliczeń itp.).

— Jeromy Anglim

3

Johnson (1978) podaje modyfikację dla $t$ -statystyczne i przedziały ufności, które są dobrym punktem wyjścia dla mojego problemu. Korekta oparta jest na rozszerzeniu Cornish-Fisher i wykorzystuje pochylenie próbki.

„Najnowsze i największe” należą do Ogaswary , z odniesieniami do Hall i innych.

— shabbychef
źródło

0

Nie mam wystarczającej reputacji na komentarz, więc jako odpowiedź: spójrz na to obliczenie. Myślę, że to doskonała odpowiedź. W skrócie:

Działanie asymptotyczne jest znacznie bardziej wrażliwe na odchylenia od normalności w postaci skośności niż w postaci kurtozy ... Zatem test t-Studenta jest wrażliwy na skośność, ale stosunkowo odporny na ciężkie ogony, i rozsądne jest zastosowanie testu dla normalność, która jest ukierunkowana na alternatywne pochylenie przed zastosowaniem testu t.

— Christoph
źródło