Testowanie hipotez i znaczenie dla szeregów czasowych

Typowym testem istotnym dla patrzenia na dwie populacje jest test t, test t-sparowany, jeśli to możliwe. Zakłada się, że rozkład jest normalny.

Czy istnieją podobne założenia upraszczające, które dają test istotności dla szeregów czasowych? W szczególności mamy dwie dość małe populacje myszy, które są traktowane inaczej i mierzymy wagę raz w tygodniu. Oba wykresy wyświetlają płynnie rosnące funkcje, przy czym jeden wykres zdecydowanie przewyższa drugi. Jak oceniamy „definitywność” w tym kontekście?

Hipoteza zerowa powinna być taka, że wagi dwóch populacji „zachowują się w ten sam sposób” w miarę upływu czasu. Jak sformułować to w kategoriach prostego modelu, który jest dość powszechny (podobnie jak normalne rozkłady są powszechne) z niewielką liczbą parametrów? Po dokonaniu tego, w jaki sposób można zmierzyć istotność lub coś analogicznego do wartości p? A co z parowaniem myszy, dopasowaniem jak największej liczby cech, przy czym każda para ma jednego przedstawiciela z każdej z dwóch populacji?

Z zadowoleniem przyjąłbym wskazówkę do odpowiedniej, dobrze napisanej i łatwo zrozumiałej książki lub artykułu o szeregach czasowych. Zaczynam jako ignorant. Dzięki za pomoc.

David Epstein

time-series hypothesis-testing statistical-significance

— David Epstein
źródło

Możesz rzucić szerszą sieć, ponieważ niekoniecznie jest to pytanie dotyczące szeregów czasowych. Rzeczywiście, być może najbardziej podstawowe pytanie dotyczy najlepszego lub przynajmniej poprawnego sposobu oceny ilościowej „punktu końcowego” leczenia: czy oznacza to wzrost populacji po określonym czasie, średnie tempo wzrostu w czasie itp.? Jeśli nie wiedziałeś tego przed rozpoczęciem eksperymentu i nagle zauważysz stałe różnice w krzywych wzrostu, wówczas pracujesz w trybie eksploracyjnym , a nie potwierdzającym, a wartości p testowania hipotez będą zwodniczo dobre.

— whuber

Wynik jest jakościowy zgodnie z oczekiwaniami, a jednostronny test wydaje się odpowiedni. Powodem, dla którego pytałem o szeregi czasowe, jest to, że jeśli mierzy się tylko końcową wagę (która jest najbardziej odpowiednim pomiarem), wówczas wyrzuca się wszystkie informacje z wcześniejszych punktów czasowych, i to wydaje się błędne.

— David Epstein,

Masz rację: nie chcesz wyrzucać tych danych. Ale techniki szeregów czasowych wysuwają się na pierwszy plan w przypadku modeli danych, w których czasowe korelacje odchyleń od idealizowanych krzywych są ważne, albo dla ich własnego zainteresowania, albo dlatego, że mogą zakłócać dobre oszacowanie. Twoja sytuacja prawdopodobnie nie wpada w żaden z tych przypadków. Dostępne są prostsze, bardziej znaczące naukowo metody.

— whuber

@ whuber, czy waga w czasie zestawu kontrolnego myszy nie jest w pewnym sensie „idealizowaną krzywą”? A przynajmniej model teoretyczny dopasowany do tych danych?

— naught101 20.04.2012

Tak, @naught, to rozsądny sposób, aby na to spojrzeć. Ale „krzywa” to nie to samo, co „szeregi czasowe”. Na przykład regresję liniową można (i często uważa się) za dopasowywanie krzywych do danych, ale jest ona oddzielna od analizy szeregów czasowych, która podkreśla strukturę korelacji między odchyleniami między danymi a krzywą idealizowaną.

— whuber

Odpowiedzi:

Jest wiele sposobów na zrobienie tego, jeśli myślisz o zmianach wagi jako o procesie dynamicznym.

Na przykład może być modelowany jako integrator $\dot x(t) = \theta x(t) + v(t)$

$x(t)$ $\theta$ $v(t)$ $v(t)$ $\mathcal N(0,Q)$ $Q$

$\theta$ $\theta$ $\theta_1$ $\theta_2$

W celach informacyjnych mogę zasugerować tę książkę .

— andrecb
źródło

Sugerowałbym zidentyfikowanie modelu ARIMA dla każdej myszy osobno, a następnie przejrzenie ich pod kątem podobieństw i uogólnienia. Na przykład, jeśli pierwsze myszy mają AR (1), a druga ma AR (2), najbardziej ogólnym (największym) modelem byłby AR (2). Oszacuj ten model globalnie, tj. Dla połączonych szeregów czasowych. Porównaj sumę błędów kwadratów dla połączonego zestawu z sumą dwóch indywidualnych sum błędów dla kwadratów, aby wygenerować wartość F w celu przetestowania hipotezy o stałych parametrach między grupami. Chciałbym, abyś mógł opublikować swoje dane, a ja dokładnie zilustruję ten test.

DODATKOWE KOMENTARZE:

Ponieważ zestaw danych jest autokorelowany, normalność nie ma zastosowania. Jeśli obserwacje są niezależne w czasie, można zastosować niektóre z dobrze znanych metod szeregów innych niż czasowe. Jeśli chodzi o prośbę o łatwą do odczytania książkę o szeregach czasowych, proponuję tekst Wei autorstwa Addisona-Wesleya. Naukowcy zajmujący się naukami społecznymi uznają, że nie matematyczne podejście Mcleary i Hay (1980) jest bardziej intuicyjne, ale pozbawione rygoru.

— IrishStat
źródło

To naprawdę nie wydaje się dotyczyć podstawowych problemów. (1) Dlaczego taki model jest odpowiedni? (2) Dlaczego należy modelować każdą mysz, a nie, powiedzmy, średnią wagę populacji lub przyrost wagi? (3) Dlaczego test stałych parametrów jest istotny? Pytanie nasuwa test jednostronny. Większość parametrów, o których wspominasz, nie wydaje się istotna z naukowego punktu widzenia, ani nie mierzy bezpośrednio, czy jeden wykres jest konsekwentnie wyższy od drugiego. (4) Jak kontrolujesz możliwe różnice w charakterystyce dwóch populacji na początku eksperymentu?

— whuber

: whuber Test na stałość parametrów jest istotny, ponieważ masz zestaw współczynników dla pierwszej grupy odczytów od 1 i drugi zestaw współczynników dla drugiej myszy. Pytanie brzmi: „Czy istnieje kolektywnie znacząca różnica między współczynnikami”. Teraz kontynuując swój komentarz, ponieważ jeden ze współczynników modelu może być stały, a jeśli tak, to różnica między współczynnikami może wynikać ze stałych, które są statystycznie różne od siebie. Należy zauważyć, że bazowy model ARIMA niekoniecznie musi mieć stałą, ponieważ może to być model różnicy.

— IrishStat

Myślę, że częściowo masz rację, ale musisz sprecyzować swoją charakterystykę problemu. Wiele współczynników ARIMA może być nieistotnych z naukowego punktu widzenia. Na przykład, jeśli jeden z nich z czasem zachowuje się jak wyraz kwadratowy, różnica może powiedzieć coś o kształcie krzywych wzrostu, ale może to być mało przydatne. Jeśli ktoś wybierze współczynniki odzwierciedlające eksperymentalne punkty końcowe i przetestuje tylko je, można w ten sposób osiągnąć pewne dobro. Ogólnie jednak modele szeregów czasowych wprowadzają współczynniki (np. Autokorelację), które prawdopodobnie nie będą miały bezpośredniego znaczenia naukowego.

— whuber

whuber: „Jeśli ktoś wybierze współczynniki odzwierciedlające eksperymentalny (-e) punkt (-y) końcowy (e) i przetestuje tylko je, to może przynieść pewne dobro” ”nie ma dla mnie większego sensu, ponieważ ignoruje punkty pośrednie. W przeciwieństwie do twojego komentarza, tryb szeregów czasowych i towarzyszące mu współczynniki mają duże znaczenie naukowe, ponieważ charakteryzują rozkład odczytów i przekształcają je w losowy proces (warunek błędu), który nie ma struktury autokorelacyjnej, a następnie podlega testom wymagające normalności. Test, który proponuję, wymaga tego założenia.

— IrishStat

Autokorelacja może mieć tutaj niewielkie znaczenie. Zainteresowanie wyraźnie koncentruje się na trendach: w jaki sposób podstawowe krzywe wzrostu różnią się między dwiema populacjami? Parametry autokorelacji są uciążliwymi parametrami, które należy wprowadzić i którymi można się zajmować tylko w takim zakresie, w jakim mogą one pomóc w poprawie oszacowania tych krzywych wzrostu. Pierwszym priorytetem jest przyjęcie naukowego modelu wzrostu, przedstawienie tego modelu z parametrami, które są interpretowalne i interesujące, oraz ich oszacowanie . Automatyczne zastosowanie technik szeregów czasowych jest mało prawdopodobne.

— whuber