Porównanie zbiorów szeregów czasowych

Mam trzy zestawy danych szeregów czasowych, które chcę porównać. Zostały one pobrane na 3 osobne okresy około 12 dni. Są to średnie, maksymalne i minimalne liczby głów zebrane w bibliotece uniwersyteckiej podczas tygodni finałowych. Musiałem podać średnie, maksymalne i minimalne, ponieważ godzinowe zliczanie głowic nie było ciągłe (patrz Regularne luki w danych w szeregu czasowym ).

Teraz zestaw danych wygląda następująco. Jest jeden punkt danych (średni, maksymalny lub minimalny) na wieczór przez 12 wieczorów. Są 3 semestry, dla których dane zostały zebrane, tylko w 12-dniowych okresach niepokoju. Na przykład wiosna 2010, jesień 2010 i maj 2011 mają po 12 punktów. Oto przykładowy wykres:

wprowadź opis zdjęcia tutaj

Nałożyłem semestry, ponieważ chcę zobaczyć, jak zmieniają się wzorce z semestru na semestr. Jednak, jak powiedziano mi w połączonym wątku , nie jest dobrym pomysłem uderzanie semestrów od ogona w głowę, ponieważ nie ma między nimi żadnych danych.

Pytanie brzmi zatem: Jakiej techniki matematycznej mogę użyć do porównania schematu uczestnictwa w każdym semestrze? Czy jest coś specjalnego w szeregach czasowych, co muszę zrobić, czy mogę po prostu wziąć różnice procentowe? Moim celem jest stwierdzenie, że wykorzystanie biblioteki w tych dniach rośnie lub maleje; Po prostu nie jestem pewien, jakich technik powinienem użyć, aby to pokazać.

time-series multiple-comparisons trend

— induvidyul
źródło

Odpowiedzi:

ANOVA ze stałymi efektami (lub jej równoważnik regresji liniowej) zapewnia potężną rodzinę metod analizy tych danych. Aby to zilustrować, oto zestaw danych zgodny z wykresem średniego HC na wieczór (jeden wykres na kolor):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234

ANOVA countprzeciw dayi colortworzy tę tabelę:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206

Wartość modelp 0,0000 pokazuje, że dopasowanie jest bardzo znaczące. Wartość dayp 0,0000 jest również bardzo istotna: możesz wykryć codzienne zmiany. Jednak colorwartości p (semestru) 0,2001 nie należy uważać za znaczącą: nie można wykryć systematycznej różnicy między trzema semestrami, nawet po kontrolowaniu zmienności z dnia na dzień.

Test HSD Tukeya („uczciwa znacząca różnica”) identyfikuje następujące znaczące zmiany (między innymi) w środkach dnia (niezależnie od semestru) na poziomie 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Potwierdza to, co oko widzi na wykresach.

Ponieważ wykresy podskakują dość często, nie ma sposobu na wykrycie codziennych korelacji (korelacja szeregowa), co stanowi cały punkt analizy szeregów czasowych. Innymi słowy, nie przejmuj się technikami szeregów czasowych: nie ma tutaj wystarczającej ilości danych, aby zapewnić lepszy wgląd.

Zawsze należy się zastanawiać, jak bardzo wierzyć w wyniki jakiejkolwiek analizy statystycznej. Różne metody diagnostyczne dotyczące heteroscedastyczności (takie jak test Breuscha-Pagana ) nie pokazują niczego złego. Resztki nie wyglądają bardzo normalnie - zbrylają się w niektóre grupy - więc wszystkie wartości p należy przyjąć ziarenkiem soli. Niemniej jednak wydaje się, że zapewniają one rozsądne wskazówki i pomagają w określeniu ilości danych, które możemy uzyskać na podstawie wykresów.

Możesz przeprowadzić równoległą analizę minimów dziennych lub maksymalnych dziennych. Pamiętaj, aby zacząć od podobnego wykresu jako przewodnika i sprawdzić wyniki statystyczne.

— Whuber
źródło

+1 za demonstrację prostych, ale potężnych technik. Jestem najbardziej ciekawy, jak udało ci się wyodrębnić wartości z wykresu? Jakieś oprogramowanie lub kara za źle zachowującego się ucznia? :)

— mpiktas

@mp Zdygitalizowałem punkty na zrzucie ekranu grafiki, wyodrębniłem ich współrzędne za pomocą oprogramowania GIS, przekształciłem współrzędne za pomocą arkusza kalkulacyjnego, a następnie zaimportowałem go do pakietu statystyk. To zajmuje tylko kilka minut. Ta metoda może się przydać, gdy jedyne dane, które masz, mają postać wykresu lub mapy.

— whuber

@whuber To super! Nie byłam tego świadoma.

— suncoolsu

@ whuber Zastanawiam się, jaki jest efekt posiadania 3 zestawów 12 autokorelowanych odczytów w porównaniu z 36 niezależnymi obserwacjami. Wydaje mi się, że tak naprawdę nie mamy 35 stopni swobody, aby rozdzielić. Prawdopodobieństwa, które rozważasz, są oparte na stosunku niecentralnej zmiennej chi-kwadrat do centralnej zmiennej chi-kwadrat. Czy czegoś tu brakuje? Dobra robota, aby wyodrębnić liczby z fabuły. Czy istnieje jakiś program, do którego możesz się odwołać, aby pomóc nam w tym zakresie?

— IrishStat

x

$x$

y

$y$

V a r (x) = V a r (y) = σ^{2}

$Var(x)=Var(y)=\sigma^2$

σ

$\sigma$

x - y = 0

$x-y=0$

V a r (x - y) = 2 σ^{2}

$Var(x-y)=2\sigma^2$

ρ

$\rho$

x

$x$

y

$y$

V a r (x - y) = 2 (1 - ρ) σ^{2}

$Var(x-y)=2(1-\rho)\sigma^2$

ρ > 0

$\rho \gt 0$

Sarah, weź swoje 36 liczb (12 wartości na cykl; 3 cykle) i zbuduj model regresji z 11 wskaźnikami odzwierciedlającymi możliwy efekt tygodnia w semestrze, a następnie określ wszelkie niezbędne serie interwencji (impulsy, przesunięcia poziomu) niezbędne do renderowania średnia reszt będzie wszędzie 0,0 lub przynajmniej nie będzie statystycznie istotnie różna od 0,0. Na przykład, jeśli zidentyfikujesz przesunięcie poziomu w okresie 13, może to sugerować statystycznie znaczącą różnicę między średnią pierwszego semestru, tj. Pierwszych 12 wartości) w porównaniu do średniej z dwóch ostatnich semestrów (ostatnich 24 wartości). Możesz być w stanie wyciągnąć wnioski lub przetestować hipotezę o braku tygodnia efektu semestru. Dobry pakiet szeregów czasowych może być dla Ciebie przydatny w tym względzie. W przeciwnym razie może być konieczne znalezienie kogoś, kto udzieli pomocy na tej arenie analitycznej.

— IrishStat
źródło

To brzmi jak opis dwukierunkowej ANOVA (dni po cyklach), po której następują planowane testy 11 par dni. Zwykłe stare oprogramowanie statystyk będzie prawdopodobnie bardziej elastyczne i wydajne w użyciu niż specjalistyczne oprogramowanie szeregów czasowych; z pewnością będzie łatwiej. BTW, indeksy to dni (do okresu egzaminacyjnego), a nie tydzień semestru.

— whuber

Czy mogę również używać ANOVA do porównywania maksymalnych i minimalnych wartości na dzień? Czy to dotyczy tylko środków?

— induvidyul

@ Sarah Może mieć zastosowanie do minimów i maksimów. Jednak statystyki te są znacznie bardziej zmienne niż średnie, więc jest mniej prawdopodobne, że będziesz w stanie wykryć zmiany w nich w czasie lub między semestrami. Z twojego wykresu jasno wynika, że środki różnią się znacznie. Jeśli możesz, uczyń ANOVA trójstronną , włączając godzinę dnia i używając oryginalnej liczby godzin zamiast ich dziennych środków.

— whuber

@ whuber: Powiedziano mi, że zestawianie danych godzinowych nie jest możliwe, ponieważ zostały nagrane tylko od 12:00 do 6:00. Zobacz moje poprzednie pytanie Regularne luki w danych w szeregu czasowym .

— induvidyul

@ Sarah Mówię o czymś innym: modeluj zależność w kategoriach trzech czynników: kropki (3 z nich), dnia na kropkę (12 z nich) i godziny dnia (6 z nich). Możesz nawet uwzględnić korelacje między godzinami, ale może to nie być konieczne do twoich celów. Niezależnie od tego, nie zalecam oglądania każdego okresu jako przerywanej serii 12 * 24 liczb: brakuje zbyt wielu danych.

— whuber