Ogólnie rzecz biorąc, myślę, że naukowo i statystycznie bardziej owocne jest rozpoczęcie od zadania szerszego i innego pytania, które brzmi, jak daleko można przewidzieć odpowiedź z okrągłego predyktora. Mówię tutaj kołowo , a nie kierunkowo , częściowo dlatego, że ta ostatnia zawiera sferyczne, a nawet bardziej bajeczne przestrzenie, których nie da się ująć w jednej odpowiedzi; a częściowo dlatego, że twoje przykłady, pora dnia i pora roku , są okrągłe. Kolejnym ważnym przykładem jest kierunek kompasu (istotny dla wiatrów, ruchów zwierząt lub ludzi, wyrównania itp.), Który występuje w wielu problemach kołowych: dla niektórych naukowców jest to bardziej oczywisty punkt wyjścia.
Ilekroć można tego uniknąć, użycie funkcji sinus i cosinus czasu w pewnym modelu regresji jest prostą i łatwą do wdrożenia metodą modelowania. Jest to pierwszy port dla wielu biologicznych i / lub środowiskowych przykładów. (Te dwa rodzaje często są ze sobą powiązane, ponieważ zjawiska biotyczne wykazujące sezonowość zwykle reagują bezpośrednio lub pośrednio na klimat lub na pogodę.)
Dla konkretności wyobraź sobie pomiary czasu w ciągu 24 godzin lub 12 miesięcy, aby np
sin[2π(hour/24)], cos[2π(hour/24)]
sin[2π(month/12)], cos[2π(month/12)]
każdy opisuje jeden cykl w ciągu całego dnia lub roku. Formalny test braku związku między zmierzoną lub zliczoną odpowiedzią a pewnym czasem kołowym byłby wówczas standardowym testem tego, czy współczynniki sinusa i cosinusa są łącznie zerowe w uogólnionym modelu liniowym z sinus i cosinus jako predyktorami, odpowiednim łącznikiem i rodziną wybierane zgodnie z charakterem odpowiedzi.
Kwestia krańcowego rozkładu odpowiedzi (normalnej lub innej) jest w tym podejściu drugorzędna i / lub powinna być rozpatrywana przez wybór rodziny.
Zaletą sinusów i cosinusów jest to, że są one okresowe i owijają się automatycznie, więc wartości na początku i na końcu każdego dnia lub roku są koniecznie takie same. Nie ma problemu z warunkami brzegowymi, ponieważ nie ma granicy.
Podejście to nazwano regresją kołową, okresową, trygonometryczną i regresją Fouriera. Aby zapoznać się z jednym wprowadzeniem do samouczka, zobacz tutaj
W praktyce,
Takie testy zwykle pokazują przytłaczające wyniki na konwencjonalnych poziomach, ilekroć spodziewamy się sezonowości. Bardziej interesującym pytaniem jest wówczas dokładna oszacowana krzywa sezonowa i to, czy potrzebujemy bardziej skomplikowanego modelu z innymi terminami sinusoidalnymi.
Nic nie wyklucza również innych predyktorów, w takim przypadku potrzebujemy po prostu bardziej kompleksowych modeli z innymi predyktorami, na przykład sinus i cosinus dla sezonowości i innych predyktorów dla wszystkiego innego.
W pewnym momencie, w zależności od danych, problemu, gustów i doświadczenia badacza, bardziej naturalne może być podkreślenie aspektu szeregów czasowych problemu i zbudowanie modelu z wyraźną zależnością czasową. Rzeczywiście, niektórzy statystycznie nastawieni ludzie zaprzeczaliby, że istnieje inny sposób na to.
To, co łatwo nazwać trendem (ale nie zawsze jest tak łatwe do zidentyfikowania), znajduje się w punkcie 2 lub 3, a nawet w obu.
Wielu ekonomistów i innych naukowców zajmujących się sezonowością na rynkach, gospodarkach krajowych i międzynarodowych lub innymi zjawiskami ludzkimi jest zwykle bardziej pod wrażeniem możliwości bardziej skomplikowanej zmienności w ciągu każdego dnia lub (częściej) roku. Często, choć nie zawsze, sezonowość jest uciążliwością, którą należy usunąć lub skorygować, w przeciwieństwie do naukowców zajmujących się biologią i środowiskiem, którzy często uważają sezonowość za interesującą i ważną, a nawet najważniejszą kwestię projektu. To powiedziawszy, ekonomiści i inni często również przyjmują podejście typu regresji, ale w przypadku amunicji pakiet zmiennych wskaźnikowych (najprostszych), po prostu 0,1 zmiennych na każdy miesiąc lub kwartał roku. Może to być praktyczny sposób na uchwycenie skutków nazwanych świąt, okresów urlopowych, skutków ubocznych lat szkolnych itp., A także wpływów lub wstrząsów związanych z klimatem lub pogodą. Biorąc pod uwagę te różnice, większość powyższych uwag dotyczy także ekonomii i nauk społecznych.
Postawy i podejście epidemiologów i statystycznych lekarzy zainteresowanych zmianami zachorowalności, umieralności, przyjęć do szpitali, wizyt w klinice i tym podobnych, mieszczą się pomiędzy tymi dwoma skrajnościami.
Moim zdaniem dzielenie dni lub lat na połowy w celu porównania jest zwykle arbitralne, sztuczne, aw najlepszym razie niezręczne. Ignoruje również rodzaj gładkiej struktury zwykle występującej w danych.
EDYCJA Rachunek do tej pory nie zajmuje się różnicą między czasem dyskretnym a ciągłym, ale z mojego doświadczenia nie uważam tego za poważny problem w praktyce.
Jednak precyzyjne wybory zależą od tego, jak dane docierają i od schematu zmian.
Gdyby dane były kwartalne, a ludzkie, miałbym tendencję do używania zmiennych wskaźnikowych (np. Ćwiartki 3 i 4 są często różne). Jeśli jest to miesięczne i ludzkie, wybór nie jest jasny, ale musiałbyś ciężko pracować, aby sprzedać sinusy i cosinusy większości ekonomistów. Jeśli miesięcznie lub drobniej i biologicznie lub środowiskowo, zdecydowanie sinus i cosinus.
EDYCJA 2 Dalsze szczegóły dotyczące regresji trygonometrycznej
Charakterystycznym szczegółem regresji trygonometrycznej (nazwanej w inny sposób, jeśli wolisz) jest to, że prawie zawsze warunki sinus i cosinus najlepiej przedstawić modelowi parami. Najpierw skalujemy porę dnia, porę roku lub kierunek kompasu, aby był reprezentowany jako kąt na okręgu
w radianach, a więc w przedziale [ 0 , 2 π ] . Następnie używamy tylu par sin k θ , cos k θ , k = 1 , 2 , 3 , …θ[0,2π]sinkθ,coskθ,k=1,2,3,…jakie są potrzebne w modelu. (W statystykach kołowych konwencje trygonometryczne przeważają nad konwencjami statystycznymi, dlatego greckie symbole, takie jak są używane zarówno dla zmiennych, jak i parametrów.)θ,ϕ,ψ
Jeśli oferujemy parę predyktorów, takich jak , modelowi przypominającemu regresję, wówczas mamy szacunki współczynników, powiedzmy b 1 , b 2 , dla terminów w modelu, mianowicie b 1 sin θ , b 2 cos θ . Jest to sposób dopasowania fazy, jak również amplitudy sygnału okresowego. Inaczej mówiąc, funkcję taką jak sin ( θ + ϕ ) można przepisać jakosinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)
sinθcosϕ+cosθsinϕ,
ale i sin φ reprezentujący fazę szacowane są w okucia modelu. W ten sposób unikamy problemu nieliniowej oceny.cosϕsinϕ
Jeśli użyjemy do modelowania wariancji kołowej, wówczas automatycznie maksimum i minimum tej krzywej są w odległości półkola. Jest to często bardzo dobre przybliżenie dla wariantów biologicznych lub środowiskowych, ale odwrotnie, możemy potrzebować jeszcze kilku terminów, aby uchwycić w szczególności sezonowość gospodarczą. To może być bardzo dobry powód, aby zamiast tego używać zmiennych wskaźnikowych, które natychmiast prowadzą do prostych interpretacji współczynników.b1sinθ+b2cosθ