Test asocjacji dla normalnie dystrybuowanego DV przez kierunkowe zmienne niezależne?

Czy istnieje test hipotezy, czy normalnie dystrybuowana zmienna zależna jest powiązana ze zmienną o rozkładzie kierunkowym ?

Na przykład, jeśli zmienna objaśniająca to pora dnia (a założenie, że dzień tygodnia, miesiąc roku itp. Są nieistotne) - tak można wyjaśnić fakt, że godzina 23:00 jest 22 godziny przed 1 rano, a także 2 godziny w tyle 1 rano w teście skojarzenia? Czy mogę sprawdzić, czy ciągła pora dnia wyjaśnia zmienną zależną, nie zakładając, że północ po północy nie następuje po minucie po 23:59?

Czy ten test dotyczy również dyskretnych zmiennych objaśniających kierunkowych ( modułowych ?)? Czy to wymaga osobnego testu? Na przykład, jak sprawdzić, czy zmienna zależna jest wyjaśniona przez miesiąc roku (zakładanie dnia i pory roku oraz konkretnego roku lub dekady są nieistotne). Traktowanie miesiąca roku kategorycznie ignoruje zamawianie. Lecz traktowanie miesiąca roku jako standardowej zmiennej porządkowej (powiedzmy Jan = 1 ... Gru = 12) ignoruje to, że styczeń przychodzi dwa miesiące po listopadzie.

hypothesis-testing modeling circular-statistics

— Alexis
źródło

Odpowiedź może wypełnić książkę (a jest ich kilka). Sprecyzowanie pytania może pomóc skoncentrować odpowiedzi na tym, co dla Ciebie ważne.

— whuber

@ Whuber Um ... rany ... możesz mi pomóc w zawężaniu? Określanie dystrybucji dla DV? Ograniczasz się do jednego testu, a nie regresji? Jestem trochę zakłopotany i nie wiem od czego zacząć ...

— Alexis

@ whuber Próbowałem trochę zawęzić pytanie i byłbym wdzięczny za wszelkie wskazówki dotyczące uczynienia go bardziej użytecznym (naprawdę chcę po prostu zacząć od myślenia o modułowych predyktorach). Jeśli jest to teraz w przyzwoitej formie, prawdopodobnie odpowiem na podobne pytanie dotyczące takiego testu, który nie jest dystrybuowany w DV.

— Alexis

@ whuber Rozmyślając o dyskretnym modułowym IV w kontekście regresji: czy dwupoziomowy model mieszany z dyskretnym modułowym IV jako identyfikatorem poziomu 2 z każdą jednostką poziomu 2 posiadającą zmienną efektu przed i po losowej równą poprzednia i kolejna wartość w systemie liczbowym jest na dobrej drodze?

— Alexis

Zobacz tutaj jstatsoft.org/article/view/v031i10/v31i10.pdf , strona 16.

— ameba

Odpowiedzi:

Ogólnie rzecz biorąc, myślę, że naukowo i statystycznie bardziej owocne jest rozpoczęcie od zadania szerszego i innego pytania, które brzmi, jak daleko można przewidzieć odpowiedź z okrągłego predyktora. Mówię tutaj kołowo , a nie kierunkowo , częściowo dlatego, że ta ostatnia zawiera sferyczne, a nawet bardziej bajeczne przestrzenie, których nie da się ująć w jednej odpowiedzi; a częściowo dlatego, że twoje przykłady, pora dnia i pora roku , są okrągłe. Kolejnym ważnym przykładem jest kierunek kompasu (istotny dla wiatrów, ruchów zwierząt lub ludzi, wyrównania itp.), Który występuje w wielu problemach kołowych: dla niektórych naukowców jest to bardziej oczywisty punkt wyjścia.

Ilekroć można tego uniknąć, użycie funkcji sinus i cosinus czasu w pewnym modelu regresji jest prostą i łatwą do wdrożenia metodą modelowania. Jest to pierwszy port dla wielu biologicznych i / lub środowiskowych przykładów. (Te dwa rodzaje często są ze sobą powiązane, ponieważ zjawiska biotyczne wykazujące sezonowość zwykle reagują bezpośrednio lub pośrednio na klimat lub na pogodę.)

Dla konkretności wyobraź sobie pomiary czasu w ciągu 24 godzin lub 12 miesięcy, aby np

$\sin [2\pi (\text{hour}/24)],\ \ \cos [2\pi (\text{hour}/24)]$

$\sin [2\pi (\text{month}/12)],\ \ \cos [2\pi (\text{month}/12)]$

każdy opisuje jeden cykl w ciągu całego dnia lub roku. Formalny test braku związku między zmierzoną lub zliczoną odpowiedzią a pewnym czasem kołowym byłby wówczas standardowym testem tego, czy współczynniki sinusa i cosinusa są łącznie zerowe w uogólnionym modelu liniowym z sinus i cosinus jako predyktorami, odpowiednim łącznikiem i rodziną wybierane zgodnie z charakterem odpowiedzi.

Kwestia krańcowego rozkładu odpowiedzi (normalnej lub innej) jest w tym podejściu drugorzędna i / lub powinna być rozpatrywana przez wybór rodziny.

Zaletą sinusów i cosinusów jest to, że są one okresowe i owijają się automatycznie, więc wartości na początku i na końcu każdego dnia lub roku są koniecznie takie same. Nie ma problemu z warunkami brzegowymi, ponieważ nie ma granicy.

Podejście to nazwano regresją kołową, okresową, trygonometryczną i regresją Fouriera. Aby zapoznać się z jednym wprowadzeniem do samouczka, zobacz tutaj

W praktyce,

Takie testy zwykle pokazują przytłaczające wyniki na konwencjonalnych poziomach, ilekroć spodziewamy się sezonowości. Bardziej interesującym pytaniem jest wówczas dokładna oszacowana krzywa sezonowa i to, czy potrzebujemy bardziej skomplikowanego modelu z innymi terminami sinusoidalnymi.
Nic nie wyklucza również innych predyktorów, w takim przypadku potrzebujemy po prostu bardziej kompleksowych modeli z innymi predyktorami, na przykład sinus i cosinus dla sezonowości i innych predyktorów dla wszystkiego innego.
W pewnym momencie, w zależności od danych, problemu, gustów i doświadczenia badacza, bardziej naturalne może być podkreślenie aspektu szeregów czasowych problemu i zbudowanie modelu z wyraźną zależnością czasową. Rzeczywiście, niektórzy statystycznie nastawieni ludzie zaprzeczaliby, że istnieje inny sposób na to.

To, co łatwo nazwać trendem (ale nie zawsze jest tak łatwe do zidentyfikowania), znajduje się w punkcie 2 lub 3, a nawet w obu.

Wielu ekonomistów i innych naukowców zajmujących się sezonowością na rynkach, gospodarkach krajowych i międzynarodowych lub innymi zjawiskami ludzkimi jest zwykle bardziej pod wrażeniem możliwości bardziej skomplikowanej zmienności w ciągu każdego dnia lub (częściej) roku. Często, choć nie zawsze, sezonowość jest uciążliwością, którą należy usunąć lub skorygować, w przeciwieństwie do naukowców zajmujących się biologią i środowiskiem, którzy często uważają sezonowość za interesującą i ważną, a nawet najważniejszą kwestię projektu. To powiedziawszy, ekonomiści i inni często również przyjmują podejście typu regresji, ale w przypadku amunicji pakiet zmiennych wskaźnikowych (najprostszych), po prostu $0, 1$ zmiennych na każdy miesiąc lub kwartał roku. Może to być praktyczny sposób na uchwycenie skutków nazwanych świąt, okresów urlopowych, skutków ubocznych lat szkolnych itp., A także wpływów lub wstrząsów związanych z klimatem lub pogodą. Biorąc pod uwagę te różnice, większość powyższych uwag dotyczy także ekonomii i nauk społecznych.

Postawy i podejście epidemiologów i statystycznych lekarzy zainteresowanych zmianami zachorowalności, umieralności, przyjęć do szpitali, wizyt w klinice i tym podobnych, mieszczą się pomiędzy tymi dwoma skrajnościami.

Moim zdaniem dzielenie dni lub lat na połowy w celu porównania jest zwykle arbitralne, sztuczne, aw najlepszym razie niezręczne. Ignoruje również rodzaj gładkiej struktury zwykle występującej w danych.

EDYCJA Rachunek do tej pory nie zajmuje się różnicą między czasem dyskretnym a ciągłym, ale z mojego doświadczenia nie uważam tego za poważny problem w praktyce.

Jednak precyzyjne wybory zależą od tego, jak dane docierają i od schematu zmian.

Gdyby dane były kwartalne, a ludzkie, miałbym tendencję do używania zmiennych wskaźnikowych (np. Ćwiartki 3 i 4 są często różne). Jeśli jest to miesięczne i ludzkie, wybór nie jest jasny, ale musiałbyś ciężko pracować, aby sprzedać sinusy i cosinusy większości ekonomistów. Jeśli miesięcznie lub drobniej i biologicznie lub środowiskowo, zdecydowanie sinus i cosinus.

EDYCJA 2 Dalsze szczegóły dotyczące regresji trygonometrycznej

Charakterystycznym szczegółem regresji trygonometrycznej (nazwanej w inny sposób, jeśli wolisz) jest to, że prawie zawsze warunki sinus i cosinus najlepiej przedstawić modelowi parami. Najpierw skalujemy porę dnia, porę roku lub kierunek kompasu, aby był reprezentowany jako kąt na okręgu w radianach, a więc w przedziale . Następnie używamy tylu par $\theta$ $[0, 2\pi]$ $\sin k\theta, \cos k\theta, k = 1, 2, 3, \dots$ jakie są potrzebne w modelu. (W statystykach kołowych konwencje trygonometryczne przeważają nad konwencjami statystycznymi, dlatego greckie symbole, takie jak są używane zarówno dla zmiennych, jak i parametrów.) $\theta, \phi, \psi$

Jeśli oferujemy parę predyktorów, takich jak , modelowi przypominającemu regresję, wówczas mamy szacunki współczynników, powiedzmy , dla terminów w modelu, mianowicie . Jest to sposób dopasowania fazy, jak również amplitudy sygnału okresowego. Inaczej mówiąc, funkcję taką jak można przepisać jako $\sin \theta, \cos \theta$ $b_1, b_2$ $b_1 \sin \theta, b_2 \cos \theta$ $\sin (\theta + \phi)$

\sin θ \cos ϕ + \cos θ \sin ϕ,

$\sin \theta \cos \phi + \cos \theta \sin \phi,$

ale i reprezentujący fazę szacowane są w okucia modelu. W ten sposób unikamy problemu nieliniowej oceny. $\cos \phi$ $\sin \phi$

Jeśli użyjemy do modelowania wariancji kołowej, wówczas automatycznie maksimum i minimum tej krzywej są w odległości półkola. Jest to często bardzo dobre przybliżenie dla wariantów biologicznych lub środowiskowych, ale odwrotnie, możemy potrzebować jeszcze kilku terminów, aby uchwycić w szczególności sezonowość gospodarczą. To może być bardzo dobry powód, aby zamiast tego używać zmiennych wskaźnikowych, które natychmiast prowadzą do prostych interpretacji współczynników. $b_1 \sin \theta + b_2 \cos \theta$

— Nick Cox
źródło

Zauważam, że pewne zaskakujące pokrywanie się z odpowiedzią @Kelvin.

— Nick Cox

+1 (Zwłaszcza za używanie „bajecznego”, jak to zrobiłeś!) Nick Cox, czy byłbyś tak uprzejmy, aby wyraźne uzasadnić również dyskretne zmienne kołowe, jak na moje pytanie? Czy byłoby to tak proste jak „modelowanie trygonometryczne”, które opisujesz przy użyciu dyskretnej miary czasu? Czy też będą jakieś korekty ciągłości?

— Alexis,

O ile mi wiadomo, jedyną różnicą między dyskretnymi i ciągłymi zmiennymi kołowymi jest zaokrąglanie wartości do dyskretnych punktów (np. 14.00 vs 14.12345 godz.), Jak w przypadku zmiennych niekołowych, więc nie będzie dużej różnicy o ile zastosujesz mniej zaokrąglania małymi krokami w stosunku do całego okresu. Zasadniczo jest to kwestia błędu zaokrąglania lub nie. Najlepiej nie, jeśli możesz tego uniknąć.

— Kelvin

Zgadzam się, że dyskretne i ciągłe niewiele się różnią. W praktyce wiele pomiarów jest mniej lub bardziej zgrubnych poprzez zgłaszanie tylko w kwartałach, półroczach, miesiącach, dniach itp. Lub w dowolnym innym zakresie, od (N.S) do (N, E, S, W) do dokładniejszej rozdzielczości dla kierunków kompasu. Szczegółowo istnieją różnice między pomiarami punktowymi (temperatura w określonym czasie) a pomiarami przedziałowymi (np. Całkowita miesięczna sprzedaż). Nie zlepiłbym wszystkich takich szczegółów razem, jak błąd zaokrąglenia, ponieważ czasami nie ma błędu tak bardzo, jak agregacja lub uśrednianie.

— Nick Cox,

Oto opcja bez dystrybucji, ponieważ wydaje się, że i tak tego szukasz. Nie dotyczy to w szczególności statystyki o obiegu zamkniętym, której jestem dość ignorantem, ale ma ona zastosowanie tutaj i w wielu innych okolicznościach.

Niech zmienna kierunkowe być . $X$

Niech inne zmienne są , które mogą znajdować się w w każdym (albo, w rzeczywistości, każdy typ obiektu, na którym skutecznie jądro może być określona: wykresy, łańcuchy, obrazy, rozkład prawdopodobieństwa próbki z rozkładu prawdopodobieństwa ...) $Y$ $\mathbb R^d$ $d \ge 1$

$Z := (X, Y)$ $m$ $z_i = (x_i, y_i)$

Teraz przeprowadź test, używając Kryterium Niepodległości Hilberta Schmidta (HSIC), jak w poniższym artykule:

Gretton, Fukumizu, Teo, Song, Schölkopf i Smola. Test statystyczny niezależności jądra. NIPS 2008. ( pdf )

To jest:

$k$ $X$
- $X$ $\mathbb R^2$ $k(x, x') = \exp\left( - \frac{1}{2 \sigma^2} \lVert x - x' \rVert^2 \right)$ $\sigma$ $X$
- $X$ $[-\pi, \pi]$ $k(x, x') = \exp\left( \kappa \cos(x - x') \right)$ $\kappa$
$l$ $Y$ $Y$ $\mathbb R^n$
$H$ $K$ $L$ $m \times m$ $K_{ij} = k(x_i, x_j)$ $L_{ij} = l(y_i, y_j)$ $H$ $H = I - \frac1m 1 1^T$ $\frac{1}{m^2} \mathrm{tr}\left( K H L H \right)$

Kod Matlaba do przeprowadzania tego z jądrem RBF jest dostępny od pierwszego autora tutaj .

To podejście jest fajne, ponieważ jest ogólne i ma dobre wyniki. Główne wady to:

$m^2$
$m$ $m$
$k$ $l$

^{$k(x - x')$ $[-\pi, \pi]$}

— Dougal
źródło

Można przeprowadzić test t pomiędzy średnią z przeciwnych „połówek” okresu, na przykład porównując średnią wartość od 12 rano do 12 po południu ze średnią wartością od 12 wieczorem do 12 rano. Następnie porównaj średnią wartość od 18:00 do 6:00 ze średnią wartością od 6:00 do 18:00.

Lub jeśli masz wystarczającą ilość danych, możesz podzielić ten okres na mniejsze (np. Godzinne) segmenty i wykonać test t między każdą parą segmentów, poprawiając jednocześnie wiele porównań.

Alternatywnie, dla bardziej „ciągłej” analizy (tj. Bez arbitralnej segmentacji), możesz uruchomić regresje liniowe względem funkcji sinus i cosinus swojej zmiennej kierunkowej (z prawidłowym okresem), co automatycznie „zaokrągli” twoje dane:

x^{'} = s i n (x * 2 π / p e r i o d)

$x' = sin(x * 2\pi/period)$

x^{″} = c o s (x * 2 π / p e r i o d)

$x'' = cos(x * 2\pi/period)$

$a$

x^{‴} = s i n ((x + a) * 2 π / p e r i o d)

$x''' = sin((x+a) * 2\pi/period)$

$a$

$y$ $x'$ $x''$

W każdym razie myślę, że musisz poczynić pewne założenia dotyczące okresu, a następnie odpowiednio przetestować.

— kelwin
źródło

Kelvin, „łamanie” okrągłych danych, które opisujesz, wydaje się ignorować dokładnie problem, który podniosłem na temat uporządkowania modułowego.

— Alexis,

Czy przeczytałeś drugą połowę mojej odpowiedzi, która opisuje ciągłą analizę metodą regresji wielokrotnej?

— Kelvin

Masz rację co do sinusa i cosinusa razem. Jest to wyjaśnione bardziej szczegółowo w mojej odpowiedzi i w cytowanym w 2006 r. Dokumencie oraz w innych cytowanych przez niego źródłach.

— Nick Cox

@Nick - Nie widziałem twojej odpowiedzi, jak napisałeś po mojej ostatniej edycji, ale dobrze, że doszliśmy do tej samej odpowiedzi niezależnie, ponieważ byłem po prostu kreatywny (właściwie głośno myślę) i nigdy wcześniej nie widziałem, aby zrobiono to wcześniej.

— Kelvin