Korelowanie szeregów czasowych objętości

Rozważ następujący wykres:

Twitter i wolumen obrotu

Czerwona linia (lewa oś) opisuje wolumen obrotu pewnymi akcjami. Niebieska linia (prawa oś) opisuje głośność wiadomości na Twitterze dla tego towaru. Na przykład 9 maja (05-09) dokonano około 1.100 milionów transakcji i 4.000 tweetów.

Chciałbym obliczyć, czy istnieje korelacja między przedziałami czasowymi, tego samego dnia lub z opóźnieniem - na przykład: wolumen tweet koreluje z wolumenem obrotu dzień później. Czytam wiele artykułów, które dokonały takiej analizy, na przykład Korelowanie finansowych szeregów czasowych z działalnością mikroblogowania , ale nie opisują one, jak taka analiza jest przeprowadzana w praktyce. W artykule podano, co następuje:

wprowadź opis zdjęcia tutaj

Mam jednak bardzo małe doświadczenie w analizie statystycznej i nie wiem, jak to zrobić w serii, którą posiadam. Używam SPSS (znanego również jako PASW), a moje pytanie brzmi: jakie kroki należy podjąć, aby dokonać takiej analizy od momentu, w którym plik danych leży u podstaw powyższego obrazu? Czy taki test jest funkcją domyślną (i jak się nazywa) i / lub w jaki sposób mógłbym go wykonać?

Każda pomoc byłaby bardzo mile widziana :-)

time-series correlation lags

— Pr0no
źródło

Można je obliczyć ... nie można ich porównywać z wartościami krytycznymi, chyba że dwie serie są normalne w

— dwóch odmianach

Wkleiłem tutaj surowe dane: pastebin.com/tZajRae9 Czy istnieje sposób, aby stwierdzić, czy serie są normalne w dwóch odmianach? Byłbym bardzo wdzięczny za twój komentarz.

— Pr0no

Po wykryciu wartości odstających / przesunięć poziomów w każdej z serii wynikowa skorygowana seria wykazywała model AR (1). Po uwzględnieniu nie tylko korekcji przesunięcia / przesunięcia poziomu ORAZ empirycznie zidentyfikowanego AR (1) obie serie szumów były wolne od autokorelacji (w obrębie struktury). Korelacja krzyżowa tych dwóch serii zastępczych nie wykazała żadnej istotnej korelacji krzyżowej (między strukturami), dlatego liczba tweetów nie wydaje się pomagać w przewidywaniu objętości.

— IrishStat,

Odpowiedzi:

Dwa sprawdzenie normalności dwuwymiarowej sprawdź trzy rzeczy:

sprawdź, czy pierwsza seria obserwacji jest marginalnie normalna,
sprawdź, czy druga seria obserwacji jest marginalnie normalna,
regresować się nawzajem i sprawdzać, czy pozostałości są normalne.

Aby sprawdzić normalność na każdym z tych kroków, użyj normalnych wykresów qq lub możesz użyć dowolnego testu hipotezy normalności.

Lub alternatywnie możesz sprawdzić, czy każda możliwa kombinacja liniowa (współczynniki rzeczywiste) dwóch serii jest marginalnie normalna. Prawdopodobnie byłoby to trudne.

Edycja: (6 lat później) będę wyżej dla potomności, ale należy pamiętać, że mają bardziej niedawnej odpowiedzi na podobne pytanie tutaj .

— Taylor
źródło

Podjąłem kroki 1 i 2 i opracowałem następujące wykresy: i.imgur.com/SDOTE.png Z wyjątkiem obserwacji od 3 do 5, wyglądają na nieznacznie normalne. Jednak Sig. wartość testu Shapiro-Wilka wynosi 0,000, co wskazywałoby na znaczne odchylenie od normalności. Po usunięciu wartości odstających Shapiro Wilk Sig. wynosi 0,201 dla tweetów i 0,004 dla transakcji. Czy to wskazuje, że korelacja nie jest możliwa? Jest to również szereg czasowy - usuwanie wartości odstających oznacza usuwanie dni w badanym przedziale czasowym. Czy jest to przyjęta praktyka?

— Pr0no

Zrobiłem również wykres pp dla kroku 3. A przynajmniej w mojej interpretacji tego właśnie potrzebuję (regresja liniowa z normalnym wykresem prawdopodobieństwa): i.imgur.com/EZ3Ic.png Jakieś komentarze?

— Pr0no

Rozkłady krańcowe nie wyglądają normalnie. Jest tam mały odcinek na wnioskowanie na stronie wikipedii linku . Usuwanie wartości odstających na ogół nie jest dobrym pomysłem. Może bootstrap ma przedział ufności.

— Taylor

Pytanie dotyczy korelacji - ale odpowiedź dotyczy normalności. Odpowiedź jest wielokrotnie oceniana i akceptowana. Czego tu brakuje?

— Richard Hardy

Dwuwymiarowy rozkład normalny jest najprostszym modelem, który motywuje / uzasadnia za pomocą korelacji Pearsona.

— Taylor,

Współczynnik korelacji między szeregami czasowymi jest bezużyteczny. Zobacz WSPÓŁCZYNNIK KORELACJI - Wartości krytyczne dla testowania istotności . Po raz pierwszy zauważył to U. Yule w 1926 r. Yule, GU, 1926 r .: „Dlaczego czasami otrzymujemy nonsensowne korelacje między szeregami czasowymi? Badanie próbkowania i charakter szeregów czasowych”, Journal of Royal Statistics Society 89, 1 –64 . Możesz szukać w Google „dlaczego otrzymujemy nonsensowną korelację”, aby uzyskać więcej.

Powodem tego są testy korelacji wymagające wspólnej normalności. Wspólna normalność wymaga, aby każda seria była normalna. Normalność wymaga niezależności. Aby zbadać związek między szeregami czasowymi, przejrzyj Identyfikację funkcji przenoszenia w jakiejkolwiek dobrej książce o szeregach czasowych, takiej jak Analiza szeregów czasowych: Metody jedno- i wielowymiarowe, William WS Wei, David P. Reilly .

Odpowiedź na wyzwanie

Pod względem odpowiedzi na twoje wyzwanie. Niektórzy ( Yule, GU, 1926 ) dobrze wiedzą, że korelacja dwóch szeregów czasowych może być wadliwa, szczególnie jeśli na każdą z serii wpływają impulsy / przesunięcia poziomów / sezonowe i / lub lokalne trendy czasowe. W takim przypadku wziąłbym każdą z serii ODDZIELNIE i zidentyfikowałbym strukturę ARIMA oraz wszelkie impulsy / zmiany poziomu / sezonowe impulsy i / lub trendy czasu lokalnego, które mogą mieć zastosowanie i stworzyć proces błędu.

Przy dwóch czystych procesach błędów, po jednym dla każdej z dwóch oryginalnych serii, obliczałbym korelację krzyżową, która mogłaby następnie zostać użyta do pomiaru stopnia powiązania powyżej i poza strukturą autokorelacyjną w każdej serii. To rozwiązanie jest odpowiednio nazywane podwójnym wybielaniem wstępnym.

Widzieć:

— IrishStat
źródło

Dzięki za odpowiedź. Ale czy mówisz, że z definicji, o którym mowa, nie ma żadnej wartości? Po drugie, czy to oznacza, że z definicji dwie serie nigdy nie mogą być skorelowane tam, gdzie korelacja ma znaczenie?

— Pr0no

Korelację można obliczyć, ponieważ jest to prosta arytmetyka. To, czego nie można obliczyć (łatwo), to prawdopodobieństwo, że korelacja jest statystycznie istotna. Przypomnij sobie, jak po raz pierwszy zapoznałeś się ze współczynnikiem korelacji. To w kontekście N niezależnych próbek obliczono dwie cechy / wartości dla każdej z N niezależnych próbek, a gęstość stawu była dwuwymiarowa normalna.

— IrishStat,

Dlaczego wymaga wspólnej normalności, a nie tylko tego samego (symetrycznego?) Rozkładu? tzn. czy wspólna jednolitość też nie działałaby?

— naught101

@ NAUGHT101. Wartości krytyczne dla współczynnika korelacji są dostępne przy założeniu wspólnej normalności i nieokreślone inaczej.

— IrishStat

@IrishStat Dziękujemy za edytowaną odpowiedź. To jest doceniane. Testy normalności znajdują się na i.imgur.com/SDOTE.png, gdzie przedstawiono wykresy qq oddzielnych zmiennych. Po usunięciu wartości odstających, wykres pp, z tego, co rozumiem, który mierzy wspólną normalność, wygląda następująco i.imgur.com/EZ3Ic.png Jakieś komentarze?

— Pr0no