Korelacja między dwiema zmiennymi o nierównej wielkości


9

W problemie, nad którym pracuję, mam dwie zmienne losowe, X i Y. Muszę dowiedzieć się, jak ściśle są ze sobą powiązane, ale mają one różne wymiary. Ranga przestrzeni wierszy X wynosi 4350, a ranga przestrzeni wierszy Y jest znacznie większa, w dziesiątkach tysięcy. Zarówno X, jak i Y mają tę samą liczbę kolumn.

Potrzebuję miary korelacji między dwiema zmiennymi, a r Pearsona wymaga, aby X i Y miały równy wymiar (przynajmniej R wymaga, aby były to dwa rv).

Czy mam nadzieję na korelację między tymi dwoma, czy też powinienem znaleźć jakiś sposób na obcięcie obserwacji z Y?

 EDIT

Dodanie informacji z komentarzy, które powinny znajdować się w pytaniu.

Chyba zapomniałem o tym wspomnieć. X i Y są cenami akcji. Firma X jest publicznie dostępna od znacznie krótszego czasu niż Y. Chciałem powiedzieć, jak skorelowane są ceny X i Y. Zdecydowanie mógłbym uzyskać korelację dla okresu, w którym X i Y istnieją. Chciałem wiedzieć, czy znajomość cen akcji przez kilka dodatkowych lat Y, że X nie istniał, dostarczyła mi dodatkowych informacji.


2
Nie brzmi to tak, jakbyś miał obserwacje (lub „przypadki”), w których obserwujesz zarówno realizację X, jak i Y. Jak dowiedzieć się, który X jest powiązany z którym Y?
Stephan Kolassa

1
Chyba zapomniałem o tym wspomnieć. X i Y są cenami akcji. Firma X jest publicznie dostępna od znacznie krótszego czasu niż Y. Chciałem powiedzieć, jak skorelowane są ceny X i Y. Zdecydowanie mógłbym uzyskać korelację dla okresu, w którym X i Y istnieją. Chciałem wiedzieć, czy znajomość cen akcji przez kilka dodatkowych lat Y, że X nie istniał, dostarczyła mi dodatkowych informacji.
Christopher Aden

2
@Christopher Zalecam zaktualizowanie pytania w celu odzwierciedlenia powyższego komentarza. Ponadto, aby korelacja była znacząca, wymagane są nie tylko równe wymiary; rzeczywiste pomiary muszą pochodzić z tych samych przypadków, które w twoim przypadku są prawdopodobnie tymi samymi punktami czasowymi.
Jeromy Anglim

2
Drugi komentarz
Jeromy'ego

Kolejne pytanie: wspominasz, że X i Y mają tę samą liczbę kolumn. Czy to by było jedno? A może masz wiele serii zarówno dla X, jak i Y (ceny na różnych giełdach lub niektóre podobne)?
Stephan Kolassa

Odpowiedzi:


10

Żadna imputacja, analiza szeregów czasowych, modele GARCH, interpolacja, ekstrapolacja ani inne wymyślne algorytmy nie zrobią nic, aby stworzyć informację tam, gdzie ona nie istnieje (chociaż mogą stworzyć tę iluzję ;-). Historia ceny Y, zanim X wszedł na giełdę, jest bezużyteczna do oceny ich późniejszej korelacji.

Czasami (często przygotowując się do debiutu giełdowego) analitycy wykorzystują wewnętrzne informacje księgowe (lub zapisy transakcji na prywatnych akcjach) do retrospektywnej rekonstrukcji hipotetycznych cen akcji X przed ich upublicznieniem. Można sobie wyobrazić, że takie informacje mogłyby zostać wykorzystane do zwiększenia szacunków korelacji, ale biorąc pod uwagę wyjątkowo niepewny charakter takich wstecznych prognoz, wątpię, by wysiłek był pomocny, z wyjątkiem początkowo, gdy dostępnych jest tylko kilka dni lub tygodni cen dla X.


Wyjaśnienie: Nie wspominałem o GARCH, aby poradzić sobie z problemem brakujących danych (co oczywiście nie miałoby sensu) - ale aby ulepszyć proste obliczenie korelacji między szeregami czasowymi w czasach, gdy oba istnieją.
Stephan Kolassa

@Stephan: OK. Wspominałem o tym głównie po to, aby pokazać, że cię nie ignoruję!
whuber

1
Dziękuję, Whuber. Jest to zgodne z tym, czego szukałem. Nie sądzę, aby backcasting był bardzo użyteczny (lub wykonalny), aby dodać kilka dodatkowych tygodni X, gdy wzajemne ramy czasowe między X a Y już około 16 lat.
Christopher Aden

2
@Krzysztof: !! Po 16 latach (codziennych zamknięć?) Masz wystarczającą ilość danych, aby nie tylko znaleźć korelację, ale także zbadać, jak zmieniała się ona w czasie. (To, jak wierzę, jest duchem odpowiedzi @Stephan Kolassa.)
whuber

Zgadzam się. Korzystanie z technik w celu ustalenia, jakie wartości X przyjąłby przed IPO, wydaje się podatne na błędy. Mogę również zakwestionować znaczenie danych, które mają 16 lat, aby przewidzieć nowoczesne trendy.
Christopher Aden

10

Problemem jest więc brak danych (nie wszystkie Y mają odpowiedni X, gdzie korespondencja jest operacjonalizowana przez punkty czasowe). Nie sądzę, że jest tu wiele do roboty, niż po prostu wyrzucić Y, dla którego nie masz X i obliczyć korelację dla pełnych par.

Być może zechcesz poczytać o finansowych szeregach czasowych, chociaż w tym momencie nie mam dobrego podręcznika (pomysłów, ktoś?). Ceny akcji często wykazują zmienne w czasie zmienności, które można modelować np. Za pomocą GARCH . Można sobie wyobrazić, że twoje dwie serie czasowe X i Y wykazują dodatnie korelacje w okresach niskiej zmienności (gdy gospodarka rośnie, wszystkie ceny akcji zwykle rosną), ale ujemne korelacje, gdy ogólna zmienność jest wysoka (9/11, linie lotnicze zatankowały podczas gdy pieniądze uciekły na bezpieczniejsze inwestycje). Tak więc samo obliczenie ogólnej korelacji może być zbyt zależne od ram czasowych obserwacji.

AKTUALIZACJA: Myślę, że możesz chcieć spojrzeć na modele VAR (wektor autoregresyjny) .


Aby uzyskać podstawowe odniesienia do szeregów czasowych finansowych, możesz zobaczyć moją odpowiedź tutaj: stats.stackexchange.com/questions/328/… . Tekst Tsay jest jednym z najpopularniejszych.
Shane

2

@Jeromy Anglim podał to poprawnie. Posiadanie dodatkowych informacji, gdy istniał tylko jeden z szeregów czasowych, nie zapewniłoby tutaj żadnej wartości. Zasadniczo należy pobierać próbki danych w tym samym czasie, aby były one sensowne przy użyciu konwencjonalnych miar korelacji.

Jako bardziej ogólny problem dodam, że istnieją techniki radzenia sobie z nieregularnie rozmieszczonymi danymi szeregów czasowych. Możesz wyszukać „korelację szeregów czasowych o nieregularnych odstępach”. Niektóre z ostatnich prac zostały wykonane nad „Realizowaną zmiennością i korelacją” (Andersen, Bollerslev, Diebold i Labys 1999) przy użyciu danych o wysokiej częstotliwości.


1

Biorąc pod uwagę dodatkowe informacje w komentarzach, polecam przyjrzeć się dwóm korelacjom. Pierwszy to wspólne okresy, w których obie firmy były w pobliżu. Więc jeśli ktoś był około 2 lata wcześniej, po prostu upuściłbyś te dane i spojrzał na resztę. Drugi to względne okresy. W drugim nie korelujesz faktycznego czasu, ale czas mierzony od momentu upublicznienia firmy.

Na te pierwsze silny wpływ miałyby ogólne siły gospodarcze działające w tym samym okresie. Na te ostatnie miałyby wpływ nieruchomości wspólne dla firm, które zmieniają się po IPO.


0

Innym sposobem rozwiązania takiego problemu jest przypisanie brakujących danych dla krótszych szeregów przy użyciu modelu szeregów czasowych, który może, ale nie musi mieć sensu w określonym kontekście.

W twoim kontekście przypisywanie cen akcji w przeszłości oznaczałoby, że zadajesz następujące pytanie kontrfaktyczne: Jaka byłaby cena akcji dla spółki X, gdyby upubliczniła się n lat temu, a nie kiedy faktycznie stała się publiczna? Tego rodzaju imputacji danych można potencjalnie dokonać, biorąc pod uwagę ceny akcji powiązanych firm, ogólne trendy rynkowe itp. Jednak taka analiza może nie mieć sensu lub może nie być potrzebna, biorąc pod uwagę cele projektu.


0

Cóż, wiele zależy od twoich założeń. Jeśli założysz, że dane są nieruchome, to więcej danych dla pierwszej serii da ci lepsze oszacowanie ich zmienności. Szacunek ten można wykorzystać do poprawy oszacowania korelacji. Zatem następująca instrukcja jest niepoprawna:

„Historia ceny Y przed opublikowaniem X jest bezużyteczna dla oceny ich późniejszej korelacji”


Myślałem o tym. Teoretycznie może działać, ale będzie bardzo mało odporny, więc lepiej go unikać.
kjetil b halvorsen

-1

Brzmi to jak problem dla algorytmu uczenia maszynowego. Dlatego starałbym się opracować zestaw funkcji opisujących pewien aspekt trendu i trenować na tym. Cała teoria uczenia maszynowego jest nieco skomplikowana w przypadku tej skrzynki odpowiedzi, ale warto ją przeczytać.

Ale szczerze mówiąc, myślę, że już istnieje. Tam, gdzie można zarabiać pieniądze, ludzie myślą o tym.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.