Prawdopodobnie jest to bardzo podstawowe pytanie, ale wydaje mi się, że nie jestem w stanie znaleźć na to solidnej odpowiedzi. Mam nadzieję, że mogę.
Obecnie czytam artykuły jako przygotowanie do pracy magisterskiej. Obecnie czytam artykuł, który bada związek między tweetami a funkcjami giełdy.
W jednej ze swoich hipotez sugerują, że „zwiększony wolumen tweetów jest związany ze wzrostem wolumenu obrotu”.
Chciałbym ich spodziewać w korelacji par, koreluje tweetVolume
z tradingVolume
, ale zamiast tego raport przy użyciu zalogowany wersje: LN(tweetVolume)
a LN(tradingVolume)
.
W mojej pracy dyplomowej powtórzyłem ten fragment ich pracy. Zebrałem tweety około 100 firm przez ponad 6 miesięcy ( tweetVolume
) i wolumen obrotu giełdowego w tym samym czasie. Jeśli skoreluję zmienne bezwzględne, znajdę, r=.282, p.000
ale gdy użyję zalogowanych wersji, znajdę r=.488, p=.000
.
Nie rozumiem, dlaczego badacze czasami używają zarejestrowanych wersji swoich zmiennych i dlaczego korelacja wydaje się o wiele wyższa, jeśli to robisz. Jakie jest tutaj uzasadnienie i dlaczego można używać zarejestrowanych zmiennych?
Twoja pomoc jest bardzo ceniona :-)