Prawdopodobnie jest to bardzo podstawowe pytanie, ale wydaje mi się, że nie jestem w stanie znaleźć na to solidnej odpowiedzi. Mam nadzieję, że mogę.
Obecnie czytam artykuły jako przygotowanie do pracy magisterskiej. Obecnie czytam artykuł, który bada związek między tweetami a funkcjami giełdy.
W jednej ze swoich hipotez sugerują, że „zwiększony wolumen tweetów jest związany ze wzrostem wolumenu obrotu”.
Chciałbym ich spodziewać w korelacji par, koreluje tweetVolumez tradingVolume, ale zamiast tego raport przy użyciu zalogowany wersje: LN(tweetVolume)a LN(tradingVolume).
W mojej pracy dyplomowej powtórzyłem ten fragment ich pracy. Zebrałem tweety około 100 firm przez ponad 6 miesięcy ( tweetVolume) i wolumen obrotu giełdowego w tym samym czasie. Jeśli skoreluję zmienne bezwzględne, znajdę, r=.282, p.000ale gdy użyję zalogowanych wersji, znajdę r=.488, p=.000.
Nie rozumiem, dlaczego badacze czasami używają zarejestrowanych wersji swoich zmiennych i dlaczego korelacja wydaje się o wiele wyższa, jeśli to robisz. Jakie jest tutaj uzasadnienie i dlaczego można używać zarejestrowanych zmiennych?
Twoja pomoc jest bardzo ceniona :-)