Prosta wersja jest taka, że dowolne dwie zmienne, które z czasem zmieniają się w jednym kierunku, wydają się być skorelowane, niezależnie od tego, czy istnieje między nimi jakikolwiek związek. Rozważ następujące zmienne:
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
y 1 rok 2 x x y 2 x y 1x jest tylko funkcją czasu, podobnie jak . jest funkcją zarówno czasu, jak i . Chodzi o to, aby rozpoznać na podstawie kodu, że tak naprawdę istnieje relacja między i i że nie ma żadnej zależności między i . Teraz spójrz na poniższy rysunek, wszystkie trzy linie wyglądają okropnie podobnie, prawda?y1y2)xxy2)xy1
W rzeczywistości wartość dla relacji między i wynosi 98%, a dla i wynosi 99%. Wiemy jednak, że nie ma rzeczywistej zależności między i , podczas gdy istnieje między a x y 1 R 2 x y 2 x y 1 x y 2R2)xy1R2)xy2xy1xy2, więc jak odróżnić rzeczywisty od zwykłego wyglądu? Tu właśnie pojawia się różnicowanie. W przypadku dowolnych dwóch zmiennych, ponieważ obie mają tendencję do wzrostu w czasie, nie jest to zbyt pouczające, ale biorąc pod uwagę, że jedna zwiększa się o określoną wartość, czy to mówi nam, o ile druga rośnie? Różnicowanie pozwala nam odpowiedzieć na to pytanie. Zwróć uwagę na następujące dwie cyfry, wykresy rozrzutu, które wykonałem po różnicowaniu wszystkich trzech zmiennych.
Tutaj wyraźnie widzimy, że wiedza o tym, ile poszło w górę, mówi nam coś o tym, ile rośnie ( ), ale że nie jest tak w przypadku i ( ). Zatem odpowiedź na twoje pytanie jest taka, że powinieneś zignorować korelacje między oryginalnymi zmiennymi i spojrzeć na zmienne zróżnicowane. Biorąc pod uwagę, że twój wynosi .004, powiedziałbym, że nie ma rzeczywistego związku. Y 2 R 2 = 0,43 x R 1 R 2 = 0,07 R 2xy2R2=.43xy1R2=.07R2
Kilka innych kwestii: na rysunkach zaznaczam, że są to jednoczesne zmiany. Nie ma w tym nic złego i wynika to ze sposobu, w jaki ustawiłem problem, ale zwykle ludzie są zainteresowani efektami z pewnym opóźnieniem. (Oznacza to, że zmiana jednej rzeczy w pewnym momencie prowadzi do zmiany czegoś innego później.) Po drugie, wspominasz o zapisaniu dziennika jednej z serii. Zapisywanie dziennika po prostu zmienia dane z poziomów na stawki. A zatem, kiedy się różnicujesz, patrzysz na zmiany stawek, a nie na zmiany poziomów. To bardzo częste, ale nie uwzględniłem tego elementu w mojej demonstracji; jest prostopadły do omawianych przeze mnie problemów. Na koniec chcę potwierdzić, że dane szeregów czasowych są często bardziej skomplikowane niż pozwala na to moja demonstracja.