Załóżmy, że test korelacji Pearsona między zmienną i w grupach i . Czy możliwe jest aby korelacja była znacząca w każdym z i , ale nieistotna, gdy dane z obu grup są połączone? W takim przypadku proszę podać wyjaśnienie.
Załóżmy, że test korelacji Pearsona między zmienną i w grupach i . Czy możliwe jest aby korelacja była znacząca w każdym z i , ale nieistotna, gdy dane z obu grup są połączone? W takim przypadku proszę podać wyjaśnienie.
Odpowiedzi:
Tak, jest to możliwe i może się zdarzyć na wiele sposobów. Jednym oczywistym przykładem jest wybór członkostwa A i B w sposób odzwierciedlający wartości xiy. Możliwe są inne przykłady, np. Komentarz @ Macro sugeruje alternatywną możliwość.
Rozważmy poniższy przykład, napisany w R. xiy są standardowymi zmiennymi normalnymi, ale jeśli przydzielę je do grup na podstawie względnych wartości xiy, otrzymam nazwę, którą nazwiesz. W grupie A i grupie B istnieje silna statystycznie istotna korelacja między xiy, ale jeśli zignorujesz strukturę grupowania, nie będzie korelacji.
> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)
Pearson's product-moment correlation
data: x and y
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.09292 0.03094
sample estimates:
cor
-0.03111
> cor.test(x[Group=="A"], y[Group=="A"])
Pearson's product-moment correlation
data: x[Group == "A"] and y[Group == "A"]
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4040 0.5414
sample estimates:
cor
0.4756
> cor.test(x[Group=="B"], y[Group=="B"])
Pearson's product-moment correlation
data: x[Group == "B"] and y[Group == "B"]
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3292 0.4744
sample estimates:
cor
0.4043
> qplot(x,y, color=Group)
Jedną z możliwości jest to, że efekty mogą iść w różnych kierunkach w każdej grupie i są anulowane, gdy je agregujesz . Jest to również związane ze sposobem, w jaki pomijając ważny termin interakcji w modelu regresji, główne efekty mogą być mylące.
Załóżmy na przykład w grupie , prawdziwy związek między odpowiedzią i predyktor jest:
i w grupie ,
Załóżmy, że członkostwo w grupie jest dystrybuowane w taki sposób
Dlatego jeśli , i nie zależy od w ogóle. Istnieje więc relacja w obu grupach, ale po ich agregacji nie ma relacji. Innymi słowy, dla losowo wybranej osoby w populacji, której członkostwa w grupie nie wiemy, średnio nie będzie związku między i . Ale w każdej grupie jest.
Dowolny przykład, w którym wartość idealnie równoważy rozmiary efektów w każdej grupie również prowadzi do tego wyniku - to był tylko ten przykład zabawki, aby ułatwić obliczenia :)
Uwaga: W przypadku błędów normalnych znaczenie współczynnika regresji liniowej jest równoważne ze znaczeniem korelacji Pearsona, dlatego w tym przykładzie przedstawiono jedno wyjaśnienie tego, co widzisz.