Na przykład korelacja ważona?

Mam kilka interesujących danych na temat najpopularniejszych artystów muzycznych przesyłanych strumieniowo, podzielonych według lokalizacji na około 200 dzielnic kongresowych. Chcę sprawdzić, czy można sondować osobę o jej preferencjach muzycznych i ustalić, czy ona „słucha jak demokrata” czy „słucha jak republikanin”. (Oczywiście jest to beztroskie, ale dane zawierają prawdziwą entropię!)

Mam dane na temat około 100 artystów plus średni procent głosów republikanów i demokratów w każdej dzielnicy w ciągu ostatnich trzech cykli wyborczych. Przeprowadziłem korelację z każdym artystą, aby zobaczyć, którzy z nich byli najbardziej nieproporcjonalnie wysłuchani jako funkcja udziału w głosowaniu dla Demokratów. Korelacje te wahają się od około -0,3 do 0,3 dla każdego artysty, z dużą ilością pośrodku, które mają niewielką lub żadną moc predykcyjną.

Mam dwa pytania: Po pierwsze, ogólna liczba strumieni w dzielnicy jest bardzo zróżnicowana. Obecnie koreluję odsetek wszystkich strumieni na dzielnicę należących, powiedzmy, Beyonce, do odsetka głosów oddanych na Demokratów. Ale łączna liczba strumieni w jednej dzielnicy może być w milionach, podczas gdy w drugiej jest mniej niż 100 000. Czy muszę jakoś wyważyć korelację, aby to uwzględnić?

Po drugie, jestem ciekawy, jak połączyć te korelacje w złożone domysły dotyczące polityki użytkownika. Powiedzmy, że biorę 20 artystów o najwyższych bezwzględnych wartościach korelacyjnych (dodatnich i ujemnych), po dziesięć w każdym kierunku, i pytam użytkownika, jak bardzo lubi każdego z nich. Mam więc głos w górę lub w dół na każdego artysty oraz korelację z polityką dla wszystkich 20 wartości. Czy istnieje standardowy sposób na połączenie tych korelacji w jedno oszacowanie? (Myślę o czymś w rodzaju słynnego quizu dialektów NYTimes , w którym połączyłem regionalne prawdopodobieństwa 25 pytań w mapę termiczną. Ale w tym przypadku potrzebuję tylko jednej wartości, jak smakuje demokratyczny lub republikański gust muzyczny.

Dziękuję Ci!

— Chris Wilson
źródło

Wzór na ważoną korelację Pearsona można łatwo znaleźć w Internecie , StackOverflow i Wikipedii i jest zaimplementowana w kilku pakietach R, np. Psych , lub wagach oraz w pakiecie statsmodels Pythona . Jest obliczany jak zwykła korelacja, ale przy użyciu średnich ważonych ,

m_{X} = \frac{\sum_{i} w_{i} x_{i}}{\sum_{i} w_{i}}, m_{Y} = \frac{\sum_{i} w_{i} y_{i}}{\sum_{i} w_{i}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

ważone wariancje ,

s_{X} = \frac{\sum_{i} w_{i} (x_{i} - m_{X})^{2}}{\sum_{i} w_{i}}, s_{Y} = \frac{\sum_{i} w_{i} (y_{i} - m_{Y})^{2}}{\sum_{i} w_{i}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

i ważona kowariancja

s_{X Y} = \frac{\sum_{i} w_{i} (x_{i} - m_{X}) (y_{i} - m_{Y})}{\sum_{i} w_{i}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

mając to wszystko, możesz łatwo obliczyć korelację ważoną

ρ_{X Y} = \frac{s_{X Y}}{\sqrt{s_{X} s_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

Jeśli chodzi o twoje drugie pytanie, jak rozumiem, miałbyś dane dotyczące korelacji między orientacją polityczną a preferencjami dla dwudziestu artystów i użytkowników, binarne odpowiedzi na temat jego preferencji i chcesz uzyskać jakąś zbiorczą miarę tego.

$z$ opisano na MathOverflow , czyli

\bar{ρ} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (ρ_{j})}{K})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

Zasadniczo biorąc stycznych współczynników korelacji „spłaszcza” wartości ekstremalne (patrz poniżej), dzięki czemu mają one mniejszy wpływ na ostateczne oszacowanie i zbliżają ich rozkład do normy. Procedurę tę opisali również Bushman i Wang (1995) oraz Corey, Dunlap i Burke (1998).

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{i} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (r_{j} x_{i j})}{K})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$

Ale...

Nie sądzisz, że to wszystko jest przesadą w przypadku czegoś, co jest w zasadzie problemem regresji wielokrotnej? Zamiast tego wszystkie ważenia i uśrednianie można po prostu zastosować ważoną regresję wielokrotną (liniową lub logistyczną, w zależności od tego, czy przewidujesz preferencje binarne lub preferencje stopniowe w dowolnym kierunku), gdzie wagi są oparte na rozmiarach podpróbek. Jako predyktora użyłbyś preferencji muzycznych dla każdego artysty. Na koniec będziesz używać preferencji użytkownika do przewidywania. To podejście jest prostsze i bardziej statystycznie eleganckie. Dotyczy to również względnych $A$ $B$ kont i regresji, włączając przechwytywanie. Jedynym problemem jest wielokoliniowość, ale gdy uśredniasz korelacje, ignorujesz je, a nie sobie z nimi radzisz.

Bushman, BJ i Wang, MC (1995). Procedura łączenia przykładowych współczynników korelacji i liczenia głosów w celu uzyskania oszacowania i przedziału ufności dla współczynnika korelacji populacji. Biuletyn psychologiczny, 117 (3), 530.

Corey, DM, Dunlap, WP i Burke, MJ (1998). Uśrednianie korelacji: oczekiwane wartości i stronniczość w połączonych transformacjach Pearsona i Fishera z, The Journal of General Psychology, 125 (3), 245-261.

— Tim
źródło

Dziękuję Ci! To ogromnie pomaga. Przyznają nagrodę, gdy będzie dostępna później dzisiaj.

— Chris Wilson,

x_{i}

$x_i$

y_{i}

$y_i$

@Kagaratsch Nigdy nie widziałem takiej formuły. To kwalifikuje się jako miłe pytanie.

— Tim