Mam kilka interesujących danych na temat najpopularniejszych artystów muzycznych przesyłanych strumieniowo, podzielonych według lokalizacji na około 200 dzielnic kongresowych. Chcę sprawdzić, czy można sondować osobę o jej preferencjach muzycznych i ustalić, czy ona „słucha jak demokrata” czy „słucha jak republikanin”. (Oczywiście jest to beztroskie, ale dane zawierają prawdziwą entropię!)
Mam dane na temat około 100 artystów plus średni procent głosów republikanów i demokratów w każdej dzielnicy w ciągu ostatnich trzech cykli wyborczych. Przeprowadziłem korelację z każdym artystą, aby zobaczyć, którzy z nich byli najbardziej nieproporcjonalnie wysłuchani jako funkcja udziału w głosowaniu dla Demokratów. Korelacje te wahają się od około -0,3 do 0,3 dla każdego artysty, z dużą ilością pośrodku, które mają niewielką lub żadną moc predykcyjną.
Mam dwa pytania: Po pierwsze, ogólna liczba strumieni w dzielnicy jest bardzo zróżnicowana. Obecnie koreluję odsetek wszystkich strumieni na dzielnicę należących, powiedzmy, Beyonce, do odsetka głosów oddanych na Demokratów. Ale łączna liczba strumieni w jednej dzielnicy może być w milionach, podczas gdy w drugiej jest mniej niż 100 000. Czy muszę jakoś wyważyć korelację, aby to uwzględnić?
Po drugie, jestem ciekawy, jak połączyć te korelacje w złożone domysły dotyczące polityki użytkownika. Powiedzmy, że biorę 20 artystów o najwyższych bezwzględnych wartościach korelacyjnych (dodatnich i ujemnych), po dziesięć w każdym kierunku, i pytam użytkownika, jak bardzo lubi każdego z nich. Mam więc głos w górę lub w dół na każdego artysty oraz korelację z polityką dla wszystkich 20 wartości. Czy istnieje standardowy sposób na połączenie tych korelacji w jedno oszacowanie? (Myślę o czymś w rodzaju słynnego quizu dialektów NYTimes , w którym połączyłem regionalne prawdopodobieństwa 25 pytań w mapę termiczną. Ale w tym przypadku potrzebuję tylko jednej wartości, jak smakuje demokratyczny lub republikański gust muzyczny.
Dziękuję Ci!