Kowariancja między dwiema zmiennymi losowymi określa miarę, jak blisko są one liniowo ze sobą powiązane. Ale co, jeśli rozkład stawów jest okrągły? Na pewno jest struktura w dystrybucji. Jak wyodrębnia się tę strukturę?
Kowariancja między dwiema zmiennymi losowymi określa miarę, jak blisko są one liniowo ze sobą powiązane. Ale co, jeśli rozkład stawów jest okrągły? Na pewno jest struktura w dystrybucji. Jak wyodrębnia się tę strukturę?
Odpowiedzi:
Przez „kołowy” rozumiem, że rozkład jest skoncentrowany na okrągłym obszarze, jak na tym wykresie konturowym pliku pdf.
Jeśli taka struktura istnieje, nawet częściowo, naturalnym sposobem jej identyfikacji i pomiaru jest uśrednienie rozkładu kołowego wokół jej środka . (Intuicyjnie oznacza to, że dla każdego możliwego promienia należy rozłożyć prawdopodobieństwo bycia w odległości od centrum jednakowo wokół we wszystkich kierunkach.) Oznaczając zmienne jako , środek musi znajdować się w punkcie pierwsze chwile . Aby wykonać uśrednianie, wygodnie jest zdefiniować funkcję rozkładu promieniowegor ( X , Y ) ( μ X , μ Y )
F ( ρ ) = 0 , ρ < 0.
Ten wychwytuje całkowite prawdopodobieństwo leżącej między odległością i centrum. Rozprzestrzeniać się na wszystkie strony, pozwalają jest zmienną losową o ED a być jednolity zmienną losową o , niezależnie od . Dwuwymiarowe zmiennej losowej jest okrągły średnia z . (Wykonuje to naszą wymaganą przez intuicję „średnią kołową”, ponieważ (a) ma prawidłowy rozkład promieniowy, a mianowicie , według budowy, i (b) we wszystkich kierunkach od centrum (ρ R F Θ [ 0 , 2 π ] R ( Ξ , H ) = ( R cos ( Θ ) + μ X , R sin ( Θ ) + μ Y ) ( X , Y ) F Θ) są równie prawdopodobne).
W tym momencie masz wiele możliwości: Pozostaje porównać rozkład do tego z . Możliwości obejmują odległość i dywergencję Kullbacka-Leiblera (wraz z niezliczonymi miarami odległości: symetryczną dywergencją, odległości Hellingera, wzajemną informacją itp .). Porównanie sugeruje, że może mieć kołową strukturę, gdy jest „blisko” do . W tym przypadku struktura może być „ekstrakcji” od właściwości . Na przykład miara centralnej lokalizacji , taka jak jej średnia lub mediana, identyfikuje „promień” rozkładu( Ξ , H ) L p ( X , Y ) ( Ξ , H ) F F ( X , Y ) F ( X , Y ) ( μ X , μ Y ) , a odchylenie standardowe (lub inna miara skali) wyraża, w jaki sposób „rozkładają się” w promieniowych kierunkach wokół ich położenia centralnego .
Podczas próbkowania z rozkładu, z danymi , rozsądnym testem okrągłości jest oszacowanie centralnej lokalizacji jak zwykle (za pomocą średnich lub median), a następnie konwersja każdej wartości na współrzędne biegunowe stosunku do tego oszacowanego środka. Porównaj odchylenie standardowe (lub IQR) promieni od ich średniej (lub mediany). W przypadku rozkładów nieokrągłych stosunek będzie duży; dla rozkładów kołowych powinien być stosunkowo mały. (Jeśli masz na uwadze konkretny model rozkładu podstawowego, możesz opracować rozkład próbkowania statystyki radialnej i zbudować z nim test istotności.) Osobno przetestuj współrzędną kątową pod kątem jednorodności w przedziale( x i , y i ) ( r i , θ i ) . Będzie w przybliżeniu jednakowy dla rozkładów kołowych (a także dla niektórych innych rozkładów); niejednorodność wskazuje na odejście od okrągłości.
Wzajemna informacja ma właściwości nieco analogiczne do kowariancji. Kowariancja jest liczbą 0 dla zmiennych niezależnych i niezerową dla zmiennych zależnych liniowo. W szczególności, jeśli dwie zmienne są takie same, kowariancja jest równa wariancji (która zwykle jest liczbą dodatnią). Jednym z problemów z kowariancją jest to, że może wynosić zero, nawet jeśli dwie zmienne nie są niezależne, pod warunkiem, że zależność jest nieliniowa.
Wzajemna informacja (MI) jest liczbą nieujemną. Jest zerowy wtedy i tylko wtedy, gdy dwie zmienne są statystycznie niezależne. Ta właściwość jest bardziej ogólna niż kowariancja i obejmuje wszelkie zależności, w tym nieliniowe.
Jeśli dwie zmienne są takie same, MI jest równe entropii zmiennej (ponownie, zwykle liczba dodatnia). Jeśli zmienne są różne i nie są deterministycznie powiązane, wówczas MI jest mniejsze niż entropia. W tym sensie MI dwóch zmiennych mieści się w przedziale od 0 do H (entropia), przy czym 0 tylko jeśli jest niezależny, a H tylko jeśli jest deterministycznie zależny.
Jedną z różnic w stosunku do kowariancji jest to, że „znak” zależności jest ignorowany. Np. , ale .M I ( X , - X ) = M I ( X , X ) = H ( X )
Proszę spojrzeć na następujący artykuł z nauki - dokładnie odnosi się do twojego punktu:
Wykrywanie nowych powiązań w dużych zbiorach danych David N. Reshef i in.
Z streszczenia:
Identyfikacja interesujących związków między parami zmiennych w dużych zestawach danych jest coraz ważniejsza. Tutaj przedstawiamy miarę zależności dla dwóch zmiennych: maksymalny współczynnik informacji (MIC). MIC przechwytuje szeroki zakres asocjacji zarówno funkcjonalnych, jak i nie, a dla związków funkcjonalnych zapewnia wynik, który w przybliżeniu równa jest współczynnikowi określania (R ^ 2) danych względem funkcji regresji. MIC należy do większej klasy maksymalnych opartych na informacji statystyk badań nieparametrycznych (MINE) do identyfikacji i klasyfikacji relacji. Stosujemy MIC i MINE do zbiorów danych dotyczących zdrowia na całym świecie, ekspresji genów, baseballu z głównych lig oraz mikroflory jelitowej człowieka i identyfikujemy znane i nowe relacje.
Dodatkowe materiały można znaleźć tutaj: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Autorzy udostępniają nawet bezpłatne narzędzie zawierające nowatorską metodę, która może być używana z R i Python: http://www.exploredata.net/