Moduł online, który badam, stwierdza, że nigdy nie należy używać korelacji Pearsona z danymi proporcjonalnymi. Dlaczego nie?
Lub, jeśli czasami jest OK lub zawsze OK, dlaczego?
Moduł online, który badam, stwierdza, że nigdy nie należy używać korelacji Pearsona z danymi proporcjonalnymi. Dlaczego nie?
Lub, jeśli czasami jest OK lub zawsze OK, dlaczego?
Odpowiedzi:
Jest tak w przypadku, gdy kilka zmiennych sumuje się razem do 1, w każdej obserwacji. Moja odpowiedź będzie na poziomie intuicji; jest to zamierzone (a także, nie jestem ekspertem od danych dotyczących składu).
Pozwól nam mieć iid (stąd skorelowane z zero) zmienne o wartości dodatniej, które następnie sumujemy i przeliczamy jako proporcje tej sumy. Następnie,
each V summing to 1 ( 100%)
Przepraszam? Nie zrozumiałem cię Nie nakładam żadnych ograniczeń na indywidualne V, będąc jedynie ułamkiem. Jednak początkowym ograniczeniem było to, że mój przykład zakłada zerowe korelacje przed zamianą Vs na ułamki.
Link wideo Twojego komentarza nadaje kontekst kompozycjom, które można również nazwać miksturami. W takich przypadkach suma udziału każdego składnika sumuje się do 1. Na przykład powietrze to 78% azotu, 21% tlenu i 1% innych (suma wynosi 100%). Biorąc pod uwagę, że ilość jednego składnika jest całkowicie określana przez pozostałe, dowolne dwa składniki będą miały idealną relację wieloliniową. Na przykład w powietrzu mamy:
więc wtedy:
Więc jeśli znasz jakieś dwa elementy, trzeci jest natychmiast znany.
Zasadniczo ograniczenie dotyczące mieszanin wynosi
Można obliczyć korelację między dwoma składnikami, ale nie ma ona charakteru informacyjnego , ponieważ zawsze są one skorelowane. Więcej na temat analizy składu można przeczytać w części Analiza danych mierzonych jako skład proporcjonalny .
Można użyć korelacji, gdy dane proporcji pochodzą z różnych domen. Powiedz, że twoja odpowiedź to ułamek martwych pikseli na ekranie LCD. Możesz spróbować skorelować to z, powiedzmy, frakcją helu użytą na etapie przetwarzania chemicznego ekranu.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
nie jest jasne. Czy możesz to rozwinąć?
To głębokie pytanie, które wymaga pewnych subtelności. Postaram się jak najlepiej, ale mimo że opublikowałem na ten temat ( Proporcjonalność: ważna alternatywa dla korelacji dla danych względnych ), zawsze jestem przygotowany na zaskoczenie nowymi spostrzeżeniami na temat analizy danych zawierających jedynie informacje względne.
Jak zauważyli współautorzy tego wątku, korelacja jest notorycznie (w niektórych kręgach) uznawana za nieistotną, gdy jest stosowana do danych kompozycyjnych, które powstają, gdy zbiór komponentów jest ograniczony do zsumowania do stałej (jak widzimy w proporcjach, procentach, części na milion itp.).
Karl Pearson wymyślił w tym kontekście termin fałszywa korelacja . (Uwaga: popularna witryna Tyler Vigen Spurious Correlation nie tyle chodzi o fałszywą korelację, ile o błąd „ korelacja implikuje przyczynę ”).
Sekcja 1.7 Aitchisona (2003) Zwięzły przewodnik po analizie danych kompozycyjnych stanowi klasyczną ilustrację, dlaczego korelacja jest nieodpowiednią miarą powiązania danych kompozycyjnych (dla wygody, cytowaną w niniejszej informacji uzupełniającej) .
Dane kompozycyjne powstają nie tylko wtedy, gdy zestaw składników nieujemnych jest sumowany do stałej; uważa się, że dane są kompozycyjne, ilekroć zawierają jedynie informacje względne.
Myślę, że głównym problemem związanym z korelacją danych zawierających wyłącznie informacje względne jest interpretacja wyniku. Jest to problem, który możemy zilustrować za pomocą jednej zmiennej; powiedzmy „wyprodukowane pączki na jednego dolara PKB” we wszystkich narodach świata. Jeśli wartość jednego narodu jest wyższa niż innego, to dlatego, że
...kto może powiedzieć?
Oczywiście, jak zauważają ludzie w tym wątku, można obliczyć korelacje tego rodzaju zmiennych jako zmienną opisową. Ale co oznaczają takie korelacje?
Miałem to samo pytanie. Uznałem to odniesienie w biorxiv za przydatne:
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
„Proporcjonalność: ważna alternatywa dla korelacji dla danych względnych”
W informacjach uzupełniających tego artykułu (Lovell, David i in.; Doi: dx.doi.org/10.1101/008417) autorzy wspominają, że korelacje między względnymi liczebnościami nie dostarczają żadnych informacji w niektórych przypadkach. Dają przykład względnej obfitości dwóch ekspresji mRNA. Na ryc. S2 względne obfitości dwóch różnych mRNA są doskonale ujemnie skorelowane, nawet jeśli korelacja tych dwóch mRNA w wartościach bezwzględnych nie jest ujemnie powiązana (zielone punkty i fioletowe punkty).
Może to może ci pomóc.