Jeśli chodzi o tytuł, chodzi o wykorzystanie wzajemnej informacji, tu i po MI, do oszacowania „korelacji” (zdefiniowanej jako „ile wiem o A, gdy znam B”) między zmienną ciągłą a zmienną kategorialną. Za chwilę opowiem o moich przemyśleniach na ten temat, ale zanim doradzę, przeczytajcie inne pytanie / odpowiedź na CrossValidated, ponieważ zawiera ona przydatne informacje.
Ponieważ nie możemy zintegrować zmiennej zmiennej kategorialnej, musimy dyskretyzować zmienną ciągłą. Można to zrobić dość łatwo w języku R, który jest językiem, w którym przeprowadziłem większość moich analiz. Wolałem korzystać z tej cut
funkcji, ponieważ alias również zawiera wartości, ale dostępne są również inne opcje. Chodzi o to, że zanim będzie można dokonać jakiejkolwiek dyskretyzacji, należy z góry ustalić liczbę „przedziałów” (stanów dyskretnych).
Główny problem jest jednak inny: MI waha się od 0 do ∞, ponieważ jest to niestandardowa miara, która jednostka jest bitem. To bardzo utrudnia wykorzystanie go jako współczynnika korelacji. Można to częściowo rozwiązać za pomocą globalnego współczynnika korelacji , tu i po GCC, który jest znormalizowaną wersją MI; GCC jest zdefiniowane następująco:
Odniesienie: wzór pochodzi z Mutual Information jako nieliniowego narzędzia do analizy globalizacji rynku akcji, autorstwa Andrei Dionísio, Rui Menezes i Diana Mendes, 2010.
GCC waha się od 0 do 1, a zatem może być łatwo wykorzystane do oszacowania korelacji między dwiema zmiennymi. Problem rozwiązany, prawda? Cóż, w pewnym sensie. Ponieważ cały ten proces zależy w dużej mierze od liczby „pojemników”, które zdecydowaliśmy się zastosować podczas dyskretyzacji. Oto wyniki moich eksperymentów:
Na osi Y masz GCC, a na osi X masz liczbę „pojemników”, które postanowiłem zastosować w celu dyskretyzacji. Dwie linie odnoszą się do dwóch różnych analiz, które przeprowadziłem na dwóch różnych (choć bardzo podobnych) zestawach danych.
Wydaje mi się, że stosowanie MI w ogóle, aw szczególności GCC, jest nadal kontrowersyjne. Jednak to zamieszanie może być wynikiem pomyłki z mojej strony. Tak czy inaczej, chciałbym usłyszeć twoją opinię w tej sprawie (czy masz alternatywne metody oszacowania korelacji między zmienną kategoryczną a zmienną ciągłą?).