Recenzent powinien ci powiedzieć dlaczego Spearmana nie jest właściwe. Oto jedna wersja tego: Niech dane będą gdzie jest zmienną mierzoną, a jest wskaźnikiem płci, powiedzmy, że wynosi 0 (mężczyzna), 1 (kobieta). Następnie Spearmana jest obliczana na podstawie szeregów odpowiednio. Ponieważ istnieją tylko dwie możliwe wartości wskaźnika , będzie wiele powiązań, więc ta formuła nie jest odpowiednia. Jeśli zamienisz rangę na średnią rangę, otrzymasz tylko dwie różne wartości, jedną dla mężczyzn, drugą dla kobiet. Więc( Z i , I i ) Z I ρ Z , I I ρρ(Zi,Ii)ZIρZ,IIρstanie się w zasadzie jakąś przeskalowaną wersją średnich rang między dwiema grupami. Łatwiej byłoby (bardziej interpretować) po prostu porównać środki! Inne podejście jest następujące.
Niech będą obserwacjami zmiennej ciągłej wśród mężczyzn, same wśród kobiet. Teraz, jeśli rozkład i jest taki sam, wówczas wyniesie 0,5 (załóżmy, że rozkład jest całkowicie absolutnie ciągły, więc nie ma żadnych powiązań). W ogólnym przypadku zdefiniuj
gdzie jest losowym losowaniem wśród mężczyzn, wśród kobiet. Czy możemy oszacować z naszej próbki? Utwórz wszystkie pary (nie zakładaj żadnych powiązań) i policz, ile mamy „człowiek jest większy” ( ) (X1,…,XnY1,…,YmXYP(X>Y)
θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjM) i dla ilu „kobieta jest większa” ( ) ( ). Zatem jeden przykładowy szacunek to
To jedna rozsądna miara korelacji! (Jeśli jest tylko kilka więzi, po prostu je zignoruj). Ale nie jestem pewien, jak to się nazywa, jeśli ma nazwę. Ten może być blisko:
https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaXi<YjWθMM+W