„Większość mężczyzn jest szybsza niż większość kobiet” jest potencjalnie trochę niejednoznaczna, ale normalnie zinterpretowałbym jej intencję, że jeśli spojrzymy na losowe pary, przez większość czasu mężczyzna byłby szybszy - tj. P.(M.ja<fajot) >12) losowo ja , j (gdzie M.ja jest czas na ja-ty mężczyzna ”itp.).
Oczywiście możliwe są inne interpretacje tego wyrażenia (w końcu to taka dwuznaczność), a niektóre z tych innych możliwości mogą być zgodne z twoim rozumowaniem.
[Mamy również problem z tym, czy mówimy o próbkach czy populacjach ... „większość mężczyzn […] większość kobiet” wydaje się oświadczeniem populacyjnym (o populacji potencjalnego czasu), ale obserwowaliśmy tylko czasy że wydaje się, że traktujemy to jako próbkę, więc musimy uważać na to, jak szerokie jest to twierdzenie.]
Zauważ, że P.(M.ja<fajot) >12) nie wynika z tego M.˜<fa˜. Mogą iść w przeciwnych kierunkach.
[Nie twierdzę, że się mylisz, sądząc, że odsetek losowych par MF, w których mężczyzna był szybszy niż kobieta, jest większy niż 1/2 - prawie na pewno masz rację. Mówię tylko, że nie można tego powiedzieć, porównując mediany. Nie można tego powiedzieć, patrząc na proporcję w każdej próbce powyżej lub poniżej mediany drugiej próbki. Musisz dokonać innego porównania.]
Oznacza to, że podczas gdy mediana mężczyzny może być szybsza niż mediana kobiety, możliwe jest uzyskanie próbki czasów (lub ciągłego rozkładu czasów, jeśli chodzi o tę sprawę), gdzie szansa, że losowy mężczyzna jest szybszy niż losowa kobieta, jest mniej niż12). W dużych próbkach oba przeciwne wskazania mogą być znaczące.
Przykład:
Zestaw danych A:
1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
1.42 2.56 16.73 17.01 18.86 19.98
Zestaw danych B:
3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
3.44 4.13 6.00 20.85 21.82 22.05
Zestaw danych C:
6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
6.57 7.58 8.81 9.08 23.43 24.45
(Dane są tutaj , ale są tam wykorzystywane do innego celu - o ile pamiętam, sam je wygenerowałem)
Zauważ, że proporcja A <B wynosi 2/3, proporcja A <C wynosi 5/9, a proporcja B <C wynosi 2/3. Zarówno A w porównaniu do B, jak i B w porównaniu do C są znaczące na poziomie 5%, ale możemy osiągnąć dowolny poziom istotności, po prostu dodając wystarczającą liczbę kopii próbek. Możemy nawet uniknąć powiązań, duplikując próbki, ale dodając wystarczająco małe drgania (wystarczająco mniejsze niż najmniejsza przerwa między punktami)
Przykładowe mediany idą w innym kierunku: mediana (A)> mediana (B)> mediana (C)
Ponownie możemy osiągnąć znaczenie dla pewnego porównania median - na dowolnym poziomie istotności - poprzez powtórzenie próbek.
Aby odnieść to do obecnego problemu, wyobraź sobie, że A to „czasy kobiet”, a B to „czasy mężczyzn”. Wówczas średni czas mężczyzn jest krótszy, ale losowo wybrany mężczyzna będzie 2/3 czasu wolniejszy niż losowo wybrana kobieta.
Biorąc nasz sygnał z próbek A i C, możemy wygenerować większy zestaw danych (w R) w następujący sposób:
n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))
Mediana F wyniesie około 16,25, a mediana M wyniesie około 11,25, ale odsetek przypadków, w których F <M wyniesie 5/9.
[Jeśli zastąpimy n / 3 dwumianowym zmiennym z parametrami n i 13)
będziemy pobierać próbki z populacji, w której mediana rozkładu F wynosi 16,25, podczas gdy mediana rozkładu M wynosi 11,25. Tymczasem w tej populacji prawdopodobieństwo, że F <M będzie ponownie wynosić 5/9.]
Zauważ też, że P.( F.< med ( M) ) =2)3) i P.( M> med ( F) ) =2)3) podczas med ( M) < med ( F) (na znaczną odległość).