Ten sam sposób, inna wariancja

Załóżmy, że masz ośmiu biegaczy, którzy prowadzą wyścig; rozkład ich poszczególnych czasów pracy jest Normalny, a każdy ma średnio $11$ sekund, powiedzmy. Standardowe odchylenie dla biegacza pierwszego jest najmniejsze, dwa drugie najmniejsze, trzecie najmniejsze itd., A osiem największe. Mylą mnie dwa pytania: (1) Jakie jest prawdopodobieństwo, że pierwszy wygra z ostatnim, i (2) kto najprawdopodobniej wygra wyścig?

Moje odpowiedzi są $1/2$ i $8$ odpowiednio. Ponieważ mają one taką samą średnią, prawdopodobieństwo, że $\bar x_1-\bar x_8\lt 0$ jest tylko $1/2$ , nie? Jak mogę rygorystycznie zademonstrować drugą część i czy można obliczyć dokładne prawdopodobieństwo wygranej? Z góry dziękuję.

— George Tedder
źródło

@Silverfish Porównując pierwszy (modelowany jako zmienna losowa

X_{1}

$X_1$ ) do ostatniego (

X_{n}

$X_n$ , zakładając, że jest niezależny od

X_{1}

$X_1$ ), musimy wziąć pod uwagę tylko

Z = X_{1} - X_{n}

$Z=X_1-X_n$ . Ma to symetryczny ciągły rozkład ze średnią zerową. Szansa, że pierwsze bity ostatni jest prawdopodobieństwo, że

Z < 0

$Z\lt 0$ , które (o symetrii i ciągłość) wynosi

1 / 2

$1/2$ zgodnie z zastrzeżeniami. Chociaż ostatnia ma większą szansę na wygranie wyścigu, nie ma paradoksu: przez większość czasu, gdy pierwsze uderzenia trwają ostatnie, ktoś inny wygra wyścig.

— whuber

@whuber Dziękuję, udało mi się rozwalić to, co miałem na myśli - usunę, aby zapobiec pomyłkom. Liczba 1/2 jest poprawna, ale odpowiedź na porównanie ich średnich czasów

\bar{x_{i}}

$\bar{x_i}$ jest niepoprawna i wydaje się, że prowadzi do pomylenia ze średnimi populacji. Podczas pisania powinna być różnica w

X_{i}

$X_i$ .

— Silverfish,

@Silver Podkreśla to niebezpieczeństwo zakładania, że zawsze wiemy, co oznacza czyjaś notacja, tylko dlatego, że wygląda znajomo. Zastanawiałem się nad tym zagadnieniem (z podkreśleniami pojawiającymi się na „

x_{1}

$x_1$ ” i „

x_{8}

$x_8$ ”), ponieważ zamierzone znaczenie było wystarczająco jasne i sugerowało, że żadne z nich nie może reprezentować środka niczego: w tym kontekście muszą reprezentować same zmienne losowe (które napisałem

X_{1}

$X_1$ i

X_{n}

$X_n$ ).

— whuber

Chociaż nie można obliczyć dokładnego prawdopodobieństwa (z wyjątkiem szczególnych okoliczności z $n \le 2$ ), można je szybko obliczyć numerycznie z dużą dokładnością. Pomimo tego ograniczenia można rygorystycznie udowodnić, że biegacz z największym odchyleniem standardowym ma największą szansę na wygraną. Rysunek przedstawia sytuację i pokazuje, dlaczego ten wynik jest intuicyjnie oczywisty:

Postać

Pokazano gęstości prawdopodobieństwa dla czasów pięciu biegaczy. Wszystkie są ciągłe i symetryczne względem wspólnej średniej $\mu$ . (Zastosowano skalowane gęstości beta, aby upewnić się, że wszystkie czasy są dodatnie.) Jedna gęstość, narysowana na ciemnoniebiesko, ma znacznie większy zasięg. Widoczna część w lewym ogonie reprezentuje czasy, których żaden inny biegacz zwykle nie może dopasować. Ponieważ ten lewy ogon ze swoim stosunkowo dużym obszarem stanowi znaczne prawdopodobieństwo, biegacz o takiej gęstości ma największą szansę na wygraną w wyścigu. (Mają też największą szansę na wejście jako ostatnie!)

Wyniki te zostały udowodnione dla więcej niż tylko rozkładów normalnych: przedstawione tutaj metody odnoszą się równie dobrze do rozkładów symetrycznych i ciągłych. (Będzie to interesujące dla każdego, kto sprzeciwi się użyciu rozkładów normalnych do modelowania czasów pracy.) W przypadku naruszenia tych założeń może się zdarzyć, że biegacz z największym odchyleniem standardowym może nie mieć największej szansy na wygraną (pozostawiam konstrukcję kontrprzykładów na zainteresowani czytelnicy), ale nadal możemy udowodnić przy łagodniejszych założeniach, że biegacz z największym SD będzie miał najlepszą szansę na wygraną, pod warunkiem, że SD jest wystarczająco duży.

Rysunek sugeruje również, że takie same wyniki można uzyskać, biorąc pod uwagę jednostronne analogi odchylenia standardowego (tak zwana „półwariancja”), które mierzą rozproszenie rozkładu tylko na jedną stronę. Biegacz z dużym rozproszeniem w lewo (w stronę lepszych czasów) powinien mieć większą szansę na wygraną, niezależnie od tego, co stanie się w pozostałej części dystrybucji. Te rozważania pomagają nam docenić, jak własność bycia najlepszym (w grupie) różni się od innych właściwości, takich jak średnie.

Niech będą losowymi zmiennymi reprezentującymi czasy biegaczy. Pytanie zakłada, że są one niezależne i normalnie rozmieszczone ze wspólną średnią . (Chociaż jest to dosłownie niemożliwy model, ponieważ daje pozytywne prawdopodobieństwa dla czasów ujemnych, nadal może być rozsądnym przybliżeniem do rzeczywistości, pod warunkiem, że odchylenia standardowe są znacznie mniejsze niż .) $X_1, \ldots, X_n$ $\mu$ $\mu$

Aby przeprowadzić następujący argument, zachowaj domniemanie niezależności, ale w innym przypadku załóż, że rozkłady są podane przez że te prawa dystrybucji mogą być dowolne. Dla wygody załóżmy, że rozkład jest ciągły z gęstością . Później, w razie potrzeby, możemy zastosować dodatkowe założenia, pod warunkiem że obejmują przypadek rozkładów normalnych. $X_i$ $F_i$ $F_n$ $f_n$

Dla dowolnego i nieskończenie , szansa, że ostatni zawodnik ma czas w przedziale i jest najszybszym biegaczem otrzymuje się przez pomnożenie wszystkich odpowiednich prawdopodobieństw (bo cały czas są niezależne): $y$ $dy$ $(y-dy, y]$

Pr (X_{n} \in (y - d y, y], X_{1} > y, \dots, X_{n - 1} > y) = f_{n} (y) d y (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) .

$\Pr(X_n \in (y-dy, y], X_1 \gt y, \ldots, X_{n-1} \gt y) = f_n(y)dy(1-F_{1}(y))\cdots(1-F_{n-1}(y)).$

Integracja wszystkich tych wzajemnie wykluczających się możliwości daje

Pr (X_{n} \leq min (X_{1}, X_{2}, \dots, X_{n - 1})) = \int_{R} f_{n} (y) (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) d y .

$\Pr(X_n \le \min(X_1, X_2, \ldots, X_{n-1})) = \int_{\mathbb R} f_n(y)(1-F_1(y))\cdots(1-F_{n-1}(y)) dy.$

W przypadku rozkładów normalnych tej całki nie można oszacować w formie zamkniętej, gdy : wymaga oceny numerycznej. $n\gt 2$

Ta figura przedstawia całkę dla każdego z pięciu biegaczy posiadających standardowe odchylenia w stosunku 1: 2: 3: 4: 5. Im większy SD, tym bardziej funkcja jest przesunięta w lewo - i tym większy staje się jej obszar. Obszary wynoszą około 8: 14: 21: 26: 31%. W szczególności biegacz z największym SD ma 31% szans na wygraną.

Chociaż nie można znaleźć zamkniętej formy, nadal możemy wyciągnąć solidne wnioski i udowodnić, że biegacz z największym SD najprawdopodobniej wygra. Musimy uczyć się, co dzieje się jako odchylenie standardowe jednego z rozkładów, powiedzmy zmiany,. Gdy zmienna losowa jest przeskalowana o wokół jej średniej, jej SD jest mnożona przez i zmieni się na $F_n$ $X_n$ $\sigma \gt 0$ $\sigma$ $f_n(y)dy$ $f_n(y/\sigma)dy/\sigma$ . Dokonanie zmiany zmiennej w całce daje wyrażenie szansy na wygraną biegacza , w funkcji : $y=x\sigma$ $n$ $\sigma$

ϕ (σ) = \int_{R} f_{n} (y) (1 - F_{1} (y σ)) \dots (1 - F_{n - 1} (y σ)) d y .

$\phi(\sigma) = \int_{\mathbb R} f_n(y)(1-F_1(y\sigma))\cdots(1-F_{n-1}(y\sigma)) dy.$

Przypuśćmy teraz, że środkowe wszystkich dystrybucji są równe, że wszystkie rozkłady są symetryczne i ciągłe, o gęstości . (Z pewnością tak jest w warunkach pytania, ponieważ średnia Mediana normalna jest jego średnią.) Przez prostą (lokalizacyjną) zmianę zmiennej możemy założyć, że ta wspólna mediana wynosi ; symetria oznacza i $n$ $f_i$ $0$ $f_n(y) = f_n(-y)$ $1 - F_j(-y) = F_j(y)$ for all $y$ . These relationships enable us to combine the integral over $(-\infty, 0]$ with the integral over $(0,\infty)$ to give

ϕ (σ) = \int_{0}^{\infty} f_{n} (y) (\prod_{j = 1}^{n - 1} (1 - F_{j} (y σ)) + \prod_{j = 1}^{n - 1} F_{j} (y σ)) d y .

$\phi(\sigma) = \int_0^{\infty} f_n(y)\left(\prod_{j=1}^{n-1}\left(1-F_j(y\sigma)\right)+\prod_{j=1}^{n-1}F_j(y\sigma)\right) dy.$

The function $\phi$ is differentiable. Its derivative, obtained by differentiating the integrand, is a sum of integrals where each term is of the form

y f_{n} (y) f_{i} (y σ) (\prod_{j \neq i}^{n - 1} F_{j} (y σ) - \prod_{j \neq i}^{n - 1} (1 - F_{j} (y σ)))

$y f_n(y) f_i(y\sigma)\left(\prod_{j\ne i}^{n-1}F_j(y\sigma) - \prod_{j\ne i}^{n-1}(1-F_j(y\sigma))\right)$

for $i=1, 2, \ldots, n-1$ .

The assumptions we made about the distributions were designed to assure that $F_j(x) \ge 1-F_j(x)$ for $x\ge 0$ . Thus, since $x=y\sigma\ge 0$ , each term in the left product exceeds its corresponding term in the right product, implying the difference of products is nonnegative. The other factors $y f_n(y) f_i(y\sigma)$ are clearly nonnegative because densities cannot be negative and $y\ge 0$ . We may conclude that $\phi^\prime(\sigma) \ge 0$ for $\sigma \ge 0$ , proving that the chance that player $n$ wins increases with the standard deviation of $X_n$ .

This is enough to prove that runner $n$ will win provided the standard deviation of $X_n$ is sufficiently large. This is not quite satisfactory, because a large SD could result in a physically unrealistic model (where negative winning times have appreciable chances). But suppose all the distributions have identical shapes apart from their standard deviations. In this case, when they all have the same SD, the $X_i$ are independent and identically distributed: nobody can have a greater or lesser chance of winning than anyone else, so all chances are equal (to $1/n$ ). Start by setting all distributions to that of runner $n$ . Now gradually decrease the SDs of all other runners, one at a time. As this occurs, the chance that $n$ wins cannot decrease, while the chances of all the other runners have decreased. Consequently, $n$ has the greatest chances of winning, QED.

— whuber
źródło

@Phonon That's correct. (But please do not confuse the distributions with estimates derived from samples. The distribution is a mathematical model, not a set of data.) Increasing the SD by a factor of

λ

$\lambda$ , say, uniformly stretches the horizontal axis. Because (by the Law of Total Probability) the density function will cover a unit area, that stretch must be compensated by a stretch of the vertical axis by

1 / λ

$1/\lambda$ , thereby preserving all areas. Thus, smaller SDs correspond to taller peaks and larger SDs to shorter peaks.

— whuber

Many thanks for your reply, makes perfect sense. So knowledge of peak values alone in this sense is rather important.

— Phonon