Czy istnieje dziś ktoś szybszy niż Usain Bolt?

EDYCJA: Bardziej interesują mnie kwestie techniczne i metodologia określania prawdopodobieństwa „prawdziwego” maksimum w danej populacji na podstawie przykładowej statystyki. Istnieją problemy z oszacowaniem prawdopodobieństwa szybszych biegaczy niż pan Bolt na podstawie rekordowych czasów biegu, które są zarówno oczywiste, jak i subtelne. Humor mnie, wyobrażając sobie, że tak nie jest.

Usain Bolt jest najszybszym człowiekiem mierzonym na 100 m biegu. Jednak biorąc pod uwagę niewielką liczbę sportowców, wydaje się prawdopodobne, że „prawdziwy” najszybszy żywy człowiek siedzi gdzieś na kanapie i nigdy nie próbował zawodowej kariery biegowej.

Próbuję wykorzystać fakt, że różnica między próbkami na ogonach rozkładu normalnego staje się coraz mniejsza. Używam tego do obliczenia prawdopodobieństwa, że istnieje ktoś szybszy niż Usain Bolt, porównując Usaina do 2. najszybszego, 3. najszybszego itd.

Aby to zrobić, próbuję obliczyć największą wartość, która istnieje poza „Usainem Boltem”, biorąc pochodną CDF rozkładu normalnego w odniesieniu do , podnosząc ją do tego (gdzie wynosi około 7 000 000 000 lub liczbę próbki mniej niż „maksimum” - logika tego jest opisana na stronie Wikipedii niemieckiego problemu czołgów, która uogólnia się między różnymi dystrybucjami), np .: $y$ $n$ $n$

$\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy$

Czy to poprawny sposób na obliczenie prawdopodobieństwa, że istnieje ktoś szybszy niż Usain Bolt?
Czy istnieje takie pytanie poza „Problemem niemieckich czołgów dla innych dystrybucji”
Czy istnieje dobry sposób oszacowania odchylenia standardowego od skrajnych próbek rozkładu? Znalezienie informacji o najszybszych 100 m skokach wszechczasów jest łatwe, znalezienie średnich i wariancji jest trudne)

Dziękujemy za cierpliwość w kontaktach z programistą bez doświadczenia w temacie.

normal-distribution maximum

— ŹV -
źródło

Zakładasz, że to, czy jesteś sportowcem, jest niezależne od prędkości biegania. Co jest w porządku, ale wątpliwe.

— bayerj

@bayerj Tak, myślę, że jest całkiem jasne, że byłby to naprawdę zły sposób przewidywania następnego zawodnika olimpijskiego. Wydaje się to jednak interesującym pytaniem i staram się odpowiedzieć na nie najlepiej, jak potrafię, mając nadzieję, że ktoś lituje się i pomaga mi.

— ŹV -

Uważam, że pytanie jest źle postawione, ponieważ jakość bycia „szybkim” odnosi się tutaj do potencjału genetycznego lub talentu sportowego, a nie do faktycznej zdolności osiągania dużej prędkości.

— Digio,

@Digio Zamień „szybciej” na „ma wyższy numer seryjny”, zakładając, że jakaś firma „Fubarco” tworzy zestaw produktów z normalnie dystrybuowanymi numerami seryjnymi.

— ŹV -

Motywowanie pytania z przykładem jest ogólnie dobrą rzeczą. Jednak ten przykład wydaje się odwracać uwagę ludzi od tego, o co tak naprawdę pytasz. Czy możesz to edytować, aby omówić sytuację, w której naprawdę się znajdujesz?

— gung - Przywróć Monikę

Odpowiedzi:

W przeciwieństwie do innych odpowiedzi twierdzę, że można powiedzieć coś o zdolnościach Boltów, biorąc pod uwagę dostępne dane. Przede wszystkim zawęźmy twoje pytanie. Pytasz o najszybszego człowieka, ale ponieważ istnieje różnica w rozkładzie prędkości biegania dla mężczyzn i kobiet, gdzie najlepsza kobieta-biegaczka wydaje się nieco wolniejsza niż najlepsza kobieta-biegaczka, powinniśmy skupić się na mężczyznach-biegaczach. Aby uzyskać pewne dane, możemy spojrzeć na najlepsze wyniki roku w 100 biegach z ostatnich 45 lat . Na te dane należy zwrócić uwagę:

Są to najlepsze czasy pracy, więc nie mówią nam o zdolnościach wszystkich ludzi, ale o minimalnych osiąganych prędkościach.
Zakładamy, że dane te odzwierciedlają próbkę najlepszych biegaczy na świecie. Choć mogło się zdarzyć, że byli jeszcze lepsi biegacze, którzy nie brali udziału w mistrzostwach, założenie to wydaje się dość rozsądne.

Najpierw omówmy, jak nie analizować tych danych. Można zauważyć, że jeśli wykreślimy czasy działania w funkcji czasu, zaobserwujemy silną zależność liniową.

Może to prowadzić do zastosowania regresji liniowej do prognozowania, o ile lepszych biegaczy moglibyśmy zaobserwować w kolejnych latach. Byłby to jednak bardzo zły pomysł, który nieuchronnie doprowadziłby cię do wniosku, że za około dwa tysiące lat ludzie będą w stanie biec 100 metrów w zero sekund, a następnie zaczną osiągać ujemne czasy biegu! Jest to oczywiście absurdalne, ponieważ możemy sobie wyobrazić, że istnieje jakiś biologiczny i fizyczny limit naszych możliwości, który jest nam nieznany.

Jak mogłeś analizować te dane? Po pierwsze zauważmy, że mamy do czynienia z danymi o minimalnych wartościach, dlatego powinniśmy stosować odpowiedni model dla takich danych. To prowadzi nas do rozważenia modeli teorii wartości ekstremalnych (patrz np . Książka Wprowadzenie do modelowania statystycznego wartości ekstremalnych autorstwa Stuarta Colesa). Możesz założyć dla tych danych uogólniony rozkład wartości ekstremalnych (GEV). Jeśli gdzie są niezależnymi i identycznie rozmieszczonymi losowymi zmiennymi, wówczas podąża za rozkładem GEV. Jeśli jesteś zainteresowany modelowaniem minimów, to jeśli są próbkami , to $Y = \max(X_1,X_2,\dots,X_n)$ $X_1,X_2,\dots,X_n$ $Y_i$ $Z_1,Z_2,\dots,Z_k$ $-Z_i$ postępuj zgodnie z rozkładem GEV dla minimas. Możemy więc dopasować rozkład GEV do danych prędkości biegu, co prowadzi do całkiem niezłego dopasowania (patrz poniżej).

Jeśli spojrzysz na skumulowany rozkład sugerowany przez model, zauważysz, że najlepszy czas działania Usaina Bolta wynosi najniższy $1\%$ ogon rozkładu. Jeśli więc trzymamy się tych danych i tej analizy przykładowej zabawki, stwierdzilibyśmy, że znacznie krótszy czas działania jest mało prawdopodobny (ale oczywiście możliwy). Oczywistym problemem związanym z tą analizą jest to, że ignoruje się fakt, że widzieliśmy z roku na rok poprawę najlepszych czasów pracy. To prowadzi nas z powrotem do problemu opisanego w pierwszej części odpowiedzi, tj. Zakładanie tutaj modelu regresji jest ryzykowne. Inną rzeczą, którą można ulepszyć, jest to, że możemy zastosować podejście bayesowskie i założyć wcześniejszy informacyjny, który wyjaśniałby pewną niedostępność danych na temat fizjologicznie możliwych czasów pracy, których jeszcze nie zaobserwowano (ale o ile wiem, obecnie nie jest to znane). Wreszcie podobna teoria wartości ekstremalnych została już zastosowana w badaniach sportowych, np. Przez Einmahl i Magnus (2008) wRekordy w lekkiej atletyce poprzez papier teorii ekstremalnej wartości .

Możesz zaprotestować, że nie pytałeś o prawdopodobieństwo szybszego biegu, ale o prawdopodobieństwo zaobserwowania szybszego biegacza. Niestety, tutaj nie możemy wiele zrobić, ponieważ nie wiemy, jakie jest prawdopodobieństwo, że biegacz zostanie zawodowym sportowcem, a zarejestrowane czasy biegu będą dla niego dostępne. Nie dzieje się to przypadkowo i istnieje wiele czynników przyczyniających się do tego, że niektórzy biegacze stają się zawodowymi sportowcami, a niektórzy nie (lub nawet że ktoś lubi biegać i biegać w ogóle). W tym celu musielibyśmy mieć szczegółowe dane dotyczące biegaczy w całej populacji, ponadto, ponieważ pytasz o skrajności dystrybucji, dane musiałyby być bardzo duże. W związku z tym zgadzam się z innymi odpowiedziami.

— Tim
źródło

Mój pierwszy instynkt to zły pomysł, ale powiem trochę, dlaczego.

1) Chcesz zmierzyć nieobserwowalną zmienną, utajoną umiejętność biegania, z możliwą do zaobserwowania, zarejestrowaną wartością czasu biegu. Zgadza się, ale: W niemieckim problemie ze zbiornikami wszystkie numery seryjne są generowane z tej samej jednolitej dystrybucji. W swoim problemie musisz wywnioskować umiejętność ukrytej zmiennej (7 miliardów ludzi) na podstawie obserwowalnych czasów zmiennych. W GTP znanych jest wiele numerów seryjnych. W twoim problemie nie zebrałeś żadnych danych i po prostu kontynuujesz maksimum (Bolt). Co więcej, wydaje się, że zakładasz, że ta nieobserwowalna ukryta umiejętność nie jest skorelowana z faktycznym czasem biegu do tego stopnia, że możliwe jest, że ktoś, kto nigdy nie biegł w ogóle, jest lepszy od Bolta. To po prostu absurdalne!

2) Sportowcy nie są losowymi próbkami populacji. Są starannie dobierani przez wiele prób. Jeśli założymy, że wszyscy zdolni do biegania prawdopodobnie ścigali się z kimś przynajmniej raz w życiu i że każda osoba podjęła decyzję, czy powinna kontynuować rywalizację na wyższym poziomie w zależności od tego, jak często lub ile wygrywa wyścigi - to nie wydaje się tak nieprawdopodobne, że Bolt naprawdę jest najszybszym człowiekiem na świecie.

To tylko pierwsze powody, jakie przychodzą mi na myśl. Szczerze mówiąc, masz trochę do załatwienia przez głupca. Nie ma sposobu, aby zmierzyć „prawdopodobieństwo” tego, o czym mówisz.

— zwyrodniały hessian
źródło

Inny respondent przedstawił podobne uwagi i bez wątpienia prawdą jest, że oszacowanie prawdopodobieństwa istnienia kogoś szybciej niż pana Bolta na tej podstawie jest bardzo błędne. Bardziej interesujące byłoby również wiedzieć, czy logika techniczna prognoz opartych na tych ekstremalnych wartościach jest w zasadzie poprawna.

— ŹV -

Sugerowałbym więc streszczenie tego pytania, aby dotrzeć do sedna tego, co tak naprawdę próbujesz zadać, ponieważ kontekst spowoduje wiele rozproszenia. Nadal nie jest dla mnie jasne, co oznacza „normalny rozkład”, o którym mowa. Rzeczywiste czasy pracy? Zdolność biegania sportowców?

— zdegenerowany hessian

-2

Odpowiedź brzmi nie.

Zakładasz, że istnieje próbka z populacji (sportowcy), a Bolt jest wartością maksymalną w tej próbce. Tak więc szukasz prawdopodobieństwa, że maksymalna populacja jest większa niż maksymalna próbka. To twoja hipoteza.

Co jeśli twoje założenie jest błędne i że próbą była rzeczywiście populacja?

Mogę uzasadnić argument, że każda osoba, która potrafi biegać, miała szansę go pokonać. Nikt tego nie zrobił, więc jest prawdziwym maksimum populacji Ziemi.

Oczywiste jest, że sportowcy nie są próbą losową. Mam nadzieję, że nie ma co do tego wątpliwości. Oczywiście sposób, w jaki zostaje się sportowcem, jest w pewnym stopniu losowy. Z drugiej strony, jeśli ktoś nie jest sportowcem, jego umiejętności i osiągnięcia sportowe nie będą porównywalne z sportowcem. Mogę przyjąć, że ktoś MOGŁO POTENCJALNIE biegać szybciej niż Bolt, biorąc pod uwagę wszystkie warunki do treningu OCZEKUJĄC tak ciężko jak Bolt. Jednak jest zerowe prawdopodobieństwo, że pociągniesz nie-sportowca, który pokona Bolta w biegu na 100 m w warunkach na boisku i boisku.

— Aksakal
źródło

Bardziej interesuje mnie poprawna metodologia, wyobraź sobie Czołgi, których numery seryjne są normalnie dystrybuowane w duplikatach, a nie z prędkością, może :)

— ŹV -