W przeciwieństwie do innych odpowiedzi twierdzę, że można powiedzieć coś o zdolnościach Boltów, biorąc pod uwagę dostępne dane. Przede wszystkim zawęźmy twoje pytanie. Pytasz o najszybszego człowieka, ale ponieważ istnieje różnica w rozkładzie prędkości biegania dla mężczyzn i kobiet, gdzie najlepsza kobieta-biegaczka wydaje się nieco wolniejsza niż najlepsza kobieta-biegaczka, powinniśmy skupić się na mężczyznach-biegaczach. Aby uzyskać pewne dane, możemy spojrzeć na najlepsze wyniki roku w 100 biegach z ostatnich 45 lat . Na te dane należy zwrócić uwagę:
- Są to najlepsze czasy pracy, więc nie mówią nam o zdolnościach wszystkich ludzi, ale o minimalnych osiąganych prędkościach.
- Zakładamy, że dane te odzwierciedlają próbkę najlepszych biegaczy na świecie. Choć mogło się zdarzyć, że byli jeszcze lepsi biegacze, którzy nie brali udziału w mistrzostwach, założenie to wydaje się dość rozsądne.
Najpierw omówmy, jak nie analizować tych danych. Można zauważyć, że jeśli wykreślimy czasy działania w funkcji czasu, zaobserwujemy silną zależność liniową.
Może to prowadzić do zastosowania regresji liniowej do prognozowania, o ile lepszych biegaczy moglibyśmy zaobserwować w kolejnych latach. Byłby to jednak bardzo zły pomysł, który nieuchronnie doprowadziłby cię do wniosku, że za około dwa tysiące lat ludzie będą w stanie biec 100 metrów w zero sekund, a następnie zaczną osiągać ujemne czasy biegu! Jest to oczywiście absurdalne, ponieważ możemy sobie wyobrazić, że istnieje jakiś biologiczny i fizyczny limit naszych możliwości, który jest nam nieznany.
Jak mogłeś analizować te dane? Po pierwsze zauważmy, że mamy do czynienia z danymi o minimalnych wartościach, dlatego powinniśmy stosować odpowiedni model dla takich danych. To prowadzi nas do rozważenia modeli teorii wartości ekstremalnych (patrz np . Książka Wprowadzenie do modelowania statystycznego wartości ekstremalnych autorstwa Stuarta Colesa). Możesz założyć dla tych danych uogólniony rozkład wartości ekstremalnych (GEV). Jeśli gdzie są niezależnymi i identycznie rozmieszczonymi losowymi zmiennymi, wówczas podąża za rozkładem GEV. Jeśli jesteś zainteresowany modelowaniem minimów, to jeśli są próbkami , toY=max(X1,X2,…,Xn)X1,X2,…,XnYiZ1,Z2,…,Zk−Zipostępuj zgodnie z rozkładem GEV dla minimas. Możemy więc dopasować rozkład GEV do danych prędkości biegu, co prowadzi do całkiem niezłego dopasowania (patrz poniżej).
Jeśli spojrzysz na skumulowany rozkład sugerowany przez model, zauważysz, że najlepszy czas działania Usaina Bolta wynosi najniższy1%ogon rozkładu. Jeśli więc trzymamy się tych danych i tej analizy przykładowej zabawki, stwierdzilibyśmy, że znacznie krótszy czas działania jest mało prawdopodobny (ale oczywiście możliwy). Oczywistym problemem związanym z tą analizą jest to, że ignoruje się fakt, że widzieliśmy z roku na rok poprawę najlepszych czasów pracy. To prowadzi nas z powrotem do problemu opisanego w pierwszej części odpowiedzi, tj. Zakładanie tutaj modelu regresji jest ryzykowne. Inną rzeczą, którą można ulepszyć, jest to, że możemy zastosować podejście bayesowskie i założyć wcześniejszy informacyjny, który wyjaśniałby pewną niedostępność danych na temat fizjologicznie możliwych czasów pracy, których jeszcze nie zaobserwowano (ale o ile wiem, obecnie nie jest to znane). Wreszcie podobna teoria wartości ekstremalnych została już zastosowana w badaniach sportowych, np. Przez Einmahl i Magnus (2008) wRekordy w lekkiej atletyce poprzez papier teorii ekstremalnej wartości .
Możesz zaprotestować, że nie pytałeś o prawdopodobieństwo szybszego biegu, ale o prawdopodobieństwo zaobserwowania szybszego biegacza. Niestety, tutaj nie możemy wiele zrobić, ponieważ nie wiemy, jakie jest prawdopodobieństwo, że biegacz zostanie zawodowym sportowcem, a zarejestrowane czasy biegu będą dla niego dostępne. Nie dzieje się to przypadkowo i istnieje wiele czynników przyczyniających się do tego, że niektórzy biegacze stają się zawodowymi sportowcami, a niektórzy nie (lub nawet że ktoś lubi biegać i biegać w ogóle). W tym celu musielibyśmy mieć szczegółowe dane dotyczące biegaczy w całej populacji, ponadto, ponieważ pytasz o skrajności dystrybucji, dane musiałyby być bardzo duże. W związku z tym zgadzam się z innymi odpowiedziami.