Odpowiedzi:
Myślę, że jego znaczenie najlepiej przeanalizować, patrząc na to w dwóch częściach:
„Wszystkie modele są złe”, to znaczy każdy model jest zły, ponieważ jest to uproszczenie rzeczywistości. Niektóre modele, szczególnie w „twardych” naukach, są tylko trochę błędne. Ignorują takie rzeczy jak tarcie lub efekt grawitacyjny małych ciał. Inne modele są bardzo błędne - ignorują większe rzeczy. W naukach społecznych często ignorujemy.
„Ale niektóre są przydatne” - uproszczenia rzeczywistości mogą być bardzo przydatne. Pomogą nam wyjaśnić, przewidzieć i zrozumieć wszechświat i wszystkie jego różne elementy.
Nie dotyczy to tylko statystyk! Mapy są rodzajem modelu; oni są źli. Ale dobre mapy są bardzo przydatne. Istnieje wiele innych użytecznych, ale niewłaściwych modeli.
Oznacza to, że można uzyskać użyteczne spostrzeżenia z modeli, które nie stanowią idealnej reprezentacji zjawisk, które modelują.
Model statystyczny to opis systemu wykorzystującego pojęcia matematyczne. Jako taki w wielu przypadkach dodajesz pewną warstwę abstrakcji, aby ułatwić procedurę wnioskowania (np. Normalność błędów pomiaru, złożona symetria w strukturach korelacji itp.). Jest prawie niemożliwe, aby jeden model doskonale opisać fenomen świata rzeczywistego podano sami mają subiektywny pogląd na świat (nasz system sensoryczny nie jest doskonały); niemniej jednak dochodzi do pomyślnego wnioskowania statystycznego, ponieważ nasz świat cechuje się pewnym stopniem spójności, który wykorzystujemy. Dlatego nasze prawie zawsze złe modele okazują się przydatne .
(Jestem pewien, że wkrótce dostaniesz odważną odpowiedź, ale starałem się być w tej sprawie zwięzły!)
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(Naprawdę myślę, że cytat JT jest niesamowicie wnikliwy.)
Znalazłem to przemówienie JSA z 2009 r. Thada Tarpeya, które stanowi użyteczne wyjaśnienie i komentarz do fragmentu „Ramki”. Twierdzi, że jeśli uznamy modele za przybliżone do prawdy, równie łatwo moglibyśmy właściwie nazwać wszystkie modele.
Oto streszczenie:
Studenci statystyki są często zapoznawani ze słynnym cytatem George'a Boxa: „wszystkie modele są błędne, niektóre są użyteczne”. W tym wykładzie twierdzę, że ten cytat, choć przydatny, jest błędny. Inną i bardziej pozytywną perspektywą jest uznanie, że model jest po prostu sposobem na wydobycie interesujących informacji z danych. Prawda jest nieskończenie złożona, a model jest jedynie przybliżeniem prawdy. Jeśli przybliżenie jest słabe lub wprowadzające w błąd, model jest bezużyteczny. W tym wykładzie podaję przykłady poprawnych modeli, które nie są prawdziwymi modelami. Ilustruję, w jaki sposób pojęcie „niewłaściwego” modelu może prowadzić do błędnych wniosków.
Dla mnie rzeczywisty wgląd leży w następującym aspekcie:
Model nie musi być poprawny, aby był użyteczny.
Niestety w wielu naukach często zapomina się, że modele niekoniecznie muszą być dokładnym odwzorowaniem rzeczywistości, aby umożliwić nowe odkrycia i prognozy!
Nie marnuj więc czasu na budowanie skomplikowanego modelu, który wymaga dokładnych pomiarów niezliczonych zmiennych. Prawdziwy geniusz wymyśla prosty model, który spełnia swoje zadanie.
Model nie może zapewnić 100% dokładnych prognoz, jeśli w wynikach występuje dowolność. Gdyby nie było niepewności, przypadkowości i błędu, byłby to raczej fakt niż model. Pierwszy jest bardzo ważny, ponieważ modele są często używane do modelowania oczekiwań zdarzeń, które nie miały miejsca. To prawie gwarantuje, że istnieje pewna niepewność co do prawdziwych wydarzeń.
Biorąc pod uwagę doskonałą informację, teoretycznie może być możliwe stworzenie modelu, który daje doskonałe prognozy dla tak dokładnie znanych zdarzeń. Jednak nawet biorąc pod uwagę te mało prawdopodobne okoliczności, taki model może być tak złożony, że może być niewykonalny obliczeniowo i może być dokładny tylko w określonym momencie, ponieważ inne czynniki zmieniają zmiany wartości wraz ze zdarzeniami.
Ponieważ w większości rzeczywistych danych występuje niepewność i przypadkowość, próby uzyskania idealnego modelu są daremnym ćwiczeniem. Zamiast tego bardziej wartościowe jest przyjrzenie się uzyskaniu wystarczająco dokładnego modelu, który jest na tyle prosty, że można go wykorzystać zarówno pod względem danych, jak i obliczeń wymaganych do jego wykorzystania. Chociaż modele te są znane jako niedoskonałe, niektóre z tych wad są dobrze znane i można je brać pod uwagę przy podejmowaniu decyzji na podstawie modeli.
Prostsze modele mogą być niedoskonałe, ale łatwiej jest je sobie wyobrazić, porównać ze sobą i może być łatwiejsze w pracy, ponieważ prawdopodobnie będą mniej wymagające obliczeniowo.
Jeśli mogę, przydałby się tylko jeden komentarz. Preferowana przeze mnie wersja prazy
(...) wszystkie modele są przybliżone. Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne (...)
zaczerpnięte z Response Surfaces, Mixtures i Ridge Analizy autorstwa Box and Draper (2007, s. 414, Wiley). Patrząc na rozszerzony cytat, bardziej jasne jest, co miał na myśli Box - modelowanie statystyczne polega na przybliżeniu rzeczywistości, a przybliżenie nigdy nie jest dokładne, więc chodzi o znalezienie najbardziej odpowiedniego przybliżenia. To, co jest odpowiednie dla twojego celu, jest subiektywne, dlatego nie jest to jeden z modeli, który jest użyteczny, ale być może niektóre z nich, w zależności od celu modelowania.
Ponieważ nikt go nie dodał, George Box wykorzystał cytowaną fazę, aby wprowadzić następującą sekcję w książce. Wierzę, że robi najlepszą robotę, tłumacząc, co miał na myśli:
W przypadku takiego modelu nie trzeba zadawać pytania „Czy model jest prawdziwy?”. Jeśli „prawda” ma być „całą prawdą”, odpowiedź musi brzmieć „nie”. Jedyne interesujące pytanie brzmi: „Czy model jest pouczający i użyteczny?”.
Box, GEP (1979), „Solidność w strategii budowy modelu naukowego”, w Launer, RL; Wilkinson, GN, Solidność w statystyce , Academic Press, s. 201–236.
Możesz myśleć o tym w ten sposób. maksymalna złożoność (tj. entropia) obiektu podlega pewnej formie związanej z Bekensteinem :
To duża liczba, w większości przypadków:
Czy chcesz więc zastosować „najlepszą mapę”, tj. Samo terytorium, ze wszystkimi równaniami falowymi dla wszystkich cząstek w każdej komórce? Absolutnie nie. Byłaby to nie tylko katastrofa obliczeniowa, ale modelowałbyś rzeczy, które mogą zasadniczo nie mieć nic wspólnego z tym, na czym ci zależy. Jeśli wszystko, co chcesz zrobić, to na przykład stwierdzić, czy nie śpię, nie musisz wiedzieć, co elektron # 32458 robi w neuronie # 844030 rybosomie # 2305 cząsteczki # 2. Jeśli tego nie modelujesz, Twój model jest rzeczywiście „zły”, ale jeśli potrafisz określić, czy nie śpię, Twój model jest zdecydowanie przydatny.
Myślę, że Peter i użytkownik 11852 dali świetne odpowiedzi. Dodałbym również (przez zaprzeczenie), że jeśli model byłby naprawdę dobry, prawdopodobnie byłby bezużyteczny z powodu przeszacowania (stąd nie do uogólnienia).
Moja kwaśna interpretacja brzmi: przekonanie, że model matematyczny opisuje dokładnie wszystkie czynniki, a ich interakcje rządzące interesującym zjawiskiem byłyby zbyt uproszczone i aroganckie. Nie wiemy nawet, czy logika, której używamy, wystarczy, by zrozumieć nasz wszechświat. Jednak niektóre modele matematyczne przedstawiają wystarczająco dobre przybliżenie (pod względem metody naukowej), które są przydatne do wyciągania wniosków na temat tego zjawiska.
Jako astrostatysta (być może rzadka rasa) uważam, że słownictwo Boxa jest niefortunne. W naukach fizycznych często mamy silny konsensus w zrozumieniu procesów leżących u podstaw obserwowanego zjawiska, a procesy te często można wyrazić za pomocą modeli matematycznych wynikających z praw grawitacji, mechaniki kwantowej, termodynamiki itp. Cele statystyczne to oszacowanie parametry fizyczne najlepiej dopasowanych parametrów modelu, a także wybór i walidacja modelu. Dramatyczny niedawny przypadek powstał w wyniku publikacji dokumentów z satelity Planck Europejskiej Agencji Kosmicznej w marcu 2013 rpomiary kosmicznego tła mikrofalowego, które w przekonujący sposób ustanawia prosty 6-parametrowy model LambdaCDM dla Wielkiego Wybuchu. Wątpię, czy powiedzenie Boxa miałoby zastosowanie wszędzie w szerokim zakresie zaawansowanych metod statystycznych zastosowanych w tych 29 artykułach.
Właśnie sformułowałem powyższą odpowiedź, rozważając modele procesów jako punkt skupienia. Instrukcja może być interpretowana w następujący sposób:
„Wszystkie modele są złe”, to znaczy każdy model jest zły, ponieważ jest to uproszczenie rzeczywistości. Niektóre modele są tylko trochę błędne. Ignorują niektóre rzeczy, na przykład: -> zmieniające się wymagania, -> Ignorują ukończenie projektu w terminie, -> nie biorą pod uwagę pożądanego poziomu jakości klienta itp. Inne modele są bardzo złe - ignorują większe rzeczy. Klasyczne modele procesów programowych dużo ignorują w porównaniu do zwinnych modeli procesów, które mniej ignorują.
„Ale niektóre są przydatne” - uproszczenia rzeczywistości mogą być bardzo przydatne. Pomogą nam wyjaśnić, przewidzieć i zrozumieć cały projekt i wszystkie jego różne elementy. Modele są używane, ponieważ ich funkcje odpowiadają większości programów programistycznych.
Chciałbym podać inną interpretację terminu „użyteczny”. Prawdopodobnie nie ten, o którym myślał Box.
Kiedy musisz podejmować decyzje i do tego w końcu zostaną wykorzystane wszystkie informacje, musisz zmierzyć swój sukces w jakiejś formie. Gdy mówimy o decyzjach z niepewnymi informacjami, środek ten jest często nazywany użytecznością.
Możemy więc pomyśleć o przydatnych modelach, które pozwalają nam podejmować bardziej świadome decyzje; aby skuteczniej osiągać nasze cele.
Dodaje to dodatkowy wymiar poza zwykłymi kryteriami, takimi jak zdolność modelu do przewidywania czegoś poprawnie: Pozwala nam wyważyć różne aspekty, które model ma względem siebie.
„Wszystkie modele są błędne, ale niektóre są przydatne”. Być może oznacza to: Powinniśmy robić wszystko, co w naszej mocy, dzięki temu, co wiemy + szukać nowej nauki?
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Może to jest bardziej pomocne.