Kilka lat temu czytałem Czarnego Łabędzia. Pomysł Czarnego Łabędzia jest dobry, a atak na ludyczny błąd (widzenie rzeczy w gry w kości z prawdopodobieństwem poznania) jest dobry, ale statystyki są oburzająco fałszywie przedstawiane, a głównym problemem jest błędne twierdzenie, że wszystkie statystyki rozpadają się, jeśli zmienne nie są zwykle dystrybuowane. Byłem wystarczająco zirytowany tym aspektem, aby napisać Talebowi poniższy list:
Drogi Dr Talebie
Niedawno przeczytałem „Czarny łabędź”. Podobnie jak ty jestem fanem Karla Poppera i zgodziłem się z tym, co w nim jest. Wydaje mi się, że twoja prezentacja ludycznego błędu jest w zasadzie solidna i zwraca uwagę na prawdziwy i powszechny problem. Uważam jednak, że znaczna część Części III źle zawodzi w twojej ogólnej argumentacji, nawet do tego stopnia, że może zdyskredytować resztę książki. Szkoda, ponieważ uważam, że argumenty dotyczące Czarnych Łabędzi i „nieznanych niewiadomych” opierają się na ich zaletach, nie opierając się na niektórych błędach w części III.
Główną kwestią, na którą chciałbym zwrócić uwagę - i poprosić o twoją odpowiedź, zwłaszcza jeśli źle zrozumiałem problemy - jest twoja nieprawdziwa interpretacja dziedziny stosowanych statystyk. W mojej ocenie rozdziały 14, 15 i 16 zależą w dużej mierze od argumentu słomianego człowieka, fałszywej statystyki i ekonometrii. Dziedzina ekonometrii, którą opisujesz, nie jest tą, której nauczono mnie, gdy studiowałem statystyki stosowane, ekonometrię i teorię ryzyka aktuarialnego (na Australian National University, ale używając tekstów, które wydawały się dość standardowe). Poruszane przez ciebie zagadnienia (takie jak ograniczenia dystrybucji Gaussa) są dobrze i prawdziwie zrozumiane i nauczane, nawet na poziomie licencjackim.
Na przykład dokładasz wszelkich starań, aby pokazać, w jaki sposób rozkład dochodu nie jest zgodny z rozkładem normalnym, i przedstawić to jako argument przeciwko praktyce statystycznej w ogóle. Żaden kompetentny statystyk nigdy nie twierdzi, że tak jest, a sposoby radzenia sobie z tym problemem są dobrze ustalone. Na przykład użycie technik z najbardziej podstawowego poziomu ekonometrii „pierwszego roku”, na przykład przekształcenie zmiennej poprzez przyjęcie jej logarytmu sprawiłoby, że twoje przykłady liczbowe wyglądałyby mniej przekonująco. Taka transformacja w rzeczywistości unieważniłaby wiele z tego, co mówisz, ponieważ wtedy wariancja oryginalnej zmiennej rośnie wraz ze wzrostem jej średniej.
Jestem pewien, że są tacy niekompetentni ekonometrycy, którzy wykonują regresje OLS itp. Z nietransformowaną zmienną odpowiedzi, tak jak mówisz, ale to tylko sprawia, że są niekompetentni i używają technik, które są dobrze znane jako nieodpowiednie. Z pewnością zawiodłyby nawet na studiach licencjackich, które spędzają dużo czasu na szukaniu bardziej odpowiednich sposobów modelowania zmiennych, takich jak dochód, odzwierciedlających rzeczywisty zaobserwowany (nie Gaussowski) rozkład.
Rodzina uogólnionych modeli liniowych to jeden zestaw technik opracowanych częściowo w celu obejścia zgłaszanych problemów. Wiele wykładniczej rodziny rozkładów (np. Rozkład gamma, wykładniczy i Poissona) jest asymetrycznych i ma wariancję, która rośnie wraz ze wzrostem środka rozkładu, omijając problem wskazany za pomocą rozkładu Gaussa. Jeśli nadal jest to zbyt ograniczające, możliwe jest całkowite usunięcie istniejącego wcześniej „kształtu” i po prostu określenie zależności między średnią rozkładu a jego wariancją (np. Umożliwiając wzrost wariancji proporcjonalnie do kwadratu średniej), przy użyciu metody szacowania „quasi-prawdopodobieństwa”.
Oczywiście można argumentować, że ta forma modelowania jest wciąż zbyt uproszczona i intelektualna pułapka, która pozwala nam myśleć, że przyszłość będzie jak przeszłość. Być może masz rację i myślę, że siłą twojej książki jest zachęcenie ludzi takich jak ja do rozważenia tego. Ale potrzebujesz innych argumentów niż te, których używasz w rozdziałach 14-16. Ogromna waga, jaką przykładasz do faktu, że wariancja rozkładu Gaussa jest stała, niezależnie od jej średniej (co powoduje problemy ze skalowalnością), na przykład, jest nieprawidłowa. Podobnie jest z naciskiem na fakt, że rzeczywiste rozkłady są raczej asymetryczne niż krzywe dzwonowe.
Zasadniczo podjąłeś jedno nadmierne uproszczenie najbardziej podstawowego podejścia do statystyki (naiwne modelowanie zmiennych surowych jako posiadających rozkłady Gaussa) i pokazałeś (w dużej mierze) wady takiego uproszczonego podejścia. Następnie wykorzystujesz to, aby zrobić lukę, aby zdyskredytować całe pole. Jest to albo poważny brak logiki, albo technika propagandowa. Jest to niefortunne, ponieważ szkodzi ogólnej argumentacji, z której wiele (jak powiedziałem) uważałem za uzasadnione i przekonujące.
Chciałbym usłyszeć, co powiesz w odpowiedzi. Wątpię, że jako pierwszy podniosłem tę kwestię.
Z poważaniem
PE