W zeszły weekend czytałem podręczniki modeli liniowych Faraway z R (1. edycja). Faraway miał rozdział zatytułowany „Strategia statystyczna i niepewność modelu”. Opisał (strona 158), że sztucznie wygenerowany niektóre dane przy użyciu bardzo skomplikowany model, a następnie poprosił swoich uczniów do modelowania danych i porównać studentów przewidywanych wyników vs odczytu wyników. Niestety, większość uczniów przeregulowała dane testowe i podała przewidywane wartości całkowicie poza wyznacznikiem. Aby wyjaśnić to zjawisko, napisał mi coś bardzo imponującego:
„Powodem, dla którego modele były tak różne, było to, że uczniowie stosowali różne metody w różnych rzędach. Niektórzy dokonali selekcji zmiennych przed transformacją, a inni odwrotnie. Niektórzy powtórzyli metodę po zmianie modelu, a inni nie. Omówiłem strategie że kilku uczniów wykorzystało i nie mogło znaleźć niczego wyraźnie niewłaściwego w tym, co zrobili. Jeden uczeń popełnił błąd przy obliczaniu swoich przewidywanych wartości, ale w pozostałej części nie było oczywiście nic złego. Wyniki w tym zadaniu nie wykazały jakikolwiek związek z tym na egzaminach. ”
Zostałem poinformowany, że dokładność prognoz modelu jest „złotym kryterium” dla nas, aby wybrać najlepszą wydajność modelu. Jeśli się nie mylę, jest to również popularna metoda stosowana w zawodach Kaggle. Ale tutaj Faraway zaobserwował coś innego, że wydajność prognozowania modelu nie może mieć nic wspólnegoze zdolnością zaangażowanego statystyka. Innymi słowy, to, czy możemy zbudować najlepszy model pod względem mocy predykcyjnej, nie jest tak naprawdę determinowane przez nasze doświadczenie. Zamiast tego determinuje go ogromna „niepewność modelu” (ślepe szczęście?). Moje pytanie brzmi: czy dotyczy to również analizy danych w prawdziwym życiu? A może myliłem się z czymś bardzo podstawowym? Ponieważ jeśli jest to prawdą, to implikacja dla analizy danych rzeczywistych jest ogromna: bez znajomości „prawdziwego modelu” kryjącego się za danymi, nie ma zasadniczej różnicy między pracą wykonaną przez doświadczonych / niedoświadczonych statystyk: oba są tylko dzikimi przypuszczeniami przed dostępne dane szkoleniowe.