Myślę, że w zasadzie trafiłeś w sedno w pytaniu, ale zobaczę, czy i tak mogę coś dodać. Odpowiem na to trochę na rondzie ...
W obszarze Robust Statistics badane jest pytanie, co zrobić, gdy załamanie Gaussa nie powiedzie się (w tym sensie, że istnieją wartości odstające):
często zakłada się, że błędy danych są normalnie rozłożone, przynajmniej w przybliżeniu, lub że można opierać się na twierdzeniu o limicie centralnym w celu uzyskania normalnie rozłożonych oszacowań. Niestety, gdy w danych występują wartości odstające, klasyczne metody często mają bardzo słabą wydajność
Zostały one również zastosowane w ML, na przykład w Mika el al. (2001) Programowanie matematyczne podejście do jądra Fisher algorytmu , opisują jak Huber Solidna Straty mogą być używane z KDFA (wraz z innymi funkcjami strata). Oczywiście jest to utrata klasyfikacji, ale KFDA jest ściśle związana z Maszyną Wektorową Istotności (patrz sekcja 4 artykułu Mika).
Jak sugeruje to pytanie, istnieje ścisły związek między funkcjami strat a modelami błędów bayesowskich (patrz tutaj dyskusja).
Jednak zdarza się, że jak tylko zaczniesz włączać „funky” funkcje strat, optymalizacja staje się trudna (zwróć uwagę, że dzieje się tak również w świecie bayesowskim). Dlatego w wielu przypadkach ludzie korzystają ze standardowych funkcji utraty, które są łatwe do optymalizacji, i zamiast tego wykonują dodatkowe przetwarzanie wstępne, aby upewnić się, że dane są zgodne z modelem.
Inną kwestią, o której wspominasz, jest to, że CLT dotyczy tylko próbek, które są IID. To prawda, ale wtedy założenia (i towarzysząca im analiza) większości algorytmów są takie same. Kiedy zaczynasz patrzeć na dane inne niż IID, sprawy stają się znacznie trudniejsze. Jednym z przykładów jest zależność czasowa, w którym to przypadku zazwyczaj zakłada się, że zależność obejmuje tylko określone okno, a zatem próbki można uznać za w przybliżeniu IID poza tym oknem (patrz na przykład ten genialny, ale twardy papier Chromatic PAC -Bayes Bounds dla danych innych niż IID: aplikacje do rankingu i stacjonarne procesy mieszania β ), po których można zastosować normalną analizę.
Tak, częściowo sprowadza się to do wygody, a po części dlatego, że w prawdziwym świecie większość błędów wygląda (z grubsza) Gaussa. Oczywiście zawsze należy zachować ostrożność, patrząc na nowy problem, aby upewnić się, że założenia nie zostaną naruszone.