Mam wrażenie, że na podstawie kilku artykułów, książek i artykułów, które przeczytałem, zalecanym sposobem dopasowania rozkładu prawdopodobieństwa na zbiorze danych jest oszacowanie maksymalnego prawdopodobieństwa (MLE). Jednak jako fizyk bardziej intuicyjny sposób polega na dopasowaniu pdf modelu do empirycznego pdf danych przy użyciu najmniejszych kwadratów. Dlaczego zatem MLE jest lepszy od najmniejszych kwadratów w dopasowywaniu rozkładów prawdopodobieństwa? Czy ktoś mógłby wskazać mi artykuł naukowy / książkę, która odpowiada na to pytanie?
Mam przeczucie, że MLE nie zakłada modelu szumu, a „szum” w empirycznym pliku pdf jest heteroscedastyczny i nie jest normalny.