W tej SE jest wiele postów na temat solidnych podejść do analizy głównych składników (PCA), ale nie mogę znaleźć ani jednego dobrego wyjaśnienia, dlaczego PCA jest wrażliwe na wartości odstające.
W tej SE jest wiele postów na temat solidnych podejść do analizy głównych składników (PCA), ale nie mogę znaleźć ani jednego dobrego wyjaśnienia, dlaczego PCA jest wrażliwe na wartości odstające.
Odpowiedzi:
Jednym z powodów jest to, że PCA można uznać za rozkład danych niskiej rangi, który minimalizuje sumę norm reszt rozkładu. To znaczy, jeśli to twoje dane ( wektorów wymiarów), a to podstawa PCA ( wektorów wymiarów), wówczas rozkład będzie ściśle minimalizował
Ponieważ PCA minimalizuje normy (tj. Normy kwadratowe), ma te same problemy co najmniej kwadraty lub dopasowanie Gaussa przez wrażliwość na wartości odstające. Ze względu na wyrównywanie odchyleń od wartości odstających zdominują one całkowitą normę, a zatem będą napędzać komponenty PCA.