Często analityk statystyczny otrzymuje zestaw danych i jest proszony o dopasowanie modelu przy użyciu techniki takiej jak regresja liniowa. Bardzo często do zestawu danych dołączone jest oświadczenie podobne do „Och tak, pomieszaliśmy zbieranie niektórych z tych punktów danych - rób co możesz”.
Ta sytuacja prowadzi do dopasowań regresyjnych, na które duży wpływ ma obecność wartości odstających, które mogą być błędnymi danymi. Biorąc pod uwagę następujące kwestie:
Zarówno z naukowego, jak i moralnego punktu widzenia, niebezpieczne jest wyrzucanie danych bez żadnego innego powodu niż to, że „sprawia, że dopasowanie wygląda źle”.
W rzeczywistości ludzie, którzy zbierali dane, często nie są dostępni, aby odpowiedzieć na pytania typu „podczas generowania tego zestawu danych, który z punktów popełniłeś błąd?”.
Jakie testy statystyczne lub praktyczne zasady można zastosować jako podstawę do wykluczenia wartości odstających w analizie regresji liniowej?
Czy są jakieś specjalne względy dotyczące regresji wieloliniowej?