Prawie zawsze oszustwo polega na usuwaniu obserwacji w celu ulepszenia modelu regresji. Obserwacje należy porzucać tylko wtedy, gdy naprawdę sądzisz, że są to rzeczywiście wartości odstające.
Na przykład masz szereg czasowy z czujnika tętna podłączonego do inteligentnego zegarka. Jeśli spojrzysz na serię, łatwo zauważyć, że wystąpiłyby błędne obserwacje przy odczytach takich jak 300 bps. Powinny zostać usunięte, ale nie dlatego, że chcesz ulepszyć model (cokolwiek to znaczy). Są to błędy w czytaniu, które nie mają nic wspólnego z twoim tętnem.
Jedną z rzeczy, na które należy uważać, jest korelacja błędów z danymi. W moim przykładzie można argumentować, że masz błędy, gdy monitor pracy serca jest przemieszczany podczas ćwiczeń takich jak bieganie lub skakanie. Co sprawi, że błędy te będą skorelowane z częstością jelit. W takim przypadku należy zachować ostrożność przy usuwaniu tych wartości odstających i błędów, ponieważ nie są one przypadkowe
F=−kΔx,
FkΔx
Δ x
AKTUALIZACJA W twoim przypadku sugeruję wyciągnięcie tych punktów danych i przyjrzenie się im bliżej. Czy to może być awaria przyrządu laboratoryjnego? Zakłócenia zewnętrzne? Próbka wada? itp.
Następnie spróbuj ustalić, czy presnece tych wartości odstających może być skorelowany z tym, co mierzysz, jak w przykładzie, który podałem. Jeśli istnieje korelacja, nie ma na to prostego sposobu. Jeśli nie ma korelacji, możesz usunąć wartości odstające