„Wartość odstająca” jest wygodnym terminem do zbierania danych, które nie pasują do tego, jak oczekuje się twojego procesu, w celu usunięcia z analizy.
Sugerowałbym nigdy (z zastrzeżeniem później) usuwania wartości odstających. Moje tło to statystyczna kontrola procesu, dlatego często zajmuję się dużymi ilościami automatycznie generowanych danych szeregów czasowych, które są przetwarzane przy użyciu wykresu przebiegu / wykresu ruchomego pola / itp. W zależności od danych i dystrybucji.
Problem polega na tym, że zawsze będą dostarczać informacje o twoim „procesie”. Często to, co myślisz o jednym procesie, to tak naprawdę wiele procesów i jest ono o wiele bardziej złożone, niż ci się wydaje.
Korzystając z przykładu z twojego pytania, sugerowałbym, że może istnieć wiele „procesów”. będą różnice z powodu ...
- próbki pobrane z jednego urządzenia przewodności
- próbki pobrane między urządzeniami przewodności
- kiedy badany wyjął sondę
- kiedy obiekt się poruszył
- różnice w skórze jednego pacjenta na całym ciele lub między różnymi dniami pobierania próbek (włosy, wilgoć, olej itp.)
- różnice między podmiotami
- szkolenie osoby dokonującej pomiarów i różnic między pracownikami
Wszystkie te procesy spowodują dodatkową zmienność danych i prawdopodobnie przesuną średnią i zmienią kształt rozkładu. Wielu z nich nie będzie można rozdzielić na odrębne procesy.
Przechodząc do pomysłu usuwania punktów danych jako „wartości odstających” ... Usuwałbym tylko te punkty danych, kiedy zdecydowanie mogę przypisać je do konkretnego „procesu”, którego nie chcę uwzględniać w mojej analizie. Następnie należy upewnić się, że przyczyny nieuwzględnienia zostały zarejestrowane w ramach analizy, więc jest to oczywiste. Nie zakładaj atrybucji, to podstawowa rzecz w robieniu dodatkowych notatek poprzez obserwację podczas zbierania danych.
Zakwestionowałbym twoje stwierdzenie „ponieważ większość z nich to i tak błędy”, ponieważ nie są to błędy, ale tylko część innego procesu, który zidentyfikowałeś w swoich pomiarach jako inny.
W twoim przykładzie rozsądne jest wykluczenie punktów danych, które można przypisać do osobnego procesu, którego nie chcesz analizować.