Tak długo, jak twoje dane pochodzą ze znanego rozkładu o znanych właściwościach, możesz rygorystycznie zdefiniować wartość odstającą jako zdarzenie, które jest mało prawdopodobne, aby zostało wygenerowane przez obserwowany proces (jeśli uważasz, że „zbyt mało prawdopodobne” jest nie rygorystyczne, to wszystkie testy hipotez są).
Takie podejście jest jednak problematyczne na dwóch poziomach: zakłada, że dane pochodzą ze znanego rozkładu o znanych właściwościach i niesie ryzyko, że wartości odstające będą postrzegane jako punkty danych przemycone do twojego zestawu danych przez niektóre magiczne wróżki.
W przypadku braku magicznych faerie danych, wszystkie dane pochodzą z eksperymentu, a zatem nie jest możliwe uzyskanie wartości odstających, po prostu dziwne wyniki. Mogą one wynikać z błędów zapisu (np. 400000 sypialni za 4 dolary), systematycznych problemów pomiarowych (algorytm analizy obrazu zgłasza ogromne obszary, jeśli obiekt znajduje się zbyt blisko granicy) problemów eksperymentalnych (czasami kryształy wytrącają się z roztworu, które dają bardzo wysoki sygnał) lub funkcje twojego systemu (komórka może czasem podzielić się na trzy zamiast dwóch), ale mogą być również wynikiem mechanizmu, którego nikt nigdy nie wziął pod uwagę, ponieważ jest rzadki i prowadzisz badania, co oznacza, że niektóre rzeczy, które robisz, po prostu nie są jeszcze znane.
Najlepiej jest poświęcić czas na zbadanie każdej wartości odstającej i usunąć ją ze zbioru danych dopiero wtedy, gdy zrozumiesz, dlaczego nie pasuje do twojego modelu. Jest to czasochłonne i subiektywne, ponieważ przyczyny są w dużej mierze zależne od eksperymentu, ale alternatywa jest gorsza: jeśli nie rozumiesz, skąd pochodzą wartości odstające, masz wybór między pozostawieniem wyników „odstraszających” wyniki, lub zdefiniowanie „matematycznie rygorystycznego” podejścia, aby ukryć swój brak zrozumienia. Innymi słowy, dążąc do „matematycznej rygorystyczności”, wybierasz między nie uzyskaniem znaczącego efektu a nie dostaniem się do nieba.
EDYTOWAĆ
Jeśli masz tylko listę liczb, nie wiedząc, skąd pochodzą, nie możesz w żaden sposób stwierdzić, czy jakiś punkt danych jest wartością odstającą, ponieważ zawsze możesz przyjąć rozkład, w którym wszystkie dane są wartościami odstającymi.