Różnica między anomalią a wartością odstającą


13

Jaka jest różnica między wartością odstającą a anomalią w kontekście uczenia maszynowego. Rozumiem, że oba odnoszą się do tej samej rzeczy.


3
Z ciekawości, gdzie w literaturze dokonuje się takiego rozróżnienia? Miałem wrażenie, że „wartości odstające” nie mają formalnej definicji, poza tym, że stanowią dużą dźwignię i obserwacje o dużym wpływie. Wpływ i dźwigni zrobić mają definicje matematyczne, ale biorąc pod uwagę coś „High” jest arbitralne. Wygląda na to, że zamieniane są dowolne słowa.
AdamO,

Ludzie, którzy używają słowa „inlier”, pośrednio dokonują pewnego rodzaju rozróżnienia między „anomalią” a „wartością odstającą”, ponieważ inlier jest rodzajem anomalii. Ponieważ ani „wartości odstające”, ani „anomalia” nie mają określonych, powszechnie rozumianych definicji technicznych, powinniśmy oczekiwać, że to pytanie będzie zawierało wiele odpowiedzi, które różnią się (przynajmniej nieznacznie) od siebie.
whuber

Odpowiedzi:


9

Te dwa terminy są synonimami według:

Aggarwal, Charu C. Analiza Outliera. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Cytat ze strony 1:

Wartości odstające są również określane jako nieprawidłowości, niezgodności, dewiacje lub anomalie w literaturze dotyczącej eksploracji danych i statystyki.

Pogrubiony tekst nie jest częścią oryginalnego tekstu.

Do pobrania pdf książki dostępny od autora jest tutaj.


Fakt, że „wartości odstające” są określane jako „anomalie”, nie oznacza, że ​​są one synonimami. „Psy” są czasami określane jako „zwierzęta”. Próbowałem rozwiązać ten problem bardziej szczegółowo w tej odpowiedzi (nie mogłem go tutaj opublikować, ponieważ pytanie jest chronione).
Marco13,

9

Krótka odpowiedź:

Outlier: wartość, którą można znaleźć w danych, która wskazuje, że model nie działa poprawnie

Anomalia: wartość, która wbrew wszelkim przeciwnościom, jakie znajdziesz w danych, wskazująca, że ​​Twój model działa poprawnie

Bardziej poważna, mniej tajemnicza odpowiedź:

Koncepcja wartości odstających rozpoczyna się od problemu zbudowania modelu, który przyjmuje założenia dotyczące danych. Wartości odstające są często wskaźnikami, że model nie opisuje poprawnie danych, dlatego powinniśmy kwestionować wyniki naszego modelu lub jakość naszych danych.

Pojęcie anomalii zaczyna się poza światem teoretycznym i wewnątrz świata stosowanego: chcemy szukać w naszych danych niezwykłych zachowań, czasem motywowanych faktem, że jesteśmy zainteresowani znalezieniem zachowania, które ktoś próbuje ukryć (jak wirus w e-mail). Problem polega na tym, że skoro ludzie próbują ukryć to, co robią, tak naprawdę nie wiemy, czego szukać. Dlatego bierzemy zestaw „dobrych” danych i decydujemy, że wszystko, co znajdziemy w naszym nowym zestawie danych, który nie wygląda na „dobry”, jest anomalią i warto poświęcić nasz czas na bardziej szczegółowe sprawdzenie. Często poszukiwanie anomalii oznacza poszukiwanie wartości odstających w nowym zestawie danych. Pamiętaj jednak, że te wartości mogą być bardzo powszechne w nowym zestawie danych, mimo że są rzadkie w starym zestawie danych!

Podsumowując, dwie koncepcje są bardzo podobne pod względem statystyk za nimi (tj. Nietypowe wartości, biorąc pod uwagę dopasowany model), ale przychodzą na pomysł pod różnymi kątami. Ponadto, gdy mówimy o wartościach odstających, zwykle mamy na myśli nietypowy punkt danych w danych używanych do dopasowania do naszego modelu , przy czym jako anomalia zwykle rozumiany jest jako nietypowy punkt danych w zbiorze danych poza danymi użytymi do dopasowania naszego modelu .

Uwaga: ta odpowiedź jest oparta na tym, jak widziałem często używane dwa terminy, a nie na formalnych definicjach. Doświadczenia użytkowników mogą się różnić.


6

Anomalia jest wynikiem, którego nie można wyjaśnić, biorąc pod uwagę rozkład podstawowy (niemożliwość, jeśli nasze założenia są prawidłowe). Wartość odstająca jest zdarzeniem mało prawdopodobnym, biorąc pod uwagę rozkład podstawowy (nieprawdopodobieństwo).


7
Cytowanie źródła definicji i przykładu znacznie poprawiłoby odpowiedź.
Tim

4
O ile wiem, są to synonimy. Więc @H. Iqbal naprawdę musi zacytować źródło, a wszyscy czytelnicy muszą następnie ocenić autorytatywność źródła sayd
Jacques Wainer

2
Niemożność wydaje się sugerować, że P (X = ANOMALIA) = 0 (tzn. Dokładnie 0). Rozumiem, że wykrywanie anomalii jest takie, że badacz może być zainteresowany wydarzeniami, które mogą mieć dodatnie prawdopodobieństwo.
Cliff AB

4

Terminy są w dużej mierze używane zamiennie. „Outlier” odnosi się do czegoś leżącego poza normą - jest więc „anomalny”. Mam jednak wrażenie, że „wartość odstająca” jest zwykle używana do bardzo rzadkich obserwacji. W statystykach, przy normalnym rozkładzie, można uznać trzy sigma za wartości odstające. To znaczy, że 99,7% twoich obiektów ma być „normalnych”. „Anomalia” jest używana o wiele bardziej swobodnie. Jeśli nagle masz miliony użytkowników na swojej stronie, nie są to rzadcy użytkownicy. Nagły wzrost liczby odwiedzających jest jednak nadal „anomalny”, podczas gdy każdy odwiedzający nie jest „odstający”.

Być może w tym artykule omawiałem te różnice, ale niestety nie mogę teraz uzyskać do nich dostępu.

Analiza statystyczna i eksploracja danych, tom 5, wydanie 5, październik 2012, strony 363–387 Badanie ankietowe dotyczące wykrywania nienadzorowanych wartości odstających w wielowymiarowych danych liczbowych


1
Myślę, że subtelnie wskazałeś na różnicę między wartościami odstającymi i anomaliami; wartości odstające są używane do opisywania danych, które nie pasują do ogólnego trendu, anomalie opisują nietypowy ruch na serwerze. 50% jk.
Cliff AB

2

Aby jeszcze bardziej zamulić wody, w anomalii klimatologicznej po prostu implikuje się różnicę między wartością a średnią lub odchylenie:

Termin anomalia temperaturowa oznacza odstępstwo od wartości odniesienia lub średniej długoterminowej. Dodatnia anomalia wskazuje, że zaobserwowana temperatura była wyższa niż wartość odniesienia, natomiast ujemna anomalia wskazuje, że zaobserwowana temperatura była niższa niż wartość odniesienia.

patrz np

Można to uznać za zewnętrzne uczenie maszynowe, ale osoby zainteresowane tym pytaniem mogą być tym zainteresowane.


1

(1,5)y=x(1,1)(5,5)(3,3.1)y=x

Anomalią może być jeden punkt danych lub ogólny trend lub zachowanie zaobserwowane w danych po zbudowaniu modelu lub zrozumienie procesu generowania danych. Występują anomalie, ponieważ system zaczyna zachowywać się inaczej lub wyszukujesz takie punkty danych, ponieważ chcesz być informowany o zdarzeniu, podczas którego Twój model jest nieważny. Możesz dbać o obserwowanie wszelkich anomalnych zachowań w amplitudach fal oceanicznych, nie dlatego, że chcesz wyrzucić te punkty danych i zbudować lepszy model, ale dlatego, że chcesz być świadomy, kiedy może mieć miejsce tsunami.


2
Nie zgadzam się z większością tego. Po pierwsze, pierwsze zdanie może być twoją definicją wartości odstającej, jeśli chcesz, ale trudno jest pogodzić się z wieloma innymi definicjami lub zwyczajami. Jeśli dane to (1, 1), (2, 2), (3, 3), (znacznie większy, znacznie większy), wówczas znacznie większy punkt byłby często opisywany jako wartość odstająca, ale nie ma problemu z dopasowaniem modelu. Możesz (i powinieneś) zastanawiać się, dlaczego dane przychodzą w ten sposób, ale dopasowanie modelu jest łatwe. Mówiąc bardziej ogólnie, zasadą jest, że wartość odstająca może być oddzielona od głównej części danych, ale nadal spójna z wiarygodnym modelem.
Nick Cox

Po drugie, jeśli implikacja, że ​​pominięcie wartości odstających jest właśnie tym, co powinieneś zrobić, to (a) często problematyczne jest nawet stwierdzenie, które wartości odstające są (b) istnieje wiele innych rozwiązań. Wątek stats.stackexchange.com/questions/78063/… ma szerszy zakres niż tytuł, aby wymienić kilka.
Nick Cox

1
Jeśli podążysz za moim linkiem, zobaczysz, że już opublikowałem trochę na wartościach odstających. Nie rozumiem, kiedy ponownie czytam twoją odpowiedź, że myślisz retrospektywnie, ponieważ wydaje się, że mówisz o usuwaniu wartości odstających podczas dopasowania. Po ponownym przeczytaniu zauważam również, że pierwsze zdanie drugiego akapitu zawiera pogląd, że anomalia może być „ogólnym trendem lub zachowaniem”, co prawdopodobnie nie jest tym, co masz na myśli - a jeśli tak, to nie rozumiem ” rozumiem to.
Nick Cox

1

Dobre pytanie. Jednak wyszukiwanie w Google „różnica między wartościami odstającymi a anomaliami: .edu” pokazuje, że nie ma teoretycznej różnicy między tymi dwoma terminami. Są one stosowane zamiennie w literaturze.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.