Jaka jest różnica między wartością odstającą a anomalią w kontekście uczenia maszynowego. Rozumiem, że oba odnoszą się do tej samej rzeczy.
Jaka jest różnica między wartością odstającą a anomalią w kontekście uczenia maszynowego. Rozumiem, że oba odnoszą się do tej samej rzeczy.
Odpowiedzi:
Te dwa terminy są synonimami według:
Aggarwal, Charu C. Analiza Outliera. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Cytat ze strony 1:
Wartości odstające są również określane jako nieprawidłowości, niezgodności, dewiacje lub anomalie w literaturze dotyczącej eksploracji danych i statystyki.
Pogrubiony tekst nie jest częścią oryginalnego tekstu.
Do pobrania pdf książki dostępny od autora jest tutaj.
Krótka odpowiedź:
Outlier: wartość, którą można znaleźć w danych, która wskazuje, że model nie działa poprawnie
Anomalia: wartość, która wbrew wszelkim przeciwnościom, jakie znajdziesz w danych, wskazująca, że Twój model działa poprawnie
Bardziej poważna, mniej tajemnicza odpowiedź:
Koncepcja wartości odstających rozpoczyna się od problemu zbudowania modelu, który przyjmuje założenia dotyczące danych. Wartości odstające są często wskaźnikami, że model nie opisuje poprawnie danych, dlatego powinniśmy kwestionować wyniki naszego modelu lub jakość naszych danych.
Pojęcie anomalii zaczyna się poza światem teoretycznym i wewnątrz świata stosowanego: chcemy szukać w naszych danych niezwykłych zachowań, czasem motywowanych faktem, że jesteśmy zainteresowani znalezieniem zachowania, które ktoś próbuje ukryć (jak wirus w e-mail). Problem polega na tym, że skoro ludzie próbują ukryć to, co robią, tak naprawdę nie wiemy, czego szukać. Dlatego bierzemy zestaw „dobrych” danych i decydujemy, że wszystko, co znajdziemy w naszym nowym zestawie danych, który nie wygląda na „dobry”, jest anomalią i warto poświęcić nasz czas na bardziej szczegółowe sprawdzenie. Często poszukiwanie anomalii oznacza poszukiwanie wartości odstających w nowym zestawie danych. Pamiętaj jednak, że te wartości mogą być bardzo powszechne w nowym zestawie danych, mimo że są rzadkie w starym zestawie danych!
Podsumowując, dwie koncepcje są bardzo podobne pod względem statystyk za nimi (tj. Nietypowe wartości, biorąc pod uwagę dopasowany model), ale przychodzą na pomysł pod różnymi kątami. Ponadto, gdy mówimy o wartościach odstających, zwykle mamy na myśli nietypowy punkt danych w danych używanych do dopasowania do naszego modelu , przy czym jako anomalia zwykle rozumiany jest jako nietypowy punkt danych w zbiorze danych poza danymi użytymi do dopasowania naszego modelu .
Uwaga: ta odpowiedź jest oparta na tym, jak widziałem często używane dwa terminy, a nie na formalnych definicjach. Doświadczenia użytkowników mogą się różnić.
Anomalia jest wynikiem, którego nie można wyjaśnić, biorąc pod uwagę rozkład podstawowy (niemożliwość, jeśli nasze założenia są prawidłowe). Wartość odstająca jest zdarzeniem mało prawdopodobnym, biorąc pod uwagę rozkład podstawowy (nieprawdopodobieństwo).
Terminy są w dużej mierze używane zamiennie. „Outlier” odnosi się do czegoś leżącego poza normą - jest więc „anomalny”. Mam jednak wrażenie, że „wartość odstająca” jest zwykle używana do bardzo rzadkich obserwacji. W statystykach, przy normalnym rozkładzie, można uznać trzy sigma za wartości odstające. To znaczy, że 99,7% twoich obiektów ma być „normalnych”. „Anomalia” jest używana o wiele bardziej swobodnie. Jeśli nagle masz miliony użytkowników na swojej stronie, nie są to rzadcy użytkownicy. Nagły wzrost liczby odwiedzających jest jednak nadal „anomalny”, podczas gdy każdy odwiedzający nie jest „odstający”.
Być może w tym artykule omawiałem te różnice, ale niestety nie mogę teraz uzyskać do nich dostępu.
Analiza statystyczna i eksploracja danych, tom 5, wydanie 5, październik 2012, strony 363–387 Badanie ankietowe dotyczące wykrywania nienadzorowanych wartości odstających w wielowymiarowych danych liczbowych
Aby jeszcze bardziej zamulić wody, w anomalii klimatologicznej po prostu implikuje się różnicę między wartością a średnią lub odchylenie:
Termin anomalia temperaturowa oznacza odstępstwo od wartości odniesienia lub średniej długoterminowej. Dodatnia anomalia wskazuje, że zaobserwowana temperatura była wyższa niż wartość odniesienia, natomiast ujemna anomalia wskazuje, że zaobserwowana temperatura była niższa niż wartość odniesienia.
Można to uznać za zewnętrzne uczenie maszynowe, ale osoby zainteresowane tym pytaniem mogą być tym zainteresowane.
Anomalią może być jeden punkt danych lub ogólny trend lub zachowanie zaobserwowane w danych po zbudowaniu modelu lub zrozumienie procesu generowania danych. Występują anomalie, ponieważ system zaczyna zachowywać się inaczej lub wyszukujesz takie punkty danych, ponieważ chcesz być informowany o zdarzeniu, podczas którego Twój model jest nieważny. Możesz dbać o obserwowanie wszelkich anomalnych zachowań w amplitudach fal oceanicznych, nie dlatego, że chcesz wyrzucić te punkty danych i zbudować lepszy model, ale dlatego, że chcesz być świadomy, kiedy może mieć miejsce tsunami.