Skalowalne wykrywanie wartości odstających / anomalii


10

Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a to cechy algorytmów dla zadań regresji i klastrów .

To, co próbuję znaleźć, to rozwiązanie problemu wykrywania nieprawidłowości lub wartości odstających.

Ponieważ Mahout zawiera Ukryte Modele Markowa i różne techniki grupowania (w tym K-średnie), zastanawiałem się, czy byłoby możliwe zbudowanie modelu do wykrywania wartości odstających w szeregach czasowych, przy użyciu któregokolwiek z nich. Byłbym wdzięczny, gdyby ktoś doświadczony w tej kwestii mógł mi doradzić

  1. jeśli to możliwe, a jeśli tak jest
  2. jak to zrobić, plus
  3. oszacowanie włożonego wysiłku i
  4. dokładność / problemy tego podejścia.

1
Jest to zbyt niejasne, aby można było na nie odpowiedzieć. Szeregi czasowe są zbyt różne, aby po prostu rzucić na nie k-średnich i wydobyć coś użytecznego. Zależy to w dużej mierze od twoich danych.
Ma ZAKOŃCZENIE - Anony-Mousse

1
Aby wykryć wartości odstające, spójrz na algorytmy w ELKI. To wydaje się być najbardziej kompletnym zbiorem wykrywania wartości odstających.
Ma ZAKOŃCZENIE - Anony-Mousse,

Nowsze wersje Elasticsearch mają wbudowane wykrywanie anomalii szeregów czasowych (myślę, że musisz kupić X-Pack). Nie jestem pewien, jakich algorytmów używają, ale warto zbadać gotowe rozwiązanie.
tom

Odpowiedzi:


7

Jak t-digest porównuje się do algorytmu p-kwadrat?
David Marx

Dzięki za odpowiedź: jest to prosty model do obliczania ekstremalnych kwantyli i myślę, że będzie pasował do moich potrzeb. Jednak w przypadku bardziej złożonych szeregów czasowych, które nie mają prawie stacjonarnego rozkładu, to podejście może się nie powieść i wtedy myślę, że potrzebowalibyśmy czegoś adaptacyjnego, takiego jak łańcuch Markowa.
doublebyte

0

Możesz odnieść się do mojej odpowiedzi związanej z metodą wykrywania h2o R lub Pythona w Stackexchange , ponieważ jest to również skalowalne.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.