Skalowalne wykrywanie wartości odstających / anomalii

10

Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a to cechy algorytmów dla zadań regresji i klastrów .

To, co próbuję znaleźć, to rozwiązanie problemu wykrywania nieprawidłowości lub wartości odstających.

Ponieważ Mahout zawiera Ukryte Modele Markowa i różne techniki grupowania (w tym K-średnie), zastanawiałem się, czy byłoby możliwe zbudowanie modelu do wykrywania wartości odstających w szeregach czasowych, przy użyciu któregokolwiek z nich. Byłbym wdzięczny, gdyby ktoś doświadczony w tej kwestii mógł mi doradzić

jeśli to możliwe, a jeśli tak jest
jak to zrobić, plus
oszacowanie włożonego wysiłku i
dokładność / problemy tego podejścia.

— dwubajtowy
źródło

1

Jest to zbyt niejasne, aby można było na nie odpowiedzieć. Szeregi czasowe są zbyt różne, aby po prostu rzucić na nie k-średnich i wydobyć coś użytecznego. Zależy to w dużej mierze od twoich danych.

— Ma ZAKOŃCZENIE - Anony-Mousse

1

Aby wykryć wartości odstające, spójrz na algorytmy w ELKI. To wydaje się być najbardziej kompletnym zbiorem wykrywania wartości odstających.

— Ma ZAKOŃCZENIE - Anony-Mousse,

Nowsze wersje Elasticsearch mają wbudowane wykrywanie anomalii szeregów czasowych (myślę, że musisz kupić X-Pack). Nie jestem pewien, jakich algorytmów używają, ale warto zbadać gotowe rozwiązanie.

— tom

7

Chciałbym przyjrzeć algorytmu T-strawienia . Został połączony z Mahoutem i częścią innych bibliotek do przesyłania strumieniowego dużych zbiorów danych. Więcej informacji na temat tego algorytmu i ogólnie wykrywania anomalii dużych zbiorów danych można znaleźć w następnych zasobach:

— prudenko
źródło

Jak t-digest porównuje się do algorytmu p-kwadrat?

— David Marx

Dzięki za odpowiedź: jest to prosty model do obliczania ekstremalnych kwantyli i myślę, że będzie pasował do moich potrzeb. Jednak w przypadku bardziej złożonych szeregów czasowych, które nie mają prawie stacjonarnego rozkładu, to podejście może się nie powieść i wtedy myślę, że potrzebowalibyśmy czegoś adaptacyjnego, takiego jak łańcuch Markowa.

— doublebyte

0

Możesz odnieść się do mojej odpowiedzi związanej z metodą wykrywania h2o R lub Pythona w Stackexchange , ponieważ jest to również skalowalne.

— 0xF
źródło