Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a to cechy algorytmów dla zadań regresji i klastrów .
To, co próbuję znaleźć, to rozwiązanie problemu wykrywania nieprawidłowości lub wartości odstających.
Ponieważ Mahout zawiera Ukryte Modele Markowa i różne techniki grupowania (w tym K-średnie), zastanawiałem się, czy byłoby możliwe zbudowanie modelu do wykrywania wartości odstających w szeregach czasowych, przy użyciu któregokolwiek z nich. Byłbym wdzięczny, gdyby ktoś doświadczony w tej kwestii mógł mi doradzić
- jeśli to możliwe, a jeśli tak jest
- jak to zrobić, plus
- oszacowanie włożonego wysiłku i
- dokładność / problemy tego podejścia.