Czy ktoś zna narzędzie do wykrywania i raportowania powtarzających się wzorców w pliku dziennika? [Zamknięte]

12

Muszę monitorować niektóre duże, hałaśliwe pliki dziennika (500m / dzień) z aplikacji Java (log4j). W tej chwili ręcznie przeglądam pliki, grep dla „ERROR” i tak dalej. Jednak narzędzie powinno mieć możliwość wykrycia powtarzających się wzorców w pliku, policzenia ich i udostępnienia szczegółów poszczególnych wpisów. Czy ktoś wie o takim narzędziu? Przydałby się tekstowy lub internetowy interfejs użytkownika.

log-files

— David Tinker
źródło

1

Dla mnie to pytanie absolutnie krzyczy perl.

— John Gardeniers,

Hmm, zaczyna wyglądać, że będę musiał napisać skrypt bashowy z dużą ilością greps. Miałem nadzieję, że coś wymyślę automatycznie.

— David Tinker,

na poważnie, właśnie do tego został stworzony perl. Możesz napisać samouczący się skrypt dla tych wzorców, choć tutaj oczywiście nie ma to zastosowania.

— John Gardeniers,

stackoverflow.com/questions/2590251/... ma rozwiązanie o nazwie Piła łańcuchowa.

— John aka hot2use,

datadoghq.com/blog/log-patterns <- bardzo polecam, ale chociaż nie jest to szalenie drogie, nie jest też super tanie.

— neokyle

3

Słyszałem o ludziach stosujących filtrowanie bayesowskie do plików dziennika w celu wykrycia interesujących rzeczy w porównaniu z rutynowymi wpisami dziennika. Użyli filtrów antyspamowych, w których rutynowe nieciekawe wpisy były uważane za „dobre”, a te niezwykłe za „spam” i wykorzystując takie zabarwienie, przez które mogli się przełączać.

Brzmi dla mnie jak uczenie maszynowe, ale z drugiej strony nie widziałem tego w akcji, słyszałem tylko o piwie.

— adamo
źródło

Wydaje mi się to całkowicie uzasadnione i można mieć nawet bardzo silne wcześniejsze założenia (w sensie bayesowskim) dotyczące niektórych słów, które zawsze pojawiają się w logach serwera.

— DrewConway,

Tak, to by zadziałało. Czy ktoś zna implementację, którą mógłbym trenować?

— David Tinker,

Chyba można zacząć od CRM114 . Lub poczekaj, aż Drew Conway opublikuje swoje Machine Learning dla hakerów . Nadal pracuję nad znalezieniem oryginalnego odniesienia do tego, co zaproponowałem.

— adamo

Tak! Przeczytałem to w 2005 roku w tym wątku dla mędrców . Autor e-maila wspomina o sondzie spamowej .

— adamo

6

Splunk czyni cuda dla tego rodzaju rzeczy. Używam go wewnętrznie do zbierania wszystkich dzienników i szybkiego wyszukiwania za pomocą doskonałego interfejsu opartego na przeglądarce.

— Burhan Khalid
źródło

Niestety prawdopodobnie potrzebowalibyśmy niewolnej wersji i jej nieco drogiej

— David Tinker,

3

syslog-ng ma funkcję o nazwie patterndb. Możesz tworzyć wzorce i dopasowywać do nich wpisy dziennika w czasie rzeczywistym, a następnie wysyłać je do oddzielnych plików dziennika.

— Kamień
źródło

2

Przeglądając syslog-ng i patterndb (+1 do tej odpowiedzi powyżej), napotkałem narzędzie internetowe o nazwie ELSA: http://code.google.com/p/enterprise-log-search-and-archive/ . Jest to F / OSS w perlu, z interfejsem internetowym i powinien być naprawdę szybki.

Jeszcze tego nie próbowałem, ale kiedy skończę filtrowanie za pomocą patterndb, spróbuję ELSA.

— EdwardTeach
źródło

1

Wypróbuj petit .
Nie jestem pewien, czy będzie działać z formatem log4j, ale możesz być w stanie napisać niestandardowy filtr do tego.
Petit nie ma interfejsu sieciowego, wyświetla wykresy w twojej powłoce (ASCII art ftw!).
Bardzo przydatne jest szybkie wyświetlanie powtarzających się wiadomości i ustalanie, kiedy się pojawiły lub zaczęły się zdarzać częściej.

— oszust
źródło

0

Jeśli używasz debian / squeeze na swoim serwerze, spójrz na log2mail: http://packages.debian.org/squeeze/log2mail

— ThorstenS
źródło

0

Glogg jest bardzo dobrym eksploratorem dzienników, ponieważ możesz utworzyć bazę filtrów na łańcuchu i linii kolorów lub odzyskać wszystkie wystąpienia łańcucha.

http://glogg.bonnefon.org/

— Alexandre Roux
źródło

0

Splunk jest zwykle dobrym rozwiązaniem. Ale wspomniałeś, że jest to dla ciebie za drogie. Więc polecam spojrzeć na Logstash lub GrayLog .

— Raffael Luthiger
źródło

-1

Możesz wypróbować LogXtender SEQREL, który automatycznie wykrywa wzorce i agreguje podobne dzienniki. Sposób polega na tworzeniu wyrażeń regularnych w locie i używaniu wyrażenia regularnego w pamięci podręcznej w celu dopasowania do innych dzienników. Dzięki dodatkowemu wykrywaniu taksonomii można dodać większą szczegółowość. Bezpłatną wersję można pobrać pod https://try.logxtender.net .

— Mihnea
źródło