Przydzielono mi to zadanie do analizy dzienników serwera naszej aplikacji, która zawiera dzienniki wyjątków, dzienniki zdarzeń w bazach danych itp. Jestem nowy w uczeniu maszynowym, używamy Spark z elastycznym wyszukiwaniem i Sparks MLlib (lub PredictionIO). Przykład pożądanego wynik byłby w stanie przewidzieć na podstawie zebranych dzienników wyjątków, aby móc przewidzieć, który użytkownik najprawdopodobniej spowoduje następny wyjątek i przy której funkcji (oraz wiele innych rzeczy do śledzenia i poprawy optymalizacji aplikacji).
Z powodzeniem mogłem pobierać dane z ElasticSearch do Spark i tworzyć DataFrames i mapować potrzebne dane. Chciałbym wiedzieć, w jaki sposób podchodzę do aspektu uczenia maszynowego w mojej implementacji. Przeglądałem artykuły i artykuły, które mówią o przetwarzaniu danych, szkoleniu modeli danych i tworzeniu etykiet, a następnie generowaniu prognoz.
Mam pytania
Jak podejść do przekształcania wychodzących danych dziennika w wektory numeryczne, których można użyć do szkolenia zestawów danych.
Jakich algorytmów używam do szkolenia mojego zestawu danych (mając ograniczoną wiedzę, którą zgromadziłem przez ostatnie kilka dni, myślałem o wdrożeniu regresji liniowej, proszę zasugerować, która implementacja byłaby najlepsza)
Po prostu szukam sugestii, jak podejść do tego problemu.
Dziękuję Ci.