Long-tailed rozkład zdarzeń czasowych

Załóżmy, że masz dzienniki serwera WWW. W tych logach masz krotki tego rodzaju:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Te znaczniki czasu reprezentują np. Kliknięcia użytkowników. Teraz user1będzie odwiedzał witrynę wiele razy (sesji) w ciągu miesiąca, a będziesz mieć serię kliknięć każdego użytkownika podczas każdej sesji (zakładając, że gdy użytkownik odwiedza Twoją witrynę, kliknie wiele stron).

Załóżmy, że chcesz podzielić te serie kliknięć na sesje, które je wygenerowały, ale nie masz żadnego dodatkowego źródła informacji, tylko listę znaczników czasu. Jeśli obliczysz rozkład interwałów między dwoma konsekwentnymi kliknięciami tego samego użytkownika, uzyskasz rozkład długookresowy. Intuicyjnie szukałbyś „parametru odcięcia”, np. N sekund, a jeśli tak timestamp_{i+1} - timestamp{i} > N, timestamp_{i+1}to początek nowej sesji.

Problem polega na tym, że ten rozkład jest w rzeczywistości mieszanką dwóch zmiennych: X = „przerwa między dwoma kolejnymi kliknięciami w tej samej sesji” i Y = „przerwa między ostatnim kliknięciem poprzedniej sesji a pierwszą nową”.

Pytanie brzmi: jak oszacować to N, które dzieli dwie dystrybucje (z odrobiną nakładania się, być może), po prostu patrząc na liczbę kliknięć?

distributions estimation mixture

— marcorossi
źródło

Kiedy mówisz „po prostu patrząc na liczbę kliknięć”, masz na myśli, że nie jesteś w stanie obliczyć niczego innego niż N?

— jerad

Mam na myśli, że nie masz żadnych dodatkowych źródeł informacji poza krotkami (użytkownik, znacznik czasu). Metoda oparta na progach (oparta na delcie> N) jest tylko przykładem metody. Może coś innego jest możliwe.

— marcorossi

Ten wątek może Cię zainteresować: odpowiednie techniki klastrowania dla danych czasowych .

— gung - Przywróć Monikę

Naprawdę powinieneś wykreślić logarytm przedziałów między kliknięciami zamiast surowych wartości; Spłaszczy to dystrybucję, a może nawet ujawni wiele trybów dystrybucji.

Bardziej zaawansowane podejścia zostały opracowane przez neuronaukowców w celu rozwiązania bardzo podobnego problemu w identyfikowaniu serii impulsów neuronalnych. Ten klasyczny artykuł lub wiele innych powiązanych artykułów na temat Google Scholar .

— jerad
źródło

Wydrukowałem dziennik dystrybucji. To płaska linia. Jak to pomaga? Na co byś spojrzał Dokument jest świetny, dzięki.

— marcorossi

Co z wykresem prawdopodobieństwa dziennika? tzn. zapisz dziennik tylko częstotliwości, a nie przedziałów. Czy to ujawnia dwa tryby?

— jerad