Jak zmierzyć statystyczną „odległość” między dwoma rozkładami częstotliwości?


14

Podejmuję się projektu analizy danych, który obejmuje badanie czasu użytkowania strony internetowej w ciągu roku. Chciałbym porównać, jak „spójne” wzorce użytkowania są, powiedzmy, jak blisko są do wzorca, który wymaga używania go przez 1 godzinę raz w tygodniu, lub takiego, który obejmuje używanie go przez 10 minut na raz, 6 razy w tygodniu. Mam świadomość kilku rzeczy, które można obliczyć:

  • Entropia Shannona: mierzy, o ile różni się „pewność” wyniku, tj. O ile rozkład prawdopodobieństwa różni się od tego, który jest jednorodny;
  • Rozbieżność Kullbacka-Lieblera: mierzy, jak bardzo jeden rozkład prawdopodobieństwa różni się od drugiego
  • Rozbieżność Jensena-Shannona: podobna do rozbieżności KL, ale bardziej przydatna, ponieważ zwraca skończone wartości
  • Test Smirnova-Kołmogorowa : test mający na celu ustalenie, czy dwie funkcje rozkładu skumulowanego dla ciągłych zmiennych losowych pochodzą z tej samej próbki.
  • Test chi-kwadrat: test dobroci dopasowania, który decyduje o tym, jak dobrze rozkład częstotliwości różni się od oczekiwanego rozkładu częstotliwości.

Chciałbym porównać, jak bardzo rzeczywiste czasy użytkowania (niebieski) różnią się od idealnych czasów użytkowania (pomarańczowy) w dystrybucji. Rozkłady te są dyskretne, a poniższe wersje są znormalizowane, aby stały się rozkładami prawdopodobieństwa. Oś pozioma reprezentuje czas (w minutach) spędzony przez użytkownika na stronie internetowej; odnotowano to dla każdego dnia roku; jeśli użytkownik w ogóle nie wszedł na stronę internetową, liczy się to jako zero, ale zostały one usunięte z rozkładu częstotliwości. Po prawej stronie znajduje się funkcja skumulowanego rozkładu.

Dystrybucja danych o użytkowaniu witryny a idealne dane o użytkowaniu

Moim jedynym problemem jest to, że chociaż mogę uzyskać dywersję JS w celu zwrócenia skończonej wartości, kiedy patrzę na różnych użytkowników i porównuję ich rozkłady użycia do idealnej, otrzymuję wartości, które są w większości identyczne (co w związku z tym nie jest dobre wskaźnik, jak bardzo się różnią). Również sporo informacji jest traconych podczas normalizacji do rozkładów prawdopodobieństwa, a nie rozkładów częstotliwości (powiedzmy, że uczeń używa platformy 50 razy, wówczas niebieski rozkład powinien być skalowany w pionie, aby suma długości słupków wynosiła 50, i pomarańczowy pasek powinien mieć wysokość 50 zamiast 1). Częścią tego, co rozumiemy przez „spójność”, jest to, czy to, jak często użytkownik wchodzi na stronę, wpływa na to, jak wiele z niej wychodzi; jeśli liczba odwiedzin witryny zostanie utracona, porównanie rozkładów prawdopodobieństwa jest nieco wątpliwe; nawet jeśli rozkład prawdopodobieństwa czasu trwania użytkownika jest zbliżony do „idealnego” użycia, użytkownik ten mógł korzystać z platformy tylko przez 1 tydzień w ciągu roku, co prawdopodobnie nie jest bardzo spójne.

Czy istnieją ugruntowane techniki porównywania dwóch rozkładów częstotliwości i obliczania pewnego rodzaju metryki, która charakteryzuje ich podobieństwo (lub odmienność)?


4
Możesz zacząć od pytania, jaka jest twoja funkcja utraty (czyli w jaki sposób wzorzec użytkowania różni się od idealnego zła i jak ilość zła zależy od tego, jaka jest rozbieżność), i zaprojektowanie metryki wokół tego.
Accumumulation

Odpowiedzi:


12

Być może interesuje Cię odległość poruszającego się po Ziemi , znana również jako metryka Wassersteina . Jest zaimplementowany w R (spójrz na emdistpakiet) i w Pythonie . Mamy również wiele wątków na ten temat .

EMD działa zarówno dla dystrybucji ciągłej, jak i dyskretnej. emdistPakiet R działa na rozkładów dyskretnych.

Przewagą nad czymś takim jak statystyki jest to, że EMD daje interpretowalne wyniki. Wyobraź sobie swoją dystrybucję jako kopce ziemi, a następnie EMD mówi, ile ziemi trzeba by przetransportować, jak daleko, aby zamienić jedną dystrybucję w drugą.χ2)

Mówiąc inaczej: dwa rozkłady (1,0,0) i (0,1,0) powinny być „bardziej podobne” niż (1,0,0) i (0,0,1). EMD rozpozna to i przypisze mniejszą odległość do pierwszej pary niż do drugiej. statystyka przypisze ten sam dystans do obu par, ponieważ nie ma pojęcia porządkuje wpisów dystrybucyjnych.χ2)


Skąd ta konkretna odległość? Wydaje się, że jest przeznaczony do dowolnej ciągłej dystrybucji. OP ma rozkład częstotliwości, więc dlaczego nie bardziej „dyskretną” odległość, taką jak Chi-kwadrat?
user2974951,

@ user2974951: wystarczy. Zobacz moją edycję.
Stephan Kolassa

jeśli dystrybucje wynoszą 1D, jak sugerowano w pytaniu, to uruchomienie i solver EMD jest przesadą. W takim przypadku należy po prostu obliczyć między empirycznymi funkcjami kwantyli obu gęstości (zasadniczo odwrotności CDF wykreślonych w pytaniu). str. 31 w arxiv.org/abs/1803.00567 lub jeśli potrzebujesz bardziej szczegółowego konta, rozdział 2 math.u-psud.fr/~filippo/OTAM-cvgmt.pdfL.p
Marco Cuturi

@MarcoCuturi: odległość jest z pewnością inną możliwością. Jednak ponownie przypisze tę samą odległość między (1,0,0) i (0,1,0) co między (1,0,0) a (0,0,1), co jest nieco nieintuicyjne. Czy dodatkowa intuicyjna wartość EMD jest warta dodatkowej złożoności, jest to kwestia, którą OP może rozważyć. L.p
Stephan Kolassa,

3

Jeśli losowo pobierzesz próbkę z każdego z dwóch rozkładów, możesz obliczyć różnicę między nimi. Jeśli powtórzysz to (z zamiennikiem) wiele razy, możesz wygenerować rozkład różnic, który zawiera wszystkie informacje, których szukasz. Możesz wykreślić ten rozkład i scharakteryzować go za pomocą dowolnych statystyk podsumowujących - środków, median itp.


1
Czy istnieje nazwa takiej procedury?
user2974951

4
Zastanawiam się, jak można wyjaśnić podstawowy fakt, że rozkład różnic dla arbitralnego rozkładu i sam będzie różny dla różnych dowolnych rozkładów; myśleć U (0,1) vs. siebie w porównaniu do N (0,1) vs. siebie. W związku z tym rozkład różnic, które można uzyskać porównując dwa różne rozkłady, byłby trudny do oszacowania przy braku unikalnej linii bazowej. Problem znika, jeśli obserwacje zostaną sparowane, wówczas linia bazowa będzie równa zeru.
Richard Hardy,

@ user2974951 Jestem pewien, że tak, ponieważ jest to dość proste i wyraźnie związane z ładowaniem systemu. Ale nie wiem, jak to dokładnie nazwać.
mkt - Przywróć Monikę

1
@mkt, dziękuję za wyjaśnienie. Nie zamierzając się kłócić tylko ze względu na to, nadal uważam, że bez wyjątkowej linii bazowej nie mamy do końca władcy. Ale zostawię to przy tym. W twoim pomyśle jest coś fajnego.
Richard Hardy

1
@RichardHardy Doceniam tę wymianę tutaj i możesz mieć rację. Będę musiał o tym dalej myśleć.
mkt - Przywróć Monikę

0

Jednym z mierników jest odległość Hellingera między dwoma rozkładami, które charakteryzują się średnimi i odchyleniami standardowymi. Aplikację można znaleźć w następującym artykule.

https://www.sciencedirect.com/science/article/pii/S1568494615005104


Dziękuję za to. Widziałem, że istnieje cała rodzina rozbieżności (rozbieżności f), które robią to, co chcę, ale szybki przegląd literatury nie wydaje się wskazywać, który jest najlepszy, kiedy ... czy znasz dobrą literaturę na temat to?
omegaSQU4RED
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.