Zmierz jednorodność rozkładu w dni powszednie

Mam podobny problem do zadanego tutaj pytania:

Jak mierzy się nierównomierność rozkładu?

Mam zestaw rozkładów prawdopodobieństwa w dniach tygodnia. Chcę zmierzyć, jak blisko jest każdy rozkład (1 / 7,1 / 7, ..., 1/7).

W tej chwili korzystam z odpowiedzi na powyższe pytanie; norma L2, która ma wartość 1, gdy rozkład ma masę 1 dla jednego dnia, i jest zminimalizowana dla (1 / 7,1 / 7, ..., 1/7). Skalowuję to liniowo, więc leży między 0 a 1, a następnie odwrócenie go tak, że 0 oznacza idealnie nierównomierny, a 1 oznacza idealnie jednolity.

Działa to całkiem dobrze, ale mam z tym jeden problem; traktuje każdy dzień tygodnia jednakowo jako wymiar w przestrzeni 7-Dim, więc nie uwzględnia bliskości dni; innymi słowy, daje ten sam wynik (1 / 2,1 / 2,0,0,0,0,0,0) i (1 / 2,0,0,1 / 2,0,0,0) nawet choć w pewnym sensie ten ostatni jest bardziej „rozłożony” i jednolity i idealnie powinien uzyskać wyższy wynik. Istnieje oczywiście dodatkowa komplikacja polegająca na tym, że kolejność dni jest cykliczna.

Jak mogę zmienić tę heurystykę, aby uwzględnić bliskość dni?

— EBartrum
źródło

Twój przykład (1 / 2,1 / 2,0,0,0,0,0) i (1 / 2,0,0,1 / 2,0,0,0) nie jest jednolity w ten sam sposób , więc nie powinno mieć znaczenia, czy interesuje Cię tylko testowanie pod kątem niejednorodności. Więc może chcesz przetestować coś więcej, co nie zostało wyraźnie określone w twoim pytaniu? Przy okazji, entropia jest miarą jednorodności.

— Tim

Dzięki Tim, próbowałem użyć Entropy, ale stwierdziłem, że wspomniana powyżej heurystyka działała lepiej dla moich celów. Nie jestem pewien, jak nazwać właściwość rozkładu prawdopodobieństwa w dni powszednie, którymi jestem zainteresowany, z wyjątkiem tego, że powinna ona obejmować „rozproszenie” prawdopodobieństwa w ciągu tygodnia.

— EBartrum

Odległość Earth Mover , znany również jako Wasserstein metrycznym, mierzy odległość między dwoma histogramy. Zasadniczo bierze pod uwagę jeden histogram jako liczbę stosów brudu, a następnie ocenia, ile brudu należy przenieść i jak daleko (!), Aby zmienić ten histogram w drugi. Zmierzyłbyś odległość między twoją dystrybucją a mundurem w dni tygodnia.

To oczywiście oznacza bliskość dni - łatwiej jest przenosić „brud” od poniedziałku do wtorku niż od poniedziałku do czwartku, więc (1 / 2,0,0,1 / 2,0,0,0) miałoby mniejsza odległość przemieszczania się ziemi od rozkładu równomiernego niż histogram skoncentrowany w poniedziałek i wtorek.

To, czego nie robi, to rozważenie „okrągłości” tygodnia, tzn. Że sobota i niedziela są tak blisko siebie, jak niedziela i poniedziałek. W tym celu należy poszukać odległości przemieszczania się ziemi określonej na rozkładach masowych prawdopodobieństw kołowych . Powinno to być wykonalne przy użyciu odpowiedniego podejścia optymalizacyjnego.

EDYCJA: W R emdpakiet oblicza odległości przemieszczania ziemi między histogramami.

Możesz rozwiązać problem „okrągłości” w dość prosty (choć ad-hoc) sposób.

$d_1$
$d_2$
$d_3$
...
$d_1, \dots, d_7$

Zajmuje się to cyrkulacją kosztem kilku dodatkowych obliczeń.

$d_i$

Jednak nadal uważałbym to za potencjalnie użyteczny sposób, aby przynajmniej w jakiś sposób wziąć pod uwagę cykliczność - z pewnością lepszą niż użycie pojedynczego histogramu i zdefiniowanie tygodnia jako przejścia od niedzieli do soboty lub w inny arbitralny sposób. Dodatkowo, chociaż niektóre powyższe linki ujawniają implementacje dla odległości kołowego robota ziemnego, nie znam jednego dla R, który jest prawdopodobnie najczęściej używanym językiem tutaj.

— Stephan Kolassa
źródło

d_{1}, \dots, d_{7}

$d_1,\dots,d_7$

d_{i}

$d_i$

@JiK: dobra uwaga i taka, która przyszła mi do głowy po utracie łączności wczoraj. Wyjaśniłem moją odpowiedź, aby podkreślić, że jest to hack, a nie prawdziwa okrągła odległość od robota ziemnego.

— Stephan Kolassa

Wielkie dzięki, w rzeczywistości udało mi się zaimplementować odległość R w okrągłym kosiarku ziemi z pakietem emd i funkcją emd2d, definiując własną funkcję odległości, więc nie musiałem używać wspomnianego hacka. Właśnie tego szukałem! Jeszcze jedna drobiazgowa sprawa: jak to nazwać? Jak powiedział powyżej Tim, nie powinienem nazywać tej jednolitości. Jaka nazwa byłaby odpowiednia dla tej heurystyki?

— EBartrum,

L^{2}

$L^2$