Próbuję wymyślić metrykę pomiaru nierównomierności rozkładu dla prowadzonego eksperymentu. Mam zmienną losową, która powinna być równomiernie rozłożona w większości przypadków, i chciałbym być w stanie zidentyfikować (i ewentualnie zmierzyć stopień) przykładów zestawów danych, w których zmienna nie jest równomiernie rozmieszczona w pewnym marginesie.
Przykład trzech serii danych, z których każda zawiera 10 pomiarów reprezentujących częstotliwość występowania czegoś, co mierzę, może wyglądać następująco:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Chciałbym móc odróżnić rozkłady takie jak c od tych jak aib i zmierzyć odchylenie c od rozkładu jednolitego. Równolegle, jeśli istnieje metryka określająca równomierność rozkładu (odchylenie standardowe bliskie zeru?), Być może mógłbym użyć tego do rozróżnienia tych o dużej wariancji. Jednak moje dane mogą mieć tylko jedną lub dwie wartości odstające, jak w powyższym przykładzie c, i nie jestem pewien, czy da się to w ten sposób łatwo wykryć.
Mogę włamać się do tego, aby to zrobić w oprogramowaniu, ale szukam metod / podejść statystycznych, aby to formalnie uzasadnić. Brałem lekcje lata temu, ale statystyki nie są moją dziedziną. To wydaje się czymś, co powinno mieć dobrze znane podejście. Przepraszam, jeśli coś z tego jest całkowicie bezsensowne. Z góry dziękuję!