Zmierz jednorodność rozkładu punktów w kwadracie 2D


11

Mam kwadrat 2D i mam w nim zestaw punktów, powiedzmy 1000 punktów. Potrzebuję sposobu, aby sprawdzić, czy rozkład punktów wewnątrz kwadratu jest rozłożony (lub bardziej lub mniej równomiernie rozmieszczony), czy też mają tendencję do gromadzenia się w jakimś miejscu wewnątrz kwadratu.

Potrzebuję matematycznego / statystycznego (nie programistycznego) sposobu, aby to ustalić. Poszukałem go, znalazłem coś w rodzaju dobroci dopasowania, Kołmogorowa itp. I po prostu zastanawiam się, czy istnieją inne podejścia do osiągnięcia tego celu. Potrzebujesz tego do papieru klasowego.

Wejścia: kwadrat 2D i 1000 punktów. Wyjście: tak / nie (tak = równomiernie rozłożone, nie = gromadzenie się w niektórych miejscach).


1
Nie sformułowałeś wystarczająco dokładnie tego, co jest dla ciebie „równomiernie rozmieszczone”. Masz na myśli równomiernie wyłożoną kostkę 2D lub coś innego? Na przykład równomiernie rozmieszczony łańcuch punktów? czy krąg punktów? W pewnym sensie liczby te są również jednolitymi rozkładami.
ttnphns

3
@ttnphns W tym kontekście „mundur” ma ugruntowane konwencjonalne znaczenie. Odpowiada procesowi Poissona o stałej intensywności. Jest często nazywany „CSR” całkowicie losowo .
whuber

2
@ Van Chcesz zbadać „procesy punktów przestrzennych”. Dobre słowa kluczowe to „funkcja Ripley K”, „CSR” i „Poisson”. Dostępnym źródłem informacji będzie O'Sullivan & Unwin, Analiza informacji geograficznych. Klasykiem jest Ripley, Statystyka przestrzenna : koncentruje się na procesach punktowych. W przypadku aplikacji zapoznaj się z CrimeStat . Jeśli nie masz nic przeciwko R, istnieje wiele narzędzi do tego zadania .
whuber

Odpowiedzi:


5

Myślę, że @John pomysł testu chi = kwadrat jest jedną z możliwości.

Chcielibyście łatki na 2-d, ale chcielibyście je przetestować za pomocą 1-kierunkowego testu chi-kwadrat; to znaczy oczekiwane wartości dla komórek wyniosłyby gdzie N jest liczbą komórek.1000N.

Ale możliwe jest, że inna liczba komórek dałaby inne wnioski.

Inną możliwością jest obliczenie średniej odległości między punktami, a następnie porównanie jej z symulowanymi wynikami tej średniej. Pozwala to uniknąć problemu dowolnej liczby komórek.

EDYCJA (więcej na średnim dystansie)

Przy 1000 punktach jest parami odległości między punktami. Można je obliczyć (stosując, powiedzmy, odległość euklidesową). Odległości te można uśrednić.10009992)

Następnie możesz wygenerować N (dużą liczbę) zestawów 1000 punktów, które są równomiernie rozmieszczone. Każdy z tych N zestawów ma również średnią odległość między punktami.

Porównaj wyniki dla rzeczywistych punktów z symulowanymi punktami, aby uzyskać wartość p lub po prostu zobaczyć, gdzie spadają.


Zgadzam się, że jedna próbka chi-kwadrat („test chi-kwadrat zgodności”) jest jednym z rozsądnych sposobów. Ale czy możesz rozwinąć bardziej szczegółowo swoją propozycję „średniej odległości”? Nie do końca to zrozumiałem.
ttnphns

@ttnphns, stosowane w analizie przestrzennej to test najbliższego sąsiada (znany również jako test Clarka i Evansa) lub Ripley's K. Zobacz przykłady biblioteki spatstat z biblioteki R lub dokumentacji CrimeStat . Inną możliwością opartą na symulacji są testy „skanowania”, ale nie są one oparte na średnich odległościach.
Andy W

3

Inną możliwością jest test chi-kwadrat. Podziel kwadrat na nie nakładające się łaty o równej wielkości i przetestuj liczbę punktów wchodzących w łaty pod kątem ich oczekiwanej liczby pod hipotezą jednorodności (oczekiwanie na łatę to total_points / total_patches, jeśli wszystkie są równej wielkości) i zastosuj test chi-kwadrat. Na 1000 punktów wystarczy 9 ​​łatek, ale możesz chcieć zastosować większą szczegółowość w zależności od wyglądu danych.


1
Myślę, że jesteś na czymś innym, niż dobroć dopasowania chi-kwadrat, porównując rzeczywistą liczbę w każdej komórce z oczekiwaną liczbą równych komórek byłoby tym, czego byś chciał. Użycie testu awaryjnego NIE sprawdzi, czy rozkład między komórkami byłby jednolity, tylko jeśli wiersz zależałby od kolumny.
Jan

Ponadto test chi-kwadrat powiedziałby tylko, gdyby nie był jednolity w wybranych komórkach. Nie powiedziałoby ci, gdyby były jednolite.
Jan

Tak, miałem na myśli obliczenia w stosunku do ich oczekiwanych obliczeń pod zerową hipotezą o jednolitości, przepraszam, jeśli nie było to jasne. Możesz to sobie wyobrazić jako tabelę, która pomaga zrozumieć, co się dzieje dla niewtajemniczonych! I oczywiście ograniczasz się do testowania wybranych komórek zamiast jednolitości w sensie abstrakcyjnym
Ben Allison

@John, zwykle, kiedy wykonuje się ten „test dyspersji”, zwykle wykonuje się test dwustronny. Jeśli naprawdę chciałeś przypadkiem sprawdzić, czy wzór jest bardziej jednolity, niż się spodziewano, możesz po prostu sprawdzić, czy test chi-kwadrat wypadł w lewym ogonie rozkładu (przy dowolnym punkcie odcięcia).
Andy W

Andy, powinieneś udzielić odpowiedzi szczegółowo opisującej ten dwustronny test dobroci dopasowania. Zazwyczaj testy dwustronne testują tylko dwie różne alternatywy dla wartości zerowej, ale nadal nie mogą wykazać wartości zerowej. Twoja propozycja jest intrygująca.
Jan

1

Dlaczego nie zastosować testu Kołmogorowa-Smirnowa? Tak bym zrobił, szczególnie biorąc pod uwagę, że rozmiar twojej próbki jest wystarczająco duży, aby zrekompensować brak mocy.

Alternatywnie możesz wykonać symulację. To nie jest rygorystyczne, ale dostarcza pewnych dowodów na to, czy dane są równomiernie rozmieszczone.


@whuber Dwuwymiarowe rozszerzenie KS jest dobrze znane (patrz tutaj ). W tym przypadku badamy, czy te 1000 rysunków (współrzędne (x, y)) można wyciągnąć z dwuwymiarowego wspólnie jednorodnego rozkładu - przynajmniej tak czytam „równomiernie rozłożone”. @John, mogłem wyrazić się niezdarnie (ani matematyka, ani angielski nie są moimi pierwszymi językami). Miałem na myśli to, że dokładną wartość p można obliczyć za pomocą testu, takiego jak KS, podczas gdy wartość p (lub jakkolwiek nazwiesz równoważny) dąży tylko asymptotycznie podczas wykonywania symulacji.


Dlaczego symulacja nie byłaby rygorystyczna?
Jan

1
Czy mógłbyś wyjaśnić, w jaki sposób test KS - który jest przeznaczony dla zbiorów liczb rzeczywistych zakładanych jako wyniki ciągłej zmiennej losowej - zostałby zastosowany do tego zestawu danych przestrzennych ?
whuber

@ whuber Zredagowałem moją odpowiedź, aby spróbować znaleźć odpowiedzi na twoją odpowiedź. Najlepsza.
abaumann

@John Próbowałem wyjaśnić, co miałem na myśli. Najlepsza.
abaumann
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.