Jaka jest odpowiednia statystyka do pomiaru przestrzennej autokorelacji punktów z wartościami binarnymi?

Usiłuję określić poziom autokorelacji przestrzennej w zbiorze danych punktowych. Atrybut, który mnie interesuje, jest binarny (obecność / nieobecność gatunku), dla którego I Morana nie jest odpowiedni. Z drugiej strony statystyki Joint Count, które są zwykle zalecane w przypadku danych binarnych lub kategorycznych, najwyraźniej nie są odpowiednie dla danych punktowych. Krótko mówiąc, pytanie brzmi: jaka jest odpowiednia statystyka do pomiaru globalnej i / lub lokalnej autokorelacji przestrzennej punktów, gdy atrybut zainteresowania jest binarny?

spatial-statistics

— użytkownik13706
źródło

Twoje twierdzenie, że statystyki Join-Counts nie są odpowiednie dla danych binarnych, jest nieprawidłowe. To tylko kwestia tego, jak określona jest macierz wag przestrzennych (Wij). Podobnie jak w przypadku Morna's-I, nie można użyć macierzy odległości w tego rodzaju analizach, jednak odpowiednią binarną macierz przygodności można obliczyć za pomocą odcięcia odległości. Możesz utworzyć ten typ macierzy wag przestrzennych, a także przeprowadzić analizę Join-Count w bibliotece R spdep. Zobacz funkcje „joincount.test” i joincount.mc (test permutacji Monte Carlo).

— Jeffrey Evans
źródło

Dzięki, Jeffrey. Wspólne zliczanie jest wyraźnie sposobem na uzyskanie danych binarnych, ale widziałem sugestię (nie pamiętam, gdzie teraz), że wspólne zliczenia były odpowiednie tylko dla danych powierzchniowych (nie punktowych). Nie było dla mnie oczywiste, dlaczego nie można utworzyć macierzy ciężarów przy użyciu progu odległości i użyć wspólnej liczby, ale nie mogłem znaleźć przykładów tego w niektórych pobieżnych wyszukiwaniach. Czy istnieje odniesienie do tego typu zastosowania?

— user13706,

To obszerna literatura na temat analizy wzorca punktowego. Statystyka Join-Counts nie jest powszechnie stosowana i jako taka nie jest bardzo rozpowszechniona w aktualnej literaturze. Wróciłbym do wczesnej pracy Diggle'a lub Geitsa. Jaki jest twój cel w kwantyfikacji zależności przestrzennej w danych dwumianowych? Nie możesz użyć współczynnika Join-Counts w czymś takim jak efekty mieszane lub model CAR / SAR. Oto kilka interesujących podstaw na temat skalowania wzorców obłożenia ( en.wikipedia.org/wiki/Scaling_pattern_of_occupancy )

— Jeffrey Evans

RandomForest jest modelem nieparametrycznym i jako taki nie podlega autokorelacji. Problemem związanym z tym modelem jest korelacja w ramach zestawu bootstrap. Często autokorelacja może powodować „nadmiarowość” w twoich danych, co powoduje stronniczość w Bootstrap. Spojrzałbym na podstawie warunkowego rozkładu waszych zmiennych towarzyszących. Mam dostępny kod R „R - Wykres prawdopodobieństwa gęstości według współczynnika grupowania” tutaj: conserveonline.org/workspaces/emt/documents/all.html

— Jeffrey Evans

Och, nie uogólniałbym, że RF jest całkowicie czarną skrzynką. W rzeczywistości tak nie jest. Ten model jest często określany jako „szara skrzynka”. Ponieważ pierwotna autokorelacja wpływa na założenia IID w metodach częstych, dość bezpieczne jest twierdzenie, że założenia nieparametryczne nie są naruszane.

— Jeffrey Evans

Uogólniamy statystyki „nieparametryczne”. Obejmuje to wiele metod. Jeśli spojrzysz wstecz na dowody Briemana z 2001 roku, zobaczysz, że RF nie zakłada niezależności. Książka Hastie „Elementy uczenia statystycznego” zapewnia solidne podstawy statystyczne dla teorii próbek w odniesieniu do metod uczenia maszynowego. Jak stwierdzono wcześniej, problemem jest korelacja w zespole, która z pewnością może być spowodowana pseudoreplikacją / autokorelacją. Jednak nie jest to założenie modelowe w RF. Jednak, jeśli jest wystarczająco drobny, efekt netto stronniczości lub przełożenia jest oczywiście taki sam.

— Jeffrey Evans

Dane binarne to normalny przypadek użycia dla autokorelacji przestrzennej. Myślę, że większość książek o analizie przestrzennej będzie o tym mówić. Ten dokument może być pomocny.

— mfdev
źródło

Pierwsza strona referencji podkreśla, że „lokalizacje danych to regiony ”, więc wygląda na to, że w ogóle nie dotyczy to danych punktowych.

— whuber

-1

Twoje dane mogą być analizowane przy użyciu technik „Analiza wzoru punktowego”. W szczególności „Ripley's K” najprawdopodobniej będzie dla ciebie najlepszy.

Dobry przegląd znajduje się tutaj: http://www.people.vcu.edu/~dbandyop/pubh8472/RipleysK.pdf

— użytkownik67172
źródło