Jak utworzyć nierównomiernie próbkowane dane kategoryczne?

Szukam metody gridowania danych kategorycznych. Wyciągnąłem z map morskich i arkuszy pola zbiór punktów określających naturę powierzchni dna oceanu. Dane te są raczej kategoryczne niż liczbowe i nie są regularnie ani nawet losowo próbkowane. Mapy morskie są tworzone w celu ułatwienia nawigacji i zakotwiczenia; nie są tworzone do mapowania siedlisk. W związku z tym więcej sondowań wykonuje się w pobliżu brzegu, gdzie stosunkowo płytkie głębokości mogą stanowić zagrożenie dla żeglugi i gdzie statki mają tendencję do zakotwiczenia. Dalej od brzegu, gdzie głębokości są więcej niż wystarczające do nawigacji, a kotwiczenie jest niepraktyczne, sondowania wykonuje się znacznie rzadziej.

Czy ktoś jeszcze próbował stworzyć siatkowe mapy podłoża na podstawie map morskich?

Patrzyłem na wielokąty Thiessena (Vornoi), ale koncentracja sondowań wzdłuż brzegów prowadzi do pięknego „plastra miodu” wzdłuż brzegu, dużych wielokątów na morzu i pomiędzy długimi wielokątami w kształcie kulek rozciągającymi się daleko od brzegu. Siatkowanie przy użyciu najbliższego sąsiada daje prawie taki sam wynik.

Potrzebuję sposobu na ograniczenie wpływu płytkich, bliskich brzegów - sposobu na ograniczenie tych długich wielokątów w kształcie kulek. W głębszych wodach nie oczekuję, że natura dna będzie kontynuacją dna w pobliżu brzegu. Zacząłem myśleć w dwóch kierunkach - oba przy użyciu głębi. Jednym z nich jest ważenie wyboru „najbliższego” sąsiada przy użyciu różnicy głębokości między komórką siatki a sąsiadującymi punktami. Kolejnym jest usunięcie zaznaczenia sąsiednich punktów, które są bardziej niż określone tolerancje o różnej głębokości. Lub, być może zamiast z góry określonej tolerancji, mógłbym przedział głębokości przedziałów, a następnie ograniczyć wybór sąsiednich punktów do tych w tym samym zakresie głębokości lub przedziałach.

Czy są jakieś przemyślenia na temat wdrożenia jednej z tych dwóch opcji?

Od czasu rozmowy z kolegami na innych forach przyglądałem się kilku innym podejściom. Pierwszy polega na zastosowaniu bariery - konturu o głębokości 100 m - w celu ograniczenia wpływu danych z brzegu. Wyzwaniem związanym z tym podejściem jest to, że każda z procedur interpolacji ESRI, która może wykorzystywać bariery, jest zaprojektowana do pracy z danymi ciągłymi, a nie danymi ciągłymi. Mógłbym użyć barier, aby rozbić punkty na płytki w pobliżu brzegu i głębsze punkty przed utworzeniem wielokątów Thiessena. Spodziewam się jednak gwałtownych efektów krawędziowych, ponieważ ArcGIS tworzy wielokąty Thiessena dla obszarów prostokątnych, a nie dla obszarów złożonych.

Drugim podejściem - sugerowanym przez kilku kolegów - było kriging. Początkowo odrzuciłem Kriginga z ręki, ponieważ rozważałem to tylko w przypadku ciągłych danych. Wyzwaniem związanym z krigingiem jest to, że on również nie jest przeznaczony do danych kategorycznych. Teraz patrzę na cokriging z głębokością i naturą powierzchni, ale każdy rodzaj krigingu będzie wymagał użycia liczb całkowitych kodów liczbowych dla natury powierzchni. Następnie wynikowe kody zmiennoprzecinkowe będą musiały zostać zredukowane z powrotem do pierwotnego kodowania liczb całkowitych. Nie ładna

Czy ktoś może zasugerować inne linie do naśladowania? (Być może można by użyć analizy terenu. Na przykład zbocza bardziej strome niż kąt spoczynku nie mogą być osadami. Szukam czegoś prostszego, a w każdym razie nie mam danych o wystarczającej rozdzielczości przestrzennej.)

Pozdrowienia,

— Doug Hrynyk
źródło

Podejście kriging, odpowiednio wdrożone, jest obiecujące.

Jako punkt wyjścia przyjrzyj się „uogólnionym liniowym modelom geostatystycznym” opisanym przez Diggle & Ribeiro w Geostatistics opartym na modelach (Springer 2007). Idea leżąca u podstaw jest atrakcyjna i elastyczna: przestrzenny proces stochastyczny (który jest przestrzennie ciągły ) określa różne prawdopodobieństwa kategorii. Za pomocą obserwowanych kategorii w nieregularnych punktach można wywnioskować właściwości statystyczne tego leżącego u podstaw procesu, w tym jego strukturę korelacji przestrzennej (wariogram). Kriging tworzy następnie powierzchnię prawdopodobieństwa zgodną z obserwacjami. W tym momencie możesz wykonywać symulacje geostatystyczne lub tworzyć mapy związane z prawdopodobieństwami (jak sobie wyobrażam, takie jak mapy kategorii największego prawdopodobieństwa).

To brzmi wyrafinowanie i tak jest. Jednak dyskusja Diggle i Ribeiro jest dość dostępna - chociaż jest matematyczna i zakłada pewną wiedzę statystyczną, nie polega ona zbytnio na żadnym z nich - a większość ich technik jest zaimplementowana w pakietach R, które opisują, geoRi geoRGLM. W rzeczywistości należy traktować tę książkę jako instrukcję obsługi tych pakietów.

Jak potwierdzają inne wątki na tej stronie, stosunkowo łatwo jest połączyć interfejs R z danymi GIS (w tym plik kształtu i różne formaty rastrowe), więc to nie jest problem.

— Whuber
źródło