Czy w przypadku rastrów o różnych rozdzielczościach należy ponownie próbkować do najwyższej lub najniższej rozdzielczości?

Szukam zaleceń dotyczących najlepszych praktyk postępowania z warstwami danych rastrowych o różnych rozdzielczościach i prognozach. Porada, którą otrzymałem, to zawsze przeskalowywanie do warstwy o najniższej rozdzielczości przed wykonaniem jakiejkolwiek analizy, ale wydaje mi się to ogromną stratą precyzji i nigdy nie otrzymałem solidnego wyjaśnienia, dlaczego należy to zrobić.

Kiedy uzasadnione jest ponowne próbkowanie w celu dopasowania do siatki o wyższej rozdzielczości i jakie są implikacje w porównaniu do ponownego próbkowania do niższej rozdzielczości?

Zdaję sobie sprawę, że jest to prawdopodobnie wysoce zależne od sytuacji. Głównie szukam ogólnych wskazówek, ale oto mój konkretny scenariusz w celach informacyjnych:

Scenariusz: zamierzam zbudować model regresji przestrzennej przewidujący użytkowanie gruntów w oparciu o różnorodne warstwy środowiskowe i społeczno-gospodarcze. Moja mapa zagospodarowania przestrzennego pochodzi od Landsata i dlatego mam rozdzielczość 30m. Przykłady warstw objaśniających obejmują SRTM DEM (3 sekundy łukowe, ~ 90 m) i bioklimatyczne warstwy klimatyczne (30 sekund łukowych, ~ 1 km).

analysis resolution resampling

— Matt SM
źródło

Czy możesz podać więcej informacji na temat modelu regresji i metody realizacji? +1 za dobrze skonstruowane, interesujące pytanie!

— Aaron

Porównuję lesistość w dwóch momentach i jako moją odpowiedź wykorzystuję model regresji logistycznej z (binarnym) prawdopodobieństwem wylesienia. Zaimplementuję to w R.

— Matt SM

W rzeczywistości nie wszystko zależy od sytuacji i dotyczy wyłącznie błędu statystycznego.

Za każdym razem, gdy próbujesz ponownie do wyższej rozdzielczości, wprowadzasz fałszywą dokładność. Rozważ zestaw danych mierzonych tylko w stopach w liczbach całkowitych. Dowolny punkt może znajdować się w odległości +/- 0,5 stopy od jego rzeczywistej lokalizacji. Jeśli próbujesz ponownie do najbliższej dziesiątej, mówisz teraz, że podana liczba nie jest większa niż +/- 0,1 od jej rzeczywistej lokalizacji. Wiesz jednak, że twoje pierwotne pomiary nie były tak dokładne i teraz pracujesz w granicach błędu. Jeśli jednak pójdziesz w drugą stronę i przeskalujesz do niższej rozdzielczości, wiesz, że każda podana wartość punktowa jest zdecydowanie dokładna, ponieważ mieści się w marginesie błędu większej próbki.

Poza matematyką statystyczną pierwsze miejsce, jakie przychodzi na myśl, to geodezja. Starsze ankiety określały tylko łożyska z dokładnością do pół minuty i odległości do jednej dziesiątej stopy. Wykreślenie trawersu granicznego za pomocą tych pomiarów może często prowadzić do błędnego zamknięcia (punkt początkowy i końcowy powinny być takie same, ale nie są) mierzone w stopach. Współczesne ankiety sięgają co najmniej najbliższej sekundy i setnej części stopy. Na wartości pochodne (takie jak powierzchnia działki) może znacząco wpływać różnica precyzji. Pochodną samą wartość można również podać jako zbyt precyzyjną.

W przypadku analizy, jeśli przeskalujesz do wyższej rozdzielczości, wyniki będą oznaczały znacznie większą dokładność niż dane, na których są oparte. Rozważ swój SRTM na 90m. Niezależnie od metody pomiaru wysokości (średni / maksymalny / średni zwrot), najmniejszą jednostką (pikselem), którą można odróżnić od sąsiadów, jest 90 m. Jeśli przeskalujesz to do 30 m, albo:

zakładasz, że wszystkie dziewięć wynikowych pikseli ma tę samą wysokość, podczas gdy w rzeczywistości może tylko jeden - środek lub lewy górny - (lub żaden!) jest
interpolujesz między pikselami, tworząc wartości pochodne, których wcześniej nie było

Zatem w obu przypadkach wprowadzasz fałszywą dokładność, ponieważ twoje nowe podpróbki nie zostały faktycznie zmierzone.

Powiązane pytanie: Jakie praktyki są dostępne w celu modelowania przydatności gruntów?

— Chris W.
źródło

Z pewnością dotyczy to danych punktowych. Zastanawiam się jednak, czy jest inaczej w przypadku danych rastrowych, które uśredniają stale zmieniającą się wielkość przestrzenną, w przypadku której istnieje precyzja lokalizacji i dokładność mierzonej wielkości. Również różne wielkości mają różne poziomy zmienności przestrzennej. Na przykład ponowne próbkowanie danych wysokości do wyższej rozdzielczości musi wprowadzać więcej błędów na obszarach górskich niż na prerii.

— Matt SM

@MattSM Dotyczy to wszystkich danych przestrzennych i jest powiększone o błąd statystyczny mierzonej wielkości. Rozważ swój SRTM na 90m. Niezależnie od metody pomiaru wysokości (średni / maksymalny / średni zwrot), najmniejszą jednostką (pikselem), którą można odróżnić od sąsiadów, jest 90 m. Jeśli przeskalujesz to do 30 m, mówisz teraz, że wszystkie 9 uzyskanych pikseli ma tę samą wysokość, podczas gdy w rzeczywistości może tylko jeden (lub żaden!) Jest - środek lub lewy górny róg. Lub interpolujesz między pikselami, tworząc wartości, których wcześniej nie było, a tym samym fałszywą dokładność. I tak, zakres wartości odpowiada potencjalnemu błędowi.

— Chris W

Na marginesie można interpolować określone cechy w szczególnych przypadkach, w których wzór jest wyraźnie ograniczony - jedną z niegeograficznych cech, które przychodzą na myśl, jest rekonstrukcja informacji z tablicy rejestracyjnej ze zdjęć, których rozdzielczość jest zbyt niska, aby ją odczytać. Ale musisz wiedzieć, na co patrzysz. Pamiętam niektóre przypadki, w których rekonstrukcja tablicy rejestracyjnej nie powiodła się, ponieważ tablica była zapisana pozaeuropejskim skryptem, takim jak arabski.

— Steve Barnes

Co z rastrami o rozdzielczości opartej na łuku, czy nie mają komórek siatki, które mogą mieć różne obszary / proporcje w różnych obszarach?

— CMCDragonkai

@CMCDragonkai Nie jestem pewien, jak sobie z tym poradzić, ponieważ przechodzisz do reprezentacji danych a format i koordynacja systemów / projekcji. Tak, obszar geograficzny w rastrze niekoniecznie jest tak jednolity jak piksele kwadratowe (lub inny współczynnik kształtu). Wiele specyfikacji danych satelitarnych powie ci o tym (piksel ma wartość x nadir, ay y na krawędzi pokosu). Ale nadal występują problemy z ponownym próbkowaniem - jeśli tylko to tylko pogarsza problem. (I przepraszam za opóźnienie, nie byłem na SE od jakiegoś czasu.)

— Chris W