Model regresji i autokorelacja przestrzenna

Użyłem OLS i GWR do walidacji zależności między dwiema odrębnymi bazami danych. Kwadrat rezydualny dla GWR wynosi 0,82, co czyni go właściwym modelem regresji do zastosowania w celu ustalenia zależności między dwoma zestawami danych.

Co chciałem wiedzieć, że GWR to regresja lokalna, a OLS regresja globalna, którą należy stosować gdzie i kiedy?

Co to tak naprawdę oznacza, że Moran's I dla modelu GWR jest Losowy?

— Sam007
źródło

Jakie są te procedury

Mimo że OLS i GWR mają wiele aspektów dotyczących formułowania danych statystycznych, są one wykorzystywane do różnych celów:

OLS formalnie modeluje globalne relacje określonego rodzaju. W najprostszej postaci każdy rekord (lub przypadek) w zbiorze danych składa się z wartości x ustalonej przez eksperymentatora (często nazywanej „zmienną niezależną”) i innej wartości y, która jest obserwowana („zmienna zależna” ). OLS zakłada, że y jest w przybliżeniuzwiązane z x w szczególnie prosty sposób: mianowicie istnieją (nieznane) liczby „a” i „b”, dla których a + b * x będzie dobrym oszacowaniem y dla wszystkich wartości x, którymi eksperymentator może być zainteresowany . „Dobre oszacowanie” potwierdza, że wartości y mogą i będą różnić się od takich prognoz matematycznych, ponieważ (1) tak naprawdę robią - natura rzadko jest tak prosta jak równanie matematyczne - i (2) y mierzy się błąd. Oprócz oszacowania wartości aib, OLS określa również ilościowo zmienność y. Daje to OLS możliwość ustalenia statystycznego znaczenia parametrów a i b.

Oto dopasowanie OLS:

wprowadź opis zdjęcia tutaj

GWR służy do badania lokalnych relacji. W tym ustawieniu nadal występują pary (x, y), ale teraz (1) zwykle obserwuje się zarówno xiy, jak i żaden z nich nie może być wcześniej określony przez eksperymentatora, i (2) każdy rekord ma położenie przestrzenne, z . Dla dowolnej lokalizacji z (niekoniecznie nawet tam, gdzie są dostępne dane) GWR stosuje algorytm OLS do sąsiednich wartości danych w celu oszacowania, w którym tylko współrzędne przestrzenne są używane do określenia sąsiedztwa. Jego wynik służy do sugerowania zależność specyficzną lokalizacji między y i x w postaci y = a (z) + b (z) * x. Notacja „(z)” podkreśla, że współczynniki aib różnią się w zależności od lokalizacji. Jako taki, GWR jest specjalistyczną wersją lokalnie ważonych wygładzaczy jaki sposób wartości xiy kowariancji w regionie przestrzennym. Warto zauważyć, że często nie ma powodu, aby wybrać, które z „x” i „y” powinny odgrywać rolę zmiennej niezależnej i zmiennej zależnej w równaniu, ale po zmianie tych ról wyniki się zmienią ! Jest to jeden z wielu powodów, dla których GWR należy uznać za eksploracyjny - wizualną i konceptualną pomoc w zrozumieniu danych - zamiast metody formalnej.

Oto lokalnie ważona gładka. Zauważ, jak może podążać za widocznymi „poruszeniami” w danych, ale nie przechodzi dokładnie przez każdy punkt. (Można to zrobić, aby przechodzić przez punkty lub podążać mniejszymi ruchami, zmieniając ustawienie w procedurze, dokładnie tak samo, jak GWR można wykonać tak, aby śledził dane przestrzenne mniej więcej dokładnie, zmieniając ustawienia w swojej procedurze.)

Lowess

Intuicyjnie pomyśl o OLS jako o dopasowaniu sztywnego kształtu (takiego jak linia) do wykresu rozrzutu par (x, y) i GWR jako umożliwiającym dowolne poruszanie się tego kształtu.

Wybieranie między nimi

W niniejszym przypadku, chociaż nie jest jasne, co mogą oznaczać „dwie odrębne bazy danych”, wydaje się, że użycie OLS lub GWR do „sprawdzenia” relacji między nimi może być niewłaściwe. Na przykład, jeśli bazy danych reprezentują niezależne obserwacje tej samej ilości w tym samym zestawie lokalizacji, wówczas (1) OLS jest prawdopodobnie niewłaściwy, ponieważ zarówno x (wartości w jednej bazie danych), jak i y (wartości w drugiej bazie danych) powinny być postrzegany jako zmienny (zamiast myśleć o x jako ustalonym i dokładnie przedstawionym) i (2) GWR jest odpowiedni do badania związku między xiy, ale nie może być użyty do walidacjicokolwiek: na pewno znajdziesz związki, bez względu na wszystko. Ponadto, jak wcześniej zauważono, symetryczne role „dwóch baz danych” wskazują, że jedną z nich można wybrać jako „x”, a drugi jako „y”, co prowadzi do dwóch możliwych wyników GWR, które z pewnością będą się różnić.

Oto lokalnie ważone wygładzenie tych samych danych, odwracające role xiy. Porównaj to z poprzednią fabułą: zauważ, jak dużo bardziej ogólne jest dopasowanie i jak różni się również w szczegółach.

Lowess 2

Wymagane są różne techniki w celu ustalenia, że dwie bazy danych dostarczają tych samych informacji lub oceny ich względnego błędu lub względnej precyzji. Wybór techniki zależy od właściwości statystycznych danych i celu walidacji. Na przykład bazy danych pomiarów chemicznych będą zazwyczaj porównywane przy użyciu technik kalibracyjnych .

Interpretacja I Morana

Trudno powiedzieć, co oznacza „Moran's I dla modelu GWR”. Sądzę, że statystyka Morana I mogła zostać obliczona dla reszt obliczenia GWR. (Resztki to różnice między wartościami rzeczywistymi a dopasowanymi). Moran I jest globalną miarą korelacji przestrzennej. Jeśli jest mały, sugeruje, że różnice między wartościami y i GWR pasującymi do wartości x mają niewielką lub żadną korelację przestrzenną. Kiedy GWR jest „dostrojony” do danych (wymaga to podjęcia decyzji, co tak naprawdę jest „sąsiadem” dowolnego punktu), należy oczekiwać niskiej korelacji przestrzennej reszt, ponieważ GWR (domyślnie) wykorzystuje dowolną korelację przestrzenną między xiy wartości w swoim algorytmie.

— Whuber
źródło

Więc w GWR powiedziałeś, że odwrócenie zmiennych daje różne wyniki, ale ta, która daje wyższy kwadrat resztkowy, czy to nie znaczy, że wykazuje silniejszą zależność między nimi?

— Sam007

Sam, niski kwadrat rezydualny sam w sobie nie wskazuje na silniejszy związek. W szczególności, gdy odwrócisz role xiy, nie możesz nawet porównać pozostałych kwadratów - często są one w różnych jednostkach. (Np, można być kwadratowy temperatura, a drugi może być kwadratowy ilość opadów: jak można powiedzieć, która z nich jest niższa) można zawsze zmniejszyć resztkową kwadrat o tym więcej parametrów w modelu, nawet jeśli są one bez znaczenia : zbyt daleko idące w tym kierunku nazywa się „nadmiernym dopasowaniem”. W pewnym sensie GWR o krótkim zasięgu przestrzennym jest formą nadmiernego dopasowania.

— whuber

Być może myślisz o kwadracie R, Sam: jest to stosunek. (Zrozumiałem „resztkowy kwadrat” to dokładnie to, co mówi: suma kwadratów reszt. Większość oprogramowania statystycznego zgłasza tę statystykę wraz z wartościami kwadratowymi R). Ale porównywanie różnych modeli nadal jest niebezpieczne i zwykle błędne jako y pod względem x kontra x pod względem y) pod względem R-kwadrat: patrz stats.stackexchange.com/questions/13314 . Ponieważ GWR ma charakter eksploracyjny, świetnie nadaje się do znajdowania wzorców i hipotezowania związków, ale (jak zwykle się to praktykuje) nie nadaje się do uzasadnienia twierdzeń.

— whuber

WOW, to były naprawdę wszystkie statystyki. Właściwie powodem, dla którego mi jest tak trudno, jest to, że mam bardzo słabe zaplecze statystyczne, więc polegam wyłącznie na wynikach modeli, nie rozumiejąc, co dokładnie oznaczają. Większość rzeczy na R2 przeszło mi przez głowę. Czy możesz zasugerować dobrą książkę dla początkujących, która pomoże mi zacząć i zbudować podstawy w statystykach?

— Sam007

Wypróbuj następujące: stats.stackexchange.com/questions/25506 , stats.stackexchange.com/questions/421 oraz stats.stackexchange.com/questions/7165 .

— whuber

Rsquared nie powinien być używany do porównywania modeli. Użyj dzienników lub wartości AIC.

Jeśli twoje resztki w GWR są losowe lub, jak sądzę, wydają się losowe (nie statystycznie istotne), możesz mieć określony model. To przynajmniej sugeruje, że nie masz skorelowanych reszt i powinno sugerować, że nie masz żadnych pominiętych zmiennych.

— Rich H.
źródło