Kiedy stosować regresję Deminga

Obecnie pracuję nad sposobem na przekształcenie dwóch różnych wartości testowych fosforu.

tło

Istnieje wiele (ekstrakcyjnych) metod pomiaru dostępnego fosforu w glebie. Różne kraje stosują różne metody, dlatego w celu porównania płodności P we wszystkich krajach należy obliczyć wartość testu P x na podstawie wartości testu P y i vice versa. Dlatego odpowiedź i zmienna towarzysząca są wymienne.

Ilość P w ekstrahencie 1 = P_CAL w [mg / 100 g gleby]

Ilość P w ekstrahencie 2 = P_DL w [mg / 100 g gleby]

Aby ustalić takie „równanie transformacji”, zawartość P w 136 próbkach gleby analizowano za pomocą ekstraktu CAL i DL. Zmierzono również dodatkowe parametry, takie jak pH gleby, całkowity węgiel organiczny, całkowity azot, glinę i węglan. Celem jest wyprowadzenie prostego modelu regresji. W drugim etapie również model wielokrotny.

Aby zapewnić przegląd danych, pokazuję dwa wykresy rozrzutu z prostą linią regresji liniowej (OLS).

Pytania:

W moim rozumieniu regresja Deminga jest odpowiednia, jeśli zarówno zmienna odpowiedź (y), jak i objaśniająca (x) zawierają błędy (pomiarowe) i są wymienne. Regresja Deminga zakłada, że współczynnik wariancji jest znany. Ponieważ nie mam szczegółowych danych na temat dokładności pomiarów ekstrakcji P, czy istnieje inny sposób określenia współczynnika wariancji? Która wariancja ma tu na myśli? Zakładam, że NIE jest obliczany var(DL_P)/var(CAL_P)?

P1: Jak określić współczynnik wariancji dla regresji Deminga?

Szczególnym przypadkiem regresji Deminga jest regresja ortogonalna. Zakłada współczynnik wariancji = 1.

P2: Czy istnieje sposób na zdiagnozowanie, czy założenie δ = 1 jest „z grubsza” poprawne lub czy (fałszywe) założenie pociąga za sobą wysokie błędy przewidywania?

Jeśli założę, że δ = 1, regresja ortogonalna zapewnia następujący (zaokrąglony) wynik

library(MethComp) deming <- Deming(y=P_CAL, x=P_DL, vr=1)

Przechwyć: 0,75; Nachylenie: 0,71; sigma P_DL: 3.17; sigma P_CAL: 3.17

Wykreślenie linii regresji Deminga na powyższych wykresach pokazuje, że regresja Deminga jest bardzo zbliżona do a) regresji CAL-P = f (DL-P), ale bardzo różni się od b) DL-P = f (CAL-P) równanie.

P3: Czy to prawda, że w regresji ortogonalnej CAL-P = f (DL-P) i DL-P = f (CAL-P) są wyrażane tym samym równaniem? Jeśli nie, w jaki sposób mogę uzyskać prawidłowe równania dla obu? Czego tu brakuje?

Ze względu na właściwości obu roztworów ekstrakcyjnych wartości DL-P są zwykle o około 25% wyższe niż wartości CAL-P, dlatego CAL-P = f (DL-P) powinien mieć większe nachylenie niż DL-P = f (CAL -P). Nie wyraża się to jednak w regresji Deminga, gdy występuje tylko jedno nachylenie. Co pozostawia mi moje ostatnie pytanie.

P4: Czy regresja Deminga jest właściwym podejściem do moich celów?

regression total-least-squares

— asugila
źródło

Stosunek dwóch odchyleń standardowych przyjęto w regresji Deminga, aby zdecydować, gdzie upuścić prostopadle do linii. Jeżeli stosunek wynosi 1, zakłada się, że wariancje są równe, a odległość mierzona jest pod kątem 45 stopni. Nie można ustalić tego stosunku na podstawie danych.

— Michael R. Chernick

Aby rozwiązać część swoich obaw tutaj: Regresja Deminga wydaje się oferować słabe dopasowanie w panelu B wykresu, ale dzieje się tak, ponieważ wykres jest nieprawidłowy. Szybkim sposobem oceny, czy zostało to zrobione poprawnie, jest przyjrzenie się wartościom X i Y wzdłuż linii regresji Deminga. Dla każdej wartości DL-P w panelu A powinna ona mieć odpowiadającą jej wartość CAL-P, która jest identyczna w obu panelach (NIE jest prawdą dla OLS i podstawowa różnica między nimi). Ale na tych wykresach, gdzie DL-P = 20, CAL-P w panelu A wynosi ~ 15, a w panelu B ~ 27.

Błąd wydaje się polegać na tym, że linia regresji Deminga została narysowana po prostu przez zamianę warunków CAL-P i DL-P w równaniu. Równanie dla panelu A jest następujące:

CAL-P = 0,75 + 0,71 * DL-P

Zmiana układu oznacza, że równanie dla panelu B powinno być:

DL-P = (CAL-P - 0,75) / 0,71

I nie:

DL-P = 0,75 + 0,71 * CAL-P (co wykreślono)

— mkt - Przywróć Monikę
źródło