W przypadku warunków nienormalnych można czasem zastosować solidną regresję , szczególnie używając linków do metod .
Aby przedstawić kontekst nienormalności, pomocne może być przejrzenie założeń dotyczących regresji liniowej OLS , które są:
- Słaba egzogeniczność . Zasadniczo oznacza to, że zmienne predykcyjne, x , mogą być traktowane jako wartości stałe, a nie zmienne losowe. Oznacza to na przykład, że zakłada się, że zmienne predykcyjne są wolne od błędów - to znaczy nie są zanieczyszczone błędami pomiaru. To założenie jest najczęściej naruszane i prowadzi do błędów wyliczonych zgodnie z tą listą założeń.
- Liniowość. Oznacza to, że średnia zmiennej odpowiedzi jest liniową kombinacją parametrów (współczynników regresji) i zmiennych predykcyjnych. Zauważ, że to założenie jest znacznie mniej restrykcyjne, niż mogłoby się początkowo wydawać. Ponieważ zmienne predykcyjne są traktowane jako wartości stałe (patrz wyżej), liniowość jest tak naprawdę ograniczeniem parametrów. Same zmienne predykcyjne mogą być dowolnie transformowane, aw rzeczywistości można dodać wiele kopii tej samej podstawowej zmiennej predykcyjnej, każda transformowana inaczej.
- Stała wariancja (inaczej homoscedastyczność). Oznacza to, że różne wartości zmiennej odpowiedzi mają tę samą wariancję w swoich błędach, niezależnie od wartości zmiennych predykcyjnych. W praktyce założenie to jest nieważne (tj. Błędy są heteroscedastyczne), jeżeli zmienna odpowiedzi może się zmieniać w szerokim zakresie. W celu sprawdzenia heterogenicznej wariancji błędu lub gdy wzór reszt narusza założenia modelu homoscedastyczności (błąd jest jednakowo zmienny wokół „najlepiej dopasowanej linii” dla wszystkich punktów x), rozsądnie jest szukać „efektu wachlowania” między błędem resztkowym a przewidywanymi wartościami. Oznacza to, że nastąpi systematyczna zmiana wartości bezwzględnych lub kwadratowych po wykreśleniu ze zmiennymi predykcyjnymi. Błędy nie będą równomiernie rozłożone w linii regresji. Heteroscedastyczność spowoduje uśrednienie rozróżnialnych różnic wokół punktów, aby uzyskać pojedynczą wariancję, która niedokładnie reprezentuje wszystkie wariancje linii. W efekcie reszty wydają się skupione i rozłożone na swoich przewidywanych wykresach dla coraz większych wartości punktów wzdłuż linii regresji liniowej, a średni błąd kwadratu dla modelu będzie błędny.
- Niezależność błędów. Zakłada się, że błędy zmiennych odpowiedzi są ze sobą nieskorelowane. (Rzeczywista niezależność statystyczna jest silniejszym warunkiem niż zwykły brak korelacji i często nie jest potrzebna, chociaż można ją wykorzystać, jeśli wiadomo, że się utrzymuje. Ta ostatnia może być zbadana za pomocą analizy skupień i korekty interakcji). Niektóre metody (np. Uogólnione najmniejszych kwadratów) są w stanie obsłużyć skorelowane błędy, chociaż zwykle wymagają znacznie więcej danych, chyba że zastosuje się pewien rodzaj regularyzacji w celu odchylenia modelu w kierunku przyjęcia niepowiązanych błędów. Bayesowska regresja liniowa jest ogólnym sposobem radzenia sobie z tym problemem.
Zależność statystyczna między warunkami błędu a regresorami odgrywa ważną rolę w określaniu, czy procedura szacowania ma pożądane właściwości próbkowania, takie jak obiektywność i spójność.
Rozmieszczenie lub rozkład prawdopodobieństwa zmiennych predykcyjnych x ma duży wpływ na dokładność oszacowań β. Pobieranie próbek i projektowanie eksperymentów są wysoce rozwiniętymi polami statystycznymi, które dostarczają wskazówek w zakresie gromadzenia danych w taki sposób, aby uzyskać dokładne oszacowanie β.
Jak ilustruje ta odpowiedź , symulowane rozkłada błędy osi z linii prowadzącej do linii regresji OLS z przedziałami ufności dla nachylenia i przechwytywania, które zwiększają rozmiar wraz ze spadkiem stopni swobody ( ). Dla , Student- jest rozkładem Cauchy'ego, a przedziały ufności dla nachylenia stają się .tydfdf=1t(−∞,+∞)
Wywoływanie rozkładu Cauchy'ego w odniesieniu do reszt jest arbitralne w tym sensie, że gdy błędy generujące są rozkładane Cauchy'ego, resztki OLS z fałszywej linii przechodzącej przez dane byłyby jeszcze mniej niezawodne, tj. Wyrzucanie śmieci - wyrzucanie śmieci. W takich przypadkach można zastosować regresję regresji Theil-Sen . Theil-Sen jest z pewnością bardziej odporny niż OLS na nienormalne reszty, np. Błąd rozproszenia Cauchy'ego nie pogorszyłby przedziałów ufności i w przeciwieństwie do OLS jest również regułą dwuwariantową, jednak w przypadku dwuwariantowym jest nadal tendencyjny. Regresja przechodząca-Bablok może być bardziej dwuwariantowa, ale nie ma zastosowania do nachyleń regresji ujemnej. Najczęściej stosuje się go w badaniach porównawczych metod. Należy wspomnieć o regresji Demingatutaj, w przeciwieństwie do regresji Theil-Sen i Passing-Bablok, jest to rzeczywiste rozwiązanie problemu dwuwariantowego, ale brakuje mu solidności tych innych regresji. Odporność można zwiększyć poprzez obcięcie danych w celu uwzględnienia bardziej centralnych wartości, np. Konsensus losowej próby (RANSAC) jest iteracyjną metodą szacowania parametrów modelu matematycznego na podstawie zestawu obserwowanych danych, które zawierają wartości odstające.
Czym zatem jest regresja dwuwymiarowa? Brak testowania dwuwariantowego charakteru problemów jest najczęstszą przyczyną rozcieńczenia regresji OLS i został dobrze zaprezentowany gdzie indziej na tej stronie. Pojęcie uprzedzenia OLS w tym kontekście nie jest dobrze rozpoznane, patrz na przykład Frost i Thompson, jak przedstawili Longford i in. (2001), który odsyła czytelnika do innych metod, rozszerzając model regresji w celu potwierdzenia zmienności zmiennej , aby nie powstało żadne odchylenie . Innymi słowy, dwuwymiarowej regresji wielkości liter czasami nie można zignorować, gdy zarówno -, jak ix1 x y x y y 2 x y x y = f ( x )1xy-wartości są losowo dystrybuowane. Potrzeba regresji dwuwymiarowej można sprawdzić, dopasowując linię regresji OLS do reszt z regresji danych OLS. Następnie, jeśli reszty OLS mają niezerowe nachylenie, problem jest dwuwymiarowy, a regresja OLS danych będzie miała nachylenie, które jest zbyt płytkie, i punkt przecięcia, który jest zbyt duży, aby reprezentować zależność funkcjonalną od do . W takich przypadkach estymator liniowy najmniejszych błędów wartości rzeczywiście nadal pochodzi z regresji OLS, a jego wartość R będzie mieć maksymalną możliwą wartość, ale linia regresji OLS nie będzie reprezentować faktycznej funkcji linii, która odnosi się ixyy2xy losowe zmienne. Jako przeciwny przykład, gdy, jak ma to miejsce wśród innych problemów w szeregu czasowym z jednakowo odległymi wartościami , OLS surowych danych nie zawsze jest niewłaściwe, może reprezentować najlepszą linię , ale nadal podlega transformacja zmiennych, na przykład dla danych zliczania, należy wziąć pierwiastek kwadratowy z liczb, aby przekształcić błędy błędu rozproszonego Poissona na bardziej normalne warunki, i nadal należy sprawdzać niezerowe nachylenie reszt. xy=f(x)
- Longford, NT (2001). "Korespondencja". Journal of Royal Statistics Society, Series A. 164: 565. doi: 10.1111 / 1467-985x.00219