Jakie są najczęstsze nieporozumienia na temat regresji liniowej?

70

Ciekawe, dla tych z was, którzy mają duże doświadczenie we współpracy z innymi badaczami, jakie są najczęstsze nieporozumienia na temat regresji liniowej, które napotykasz?

Myślę, że może to być przydatne ćwiczenie, aby pomyśleć o typowych nieporozumieniach przed czasem, aby to zrobić

Przewiduj błędy ludzi i potrafisz wyartykułować, dlaczego niektóre nieporozumienia są niepoprawne

Uświadom sobie, że sam mam jakieś nieporozumienia!

Kilka podstawowych, o których mogę myśleć:

Zmienne niezależne / zależne muszą być normalnie rozmieszczone

Zmienne muszą być znormalizowane dla dokładnej interpretacji

Ktoś jeszcze?

Wszystkie odpowiedzi są mile widziane.

regression multiple-regression

— ST21
źródło

5

Prawdopodobnie powinno to być CW, ponieważ zaprasza na listę możliwości i trudno będzie powiedzieć, że obiektywnie jest to „poprawna odpowiedź”.

— gung

Wiele osób, które znam, nadal nalega na przeprowadzenie linearyzacji swoich danych i pozostawienie ich w tym celu, nawet jeśli używane przez nich środowisko komputerowe ma dobre wsparcie dla regresji nieliniowej. (Linearyzacje są oczywiście przydatne jako punkty wyjścia dla nieliniowych dopasowań, ale ci ludzie nawet nie zdają sobie z tego sprawy.)

— JM nie jest statystykiem

1

@gung: Czy Community Wiki to wciąż coś? CW, w większości przestarzały w całej sieci , nigdy tak naprawdę nie polegał na dostarczaniu marginalnych, szeroko zadawanych pytań z dużej listy, aby wyjść z karty pozbawionej wolności w więzieniu, lub okradaniu ludzi reputacji, które mogliby zdobyć, gdyby pytanie było w pierwszej kolejności na temat. Jedynym sposobem, w jaki możesz już zadać to pytanie, jest poproszenie moderatora o zrobienie tego.

— Robert Harvey,

1

Gdyby Bóg uczynił świat liniowym, nie byłoby regresji nieliniowej.

— Mark L. Stone,

1

@RobertHarvey: Tak, wciąż jest to bardzo ważna sprawa na CrossValidated (moim zdaniem, niestety). Mieliśmy na ten temat kilka gorących dyskusji Meta ( np. Ta ), ale obecny status quo polega na tym, że status CW jest egzekwowany na wszystkie pytania oparte na opiniach lub na dużych listach, które są rozważane na wystarczający temat, aby pozostać otwarte.

— ameba

38

Fałszywa przesłanka: A oznacza, że nie ma silnego związku między DV i IV. $\hat{\beta} \approx 0$
Istnieje wiele nieliniowych zależności funkcjonalnych, a jednak dane generowane przez wiele takich zależności często powodują prawie zerowe nachylenia, jeśli założymy, że związek musi być liniowy, a nawet w przybliżeniu liniowy.

Podobnie, w innym fałszywym założeniu badacze często zakładają - być może dlatego, że wiele podręczników dotyczących regresji wprowadzającej uczy - że „testuje się nieliniowość”, budując serię regresji DV na wielomianowych rozszerzeniach IV (np. , następnie , a następnie autor: $Y \sim \beta_{0} + \beta_{X}X + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \beta_{X^{3}}X^{3} + \varepsilon$ itp.). Tak jak linia prosta nie może dobrze reprezentować nieliniowej zależności funkcjonalnej między DV i IV, tak parabola nie może reprezentować dosłownie nieskończonej liczby relacji nieliniowych (np. Sinusoidy, cykloidy, funkcje skokowe, efekty nasycenia, krzywe s, itp. Ad infinitum ). Zamiast tego można zastosować podejście regresyjne, które nie przyjmuje żadnej szczególnej formy funkcjonalnej (np. Płynne wygładzanie linii, GAM itp.).

Trzecia przesłanka jest fałszywa, że zwiększenie liczby szacowanych parametrów niekoniecznie skutkuje utratą mocy statystycznej. Może to być fałsz, gdy prawdziwa relacja jest nieliniowa i wymaga wielu parametrów do oszacowania (np. Funkcja „złamanego drążka” wymaga nie tylko warunków przecięcia i nachylenia linii prostej, ale wymaga punktu, w którym zmienia się nachylenie i ile nachylenie zmienia się o szacunki również): reszty źle sprecyzowanego modelu (np. linia prosta) mogą rosnąć dość duże (w stosunku do odpowiednio określonej zależności funkcjonalnej), co skutkuje niższym prawdopodobieństwem odrzucenia oraz szerszymi przedziałami ufności i przedziałami prognoz (oprócz uprzedzeń szacunkowych) .

— Alexis
źródło

4

(+1) Quibble: (1) Nie sądzę, aby nawet teksty wprowadzające sugerowały, że wszystkie krzywe są funkcjami wielomianowymi, a raczej że można je wystarczająco dobrze aproksymować w danym zakresie za pomocą funkcji wielomianowych. Tak więc należą one do klasy „podejść regresyjnych, które nie przyjmują żadnej szczególnej formy funkcjonalnej”, rządzonej przez „hiperparametr” określający poruszenie: zakres dla lessa, nie. węzły regresji na podstawie splajnu, stopień regresji na podstawie wielomianu. (Nie macham flagą dla wielomianów - wiadomo, że mają tendencję do wymachiwania końcówkami bardziej, niż byśmy chcieli -, ...

— Scortchi

2

... po prostu dając im należność.) (2) Sinusoida mogłaby równie dobrze pasować w ramach modelu liniowego; efekt nasycenia przy użyciu modelu nieliniowego (powiedzmy prostokątnej hiperboli); &do. Oczywiście nie powiedziałeś inaczej, ale być może warto zauważyć, że jeśli wiesz, że istnieje cykl lub asymptota, zastosowanie tych ograniczeń w twoim modelu będzie pomocne.

— Scortchi

2

@Scortchi Nie mogłem się więcej zgodzić! (Rzeczywiście, biorąc pod uwagę nieskończoną liczbę wielomianów, każda funkcja może być doskonale reprezentowana.) Dążono do zwięzłości. :)

— Alexis,

2

@Alexis Spróbuj aproksymować funkcję podstawową Conwaya 13 przez wielomiany. :)

— Solomonoff's Secret

1

Lub ...

χ_{Q}

$\chi_{\mathbb{Q}}$

— Stephan Kolassa

22

Bardzo często przyjmuje się, że tylko dane są obarczone błędem pomiaru (a przynajmniej, że jest to jedyny błąd, który będziemy brać pod uwagę). Ale ignoruje to możliwość i konsekwencje błędu w pomiarach . Może to być szczególnie dotkliwe w badaniach obserwacyjnych, w których zmienne nie podlegają kontroli eksperymentalnej. $y$ $x$ $x$

Rozrzedzenie regresji lub tłumienie regresji to zjawisko rozpoznane przez Spearmana (1904), w którym szacowane nachylenie regresji w prostej regresji liniowej jest tendencyjne do zera przez obecność błędu pomiaru w zmiennej niezależnej. Załóżmy, że prawdziwe nachylenie jest dodatnie - efektem drżeniawspółrzędnychpunktów(być może najłatwiej jest to wyobrazić jako „rozmazywanie” punktów w poziomie) jest to, że linia regresji jest mniej stroma. Intuicyjnie punkty z dużymsą teraz bardziej prawdopodobne ze względu na dodatni błąd pomiaru, podczas gdywartośćjest bardziej prawdopodobne, aby odzwierciedlać prawdziwą (wolną od błędów) wartość, a zatem jest niższa niż rzeczywista linia dla obserwowanych $x$ $x$ $y$ $x$ $x$ .

W bardziej złożonych modelach błąd pomiaru w zmiennych może powodować bardziej skomplikowane skutki dla oszacowań parametrów. W modelach zmiennych występują błędy, które uwzględniają taki błąd. Spearman zasugerował współczynnik korygujący w celu zmniejszenia współczynników korelacji dwuwymiarowej, a dla bardziej wyrafinowanych sytuacji opracowano inne współczynniki korekcyjne. Jednak takie korekty mogą być trudne - szczególnie w przypadku wielowymiarowym i przy pomieszaniu - i może być kontrowersyjne, czy korekta jest prawdziwą poprawą, patrz np. Smith i Phillips (1996). $x$

Sądzę więc, że są to dwa nieporozumienia dotyczące ceny jednego - z jednej strony błędem jest myśleć, że sposób, w jaki piszemy oznacza „cały błąd jest w ” i ignoruje bardzo fizycznie realna możliwość błędów pomiaru w zmiennych niezależnych. Z drugiej strony, niewskazane może być ślepe stosowanie „korekt” dla błędu pomiaru we wszystkich takich sytuacjach, jak reakcja szarpnięcia kolana (choć może być dobrym pomysłem podjęcie kroków w celu zmniejszenia błędu pomiaru) . $y = X\beta + \varepsilon$ $y$

(Mam prawdopodobnie również odwołują się do innych modeli typowych błędów w-zmiennych, w coraz większym stopniu ogólnym kolejności: prostopadły regresji , regresji Deminga i całkowite najmniejszych kwadratów ).

Bibliografia

Smith, GD i Phillips, AN (1996). „ Inflacja w epidemiologii:„ ponownie sprawdzono dowody i pomiary związku dwóch rzeczy ”. British Medical Journal , 312 (7047), 1659–1661.
Spearman, C. (1904). „Dowód i pomiar związku między dwiema rzeczami”. American Journal of Psychology 15 : 72–101.

— Silverfish
źródło

Na tej uwadze: jest to jeden z powodów, dla których stosuje się technikę zwaną „całkowitą najmniejszą liczbą kwadratów” lub „regresją ortogonalną” (w zależności od czytanej literatury); jest to znacznie bardziej skomplikowane niż zwykłe najmniejsze kwadraty, ale warto to zrobić, jeśli wszystkie twoje punkty są zanieczyszczone błędem.

— JM nie jest statystykiem

@JM Dzięki - tak, tak naprawdę pierwotnie chciałem umieścić link do TLS, ale rozproszyło mnie artykuł Smitha i Phillipsa!

— Silverfish,

2

+1 Świetny dodatek do tego tematu. W swojej pracy często rozważałem modele EIV. Jednak oprócz złożoności lub polegania na znajomości „współczynników błędów” należy rozważyć bardziej konceptualny problem: wiele regresji, szczególnie w nadzorowanym uczeniu się lub prognozowaniu, chce powiązać obserwowane predyktory z obserwowanymi wynikami. Z drugiej strony modele EIV próbują zidentyfikować podstawowy związek między średnim predyktorem a średnią odpowiedzią ... nieco inne pytanie.

2

Tak więc to, co można by nazwać „rozcieńczeniem” „prawdziwej” regresji (w kontekście naukowym), nazwano by „brakiem użyteczności predykcyjnej” lub czymś takim w kontekście prognozowania.

21

Istnieją pewne standardowe nieporozumienia, które mają zastosowanie w tym kontekście, a także w innych kontekstach statystycznych: np. Znaczenie wartości , niepoprawne wnioskowanie o przyczynowości itp. $p$

Kilka nieporozumień, które moim zdaniem są charakterystyczne dla regresji wielokrotnej, to:

Myślenie, że zmienna o większym oszacowanym współczynniku i / lub niższej wartości jest „ważniejsza”. $p$
Myślenie, że dodanie większej liczby zmiennych do modelu przybliża cię do prawdy. Na przykład nachylenie od prostej regresji na może nie być prawdziwą bezpośrednią zależnością między i , ale jeśli dodam zmienne , ten współczynnik będzie lepszą reprezentacją prawdziwej relacji, i jeśli dodam , będzie jeszcze lepiej. $Y$ $X$ $X$ $Y$ $Z_1, \ldots, Z_5$ $Z_6, \ldots, Z_{20}$

— gung
źródło

12

Dobry towar. Ta odpowiedź może być jeszcze bardziej przydatna, jeśli wyjaśni, dlaczego obaj się mylą i co zamiast tego zrobić?

— DW

14

Powiedziałbym, że pierwszy, który wymieniasz, jest prawdopodobnie najczęstszym - i być może najszerzej nauczanym w ten sposób - spośród rzeczy, które są wyraźnie postrzegane jako błędne, ale oto niektóre inne, które w niektórych sytuacjach są mniej jasne ( czy naprawdę mają zastosowanie), ale mogą mieć wpływ na jeszcze więcej analiz, a być może poważniej. Często nie wspomina się o nich, gdy wprowadza się temat regresji.

Traktowanie jako losowe próbki z interesującej populacji obserwacji, które nie mogą być zbliżone do reprezentatywnych (nie mówiąc już o losowej próbie). [Niektóre badania można zamiast tego postrzegać jako coś bliższego próbkom wygody]
W przypadku danych obserwacyjnych po prostu ignoruje się konsekwencje pominięcia ważnych czynników napędzających proces, które z pewnością wpłynęłyby na szacunki współczynników uwzględnionych zmiennych (w wielu przypadkach nawet do prawdopodobnej zmiany ich znaku), bez próby rozważenia sposobów postępowania z nimi (czy to z powodu niewiedzy o problemie, czy po prostu nieświadomości, że można coś zrobić). [Niektóre obszary badawcze mają ten problem bardziej niż inne, czy to z powodu rodzaju gromadzonych danych, czy też dlatego, że ludzie w niektórych obszarach zastosowań są bardziej prawdopodobnie nauczeni o tym problemie.]
Regresja fałszywa (głównie z danymi gromadzonymi w czasie). [Nawet gdy ludzie są świadomi, że tak się dzieje, istnieje inne powszechne nieporozumienie, że wystarczy różnicowanie się z przypuszczalnym stacjonarnym, aby całkowicie uniknąć problemu.]

Jest oczywiście wiele innych, o których można by wspomnieć (na przykład traktowanie niezależnych danych, które prawie na pewno będą skorelowane szeregowo lub nawet zintegrowane).

Można zauważyć, że badania obserwacyjne danych gromadzonych w czasie mogą zostać dotknięte przez wszystkie z nich jednocześnie ... jednak tego rodzaju badania są bardzo powszechne w wielu obszarach badań, w których regresja jest standardowym narzędziem. Jak mogą dostać się do publikacji bez jednego recenzenta lub redaktora, który wie o co najmniej jednym z nich i co najmniej wymaga pewnego poziomu zrzeczenia się odpowiedzialności we wnioskach, nadal mnie martwi.

Statystyki są obarczone problemami z niemożliwymi do odtworzenia wynikami, gdy mamy do czynienia z dość dokładnie kontrolowanymi eksperymentami (w połączeniu z być może nie tak dokładnie kontrolowanymi analizami), więc jak tylko jeden krok wykracza poza te granice, o ile gorsza musi być sytuacja odtwarzalności?

— Glen_b
źródło

6

Ściśle związany z niektórymi z twoich punktów może być pomysł, że „tylko dane podlegają błędowi pomiaru” (a przynajmniej „to jest jedyny błąd, który rozważymy”). Nie jestem pewien, czy to zasługuje na ostrzeżenie o butach, ale z pewnością bardzo często ignoruje się możliwość i konsekwencje losowego błędu w zmiennych .

y

$y$

x

$x$

— Silverfish,

2

@Silverfish I całkowity ly zgadzam się z tobą.

— Mark L. Stone,

@Silverfish to CW, więc powinieneś czuć się wyjątkowo swobodnie w edycji w odpowiednim dodatku tego typu.

— Glen_b

@Silverfish jest powód, dla którego sam tego nie dodałem, kiedy o tym wspomniałeś ... Myślę, że prawdopodobnie warto na to odpowiedzieć

— Glen_b

12

Prawdopodobnie nie nazwałbym tych nieporozumień, ale być może wspólne punkty zamieszania / rozłączeń, aw niektórych przypadkach problemy, o których naukowcy mogą nie wiedzieć.

Wielokoliniowość (w tym przypadku większej liczby zmiennych niż punktów danych)
Heteroskedastyczność
Czy wartości zmiennych niezależnych podlegają szumowi
Jak skalowanie (lub brak skalowania) wpływa na interpretację współczynników
Jak traktować dane od wielu podmiotów
Jak radzić sobie z korelacjami szeregowymi (np. Szeregi czasowe)

Po stronie nieporozumień:

Co oznacza liniowość (np. to nieliniowy wrt , ale liniowy wrt ciężary). $y = ax^2 + bx + c$ $x$
Ta „regresja” oznacza zwykłą najmniejszą kwadrat lub regresję liniową
Ta niska / wysoka waga z konieczności implikuje słabe / silne związki ze zmienną zależną
Zależność między zmiennymi zależnymi i niezależnymi można koniecznie zredukować do zależności parowych.
Ta wysoka dobroć dopasowania do zestawu treningowego implikuje dobry model (tzn. Zaniedbanie przeszycia)

— user20160
źródło

7

Z mojego doświadczenia wynika, że studenci często przyjmują pogląd, że błędy kwadratu (lub regresja OLS) są z natury właściwe, dokładne i ogólnie dobre w użyciu, a nawet nie mają alternatywy. Często widziałem reklamowane OLS wraz z uwagami, że „przypisuje ono większą wagę bardziej ekstremalnym / dewiacyjnym obserwacjom” i przez większość czasu przynajmniej sugeruje, że jest to pożądana właściwość. Pojęcie to może zostać zmodyfikowane później, gdy zostanie wprowadzone leczenie wartości odstających i solidnych podejść, ale w tym momencie następuje uszkodzenie. Zapewne powszechne stosowanie błędów kwadratowych ma historycznie więcej wspólnego z ich matematyczną wygodą niż z pewnymi naturalnymi prawami rzeczywistych kosztów błędów.

Ogólnie rzecz biorąc, większy nacisk można położyć na zrozumienie, że wybór funkcji błędu jest nieco arbitralny. Idealnie, każdy wybór kary w ramach algorytmu powinien opierać się na odpowiedniej funkcji kosztów rzeczywistych związanej z potencjalnym błędem (tj. Przy użyciu ram decyzyjnych). Dlaczego najpierw nie ustanowić tej zasady, a potem przekonać się, jak możemy sobie poradzić?

— Benedykt MJG
źródło

2

Wybór zależy również od aplikacji. OLS jest przydatny w algebraicznych dopasowaniach w osi Y, ale mniej w aplikacjach geometrycznych, w których całkowita najmniejsza liczba kwadratów (lub inna funkcja kosztu oparta na odległości ortogonalnej) ma większy sens.

— Willie Wheeler,

4

Innym powszechnym nieporozumieniem jest to, że termin błędu (lub zaburzenie w języku ekonometrycznym) i reszty są tym samym.

Błąd jest zmienną losową w prawdziwym modelu lub procesie generowania danych i często przyjmuje się, że podąża za pewnym rozkładem, podczas gdy reszty są odchyleniami obserwowanych danych od dopasowanego modelu. Jako takie, wartości rezydualne można uznać za oszacowania błędów.

— Robert Long
źródło

Założę się, że ludzie byliby zainteresowani wyjaśnieniem, dlaczego to ma znaczenie lub w jakich przypadkach.

— rolando2

4

Najczęstszym nieporozumieniem, jakie napotykam, jest to, że regresja liniowa zakłada normalność błędów. Tak nie jest. Normalność jest przydatna w połączeniu z niektórymi aspektami regresji liniowej, np. Właściwościami małej próbki, takimi jak granice ufności współczynników. Nawet dla tych rzeczy dostępne są wartości asymptotyczne dla rozkładów niestandardowych.

Drugim najczęściej spotykanym jest skupisko nieporozumień w odniesieniu do endogeniczności, np. Brak ostrożności w przypadku pętli sprzężenia zwrotnego. Jeśli występuje pętla sprzężenia zwrotnego od Y z powrotem do X, to problem.

— Aksakal
źródło

4

Błąd, który popełniłem, polega na założeniu symetrii X i Y w OLS. Na przykład, jeśli założę zależność liniową aib podaną przez moje oprogramowanie używające OLS, to uważam, że przyjęcie X jako funkcji Y da za pomocą OLS współczynniki: to źle.

Y = a X + b

$Y = a \, X + b$

X = \frac{1}{a} Y - \frac{b}{a}

$X = \frac{1}{a} \, Y - \frac{b}{a}$

Być może jest to również związane z różnicą między OLS a całkowitym najmniejszym kwadratem lub pierwszym głównym składnikiem.

— Jf Parmentier
źródło

3

To, co często widziałem, to błędne przekonanie o stosowaniu regresji liniowej w niektórych przypadkach użycia, w praktyce.

Powiedzmy na przykład, że zmienna, która nas interesuje, to liczba czegoś (przykład: odwiedzający witrynę) lub stosunek czegoś (przykład: współczynnik konwersji). W takich przypadkach zmienną można lepiej modelować za pomocą funkcji łącza, takich jak Poisson (liczby), Beta (wskaźniki) itp. Tak więc bardziej odpowiednie jest zastosowanie modelu uogólnionego z bardziej odpowiednią funkcją łącza. Ale tylko dlatego, że zmienna nie jest kategoryczna, widziałem ludzi zaczynających się od prostej regresji liniowej (funkcja łącza = tożsamość). Nawet jeśli pominiemy implikacje dotyczące dokładności, założenia modelowania stanowią tutaj problem.

— hssay
źródło

2

Oto, jak sądzę, naukowcy często pomijają:

Zmienna interakcja: badacze często patrzą na pojedyncze bety poszczególnych predyktorów i często nawet nie określają terminów interakcji. Ale w prawdziwym świecie rzeczy współdziałają. Bez odpowiedniej specyfikacji wszystkich możliwych terminów interakcji nie wiesz, w jaki sposób twoje „predyktory” współdziałają w tworzeniu wyniku. A jeśli chcesz być sumienny i określić wszystkie interakcje, liczba predyktorów wybuchnie. Z moich obliczeń możesz zbadać tylko 4 zmienne i ich interakcje ze 100 podmiotami. Jeśli dodasz jeszcze jedną zmienną, możesz bardzo łatwo się dopasować.

— użytkownik4534898
źródło

0

Innym powszechnym nieporozumieniem jest to, że szacunki (dopasowane wartości) nie są niezmienne dla przekształceń, np

f ({\hat{y}}_{i}) \neq \hat{f (y_{i})}

$f(\hat{y}_i) \neq \widehat{f(y_i)}$ ogólnie, gdzie , dopasowana wartość regresji od szacowanych współczynników regresji.

{\hat{y}}_{i} = {\vec{x}}_{i}^{T} \hat{β}

$\hat{y}_i = \vec{x}_i ^T \hat{\beta}$

Jeśli tego właśnie potrzebujesz dla funkcji monotonicznych niekoniecznie liniowych, to chcesz regresji kwantylowej. $f(\cdot)$

Powyższa równość obowiązuje w regresji liniowej dla funkcji liniowych, ale funkcje nieliniowe (np. ) nie zostaną zachowane. Będzie to jednak dotyczyć dowolnej funkcji monotonicznej w regresji kwantowej. $log(\cdot)$

Pojawia się to przez cały czas, gdy przeprowadzasz transformację logiczną danych, dopasowujesz regresję liniową, a następnie wykładnik dopasowanej wartości i ludzie czytają to jako regresję. To nie jest średnia, to jest mediana (jeśli rzeczy są naprawdę log-normalnie rozłożone).

— Lucas Roberts
źródło