Wielokoliniowość, gdy poszczególne regresje są znaczące, ale VIF są niskie

13

Mam 6 zmiennych ( ), których używam do przewidywania . Podczas przeprowadzania analizy danych najpierw wypróbowałem wielokrotną regresję liniową. Z tego tylko dwie zmienne były znaczące. Kiedy jednak przeprowadziłem regresję liniową, porównując każdą zmienną indywidualnie z wartością , wszystkie oprócz jednej były znaczące ( wszędzie od mniej niż 0,01 do mniej niż 0,001). Sugerowano, że było to spowodowane wielokoliniowością. $x_{1}...x_{6}$ $y$ $y$ $p$

Moje wstępne badania na ten temat sugerują sprawdzenie wielokoliniowości za pomocą VIF . Pobrałem odpowiedni pakiet z R i otrzymałem wynikowe pliki VIF: 3,35, 3,59, 2,64, 2,24 i 5,56. Według różnych źródeł online, powinieneś martwić się o wielokoliniowość swoich VIF na 4 lub 5.

Jestem teraz zaskoczony, co to oznacza dla moich danych. Czy mam lub nie mam problemu z wielokoliniowością? Jeśli tak, to jak mam postępować? (Nie mogę zebrać więcej danych, a zmienne są częściami modelu, które nie są w oczywisty sposób powiązane) Jeśli nie mam tego problemu, to co powinienem wziąć z moich danych, szczególnie fakt, że zmienne te są bardzo znaczące indywidualnie, ale nieistotne w połączeniu.

Edycja: Zadano kilka pytań dotyczących zestawu danych, dlatego chciałbym rozwinąć ...

W tym konkretnym przypadku chcemy zrozumieć, w jaki sposób określone sygnały społeczne (gest, spojrzenie itp.) Wpływają na prawdopodobieństwo, że ktoś wygeneruje jakiś inny sygnał. Chcielibyśmy, aby nasz model zawierał wszystkie znaczące atrybuty, więc niekomfortowo usuwam niektóre, które wydają się zbędne.

W tej chwili nie ma żadnych hipotez. Problem raczej nie jest badany, a my chcemy lepiej zrozumieć, jakie atrybuty są ważne. O ile mi wiadomo, atrybuty te powinny być względnie niezależne od siebie (nie można po prostu powiedzieć, że wzrok i gesty są takie same lub stanowią podzbiór innego). Byłoby miło móc raportować wartości p dla wszystkiego, ponieważ chcielibyśmy, aby inni badacze zrozumieli, na co patrzyliśmy.

Edycja 2: Ponieważ pojawiło się gdzieś poniżej, moje wynosi 24. $n$

multiple-regression multicollinearity vif

— cryptic_star
źródło

Zakładając, że masz wielokoliniowość, czy możesz rozwinąć, jak sugeruje @ rolando2, zamierzony cel modelu? Czy jest tak, że wszystkie predyktory są ważne dla innych badaczy (w takim przypadku chcielibyście zgłosić poziomy istotności dla każdego z nich), czy może po prostu wyrzucić jeden lub dwa z nich?

@ jlovegren Dodałem kilka informacji powyżej - daj mi znać, jeśli potrzebujesz więcej informacji.

— cryptic_star

Czy zmienne objaśniające są mierzone w skali ciągłej? W takim przypadku istnieją metody resualizacji, które nie są zbyt trudne. Jeśli są kategoryczne, nie wiem, ale mam nadzieję, że zrobiłby to ktoś inny (zadałem podobne pytanie na tej stronie).

@jlovegren Pięć z sześciu zmiennych to liczby.

— cryptic_star

jeszcze jedno, dla pewności. czy liczby mają wyraźną górną granicę, która jest często osiągana, czy też maksymalna wartość liczby jest zasadniczo nieograniczona?

18

Aby zrozumieć, co może się wydarzyć, pouczające jest generowanie (i analizowanie) danych, które zachowują się w opisany sposób.

Dla uproszczenia zapomnijmy o szóstej zmiennej niezależnej. Pytanie opisuje zatem regresje jednej zmiennej zależnej względem pięciu zmiennych niezależnych , w których $y$ $x_1, x_2, x_3, x_4, x_5$

Każda regresja zwykła jest znacząca na poziomach od do mniej niż . $y \sim x_i$ $0.01$ $0.001$
Regresja wielokrotna daje znaczące współczynniki tylko dla i . $y \sim x_1 + \cdots + x_5$ $x_1$ $x_2$
Wszystkie czynniki inflacji wariancji (VIFs) są niskie, co wskazuje na dobrą klimatyzację w macierzy planu (czyli brak Kolinearność wśród ). $x_i$

Zróbmy to następująco:

Wygeneruj normalnie rozłożonych wartości dla i . (Wybramy później.) $n$ $x_1$ $x_2$ $n$
Niech gdzie jest niezależnym błędem normalnym średniej . Potrzebne są pewne próby i błędy, aby znaleźć odpowiednie standardowe odchylenie dla ; działa dobrze (i jest dość dramatyczna: jest bardzo dobrze koreluje z i , mimo że jest tylko umiarkowanie skorelowane z i indywidualnie). $y = x_1 + x_2 + \varepsilon$ $\varepsilon$ $0$ $\varepsilon$ $1/100$ $y$ $x_1$ $x_2$ $x_1$ $x_2$
Niech = , , gdzie jest niezależny normalny błąd standardowy. To sprawia, że tylko nieznacznie zależy od . Jednak dzięki ścisłej korelacji między i indukuje to niewielką korelację między a tymi . $x_j$ $x_1/5 + \delta$ $j=3,4,5$ $\delta$ $x_3,x_4,x_5$ $x_1$ $x_1$ $y$ $y$ $x_j$

Oto rub: jeśli zrobimy wystarczająco duże, te niewielkie korelacje spowodują znaczące współczynniki, nawet jeśli jest prawie całkowicie „wyjaśnione” tylko przez dwie pierwsze zmienne. $n$ $y$

Stwierdziłem, że działa dobrze przy odtwarzaniu zgłaszanych wartości p. Oto macierz rozrzutu wszystkich sześciu zmiennych: $n=500$

spm

Sprawdzając prawą kolumnę (lub dolny wiersz), możesz zobaczyć, że ma dobrą (dodatnią) korelację z i ale mało widoczną korelację z innymi zmiennymi. Sprawdzając resztę tej macierzy, możesz zobaczyć, że zmienne niezależne wydają się wzajemnie nieskorelowane (losowe $y$ $x_1$ $x_2$ $x_1, \ldots, x_5$ $\delta$ maskować drobne zależności, o których wiemy, że istnieją). Nie ma żadnych wyjątkowych danych - nic strasznie odległego lub o dużej dźwigni. Nawiasem mówiąc, histogramy pokazują, że wszystkie sześć zmiennych jest w przybliżeniu normalnie rozmieszczonych: te dane są tak zwyczajne i „zwykłe waniliowe”, jak tylko można by chcieć.

W regresji względem i wartości p wynoszą zasadniczo 0. W poszczególnych regresjach względem , a następnie wobec , i wobec , wartości p wynoszą 0,0024, 0,0083 i odpowiednio 0,00064: to znaczy, że są „bardzo znaczące”. Ale w pełnej regresji wielokrotnej odpowiednie wartości p zwiększają się odpowiednio do 0,46, 0,36 i 0,52: wcale nieistotne. Powodem tego jest to, że po regresji względem i $y$ $x_1$ $x_2$ $y$ $x_3$ $y$ $x_4$ $y$ $x_5$ $y$ $x_1$ , tylko rzeczy pozostawione „wyjaśnić” to niewielka ilość błędów w reszt, które zbliży , a błąd ten jest prawie całkowicie niezwiązane z pozostałą . („Prawie” jest poprawne: istnieje naprawdę niewielki związek wynikający z faktu, że reszty zostały obliczone częściowo z wartości i a , , mają pewne słabe związek z i Ten pozostały związek jest jednak praktycznie niewykrywalny, jak widzieliśmy). $x_2$ $\varepsilon$ $x_i$ $x_1$ $x_2$ $x_i$ $i=3,4,5$ $x_1$ $x_2$

Liczba warunkowa macierzy projektowej wynosi tylko 2,17: jest to bardzo niska wartość, która nie wskazuje na żadną wysoką wielokoliniowość. (Idealny brak kolinearności znalazłby odzwierciedlenie w warunkowym numerze 1, ale w praktyce widać to tylko w przypadku sztucznych danych i zaprojektowanych eksperymentów. Liczby warunkowe w zakresie 1-6 (lub nawet więcej, przy większej liczbie zmiennych) są nieistotne.) To kończy symulację: udało się odtworzyć każdy aspekt problemu.

Ważne spostrzeżenia, jakie oferuje ta analiza

Wartości p nie mówią nam nic bezpośrednio o kolinearności. Zależą one silnie od ilości danych.
Zależności między wartościami p w regresjach wielokrotnych i wartościami p w regresjach pokrewnych (obejmujących podzbiory zmiennej niezależnej) są złożone i zwykle nieprzewidywalne.

W konsekwencji, jak twierdzili inni, wartości p nie powinny być twoim jedynym przewodnikiem (lub nawet głównym przewodnikiem) przy wyborze modelu.

Edytować

Nie jest konieczne, aby było tak duże, jak , aby pojawiły się te zjawiska. $n$ $500$ Zainspirowany dodatkowymi informacjami zawartymi w pytaniu, poniżej jest zestaw danych skonstruowany w podobny sposób przy (w tym przypadku dla ). To tworzy korelacje od 0,38 do 0,73 między a $n=24$ $x_j = 0.4 x_1 + 0.4 x_2 + \delta$ $j=3,4,5$ $x_{1-2}$ $x_{3-5}$ . Liczba warunków macierzy projektowej wynosi 9,05: trochę wysoka, ale nie straszna. (Niektóre podstawowe zasady mówią, że liczby stanów tak wysokie jak 10 są w porządku.) Wartości p poszczególnych regresji względem wynoszą 0,002, 0,015 i 0,008: od znaczących do bardzo znaczących. W ten sposób zaangażowana jest pewna wielokoliniowość, ale nie jest ona tak duża, że można by to zmienić. Podstawowy wgląd pozostaje taki sam $x_3, x_4, x_5$ : znaczenie i wielokoliniowość to różne rzeczy; istnieją tylko łagodne ograniczenia matematyczne; i możliwe jest włączenie lub wyłączenie nawet jednej zmiennej, która ma głęboki wpływ na wszystkie wartości p, nawet bez poważnej wielokoliniowości.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

— Whuber
źródło

Biorąc pod uwagę, że pracuję nad wyjaśnieniem związków między tymi zmiennymi i ich znaczeniem w przewidywaniu y, czy brak kolinearności mówi mi w zasadzie to, co powiedziało mi początkowa wielokrotna regresja liniowa: że tylko dwie zmienne są ważne? Gdyby zmienne wykazywały kolinearność, to czy oznaczałoby to, że kilka jest ważnych, ale dostarczają podobnych informacji? Daj mi znać, jeśli całkowicie mi brakuje sedna - w żadnym wypadku nie jestem ekspertem od statystyk.

— cryptic_star

Aha, i dodam to do mojego oryginalnego postu, ale moje n wynosi 24 (ludzie działają, więc to dość wysoko). Na podstawie Twojego postu mogę założyć, że właśnie dlatego ludzie z wielokoliniowością sugerują uzyskanie większej ilości danych - aby lepiej uwidocznić różnice.

— cryptic_star

n = 24

$n=24$

1

Re twój pierwszy komentarz: kolinearność sugeruje, że niektóre zmienne wyjaśniające (IV) mogą być zbędne, ale niekoniecznie tak jest. Istotne są relacje między IV i zmienną zależną (DV). Możliwe jest, że jedna z IV jest silnie zależna od innych IV, ale zawiera wyjątkowo przydatne informacje związane z DV. Jest to krytyczna koncepcja: żadna ilość analiz zależności między samymi IV nie powie ci, które zmienne najlepiej wyjaśniają DV. Brak kolinearności - własność wyłącznie IV - nie zdradza niczego na temat DV.

— whuber

9

Czy mam lub nie mam problemu z wielokoliniowością? Jeśli tak, to jak mam postępować?

To nie jest ani sytuacja ani. I jestem sceptyczny wobec wytycznych „4 lub 5”. Dla każdego z twoich predyktorów błąd standardowy współczynnika jest między 2,2 a 5,6 razy większy niż byłby, gdyby predyktor nie był skorelowany z innymi. Część danego predyktora, której nie można wyjaśnić innymi, wynosi od 1 / 2,2 do 1 / 5,6, czyli od 18% do 45%. W sumie wydaje się to dość znaczną kolinearnością.

Cofnijmy się jednak na chwilę. Czy naprawdę próbujesz przewidzieć * Y *, a nie próbujesz to wyjaśnić ? Jeśli to pierwsze, to nie sądzę, żebyś musiał dbać, czy poziom istotności danej zmiennej zmienia się, gdy inne są obecne w modelu. Twoja praca jest naprawdę o wiele łatwiejsza niż byłoby, gdyby potrzebne były prawdziwe wyjaśnienia.

Jeśli Twoim celem jest wyjaśnienie, musisz rozważyć sposób, w jaki te zmienne są ze sobą powiązane - coś, co wymaga więcej niż informacji statystycznych. Wyraźnie pokrywają się one w sposób odnoszą się one do Y , a to kolinearność będzie to trudne do ustalenia, na przykład, ich kolejność rangi znaczenie przy rozliczaniu Y . W tej sytuacji nie ma jednej wyraźnej ścieżki do naśladowania.

W każdym razie mam nadzieję, że rozważasz metody walidacji krzyżowej.

— rolando2
źródło

Ta odpowiedź, podobnie jak John, wydaje się mylić niskie wartości p z wysoką korelacją. Pamiętaj: standardowe błędy współczynników zmniejszają się wraz ze wzrostem ilości danych ( caeteris paribus ), więc niskie wartości p można uzyskać przy danych bez prawie żadnych korelacji, pod warunkiem obecności wystarczającej liczby obserwacji.

— whuber

Mylić niskie wartości p z wysoką korelacją? Pas du tout!

— rolando2

Następnie wyjaśnij, w jaki sposób ścisła koncepcja wartości p („błąd standardowy współczynnika jest między 2,2 a 5,6 razy większy niż byłby, gdyby predyktor nie był skorelowany z innymi”) prowadzi do wniosku, że „wydaje się to dość znaczące ilość kolinearności ”, która jest silnie związana z korelacją (miary kolinearności są właściwościami macierzy korelacji, gdy zmienne są standaryzowane).

— whuber

Patrzę na to w ten sposób. Gdy VIF wynosi 5,6, 82% wariancji w tym predyktorze może być uwzględnione przez inne predyktory. Nie rozumiem, jak mogłoby to zależeć od N.

— rolando2

1

Jako kontrapunkt tej pesymistycznej oceny (która ma pewne uzasadnienie w podstawowych regułach, takich jak wymaganie 5-10 razy więcej obserwacji niż zmiennych), warto zauważyć, że całe pola modelowania i analizy danych wyrosły wokół problemów, które mają niewiele obserwacje i wiele predyktorów, takich jak DACE (projektowanie i analiza eksperymentów komputerowych). Zobacz ressources-actuarielles.net/EXT/ISFA/1226.nsf/…, aby zapoznać się z referatem.

— whuber

6

Masz wielokoliniowość. Twoja wstępna analiza to wykazała. Jeśli chodzi o problem, to kolejne pytanie, które wydaje się mieć wiele odpowiedzi w twoim przypadku.

Może jeśli lepiej zrozumiesz podstawowy problem, bardziej oczywiste będzie, co robić? ...

Dzięki wielokoliniowości współczynniki regresji dotyczą unikalnego (znacznie bliższego do unikalnego) wkładu każdej zmiennej do modelu. Jeśli niektóre są ze sobą skorelowane, to unikalny wkład każdego z nich jest mniejszy. Prawdopodobnie częściowo dlatego, że żadne z nich nie jest znaczące, kiedy wszystkie są razem, ale gdy są używane osobno, mogą być.

Pierwszą rzeczą, którą prawdopodobnie musisz zrobić, to zastanowić się, co oznacza wzajemna korelacja między zmiennymi. Na przykład, czy masz kilka zmiennych, które reprezentują to samo? Czy zdarzyło ci się mierzyć swoje predyktory w złej skali i uzyskać przypadkowe korelacje? Nie próbuj naprawiać regresji, spróbuj zrozumieć swoje zmienne.

Rozważ X1 i X2 z bardzo silną korelacją między nimi, powiedzmy r = 0,90. Jeśli umieścisz X1 w modelu, który jest znaczącym predyktorem, inny model z samym X2 prawdopodobnie będzie również znaczący, ponieważ są one prawie tym samym. Jeśli umieścisz je w modelu razem, przynajmniej jeden z nich musi cierpieć, ponieważ regresja wielokrotna rozwiąże ich unikalny wkład. Oba mogą być nieistotne. Ale nie o to chodzi, chodzi o to, dlaczego tak bardzo się pokrywają i czy w ogóle mówią coś innego i czy ich potrzebujesz, czy nie? Być może jeden wyraża pomysł bardziej sensownie i bardziej związany ze zmienną odpowiedzi niż drugi. Może dojdziesz do wniosku, że są to te same rzeczy przy różnych poziomach zmienności.

Ponadto, gdy patrzymy na wszelkiego rodzaju modele, ale zwłaszcza z predyktorami wzajemnie skorelowanymi, wartości p są okropnym sposobem stwierdzenia, czy nowy predyktor ma znaczący wkład (jeśli to właśnie próbujesz zrobić ... nie wiesz, co próbuję to zrobić, ponieważ brzmi to tak, jakbyś tylko próbował uczynić regresję albo A) prostą, albo B) wyszedł tak, jak chcesz ... z których żaden nie jest możliwy). Prawdopodobnie najlepiej jest spojrzeć na AIC, aby pomóc ci określić, które predyktory powinieneś zachować, a które nic nie wnoszą.

— Jan
źródło

W jaki sposób niskie wartości p wykazują wielokoliniowość? Te dwie koncepcje są całkowicie różne. Przy wystarczającej ilości danych możesz mieć niskie wartości p i prawie nie mieć żadnej kolinearności.

— whuber

Właśnie o to walczę, John: doszedłeś do wniosku w pierwszym zdaniu, że to, co opisuje OP oznacza „masz wielokoliniowość”. Ale dokładnie to chce wiedzieć PO: „czy ja nie mam problemu z wielokoliniowością”? Twierdzę, że poprawna odpowiedź brzmi: „nie dostarczyłeś nam wystarczająco dużo informacji, ale prawdopodobnie nie”, ponieważ zjawiska opisane w pytaniu są całkowicie zgodne z dobrze uwarunkowanymi problemami. Rzeczywiście, niskie VIF zgłoszone przez PO sugerują, że twoje twierdzenie jest fałszywe.

— whuber

Nigdzie tego nie powiedziałem. Być może masz na myśli to, co powiedziałem o wstępnej analizie. Początkowa analiza była taka, że efekty bardzo się zmieniają w zależności od tego, jakie inne efekty zostały dodane. Stało się tak z powodu wielokolinearności (choć nie jest to ilościowe). Oczywiście znaczenie jest inną kwestią. Naprawdę nie wiem o co ci chodzi?

— John

Przepraszam Whuber za aktualizację komentarza, ale i tak działa dobrze ... czytelnicy, dwa ostatnie powyższe są odwrócone i to moja wina. Whuber, właśnie skupiłem się na słowie „problem”. Wielokoliniowość jest czymś, co określasz ilościowo. Jest trochę. Niezależnie od tego sugeruje intensywne myślenie o zmiennych. Sugeruje to również, że powodem, dla którego predyktory addytywne zmieniają się po dodaniu lub usunięciu, jest ta wielokoliniowość. Nie odniosłem wrażenia, że pytający naprawdę chciał uzyskać odpowiedź, że jest to „problem” obliczeniowy.

— John

Możliwe, że interpretujemy to pytanie na różne sposoby, John. Ponieważ nie chcę, aby moje komentarze były tutaj mylone, dodałem odpowiedź, aby wyjaśnić mój punkt widzenia.

— whuber

2

Osobiście do analizy kolinearności użyłbym indeksów warunków i tabeli wyjaśnień wariancji.

Nie użyłbym także wartości p jako kryterium do budowania modelu, a porównując modele z 6 IV z modelami z 1, przyjrzałbym się zmianom wielkości efektu parametru dla zmiennej, która jest obydwoma.

Ale z pewnością możesz uzyskać wyniki, o których wspominasz, bez kolinearności. Kolinearność dotyczy tylko zmiennych X i ich relacji. Ale dwie zmienne mogą silnie odnosić się do Y, ale nie są ze sobą silnie powiązane.

— Peter Flom - Przywróć Monikę
źródło

1

Wydaje mi się to nieintuicyjne, ponieważ dwie zmienne mogą silnie odnosić się do Y bez silnego powiązania ze sobą. Czy jest jakiś przykład, który mógłbyś mi wskazać, lub dłuższe wyjaśnienie?

— cryptic_star

@Peter - przy 1- (1 / 5.6) = 82% wariancji w tym ostatnim predyktorze wyjaśnionym przez innych, dlaczego mówicie, że może nie być kolinearności?

— rolando2

3

x_{1}

$x_1$

x_{2}

$x_2$

y = x_{1} + x_{2}

$y = x_1 + x_2$

y

$y$

x_{1}

$x_1$

x_{2}

$x_2$

x_{1}

$x_1$

x_{2}

$x_2$

0

Jeśli chodzi o wielokoliniowość, wspomina się o różnych progach, zwykle zbiegających się wokół VIF o wartości 10 odpowiadającej podstawowej wartości R Square wynoszącej 0,90 między badaną zmienną a innymi zmiennymi niezależnymi. VIF twoich zmiennych wydają się przejezdne i technicznie możesz je zachować w modelu.

Jednak użyłbym metody regresji krokowej, aby zobaczyć, która jest najlepsza kombinacja zmiennych i o ile więcej wyjaśnień (przyrostowy kwadrat R) można uzyskać, dodając zmienne. Arbitralnym testem porównawczym powinna być Skorygowana wartość R Square, która dostosowuje wartość R Square w dół poprzez karanie modelu za dodawanie zmiennych.

Twoje zmienne są nieco ze sobą skorelowane. Jest to nieuniknione, to tylko kwestia stopnia. Biorąc pod uwagę wspomniane VIF, intuicyjnie podejrzewam, że większość bitów informacji / wyjaśnień uzyskasz z najlepszej kombinacji 2 zmiennych. I to, że dodawanie zmiennych może dodawać tylko krańcową wartość przyrostową.

Patrząc na kombinację zmiennych wybranych w procesie regresji krokowej, przyjrzałbym się również tym, które zmienne są wybrane i czy ich znaki współczynników regresji są zgodne z ich korelacją zy. Jeśli nie są, może to wynikać z uzasadnionej interakcji między zmiennymi. Ale może to być również wynikiem nadmiernego dopasowania modelu i tego, że współczynniki regresji są fałszywe. Odzwierciedlają dopasowanie matematyczne, ale są pozbawione znaczenia pod względem przyczynowości.

Innym sposobem wyboru zmiennych jest decydowanie z logicznego punktu widzenia, które są głównymi 2 lub 3 zmiennymi, które powinny znajdować się w modelu. Zaczynasz od nich, a następnie sprawdzasz, o ile więcej informacji dostajesz, dodając zmienną. Sprawdź skorygowany kwadrat R, spójność współczynnika regresji w stosunku do pierwotnej regresji i oczywiście przetestuj wszystkie modele z okresem wstrzymania. Już wkrótce okaże się, jaki jest twój najlepszy model.

— Sympa
źródło

4

R_{a d j}^{2}

$R_{adj}^2$

Wiele zarysowanych problemów jest ogólnie związanych z modelem regresji liniowej. Nie jestem pewien, czy takie problemy techniczne są powodem do odrzucenia wszystkich metod regresji krokowej i ogólnie regresji liniowej. Nie jestem pewien, dlaczego regresja krokowa „wybiera się na podstawie zmiennej losowej, co powoduje wiele problemów”. Krokowo znajduje najlepsze dopasowanie, jak każdy model. Moim zdaniem ważniejsze jest, aby dopasowanie matematyczne odpowiadało podstawowej teorii lub logice problemu, który rozwiązujesz.

— Sympa,

3

R^{2}

$R^2$

R_{a d j}^{2}

$R_{adj}^2$

F

$F$

p

$p$

Gung, nie jestem pewien, czy mówimy o tym samym. Używam regresji krokowej na dwa sposoby. Jednym z nich jest manual, budujesz model przy użyciu najlepszego regresora. Do tego dodajesz drugą najlepszą zmienną, która najlepiej wyjaśnia błąd pierwszego modelu. I kontynuujesz, dopóki twój wynik AIC nie pogorszy się. Drugą metodą, którą zastosowałem, jest użycie oprogramowania XLStat, które automatyzuje proces i zostało opracowane przez Thierry Fahmy i jego zespół. Ma, że rozumiem doktorat z matematyki wraz z innymi w jego zespole. I nie jestem pewien, czy wpadliby we wszystkie pułapki, o których wspominałeś.

— Sympa,

2

Gaetan, myślę, że @ gung próbuje powiedzieć, że metody krokowe mogą spowodować poważne uszkodzenie początkowych ram regresji statystycznej (funkcja straty, wartości p itp.). Zobacz odpowiedzi i komentarze Franka Harrell jest tutaj . Regresja karana, jak omówiono w kilku wątkach, może być dobrą alternatywą. „(...) oprogramowanie automatyzujące proces” przypomina mi R fortune(224): nie ma tu trolla, po prostu chcę podkreślić, że niekoniecznie musisz ufać temu, co oprogramowanie automagicznie daje (lub oferuje) jako opcję.

— chl

0

Jeśli twoje zmienne objaśniające są danymi zliczającymi i założenie, że są one normalnie rozłożone, nie jest bezzasadne, możesz je przekształcić w standardowe zmienne normalne za pomocą scalepolecenia R. Może to zmniejszyć kolinearność. Ale to prawdopodobnie nie rozwiąże całego problemu.

Przydatna partia poleceń R do analizy i radzenia sobie z kolinearnością znajduje się na blogu Floriana Jaegera , w tym:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

Ta z.funkcja przekształca wektor w standardową zmienną normalną. Że r.funkcja zwraca znormalizowany pozostałości dla regresji jeden predyktorem przeciw drugiemu. Możesz użyć tego, aby skutecznie podzielić odchylenie modelu na różne transze , aby tylko niektóre zmienne miały dostęp do najbardziej uprzywilejowanej transzy, a następnie następna transza zostanie zaoferowana zmiennym zmienionym. (Przepraszamy za terminologię samodziałową). Więc jeśli model formularza

Y ~ A + B

cierpi na wielokoliniowość, możesz uruchomić dowolną z nich

Y ~ A + r.(B)
Y ~ r.(A) + B

tak, że tylko reszty zmiennej „transza młodsza” (po regresji względem zmiennej „transza uprzywilejowana”) są dopasowywane do modelu. W ten sposób jesteś chroniony przed wielokoliniowością, ale masz bardziej skomplikowany zestaw parametrów do zgłoszenia.