Czytałem rozdział dotyczący regresji wielokrotnej analizy danych i grafiki przy użyciu R: podejście oparte na przykładach i byłem nieco zdezorientowany, gdy dowiedziałem się, że zaleca sprawdzanie liniowych zależności między zmiennymi objaśniającymi (za pomocą wykresu rozrzutu), a jeśli nie ma t dowolny, przekształcając je tak, oni mają stać się bardziej liniowo zależne. Oto kilka fragmentów tego:
6.3 Strategia dopasowania modeli regresji wielokrotnej
(...)
Sprawdź macierz wykresu rozrzutu obejmującą wszystkie zmienne objaśniające. (Uwzględnienie zmiennej zależnej jest w tym momencie opcjonalne. ) Najpierw poszukaj dowodów nieliniowości na wykresach zmiennych objaśniających względem siebie.
(...)
Ten punkt identyfikuje strategię wyszukiwania modeli - szukaj modeli, w których relacje regresji między zmiennymi objaśniającymi mają „prostą” formę liniową . Tak więc, jeśli niektóre wykresy parami wykazują dowody nieliniowości, rozważ zastosowanie transformacji, aby uzyskać bardziej zbliżone relacje liniowe . Chociaż niekoniecznie może okazać się możliwe, zgodnie z tą strategią, odpowiednie modelowanie relacji regresji, jest to dobra strategia, z podanych poniżej powodów, do naśladowania przy rozpoczynaniu wyszukiwania.
(...)
Jeśli relacje między zmiennymi objaśniającymi są w przybliżeniu liniowe, być może po transformacji, możliwe jest z pewnością interpretowanie wykresów zmiennych predykcyjnych względem zmiennej odpowiedzi z pewnością.
(...)
Znalezienie transformacji jednej lub więcej zmiennych objaśniających, które zapewnią, że relacje (parami) pokazane na panelach będą liniowe, może być niemożliwe. Może to stwarzać problemy zarówno dla interpretacji wykresów diagnostycznych dla dowolnego dopasowanego równania regresji, jak i dla interpretacji współczynników w dopasowanym równaniu. Patrz Cook i Weisberg (1999).
Czy nie powinienem martwić się liniowymi zależnościami między zmiennymi zależnymi (z powodu ryzyka wielokoliniowości) zamiast aktywnie je śledzić? Jakie są zalety posiadania w przybliżeniu liniowo powiązanych zmiennych?
Autorzy zajmują się kwestią wielokoliniowości w dalszej części rozdziału, ale zalecenia te wydają się być w sprzeczności z unikaniem wielokoliniowości.