Naiwnie uważam, że regresja liniowa jest odpowiednia tylko wtedy, gdy podejrzewa się, że istnieją liniowe zależności funkcjonalne między zmiennymi objaśniającymi a zmiennymi odpowiedzi. Ale niewiele rzeczywistych aplikacji wydaje się spełniać to kryterium.
To nie jest poprawne zrozumienie tego, co jest „liniowe” w „regresji liniowej”.
Zakłada się, że nie ma związku między a , ponieważ ma on postać liniową (chociaż wszystkie elementarne przykłady mogą cię wprowadzić w błąd).yx
„Liniowy” odnosi się do modelu liniowego w parametrach, a nieliniowe relacje między a niektórymi można z pewnością modelować w ten sposób.yx
Jest przykładem z pojedynczym predyktorem tutaj , ale modele krzywoliniowych są coraz częściej wyposażone w regresji wielokrotnej, w których może wystąpić kilka funkcje prognostyk (x zmiennej, zmienna niezależna) w regresji, a to pozwala na dużą elastyczność. Obejmuje to na przykład regresję wielomianową. Zobacz kilka dyskusji i przykładów tutaj .
Jeśli jednak uwzględnimy fakt, że predyktory można transformować w celu dopasowania zakrzywionych relacji, liniowość parametrów odpowiada również liniowości w tych transformowanych predyktorach.
Ponadto wiele problemów jest zbliżonych do liniowych (przynajmniej w zakresie rozważanych wartości) lub są tak głośne, że nie można dostrzec żadnej łagodnej krzywizny, a różne proste modele zwiększającej się lub malejącej zależności mogą - w takim przypadku wybór liniowy może być zarówno odpowiedni, jak i najprostszy do dopasowania i zrozumienia.
O jakich aspektach projektu pomyślałby doświadczony statystyk, gdyby znalazł się w moich butach, szukając pytania + danych, które dobrze pasowałyby do regresji liniowej.
Jedyny raz, kiedy mogę znaleźć problem z regresją, to kiedy próbuję znaleźć dobry przykład do nauczania. Kiedy faktycznie jestem w stanie wykonywać prace statystyczne (zamiast wyjaśniać je lub uczyć), wybieram metodologię odpowiadającą interesującemu zagadnieniu (i charakterystyce danych), zamiast wybierać dane pasujące do metody.
Wyobraź sobie na przykład stolarza. Stolarz nie odbiera goleni i nie mówi „na czym mogę tego używać ?”. Stolarz ma raczej problem do rozwiązania, a biorąc pod uwagę jego charakterystykę („co próbuję zrobić?” I „jakiego rodzaju drewna używam?” Itd.), Mogą być określone narzędzia bardziej odpowiednie niż inne. Czasami dostępne narzędzia mogą ograniczać lub kierować wyborami (jeśli nie masz golarki, możesz zrobić coś innego ... lub możesz po prostu kupić golarkę).
Załóżmy jednak, że masz kiepskiego statystykę, który ci pomaga i próbujesz znaleźć problem odpowiedni do regresji liniowej. Następnie mogą zasugerować rozważenie różnych założeń regresji i ich znaczenia. Wspomnę o kilku rzeczach.
mi( y| sol( x ) )sol( x )solx∗= xmi( y| x∗) = a + b x ∗
Jeśli jesteś w stanie zastosować wielokrotną regresję, nawet nie jest to szczególnie poważny problem, ponieważ można użyć (na przykład) splajnów regresji sześciennej, aby dopasować dość ogólne relacje.
Sugerowałbym omijanie danych z czasem, chyba że rozumiesz problemy z fałszywą regresją; trzymać się problemów z przekrojem.
xx
x
Jeśli jesteś zainteresowany testowaniem hipotez, przedziałami ufności lub przedziałami prognoz, może mieć znaczenie więcej typowych założeń regresji (ale istnieją alternatywy, które nie uwzględniają tych założeń, aw niektórych przypadkach przynajmniej niektóre założenia mogą nie mieć znaczenia być szczególnie ważne).
Tak więc jedną rzeczą, o której należy przynajmniej wiedzieć, jest to, jakie są założenia przyjęte podczas uzyskiwania procedur wnioskowania, z których korzystasz i jak ważne mogą one być w twoim konkretnym problemie (na przykład podczas wykonywania zwykłych testów hipotez, normalność jest założeniem, ale w dużych próbach założenie to może nie być ważne; z drugiej strony założenie o stałej wariancji może być większym problemem).
Istnieje wiele postów, które omawiają założenia regresji, i niektóre posty, które dyskutują, kiedy trzeba je w ogóle zrobić, i ile mogą mieć znaczenie, a nawet w jakiej kolejności je wziąć pod uwagę.