Prawdą jest, że założenia regresji liniowej nie są realistyczne. Dotyczy to jednak wszystkich modeli statystycznych. „Wszystkie modele są błędne, ale niektóre są przydatne”.
Wydaje mi się, że masz wrażenie, że nie ma powodu, aby używać regresji liniowej, gdy można użyć bardziej złożonego modelu. Nie jest to prawdą, ponieważ na ogół bardziej złożone modele są bardziej podatne na nadmierne dopasowanie i wykorzystują więcej zasobów obliczeniowych, co jest ważne, jeśli np. Próbujesz wykonać statystyki na wbudowanym procesorze lub serwerze internetowym. Prostsze modele są również łatwiejsze do zrozumienia i interpretacji; przeciwnie, złożone modele uczenia maszynowego, takie jak sieci neuronowe, wydają się być mniej więcej czarnymi skrzynkami.
Nawet jeśli regresja liniowa pewnego dnia przestanie być praktycznie użyteczna (co wydaje się niezwykle mało prawdopodobne w przewidywalnej przyszłości), nadal będzie teoretycznie ważna, ponieważ bardziej złożone modele zwykle opierają się na regresji liniowej jako podstawie. Na przykład, aby zrozumieć znormalizowaną regresję logistyczną z mieszanymi efektami, musisz najpierw zrozumieć zwykłą regresję liniową.
Nie oznacza to, że bardziej złożone, nowsze i bardziej lśniące modele nie są przydatne ani ważne. Wielu z nich jest. Ale prostsze modele mają szersze zastosowanie, a tym samym ważniejsze, i oczywiście warto zaprezentować je jako pierwsze, jeśli zamierzasz zaprezentować różne modele. W dzisiejszych czasach jest wiele złych analiz danych przeprowadzanych przez ludzi, którzy nazywają siebie „naukowcami danych” lub czymś podobnym, ale nawet nie znają podstawowych informacji, takich jak przedział ufności. Nie bądź statystyką!