Czy regresja liniowa jest przestarzała? [Zamknięte]


12

Obecnie uczęszczam na klasę regresji liniowej, ale nie mogę pozbyć się wrażenia, że ​​to, czego się uczę, nie ma już znaczenia ani w nowoczesnej statystyce, ani w uczeniu maszynowym. Dlaczego tyle czasu spędza się na wnioskowaniu o prostej lub wielokrotnej regresji liniowej, skoro tak wiele interesujących zbiorów danych często narusza wiele nierealistycznych założeń regresji liniowej? Dlaczego zamiast tego nie uczyć wnioskowania na temat bardziej elastycznych, nowoczesnych narzędzi, takich jak regresja za pomocą maszyn wektorów wspierających lub procesu Gaussa? Chociaż nie jest to bardziej skomplikowane niż znalezienie hiperpłaszczyzny w przestrzeni kosmicznej, czy nie zapewniłoby to uczniom lepszego zaplecza do rozwiązywania współczesnych problemów?


10
Czy śrubokręty powodują, że młotki stają się przestarzałe? Czy każde z nich wykonuje inne zadanie?
Sycorax mówi Przywróć Monikę

6
Mam narzędzie wielofunkcyjne, które działa jak nóż, piła, kilka różnych śrubokrętów, para szczypiec i prawdopodobnie kilka innych rzeczy, ale kiedy potrzebuję któregoś z tych narzędzi, jest to ostatnia rzecz, po którą sięgam. Przydaje się tylko w mgnieniu oka, nigdy nie jest „najlepszym narzędziem do pracy”.
Darren

7
Wiele, wiele sytuacji, w których spotykają się prawdziwi ludzie, wiąże się z bardzo małymi zbiorami danych o wysokim poziomie hałasu; w wielu przypadkach bardziej złożone modele nie są wykonalne, podczas gdy przynajmniej dobry ułamek czasu, w którym zwykły model liniowy jest co najmniej możliwy do utrzymania. Podczas gdy duże zbiory danych (i związane z nimi problemy) będą nadal rosły jako część całkowitej analizy danych, która ma miejsce, bardzo małe zbiory danych i stosunkowo proste analizy, na których się opierają, nigdy nie znikną. Co więcej, bardziej wyrafinowane narzędzia są budowane bezpośrednio na prostszych, nie tylko historycznych, ale i koncepcyjnych.
Glen_b

6
Oprócz wielu sytuacji, w których regresja liniowa ma nadal praktyczne zastosowanie, warto również zauważyć, że ma ona fundamentalne znaczenie w poznawaniu szerokiej klasy bardziej wyrafinowanych modeli addytywnych. W związku z tym pytanie to przypomina pytanie, czy rachunek powoduje, że arytmetyka staje się przestarzała.
Jacob Socolar

1
@Aksakal Proszę opracować. Co z wykorzystaniem w optymalizacji Bayesa?
Mark L. Stone,

Odpowiedzi:


24

Prawdą jest, że założenia regresji liniowej nie są realistyczne. Dotyczy to jednak wszystkich modeli statystycznych. „Wszystkie modele są błędne, ale niektóre są przydatne”.

Wydaje mi się, że masz wrażenie, że nie ma powodu, aby używać regresji liniowej, gdy można użyć bardziej złożonego modelu. Nie jest to prawdą, ponieważ na ogół bardziej złożone modele są bardziej podatne na nadmierne dopasowanie i wykorzystują więcej zasobów obliczeniowych, co jest ważne, jeśli np. Próbujesz wykonać statystyki na wbudowanym procesorze lub serwerze internetowym. Prostsze modele są również łatwiejsze do zrozumienia i interpretacji; przeciwnie, złożone modele uczenia maszynowego, takie jak sieci neuronowe, wydają się być mniej więcej czarnymi skrzynkami.

Nawet jeśli regresja liniowa pewnego dnia przestanie być praktycznie użyteczna (co wydaje się niezwykle mało prawdopodobne w przewidywalnej przyszłości), nadal będzie teoretycznie ważna, ponieważ bardziej złożone modele zwykle opierają się na regresji liniowej jako podstawie. Na przykład, aby zrozumieć znormalizowaną regresję logistyczną z mieszanymi efektami, musisz najpierw zrozumieć zwykłą regresję liniową.

Nie oznacza to, że bardziej złożone, nowsze i bardziej lśniące modele nie są przydatne ani ważne. Wielu z nich jest. Ale prostsze modele mają szersze zastosowanie, a tym samym ważniejsze, i oczywiście warto zaprezentować je jako pierwsze, jeśli zamierzasz zaprezentować różne modele. W dzisiejszych czasach jest wiele złych analiz danych przeprowadzanych przez ludzi, którzy nazywają siebie „naukowcami danych” lub czymś podobnym, ale nawet nie znają podstawowych informacji, takich jak przedział ufności. Nie bądź statystyką!


Czy możesz wyjaśnić, co rozumiesz przez „model złożony”? Czy OP oznacza to samo?
Hatszepsut

1
@ Hatszepsut Praktycznie wszystko, co nie jest tylko regresją liniową lub jej szczególnym przypadkiem. OP podał SVM i modele procesu Gaussa jako przykłady. Wspomniałem o modelach mieszanych, regresji logistycznej i regresji karnej. Niektóre inne przykłady to drzewa decyzyjne, sieci neuronowe, MARS, bayesowskie modele hierarchiczne i modele równań strukturalnych. Jeśli zastanawiasz się, w jaki sposób zdecydujemy, czy jeden model jest bardziej złożony niż inny, lub co dokładnie liczy się jako model, są to pytania wzajemnie sprawdzone.
Kodiolog

„Przeuczenie”; jak użycie wielomianu dziewiątego rzędu w celu dopasowania do czegoś, co okazało się ważoną sumą wykładniczych. Pasowało tak dobrze, że fabuła odtwarza błędy instrumentu tuż powyżej poziomu hałasu. Nadal zastanawiam się, czy użycie tego wielomianu byłoby lepsze.
Jozuego

7

Regresja liniowa ogólnie nie jest przestarzała . Nadal są ludzie, którzy pracują nad badaniami dotyczącymi metod związanych z LASSO i ich związku z wieloma testami, na przykład - możesz google Emmanuel Candes i Malgorzata Bogdan.

Jeśli pytasz w szczególności o algorytm OLS, odpowiedzią, dlaczego uczą tego, jest to, że metoda jest tak prosta, że ​​ma rozwiązanie w formie zamkniętej. Jest to również po prostu prostsze niż regresja kalenicy lub wersja z lasso / elasticnet. Możesz zbudować intuicję / dowody na rozwiązaniu prostej regresji liniowej, a następnie wzbogacić model o dodatkowe ograniczenia.


3

Nie sądzę, aby regresja była stara, może być uważana za trywialną w przypadku niektórych problemów, z którymi borykają się obecnie naukowcy danych, ale nadal jest ABC analizy statystycznej. Jak należy zrozumieć, czy SVM działa poprawnie, jeśli nie wiesz, jak działa najprostszy model? Korzystanie z tak prostego narzędzia nauczy Cię, jak patrzeć na dane, zanim przejdziesz do szalonych skomplikowanych modeli i głęboko zrozumieć, które narzędzia można wykorzystać w dalszej analizie, a które nie. Po rozmowie z moim profesorem i moim kolegą powiedziała mi, że jej uczniowie świetnie sobie radzą ze stosowaniem złożonych modeli, ale nie mogli zrozumieć, na czym polega dźwignia, lub przeczytać prosty wykres qq, aby zrozumieć, co jest nie tak z danymi. Często w najprostszym i czytelnym modelu stoi piękno.


3

Krótka odpowiedź brzmi: nie . Na przykład, jeśli spróbujesz modelu liniowego z danymi MNIST, nadal uzyskasz ~ 90% dokładności!

Długa odpowiedź brzmiałaby „w zależności od dziedziny”, ale powszechnie stosuje się model liniowy.

  • Na przykład w niektórych dziedzinach, na przykład w badaniach medycznych, uzyskanie jednego punktu danych jest bardzo drogie. A prace analityczne są nadal podobne do wielu lat temu: regresja liniowa nadal odgrywa bardzo ważną rolę.

  • W uczeniu maszynowym morden, powiedzmy, klasyfikacji tekstu, model liniowy jest nadal bardzo ważny, chociaż istnieją inne bardziej wyszukane modele. Wynika to z faktu, że model liniowy jest bardzo „stabilny”, dlatego mniej lubi nadmiernie dopasowywać dane.

Wreszcie model liniowy jest tak naprawdę elementami składowymi większości innych modeli. Uczenie się dobrze przyniesie korzyści w przyszłości.


2

W praktyce regresja liniowa jest przydatna, nawet jeśli używasz bardziej złożonego modelu do swojej pracy. Kluczem jest to, że regresja liniowa jest łatwa do zrozumienia, a zatem łatwa w użyciu, aby koncepcyjnie zrozumieć, co dzieje się w bardziej złożonych modelach.

Mogę zaoferować praktyczny przykład zastosowania z mojej prawdziwej pracy na żywo jako analityk statystyczny. Jeśli znajdziesz się na wolności, bez nadzoru, z dużym zestawem danych, a twój szef poprosi cię o przeprowadzenie analizy, od czego zacząć? Cóż, jeśli nie znasz zestawu danych i nie masz pojęcia, w jaki sposób różne funkcje powinny się ze sobą odnosić, to złożony model, taki jak te, które zasugerowałeś, jest złym miejscem do rozpoczęcia badań.

Zamiast tego najlepszym miejscem do rozpoczęcia jest prosta stara regresja liniowa. Wykonaj analizę regresji, spójrz na współczynniki i wykreśl resztki. Gdy zaczniesz widzieć, co się dzieje z danymi, możesz podjąć decyzję, jakie zaawansowane metody zamierzasz zastosować.

Twierdzę, że jeśli po prostu podłączyłeś swoje dane do jakiegoś zaawansowanego modelu czarnej skrzynki, takiego jak sklearn.svm (jeśli jesteś w Pythonie), to będziesz miał bardzo małą pewność, że twoje wyniki będą znaczące.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.