Wyjaśnij różnicę między regresją wielokrotną a regresją wielowymiarową przy minimalnym użyciu symboli / matematyki


Odpowiedzi:


54

Bardzo szybko powiedziałbym: „wielokrotność” odnosi się do liczby predyktorów, które wchodzą do modelu (lub równoważnie macierzy projektowej) z jednym wynikiem (odpowiedź Y), podczas gdy „wielowymiarowa” odnosi się do macierzy wektorów odpowiedzi. Nie pamiętam autora, który zaczyna od tego rozważania na temat modelowania wielowymiarowego, ale myślę, że to Brian Everitt w swoim podręczniku An R and S-Plus Companion to Multivariate Analysis . W celu dokładnej dyskusji na ten temat proponuję zajrzeć do jego najnowszej książki, Multivariable Modeling and Multivariate Analysis for the Behavioural Sciences .

Dla „variate”, powiedziałbym, że jest to powszechny sposób odnosić się do każdej zmiennej losowej, która następuje znaną lub hipotezę, dystrybucji, na przykład mówimy o Gaussa zmiennymi jako seria obserwacji zaczerpniętych z rozkładem normalnym (z parametrami ľ i σ 2 ). W kategoriach probabilistycznych powiedzieliśmy, że są to niektóre losowe realizacje X, z oczekiwaniami matematycznymi μ , a około 95% z nich leży w przedziale [ μ - 2 σ ; μ + 2 σ ] .Xjaμσ2)μ[μ-2)σ;μ+2)σ]


1
Nawet coursera.org/learn/machine-learning/home/week/2 używa terminu regresja wielowymiarowa zamiast regresji wielokrotnej…
Franck Dernoncourt

Myślę, że to samo zamieszanie pojawia się w przypadku osób używających terminu GLM dla ogólnego modelu liniowego (np. W badaniach neuroobrazowania) vs. uogólnionego modelu liniowego. Widziałem wiele przypadków „wielowymiarowej regresji logistycznej”, w których występuje tylko jeden wynik, i nie sądzę, żeby to miało tak duże znaczenie, o ile ten termin jest jasno zdefiniowany przez autora.
chl

39

Oto dwa ściśle powiązane przykłady ilustrujące pomysły. Przykłady są nieco skoncentrowane na USA, ale pomysły można ekstrapolować na inne kraje.

Przykład 1

Załóżmy, że uniwersytet chce doprecyzować kryteria przyjęć, aby przyjęły „lepszych” studentów. Załóżmy również, że ocena studenta Średnia punktowa (GPA) jest tym, co uniwersytet chce wykorzystać jako wskaźnik wydajności dla studentów. Mają na uwadze kilka kryteriów, takich jak GPA (HSGPA), wyniki SAT (SAT), płeć itp. I chcieliby wiedzieć, które z tych kryteriów mają znaczenie dla GPA.

Rozwiązanie: regresja wielokrotna

W powyższym kontekście istnieje jedna zmienna zależna (GPA) i masz wiele zmiennych niezależnych (HSGPA, SAT, Płeć itp.). Chcesz dowiedzieć się, która z zmiennych niezależnych jest dobrym predyktorem dla zmiennej zależnej. Aby dokonać tej oceny, użyłbyś regresji wielokrotnej.

Przykład 2

Zamiast powyższej sytuacji, załóżmy, że biuro rekrutacyjne chce śledzić wyniki uczniów w czasie i chce ustalić, które z ich kryteriów wpływają na wyniki uczniów w czasie. Innymi słowy, mają wyniki GPA za cztery lata, które uczeń pozostaje w szkole (powiedzmy, GPA1, GPA2, GPA3, GPA4) i chcą wiedzieć, która z niezależnych zmiennych przewiduje lepsze wyniki GPA z roku na rok podstawa roku. Biuro przyjęć ma nadzieję stwierdzić, że te same niezależne zmienne przewidują wyniki na wszystkie cztery lata, więc ich wybór kryteriów przyjęć gwarantuje, że wyniki uczniów będą niezmiennie wysokie przez wszystkie cztery lata.

Rozwiązanie: regresja wielowymiarowa

W przykładzie 2 mamy wiele zmiennych zależnych (tj. GPA1, GPA2, GPA3, GPA4) i wiele zmiennych niezależnych. W takiej sytuacji użyłbyś regresji wielowymiarowej.


2
Zawsze jest taki, który poprawnie odpowiada na pytanie z przykładami :)
Tjorriemorrie

W 100% najlepsza odpowiedź, jaką możesz naprawdę zrozumieć
Alvis

21

yxy=fa(x)

y=fa(x1,x2),...,xn)

y1,y2),...,ym=fa(x1,x2),...,xn)y11,y12,...x11,x12,...Y=fa(X)

Dalsza lektura:


Rozumiem definicję. Ale jaki jest wpływ traktowania regresji wielowariantowej jako systemu regresji jednozmiennej?
LKS,

@LKS: Możesz zadać to pytanie w osobnym pytaniu.
stackoverflowuser2010


Czy odpowiedź w Quora odnosi się do tej strony? : P
Habeeb Perwad

4

Myślę, że kluczowym spostrzeżeniem (i wyróżnikiem) tutaj oprócz liczby zmiennych po obu stronach równania jest to, że w przypadku regresji wielowymiarowej celem jest wykorzystanie faktu, że istnieje (ogólnie) korelacja między zmiennymi odpowiedzi (lub wyniki). Na przykład w badaniu medycznym predyktorami mogą być waga, wiek i rasa, a zmiennymi wynikowymi są ciśnienie krwi i cholesterol. Teoretycznie moglibyśmy stworzyć dwa modele „regresji wielokrotnej”, jeden regresujący ciśnienie krwi na wagę, wiek i rasę, a drugi model regresujący cholesterol na tych samych czynnikach. Alternatywnie moglibyśmy stworzyć jeden model regresji wielowymiarowej, który przewiduje obaciśnienie krwi i cholesterol jednocześnie w oparciu o trzy zmienne predykcyjne. Chodzi o to, że model regresji wielowymiarowej może być lepszy (bardziej przewidywalny) w zakresie, w jakim może dowiedzieć się więcej na temat korelacji między ciśnieniem krwi a cholesterolem u pacjentów.


Świetny punkt Zastanawiałem się, czy regresji wielowymiarowej można dokonać za pomocą R. Korzystając z Manova, jestem w stanie wykonać ANOVA wielowymiarową, ale nie jestem w stanie uzyskać współczynników takich jak regresja jednoczynnikowa.
KarthikS

1

W regresji wielowymiarowej istnieje więcej niż jedna zmienna zależna o różnych wariancjach (lub rozkładach). Zmienne predykcyjne mogą być więcej niż jedną lub wielokrotnością. Może to być regresja wielokrotna z macierzą zmiennych zależnych, tj. Wiele wariancji. Ale kiedy mówimy o regresji wielokrotnej, mamy na myśli tylko jedną zmienną zależną z jednym rozkładem lub wariancją. Zmienne predykcyjne są więcej niż jedną. Podsumowując wielokrotność odnosi się do więcej niż jednej zmiennej predykcyjnej, ale wielowymiarowa odnosi się do więcej niż jednej zmiennej zależnej.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.