Dlaczego potrzebujemy regresji wielowymiarowej (w przeciwieństwie do szeregu regresji jednowymiarowych)?


28

Właśnie przejrzałem tę cudowną książkę: Zastosowana wielowymiarowa analiza statystyczna autorstwa Johnsona i Wichern . Ironią jest to, że wciąż nie jestem w stanie zrozumieć motywacji do korzystania z modeli wielowymiarowych (regresyjnych) zamiast osobnych modeli jednowymiarowych (regresyjnych). Przeszedłem przez stats.statexchange posty 1 i 2, które wyjaśniają (a) różnicę między regresją wielowymiarową i wielowymiarową oraz (b) interpretację wyników regresji wielowymiarowej, ale nie jestem w stanie podnieść wykorzystania wielowymiarowych modeli statystycznych ze wszystkich informacji, które I uzyskać o nich informacje online.

Moje pytania to:

  1. Dlaczego potrzebujemy regresji wielowymiarowej? Jaka jest zaleta rozważania wyników jednocześnie, a nie indywidualnie, w celu wyciągnięcia wniosków.
  2. Kiedy stosować modele wielowymiarowe i kiedy stosować wiele modeli jednowymiarowych (dla wielu wyników).
  3. Weź przykład podany na stronie UCLA z trzema wynikami: umiejscowienie kontroli, samoocena i motywacja. Czy w odniesieniu do 1. i 2. możemy porównać analizę, gdy wykonujemy trzy regresję wielokrotną z jedną zmienną wielokrotną względem jednej regresji wielokrotnej z wieloma zmianami? Jak usprawiedliwić się nawzajem?
  4. Nie spotkałem wielu prac naukowych, które wykorzystują wielowymiarowe modele statystyczne. Czy wynika to z założenia wielowymiarowej normalności, złożoności dopasowania / interpretacji modelu czy z innego konkretnego powodu?

18
Oddzielne modele jednowymiarowe ignorują korelacje.
jwimberley,

3
Tak, na świecie istnieje wiele zjawisk, których nie można modelować za pomocą niezależnych zmiennych losowych.
Michael R. Chernick

2
@jwimberley Czy możesz rozwinąć konsekwencje ignorowania tych korelacji w odpowiedzi?
Jake Westfall

2
Tylko uwaga w tytule: redukcja wymiarów (PCA, analiza czynnikowa, dowolna metoda nieliniowa itp.) I grupowanie są zwykle uważane za metody „wielowymiarowe”. Wygląda na to, że twoje pytanie koncentruje się w szczególności na regresji wielowymiarowej (w porównaniu z kilkoma regresjami jednowymiarowymi), więc sugeruję, abyś umieścił ją bezpośrednio w tytule. +1 btw.
ameba mówi Przywróć Monikę

2
Prosty przykład tego, w jaki sposób MANOVA może być korzystny w porównaniu z ANOVA: stats.stackexchange.com/questions/129123 . Przeciwna sytuacja, w której MANOVA jest nadal korzystna, ale z innego powodu: stats.stackexchange.com/questions/61921 . Dlatego MANOVA może: (i) dać więcej mocy, (ii) kontrolować ogólny poziom błędu.
ameba mówi Przywróć Monikę

Odpowiedzi:


22

Czy przeczytałeś pełny przykład na stronie UCLA, do której linkujesz?

Odnośnie 1:
Korzystanie z modelu wielowymiarowego pomaga (formalnie, wnioskowo) porównywać współczynniki między wynikami.
W tym połączonym przykładzie używają modelu wielowymiarowego do testowania, czy writewspółczynnik różni się znacznie dla locus_of_controlwyniku w porównaniu do self_conceptwyniku. Nie jestem psychologiem, ale przypuszczalnie interesujące jest pytanie, czy twoje umiejętności pisania wpływają / przewidują dwie różne zmienne psychiczne w ten sam sposób. (Lub, jeśli nie wierzymy w zero, nadal warto zapytać, czy zebrałeś wystarczającą ilość danych, aby przekonująco wykazać, że efekty naprawdę się różnią.)
Jeśli przeprowadziłeś osobne analizy jednoczynnikowe, trudniej byłoby porównaćwritewspółczynnik we wszystkich dwóch modelach. Oba szacunki pochodzą z tego samego zestawu danych, więc byłyby skorelowane. Model wielowymiarowy uwzględnia tę korelację.

Ponadto, w odniesieniu 4:
Tam niektóre bardzo powszechnie wykorzystywane modele wielowymiarowe, takie jak ANOVA z powtarzanymi pomiarami . Przy odpowiednim projekcie badania wyobraź sobie, że podajesz każdy z kilku leków każdemu pacjentowi i mierzysz zdrowie każdego pacjenta po każdym leku. Albo wyobraź sobie, że mierzysz ten sam wynik w czasie, jak w przypadku danych podłużnych, na przykład wzrostów dzieci w czasie. Następnie masz wiele wyników dla każdej jednostki (nawet jeśli są to tylko powtórzenia „tego samego” rodzaju pomiaru). Prawdopodobnie będziesz chciał zrobić co najmniej kilka prostych kontrastów: porównując działanie leku A z lekiem B lub średnie działanie leków A i B w porównaniu z placebo. W tym celu ANOVA z Powtarzanymi Miarami jest odpowiednim wielowymiarowym modelem / analizą statystyczną.


1
Dałeś świetną odpowiedź. Zdecydowanie wiedziałem, że istnieje świat innych przykładów i argumentów. Podoba mi się, że wziąłeś informacje z linku UCLA, aby pokazać PO. Szczerze mówiąc, początkowo byłem obrażony tym pytaniem, ale zdecydowałem się udzielić odpowiedzi, kiedy zdałem sobie sprawę, że OP szczerze chce tutaj dobrych argumentów i nie popycha pomysłu ignorowania metod wielowymiarowych. Moim wyborem było pokazanie przykładów, w których ignorowanie korelacji przyniosło naprawdę druzgocące i fatalne skutki.
Michael R. Chernick

1
Z zadowoleniem przyjmuję twoją odpowiedź i, mam nadzieję, lepiej przemyślane odpowiedzi, dzięki którym będzie to cenny wątek.
Michael R. Chernick

Dzięki za świetną odpowiedź, @civilstat. W punkcie 1, jeśli prowadzimy dwa niezależne modele jednowymiarowe, wspomniałeś, że współczynnik zmiennej wejściowej ( writena przykład dla współczynnika) byłby skorelowany, a model wielowymiarowy odpowiada za to samo. Tutaj chciałbym uzyskać więcej zrozumienia. locus_c_ontrol i self_concept można łączyć w jedną miarę za pomocą analizy czynnikowej lub innych technik, a uzyskaną miarę można modelować, jeśli istnieje odpowiednia motywacja. Jeśli oba zmierzą dwa różne psyc. zjawiska, co zyskujemy, modelując je jednocześnie?
KarthikS

2
@ManuelFazio Zobacz następne zdanie na stronie UCLA: „Więc po co przeprowadzać regresję wielowymiarową? Jak wspomniano wcześniej, jedną z zalet korzystania z mvreg jest to, że możesz przeprowadzać testy współczynników dla różnych zmiennych wyniku”. Jeśli przeprowadziłeś osobne regresje, uzyskałbyś ten sam współczynnik i SE dla każdego wyniku , ale nie uzyskałbyś oszacowania korelacji między współczynnikami między wynikami . Ta korelacja byłaby potrzebna, jeśli na przykład chciałbyś uzyskać CI dla różnicy współczynników odczytu dla wyniku motywacji w porównaniu do wyniku samokoncepcji.
civilstat 27.04.17

1
@civilstat Ah, wstyd mnie, założenie o niezależności było tak głęboko zakorzenione w moim umyśle, że nie kliknęło nawet po przeczytaniu tego zdania. Dziękuję za szczegółowe wyjaśnienie!
zipzapboing

11

Pomyśl o wszystkich fałszywych i czasem niebezpiecznych wnioskach, które wynikają z pomnożenia prawdopodobieństwa, a zdarzenia myślenia są niezależne. Ze względu na wszystkie wbudowane zbędne zabezpieczenia, umieściliśmy w naszych elektrowniach jądrowych ekspertów, korzystając z założenia niezależności, powiedzieli nam, że szansa na poważną awarię jądrową była nieskończenie mała . Ale jak widzieliśmy na Three Mile Island, ludzie popełniają skorelowane błędy, szczególnie gdy wpadają w panikę z powodu jednego błędu początkowego, który szybko może się spotęgować. Stworzenie realistycznego modelu wielowymiarowego, który charakteryzuje ludzkie zachowanie, może być trudne, ale zrozumienie efektu okropnego modelu (błędów niezależnych) jest jasne.

Istnieje wiele innych możliwych przykładów. Wezmę katastrofę Challengera transfer jak innym możliwym przykładzie. Pytanie brzmiało, czy wystartować w warunkach niskiej temperatury. Istnieją dane sugerujące, że o-ringi mogą ulec awarii w niskich temperaturach. Ale nie było zbyt wielu danych z przekazanych misji, aby wyjaśnić, jak wysokie jest ryzyko. NASA zawsze troszczyła się o bezpieczeństwo astronautów, a wiele zwolnień zostało zaprojektowanych do statku kosmicznego i pojazdów nośnych, aby misje były bezpieczne.

Jednak przed 1986 r. Wystąpiły pewne awarie systemu i bliskie awarie prawdopodobnie z powodu nie zidentyfikowania wszystkich możliwych trybów awarii (trudne zadanie). Modelowanie niezawodności to trudny biznes. Ale to inna historia. W przypadku promu producent o-ringów (Morton Thiokol) przeprowadził pewne testy o-ringów, które wskazały na możliwość uszkodzenia w niskiej temperaturze.

Ale dane dotyczące ograniczonej liczby misji wykazały pewien związek między temperaturą a awarią, ale ponieważ nadmiarowość skłoniła niektórych administratorów do myślenia, że ​​wiele awarii o-ringu nie nastąpi, wywarli presję na NASA do uruchomienia.

Oczywiście było wiele innych czynników, które doprowadziły do ​​tej decyzji. Pamiętajcie, jak Prezydent Reagan tak bardzo chciał umieścić nauczyciela w kosmosie , aby pokazać, że teraz jest wystarczająco bezpieczny, aby zwykli ludzie, którzy nie byli astronautami, mogli bezpiecznie podróżować promem. Tak więc presja polityczna była kolejnym ważnym czynnikiem wpływającym na decyzję. W tym przypadku przy wystarczającej ilości danych i modelu wielowymiarowym ryzyko można lepiej wykazać. NASA próbuje popełnić błąd po stronie ostrożności. W takim przypadku odkładanie premiery na kilka dni, aż pogoda się rozgrzeje na Florydzie, byłoby rozsądne.

Komisje po katastrofie, inżynierowie, naukowcy i statystycy przeprowadzili wiele analiz i opublikowano artykuły. Ich poglądy mogą różnić się od moich. Edward Tufte pokazał w jednej z serii książek o grafice, że dobra grafika może być bardziej przekonująca. Ale ostatecznie, mimo że wszystkie te analizy mają swoje zalety, myślę, że polityka nadal by wygrała.

Morał tych opowieści nie polega na tym, że te katastrofy motywowały stosowanie metod wielowymiarowych, ale raczej na tym, że słabe analizy ignorujące zależność czasami prowadzą do rażącego niedoszacowania ryzyka. Może to prowadzić do nadmiernej pewności siebie, która może być niebezpieczna. Jak zauważył jwimberley w pierwszym komentarzu do tego wątku: „Oddzielne modele jednowymiarowe ignorują korelacje”.


Dzięki za wspaniały przykład, @MichaelChernick. Rozumiem, że założenie niezależności budzi obawy. Jestem bardziej dociekliwy, jeśli chodzi o wzajemne relacje między wynikami i potrzebę ich jednoczesnego modelowania.
KarthikS

Weźmy sam przykład katastrofy wahadłowca Challenger. Tutaj wynik jednowymiarowy jest binarny - niezależnie od tego, czy uruchomienie promu kosmicznego jest bezpieczne, czy nie. Rozważ model próbujący wykonać wiele czynności, takich jak przewidywanie bezpieczeństwa, pomiar odchyleń trajektorii i przewidywanie ciśnienia wewnętrznego dla promu. Jednym podejściem może być zbudowanie osobnych modeli dla każdego z nich, a drugim może być wzięcie pod uwagę modelu „jeden dla wszystkich”, który nie tylko próbuje uchwycić wpływ danych wejściowych (temperatura, wilgotność itp.), Ale także sprawdza jednocześnie wpływ na wyniki.
KarthikS

1
Dzięki @MichaelChernick. Nie jestem pewien, czy rozumiem całkowicie twoje argumenty. Rozumiem, że wielu z nas stosuje regresję jedno- i wielowymiarową do prostej regresji liniowej z pojedynczym wejściem i więcej niż jedną zmienną wejściową (w którym przypadku badane są jednoczesne efekty więcej niż jednego wejścia). Ale sformułowałem to pytanie dla modeli z jednym wynikiem (jednoczynnikowy) lub więcej niż jednym wynikiem (wielowymiarowy). Jeśli sprawa Challengera nie odnosi się do przypadku użycia wyniku na wielu odmianach, czy możesz wskazać prawidłowy przypadek. Dziękujemy za kontynuowanie dyskusji.
KarthikS

Dziwię się, że dostałeś nagrodę za to pytanie. Nagrody są częściej wykonywane, gdy nie otrzymano kilku komentarzy, a jeśli zawierają odpowiedzi, nie obejmują one niektórych ważnych aspektów pytań. Ten wątek ma trzy dobre odpowiedzi i mnóstwo komentarzy (naprawdę dobre, takie jak pierwsza z jwimberley.
Michael R. Chernick,

Nie jestem pewien, czego jeszcze chcesz. Pytanie jest bardzo ogólne i wydaje się bardziej dyskusją niż kwestią techniczną. Wydaje mi się, że próbujesz przekonać kogoś, że sama analiza jednoczynnikowa jest w porządku w złożonych sytuacjach. Nie zamierzam starać się o nagrodę. Ciekawe będzie, że w ciągu najbliższych siedmiu dni ktokolwiek spróbuje zdobyć nagrodę, a jeśli tak, zaakceptuje ją. Katastrofę Pretendenta można postrzegać jako jednoczynnikowy wynik, ale nie sądzę, by jakakolwiek część wyobraźni mogła zostać w pełni rozwiązana wyłącznie metodami jednowymiarowymi.
Michael R. Chernick

7

Rozważ ten cytat z p. 36 książki Darcy'ego Olsena The Right to Try [1]:

Ale około szesnaście tygodni po rozpoczęciu infuzji [eteplirsen] Jenn zaczęła zauważać zmiany w [swoim synu] Maxie. „Dzieciak przestał chcieć korzystać z wózka inwalidzkiego” - mówi. Kilka tygodni później poprosił o grę na zewnątrz - czegoś, czego nie robił od lat. Następnie Max zaczął odzyskiwać swoje umiejętności motoryczne. Był w stanie ponownie otworzyć pojemniki - umiejętność, którą stracił w miarę postępów [dystrofia mięśniowa Duchenne'a].

Matka Maxa, Jenn, buduje spójny obraz swojej poprawy, gromadząc dowody z wielu wyników, które indywidualnie można by odrzucić jako „hałas”, ale które razem są dość przekonujące. (Ta zasada syntezy dowodów jest jedną z przyczyn, dla których pediatrzy z reguły nigdy nie odrzucają instynktownego wniosku rodziców, że „coś jest nie tak z moim dzieckiem”. Rodzice mają dostęp do „wielowymiarowej analizy podłużnej” swoich dzieci znacznie bogatszej niż „oligowariant” analiza przekrojowa dostępna dla klinicysty podczas jednego krótkiego spotkania klinicznego).

Abstrahując od konkretnego przypadku eteplirsena, rozważmy hipotetyczną sytuację, w której tylko niewielka część badanych korzystała z terapii eksperymentalnej, powiedzmy, z powodu jakiegoś wspólnego czynnika genetycznego, który nie jest jeszcze znany nauce. Jest całkiem możliwe, że dla tych kilku podmiotów argument statystyczny odpowiadający wielowymiarowej historii Jenn mógłby wyraźnie zidentyfikować ich jako „osoby reagujące”, podczas gdy wiele osobnych analiz słabych sygnałów zawartych w poszczególnych wynikach dałoby , powodując „zero” podsumowujący wniosek.p>0.05

Osiągnięcie takiej syntezy dowodów jest podstawowym uzasadnieniem analizy wyników na wielu odmianach w badaniach klinicznych. Metody statystyczne w badaniach medycznych miały specjalne wydanie kilka lat temu [2] poświęcone „wspólnemu modelowaniu” wyników na wielu odmianach.

  1. Olsen, Darcy. Prawo do wypróbowania: w jaki sposób rząd federalny uniemożliwia Amerykanom uzyskanie ratujących życie zabiegów, których potrzebują. Pierwsza edycja. New York, NY: Harper, odcisk HarperCollins Publishers, 2015.
  2. Rizopoulos, Dimitris i Emmanuel Lesaffre. „Wprowadzenie do specjalnego wydania dotyczącego wspólnych technik modelowania”. Metody statystyczne w badaniach medycznych 23, nr. 1 (1 lutego 2014 r.): 3–10. doi: 10.1177 / 0962280212445800.

6

Zróbmy prostą analogię, ponieważ to wszystko, co naprawdę mogę spróbować wnieść. Zamiast regresji jednowymiarowej a regresji wielowymiarowej, rozważmy rozkłady jednowymiarowe (marginalne) versus wielowymiarowe (wspólne). Powiedz, że mam następujące dane i chcę znaleźć „wartości odstające”. Jako pierwsze podejście mogę użyć dwóch rozkładów krańcowych („jednowymiarowych”) i narysować linie na dolnej 2,5% i górnej 2,5% każdej z nich niezależnie. Punkty wypadające poza wynikowymi liniami są uważane za wartości odstające.

Ale dwie rzeczy: 1) co sądzimy o punktach, które znajdują się poza liniami dla jednej osi, ale wewnątrz linii dla drugiej osi? Czy są to „częściowe wartości odstające” czy coś takiego? I 2) wynikowe pudełko nie wygląda tak, jakby naprawdę robiło to, co chcemy. Powodem jest oczywiście to, że te dwie zmienne są skorelowane, a intuicyjnie chcemy znaleźć wartości odstające, które są niezwykłe, biorąc pod uwagę zmienne w kombinacji.

W tym przypadku patrzymy na rozkład połączeń i kodowałem kolorami punkty, czy ich odległość Mahalanobisa od centrum mieści się w górnym 5%, czy nie. Czarne punkty wyglądają bardziej jak wartości odstające, chociaż niektóre wartości odstające leżą w obrębie obu zestawów zielonych linii, a niektóre nie-odstające (czerwone) leżą poza oboma zestawami zielonych linii.

W obu przypadkach ograniczamy 95% w porównaniu do 5%, ale druga technika stanowi rozkład wspólny. Uważam, że regresja wielowymiarowa jest taka, w której „regresja” zastępuje się „dystrybucją”. Nie rozumiem tego całkowicie i nie potrzebowałem (jak rozumiem) samemu regresji wielowymiarowej, ale tak o tym myślę.

[Analogia ma pewne problemy: odległość Mahalanobisa redukuje dwie zmienne do jednej liczby - coś w rodzaju sposobu, w jaki regresja jednowymiarowa przyjmuje zestaw zmiennych niezależnych i może przy odpowiednich technikach uwzględnić kowariancje między zmiennymi niezależnymi i wyniki w jednej zmiennej zależnej - podczas gdy regresja wielowymiarowa prowadzi do wielu zmiennych zależnych. Jest to więc coś w rodzaju wstecz, ale miejmy nadzieję, że wystarczy na tyle, by dać trochę intuicji.]

wprowadź opis zdjęcia tutaj


1
Lubię to. Używałbym zewnętrznych elips do zdefiniowania wartości odstających. Jak widzę twoją ilustrację, punkt może znajdować się daleko od średniej w kierunku x lub y, ale nadal może znajdować się w elipsie, która nie jest daleko od linii regresji.
Michael R. Chernick

3

1) Natura nie zawsze jest prosta. W rzeczywistości większość badanych zjawisk (wyników) zależy od wielu zmiennych i jest złożona. Model wnioskowania oparty na jednej zmiennej na raz najprawdopodobniej będzie miał wysoką tendencję.

2) Modele jednowymiarowe są najprostszym modelem, jaki można zbudować z definicji. W porządku, jeśli badasz problem po raz pierwszy i chcesz uchwycić jego jedną, najważniejszą cechę. Ale jeśli chcesz głębiej to zrozumieć, rozumienie, które możesz wykorzystać, ponieważ ufasz temu, co robisz, użyłbyś analiz wielowymiarowych. A spośród wielowymiarowych powinieneś preferować te, które rozumieją wzorce korelacji, jeśli zależy Ci na dokładności modelu.

3) Niestety nie ma czasu na przeczytanie tego.

4) Dokumenty wykorzystujące techniki wielowymiarowe są obecnie bardzo powszechne - nawet bardzo popularne w niektórych dziedzinach. Podczas eksperymentów CERN z wykorzystaniem danych dużego zderzacza hadronów (na przykład z fizyki cząstek) ponad połowa setek artykułów publikowanych każdego roku używa technik wielowymiarowych w taki czy inny sposób

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0


Myślę, że masz na myśli, że model jednowymiarowy to model z tylko danymi wejściowymi, a model wielowymiarowy to model z wieloma danymi wejściowymi. Moje pytanie dotyczyło wielu wyników analizowanych jednocześnie w modelu.
KarthikS,

1
Zmieszano regresję wielowymiarową / jednoczynnikową z regresją wielokrotną / pojedynczą.
Firebug

1

Moja odpowiedź zależy od tego, co chcesz zrobić z regresją. Jeśli próbujesz porównać efekt różnych współczynników, regresja może nie być dla Ciebie odpowiednim narzędziem. Jeśli próbujesz przewidywać przy użyciu różnych współczynników, które udowodniłeś, że są niezależne, być może powinieneś zastosować regresję wielokrotną.

Czy czynniki są skorelowane? Jeśli tak, regresja wielowymiarowa może dać zły model i powinieneś użyć metody takiej jak VIF lub regresja kalenicowa, aby przyciąć korelacje krzyżowe. Nie należy porównywać współczynników, dopóki współczynniki skorelowane nie zostaną wyeliminowane. Może to doprowadzić do katastrofy. Jeśli nie są one skorelowane krzyżowo, wówczas współczynniki wielowymiarowe powinny być porównywalne jak współczynniki jednowymiarowe, i nie powinno to być zaskakujące.

Wynik może również zależeć od używanego pakietu oprogramowania. Nie żartuję. Różne pakiety oprogramowania mają różne metody obliczania regresji wielowymiarowej. (Nie wierzysz mi? Sprawdź, jak standardowe oblicza pakiet regresji R R 2 i bez wymuszania pochodzenie jako przecięcia. Twoja szczęka powinna upaść na podłogę.) Musisz zrozumieć, w jaki sposób pakiet oprogramowania wykonuje regresji. Jak to kompensuje korelacje krzyżowe? Czy wykonuje rozwiązanie sekwencyjne lub macierzowe? W przeszłości miałem z tym frustrację. Sugeruję wykonanie wielokrotnej regresji dla różnych pakietów oprogramowania i zobaczenie, co otrzymujesz.

Kolejny dobry przykład tutaj:

Należy zauważyć, że w tym równaniu współczynniki regresji (lub współczynniki B) reprezentują niezależny udział każdej zmiennej niezależnej w przewidywaniu zmiennej zależnej. Innym sposobem wyrażenia tego faktu jest powiedzenie, że na przykład zmienna X1 jest skorelowana ze zmienną Y, po kontrolowaniu wszystkich innych zmiennych niezależnych. Ten rodzaj korelacji jest również określany jako korelacja częściowa (termin ten po raz pierwszy zastosował Yule, 1907). Być może poniższy przykład wyjaśni ten problem. Prawdopodobnie znajdziesz znaczącą ujemną korelację między długością i wzrostem włosów w populacji (tj. Ludzie niscy mają dłuższe włosy). Na początku może się to wydawać dziwne; jeśli jednak dodalibyśmy zmienną Płeć do równania regresji wielokrotnej, korelacja ta prawdopodobnie zniknąłaby. Jest tak, ponieważ kobiety mają średnio dłuższe włosy niż mężczyźni; są również średnio krótsze niż mężczyźni. Zatem po usunięciu tej różnicy płci poprzez wprowadzenie równania Płeć, związek między długością i wysokością włosów znika, ponieważ długość włosów nie wnosi żadnego wyjątkowego wkładu w prognozowanie wysokości, ponad to, co ma udział w prognozie ze zmienną Płeć . Innymi słowy, po kontrolowaniu zmiennej Płeć, częściowa korelacja między długością i wzrostem włosów wynosi zero. związek między długością i wysokością włosów znika, ponieważ długość włosów nie wnosi żadnego wyjątkowego wkładu w prognozowanie wysokości, ponad to, co dzieli w prognozie ze zmienną Płeć. Innymi słowy, po kontrolowaniu zmiennej Płeć, częściowa korelacja między długością i wzrostem włosów wynosi zero. związek między długością i wysokością włosów znika, ponieważ długość włosów nie wnosi żadnego wyjątkowego wkładu w prognozowanie wysokości, ponad to, co dzieli w prognozie ze zmienną Płeć. Innymi słowy, po kontrolowaniu zmiennej Płeć, częściowa korelacja między długością i wzrostem włosów wynosi zero. http://www.statsoft.com/Textbook/Multiple-Regression

Jest tak wiele pułapek przy użyciu regresji wielokrotnej, że staram się jej unikać. Jeśli miałbyś go użyć, bądź bardzo ostrożny z wynikami i dokładnie je sprawdź. Zawsze należy rysować dane wizualnie, aby zweryfikować korelację. (Tylko dlatego, że twój program powiedział, że nie ma korelacji, nie znaczy, że nie ma żadnej. Ciekawe korelacje ) Zawsze sprawdzaj swoje wyniki pod kątem zdrowego rozsądku. Jeśli jeden czynnik wykazuje silną korelację w regresji jednowymiarowej, ale żaden w wielowymiarowej, musisz zrozumieć, dlaczego przed udostępnieniem wyników (powyższy współczynnik płci jest dobrym przykładem).


Sprawdź, jak standardowy pakiet regresji R oblicza R2 z i bez wymuszania źródła jako przechwytu. ” Chociaż potencjalnie jest to mylące dla tych, którzy się tego nie spodziewają, R robi w tej sytuacji standardowe podejście, które jest implementowane dosłownie w każdym oprogramowaniu statystycznym pakiet, w którym to sprawdziłem.
Jake Westfall

Ciekawy. Widziałem opublikowane prace analityków, którzy nie rozumieli tej różnicy. Czy widziałeś dobrą dyskusję online na ten temat? Czy powinienem przesłać do CV nowe pytanie?
Maddenker

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.