Mam na myśli, że niektóre z tych zmiennych są ze sobą ściśle skorelowane. Jak / dlaczego / w jakim kontekście definiujemy je jako zmienne niezależne ?
Mam na myśli, że niektóre z tych zmiennych są ze sobą ściśle skorelowane. Jak / dlaczego / w jakim kontekście definiujemy je jako zmienne niezależne ?
Odpowiedzi:
Jeśli wycofamy się z dzisiejszego nacisku na uczenie maszynowe i przypomnimy sobie, ile analiz statystycznych opracowano dla kontrolowanych badań eksperymentalnych, wyrażenie „zmienne niezależne” ma sens.
W kontrolowanych badaniach eksperymentalnych wybory leku i jego stężeń lub nawozu i jego ilości na akr są dokonywane przez badacza niezależnie . Interesuje się, w jaki sposób zmienna odpowiedzi będąca przedmiotem zainteresowania (np. Ciśnienie krwi, plon) zależy od tych eksperymentalnych manipulacji. Idealnie, cechy zmiennych niezależnych są ściśle określone, w zasadzie bez błędów w znajomości ich wartości. Następnie standardowa regresja liniowa modeluje na przykład różnice między wartościami zmiennych zależnych pod względem wartości zmiennych niezależnych plus błędy resztkowe.
Ten sam matematyczny formalizm zastosowany do regresji w kontekście kontrolowanych badań eksperymentalnych można również zastosować do analizy zaobserwowanych zestawów danych przy niewielkiej lub zerowej manipulacji eksperymentalnej, więc być może nie jest zaskakujące, że wyrażenie „zmienne niezależne” zostało przeniesione na takie typy studia. Ale, jak zauważają inni na tej stronie, jest to prawdopodobnie niefortunny wybór, z „predyktorami” lub „funkcjami” bardziej odpowiednimi w takich kontekstach.
Pod wieloma względami „zmienna niezależna” jest niefortunnym wyborem. Zmienne nie muszą być od siebie niezależne i oczywiście nie musi być niezależna od zmiennej zależnej . W nauczaniu oraz w mojej książce Strategie modelowania regresji używam słowa predyktor . W niektórych sytuacjach to słowo nie jest wystarczająco mocne, ale średnio działa dobrze. Pełny opis roli zmiennych (po prawej stronie) w modelu statystycznym może być za długi do użycia za każdym razem: zestawu zmiennych lub pomiarów, na których uwarunkowany jest rozkładJest to inny sposób określenia zestawu zmiennych, których rozkładów obecnie nie jesteśmy zainteresowani, ale których wartości traktujemy jako stałe.X
Zgadzam się z innymi odpowiedziami, że „niezależny” i „zależny” to zła terminologia. Jak wyjaśnia EdM , terminologia ta powstała w kontekście kontrolowanych eksperymentów, w których badacz mógł ustawić regresory niezależnie od siebie. Istnieje wiele preferowanych terminów, które nie mają tak obciążonego związku przyczynowego, a z mojego doświadczenia wynika, że statystycy wolą bardziej neutralne terminy. Jest tu wiele innych terminów , w tym:
Osobiście używam terminów zmiennych objaśniających i zmiennych odpowiedzi, ponieważ te terminy nie mają konotacji statystycznej niezależności lub kontroli itp. (Można argumentować, że „reakcja” ma konotację przyczynową, ale jest to dość słaba konotacja, więc ja nie znalazłem problemu).
Aby dodać do odpowiedzi Franka Harrella i Petera Floma:
Zgadzam się, że nazywanie zmiennej „niezależną” lub „zależną” często wprowadza w błąd. Ale niektórzy ludzie nadal to robią. Kiedyś usłyszałem odpowiedź, dlaczego:
W analizie regresji mamy jednego „specjalny” zmiennej (zazwyczaj oznaczone przez ) i wiele „nie-tak-specjalne” zmiennych ( X „) i chcemy, aby zobaczyć, jak zmiany w X. ” s wpłynąć Y . Innymi słowy, chcemy zobaczyć jak Y zależy na X. „s.
Dlatego nazywa się „zależnym”. A jeśli ktoś nazywa się „zależnym”, jak nazwałbyś kogoś innego?
Określenia „zależne” i „niezależne” mogą być mylące. Jednym ze zmysłów jest pseudokauzalny, a nawet przyczynowy, i to właśnie ten ma na myśli mówiąc „zmienna niezależna” i „zmienna zależna”. Rozumiemy, że DV w pewnym sensie zależy od IV. Na przykład, modelując związek wzrostu i masy ciała u dorosłych ludzi, mówimy, że waga to DV, a wzrost to IV.
To uchwyca coś, czego „predyktor” nie ma - mianowicie kierunek relacji. Wzrost przewiduje wagę, ale waga również przewiduje wzrost. To znaczy, jeśli powiedziano ci, żeby odgadnąć wysokość ludzi i powiedziano im, jaka jest ich waga, byłoby to przydatne.
Ale nie powiedzielibyśmy, że wzrost zależy od wagi.
Na podstawie powyższych odpowiedzi zgadzam się, że ta zależna i niezależna zmienna jest słabą terminologią. Ale mogę wyjaśnić kontekst, w którym wielu z nas z niego korzysta. Mówisz, że w przypadku ogólnego problemu regresji mamy zmienną Wyjściową, powiedzmy Y, której wartość zależy od innych zmiennych wejściowych, powiedzmy x1, x2, x3. Dlatego nazywa się to „zmienną zależną”. I podobnie w zależności od tego kontekstu tylko , i tylko do rozróżniania pomiędzy wyjściem i zmiennej wejściowej, x1, x2, x3 są określane jako zmienną niezależną. Ponieważ w przeciwieństwie do Y nie zależy od żadnej innej zmiennej (ale tak, nie mówimy tutaj o zależności od siebie).
Zmienne niezależne są nazywane niezależnymi, ponieważ nie zależą od innych zmiennych. Weźmy na przykład problem z prognozą ceny domu. Załóżmy, że mamy dane o rozmiarze_domku, lokalizacji i cenie_pola. Tutaj cena domu jest ustalana na podstawie wielkości domu i lokalizacji, ale lokalizacja i wielkość domu mogą się różnić dla różnych domów.