Regresja dla zmiennych kategorialnych niezależnych i zmiennej zależnej ciągłej

Właśnie zdałem sobie sprawę, że zawsze działałem problem regresji, w którym zmienne niezależne były zawsze numeryczne. Czy mogę zastosować regresję liniową w przypadku, gdy wszystkie zmienne niezależne są kategoryczne?

regression categorical-data

— famargar
źródło

Tylko trochę semantyki i dla jasności:

zmienna zależna == wynik == „ ” we wzorach regresji, takich jak $y$ $y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_k$
zmienna niezależna == predyktor == jeden z „ $x_k$ ” we wzorach regresji, takich jak $y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_k$

Zatem w większości sytuacji rodzaj regresji zależy od typu zmiennej zależnej, wyniku lub „ $y$ ” . Na przykład regresja liniowa jest stosowana, gdy zmienna zależna jest ciągła, regresja logistyczna, gdy zależna jest kategoryczna z 2 kategoriami, oraz regresja multinomi (n) al, gdy zależna jest kategoryczna z więcej niż 2 kategoriami. Predyktory mogą być dowolne (nominalne lub porządkowe jakościowe, ciągłe lub mieszane) .

(Poniższa uwaga może być dla ciebie zbędna, ale i tak ją dodaję)

Należy jednak pamiętać, że większość oprogramowania wymaga przekodowania predyktorów jakościowych do binarnego systemu numerycznego . Oznacza to po prostu kodowanie płci na 0 dla kobiet i 1 dla mężczyzn lub odwrotnie. W przypadku zmiennych kategorialnych z więcej niż 2 poziomami musisz przekodować je na zmienne obojętne gdzie jest liczbą poziomów, a te manekiny zawierają 0 lub 1, gdy należą do odpowiedniej kategorii. W ten sposób każda osoba (próbka) powinna być reprezentowana przez posiadanie 1 dla zmiennej fikcyjnej, której jest częścią i 0 dla pozostałych lub 0 dla wszystkich manekinów, gdy jest on częścią grupy odniesienia. $L-1$ $L$

— IWS
źródło

dzięki. jak piszę w tytule pytania, zmienna zależna jest ciągła. Przyjmuję więc twoją odpowiedź jako „możesz użyć regresji liniowej, pod warunkiem, że wykonasz kodowanie pozorowane”. Proszę, popraw mnie jeśli się mylę.

— famargar

tak właśnie mówiłem.

— IWS,

Widzę, że redagował pytania, aby dodać drugie pytanie, a pisał podobną quesiton tutaj: stats.stackexchange.com/questions/267137/... . Dodatkowo zapytam cię, co masz na myśli, wygładzając swoje prognozy lub co masz na myśli, przewidując wartości dyskretne. AFAIK regresja liniowa da ci średnią wartość ciągłego zależnego od twoich zmiennych predykcyjnych (poprzez formułę regresji). Proszę rozwinąć

— IWS

Usunąłem drugie pytanie, ponieważ w pełni odpowiedziałeś na pierwotne. Aby odpowiedzieć na twoje pytanie, gdybym podał nowym „zdarzeniom” ( ) do modelu, otrzymałbym różnych wartości , które wszystkie przyjmowałyby jedną z czterech wartości regresji. Chyba mówię, że gdyby zmienne kategorialne były rzeczywiście porządkowe, chciałbym wprowadzić pewne (logit?) Wygładzanie między wartościami.

n

$n$

x_{i}

$x_i$

n

$n$

y

$y$

— famargar

W przypadku zmiennej porządkowej zawsze można założyć, że jest ona „wystarczająco ciągła”, aby używać jej tak, jakby była ciągłym predyktorem (po prostu nie używając manekinów, ale wprowadzając zmienną jako wersję liczbową). Jednak jeśli to zrobisz i masz tylko kilka poziomów, dopasowujesz linię prostą (zakładając w ten sposób liniowość) tylko przez kilka punktów (pamiętaj, że liczba poziomów jest tutaj ważna). Skala Likerta jest dobrym przykładem zmiennej używanej w ten sposób, która niestety stwarza problemy przy różnych okazjach.

— IWS