Regresja liniowa, gdy Y jest ograniczone i dyskretne

14

Pytanie jest proste: czy właściwe jest stosowanie regresji liniowej, gdy Y jest ograniczone i dyskretne (np. Wynik testu 1 ~ 100, niektóre predefiniowane rangi 1 ~ 17)? Czy w takim przypadku „regresja liniowa nie jest dobra”, czy też jest całkowicie niewłaściwa?

— Mistrz Shi
źródło

10

Gdy odpowiedź lub wynik $Y$ jest ograniczony, pojawiają się różne pytania dotyczące dopasowania modelu, w tym następujące:

Każdy model, który mógłby przewidzieć wartości odpowiedzi poza tymi granicami, jest co do zasady wątpliwy. W związku z tym stosuje się model liniowy może być problematyczne, ponieważ nie ma granic na predykcyjnych i współczynników każdym przypadku, gdy jest nieograniczona się w jednym lub w obu kierunkach. Jednak związek może być na tyle słaby, aby nie gryźć i / lub przewidywania mogą pozostać w granicach przekraczających obserwowany lub prawdopodobny zakres predyktorów. Z jednej strony, jeśli odpowiedź jest jakaś średnia hałas, nie ma znaczenia, który model pasuje. $\hat Y = Xb$ $X$ $b$ $X$ $+$
Ponieważ odpowiedź nie może przekroczyć swoich granic, nieliniowy związek jest często bardziej prawdopodobny, a przewidywane odpowiedzi dostosowują się do asymptotycznego zbliżania się do granic. Krzywe sigmoidalne lub powierzchnie, takie jak te przewidywane przez modele logit lub probit, są atrakcyjne pod tym względem i obecnie nie są trudne do dopasowania. Odpowiedź taka jak umiejętność czytania i pisania (lub ułamek przyjmujący nowy pomysł) często pokazuje taką sigmoidalną krzywą w czasie i prawdopodobnie z prawie każdym innym predyktorem.
Ograniczona odpowiedź nie może mieć oczekiwanych właściwości wariancji w regresji zwykłej lub waniliowej. Koniecznie, gdy średnia odpowiedź zbliża się do dolnej i górnej granicy, wariancja zawsze zbliża się do zera.

Model powinien zostać wybrany zgodnie z tym, co działa i wiedza na temat podstawowego procesu generowania. To, czy klient lub odbiorca wie o konkretnych rodzinach modeli, może również stanowić wskazówkę w praktyce.

Pamiętaj, że celowo unikam ogólnych osądów, takich jak dobre / złe, odpowiednie / nieodpowiednie, właściwe / złe. Wszystkie modele są w najlepszym razie przybliżeniami, a które z apelacji są atrakcyjne lub wystarczające dla projektu, nie są tak łatwe do przewidzenia. Zazwyczaj osobiście preferuję modele logit jako pierwszy wybór dla ograniczonych odpowiedzi, ale nawet ta preferencja jest częściowo oparta na nawyku (np. Moim unikaniu modeli probitowych bez bardzo dobrego powodu), a częściowo na tym, gdzie przekażę wyniki, zwykle czytelnikom, które są, lub powinien być statystycznie dobrze poinformowany.

Twoje przykłady skal dyskretnych dotyczą wyników 1-100 (w zadaniach oznaczam 0, z pewnością jest możliwe!) Lub rankingów 1-17. W przypadku takich skal zwykle myślałem o dopasowaniu modeli ciągłych do odpowiedzi skalowanych do [0, 1]. Są jednak praktycy modeli regresji porządkowej, którzy chętnie dopasowaliby takie modele do skal o dość dużej liczbie dyskretnych wartości. Cieszę się, jeśli odpowiedzą, jeśli mają takie zdanie.

— Nick Cox
źródło

8

Pracuję w badaniach usług zdrowotnych. Zbieramy wyniki zgłaszane przez pacjentów, np. Funkcje fizyczne lub objawy depresyjne, i są one często oceniane w podanym przez ciebie formacie: skala od 0 do N generowana przez zsumowanie wszystkich indywidualnych pytań w skali.

Ogromna większość literatury, którą przejrzałem, właśnie zastosowała model liniowy (lub hierarchiczny model liniowy, jeśli dane pochodzą z powtarzanych obserwacji). Nie widziałem jeszcze, żeby ktokolwiek używał sugestii @ NickCox dla (logicznego) modelu logitowego, chociaż jest to model całkowicie wiarygodny.

$\theta$

Poniższy wykres wynika z mojej nadchodzącej pracy doktorskiej. W tym miejscu dopasowuję model liniowy (czerwony) do wyniku pytania dotyczącego objawów depresyjnych, który został przekonwertowany na Z-score, oraz (wyjaśniający) model IRT w kolorze niebieskim na te same pytania. Zasadniczo współczynniki dla obu modeli są w tej samej skali (tj. W odchyleniach standardowych). W rzeczywistości istnieje spora zgoda co do wielkości współczynników. Jak wspomniał Nick, wszystkie modele są błędne. Ale model liniowy może nie być zbyt zły w użyciu.

$-\infty$ $\infty$

(Uwaga: powyższy model pasował do mirtpakietu Phila Chalmersa w wersji R. Wykres wyprodukowany przy użyciu ggplot2i ggthemes. Schemat kolorów czerpie z domyślnego schematu kolorów Stata.)

— Weiwen Ng
źródło

6

To, że modele liniowe są szeroko stosowane, nie oznacza, że są odpowiednie. Wiele osób korzysta z modeli liniowych, ponieważ jest to tylko to, co wiedzą lub są im wygodne.

— qwr

1

Literatura medyczna jest szczególnie bogata w słabą praktykę propagowaną przez ideologię typu „to, co robi ta dziedzina / czasopismo”. Zgodnie z ogólną zasadą nie używałbym ani nie używałby czegoś tylko z powodu jego wyglądu, jakkolwiek powszechnego, w badaniach medycznych.

— LSC,

1

Spójrz na przewidywane wartości i sprawdź, czy mają one mniej więcej taki sam rozkład jak oryginalne Y. W takim przypadku regresja liniowa jest prawdopodobnie w porządku. i niewiele zyskasz, ulepszając swój model.

— mzuba
źródło

1

Regresja liniowa może „odpowiednio” opisywać takie dane, ale jest mało prawdopodobne. Wiele założeń regresji liniowej jest często naruszanych w tego typu danych do tego stopnia, że regresja liniowa staje się niewłaściwa. Jako przykład wybiorę kilka założeń,

Normalność - nawet ignorując dyskrecję takich danych, dane te wykazują skrajne naruszenie normalności, ponieważ rozkłady są „odcięte” od granic.
Homoscedastyczność - ten typ danych może naruszać homoscedastyczność. Rozbieżności wydają się być większe, gdy rzeczywista średnia jest w kierunku środka zakresu, w porównaniu do krawędzi.
Liniowość - ponieważ zakres Y jest ograniczony, założenie jest automatycznie naruszane.

Naruszenie tych założeń jest łagodzone, jeśli dane mają tendencję do spadania wokół środka zakresu, z dala od krawędzi. Ale tak naprawdę regresja liniowa nie jest optymalnym narzędziem dla tego rodzaju danych. Znacznie lepszymi alternatywami mogą być regresja dwumianowa lub regresja Poissona.

— Stat_Programmer
źródło

2

Trudno dostrzec, że regresja Poissona jest kandydatem na podwójnie ograniczone odpowiedzi.

— Nick Cox,

0

Jeśli odpowiedź obejmuje tylko kilka kategorii, możesz użyć metod klasyfikacji lub regresji porządkowej, jeśli zmienna odpowiedzi jest porządkowa.

Zwykła regresja liniowa nie da ani dyskretnych kategorii, ani ograniczonych zmiennych odpowiedzi. To ostatnie można naprawić za pomocą modelu logit, takiego jak regresja logistyczna. Dla czegoś w rodzaju wyniku testu ze 100 kategoriami 1-100 równie dobrze możesz uprościć swoje przewidywania i użyć ograniczonej zmiennej odpowiedzi.

— qwr
źródło

0

użyj cdf (skumulowana funkcja rozkładu ze statystyk). jeśli twój model to y = xb + e, zmień go na y = cdf (xb + e). Konieczne będzie ponowne przeskalowanie danych zmiennych zależnych, aby mieściły się w przedziale od 0 do 1. Jeśli są to liczby dodatnie, podziel je przez maksimum i weź prognozy modelu i pomnóż przez tę samą liczbę. Następnie sprawdź dopasowanie i sprawdź, czy ograniczone prognozy poprawią sytuację.

Prawdopodobnie chcesz użyć algorytmu w puszce, aby zająć się statystykami.

— Dougie
źródło

1

Wydaje się, że myli to dwa fakty: (1) ograniczone odpowiedzi powinny być skalowane od 0 do 1, aby zastosować logit, probit i podobne modele (2) pliki cdf również różnią się od 0 do 1. W traktowaniu odpowiedzi ułamkowej jako takiej, nie jesteś modeluje swój plik cdf.

— Nick Cox,