Regresja liniowa nie jest właściwym wyborem dla twojego wyniku, biorąc pod uwagę:
- Zmienna wynikowa nie jest zwykle rozkładana
- Zmienna wynikowa jest ograniczona wartościami, które może przyjmować (zliczanie danych oznacza, że przewidywane wartości nie mogą być ujemne)
- Co wydaje się być wysoką częstością przypadków z 0 wizytami
Modele zmiennych zależnych o ograniczonym zakresie do zliczania danych
Wybór strategii oceny jest podyktowany „strukturą” zmiennej wynikowej. Oznacza to, że jeśli twoja zmienna wyniku jest ograniczona wartościami, które może przyjąć (tj. Jeśli jest to zmienna zależna ograniczona ), musisz wybrać model, w którym przewidywane wartości mieszczą się w możliwym zakresie wyniku. Chociaż czasami regresja liniowa jest dobrym przybliżeniem dla zmiennych zależnych (na przykład w przypadku binarnego logit / probit), często tak nie jest. Wprowadź uogólnione modele liniowe . W twoim przypadku, ponieważ zmienną wynikową są dane zliczania, masz kilka możliwości:
- Model Poissona
- Negatywny model dwumianowy
- Model Zero Inflated Poisson (ZIP)
- Model dwumianowy o zerowym napełnieniu ujemnym (ZINB)
Wybór jest zwykle ustalany empirycznie. Poniżej krótko omówię wybór pomiędzy tymi opcjami.
Poisson vs. Negative Binomial
θH.0: θ = 0H.1: θ ≠ 0θ
ZIP vs. ZINB
Jednym z potencjalnych komplikacji jest zerowa inflacja, która może być tutaj problemem. W tym miejscu pojawiają się modele ZIP i ZINB z napompowaniem zera. Korzystając z tych modeli, zakładasz, że proces generujący wartości zerowe jest odrębny od procesu generującego inne, niezerowe wartości. Tak jak poprzednio, ZINB jest odpowiedni, gdy wynik ma nadmierne zera i jest rozproszony, podczas gdy ZIP jest odpowiedni, gdy wynik ma nadmierne zera, ale średnia warunkowa = wariancja warunkowa. W przypadku modeli z zerowym napełnieniem, oprócz wymienionych powyżej zmiennych towarzyszących modelu, musisz pomyśleć o zmiennych, które mogły wygenerować nadmiar zer, które zobaczyłeś w wyniku. Ponownie istnieją testy statystyczne, które są dostarczane z danymi wyjściowymi tych modeli (czasami może być konieczne ich określenie podczas wykonywania polecenia), które pozwolą ciθ
θH.0: θ = 0H.1: θ ≠ 0H.0: Ex c e s s ze r o e s ja s n O t za R e s u l t o f za s e p a r a t e P r o c e s aH.1: Ex c e s s ze r o e s ja s a result of a separate process
θθ
Wreszcie, nie używam R, ale IDRE na stronie przykładów analizy danych UCLA może pomóc ci w dopasowaniu tych modeli.
[Edytuj przez innego użytkownika, który nie ma wystarczającej reputacji, aby móc komentować: W tym dokumencie wyjaśniono, dlaczego nie należy używać testu Vuonga do porównania modelu z zerową inflacją i podano alternatywy.
P. Wilson, „Niewłaściwe użycie testu Vuong dla modeli nie zagnieżdżonych do testowania zerowej inflacji”. Economics Letters, 2015, vol. 127, wydanie C, 51–53 ]