Chciałbym zastosować dane zliczania jako zmienne towarzyszące przy dopasowaniu modelu regresji logistycznej. Moje pytanie brzmi:
- Czy naruszam jakiekolwiek założenie modeli logistycznych (a bardziej ogólnie uogólnionych modeli liniowych), stosując jako zmienne niezależne zliczające, nieujemne zmienne całkowite?
W literaturze znalazłem wiele odniesień dotyczących wykorzystania danych zliczających jako wyniku, ale nie jako zmiennych towarzyszących; patrz na przykład bardzo przejrzysty artykuł: „Uogólnione modele liniowe NE Breslow (1996): Sprawdzanie założeń i wniosków wzmacniających, Congresso Nazionale Societa Italiana di Biometria, Cortona czerwiec 1995”, dostępny na stronie http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Luźno mówiąc, wydaje się, że założenia glm można wyrazić następująco:
- iid pozostałości;
- funkcja link musi poprawnie reprezentować związek między zmiennymi zależnymi i niezależnymi;
- brak wartości odstających
Czy wszyscy wiedzą, czy istnieje jakieś inne założenie / problem techniczny, który może sugerować użycie innego rodzaju modeli do radzenia sobie z współzmiennych hrabiowskich?
Na koniec zauważ, że moje dane zawierają stosunkowo niewiele próbek (<100) i że zakresy zmiennych zliczających mogą się zmieniać w zakresie 3-4 rzędów wielkości (tj. Niektóre zmienne mają wartość w zakresie 0-10, podczas gdy inne zmienne mogą mieć wartości w zakresie 0–10000).
Oto prosty przykładowy kod R:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################