Z poprzedniego pytania dowiedziałeś się, że GLM jest opisany w kategoriach rozkładu prawdopodobieństwa, predyktora liniowego i funkcji oraz jest opisany jakoηg
ηE(Y|X)=Xβ=μ=g−1(η)
gdzieg jest funkcją łącza logit i zakłada się, że podąża za rozkładem BernoulliegoY
Yi∼B(μi)
każdy następujący rozkład zero-jedynkowy z jego własnym średniej że jest uzależniona od . Jesteśmy nie przy założeniu, że każda pochodzi z tego samego rozkładu, przy takiej samej średniej (będzie to punkt przecięcia tylko modelu ), ale wszystkie mają różne sposoby. Zakładamy, że są niezależne , tzn. Nie musimy się martwić o takie rzeczy, jak autokorelacja między kolejnymi wartościami itp.Yi μiXYiYi=g−1(μ)YiYi
Założenie iid jest związane z błędami w regresji liniowej (tj. GLM Gaussa), gdzie znajduje się model
yi=β0+β1xi+εi=μi+εi
gdzie , tak, że nie IID hałasu wokół . Dlatego są zainteresowani diagnostyką resztek i zwracają uwagę na resztki w porównaniu z dopasowanym polem . Teraz, w przypadku regresji logistycznej GLM, nie jest to takie proste, ponieważ nie istnieje addytywny termin szumowy jak w modelu Gaussa (patrz tutaj , tutaj i tutaj ). Nadal chcemy, aby reszty były „losowe” wokół zera i nie chcemy widzieć w nich żadnych trendów, ponieważ sugerowałyby, że istnieją pewne efekty, które nie są uwzględnione w modelu, ale nie zakładamy, że są normalny i / lubεi∼N(0,σ2)μiiid . Zobacz także: Znaczenie założenia iid w statystycznym wątku uczenia się .
Na marginesie zauważmy, że możemy nawet odrzucić założenie, że każdy pochodzi z tego samego rodzaju dystrybucji. Istnieją modele (inne niż GLM), które zakładają, że różne mogą mieć różne rozkłady o różnych parametrach, tzn. Że dane pochodzą z mieszanki różnych rozkładów . W takim przypadku przyjęlibyśmy również, że wartości są niezależne , ponieważ wartości zależne pochodzące z różnych rozkładów o różnych parametrach (tj. Typowych danych rzeczywistych) są czymś, co w większości przypadków byłoby zbyt skomplikowane do modelowania (często niemożliwe).YiYiYi