Rozkład błędów dla regresji liniowej i logistycznej

Przy ciągłych danych regresja liniowa zakłada, że termin błędu jest rozproszony N (0, ) $Y=\beta_1+\beta_2X_2+u$ $\sigma^2$

1) Czy zakładamy, że Var (Y | x) jest również ~ N (0, )? $\sigma^2$

2) Czym jest ten rozkład błędów w regresji logistycznej? Gdy dane mają postać 1 rekordu na przypadek, gdzie „Y” wynosi 1 lub 0, oznacza to błąd błędu rozproszonego Bernoulliego (tzn. Wariancja wynosi p (1-p))) i gdy dane mają postać # sukcesy z # prób, czy przyjmuje się, że jest dwumianowy (tzn. wariancja wynosi np (1-p)), gdzie p jest prawdopodobieństwem, że Y wynosi 1?

logistic generalized-linear-model

— B_Miner
źródło

Nie jesteś precyzyjny. Założeniem modelu jest to, że terminy błędów są niezależne i identycznie rozłożone z rozkładem, który jest N (0, σ ) i nie jest powiązany z WSPÓŁRZĘDNYM. Co to jest Var (Y | x)? Czy warunkujesz na X = x? Czy model zakłada, że zmienna towarzysząca jest w jakiś sposób losowa, czy też zakładamy, że zmienna towarzysząca jest ustalona zgodnie z macierzą projektową? Myślę, że jest to ta ostatnia i dlatego Var (Y | X = x) wynika z założeń i nie trzeba zakładać.

^{2}

$^2$

_{2}

$_2$

_{2}

$_2$

— Michael R. Chernick

@MichaelChernick Dlaczego model zakłada, że jest naprawiony? Z pewnością może być tak, że jest naprawiony, ale może być również losowy. Nic w tym pytaniu nie sugeruje mi żadnego z nich.

X_{2}

$X_2$

— Peter Flom

@PeterFlom Przeczytałem pytanie, że regresja liniowa z założonym rozkładem błędów oznaczała OLS, który wymaga ustalenia X i ustalenia. Jeśli ktoś ma regresję Deminga (tj. Błąd w regresji zmiennych), zostanie to określone w pytaniu. Patrząc na odpowiedź, którą udzielił Stat, wskazuje, że w ten sposób interpretuje pytanie.

_{2}

$_2$

— Michael R. Chernick

@Michael, zakładałem, że naprawiłem X.

— B_Miner

1) Jeśli ma rozkład normalny, tj. to , ponieważ nie jest zmienną losową. $u$ $N(0,σ^2)$ $Var(Y|X_2)=Var(β_1+β_2X_2)+Var(u)=0+σ^2=σ^2$ $β_1+β_2X_2$

2) W regresji logistycznej zakłada się, że błędy są zgodne z rozkładem dwumianowym, jak wspomniano tutaj . Lepiej jest napisać jako , ponieważ te prawdopodobieństwa zależą od , jak podano tutaj lub w Zastosowanej regresji logistycznej . $Var(Y_j|X_j)=m_j.E[Y_j|X_j].(1-E[Y_j|X_j])=m_j\pi(X_j).(1-\pi(X_j))$ $X_j$

— Stat
źródło

Stat, więc słusznie jest powiedzieć, że wariancja dla i-tego indywidualnego błędu wynosi (1- ), co jest równoważne z tym, co wykazałeś, zakładając, że w danych występuje więcej niż 1 obserwacja z tą samą zmienną towarzyszącą wzorzec (tj. inaczej = 1 dla wszystkich j)?

e_{i}

$e_i$

p_{i}

$p_i$

p_{i}

$p_i$

m_{j}

$m_j$

— B_Miner

Tak, to jest poprawne. Jeśli z , to z prawdopodobieństwem lub z prawdopodobieństwem . Stąd ma rozkład ze średnią i wariancją równą .

Y_{i} = p_{i} + e_{i}

$Y_i=p_i+e_i$

P (Y_{i} = 1) = 1 - P (Y_{i} = 0) = p_{i}

$P(Y_i=1)=1-P(Y_i=0)=p_i$

e_{i} = 1 - p_{i}

$e_i=1-p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=-p_i$

1 - p_{i}

$1-p_i$

e_{i}

$e_i$

0

$0$

p_{i} (1 - p_{i})

$p_i(1-p_i)$

— Stat

Dodatkowy punkt, Stat, Musimy założyć, że X są ustalone, nieprzypadkowe dla Var (Y | X) = Var (e) zarówno dla przypadków regresji liniowej, jak i logistycznej, prawda?

— B_Miner

Uwaga z prawdopodobieństwem lub z prawdopodobieństwem jest nie dwumianowego dystrybucji .

e_{i} = 1 - p_{i}

$e_i=1−p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=−p_i$

1 - p_{i}

$1−p_i$

e_{i}

$e_i$

— Scortchi - Przywróć Monikę

B_Miner: nazwa nazwa oznacza wariancję zależną od losowej zmiennej przyjmującej obserwowaną wartość . Nie ma zatem znaczenia, czy predyktory są ustalane eksperymentalnie, czy obserwowane w próbie: to, co mówi @ Stat, mówi, że nie są już one uważane za zmienne losowe do celów regresji.

Var (Y | X) = Var (Y | X = x)

$\operatorname{Var}(Y|X)=\operatorname{Var}(Y|X=x)$

Y

$Y$

X

$X$

x

$x$

— Scortchi - Przywróć Monikę