Regresja logistyczna - termin błędu i jego rozkład


31

O tym, czy w regresji logistycznej istnieje błąd (i jego założony rozkład), czytałem w różnych miejscach, które:

  1. nie istnieje termin błędu
  2. termin błędu ma rozkład dwumianowy (zgodnie z rozkładem zmiennej odpowiedzi)
  3. termin błędu ma rozkład logistyczny

Czy ktoś może wyjaśnić?


6
Z regresji logistycznej - lub wręcz GLMs bardziej ogólnie - to zazwyczaj nie warto myśleć w kategoriach obserwacji yi|x jako „średnia + błąd”. Lepiej myśleć w kategoriach rozkładu warunkowego. Nie posunąłbym się nawet do stwierdzenia, że ​​„nie istnieje termin błędu”, ponieważ „myślenie w tych kategoriach po prostu nie jest pomocne”. Więc nie powiedziałbym tak bardzo, że jest to wybór pomiędzy 1. lub 2., ponieważ powiedziałbym, że ogólnie lepiej powiedzieć „żaden z powyższych”. Jednak niezależnie od stopnia, w jakim można argumentować za „1”. lub „2.”, jednak „3.” jest zdecydowanie błędny. Gdzie to widziałeś?
Glen_b

1
@Glen_b: Czy można argumentować za (2)? Wiem, że ludzie to mówią, ale nigdy nie bronią tego, gdy jest kwestionowany.
Scortchi - Przywróć Monikę

3
@Glen_b Wszystkie trzy stwierdzenia mają konstruktywne interpretacje, w których są prawdziwe. (3) jest adresowany pod adresem en.wikipedia.org/wiki/Logistic_distribution#Applications oraz en.wikipedia.org/wiki/Discrete_choice#Binary_Choice .
whuber

@whuber: Poprawiłem odpowiedź wrt (3), która nie została dobrze przemyślana; ale nadal zastanawiam się, w jakim sensie (2) może mieć rację.
Scortchi - Przywróć Monikę

2
@Scortchi Chociaż masz rację, że (2) jest niepoprawne, jeśli interpretujemy to jako powiedzenie, że różnica między obserwacją a jej oczekiwaniem ma rozkład dwumianowy przetłumaczony przez oczekiwanie , to będzie (trywialnie) poprawny. Uwaga w nawiasach w (2) zdecydowanie sugeruje, że jest to zamierzona interpretacja. Należy zauważyć, że można również zdefiniować inne przydatne „terminy błędów”, takie jak i terminy błędów dewiacji opisane w Hosmer i Lemeshow (i, z zastrzeżeniem odpowiednich omówionych tu zastrzeżeń, ich kwadraty mają przybliżone χ 2 rozkłady). χ2χ2
whuber

Odpowiedzi:


25

W regresji liniowej zakłada się, że obserwacje przebiegają zgodnie z rozkładem Gaussa ze średnim parametrem zależnym od wartości predyktora. Jeśli odejmiesz średnią z obserwacji, otrzymasz błąd : rozkład Gaussa ze średnią zero i niezależny od wartości predyktora - to znaczy błędy w dowolnym zestawie wartości predyktora mają ten sam rozkład.

W regresji logistycznej zakłada się, że obserwacje podążają za rozkładem Bernoulliego ze średnim parametrem (prawdopodobieństwem) zależnym od wartości predyktora. Tak więc dla każdej wartości predyktora określającej średnią π istnieją tylko dwa możliwe błędy: 1 - π występujące z prawdopodobieństwem π i 0 - π występujące z prawdopodobieństwem 1 - π . Dla innych wartości predykcyjnych błędy będą wynosić 1 - π występujące z prawdopodobieństwem π y{0,1}π1ππ0π1π1ππ, I występujące z prawdopodobieństwem 1 - π . Nie ma więc wspólnego rozkładu błędów niezależnego od wartości predyktorów, dlatego ludzie twierdzą, że „nie istnieje termin błędu” (1).0π1π

„Pojęcie błędu ma rozkład dwumianowy” (2) to po prostu niechlujstwo - „Modele Gaussa mają błędy Gaussa, a modele dwumianowe ergo mają błędy dwumianowe”. (Lub, jak wskazuje @whuber, można by to rozumieć jako „różnicę między obserwacją a jej oczekiwaniem ma rozkład dwumianowy tłumaczony przez oczekiwanie”).

„Pojęcie błędu ma rozkład logistyczny” (3) wynika z wyprowadzenia regresji logistycznej z modelu, w którym obserwuje się, czy ukryta zmienna z błędami występującymi po rozkładzie logistycznym przekracza pewien próg. To nie jest ten sam błąd, który został zdefiniowany powyżej. (Dziwne byłoby powiedzenie IMO poza tym kontekstem lub bez wyraźnego odniesienia do ukrytej zmiennej).

† If you have k observations with the same predictor values, giving the same probability π for each, then their sum y follows a binomial distribution with probability π and no. trials k. Considering ykπ as the error leads to the same conclusions.


1
Could you provide an simple example regarding the part 'no error term exists'. I'm having troubles understanding it the way it's written.
quirik

@Scortchi I'm having trouble following the case when in practice the model is used with some threshold, say 0.5. Then the error is either 1 or 0. Can this then be considered a Bernoulli random variable with parameter 1-π when the true label is 1?
wabbit

17

This has been covered before. A model that is constrained to have predicted values in [0,1] cannot possibly have an additive error term that would make the predictions go outside [0,1]. Think of the simplest example of a binary logistic model -- a model containing only an intercept. This is equivalent to the Bernoulli one-sample problem, often called (in this simple case) the binomial problem because (1) all the information is contained in the sample size and number of events or (2) the Bernoulli distribution is a special case of the binomial distribution with n=1. The raw data in this situation are a series of binary values, and each has a Bernoulli distribution with unknown parameter θ representing the probability of the event. There is no error term in the Bernoulli distribution, there's just an unknown probability. The logistic model is a probability model.


9

To me the unification of logistic, linear, poisson regression etc... has always been in terms of specification of the mean and variance in the Generalized Linear Model framework. We start by specifying a probability distribution for our data, normal for continuous data, Bernoulli for dichotomous, Poisson for counts, etc...Then we specify a link function that describes how the mean is related to the linear predictor:

g(μi)=α+xiTβ

For linear regression, g(μi)=μi.

For logistic regression, g(μi)=log(μi1μi).

For Poisson regression, g(μi)=log(μi).

The only thing one might be able to consider in terms of writing an error term would be to state:

yi=g1(α+xiTβ)+ei where E(ei)=0 and Var(ei)=σ2(μi). For example, for logistic regression, σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ)). But, you cannot explicitly state that ei has a Bernoulli distribution as mentioned above.

Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution of ei for this model because the higher order moments don't play a role in the estimation of the model parameters.


0
  1. No errors exist. We are modeling the mean! The mean is just a true number.
  2. This doesn't make sense to me.
  3. Think the response variable as a latent variable. If you assume the error term is normally distributed, then the model becomes a probit model. If you assume the distribution of the error term is logistic, then the model is logistic regression.

2
I fail to see how this helps one understand a probability model. Probability models are simpler than this makes it seem.
Frank Harrell
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.