W regresji liniowej zakłada się, że obserwacje przebiegają zgodnie z rozkładem Gaussa ze średnim parametrem zależnym od wartości predyktora. Jeśli odejmiesz średnią z obserwacji, otrzymasz błąd : rozkład Gaussa ze średnią zero i niezależny od wartości predyktora - to znaczy błędy w dowolnym zestawie wartości predyktora mają ten sam rozkład.
W regresji logistycznej zakłada się, że obserwacje podążają za rozkładem Bernoulliego † ze średnim parametrem (prawdopodobieństwem) zależnym od wartości predyktora. Tak więc dla każdej wartości predyktora określającej średnią π istnieją tylko dwa możliwe błędy: 1 - π występujące z prawdopodobieństwem π i 0 - π występujące z prawdopodobieństwem 1 - π . Dla innych wartości predykcyjnych błędy będą wynosić 1 - π ′ występujące z prawdopodobieństwem π ′y∈{0,1}π1−ππ0−π1−π1−π′π′, I występujące z prawdopodobieństwem 1 - π ′ . Nie ma więc wspólnego rozkładu błędów niezależnego od wartości predyktorów, dlatego ludzie twierdzą, że „nie istnieje termin błędu” (1).0−π′1−π′
„Pojęcie błędu ma rozkład dwumianowy” (2) to po prostu niechlujstwo - „Modele Gaussa mają błędy Gaussa, a modele dwumianowe ergo mają błędy dwumianowe”. (Lub, jak wskazuje @whuber, można by to rozumieć jako „różnicę między obserwacją a jej oczekiwaniem ma rozkład dwumianowy tłumaczony przez oczekiwanie”).
„Pojęcie błędu ma rozkład logistyczny” (3) wynika z wyprowadzenia regresji logistycznej z modelu, w którym obserwuje się, czy ukryta zmienna z błędami występującymi po rozkładzie logistycznym przekracza pewien próg. To nie jest ten sam błąd, który został zdefiniowany powyżej. (Dziwne byłoby powiedzenie IMO poza tym kontekstem lub bez wyraźnego odniesienia do ukrytej zmiennej).
† If you have k observations with the same predictor values, giving the same probability π for each, then their sum ∑y follows a binomial distribution with probability π and no. trials k. Considering ∑y−kπ as the error leads to the same conclusions.