Dwumianowa zmienna losowa z próbami i prawdopodobieństwem sukcesu może przyjąć więcej niż dwie wartości. Dwumianowa zmienna losowa reprezentuje liczbę sukcesów w tych próbach i może w rzeczywistości przyjmować różnych wartości ( ). Jeśli więc wariancja tego rozkładu jest większa, niż można się było spodziewać przy założeniach dwumianowych (być może są na przykład nadwyżki zer), jest to przypadek nadmiernej dyspersji. P N N + 1 0 , 1 , 2 , 3 , . . . , NNpNN+10,1,2,3,...,N
Nadmierna dyspersja nie ma sensu dla losowej zmiennej Bernoulliego ( )N=1
W kontekście krzywej regresji logistycznej można rozważyć „mały wycinek” lub pogrupowanie według wąskiego zakresu wartości predykcyjnych jako realizację eksperymentu dwumianowego (być może mamy 10 punktów w wycinku z pewną liczbą sukcesy i porażki). Chociaż tak naprawdę nie mamy wielu prób dla każdej wartości predyktora i patrzymy na proporcje zamiast surowych zliczeń, nadal oczekujemy, że proporcja każdego z tych „segmentów” będzie zbliżona do krzywej. Jeśli te „wycinki” mają tendencję do oddalania się od krzywej, występuje zbyt duża zmienność w rozkładzie. Grupując obserwacje, tworzysz realizacje losowych zmiennych dwumianowych zamiast osobno patrząc na dane 0/1.
Poniższy przykład pochodzi z innego pytania na tej stronie. Załóżmy, że niebieskie linie reprezentują oczekiwaną proporcję w zakresie zmiennych predyktorów. Niebieskie komórki wskazują zaobserwowane przypadki (w tym przypadku szkoły). Zapewnia to graficzną reprezentację tego, jak może wyglądać nadmierna dyspersja . Zauważ, że istnieją błędy w interpretacji komórek na poniższym wykresie, ale daje wyobrażenie o tym, w jaki sposób może przejawiać się nadmierna dyspersja.