Regresja beta (tj. GLM z rozkładem beta i zwykle funkcją logit link) jest często zalecana do radzenia sobie ze zmienną zależną od odpowiedzi przyjmującą wartości od 0 do 1, takie jak ułamki, stosunki lub prawdopodobieństwa: Regresja dla wyniku (stosunek lub ułamek) od 0 do 1 .
Zawsze jednak twierdzi się, że regresji beta nie można zastosować, gdy zmienna odpowiedzi wynosi co najmniej 0 lub 1 przynajmniej raz. Jeśli tak, należy albo użyć modelu beta z zerowym / napompowanym jednym ruchem, albo dokonać transformacji odpowiedzi itp.: Regresja beta danych proporcji, w tym 1 i 0 .
Moje pytanie brzmi: która właściwość rozkładu beta uniemożliwia regresji beta radzenie sobie z dokładnymi zerami i zerami i dlaczego?
Domyślam się, że i nie wspierają dystrybucji beta. Ale dla wszystkich parametrów kształtu i , zarówno zero i jeden jest w wsparciu dystrybucji beta, to tylko dla mniejszych parametrów kształtu że rozkład dąży do nieskończoności w jednej lub obu stronach. Być może przykładowe dane są takie, że i zapewniające najlepsze dopasowanie okazałyby się powyżej .
Czy to oznacza, że w niektórych przypadkach można faktycznie użyć regresji beta nawet z zerami / zerami?
Oczywiście, nawet gdy 0 i 1 wspierają rozkład beta, prawdopodobieństwo zaobserwowania dokładnie 0 lub 1 wynosi zero. Ale czy istnieje prawdopodobieństwo zaobserwowania jakiegokolwiek innego zestawu policzalnych wartości, więc nie może to stanowić problemu, prawda? (Por. Ten komentarz @Glen_b).
W kontekście regresji beta rozkład beta jest sparametryzowany inaczej, ale przy powinien on być nadal dobrze zdefiniowany dla [ 0 , 1 ] dla wszystkich μ .