Mam pytanie dotyczące prawidłowej dystrybucji do użycia przy tworzeniu modelu z moimi danymi. Przeprowadziłem inwentaryzację lasu z 50 działkami, każda działka ma wymiary 20 x 50 m. Dla każdej działki oszacowałem procent korony drzew, która osłania ziemię. Każda działka ma jedną wartość procentową pokrycia baldachimu. Zakres procentowy wynosi od 0 do 0,95. Tworzę model procentowego pokrycia drzewostanu ( zmienna Y ), z matrycą niezależnych zmiennych X na podstawie zdjęć satelitarnych i danych środowiskowych.
Nie jestem pewien, czy powinienem zastosować rozkład dwumianowy, ponieważ dwumianowa zmienna losowa jest sumą n niezależnych prób (tj. Zmiennych losowych Bernoulliego). Wartości procentowe nie są sumą prób; są to rzeczywiste wartości procentowe. Czy powinienem używać gamma, mimo że nie ma ona górnego limitu? Czy powinienem konwertować wartości procentowe na liczby całkowite i używać Poissona jako liczby? Czy powinienem trzymać się Gaussa? Nie znalazłem wielu przykładów w literaturze ani w podręcznikach, które próbują modelować wartości procentowe w ten sposób. Wszelkie wskazówki i spostrzeżenia są mile widziane.
Dziękuję Ci za Twoje odpowiedzi. W rzeczywistości dystrybucja beta jest dokładnie tym, czego potrzebuję i została dokładnie omówiona w tym artykule:
Eskelson, BN, Madsen, L., Hagar, JC i Temesgen, H. (2011). Szacowanie pokrywy roślinności podmorskiej przy użyciu regresji Beta i modeli kopula. Forest Science, 57 (3), 212–221.
Ci autorzy używają pakietu betareg w R autorstwa Cribari-Neto i Zeileis.
W poniższym artykule omówiono dobry sposób transformacji zmiennej odpowiedzi rozproszonej w fazie beta, gdy zawiera ona prawdziwe zera i / lub zera w zakresie procentowym:
- Smithson, M. i J. Verkuilen, 2006. Lepszy wyciskacz do cytryny? Regresja maksymalnego prawdopodobieństwa ze zmiennymi zależnymi rozkładowymi beta , Metody psychologiczne, 11 (1): 54–71.