Dystrybucja danych procentowych

11

Mam pytanie dotyczące prawidłowej dystrybucji do użycia przy tworzeniu modelu z moimi danymi. Przeprowadziłem inwentaryzację lasu z 50 działkami, każda działka ma wymiary 20 x 50 m. Dla każdej działki oszacowałem procent korony drzew, która osłania ziemię. Każda działka ma jedną wartość procentową pokrycia baldachimu. Zakres procentowy wynosi od 0 do 0,95. Tworzę model procentowego pokrycia drzewostanu ( zmienna Y ), z matrycą niezależnych zmiennych X na podstawie zdjęć satelitarnych i danych środowiskowych.

Nie jestem pewien, czy powinienem zastosować rozkład dwumianowy, ponieważ dwumianowa zmienna losowa jest sumą n niezależnych prób (tj. Zmiennych losowych Bernoulliego). Wartości procentowe nie są sumą prób; są to rzeczywiste wartości procentowe. Czy powinienem używać gamma, mimo że nie ma ona górnego limitu? Czy powinienem konwertować wartości procentowe na liczby całkowite i używać Poissona jako liczby? Czy powinienem trzymać się Gaussa? Nie znalazłem wielu przykładów w literaturze ani w podręcznikach, które próbują modelować wartości procentowe w ten sposób. Wszelkie wskazówki i spostrzeżenia są mile widziane.

Dziękuję Ci za Twoje odpowiedzi. W rzeczywistości dystrybucja beta jest dokładnie tym, czego potrzebuję i została dokładnie omówiona w tym artykule:

Eskelson, BN, Madsen, L., Hagar, JC i Temesgen, H. (2011). Szacowanie pokrywy roślinności podmorskiej przy użyciu regresji Beta i modeli kopula. Forest Science, 57 (3), 212–221.

Ci autorzy używają pakietu betareg w R autorstwa Cribari-Neto i Zeileis.

W poniższym artykule omówiono dobry sposób transformacji zmiennej odpowiedzi rozproszonej w fazie beta, gdy zawiera ona prawdziwe zera i / lub zera w zakresie procentowym:

Smithson, M. i J. Verkuilen, 2006. Lepszy wyciskacz do cytryny? Regresja maksymalnego prawdopodobieństwa ze zmiennymi zależnymi rozkładowymi beta , Metody psychologiczne, 11 (1): 54–71.

distributions binomial gamma-distribution

— Ron
źródło

2

Czy myślałeś o użyciu ułamkowego logitu lub zerowej wersji beta ?

— Dimitriy V. Masterov

2

Dziękuję Ci za Twoje odpowiedzi. W rzeczywistości dystrybucja beta jest dokładnie tym, czego potrzebuję i została dokładnie omówiona w tym artykule: Eskelson, BN, Madsen, L., Hagar, JC i Temesgen, H. (2011). Szacowanie pokrywy roślinności podmorskiej przy użyciu regresji Beta i modeli kopula. Forest Science, 57 (3), 212–221. Ci autorzy używają pakietu betareg w R autorstwa Cribari-Neto i Zeileis. W poniższym artykule omówiono dobry sposób transformacji zmiennej odpowiedzi rozproszonej w fazie beta, gdy zawiera ona prawdziwe zera i / lub jedynki w przedziale procentowym: Smithson, M. i J. Verkuilen, 2006. Lepszy cytrynowy sq

7

Masz rację, że rozkład dwumianowy jest dla dyskretnych proporcji, które wynikają z liczby „sukcesów” ze skończonej liczby prób Bernoulliego, i że to czyni rozkład nieodpowiednim dla twoich danych. Powinieneś użyć rozkładu gammy podzielonego przez sumę tej gammy plus inną gamma. Oznacza to, że należy użyć rozkładu beta do modelowania ciągłych proporcji.

Mam przykład regresji beta w moją odpowiedź tutaj: Usuń efekt współczynnika proporcji na ciągłych danych z wykorzystaniem regresji w R .

Aktualizacja:
@ DimitriyV.Masterov podnosi dobrą rzecz, że wspominasz, że twoje dane mają , ale dystrybucja beta jest obsługiwana tylko w . To nasuwa pytanie, co należy zrobić z takimi wartościami. Kilka pomysłów można wyodrębnić z tego doskonałego wątku CV: Jak niewielka ilość powinna zostać dodana do x, aby uniknąć przyjęcia logarytmu 0? $0$ $(0,\ 1)$

— gung - Przywróć Monikę
źródło

3

Czy rozkład beta może obsłużyć zera?

— Dimitriy V. Masterov

1

Wartości procentowe reprezentują wskaźniki niezależne od liczby próbek. Chciałbyś wykorzystać te wartości procentowe jako zmienną zależną, a zdjęcia satelitarne jako zmienną objaśniającą. Wydaje mi się jednak, że nie wszystkie 50 działek w ekwipunku miało podobną liczbę próbek. Odpowiedni model, który łączy te wartości procentowe z innymi zmiennymi, powinien uwzględniać tę niepewność w pomiarze, dając więcej wag na wykresach z dużymi próbkami.

Ponadto rozkład błędów w przypadku danych jest wyraźnie dwumianowy. Wariacja błędu jest najmniejsza na granicach, jest to wychwytywane przez rozkład dwumianowy.

To wszystko wydaje mi się archetypowym przykładem użycia GLM z dwumianowym modelem błędu.

„Statistics: An Introduction using R”, rozdział 14 autorstwa Crawleya omawia dokładnie ten temat i sposób jego analizy za pomocą R.

— bonobo
źródło

4

Rozkład dwumianowy to rozkład liczby sukcesów ze znanej liczby prób Bernoulliego. Twój komentarz, że „fakt, że próby Bernoulliego są również opisane przez rozkład dwumianowy, nie oznacza, że wszystko, co jest opisane przez rozkład dwumianowy musi być zgodny ze strukturą Bernoulliego” nie jest poprawny. Rozkład dwumianowy nie jest odpowiedni dla proporcji ciągłych. Ponadto nie zasugerowałem rozkładu gamma, ale rozkład beta.

— gung - Przywróć Monikę

1

tak, masz całkowitą rację.

— bonobo