Budujesz model liniowy dla stosunku vs procent?

20

Załóżmy, że chcę zbudować model, aby przewidzieć pewien stosunek lub procent. Na przykład, powiedzmy, że chcę przewidzieć liczbę chłopców w porównaniu z dziewczynami, którzy wezmą udział w imprezie, a cechami imprezy, których mogę użyć w modelu, są między innymi ilość reklamy na imprezę, wielkość miejsca, czy to tam na przyjęciu będzie jakikolwiek alkohol itp. (To tylko wymyślony przykład; funkcje nie są tak naprawdę ważne).

Moje pytanie brzmi: jaka jest różnica między przewidywaniem stosunku a procentem i jak zmienia się mój model w zależności od tego, który wybiorę? Czy jedno jest lepsze od drugiego? Czy jakaś inna funkcja jest lepsza od którejkolwiek z nich? (Tak naprawdę nie dbam o konkretną liczbę proporcji w stosunku do procentu; chcę tylko móc określić, które strony są bardziej prawdopodobne na „imprezy dla chłopców” vs. „imprezy dla dziewcząt”). Na przykład myślący:

Jeśli chcę przewidzieć procent (powiedzmy, # boys / (# boys + # girls)ponieważ moja funkcja zależna jest ograniczona od 0 do 1, prawdopodobnie powinienem użyć czegoś takiego jak regresja logistyczna zamiast regresji liniowej.
Jeśli chcę przewidzieć stosunek (powiedzmy # boys / # girlslub # boys / (1 + # girls)uniknąć błędów dzielenia przez zero), to moja zależna cecha jest dodatnia, więc czy powinienem zastosować jakąś transformację (log?) Przed użyciem regresji liniowej? (Lub jakiś inny model? Jakie modele regresji stosuje się w przypadku dodatnich, niezliczonych danych?)
Czy ogólnie lepiej jest przewidzieć (powiedzmy) procent zamiast stosunku, a jeśli tak, to dlaczego?

regression logistic

— raegtin
źródło

W zależności od konkretnej aplikacji i tego, co próbujesz modelować, powinieneś rozważyć zastosowanie analizy danych kompozycyjnych ( en.wikipedia.org/wiki/Compositional_data ); istnieją pewne subtelne rzeczy do rozważenia, gdy cechy (zmienne niezależne) sumują się do jedności. Zobacz prace Johna Aitchisona.

— ctbrown

9

$p$ $A$ $B$ $p$

$[0,1]$

$0$ $1$

$\log$

— jpillow
źródło

15

Powtarzając pierwszą odpowiedź. Nie przejmuj się konwersją - po prostu modeluj liczby i współzmienne bezpośrednio.

Jeśli to zrobisz i dopasujesz model regresji dwumianowej (lub równoważnie logistycznej) do dziewczynki, liczy się to, jeśli wybierzesz zwykłą funkcję linku dla takich modeli, domyślnie już dopasujesz stosunek (zarejestrowany wygładzony) chłopców do dziewcząt. To predyktor liniowy.

Podstawowym powodem modelowania jest liczenie bezpośrednio, a nie proporcje lub proporcje, ponieważ nie tracisz informacji. Intuicyjnie byłbyś o wiele bardziej przekonany o wnioskach z zaobserwowanego stosunku 1 (chłopców do dziewcząt), gdyby wynikało to ze 100 chłopców i 100 dziewcząt niż z 2 i 2. W konsekwencji, jeśli masz zmienne towarzyszące, będziesz miał więcej informacje o ich skutkach i potencjalnie lepszy model predykcyjny.

— sprzężonyprior
źródło