Załóżmy, że chcę zbudować model, aby przewidzieć pewien stosunek lub procent. Na przykład, powiedzmy, że chcę przewidzieć liczbę chłopców w porównaniu z dziewczynami, którzy wezmą udział w imprezie, a cechami imprezy, których mogę użyć w modelu, są między innymi ilość reklamy na imprezę, wielkość miejsca, czy to tam na przyjęciu będzie jakikolwiek alkohol itp. (To tylko wymyślony przykład; funkcje nie są tak naprawdę ważne).
Moje pytanie brzmi: jaka jest różnica między przewidywaniem stosunku a procentem i jak zmienia się mój model w zależności od tego, który wybiorę? Czy jedno jest lepsze od drugiego? Czy jakaś inna funkcja jest lepsza od którejkolwiek z nich? (Tak naprawdę nie dbam o konkretną liczbę proporcji w stosunku do procentu; chcę tylko móc określić, które strony są bardziej prawdopodobne na „imprezy dla chłopców” vs. „imprezy dla dziewcząt”). Na przykład myślący:
- Jeśli chcę przewidzieć procent (powiedzmy,
# boys / (# boys + # girls)
ponieważ moja funkcja zależna jest ograniczona od 0 do 1, prawdopodobnie powinienem użyć czegoś takiego jak regresja logistyczna zamiast regresji liniowej. - Jeśli chcę przewidzieć stosunek (powiedzmy
# boys / # girls
lub# boys / (1 + # girls)
uniknąć błędów dzielenia przez zero), to moja zależna cecha jest dodatnia, więc czy powinienem zastosować jakąś transformację (log?) Przed użyciem regresji liniowej? (Lub jakiś inny model? Jakie modele regresji stosuje się w przypadku dodatnich, niezliczonych danych?) - Czy ogólnie lepiej jest przewidzieć (powiedzmy) procent zamiast stosunku, a jeśli tak, to dlaczego?