Regresja wyniku (stosunek lub ułamek) między 0 a 1


42

Mam na myśli zbudowanie modelu przewidującego stosunek , gdzie a b oraz a > 0 i b > 0 . Tak więc stosunek wynosiłby od 0 do 1 .a/baba>0b>001

Mógłbym użyć regresji liniowej, chociaż nie ogranicza się ona naturalnie do 0..1. Nie mam powodu, by sądzić, że związek jest liniowy, ale oczywiście i tak często jest używany jako prosty pierwszy model.

Mógłbym zastosować regresję logistyczną, chociaż zwykle służy ona do przewidywania prawdopodobieństwa wyniku dwustanowego, a nie do przewidywania ciągłej wartości z zakresu 0..1.

Nie wiedząc nic więcej, czy użyłbyś regresji liniowej, logistycznej lub ukrytej opcji c ?


4
Czy rozważałeś regresję beta?
Peter Flom - Przywróć Monikę

Wielkie dzięki dla wszystkich, którzy odpowiedzieli. Będę musiał się uczyć i wybierać. Wygląda na to, że beta jest dobrym miejscem do rozpoczęcia, zwłaszcza jeśli mogę dobrze dopasować (być może na oko).
dfrankow

Widziałem to za pomocą GLM (funkcja Poissona). Licznik a będzie danymi zliczania (wynik), a mianownik b będzie zmienną przesuniętą. Następnie trzeba będzie oddzielić a i b wartości dla każdego przedmiotu / obserwacji. Po prostu nie jestem pewien, czy jest to najbardziej poprawna opcja. Uważam, że dystrybucja Beta jest interesującą opcją - taką, o której nie słyszałem. Trudno mi to jednak pojąć, ponieważ nie jestem statystyką.
MegPophealth

Dziękuję wam wszystkim za głęboką i przydatną analizę. Obecnie stoję w obliczu prawie tego samego wyzwania, ale zamiast przewidywać ciągły zakres współczynników między 0-1, wolę raczej zbudować model regresji, aby przewidzieć zakres użyteczności pacjentów między -1 i 1. Jest to dość trudne, nie mogłem znaleźć żadnej funkcji łącza odpowiedniej do zbudowania modelu regresji z ciągłym zależnym zakresem od -1 do 1. Więc faceci po prostu chcą wiedzieć, co można zrobić. Dzięki,

1
y(y+1)/2[0,1]

Odpowiedzi:


34

Wybierz „ukrytą opcję c”, gdzie c oznacza regresję beta. Jest to rodzaj modelu regresji, który jest odpowiedni, gdy zmienna odpowiedzi jest dystrybuowana jako Beta . Możesz myśleć o tym jak o uogólnionym modelu liniowym . To jest dokładnie to, czego szukasz. Istnieje pakiet o Rnazwie betareg, który sobie z tym radzi . Nie wiem, czy używasz R, ale nawet jeśli nie możesz i tak przeczytać „winiet”, podadzą ci ogólne informacje na ten temat, a także sposób jego implementacji R(których nie potrzebujesz. ta walizka).


aba/b

Inną możliwością jest zastosowanie regresji liniowej, jeśli współczynniki można przekształcić tak, aby spełnić założenia standardowego modelu liniowego, chociaż nie byłbym optymistą co do tego, że faktycznie działa.


1
Czy mógłbyś zastanowić się, dlaczego regresje beta byłyby w tym przypadku preferowane? To zalecenie, które widzę tu dość często, ale tak naprawdę nie widzę nikogo, kto opracowałby uzasadnienie - byłoby miło mieć!
Matt Parker

4
p

3
Byłbym ostrożny, mówiąc, że beta to „odpowiednia” dystrybucja do użycia. Jest dość elastyczny i może być odpowiedni, ale nie obejmuje wszystkich przypadków. Chociaż jest to dobra sugestia i może być tym, czego chcą - nie można tak naprawdę powiedzieć, że jest to odpowiedni rozkład wyłącznie na podstawie faktu, że jest to ciągła reakcja między 0 a 1.
Dason

1
Rozkład trójkątny na [0,1] reprezentuje ciągły rozkład na proporcjach, które nie są beta. Może być wiele innych. Wersja beta jest nowatorską, elastyczną rodziną, ale nie ma w tym nic magicznego. Dobrze rozumiesz regresję logistyczną, ponieważ jest ona stosowana TYLKO do danych binarnych.
Michael Chernick

2
Być może powinienem spróbować wydawać się mniej dogmatyczny. Chodziło mi o to, żebyś zbadał swoje DV i używał dystrybucji, która następuje. To prawda, że ​​istnieją inne rozkłady ciągłych proporcji. Technicznie rzecz biorąc, Beta to stosunek gammy do jej sumy + inna gamma. W danej sytuacji inny rozkład może być lepszy; np. Beta nie może przyjmować wartości 0 lub 1, tylko (0, 1). Niemniej jednak Beta jest dobrze zrozumiała i bardzo elastyczna, z jedynie 2 parametrami do dopasowania. Twierdzę, że w przypadku DV z ciągłą proporcją jest to zwykle najlepsze miejsce na rozpoczęcie.
gung - Przywróć Monikę

2

Czy są to sparowane próbki czy dwie niezależne populacje?

XiXiMiXiMi

Punktem wyjścia dla tej regresji będzie log (B), a nachylenie będzie log (stosunek).

Zobacz więcej tutaj:

Beyene J, Moineddin R. Metody szacowania przedziału ufności parametru stosunku z zastosowaniem do ilorazów lokalizacji. Metodologia badań medycznych BMC. 2005; 5 (1): 32.

EDYCJA: Napisałem dodatek SPSS, aby to zrobić. Mogę się nim podzielić, jeśli jesteś zainteresowany.


1
Z ciekawości, której metody użyłeś (delta, Fieller lub GLM)? Trochę mnie to uśmierca, że ​​artykuł BMC nie przeprowadził niektórych symulacji pokrycia różnych estymatorów (choć wymyślenie realistycznej symulacji byłoby denerwujące). Przypomniano mi to, ponieważ ostatnio natknąłem się na artykuł, który robi metodę delta (bez prawdziwego uzasadnienia), chociaż cytuje artykuł BMC.
Andy W,

1
Kiedy pisałem ten komentarz, użyłem go REGRESSIONpo transformacji dziennika danych. Od tego czasu napisałem bardziej wyrafinowaną wersję, która używa GLM. Zajmuję się pomiarami emisji światła, a moje testy sugerowały, że regresja gamma z log-link była najmniej podatna na niekontrolowaną niepewność parametrów. W przypadku większości moich rzeczywistych danych odpowiedzi na użycie normalnego, ujemnego dwumianowego i gamma z log-link były bardzo podobne (przynajmniej z taką dokładnością, jakiej potrzebowałem)
DocBuckets

0

Xii=1,2,..,kkp1pp=exp(x)[1+exp(x)]x


p

2
-1. Zgadzam się z @amoeba. Zastanawiam się, dlaczego kiedykolwiek była tak pozytywnie oceniana. Nie ma znaczenia pytanie, które w ogóle nie zakłada danych binarnych 0 lub 1, ale koncentruje się na zmierzonych proporcjach, które zawierają się między 0 a 1 włącznie.
Nick Cox,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.