Jak obliczyć średnią długość przylegania do wegetarianizmu, gdy mamy tylko dane ankietowe na temat aktualnych wegetarian?

Badano losową próbę populacji. Zapytano ich, czy jedzą dietę wegetariańską. Jeśli odpowiedzieli „tak”, poproszono ich również o określenie, jak długo bez przerwy je dietę wegetariańską. Chcę wykorzystać te dane do obliczenia średniej długości przestrzegania zasady wegetarianizmu. Innymi słowy, kiedy ktoś zostaje wegetarianinem, chcę wiedzieć, że średnio długo pozostaje wegetarianinem. Załóżmy, że:

Wszyscy respondenci udzielili poprawnych i dokładnych odpowiedzi
Świat jest stabilny: popularność wegetarianizmu nie zmienia się, średnia długość przylegania również się nie zmienia.

Moje dotychczasowe rozumowanie

Przydało mi się przeanalizować zabawkowy model świata, w którym na początku każdego roku dwie osoby stają się wegetarianami. Za każdym razem jeden z nich pozostaje wegetarianinem przez 1 rok, a drugi przez 3 lata. Oczywiście średnia długość przylegania na tym świecie wynosi (1 + 3) / 2 = 2 lata. Oto wykres ilustrujący przykład. Każdy prostokąt reprezentuje okres wegetarianizmu:

Ilustracja

Załóżmy, że przeprowadzamy ankietę w połowie czwartego roku (czerwona linia). Otrzymujemy następujące dane:

stół

Otrzymalibyśmy te same dane, gdybyśmy wzięli udział w ankiecie w dowolnym roku, począwszy od 3. roku. Jeśli tylko uśrednimy odpowiedzi, otrzymamy:

(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25

Nie doceniamy, ponieważ zakładamy, że wszyscy przestali być wegetarianami zaraz po badaniu, co jest oczywiście błędne. Aby uzyskać oszacowanie, które jest bliższe faktycznym średnim czasom, w których ci uczestnicy pozostaliby wegetarianami, możemy założyć, że średnio zgłosili czas około połowy okresu wegetarianizmu i pomnożyli czas trwania przez 2. W dużej ankiecie losowo losowanej z populacji (jak ta, którą analizuję), myślę, że jest to realistyczne założenie. Przynajmniej dałoby to prawidłową wartość oczekiwaną. Jeśli jednak podwajanie jest jedyną rzeczą, którą robimy, otrzymujemy średnią 2,5, co jest przeszacowane. Wynika to z faktu, że im dłużej osoba pozostaje wegetarianinem, tym bardziej prawdopodobne jest, że znajdzie się w próbce obecnych wegetarian.

Pomyślałem wtedy, że prawdopodobieństwo, że ktoś znajdzie się w próbie obecnych wegetarian, jest proporcjonalne do ich długości wegetarianizmu. Aby uwzględnić to uprzedzenie, próbowałem podzielić liczbę obecnych wegetarian przez ich przewidywaną długość przylegania:

jeszcze inny stół

Daje to jednak również niepoprawną średnią:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 lat

Dałoby to prawidłowe oszacowanie, gdyby liczba wegetarian była podzielona przez ich prawidłowe długości przylegania:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 lata

Ale to nie działa, jeśli użyję przewidywanych długości przylegania i to wszystko, co mam w rzeczywistości. Nie wiem co jeszcze spróbować. Przeczytałem trochę o analizie przeżycia, ale nie jestem pewien, jak ją zastosować w tym przypadku. Idealnie chciałbym również móc obliczyć 90% przedział ufności. Wszelkie wskazówki będą mile widziane.

EDYCJA: Możliwe, że na powyższe pytanie nie ma odpowiedzi. Ale było też inne badanie, w którym zapytano losową próbę ludzi, czy są / byli wegetarianami i ile razy byli wegetarianami w przeszłości. Znam także wiek wszystkich osób w obu badaniach i kilka innych rzeczy. Być może tę informację można wykorzystać w połączeniu z ankietą aktualnych wegetarian, aby jakoś to zrozumieć. W rzeczywistości badanie, o którym mówiłem, to tylko jedna część układanki, ale bardzo ważna i chcę z niej czerpać więcej.

— Saulius Šimčikas
źródło

To nie jest opcja bankomatu. Te dane zdecydowanie dostarczają pewnych dowodów na długość przestrzegania, po prostu nie wiem, jak z nich korzystać.

— Saulius Šimčikas,

Wygląda na to, że co najmniej jedno z Twoich obrazów zniknęło (błąd 403, gdy korzystam z adresu URL).

— barrycarter

@kjetilbhalvorsen Problem nie ma znaczenia, czy wegetarianie są wegetarianami przez całe życie. W pewnym momencie przestaną być wegetarianami, jedząc mięso lub umierając.

— Pere

@kjetil Twój komentarz „prawdziwi wegetarianie” brzmi trochę jak No True Scotsman . Zwykła definicja wegetarianina nie mówi nic o tym, co może się zdarzyć w przyszłości, ani o tym, dlaczego ktoś jest wegetarianinem, a jedynie o ich zachowaniu w momencie rozpatrywania atrybutu. Jeśli ktoś jest teraz wegetarianinem, teraz jest wegetarianinem, bez względu na powód , dla którego tak się stało. Nie sądzę, aby nasze osobiste odczucia związane z pomysłem jedzenia mięsa lub z powodów, dla których moglibyśmy czuć, że jemy, są na ten temat; należą one gdzie indziej.

— Glen_b

Ponieważ osoby, które są wegetarianami przez dłuższy czas, częściej są wybierane do pojawienia się w próbie, oznacza to, że funkcja gęstości prawdopodobieństwa danych próbki jest proporcjonalna do jednego minus skumulowana funkcja rozkładu długości przylegania. Aby zrobić przykład z twojego przykładu, rozkład długości wynosi [0, 0,5, 0, 0,5] (50% przez 1 rok, 50% przez 3 lata), dając CDF w wysokości [0, 0,5, 0,5, 1 ], gdzie jeden minus to [1, 0,5, 0,5, 0], który jest proporcjonalny do zliczeń [2, 1, 1, 0] próbki.

— PhiNotPi

Odpowiedzi:

Niech oznacza pdf długości przylegania wegetarianizmu w populacji. Naszym celem jest oszacowanie . $f_X(x)$ $X$ $EX=\int_0^\infty xf_X(x)dx$

Zakładając, że prawdopodobieństwo włączenia do badania (zdarzenie ) jest proporcjonalne do , pdf długości przylegania wśród tych uwzględnionych w badaniu wynosi $S$ $X$ $X$ W momencie włączenia do badania, tylko czasemminęło. Zależnie od(i), podawany czas wegetarianizmu jest jednolity z pdf

{fa}_{X | S.} (x) = \frac{x {fa}_{X} (x)}{\int x {fa}_{X} (x) re x} = \frac{x {fa}_{X} (x)}{mi X} .

$f_{X|S}(x) = \frac{xf_X(x)}{\int x f_X(x) dx}=\frac{xf_X(x)}{EX}.$

Z

$Z$

X

$X$

S

$S$

Zatem, stosując prawo całkowitego prawdopodobieństwa, ogólny rozkład czasu

upłynął jako wegetarianin, wśród tych objętych badaniem, staje się

{fa}_{Z | X = x} (z) = \frac{1}{x}, 0 < z < x .

$f_{Z|X=x}(z) = \frac1x, 0<z<x.$

Z

$Z$

gdzie

jest CDF

. Od

jest dodatnią zmienna

, a więc

\begin{aligned} {fa}_{Z} (z) & = \int_{z}^{\infty} {fa}_{Z | X = x} (z) {fa}_{X | S.} (x) re x \\ = \int_{z}^{\infty} \frac{1}{x} \frac{x {fa}_{X} (x)}{mi X} re x \\ = \frac{1 - {fa}_{X} (z)}{mi X}, \end{aligned}

$\begin{align} f_Z(z) &= \int_z^\infty f_{Z|X=x}(z)f_{X|S}(x)dx \\&= \int_z^\infty \frac1x \frac{xf_X(x)}{EX}dx \\&= \frac{1-F_X(z)}{EX}, \end{align}$

F_{X} (z)

$F_X(z)$

X

$X$

X

$X$

F_{X} (0) = P (X \leq 0) = 0

$F_X(0)=P(X\le 0)=0$

f_{Z} (0) = 1 / E X

$f_Z(0)=1/EX$

$EX$ $f_Z(z)$ $z_1,z_2,\dots,z_n$ $z=0$ $f_Z(z)$ $z=0$ $\hat f_Z(0)$ $f_Z(z)$ $z=0$ $EX$ $\widehat{EX}=1/\hat f_Z(0)$

$f_Z(z)$ $f_X(0)=F_X'(0)>0$ $f_Z(0)$ $EX$ $EX$ w takich sytuacjach bez przyjęcia większej liczby założeń wydaje się to trudne, zasadniczo dlatego, że krótkie czasy przylegania występujące w tej sytuacji prawie nie pokazują się w obserwowanych danych w wyniku tendencyjnego próbkowania.

$f_X(x)$

L. (θ) = \prod_{ja = 1}^{n} \frac{1 - {fa}_{X} (z_{ja}; θ)}{mi X (θ)}

$L(\theta)=\prod_{i=1}^n \frac{1-F_X(z_i;\theta)}{EX(\theta)}$

Kod R symulujący dane i wdrażający obie metody:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

— Jarle Tufto
źródło

Hej, dziękuję bardzo za odpowiedź, nie poświęciłem jeszcze czasu na zrozumienie wszystkiego, chciałem tylko dodać, że znam ogólną dystrybucję z tego innego badania. (jedynym problemem związanym z innym badaniem było to, że ludzie wybierali między opcjami na jak długo byli wegetarianami, a jedną z opcji było „Ponad 10 lat”, a średnia zależy prawie całkowicie od tego, jak długo ludzie są dłużej niż 10 lat pozostań wegetarianinem)

— Saulius Šimčikas

Ok, mam nadzieję, że w moim rozumowaniu nie ma większych wad. Widzę, że @PhiNotPi dociera do tego samego pliku pdf w swoim komentarzu do PO.

— Jarle Tufto,

@ Saulius Jeśli masz dostęp do drugiego prawego cenzurowanego zestawu danych i można uznać, że leżące u jego podstaw rozkłady są identyczne, idealnym rozwiązaniem byłoby połączenie prawdopodobieństwa dla tego zestawu danych (co jest łatwe do zapisania, jeśli jest to po prostu niektóre prawidłowo ocenzurowane próbki), a następnie zmaksymalizować wspólne prawdopodobieństwo.

— Jarle Tufto,

ten nie jest słusznie ocenzurowany: imgur.com/U8ofZ3A Teraz zdaję sobie sprawę, że musiałem o tym wspomnieć na początku, ale pomyślałem, że mój problem ma bardziej proste rozwiązanie ...

— Saulius Šimčikas

@ Saulius Dane te są cenzurowane interwałowo. Ponownie, obliczenie prawdopodobieństwa jest proste.

— Jarle Tufto,

(Mam dość dodawania tego, jak się wydaje, @JarleTufto podjął już dobre podejście matematyczne; nie jestem jednak wystarczająco sprytny, aby zrozumieć jego odpowiedź, a teraz jestem ciekawy, czy jest to dokładnie to samo, czy też podejście, które opisuję poniżej, ma swoje zastosowanie).

To, co bym zrobił, to odgadnięcie średniej długości i kilku rozkładów wokół niej, a następnie dla każdej z nich wykonaj symulację mojej populacji i regularnie ją pobieraj.

Powiedziałeś, że zakładasz, że całkowita populacja wegetarian się nie zmienia, więc za każdym razem, gdy mój model kogoś zatrzyma, powstaje zupełnie nowy wegetarianin. Musimy uruchomić model przez kilka symulowanych lat, aby upewnić się, że ustabilizował się, zanim zaczniemy próbkować. Po tym myślę, że możesz pobierać próbki co symulowany miesiąc (*), dopóki nie będziesz mieć wystarczająco dużo, aby uzyskać 90% przedział ufności.

*: lub jakakolwiek rozdzielczość działa z Twoimi danymi. Jeśli ludzie dali odpowiedź na najbliższy rok, pobieranie próbek co 6 miesięcy jest wystarczające.

Ze wszystkich domysłów wybierasz średnią i rozkład, który (uśredniony dla wszystkich pobranych próbek) daje ci wynik najbliższy temu, co dała twoja ankieta z prawdziwego życia.

Kilka razy powtarzałbym moje domysły, aby zawęzić wybór najlepszego meczu.

Najlepszy rozkład może nie być jednokołowy. Byli wegetarianie, o których osobiście mogę myśleć, że przestali z powodu poważnych zmian stylu życia (zazwyczaj małżeństwo / życie z nie-wegetarianinem, przeprowadzka lub kraj poważnie chory i lekarz sugerujący, że może to być dieta); z drugiej strony jest siła nawyku: im dłużej jesteś wegetarianinem, tym bardziej prawdopodobne jest, że będziesz nim nadal. Gdyby twoje dane pytały o wiek i status związku, moglibyśmy to również przedstawić w powyższej symulacji.

— Darren Cook
źródło