Badano losową próbę populacji. Zapytano ich, czy jedzą dietę wegetariańską. Jeśli odpowiedzieli „tak”, poproszono ich również o określenie, jak długo bez przerwy je dietę wegetariańską. Chcę wykorzystać te dane do obliczenia średniej długości przestrzegania zasady wegetarianizmu. Innymi słowy, kiedy ktoś zostaje wegetarianinem, chcę wiedzieć, że średnio długo pozostaje wegetarianinem. Załóżmy, że:
- Wszyscy respondenci udzielili poprawnych i dokładnych odpowiedzi
- Świat jest stabilny: popularność wegetarianizmu nie zmienia się, średnia długość przylegania również się nie zmienia.
Moje dotychczasowe rozumowanie
Przydało mi się przeanalizować zabawkowy model świata, w którym na początku każdego roku dwie osoby stają się wegetarianami. Za każdym razem jeden z nich pozostaje wegetarianinem przez 1 rok, a drugi przez 3 lata. Oczywiście średnia długość przylegania na tym świecie wynosi (1 + 3) / 2 = 2 lata. Oto wykres ilustrujący przykład. Każdy prostokąt reprezentuje okres wegetarianizmu:
Załóżmy, że przeprowadzamy ankietę w połowie czwartego roku (czerwona linia). Otrzymujemy następujące dane:
Otrzymalibyśmy te same dane, gdybyśmy wzięli udział w ankiecie w dowolnym roku, począwszy od 3. roku. Jeśli tylko uśrednimy odpowiedzi, otrzymamy:
(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25
Nie doceniamy, ponieważ zakładamy, że wszyscy przestali być wegetarianami zaraz po badaniu, co jest oczywiście błędne. Aby uzyskać oszacowanie, które jest bliższe faktycznym średnim czasom, w których ci uczestnicy pozostaliby wegetarianami, możemy założyć, że średnio zgłosili czas około połowy okresu wegetarianizmu i pomnożyli czas trwania przez 2. W dużej ankiecie losowo losowanej z populacji (jak ta, którą analizuję), myślę, że jest to realistyczne założenie. Przynajmniej dałoby to prawidłową wartość oczekiwaną. Jeśli jednak podwajanie jest jedyną rzeczą, którą robimy, otrzymujemy średnią 2,5, co jest przeszacowane. Wynika to z faktu, że im dłużej osoba pozostaje wegetarianinem, tym bardziej prawdopodobne jest, że znajdzie się w próbce obecnych wegetarian.
Pomyślałem wtedy, że prawdopodobieństwo, że ktoś znajdzie się w próbie obecnych wegetarian, jest proporcjonalne do ich długości wegetarianizmu. Aby uwzględnić to uprzedzenie, próbowałem podzielić liczbę obecnych wegetarian przez ich przewidywaną długość przylegania:
Daje to jednak również niepoprawną średnią:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 lat
Dałoby to prawidłowe oszacowanie, gdyby liczba wegetarian była podzielona przez ich prawidłowe długości przylegania:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 lata
Ale to nie działa, jeśli użyję przewidywanych długości przylegania i to wszystko, co mam w rzeczywistości. Nie wiem co jeszcze spróbować. Przeczytałem trochę o analizie przeżycia, ale nie jestem pewien, jak ją zastosować w tym przypadku. Idealnie chciałbym również móc obliczyć 90% przedział ufności. Wszelkie wskazówki będą mile widziane.
EDYCJA: Możliwe, że na powyższe pytanie nie ma odpowiedzi. Ale było też inne badanie, w którym zapytano losową próbę ludzi, czy są / byli wegetarianami i ile razy byli wegetarianami w przeszłości. Znam także wiek wszystkich osób w obu badaniach i kilka innych rzeczy. Być może tę informację można wykorzystać w połączeniu z ankietą aktualnych wegetarian, aby jakoś to zrozumieć. W rzeczywistości badanie, o którym mówiłem, to tylko jedna część układanki, ale bardzo ważna i chcę z niej czerpać więcej.