Upraszczając nieco, mam około miliona rekordów, które rejestrują czas wejścia i wyjścia ludzi w systemie trwającym około dziesięciu lat. Każdy rekord ma czas wejścia, ale nie każdy rekord ma czas wyjścia. Średni czas w systemie wynosi ~ 1 rok.
Brakujące czasy wyjścia występują z dwóch powodów:
- Osoba nie opuściła systemu w momencie przechwytywania danych.
- Czas wyjścia danej osoby nie został zarejestrowany. Zdarza się to powiedzieć, że 50% zapisów
Do interesujących pytań należą:
- Czy ludzie spędzają mniej czasu w systemie i ile mniej czasu.
- Czy rejestruje się więcej czasów wyjścia i ile.
Możemy to modelować, mówiąc, że prawdopodobieństwo zarejestrowania wyjścia zmienia się liniowo w czasie i że czas w systemie ma Weibulla, którego parametry zmieniają się liniowo w czasie. Następnie możemy dokonać oceny maksymalnego prawdopodobieństwa różnych parametrów i spojrzeć na wyniki i uznać je za wiarygodne. Wybraliśmy rozkład Weibulla, ponieważ wydaje się, że jest używany do pomiaru żywotności i fajnie jest powiedzieć, a nie lepiej dopasowywać dane niż powiedzieć rozkład gamma.
Gdzie powinienem szukać wskazówek, jak to zrobić poprawnie? Jesteśmy nieco matematyczni, ale nie bardzo statystycznie.