Tło: Jestem obecnie biostatystą zmagającym się z zestawem danych dotyczących ekspresji komórkowej. W badaniu narażono wiele peptydów na wiele komórek zebranych w grupach od różnych dawców. Komórki albo wyrażają określone biomarkery w odpowiedzi, albo nie. Wskaźniki odpowiedzi są następnie rejestrowane dla każdej grupy dawcy. Wskaźniki odpowiedzi (wyrażone w procentach) są wynikiem zainteresowania, a ekspozycja na peptyd jest predyktorem.
Należy pamiętać, że obserwacje są skupione w obrębie dawców.
Ponieważ mam tylko dane podsumowujące, wskaźniki odpowiedzi od dawcy traktuję jako dane ciągłe (przynajmniej na razie).
Powikłanie wynika z faktu, że mam wiele zer w moich danych. Zbyt wiele, by je zignorować. Rozważam model nadmuchanego zera gamma, aby poradzić sobie z faktem, że wypaczyłem ciągłe dane w połączeniu z nadmiarem zer. Rozważyłem również model Tobita, ale wydaje się to gorsze, ponieważ zakłada cenzurę w dolnej granicy, w przeciwieństwie do prawdziwych zer (ekonometrycy mogliby powiedzieć, że rozróżnienie jest dyskusyjne).
Pytanie: Mówiąc ogólnie, kiedy właściwe jest zastosowanie modelu gamma z zerowym napełnieniem? To znaczy, jakie są założenia? A jak interpretuje się jego wnioski? Byłbym wdzięczny za linki do artykułów, które to omawiają, jeśli takie masz.
Znalazłem link na SAS-L, w którym Dale McLerran dostarcza kod NLMIXED dla modelu gamma z zerowym napełnieniem, więc wydaje się to możliwe. Niemniej jednak nie chciałbym szarżować na ślepo.