Cenzurowanie jest często opisywane w porównaniu ze skróceniem . Niezły opis tych dwóch procesów zapewnia Gelman i in. (2005, s. 235):
Skrócone dane różnią się od danych ocenzurowanych, dlatego nie jest dostępna żadna liczba obserwacji poza punktem obcięcia. Podczas cenzury
tracone są wartości obserwacji poza punktem obcięcia, ale obserwowana jest ich liczba.
Cenzorowanie lub obcinanie może wystąpić w przypadku wartości powyżej pewnego poziomu (cenzura po prawej), poniżej pewnego poziomu (cenzura po lewej) lub obu.
Poniżej znajduje się przykład standardowego rozkładu normalnego, który jest ocenzurowany w punkcie (środkowy) lub obcięty w (prawy). Jeśli próbka jest obcięta, nie mamy danych poza punktem obcięcia, a ocenzurowane wartości próbki powyżej punktu obcięcia są „zaokrąglane” do wartości granicznej, więc są nadmiernie reprezentowane w twojej próbce.2.02.02.0
Intuicyjny przykład cenzury polega na tym, że pytasz respondentów o ich wiek, ale zapisujesz je tylko do pewnej wartości, a wszystkie grupy wiekowe powyżej tej wartości, powiedzmy 60 lat, są rejestrowane jako „60+”. Prowadzi to do posiadania dokładnych informacji o wartościach nie cenzurowanych i braku informacji o wartościach cenzurowanych.
Nietypowy przykład cenzury z życia codziennego zaobserwowano w polskich wynikach egzaminu maturalnego, który zwrócił uwagę w Internecie . Egzamin zdawany jest na koniec szkoły średniej, a uczniowie muszą go zdać, aby móc ubiegać się o wyższe wykształcenie. Czy potrafisz zgadnąć na podstawie poniższej fabuły, jaka jest minimalna liczba punktów, które uczniowie muszą uzyskać, aby zdać egzamin? Nic dziwnego, że „lukę” w normalnym rozkładzie można łatwo „wypełnić”, jeśli weźmie się odpowiedni ułamek nadreprezentowanych wyników tuż powyżej granicy cenzury.
W przypadku analizy przeżycia
cenzura występuje, gdy mamy pewne informacje o indywidualnym czasie przeżycia, ale nie znamy dokładnie czasu przeżycia
(Kleinbaum i Klein, 2005, s. 5). Na przykład leczysz pacjentów jakimś lekiem i obserwujesz ich do końca badania, ale nie wiesz, co się z nimi stanie po zakończeniu badania (czy wystąpiły nawroty lub działania niepożądane?), Jedyne, co wiesz, to że „ przeżył ” przynajmniej do końca badania.
Poniżej znajduje się przykład danych wygenerowanych z rozkładu Weibulla modelowanego za pomocą estymatora Kaplana – Meiera. Model niebieskich znaczników krzywej oszacowany na pełnym zbiorze danych, na środkowym wykresie można zobaczyć ocenzurowaną próbkę i model oszacowany na danych ocenzurowanych (czerwona krzywa), po prawej stronie widać ściętą próbkę i model oszacowany na takiej próbce (czerwona krzywa). Jak widać, brakujące dane (obcięcie) ma znaczący wpływ na szacunki, ale cenzurą można łatwo zarządzać przy użyciu standardowych modeli analizy przeżycia.
Nie oznacza to, że nie możesz analizować skróconych próbek, ale w takich przypadkach musisz użyć modeli dla brakujących danych, które próbują „odgadnąć” nieznane informacje.
Kleinbaum, DG i Klein, M. (2005). Analiza przeżycia: tekst samouczący się. Skoczek.
Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2005). Analiza danych bayesowskich. Chapman & Hall / CRC.