Mówiąc opisowo, zaproponowałbym „próbka danych jest cenzurowana, jeśli niektóre obserwacje w niej przyjmują lub stanowią skrajne wartości próbki, ale ich prawdziwa wartość jest poza obserwowanym zakresem próby”. Ale jest to zwodniczo proste.
Omówmy więc najpierw, w jaki sposób możemy dojść do wniosku, że zbiór danych jest cenzurowany, co oczywiście doprowadzi nas do omówienia przypadków przedstawionych w pytaniu.
Załóżmy, że otrzymaliśmy następujący zestaw danych z dyskretnej losowej zmiennej , dla którego wiemy tylko, że jest ona nieujemna:X
{0,1,1,2,2,2,2,2,2,2}
Czy możemy powiedzieć, że zestaw danych jest cenzurowany? Cóż, mamy prawo sądzić, że tak może być, ale niekoniecznie tak jest:
1) może mieć zakres { 0 , 1 , 2 } i rozkład prawdopodobieństwa { 0,1 , 0,1 , 0,8 } . Jeśli tak rzeczywiście jest, wydaje się, że nie ma tutaj cenzury, a jedynie „przewidywana” próbka z takiej losowej zmiennej, z ograniczonym wsparciem i wysoce asymetrycznym rozkładem. X{0,1,2}{0.1,0.1,0.8}
2), ale może być tak, że ma zakres { 0 , 1 , . . . , 9 } o jednorodnym rozkładzie prawdopodobieństwa { 0,1 , 0,1 , . . .0 .1 } , w którym to przypadku nasza próbka danych najprawdopodobniej zostanie ocenzurowana. X{0,1,...,9}{0.1,0.1,...0.1}
Jak możemy powiedzieć? Nie możemy, z wyjątkiem sytuacji, gdy posiadamy wcześniejszą wiedzę lub informacje , które pozwolą nam argumentować na korzyść jednego lub drugiego przypadku. Czy trzy przypadki przedstawione w pytaniu reprezentują wcześniejszą wiedzę na temat efektu cenzury? Zobaczmy:
Przypadek A) opisuje sytuację, w której dla niektórych obserwacji mamy jedynie informacje jakościowe, takie jak „bardzo duży”, „bardzo mały” itp., Co prowadzi nas do przypisania obserwacji wyjątkowej wartości. Zauważ, że samo nieznajomość faktycznej zrealizowanej wartości nie uzasadnia przypisania wartości ekstremalnej. Musimy więc mieć pewne informacje, że dla tych obserwacji ich wartość przekracza lub jest mniejsza niż wszystkie obserwowane. W tym przypadku rzeczywisty zakres zmiennej losowej jest nieznany, ale nasze informacje jakościowe pozwalają nam stworzyć próbę ocenzurowaną (to kolejna dyskusja, dlaczego nie porzucamy obserwacji, dla których nie mamy rzeczywistej zrealizowanej wartości ).
Przypadek B) to nie przypadek cenzury, jeśli rozumiem go poprawnie, ale raczej przypadek zanieczyszczonej próbki: nasze a priori informacji mówi nam, że maksymalna wartość zmiennej losowej nie może przekraczać (due powiedzieć ustawy fizycznej lub prawo socjalne -suppose to dane stopnie od Normy, która używa tylko wartości 1 , 2 , 3 „s (w rzeczywistości, patrząc na klawiaturze bocznej komputera, to jest bardziej prawdopodobne, że 4 ” s są 1 „s i31,2,3 ). Ale zaobserwowaliśmy również wartość i wartość 5 . Jak to może być? Błąd w rejestrowaniu danych. Ale w takim przypadku nie wiemy na pewno, że 4 i 5 powinny być wszystkie 34545341 to 2 !). „Korygując” w jakikolwiek sposób próbkę, nie robimy jej ocenzurowanej, ponieważ zmienna losowa nie powinnaprzede wszystkim mieścić się w zakresierejestrowanym(więc nie ma prawdziwych prawdopodobieństw przypisanych do wartości 4 i 5 ). 5245
Przypadek C) dotyczy wspólnej próby, w której mamy zmienną zależną i predyktory. Tutaj możemy mieć próbkę, w której wartości zmiennej zależnej są skoncentrowane na jednej lub obu skrajnościach, ze względu na strukturę badanego zjawiska: w zwykłym przykładzie „przepracowanych godzin” bezrobotni nie pracują, ale mieliby zadziałało (zastanów się: czy ta sprawa naprawdę mieści się w opisowej „definicji” na początku tej odpowiedzi?). Tak więc włączenie ich do regresji z zarejestrowanymi godzinami „zero” tworzy stronniczość. Z drugiej strony można argumentować, że maksymalna liczba przepracowanych godzin jest w stanie osiągnąć, powiedzmy 16/ dzień, i mogą być pracownicy, którzy byliby gotowi pracować tak wielu za dane wynagrodzenie. Ale ramy prawne na to nie pozwalają, dlatego nie obserwujemy takich „przepracowanych godzin”. W tym przypadku próbujemy oszacować „ zamierzoną funkcję podaży pracy” - i to w odniesieniu do tej zmiennej próbkę określa się jako ocenzurowaną.
Ale jeśli zadeklarujemy, że chcemy oszacować „funkcję podaży pracy, biorąc pod uwagę zjawisko bezrobocia i ramy prawne”, próba nie zostałaby ocenzurowana, ponieważ odzwierciedlałaby wpływ tych dwóch aspektów, czego chcemy to zrobić.
Widzimy więc, że scharakteryzowanie próbki danych jako ocenzurowanej
a) może pochodzić z różnych sytuacji i
b) wymaga jedynie pewnej ostrożności
, ponieważ można ją pomylić z przypadkiem obcięcia .