Propozycja ma wiele wad. Oto chyba największy.
Załóżmy, że gromadzisz dane i widzisz te wartości:
2,3,1
Jak dotąd średnia wynosi .6/3=2
Potem pojawia się wartość odstająca:
2,3,1,1000
Więc zastępujesz go średnią:
2,3,1,2
Następny numer jest dobry:
2,3,1,2,7
Teraz średnia wynosi 3. Poczekaj minutę, średnia wynosi teraz 3, ale zastąpiliśmy 1000 średnią 2, tylko dlatego, że wystąpiła jako czwarta wartość. Co jeśli zmienimy kolejność próbek?
2,3,1,7,1000
Teraz średnia przed 1000 to . Czy więc powinniśmy zastąpić 1000 tym środkiem?(2+3+1+7)/4=13/4
Problem polega na tym, że fałszywe dane, które podstawiamy zamiast 1000, zależą od innych danych. Jest to problem epistemologiczny, jeśli próbki mają reprezentować niezależne pomiary.
Masz wtedy oczywisty problem, że nie tylko ukrywasz dane, które nie pasują do twoich założeń, ale fałszujesz je. Gdy wystąpi jakiś niepożądany wynik, zwiększasz i zastępujesz fałszywą wartość. Jest to błędne, ponieważ ma być liczbą próbek. Teraz reprezentuje liczbę próbek plus liczbę wartości krówek dodanych do danych. Zasadniczo niszczy to ważność wszystkich obliczeń obejmujących : nawet te, które nie używają wartości krówki. Twoje jest również wartością krówki!n n n nnnnnn
Zasadniczo, przycinanie wyników, które nie pasują, to jedno (i może być uzasadnione, jeśli jest wykonywane konsekwentnie zgodnie z algorytmem, a nie zgodnie ze zmieniającymi się wahaniami nastroju eksperymentatora).
Bezpośrednie fałszowanie wyników budzi zastrzeżenia z powodów filozoficznych, epistemologicznych i etycznych.
Mogą występować pewne okoliczności łagodzące, które mają związek z tym, jak wykorzystywane są wyniki. Powiedzmy na przykład, że to zastąpienie wartości odstających obecną średnią jest częścią algorytmu wbudowanego komputera, który umożliwia mu implementację zamkniętego układu sterowania. (Próbkuje niektóre dane wyjściowe systemu, a następnie dostosowuje dane wejściowe w celu uzyskania kontroli.) Wszystko odbywa się w czasie rzeczywistym, więc coś należy dostarczyć na określony czas w miejsce brakujących danych. Jeśli to kręcenie pomaga przezwyciężyć usterki i zapewnia płynną pracę, to wszystko jest dobrze.
Oto kolejny przykład z telefonii cyfrowej: PLC (ukrywanie utraty pakietów). Bzdury się zdarzają i pakiety gubią się, ale komunikacja odbywa się w czasie rzeczywistym. PLC syntetyzuje fałszywe głosy na podstawie ostatnich informacji o wysokości dźwięku z poprawnie odebranych pakietów. Więc jeśli mówca powiedział samogłoskę „aaa”, a następnie pakiet został utracony, PLC może uzupełnić brakujący pakiet przez ekstrapolację „aaa” na czas trwania ramki (powiedzmy 5 lub 10 milisekund lub cokolwiek innego). „Aaa” jest takie, że przypomina głos mówiącego. Jest to analogiczne do używania „środka” w celu zastąpienia wartości uważanych za złe. To dobra rzecz; jest lepszy niż dźwięk włączany i wyłączany oraz pomaga w zrozumieniu.
Jeśli fałszowanie danych jest częścią programu okłamywania ludzi, aby ukryć nieudaną pracę, to coś innego.
Nie możemy więc myśleć o tym niezależnie od aplikacji: w jaki sposób wykorzystywane są statystyki? Czy zamiany doprowadzą do nieważnych wniosków? Czy są implikacje etyczne?