Ok, uczciwe ostrzeżenie - to filozoficzne pytanie, które nie zawiera liczb. Dużo zastanawiałem się nad tym, jak błędy wkradają się do zestawów danych w czasie i jak analitycy powinni to potraktować - czy może to naprawdę ma znaczenie?
Na przykład robię analizę długoterminowego badania, które obejmuje wiele zbiorów danych zebranych prawdopodobnie przez 25 osób w ciągu 7-8 lat - nikt nigdy nie wprowadził wszystkich danych do spójnej struktury (to moja praca). Robiłem dużo wprowadzania danych (transkrybowałem z kserokopii starych zeszytów laboratoryjnych) i wciąż znajduję małe błędy transkrypcji, które popełniali inni ludzie, a także znajduję wpisy danych, które są trudne lub niemożliwe do odczytania - głównie z powodu atramentu z czasem zanikło. Korzystam z kontekstu, aby „zgadywać”, co mówią dane, a pozostawienie danych całkowicie wskazać, jeśli nie jestem całkiem pewien. Ale ciągle myślę o tym, że za każdym razem, gdy dane są kopiowane, częstotliwość błędów nieuchronnie wzrośnie, aż oryginalne dane zostaną całkowicie utracone.
To prowadzi mnie więc do myślenia: oprócz błędów przyrządu / błędów pomiaru i błędów zapisu istnieje podstawowy element „błędu przetwarzania danych”, który z czasem wzrośnie i przy większej manipulacji danymi (uwaga dodatkowa: prawdopodobnie po prostu inny sposób określenia drugiej zasady termodynamiki, prawda? Entropia danych zawsze wzrośnie). W związku z tym zastanawiam się, czy należy wprowadzić jakąś „korektę” uwzględniającą historię życia zestawów danych (coś podobnego do korekty Bonferroniego)? Innymi słowy, czy powinniśmy założyć, że starsze lub więcej skopiowanych zestawów danych jest mniej dokładne, a jeśli tak, to czy powinniśmy odpowiednio dostosować ustalenia?
Ale z drugiej strony uważam, że błędy są nieodłączną częścią gromadzenia danych i przetwarzania danych, a ponieważ wszystkie testy statystyczne zostały opracowane z wykorzystaniem danych rzeczywistych, być może te źródła błędów są już „uwzględnione” w analizie?
Warto również wspomnieć o tym, że ponieważ błędy danych są losowe, o wiele bardziej prawdopodobne jest zmniejszenie siły wyników niż ich poprawa - innymi słowy, błędy obsługi danych doprowadziłyby do błędów typu 2, a nie do błędów typu 1. . Tak więc w wielu kontekstach, jeśli korzystałeś ze starych / wątpliwych danych i nadal znajdowałeś efekt, zwiększyłoby to twoją pewność, że efekt jest rzeczywisty (ponieważ był wystarczająco silny, aby przetrwać dodanie losowego błędu do zestawu danych). Z tego powodu być może „korekta” powinna pójść w drugą stronę (zwiększyć poziom alfa wymagany do „znalezienia”), czy po prostu nas nie niepokoić?
W każdym razie, przepraszam, że jestem tak gadatliwy i tępy, że tak naprawdę nie jestem pewien, jak bardziej zwięźle zadać to pytanie. Dziękuję za spotkanie ze mną.