Czy błędy przetwarzania danych są już „wycenione” w analizie statystycznej?

Ok, uczciwe ostrzeżenie - to filozoficzne pytanie, które nie zawiera liczb. Dużo zastanawiałem się nad tym, jak błędy wkradają się do zestawów danych w czasie i jak analitycy powinni to potraktować - czy może to naprawdę ma znaczenie?

Na przykład robię analizę długoterminowego badania, które obejmuje wiele zbiorów danych zebranych prawdopodobnie przez 25 osób w ciągu 7-8 lat - nikt nigdy nie wprowadził wszystkich danych do spójnej struktury (to moja praca). Robiłem dużo wprowadzania danych (transkrybowałem z kserokopii starych zeszytów laboratoryjnych) i wciąż znajduję małe błędy transkrypcji, które popełniali inni ludzie, a także znajduję wpisy danych, które są trudne lub niemożliwe do odczytania - głównie z powodu atramentu z czasem zanikło. Korzystam z kontekstu, aby „zgadywać”, co mówią dane, a pozostawienie danych całkowicie wskazać, jeśli nie jestem całkiem pewien. Ale ciągle myślę o tym, że za każdym razem, gdy dane są kopiowane, częstotliwość błędów nieuchronnie wzrośnie, aż oryginalne dane zostaną całkowicie utracone.

To prowadzi mnie więc do myślenia: oprócz błędów przyrządu / błędów pomiaru i błędów zapisu istnieje podstawowy element „błędu przetwarzania danych”, który z czasem wzrośnie i przy większej manipulacji danymi (uwaga dodatkowa: prawdopodobnie po prostu inny sposób określenia drugiej zasady termodynamiki, prawda? Entropia danych zawsze wzrośnie). W związku z tym zastanawiam się, czy należy wprowadzić jakąś „korektę” uwzględniającą historię życia zestawów danych (coś podobnego do korekty Bonferroniego)? Innymi słowy, czy powinniśmy założyć, że starsze lub więcej skopiowanych zestawów danych jest mniej dokładne, a jeśli tak, to czy powinniśmy odpowiednio dostosować ustalenia?

Ale z drugiej strony uważam, że błędy są nieodłączną częścią gromadzenia danych i przetwarzania danych, a ponieważ wszystkie testy statystyczne zostały opracowane z wykorzystaniem danych rzeczywistych, być może te źródła błędów są już „uwzględnione” w analizie?

Warto również wspomnieć o tym, że ponieważ błędy danych są losowe, o wiele bardziej prawdopodobne jest zmniejszenie siły wyników niż ich poprawa - innymi słowy, błędy obsługi danych doprowadziłyby do błędów typu 2, a nie do błędów typu 1. . Tak więc w wielu kontekstach, jeśli korzystałeś ze starych / wątpliwych danych i nadal znajdowałeś efekt, zwiększyłoby to twoją pewność, że efekt jest rzeczywisty (ponieważ był wystarczająco silny, aby przetrwać dodanie losowego błędu do zestawu danych). Z tego powodu być może „korekta” powinna pójść w drugą stronę (zwiększyć poziom alfa wymagany do „znalezienia”), czy po prostu nas nie niepokoić?

W każdym razie, przepraszam, że jestem tak gadatliwy i tępy, że tak naprawdę nie jestem pewien, jak bardziej zwięźle zadać to pytanie. Dziękuję za spotkanie ze mną.

dataset error

— Jas Max
źródło

To świetne pytanie (+1). Jeden punkt: może być poważnym błędem traktowanie większości błędów danych, o których wspominasz, jako „losowych”. Na przykład, podczas transkrypcji występuje znacznie więcej zamian cyfr „0”, „5”, „6” i „8” niż innych cyfr (a niektóre z nich mogą być błędnie odczytane jako „.” I odwrotnie ). Ponadto zmiany w widocznych wartościach danych (takich jak wartości ekstremalne) są często szybko identyfikowane i naprawiane. Chociaż z pewnością istnieje pewien element szansy na te procesy niszczenia danych, prawidłowe ich scharakteryzowanie może być ważnym problemem.

— whuber

Dlaczego nie traktujesz błędów przetwarzania danych jako części błędów pomiarowych i odpowiednio sobie z nimi radzisz? Jeśli aby zmierzyć liczbę rowerzystów w wesołym miasteczku, muszę rozstawić 20 osób, aby obserwowały bramy, to mogę uznać ten zespół 20 osób za swego rodzaju urządzenie pomiarowe

— Aksakal

@ Whuber, nadal mieszanie 8 i 5 jest losowe, choć może nie mieć równego prawdopodobieństwa z pomieszaniem 5 i 7.

— Aksakal

@ Whuber, to fascynujący punkt (nierówna częstotliwość niektórych rodzajów błędów transkrypcji), o którym nie myślałem. Czy możesz wskazać mi jakieś źródła, aby dowiedzieć się więcej na ten temat? Zastanawiam się, czy można opracować test jakości danych oparty na częstotliwości cyfrowej? Słyszałem o podobnych testach na fałszywe / sfałszowane dane oparte na częstotliwości cyfrowej, więc wyobrażam sobie, że coś podobnego byłoby możliwe, gdyby wspomniane trendy były spójne.

— Jas Max

@ whuber, jeszcze jedna myśl. Wspomniałeś, że 0, 5, 6, 8 są często zdezorientowani - ponieważ wyglądają podobnie? Uświadamia mi, że różne źródła błędów miałyby charakterystyczne błędy substytucyjne - na przykład, jeśli słyszysz dane (nagrywając to, co ktoś powiedział), to myślę, że 5 i 9 byłyby częściej pomylone. Jeśli źródłem błędu była entropia (zanik atramentu lub ruch elektronów), to myślę, że podstawienie byłoby bardziej losowe, ale być może również unikalne. Jeśli te wzorce się utrzymają, być może można by zbadać źródła błędów w dużych zestawach danych, w oparciu o częstotliwość cyfr.

— Jas Max

Popieram sugestię @Aksakal: jeśli analityk widzi błąd pomiaru jako potencjalnie ważny, może i powinien być modelowany jawnie jako część procesu generowania danych.

Widzę kilka uwag przemawiających przeciwko wprowadzeniu ogólnego współczynnika korygującego opartego np. Na wieku zbioru danych.

Po pierwsze, wiek może być bardzo słabym wskaźnikiem pogorszenia jakości danych. Technologia powielania, kompresji i konserwacji, a także stopień wysiłku i staranności, które wymagały weryfikacji poprawnej transkrypcji, są najwyraźniej ważnymi czynnikami. Niektóre starożytne teksty (np. Biblia) zostały zachowane przez wieki z pozornie zerową degradacją. Twój przykład VHS, choć uzasadniony, jest w rzeczywistości niezwykły, ponieważ każde zdarzenie duplikacji zawsze wprowadza błąd, a nie ma łatwych sposobów sprawdzania i korygowania błędów transkrypcji - jeśli używa się tanich, szeroko dostępnych technologii do powielania i przechowywania. Oczekuję, że znacznie obniży to stopień wprowadzanych błędów, poprzez inwestycje w droższe systemy.

Ten ostatni punkt jest bardziej ogólny: ochrona i rozpowszechnianie danych to działalność gospodarcza . Jakość transmisji zależy w dużej mierze od wdrożonych zasobów. Te wybory będą z kolei zależeć od postrzeganego znaczenia danych dla tego, kto kopiuje i przesyła dane.

Aspekty ekonomiczne dotyczą również analityka. Zawsze wykonując analizę, możesz wziąć pod uwagę więcej czynników. W jakich warunkach błędy transkrypcji danych będą wystarczająco istotne i na tyle ważne, że warto je wziąć pod uwagę? Mam przeczucie, że takie warunki nie są powszechne. Ponadto, jeśli potencjalna degradacja danych jest postrzegana jako wystarczająco ważna, aby uwzględnić ją w analizie, to prawdopodobnie jest wystarczająco ważna, aby starać się jawnie modelować proces, zamiast wstawiać ogólny krok „korekty”.

Wreszcie nie ma potrzeby opracowywania takiego ogólnego współczynnika korygującego de novo . Istnieje już znaczna część teorii statystycznej i praktyki do analizy zbiorów danych, dla których błąd pomiaru jest postrzegany jako ważny.

Podsumowując: to ciekawa myśl. Ale nie sądzę, że powinno to pobudzić jakiekolwiek zmiany w praktyce analitycznej.

— Arthur Small
źródło