Kryminalistyka statystyczna: Benford i nie tylko


23

Jakie są szerokie metody wykrywania oszustw, anomalii, kruszenia itp. W pracach naukowych wyprodukowanych przez stronę trzecią? (Byłem zmotywowany, aby zapytać o to w ostatnim romansie Marca Hausera ). Zwykle w przypadku oszustw związanych z wyborami i rachunkowością przytaczany jest pewien wariant prawa Benforda . Nie jestem pewien, jak można to zastosować np. W przypadku Marca Hausera, ponieważ prawo Benforda wymaga, aby liczby były w przybliżeniu jednolite.

Jako konkretny przykład, załóżmy, że w pracy przytoczono wartości p dla dużej liczby testów statystycznych. Czy można je przekształcić, aby rejestrować jednolitość, a następnie zastosować prawo Benforda? Wydaje się, że przy takim podejściu występowałyby wszelkiego rodzaju problemy ( np. Niektóre hipotezy zerowe mogą być słusznie fałszywe, kod statystyczny może dawać wartości p, które są w przybliżeniu poprawne, testy mogą dawać tylko wartości p, które są jednolite asymetrycznie poniżej zera itp.)


2
To pytanie rozpaczliwie potrzebuje odpowiedzi, która dostarczyłaby rzeczywiste przykłady statystyk kryminalistycznych! Przyjęta odpowiedź wcale tego nie robi. Istnieją świetne najnowsze przykłady, takie jak np. Simonsohn 2013 , Carlisle 2012 (i kontynuacja 2015 ), Pitt i Hill 2013 i być może więcej.
ameba mówi Przywróć Monikę

Odpowiedzi:


11

Świetne pytanie!

W kontekście naukowym istnieje wiele rodzajów problematycznych raportów i problematycznych zachowań:

  • Oszustwo : zdefiniowałbym oszustwo jako celowy zamiar autora lub analityka polegający na wprowadzaniu w błąd wyników oraz w przypadku gdy wprowadzenie w błąd ma wystarczająco poważny charakter. Głównym przykładem jest całkowite wytworzenie surowych danych lub statystyk podsumowujących.
  • Błąd : analitycy danych mogą popełniać błędy na wielu etapach analizy danych, od wprowadzania danych, przez manipulowanie danymi, przez analizy, raportowanie, interpretację.
  • Niewłaściwe zachowanie : Istnieje wiele form niewłaściwego zachowania. Zasadniczo można to podsumować orientacją, która ma raczej na celu potwierdzenie określonego stanowiska niż poszukiwanie prawdy.

Typowe przykłady niewłaściwych zachowań obejmują:

  • Badanie szeregu możliwych zmiennych zależnych i zgłaszanie tylko tych, które są istotne statystycznie
  • Nie wspominając o istotnych naruszeniach założeń
  • Wykonywanie manipulacji danymi i procedury usuwania wartości odstających bez wzmianki o tym, szczególnie gdy procedury te są zarówno nieodpowiednie, jak i wybrane wyłącznie w celu poprawienia wyników.
  • Przedstawienie modelu jako potwierdzenia, który jest w rzeczywistości eksploracyjny
  • Pominięcie ważnych wyników, które są sprzeczne z pożądanym argumentem
  • Wybór testu statystycznego wyłącznie na podstawie tego, że poprawia on wyniki
  • Przeprowadzenie serii pięciu lub dziesięciu badań o niedostatecznej mocy, z których tylko jedno jest istotne statystycznie (być może przy p = 0,04), a następnie zgłoszenie badania bez wzmianki o innych badaniach

Ogólnie rzecz biorąc, postawiłbym hipotezę, że niekompetencja jest związana ze wszystkimi trzema formami problematycznego zachowania. Badacz, który nie rozumie, jak robić dobrą naukę, ale w inny sposób chce odnieść sukces, będzie miał większą motywację do fałszywego przedstawiania swoich wyników i rzadziej przestrzega zasad etycznej analizy danych.

Powyższe rozróżnienia mają wpływ na wykrywanie problematycznych zachowań. Na przykład, jeśli uda Ci się stwierdzić, że zestaw zgłoszonych wyników jest nieprawidłowy, nadal należy ustalić, czy wyniki wynikają z oszustwa, błędu lub niewłaściwego zachowania. Zakładam również, że różne formy niewłaściwych zachowań są znacznie bardziej powszechne niż oszustwa.

Jeśli chodzi o wykrywanie problematycznych zachowań, myślę, że w dużej mierze jest to umiejętność wynikająca z doświadczenia w pracy z danymi , pracy z tematem i pracy z badaczami. Wszystkie te doświadczenia wzmacniają Twoje oczekiwania dotyczące tego, jak powinny wyglądać dane. Tak więc duże odchylenia od oczekiwań rozpoczynają proces poszukiwania wyjaśnienia. Doświadczenie z badaczami daje poczucie rodzajów niewłaściwych zachowań, które są mniej lub bardziej powszechne. W połączeniu prowadzi to do generowania hipotez. Na przykład, jeśli przeczytam artykuł w czasopiśmie i zaskoczę się wynikami, badanie jest słabe, a charakter pisma sugeruje, że autor jest nastawiony na rację, generuję hipotezę, że wyniki nie powinny być zaufany.

Inne zasoby


4

W rzeczywistości prawo Benforda jest niezwykle potężną metodą. Wynika to z faktu, że rozkład częstotliwości pierwszej cyfry Benforda ma zastosowanie do wszelkiego rodzaju zestawów danych występujących w świecie rzeczywistym lub naturalnym.

Masz rację, że możesz używać prawa Benforda tylko w pewnych okolicznościach. Mówisz, że dane muszą mieć jednolity rozkład logów. Technicznie jest to absolutnie poprawne. Ale możesz opisać to wymaganie w znacznie prostszy i łagodny sposób. Wystarczy, że zakres zestawu danych przekroczy co najmniej jeden rząd wielkości. Powiedzmy, że od 1 do 9 lub 10 do 99 lub 100 do 999. Jeśli przekroczy dwa rzędy wielkości, jesteś w interesach. Prawo Benforda powinno być bardzo pomocne.

Piękno prawa Benforda polega na tym, że pomaga ono bardzo szybko zawęzić swoje dochodzenie w sprawie igły w stosie danych siana. Szukasz anomalii, w których częstotliwość pierwszej cyfry jest znacznie inna niż częstotliwość Benforda. Gdy zauważysz, że istnieją dwa wiele 6, następnie skorzystaj z Prawa Benforda, aby skupić się tylko na 6. ale teraz przechodzisz do pierwszych dwóch cyfr (60, 61, 62, 63 itd.). Być może teraz odkryjesz, że jest o wiele więcej 63s niż sugeruje Benford (zrobiłbyś to obliczając częstotliwość Benforda: log (1 + 1/63), który daje ci wartość bliską 0%). Więc używasz Benforda do pierwszych trzech cyfr. Zanim się dowiesz, jest o wiele za dużo 632 (lub cokolwiek, obliczając częstotliwość Benforda: log (1 + 1/632)), niż się spodziewałeś, prawdopodobnie coś robisz. Nie wszystkie anomalie są oszustami. Ale,

Jeśli zestaw danych, którymi manipulował Marc Hauser, są naturalnymi, nieograniczonymi danymi o pokrewnym zakresie, który jest wystarczająco szeroki, to prawo Benforda byłoby całkiem dobrym narzędziem diagnostycznym. Jestem pewien, że istnieją inne dobre narzędzia diagnostyczne wykrywające również nieoczekiwane wzorce, a łącząc je z prawem Benforda, najprawdopodobniej mógłbyś skutecznie zbadać sprawę Marca Hausera (biorąc pod uwagę wspomniany wymóg dotyczący danych prawa Benforda).

Wyjaśniam nieco Prawo Benforda w tej krótkiej prezentacji, którą można zobaczyć tutaj: http://www.slideshare.net/gaetanlion/benfords-law-4669483

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.