Jak NIE używać statystyk


15

To jest pytanie otwarte, ale chcę być jasne. Biorąc pod uwagę wystarczającą populację, możesz być w stanie się czegoś nauczyć (jest to część otwarta), ale cokolwiek dowiesz się o swojej populacji, kiedy ma to kiedykolwiek zastosowanie do członka populacji?

Z tego, co rozumiem przez statystyki, nigdy nie ma ona zastosowania do jednego członka populacji, jednak często znajduję się w dyskusji, w której druga osoba mówi: „Czytam, że 10% populacji świata ma tę chorobę” i nadal wyciągnij wniosek, że co dziesiąta osoba w pokoju ma tę chorobę.

Rozumiem, że dziesięć osób w tym pokoju nie jest wystarczająco dużą próbką, aby statystyki były istotne, ale najwyraźniej wiele nie.

Jest jeszcze coś takiego w wystarczająco dużych próbkach. Musisz tylko zbadać wystarczająco dużą populację, aby uzyskać wiarygodne statystyki. Czy to jednak nie jest proporcjonalne do złożoności statystyki? Jeśli mierzę coś, co jest bardzo rzadkie, czy nie oznacza to, że potrzebuję znacznie większej próbki, aby móc określić znaczenie dla takiej statystyki?

Chodzi o to, że naprawdę wątpię w ważność jakiejkolwiek gazety lub artykułu, gdy chodzi o statystyki, w ich sposób służy to budowaniu zaufania.

To trochę tła.

Wracając do pytania, w jaki sposób NIE możesz lub NIE możesz używać statystyk do sformułowania argumentu . Zaprzeczyłem temu pytaniu, ponieważ chciałbym dowiedzieć się więcej na temat typowych nieporozumień dotyczących statystyki.


2
To jest tylko bardzo częściowa odpowiedź, więc nie opublikuję jej jako odpowiedzi. SĄ poprawne, że złożone statystyki potrzebują większych populacji; odwołujesz się do koncepcji „stopni swobody”, która jest po prostu liczbą zmiennych niezależnych minus jedna. Ponadto, wykonując coś w rodzaju testu p, próg odrzucenia zależy od liczby stopni swobody oprócz wybranej wartości p (zwykle .05).

2
Jeśli więcej ludzi przeczyta Hooke's How to Tell the Liears from the Statisticians , być może nie będzie tylu „statystycznych frajerów”, jakie mamy teraz na świecie.
JM nie jest statystykiem

1
Myślę, że przydałoby się zadać to pytanie podczas wymiany stosu statystyk - oflagowałem to pytanie, więc być może zostanie ono tam przeniesione.
Zainteresowany

Nie wiedziałem nawet, że mamy forum poświęcone analizie statystycznej. Przesunąłbym pytanie, gdybym wiedział, jak ...

Odpowiedzi:


2

Aby wyciągać wnioski dotyczące grupy na podstawie populacji, grupa musi być reprezentatywna dla populacji i niezależna. Inni dyskutowali o tym, więc nie będę się nad tym rozwodził.

Inną rzeczą do rozważenia jest nieintuicyjność prawdopodobieństw. Załóżmy, że mamy grupę 10 osób, które są niezależne i reprezentatywne dla populacji (próba losowa) i wiemy, że w populacji 10% ma szczególną cechę. Dlatego każda z 10 osób ma 10% szans na posiadanie tej cechy. Powszechnym założeniem jest to, że jest dość pewne, że co najmniej 1 będzie miało charakterystykę. Ale to jest prosty problem dwumianowy, możemy obliczyć prawdopodobieństwo, że żadna z 10 nie ma cechy, wynosi około 35% (zbiega się do 1 / e dla większej grupy / mniejszego prawdopodobieństwa), co jest znacznie wyższe, niż większość ludzi by się domyślała. Istnieje również 26% szans, że 2 lub więcej osób ma tę cechę.


9

O ile osoby przebywające w pokoju nie są przypadkową próbą populacji świata, wszelkie wnioski oparte na statystykach dotyczących populacji świata będą bardzo podejrzane. Jedna na pięć osób na świecie to Chińczycy, ale żadne z moich pięciorga dzieci nie jest ...


6
  1. Aby poradzić sobie z nadmiernym stosowaniem statystyk w małych próbkach, zalecam zwalczanie znanymi dowcipami („Jestem bardzo podekscytowany, moja matka znów jest w ciąży, a moje rodzeństwo będzie Chińczykiem.” „Dlaczego?” „Przeczytałem to co czwarte dziecko to chiński. ”).

  2. Właściwie polecam żarty, aby rozwiązać wszelkie nieporozumienia w statystykach, patrz http://xkcd.com/552/, aby uzyskać informacje na temat korelacji i związku przyczynowego.

  3. Problem z artykułami w gazetach rzadko polega na tym, że traktują rzadkie zjawisko.

  4. Paradoks Simpsona nasuwa się jako przykład, że statystyki rzadko można wykorzystywać bez analizy przyczyn.


2
Odmiana żartu o „chińskim dziecku”, którą słyszałem, sprawiała, że ​​przyszła matka obawiała się, że jej dziecko może zostać uznane za nielegalnego kosmitę i w ten sposób deportowane ...
JM nie jest statystykiem

3

Istnieje interesujący artykuł Mary Gray o niewłaściwym wykorzystaniu statystyk w sprawach sądowych i podobnych sprawach ...

Gray, Mary W .; Statystyka i prawo. Matematyka Mag. 56 (1983), no. 2, 67–81



1

Analiza statystyczna czy dane statystyczne?

Myślę, że ten przykład w twoim pytaniu dotyczy danych statystycznych: „Czytałem, że 10% światowej populacji ma tę chorobę”. Innymi słowy, w tym przykładzie ktoś używa liczb, aby skuteczniej komunikować ilość, niż tylko powiedzenie „wielu ludzi”.

Domyślam się, że odpowiedź na twoje pytanie jest ukryta w motywacji mówcy, dlaczego używa liczb. Może to być lepsze przekazanie pewnych pojęć, może być okazanie autorytetu lub olśnienie słuchacza. Dobrą rzeczą w podawaniu liczb zamiast mówić „bardzo duży” jest to, że ludzie mogą odrzucić liczbę. Zobacz pomysł Poppera na odrzucenie.


0

Hipoteza: ZA

(Podręcznik) Wynik: Nie odrzucajZA (σ=do)

Twoje oświadczenie: ZA trzyma z prawdopodobieństwem σ!

Prawidłowe byłoby: W tym przypadku nic nie wiesz. Jeśli chcesz „udowodnić”ZA, twoja hipoteza musi być ¬ZA; odrzuć to za pomocąσ aby uzyskać pożądane oświadczenie.


0

Z tego, co rozumiem przez statystyki, nigdy nie dotyczy to jednego członka populacji

To nie prawda. To zależy od zastosowania.

Przykład: rozpad jądrowy w fizyce. Szybkość rozpadu określa prawdopodobieństwo rozpadu każdego pojedynczego jądra . Bierzesz dowolne jądro i będzie ono miało dokładnie takie samo prawdopodobieństwo rozpadu, co ustaliłeś eksperymentalnie na próbce.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.