Jaka jest najtrudniejsza koncepcja statystyczna do zrozumienia?


32

To pytanie jest podobne do pytania tutaj , ale myślę, że na tyle różne, że warto je zadać.

Pomyślałem, że postawię na początek, co moim zdaniem jest najtrudniejsze do zrozumienia.

Mój jest różnicą między prawdopodobieństwem a częstotliwością . Jeden jest na poziomie „wiedzy o rzeczywistości” (prawdopodobieństwo), a drugi na poziomie „samej rzeczywistości” (częstotliwość). To prawie zawsze wprawia mnie w zakłopotanie, jeśli za dużo o tym myślę.

Edwin Jaynes Ukuł termin zwany „błędem projekcji umysłu”, aby opisać pomieszanie tych rzeczy.

Masz jakieś przemyślenia na temat innych trudnych pojęć?


(Nie wiem wystarczająco, aby udzielić odpowiedzi na to pytanie, dlatego dodałem komentarz). Zawsze myślałem, że to dziwne, że PI pojawia się w równaniach statystycznych. Mam na myśli - co PI ma wspólnego ze statystykami? :)
Przywróć Monikę - Do widzenia

2
Zgodziłbym się (w moim nieuwagę) - myślę, że to, że wyskakuje w wielu analizy matematycznej. Tylko notatkę, którą możesz napisać za pomocą komend Latex jako ujęte w znaki $. Korzystam ze strony wiki, aby uzyskać składnię en.wikibooks.org/wiki/LaTeX/Mathematics . Inną sztuczką jest „kliknięcie prawym przyciskiem” równania widocznego na tej stronie i wybranie „pokaż źródło”, aby uzyskać używane polecenia. π \ piππ\pi
probabilityislogic

@Wiki Jeśli zaakceptujesz, że pojawia się, gdy przechodzisz od pomiaru długości prostej linii do długości koła, nie rozumiem, dlaczego nie pojawiłby się podczas pomiaru prawdopodobieństwa upadku na odcinku do pomiaru prawdopodobieństwa upadku w kawałek koła? π
robin girard

@Wiki Ilekroć masz funkcje trygonometryczne (sinus, cosinus, styczna itp.), Ryzykujesz pojawienie się . I pamiętaj, że ilekroć wyprowadzasz funkcję, faktycznie znajdujesz styczną. Zaskakujące jest to, że nie pojawia się częściej. πππ
Carlos Accioly 28.01.11

@Carlos Podejrzewam, że częstość występowania wynika głównie z zastosowania metryki , co prowadzi do n-sfer. W tym samym duchu, bym się spodziewał, że to , którego występowanie jest wynikiem analizy. 2 e2π2e
sesqu

Odpowiedzi:


31

z jakiegoś powodu ludzie mają trudności z uchwyceniem, czym tak naprawdę jest wartość p.


3
@shabbychef: Większość ludzi pojmuje to w najgorszy możliwy sposób, tj. prawdopodobieństwo popełnienia błędu typu I.
suncoolsu 27.01.11

2
Myślę, że jest to głównie związane z tym, w jaki sposób wartości p są wyjaśniane w klasach (tzn. Po prostu podając szybką definicję i nie określając, jakie wartości p NIE są)
nico

Myślę, że ma to głównie związek z tym, jak został wprowadzony. Dla mnie był to „dodatek” do klasycznego testu hipotez - więc wydaje się, że to tylko kolejny sposób na wykonanie testu hipotez. Innym problemem jest to, że zwykle uczy się go tylko w odniesieniu do rozkładu normalnego, w którym wszystko „działa dobrze” (np. Wartość p jest miarą dowodów w testowaniu normalnej średniej). Uogólnienie wartości p nie jest łatwe, ponieważ nie ma konkretnych zasad, które kierowałyby uogólnieniem (np. Nie ma ogólnej zgody co do tego, jak wartość p powinna się różnić w zależności od wielkości próby i wielu porównań)
prawdopodobieństwo

@shabbychef +1, chociaż student często ma trudności z wartościami p (mniej więcej dlatego, że koncepcja w testowaniu jest nieco bardziej subtelna niż binarny proces decyzyjny i dlatego „odwrócenie funkcji” nie jest łatwe do zaakceptowania). Kiedy mówisz „z jakiegoś powodu”, masz na myśli, że nie jest dla ciebie jasne, dlaczego ludzie mają trudności? PS: Gdybym mógł, spróbowałbym stworzyć na tej stronie statystyki dotyczące związku między „byciem najlepszą odpowiedzią” a „mówieniem o wartości p” :). Zastanawiam się nawet, czy najtrudniejsza koncepcja statystyczna do uchwycenia może mieć jak największe poparcie (jeśli trudno jest uchwycić ... :))
robin girard

1
@eduardo - tak, wystarczająco mała wartość p jest wystarczająca do zakwestionowania hipotezy zerowej: ale jest obliczana w całkowitej izolacji od alternatywy. Używając samych wartości p, nigdy nie można formalnie „odrzucić” , ponieważ nie określono żadnej alternatywy . Jeśli formalnie , musisz również odrzucić obliczenia, które były oparte na założeniu, że jest prawdziwe, co oznacza, że ​​musisz odrzucić obliczenie wartości p, która została uzyskana przy tym założeniu (bałagan z twoją głową, ale jest to jedyny sposób na konsekwentne rozumowanie ). H 0 H 0H0H0H0
probabilityislogic

23

Podobnie jak odpowiedź Shabbychefa, trudno jest zrozumieć znaczenie przedziału ufności w statystyce częstokrzyskiej. Myślę, że największą przeszkodą jest to, że przedział ufności nie odpowiada na pytanie, na które chcielibyśmy odpowiedzieć. Chcielibyśmy wiedzieć: „jaka jest szansa, że ​​prawdziwa wartość znajduje się w tym konkretnym przedziale?” Zamiast tego możemy jedynie odpowiedzieć: „jaka jest szansa, że ​​losowo wybrany interwał utworzony w ten sposób zawiera prawdziwy parametr?” To ostatnie jest oczywiście mniej satysfakcjonujące.


1
Im więcej myślę o przedziałach ufności, tym trudniej jest mi zastanowić się, na jakie pytanie można odpowiedzieć na poziomie koncepcyjnym, na który nie można odpowiedzieć, pytając „szansa, że ​​prawdziwa wartość mieści się w przedziale, biorąc pod uwagę stan wiedza, umiejętności". Gdybym zapytał „jaka jest szansa (uzależniona od moich informacji), że średni dochód w 2010 r. Wynosił od 10 000 do 50 000?” Nie sądzę, aby teoria przedziałów ufności mogła dać odpowiedź na to pytanie.
prawdopodobieństwo prawdopodobieństwa


13

Prawdopodobieństwo warunkowe prawdopodobnie prowadzi do większości błędów w codziennym doświadczeniu. Oczywiście istnieje wiele trudniejszych pomysłów, ale ludzie zwykle nie muszą się o nie martwić - ten, z którego nie mogą się uwolnić i jest źródłem nieoczekiwanych nieszczęść.


+1; czy możesz dodać przykład lub dwa, ulubione lub aktualne?
denis

1
Na początek: P (masz chorobę | test jest pozytywny)! = P (test jest pozytywny | masz chorobę).
xmjx,

9

Myślę, że bardzo niewielu naukowców rozumie ten podstawowy punkt: możliwe jest interpretowanie wyników analiz statystycznych według wartości nominalnej, jeśli każdy krok został wcześniej zaplanowany. Konkretnie:

  • Rozmiar próbki należy wcześniej wybrać. Analizowanie danych nie jest w porządku, ponieważ dodaje się więcej osób, zatrzymując się, gdy wyniki wyglądają dobrze.
  • Wszelkie metody normalizacji danych lub wykluczenia wartości odstających również muszą zostać wcześniej określone. Analizowanie różnych podzbiorów danych nie jest w porządku, dopóki nie znajdziesz wyników, które ci się podobają.
  • I w końcu, oczywiście, metody statystyczne muszą zostać wcześniej ustalone. Czy analizowanie danych metodami parametrycznymi i nieparametrycznymi oraz wybieranie wyników, które lubisz, nie jest w porządku.

Metody eksploracyjne mogą być przydatne do eksploracji. Ale wtedy nie możesz zawrócić i przeprowadzać regularnych testów statystycznych oraz interpretować wyników w zwykły sposób.


5
Myślę, że John Tukey może się nie zgodzić en.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran Marsupial

3
Częściowo nie zgodziłbym się tutaj. Myślę, że zastrzeżeniem, za którym tęsknią ludzie, jest to, że odpowiednie operacje warunkowania łatwo zignorować w przypadku tego rodzaju problemów. Każda z tych operacji zmienia warunki wnioskowania, a zatem zmieniają warunki jego zastosowania (a zatem i jego ogólności). Z pewnością dotyczy to tylko „analizy potwierdzającej”, w której skonstruowano dobrze zdefiniowany model i pytanie. W fazie eksploracyjnej, nie szukając odpowiedzi na konkretne pytania - więcej osób chce zbudować model i wysunąć hipotezę dotyczącą danych.
probabilityislogic

Trochę zredagowałem swoją odpowiedź, aby uwzględnić komentarze Dikran i probabilislogic. Dzięki.
Harvey Motulsky

1
Dla mnie „wykluczanie wartości odstających” nie jest tak błędne, jak sugeruje twoja odpowiedź. Na przykład możesz być zainteresowany relacjami z pewnym zakresem odpowiedzi, a wykluczenie wartości odstających naprawdę pomaga w tego rodzaju analizach. Na przykład, jeśli chcesz modelować dochód „klasy średniej”, dobrym pomysłem jest wykluczenie superbogatych i zubożałych wartości odstających. To tylko wartości odstające w ramach twojego wnioskowania (np. „Dziwne” obserwacje klasy średniej), do których odnoszą się twoje komentarze
probabilityislogic

2
Ostatecznie prawdziwym problemem związanym z problemami poruszonymi w pierwotnej odpowiedzi jest to, że (przynajmniej częściowo) unieważniają wartości p. Jeśli jesteś zainteresowany kwantyfikacją zaobserwowanego efektu, powinieneś być w stanie wykonać dowolne z powyższych bezkarnie.
russellpierce

9

Język mocno w policzek: dla częstych osób bayesowska koncepcja prawdopodobieństwa; dla Bayesian częste pojęcie prawdopodobieństwa. ; o)

Oba mają oczywiście zalety, ale może być bardzo trudno zrozumieć, dlaczego jedna struktura jest interesująca / przydatna / ważna, jeśli rozumiesz drugą. Walidacja krzyżowa jest dobrym lekarstwem, ponieważ zadawanie pytań i słuchanie odpowiedzi to dobry sposób na naukę.


2
Z reguły pamiętam: używaj prawdopodobieństw do przewidywania częstotliwości. Po zaobserwowaniu częstotliwości użyj ich do oceny przypisanych prawdopodobieństw. Niestety, mylące jest to, że często przypisywane przez ciebie prawdopodobieństwo jest równe częstotliwości, którą obserwujesz. Jedną z rzeczy, które zawsze uważałem za dziwne, jest to, dlaczego osoby często odwiedzające używają słowa prawdopodobieństwo? czy nie ułatwiłoby to zrozumienia ich pojęć, gdyby użyto wyrażenia „częstotliwość zdarzenia” zamiast „prawdopodobieństwa zdarzenia”?
prawdopodobieństwo prawdopodobieństwo

Co ciekawe, walidacja krzyżowa może być postrzegana jako przybliżenie Monte Carlo do całki funkcji straty w teorii decyzji. Masz całkę i przybliżasz ją o Gdzie to wektor danych, a to wektor danych z i-tą obserwacją usuniętyi = n i = 1 L ( x [ n - i ] , x i ) x n x [ n - i ] x ip(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi
probabilityislogic

8

Z mojego osobistego doświadczenia pojęcie prawdopodobieństwa może również wywołać spore poruszenie, szczególnie w przypadku osób niebędących statystykami. Jak mówi wikipedia, bardzo często miesza się z pojęciem prawdopodobieństwa, co nie jest do końca poprawne.



6

Co tak naprawdę reprezentują różne dystrybucje oprócz tego, jak są używane.


3
To było pytanie, które najbardziej rozpraszało mnie po statystykach 101. Spotkałem wiele dystrybucji bez motywacji poza „właściwościami”, które były istotne dla omawianych tematów. Dopiero po jakimś czasie dowiedziałem się, co ktokolwiek reprezentuje.
sesqu

1
„Myślenie” o maksymalnej entropii to jedna metoda, która pomaga zrozumieć, czym jest rozkład, a mianowicie stan wiedzy (lub opis niepewności co do czegoś). Jest to jedyna definicja, która ma dla mnie sens we wszystkich sytuacjach
prawdopodobieństwo jest

Ben Bolker zapewnia dobry przegląd tego w dziale „bestia dystrybucji” modeli ekologicznych i danych w R
David LeBauer,

5

Myślę, że pytanie można interpretować na dwa sposoby, co da bardzo różne odpowiedzi:

1) Jaka jest najtrudniejsza koncepcja dla osób studiujących statystyki, szczególnie na stosunkowo zaawansowanym poziomie?

2) Która koncepcja statystyczna jest źle rozumiana przez większość ludzi?

Po 1) W ogóle nie znam odpowiedzi. Może coś z teorii miary? Jakiś rodzaj integracji? Nie wiem

Dla 2) wartości p, ręce w dół.


Teoria miar nie jest dziedziną statystyki ani trudna. Niektóre rodzaje integracji są trudne, ale znów nie są to statystyki.
pyon


5

Myślę, że ludzie za pierwszym razem tęsknią za łodzią praktycznie za wszystkim. Myślę, że większość uczniów nie rozumie tego, że zwykle szacują parametry na podstawie próbek. Nie znają różnicy między statystyką próbki a parametrem populacji. Jeśli uda ci się wbić te pomysły do ​​głowy, inne rzeczy powinny pójść trochę łatwiej. Jestem pewien, że większość studentów również nie rozumie sedna CLT.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.