Najbardziej mylące terminy statystyczne


47

My, statystycy, używamy wielu słów w nieco inny sposób niż wszyscy inni. Powoduje to wiele problemów, gdy uczymy lub wyjaśniamy, co robimy. Rozpocznę listę (a teraz dodam kilka definicji, w komentarzach):

  • Moc to zdolność do prawidłowego odrzucenia fałszywej hipotezy zerowej. Zwykle oznacza to prawidłowe powiedzenie „coś się dzieje”.
  • Odchylenie - statystyka jest tendencyjna, jeśli systematycznie różni się od parametru populacji z nią związanego.
  • Istotność - wyniki są statystycznie znaczące przy pewnym procencie (często 5%) w następującej sytuacji: Jeśli populacja, z której pochodzi próbka, ma prawdziwy efekt 0, statystyka przynajmniej tak ekstremalna jak ta, która została pobrana z próbki, wystąpiłaby tylko 5% czasu.
  • Interakcja - Dwie niezależne zmienne oddziałują na siebie, jeśli zależność między zmienną zależną i jedną zmienną niezależną jest różna na różnych poziomach drugiej zmiennej niezależnej

Ale musi być wiele innych!


5
Sugerowałbym również, aby ludzie dodali szerszy kontekst do swoich odpowiedzi. Przykładami mogą być to samo słowo używane różnie w różnych dziedzinach (efekty stałe Gelman, 2005 ) lub słowa, które mają różne znaczenia w różnych kontekstach (znaczenie vs. znaczenie statystyczne Bushway i in., 2006 ).
Andy W

5
Byłoby dobrze, gdyby odpowiadający mogli wyjaśnić w jednym lub dwóch zdaniach, co tak naprawdę oznacza termin „techniczny” lub co może sprawić, że będzie postrzegany jako mający inne znaczenie.
chl

Później uzupełnię odpowiedź zgodnie z twoimi komentarzami ;-)
ocram 12.12

1
... i „korelacja”!
Stéphane Laurent,

1
„Próbka” znajduje się w komentarzach do stats.stackexchange.com/questions/20945/… .
whuber

Odpowiedzi:


21

„Znaczący” jest największym, na jaki się natknąłem, ponieważ ma zarówno wspólne znaczenie w języku angielskim, jak i to znaczenie pojawi się w dyskusji na temat wyników badań. Nawet w tym samym zdaniu, w którym mówiłem o wynikach statystycznych, mieszam słowo „znaczący”, co znaczy „ważny”.

W ten sposób leży szaleństwo.


Racja, ale nie ma lepszego słowa na „jestem cholernie pewien, że to jest znaczące, ale nie przeprowadziłem na nim żadnych testów i nie zrobię tego, ponieważ to oczywiste / nie da się tego zrobić / cokolwiek”
naught101

17

Sugerowałbym dodanie Linear do listy.

Zadałem pytanie na temat matematyki. SE o tym, co ja, inżynier, uważam za liniowe minimalne oszacowanie błędu średniej kwadratowej zmiennej losowej biorąc pod uwagę wartość zmiennej losowej (co oznacza oszacowanie jako przy wyborze i tak, aby zminimalizować ), i dał częściową odpowiedź. Jeden z komentarzy do pytania brzmiałX Y Y = X + b b e [ ( Y - X - b ) 2 ]YXYY^=aX+babE[(YaXb)2]

„Nie jestem zadowolony z twojego języka, ponieważ obawiam się, że ten sposób użycia słowa„ liniowy ”może przyczynić się do powszechnego nieporozumienia, że ​​przyczyną regresji liniowej w tak zwanej regresji liniowej jest dopasowanie do linii. Ludzie, którzy tak myślą to jest mylące, gdy statystyk nalega, aby wykonać regresję liniową, gdy pasuje do paraboli lub fali sinusoidalnej itp. ”

Co więc oznacza regresja liniowa dla statystyki?


5
Powiązane pytanie na stronie w odniesieniu do tej odpowiedzi: Co oznacza liniowa regresja liniowa?
Andy W

1
@AndyW Czy powiedziałbyś, że Linear należy do listy, którą założył Peter Flom, czy nie?
Dilip Sarwate

1
tak Zgadzam się, że pasuje do rachunku za tę listę. (+1)
Andy W

4
Pasuje do listy, ale z nietypowego powodu: znaczenie terminu „liniowy” jest dobrze ustalone i konsekwentnie stosowane w wielu dziedzinach zorientowanych matematycznie. Potencjalne zamieszanie dotyczy tego, która część wzoru jest liniowa.
whuber

Czy możesz podać przykład dopasowania paraboli i nadal nazywać ją modelem liniowym?
oneloop

14

prawdopodobieństwo

Wydaje mi się, że większość problemów związanych z interpretacją testów hipotez i przedziałów ufności wynika z zastosowania bayesowskiej definicji „prawdopodobieństwa”, gdy procedura opiera się na częstości. Na przykład wartość p będąca prawdopodobieństwem, hipoteza zerowa jest prawdziwa, gdy AFAICS nie można powiązać prawdopodobieństwa z prawdą konkretnej hipotezy w ustawieniach częstych.


4
Wygląda na to, że ta sama uwaga miałaby zastosowanie do tych, którzy są przyzwyczajeni do twierdzenia, że ​​(prawda) parametr ma 95% szansy leżenia między xx a xx, mówiąc o / interpretowaniu przedziałów ufności.
chl

1
tak absolutnie!
Dikran Torbacz

1
+1 Chciałbym jednak nieco inaczej sformułować twoje ostatnie zdanie. W ramach najczęstszych ustawień prawdopodobieństwo, że hipoteza zerowa jest prawdziwa, wynosi 1 lub 0, ale nie wiesz, która . (Ściśle mówiąc, nie jest to do końca słuszne, ponieważ „prawdopodobieństwo” jest częstotliwością względną w długim okresie, a „częstotliwość długoterminowa” tak naprawdę nie ma zastosowania. Niemniej jednak, w ten sposób wyrażeni w ten sposób ludzie mogą zrozumieć, co się mówi / jak rozumiemy sytuacja, w której się znajdujemy. Na przykład ludzie zdają sobie sprawę, że nie można użyć wartości p hipotezy zerowej jako prawdopodobieństwa, że ​​hipoteza zerowa jest prawdziwa.)
gung - Przywróć Monikę

2
„ponieważ„ prawdopodobieństwo ”jest długookresową częstotliwością względną” Wielu probabilistów gwałtownie zakwestionuje to stwierdzenie
Dilip Sarwate

14

"Pewność siebie"

Bardzo trudno jest odwieść nie-statystyków, że ich przedział ufności nie jest (bezpośrednio) stwierdzeniem o wiarygodności różnych wartości parametrów.

Aby mieć pewność, w technicznym znaczeniu tego terminu, musimy wyobrazić sobie zestaw powtarzających się eksperymentów, z których każde oblicza interwał w określony wcześniej sposób. Aby uzyskać 95% przedział ufności, 95% tych zastosowań formuły zatrzyma odpowiedni parametr będący przedmiotem zainteresowania.

ab

(Istnieją oczywiście sytuacje, w których oba pojęcia zgadzają się, w przybliżeniu lub dokładnie. Ale ogólnie nie, a zgoda numeryczna nie usuwa problemu niewłaściwego używania terminów technicznych.)


10

„Prawdopodobieństwo” - jest synonimem „prawdopodobieństwa” w mowie codziennej, ale w statystyce ma szczególne znaczenie: jest funkcją parametrów modelu statystycznego, którego wartością jest prawdopodobieństwo zaobserwowanego wyniku przy założeniu, że parametry są równe wartościom parametrów.


8

Błąd.

W statystyce „błąd” to odchylenie rzeczywistej wartości danych od prognozy modelu.

W rzeczywistości błędem jest spllng mstake lub inny goof.


Czy błąd pisowni nie jest odchyleniem od rzeczywistej (zamierzonej) wartości medium komunikacyjnego? Naprawdę nie rozumiem, jak to jest inne słowo, po prostu używa się go w innym (ale nie sprzecznym) kontekście. Trudno mi uwierzyć, że byłoby to tak mylące dla kogoś nowego w tej dziedzinie.
naught101

2
Jednym z powodów, dla których wartość może różnić się od prognozy, jest błąd eksperymentatora. To jest jak błąd ortograficzny. Ale dlaczego twoja waga różni się od średniej masy wszystkich osób tej samej płci i wieku? Dlaczego twój dochód jest inny niż średni dochód? W statystyce to odchylenie od średniej jest „błędem”, ale nie jest błędem, a jedynie odmianą.
Harvey Motulsky

To prawda, ale myślę, że to zależy od tego, jak na to spojrzeć. jeśli spojrzysz na pisownię słowa na próbce szkoły podstawowej, dostaniesz wariację, spowodowaną przez ludzi, tak, ale nie spowodowaną przez eksperymentatora. Możesz patrzeć na to samo, pisząc po angielsku z różnych grup wiekowych. Myślę, że
zauważyłeś,

@HarveyMotulsky: chemia analityczna wykorzystuje błąd na dwa sposoby. Mówimy o błędach systematycznych, błędach losowych i błędach rażących. Podręcznik: „można uniknąć rażących błędów”.
cbeleites obsługuje Monikę

8

"Wnioskowanie"

βb

Inną ważną częścią wnioskowania jest centralne twierdzenie graniczne. Kiedy zdasz sobie sprawę, że po prostu pobierasz próbki z populacji - chociaż próbkowanie to kolejna skomplikowana funkcja podobna do wnioskowania - wtedy rozumiesz, że nawet jeśli średnia próbki zawiera jedną wartość, ta wartość niekoniecznie jest taka sama jak w populacji .

Być może dość luźno zrozumiałem twoje pytanie, ale kiedy ktoś zrozumie wnioskowanie lub różnice między próbką a populacją, wtedy cała statystyka się przed nimi otwiera.


7

Dla nas (a przynajmniej dla mnie) „losowość” „próby” sugeruje, że jest ona reprezentatywna dla „populacji”.

Dla innych „losowość” czasami oznacza, że ​​dana osoba / rzecz jest niezwykła.


1
Nie wpadłem w zamieszanie związane z „przypadkowością”. Ale jeśli tak, to oczywiście istnieje.
Peter Flom - Przywróć Monikę

3
Dokładniej, że istniał
Thomas Levine,

1
To ostatnie użycie „losowego” wydaje mi się całkiem nowe. Z tego powodu uważam to za nieco denerwujące (po prostu utrudnia zrozumienie statystyk). To jeszcze bardziej denerwujące, gdy słyszę, że używam go w tym sensie ...
naught101

5

Myślę, że należy rozróżnić pojęcia wprowadzające w błąd społeczeństwo i terminy wprowadzające w błąd statystyki. Powyższe sugestie są w większości terminami dobrze zrozumiałymi przez statystyków i (być może) źle zrozumianymi przez społeczeństwo. Chciałbym dodać do listy niektóre terminy, których nie rozumieją statystycy:

  • Bayesian: pierwotnie określany jako tak zwany subiektywny Bayes (inaczej epistemiczny, De-Finetti). Dzisiaj termin ten będzie stosowany za każdym razem, gdy pojawi się reguła Bayesa, rzadko w kontekście subiektywnych przekonań, które uważa się za teorię decyzji.
  • Empiryczne Bayes: pierwotnie odnoszące się do konfiguracji częstych z nieparametrycznym uprzednim. Dzisiaj zwykle oznacza parametry parametryczne (obiektywne) przed oszacowaniem i nie są znane z góry. Tj., Co kiedyś było znane jako maksymalne prawdopodobieństwo typu II.
  • Nieparametryczny: czasami odnosi się do „bez modelu”. Czasami „bez dystrybucji”. Stało się praktycznie nieinformacyjne w czasach, gdy modele „parametryczne” mogą zawierać miliony parametrów.
  • Błąd typu III: czasami odnosi się do błędu znaku. Czasem odnosi się do błędnej specyfikacji modelu.

Kiedy zapytałem, chciałem zamienić „warunki mylące dla ogółu społeczeństwa”, ale z pewnością warto też wymienić warunki mylące dla statystyk
Peter Flom - Przywróć Monikę

Prawdopodobnie należy to podzielić na osobne odpowiedzi.
naught101

4

Ekologiczny, powszechnie używany w odniesieniu do systemów biologicznych, ale także błąd statystyczny. Z Wikipedii:

Błąd ekologiczny (lub błąd ekologiczny wnioskowania) jest błędem w interpretacji danych statystycznych w badaniu ekologicznym, przy czym wnioski dotyczące natury konkretnych osób oparte są wyłącznie na zbiorczych statystykach zebranych dla grupy, do której te osoby należą. Ten błąd zakłada, że ​​poszczególni członkowie grupy mają średnią charakterystykę całej grupy.


3

Czy „ankieta” jest rodzajem matematyki („próbkowanie ankiety”) czy kartką papieru („kwestionariusz”)?

Nie przeprowadziłem ankiety na ten temat, ale podejrzewam, że znaczna część opinii publicznej uważa „ankietę” za tę drugą. Podejrzewam ponadto, że nie myślą o tym pierwszym.


2
Czy ankiety nie są przeprowadzane przez geodetów? ;)
zbicyclist

3

„Obciążenia”, „współczynniki” i „ciężary”; gdy mówimy o głównej analizie składników.

Zazwyczaj ludzie używają ich doraźnie, używając ich zamiennie, bez uprzedniego wyraźnego zdefiniowania ich znaczenia, i faktycznie natknąłem się na dokumenty, które odnoszą się do „ładowania wektorów”, a czasami same komputery osobiste, a czasami „ciężary” skojarzony z określonym komputerem.

Prawdopodobnie fakt, że doskonałe odniesienie Jollifee do głównych składników stwierdza na końcu rozdziału 1.1 „Niektórzy autorzy rozróżniają pojęcia„ obciążenia ”i„ współczynniki ”w zależności od zastosowanego ograniczenia normalizacji, ale będą one używane zamiennie w tej książce”. po prostu sprawili, że ludzie myśleli, że mają darmową przepustkę, aby mieszać i dopasowywać terminologię do swoich upodobań ...


1

Model addytywny. Nadal nie jestem pewien, co to znaczy. Myślę, że odnosi się do modelu bez warunków interakcji. Ale potem natknę się na artykuł, w którym używają go w odniesieniu do czegoś innego, tj. Modelu splajnu.


0

Jednym z terminów, które uważam za najbardziej mylące, jest „matryca zamieszania”. Oczywiście sam termin jest mylący, a nie pojęcie.

Próbowałem prześledzić historię tego terminu i to też jest dość interesujące. Macierz nieporozumień została wynaleziona w 1904 r. Przez ( http://en.wikipedia.org/wiki/Karl_Pearson ). Użył terminu http://en.wikipedia.org/wiki/Contingency_table . Pojawił się w Karl Pearson, FRS (1904). Wkłady matematyczne w teorię ewolucji (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Podczas War World 2 https: //en.wikipedia.org/wiki/Detection_theory zostało opracowane jako badanie związków między bodźcem a reakcją. Zastosowano tam macierz zamieszania.

Ze względu na teorię wykrywania termin ten został użyty jako psychologia. Stamtąd termin osiągnął uczenie maszynowe.

Wydaje się, że chociaż koncepcja ta została wymyślona w statystyce, która jest bardzo powiązana z uczeniem maszynowym, osiągnęła uczenie maszynowe po objeździe w ciągu 100 lat.

Aby zapoznać się z niektórymi odniesieniami do użycia tego terminu, zobacz: Jakie jest pochodzenie terminu macierz pomieszania?


-4

"Statystyka"

Dla ogółu społeczeństwa, namiastkę „teraz mam cię okłamać i mówić w sposób, którego nie rozumiesz”.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.