Czy wartość rozkładu prawdopodobieństwa przekraczająca 1 może być OK?


149

Na stronie Wikipedii o naiwnych klasyfikatorach Bayesa znajduje się następujący wiersz:

p(hmijasolht|mzalmi)=1,5789 (rozkład prawdopodobieństwa na 1 jest OK. Jest to obszar pod krzywą dzwonową równy 1.)

Jak wartość być OK? Myślałem, że wszystkie wartości prawdopodobieństwa zostały wyrażone w zakresie . Ponadto, biorąc pod uwagę, że można mieć taką wartość, w jaki sposób wartość ta jest uzyskiwana w przykładzie pokazanym na stronie?>10p1


2
Kiedy zobaczyłem, że myślałem, że może to być wysokość funkcji gęstości prawdopodobieństwa, która może być dowolną liczbą dodatnią, o ile jest ona całkowana w dowolnym przedziale, całka jest mniejsza lub równa 1. Wikipedia powinna poprawić ten wpis.
Michael Chernick

16
Ponieważ może to pomóc przyszłym czytelnikom, oferuję geometryczne tłumaczenie ogólnej części tego pytania: „W jaki sposób kształt, którego powierzchnia nie przekracza może rozciągać się więcej niż 1 w dowolnym kierunku?” W szczególności kształt jest tą częścią górnej połowy płaszczyzny ograniczoną powyżej przez wykres PDF, a omawiany kierunek jest pionowy. W ustawieniu geometrycznym (ściśnięcia interpretacji prawdopodobieństwo) łatwo jest, że w przykładach wykonania, na przykład w postaci prostokąta podstawy nie większą niż 1 / 2 i wysokość 2 . 111/2)2)
whuber

artykuł w Wikipedii używa teraz małych liter pdla gęstości prawdopodobieństwa i wielkich liter Pdla prawdopodobieństwa
Aprillion

Zostawię to tutaj następnemu facetowi: en.wikipedia.org/wiki/Dirac_delta_function
Joshua

Warto zauważyć, że funkcja skumulowanej dystrybucji (całka pliku PDF) nie może przekraczać 1. CDF jest w wielu przypadkach o wiele bardziej intuicyjny w użyciu.
naught101

Odpowiedzi:


167

Ta strona Wiki nadużywa języka, odwołując się do tego numeru jako prawdopodobieństwa. Masz rację, że tak nie jest. Jest to w rzeczywistości prawdopodobieństwo na stopę . W szczególności wartość 1,5789 (dla wysokości 6 stóp) implikuje, że prawdopodobieństwo wysokości między, powiedzmy, 5,99 a 6,01 stóp jest zbliżone do następującej wartości bez jednostki:

1,5789[1/stopa]×(6.01-5,99)[stopy]=0,0316

Ta wartość powinna nie przekraczać 1, jak wiesz. (Mały zakres wysokości (w tym przykładzie 0,02) jest kluczową częścią aparatu prawdopodobieństwa. Jest to „różnica” wysokości, którą skrótuję .) Prawdopodobieństwa na jednostkę czegoś nazywane są przez analogię gęstością do innych gęstości, takich jak masa na jednostkę objętości.re(wysokość)

Bona fide gęstości prawdopodobieństwa mogą mieć dowolnie duże wartości, nawet nieskończone.

Rozkład gamma

Przykład ten pokazuje funkcję gęstości prawdopodobieństwa dla rozkładu gamma (z parametru kształtu i skali 1 / 5 ). Ponieważ większość gęstości jest mniejsza niż 1 , krzywa musi wzrosnąć o więcej niż 1 , aby uzyskać łączną powierzchnię 1 wymaganą dla wszystkich rozkładów prawdopodobieństwa.3)/2)1/5111

Dystrybucja beta

Gęstość (w przypadku rozkładu beta z parametrami ) staje się nieskończona 0 i po 1 . Cały obszar jest wciąż skończony (i wynosi 1 )!1/2),1/10011


Wartość 1,5789 / stopę uzyskuje się w tym przykładzie poprzez oszacowanie, że wysokości mężczyzn mają rozkład normalny ze średnią 5,855 stóp i wariancją 3,50e-2 stóp kwadratowych. (Można to znaleźć w poprzedniej tabeli.) Pierwiastek kwadratowy tej wariancji to odchylenie standardowe, 0,18717 stóp. Ponownie wyrażamy 6 stóp jako liczbę SD od średniej:

z=(6-5,855)/0,18717=0,7747

Podział przez odchylenie standardowe tworzy relację

rez=re(wysokość)/0,18717

Normalna gęstość prawdopodobieństwa z definicji jest równa

12)πexp(-z2)/2))rez=0,29544 re(wysokość)/0,18717=1,5789 re(wysokość).

(Właściwie oszukiwałem: po prostu poprosiłem Excela o obliczenie NORMDIST (6, 5,855, 0,18717, FAŁSZ). Ale tak naprawdę sprawdziłem to z formułą, tylko dla pewności.) Kiedy usuwamy podstawową różnicę ze wzoru pozostaje tylko liczba 1,5789 , jak uśmiech kota z Cheshire. My, czytelnicy, musimy zrozumieć, że liczbę należy pomnożyć przez niewielką różnicę wysokości, aby uzyskać prawdopodobieństwo.re(wysokość)1,5789


Zwracam uwagę, że przykład podany na tej stronie wiki używa gęstości prawdopodobieństwa zamiast rzeczywistych prawdopodobieństw do obliczenia tylnych, prawdopodobnie dlatego, że aspekt na jednostkę nie jest konieczny do celów porównawczych, jeśli porównywane jednostki są takie same. Rozszerzając to, jeśli nie chcemy zakładać normalności, ale zamiast tego dysponujemy danymi empirycznymi, na podstawie których można oszacować gęstość, np. Oszacowanie gęstości jądra, czy poprawne byłoby użycie odczytu przy danej wartości na osi X z tego kde jako dane wejściowe do obliczania bocznych w naiwnym klasyfikatorze Bayesa, przy założeniu równości na jednostki?
czytnik babelproof

1
@babelproofreader Wierzę, że plakaty są aktualizacjami bayesowskimi, dzięki danym szkoleniowym, a priori. Nie jest jasne, w jaki sposób KDE może być interpretowane podobnie, ale nie jestem ekspertem w tej dziedzinie. Twoje pytanie jest na tyle interesujące, że możesz rozważyć opublikowanie go osobno.
whuber

Jak określić, co jest dobrym dyferencjałem? Co jeśli zamiast tego wybrałeś różnicę 1? prawdopodobieństwo byłoby wtedy większe niż 1? Przepraszam za moje zamieszanie tutaj. Możesz wytłumaczyć?
fiacobelli,

3
@ drzewo Obszar trójkąta stanowi połowę iloczynu długości jego podstawy i wysokości.
whuber

1
@ user929304 Możesz odwoływać się do każdego podręcznika teoretycznego, który Cię interesuje: jest to część podstaw prawdopodobieństwa i statystyki. Ta szczególna koncepcja gęstości prawdopodobieństwa jest dobrze omówiona w lepszych podręcznikach wprowadzających, takich jak Freedman, Pisani i Purves .
whuber

43

Jest to częsty błąd polegający na niezrozumieniu różnicy między funkcjami masy prawdopodobieństwa, w których zmienna jest dyskretna, a funkcjami gęstości prawdopodobieństwa, w których zmienna jest ciągła. Zobacz Co to jest rozkład prawdopodobieństwa :

funkcje ciągłego prawdopodobieństwa są zdefiniowane dla nieskończonej liczby punktów w ciągłym przedziale, prawdopodobieństwo w jednym punkcie jest zawsze równe zero. Prawdopodobieństwa mierzy się w odstępach, a nie w pojedynczych punktach. Oznacza to, że obszar pod krzywą między dwoma odrębnymi punktami określa prawdopodobieństwo tego przedziału. Oznacza to, że wysokość funkcji prawdopodobieństwa może w rzeczywistości być większa niż jeden. Właściwość, której całka musi być równa jedności, jest równoważna właściwości dla rozkładów dyskretnych, że suma wszystkich prawdopodobieństw musi być równa jedności.


14
NIST jest zwykle autorytatywny, ale tutaj jest technicznie niepoprawny (i niegramatyczny do rozruchu): zdefiniowanie prawdopodobieństwa na „nieskończonej liczbie punktów” nie oznacza, że ​​„prawdopodobieństwo w jednym punkcie jest zawsze równe zero”. Oczywiście unikają rozproszenia uwagi na temat nieskończonej liczności, ale rozumowanie tutaj jest mylące. Lepiej byłoby, gdyby pominęli pierwsze zdanie w cytacie.
whuber

23

[za,b]1/(b-za)b-za11/(b-za)

[0,0,5]1/(0,5-0)=2)[0,0,1]10


4

Nie wiem, czy artykuł z Wikipedii został zredagowany po pierwszych postach w tym wątku, ale teraz mówi: „Zauważ, że wartość większa niż 1 jest tutaj OK - jest to raczej gęstość prawdopodobieństwa niż prawdopodobieństwo, ponieważ wysokość jest zmienna ciągła. ”, a przynajmniej w tym bezpośrednim kontekście, P jest używane dla prawdopodobieństwa, a p dla gęstości prawdopodobieństwa. Tak, bardzo niechlujny, ponieważ artykuł używa p w niektórych miejscach dla oznaczenia prawdopodobieństwa, a w innych jako gęstości prawdopodobieństwa.

Powrót do pierwotnego pytania „Czy wartość rozkładu prawdopodobieństwa przekraczająca 1 może być OK?” Nie, ale widziałem już to zrobione (patrz mój ostatni akapit poniżej).

Oto jak interpretować prawdopodobieństwo> 1. Przede wszystkim zauważ, że ludzie mogą i dają 150% wysiłku, jak często słyszymy w sporcie i czasami pracują https://www.youtube.com/watch?v=br_vSdAOHQQ . Jeśli jesteś pewien, że coś się wydarzy, to prawdopodobieństwo wynosi 1. Prawdopodobieństwo 1,5 można zinterpretować, ponieważ masz 150% pewności, że wydarzenie się wydarzy - coś w rodzaju wysiłku 150%.

A jeśli możesz mieć prawdopodobieństwo> 1, przypuszczam, że możesz mieć prawdopodobieństwo <0. Prawdopodobieństwa ujemne można interpretować w następujący sposób. Prawdopodobieństwo 0,001 oznacza, że ​​prawie nie ma szansy na zdarzenie. Prawdopodobieństwo = 0 oznacza „nie ma mowy”. Negatywne prawdopodobieństwo, takie jak -1.2, odpowiada „Musisz żartować”.

P.rP.rP.rP.rP.rP.rP.rP.riść do około 1.8. W ten sposób bariera jedności została przełamana przez prawdopodobieństwo. Ale facet nie wiedział, że dokonał tego pionierskiego wyczynu, dopóki mu tego nie wskazałem, po przeprowadzeniu szybkich obliczeń na kalkulatorze naukowym Casio o wielkości karty kredytowej w zaciemnionej sali konferencyjnej (nie mógł tego zrobić kalkulator zasilany energią słoneczną). To byłoby trochę tak, jakby Chuck Yeager wychodził na niedzielny obrót w swoim samolocie i dopiero kilka miesięcy później został poinformowany, że przełamał barierę dźwiękową.


Fajna historia. Czy masz więcej informacji na ten temat, na przykład cytat?
Jay Schyler Raadt

1
@ Jay Schyler Raadt Udokumentowano to na stronie stats.stackexchange.com/questions/4220/… , ha ha.
Mark L. Stone

0

Xfa(x)fa(x)rexfa(x)fa(wysokość|męski)fa(wysokość|męski)rewysokość

XP.(X[x,x+rex))=fa(x)rexP.(X[za,b])=zabfa(x)rexP.(X=x)=P.(X[x,x])=0


-1

Wartość punktowa przy określonej wartości parametru wykresu gęstości prawdopodobieństwa byłaby prawdopodobieństwem, prawda? Jeśli tak, to stwierdzenie można poprawić, zmieniając po prostu P (wzrost | męski) na L (wzrost | męski).

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.