Zrozumienie Naive Bayes

Ze StatSoft, Inc. (2013), Electronic Statistics Textbook , „Naive Bayes Classifier” :

Aby zademonstrować koncepcję klasyfikacji Naiwego Bayesa, rozważ przykład pokazany na powyższej ilustracji. Jak wskazano, obiekty można zaklasyfikować jako ZIELONE lub CZERWONE. Moim zadaniem jest klasyfikowanie nowych przypadków po ich przybyciu, tj. Decydowanie, do której etykiety klasy należą, na podstawie obecnie wychodzących obiektów.

Ponieważ istnieje dwa razy więcej ZIELONYCH obiektów niż CZERWONY, uzasadnione jest przekonanie, że nowy przypadek (który nie był jeszcze obserwowany) ma dwa razy większe szanse na członkostwo ZIELONE niż CZERWONY. W analizie bayesowskiej przekonanie to znane jest jako wcześniejsze prawdopodobieństwo. Wcześniejsze prawdopodobieństwa oparte są na wcześniejszych doświadczeniach, w tym przypadku odsetku ZIELONYCH i CZERWONYCH obiektów, i często są wykorzystywane do przewidywania wyników, zanim faktycznie się pojawią.

Dlatego możemy napisać:

Ponieważ w sumie jest 60 obiektów, z których 40 to ZIELONY, a 20 CZERWONY, nasze wcześniejsze prawdopodobieństwa członkostwa w klasie to:

Po sformułowaniu naszego wcześniejszego prawdopodobieństwa jesteśmy teraz gotowi do sklasyfikowania nowego obiektu (BIAŁE kółko). Ponieważ obiekty są dobrze zgrupowane, uzasadnione jest założenie, że im więcej ZIELONYCH (lub CZERWONYCH) obiektów w pobliżu X, tym większe prawdopodobieństwo, że nowe przypadki należą do tego konkretnego koloru. Aby zmierzyć to prawdopodobieństwo, narysujemy okrąg wokół X, który obejmuje pewną liczbę (do wyboru a priori) punktów, niezależnie od ich etykiet klas. Następnie obliczamy liczbę punktów w kole należących do każdej etykiety klasy. Na podstawie tego obliczamy prawdopodobieństwo:

Z powyższej ilustracji jasno wynika, że prawdopodobieństwo X przy ZIELONYM jest mniejsze niż prawdopodobieństwo X przy RED, ponieważ okrąg obejmuje 1 ZIELONY obiekt i 3 CZERWONE. A zatem:

Chociaż wcześniejsze prawdopodobieństwa wskazują, że X może należeć do ZIELONEGO (biorąc pod uwagę, że ZIELONY jest dwa razy więcej niż CZERWONY), prawdopodobieństwo wskazuje inaczej. przynależność do klasy X jest CZERWONA (biorąc pod uwagę, że w pobliżu X jest więcej obiektów CZERWONYCH niż ZIELONY). W analizie bayesowskiej ostateczna klasyfikacja jest tworzona przez połączenie obu źródeł informacji, tj. Wcześniejszego i prawdopodobieństwa, w celu utworzenia późniejszego prawdopodobieństwa przy użyciu tak zwanej reguły Bayesa (nazwanej na cześć ks. Thomasa Bayesa 1702-1761).

Wreszcie, klasyfikujemy X jako CZERWONY, ponieważ jego członkostwo w klasie osiąga największe prawdopodobieństwo a posteriori.

Tu pojawia się trudność w zrozumieniu mojej matematyki.

wprowadź opis zdjęcia tutaj

p (Cj | x1, x2, x ..., xd) jest późniejszym prawdopodobieństwem przynależności do klasy, tj. prawdopodobieństwem, że X należy do Cj, ale po co to pisać?

Obliczanie prawdopodobieństwa?

wprowadź opis zdjęcia tutaj

Prawdopodobieństwo z tyłu?

wprowadź opis zdjęcia tutaj

Nigdy nie brałem matematyki, ale rozumienie naiwnych bayesów jest w porządku, myślę, że jeśli chodzi o te rozłożone metody, to mnie dezorientuje. Czy ktoś mógłby pomóc w wizualizacji tych metod i jak napisać matematykę w zrozumiały sposób?

machine-learning naive-bayes

— G Gr
źródło

(+1) Podziwiam naprawdę ostrożny i jasny sposób, w jaki postawiłeś pytanie.

— rolando2

@ rolando2: wszystkie dane liczbowe i prawie cały tekst tego pytania pochodzą ze statsoft.com/textbook/naive-bayes-classifier

— Franck Dernoncourt

Przeprowadź edycję tego postu, aby wyraźnie przypisać materiał z innego miejsca, zgodnie z opisem w materiałach odniesienia napisanych przez innych .

— Scortchi - Przywróć Monikę

W witrynach Stack Exchange zawsze wymagane było prawidłowe przypisywanie bezpośrednich ofert . W każdym razie pominięcie można łatwo naprawić; I zrobiłem to. Nie ma potrzeby usuwania konta - prosimy o ponowne rozważenie.

— Scortchi - Przywróć Monikę

Odpowiedzi:

Przejdę przez cały proces Naive Bayes od zera, ponieważ nie jest dla mnie całkowicie jasne, gdzie się rozłączasz.

Chcemy znaleźć prawdopodobieństwo, że nowy przykład należy do każdej klasy: ). Następnie obliczamy to prawdopodobieństwo dla każdej klasy i wybieramy najbardziej prawdopodobną klasę. Problem polega na tym, że zwykle nie mamy takich prawdopodobieństw. Twierdzenie Bayesa pozwala jednak przepisać to równanie w bardziej przystępnej formie. $P(class|feature_1, feature_2,..., feature_n$

Jest tam po prostu lub pod względem naszego problemu:

P (A | B) = \frac{P (B | A) \cdot P (A)}{P (B)}

$P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)}$

P (c l a s s | f e a t u r e s) = \frac{P (f e a t u r e s | c l a s s) \cdot P (c l a s s)}{P (f e a t u r e s)}

$P(class|features)=\frac{P(features|class) \cdot P(class)}{P(features)}$

Możemy to uprościć, usuwając . Możemy to zrobić, ponieważ będziemy klasyfikować dla każdej wartości ; będą za każdym razem takie same - nie zależy to od . Pozostaje nam $P(features)$ $P(class|features)$ $class$ $P(features)$ $class$

P (c l a s s | f e a t u r e s) \propto P (f e a t u r e s | c l a s s) \cdot P (c l a s s)

$P(class|features) \propto P(features|class) \cdot P(class)$

Wcześniejsze prawdopodobieństwa, , można obliczyć zgodnie z opisem w pytaniu. $P(class)$

Pozostawia to . Chcemy wyeliminować ogromne, i prawdopodobnie bardzo rzadkie, wspólne prawdopodobieństwo . Jeśli każda funkcja jest niezależna, to Nawet jeśli nie są one faktycznie niezależne, możemy założyć, że są (to jest „ naiwna „część naiwnych Bayesów). Osobiście uważam, że łatwiej jest przemyśleć to w przypadku zmiennych dyskretnych (tj. Kategorialnych), więc użyjmy nieco innej wersji twojego przykładu. Tutaj podzieliłem każdy wymiar cechy na dwie zmienne jakościowe. $P(features|class)$ $P(feature_1, feature_2, ..., feature_n|class)$

P (f e a t u r e_{1}, f e a t u r e_{2}, . . ., f e a t u r e_{n} | c l a s s) = \prod_{i} P (f e a t u r e_{i} | c l a s s)

$P(feature_1, feature_2, ..., feature_n|class) = \prod_i{P(feature_i|class})$

Dyskretne przykładowe dane .

Przykład: szkolenie klasowego

Aby wytrenować klasę, zliczamy różne podzbiory punktów i używamy ich do obliczania prawdopodobieństw wcześniejszych i warunkowych.

Priory są trywialne: Łącznie jest sześćdziesiąt punktów, czterdzieści jest zielonych, a dwadzieścia czerwonych. Zatem

P (c l a s s = g r e e n) = \frac{40}{60} = 2 / 3 and P (c l a s s = r e d) = \frac{20}{60} = 1 / 3

$P(class=green)=\frac{40}{60} = 2/3 \text{ and } P(class=red)=\frac{20}{60}=1/3$

Następnie musimy obliczyć prawdopodobieństwa warunkowe każdej wartości cechy dla danej klasy. Tutaj są dwie funkcje: i , z których każda przyjmuje jedną z dwóch wartości (A lub B dla jednej, X lub Y dla drugiej). Dlatego musimy wiedzieć, co następuje: $feature_1$ $feature_2$

$P(feature_1=A|class=red)$
$P(feature_1=B|class=red)$
$P(feature_1=A|class=green)$
$P(feature_1=B|class=green)$
$P(feature_2=X|class=red)$
$P(feature_2=Y|class=red)$
$P(feature_2=X|class=green)$
$P(feature_2=Y|class=green)$
(w przypadku, gdy nie jest to oczywiste, są to wszystkie możliwe pary wartości cech i klasy)

Można je łatwo obliczyć, licząc i dzieląc. Na przykład dla patrzymy tylko na czerwone punkty i liczymy, ile z nich znajduje się w regionie „A” dla . Jest dwadzieścia czerwonych punktów, z których wszystkie znajdują się w regionie „A”, więc . Żaden z czerwonych punktów nie znajduje się w regionie B, więc . Następnie robimy to samo, ale uwzględniamy tylko zielone punkty. To daje nam i . Powtarzamy ten proces dla , aby zaokrąglić tabelę prawdopodobieństwa. Zakładając, że policzyłem poprawnie, rozumiemy $P(feature_1=A|class=red)$ $feature_1$ $P(feature_1=A|class=red)=20/20=1$ $P(feature_1|class=red)=0/20=0$ $P(feature_1=A|class=green)=5/40=1/8$ $P(feature_1=B|class=green)=35/40=7/8$ $feature_2$

$P(feature_1=A|class=red)=1$
$P(feature_1=B|class=red)=0$
$P(feature_1=A|class=green)=1/8$
$P(feature_1=B|class=green)=7/8$
$P(feature_2=X|class=red)=3/10$
$P(feature_2=Y|class=red)=7/10$
$P(feature_2=X|class=green)=8/10$
$P(feature_2=Y|class=green)=2/10$

Te dziesięć prawdopodobieństw (dwa priorytety plus osiem warunków) są naszym modelem

Klasyfikacja nowego przykładu

Sklasyfikujmy biały punkt z twojego przykładu. Znajduje się w regionie „A” dla i regionie „Y” dla . Chcemy znaleźć prawdopodobieństwo, że jest w każdej klasie. Zacznijmy od czerwonego. Korzystając z powyższej formuły, wiemy, że: Subbing według prawdopodobieństwa z tabeli otrzymujemy $feature_1$ $feature_2$

P (c l a s s = r e d | e x a m p l e) \propto P (c l a s s = r e d) \cdot P (f e a t u r e_{1} = A | c l a s s = r e d) \cdot P (f e a t u r e_{2} = Y | c l a s s = r e d)

$P(class=red|example) \propto P(class=red) \cdot P(feature_1=A|class=red) \cdot P(feature_2=Y|class=red)$

P (c l a s s = r e d | e x a m p l e) \propto \frac{1}{3} \cdot 1 \cdot \frac{7}{10} = \frac{7}{30}

$P(class=red|example) \propto \frac{1}{3} \cdot 1 \cdot \frac{7}{10} = \frac{7}{30}$ Następnie robimy to samo dla zielonego:

P (c l a s s = g r e e n | e x a m p l e) \propto P (c l a s s = g r e e n) \cdot P (f e a t u r e_{1} = A | c l a s s = g r e e n) \cdot P (f e a t u r e_{2} = Y | c l a s s = g r e e n)

$P(class=green|example) \propto P(class=green) \cdot P(feature_1=A|class=green) \cdot P(feature_2=Y|class=green)$

Podanie tych wartości daje nam 0 ( ). Na koniec sprawdzamy, która klasa dała nam najwyższe prawdopodobieństwo. W tym przypadku jest to wyraźnie czerwona klasa, więc tutaj przypisujemy punkt. $2/3 \cdot 0 \cdot 2/10$

Notatki

W oryginalnym przykładzie funkcje są ciągłe. W takim przypadku musisz znaleźć sposób przypisania P (funkcja = wartość | klasa) dla każdej klasy. Możesz rozważyć dopasowanie do znanego rozkładu prawdopodobieństwa (np. Gaussa). Podczas treningu znajdowałbyś średnią i wariancję dla każdej klasy wzdłuż każdego wymiaru cechy. Aby sklasyfikować punkt, znajdź , wprowadzając odpowiednią średnią i wariancję dla każdej klasy. Inne rozkłady mogą być bardziej odpowiednie, w zależności od szczegółowych danych, ale Gaussian byłby dobrym punktem wyjścia. $P(feature=value|class)$

Nie znam się zbytnio na zestawie danych DARPA, ale zrobiłbyś w zasadzie to samo. Prawdopodobnie skończysz obliczać coś takiego jak P (atak = PRAWDA | usługa = palec), P (atak = fałsz | usługa = palec), P (atak = PRAWDA | usługa = ftp) itp., A następnie połącz je w tak samo jak w przykładzie. Na marginesie, część sztuczki polega na wymyśleniu dobrych funkcji. Na przykład źródłowe IP będzie prawdopodobnie beznadziejnie rzadkie - prawdopodobnie będziesz mieć tylko jeden lub dwa przykłady dla danego adresu IP. Możesz zrobić znacznie lepiej, jeśli geolokalizowałeś adres IP i użyłeś zamiast tego opcji „Source_in_same_building_as_dest (prawda / fałsz)” lub coś takiego.

Mam nadzieję, że to pomoże więcej. Jeśli coś wymaga wyjaśnienia, chętnie spróbuję ponownie!

— Matt Krause
źródło

Pewnie. Jeśli nie masz nic przeciwko, zredaguję swoją odpowiedź, aby było więcej miejsca (i mogę LaTex).

— Matt Krause,

Rozszerzyłem część szkoleniową i testową i utworzyłem je we własnej sekcji. Pierwsze akapity są takie same ...

— Matt Krause,

Matt, jest to o wiele jaśniejsze niż jakakolwiek definicja podręcznika Naive Bayes, z którą się zetknąłem. To prawdopodobnie najlepsza odpowiedź na każde pytanie, jakie do tej pory widziałam na tej stronie.

— Zhubarb,

@Berkan, dzięki; to bardzo miłe z twojej strony (choć jest też wiele innych świetnych odpowiedzi!) Jeśli masz jakieś sugestie, chętnie spróbuję je rozwiązać!

— Matt Krause,

+ 1 i stackoverflow.com/questions/10059594/... gdzie jest podobne wyjaśnienie

— Drey

Upraszczając notację z oznaczającą dane, chcemy dowiedzieć się, który z różnych jest największy. Teraz formuła Bayesa podaje gdzie mianownik na prawo jest takie samo dla wszystkich . Jeśli chcemy dowiedzieć się, które z , jest największe, możemy oczywiście obliczyć każde i porównać wartości. Należy jednak pamiętać, że na porównania tak naprawdę nie wpływa wartość która jest taka sama we wszystkich przypadkach. Równie dobrze moglibyśmy obliczyć wszystkie $D$ $P(C_j\mid D)$

P (C_{j} ∣ D) = \frac{P (D ∣ C_{j}) P (C_{j})}{P (D)}, j = 1, 2, \dots

$P(C_j\mid D) = \frac{P(D\mid C_j)P(C_j)}{P(D)}, ~ j = 1, 2, \ldots$

j

$j$

P (C_{1} ∣ D)

$P(C_1\mid D)$

P (C_{2} ∣ D), \dots

$P(C_2\mid D), \ldots$

P (C_{j} ∣ D)

$P(C_j\mid D)$

P (D)

$P(D)$

P (D ∣ C_{j}) P (C_{j})

$P(D\mid C_j)P(C_j)$ i porównaj (to znaczy, nie zawracając sobie dzieleniem każdego przez przed porównaniami), a ten sam zostanie wybrany jako mający największe prawdopodobieństwo z tyłu. Innymi słowy, prawdopodobieństwo tylnego jest proporcjonalne do prawdopodobieństwa razy prawdopodobieństwo wcześniejsze Wreszcie, gdy dane są zbiorem (warunkowo) niezależnych obserwacji biorąc uwagę , mamy to

P (D ∣ C_{j}) P (C_{j})

$P(D\mid C_j)P(C_j)$

P (D)

$P(D)$

C_{j}

$C_j$

P (C_{j} ∣ D)

$P(C_j\mid D)$ $P(D\mid C_j)$

P (C_{j})

$P(C_j)$

P (C_{j} ∣ D) \propto P (D ∣ C_{j}) P (C_{j}) .

$P(C_j\mid D) \propto P(D\mid C_j)P(C_j).$

D

$D$

(x_{1}, x_{2}, \dots, x_{d})

$(x_1, x_2, \ldots, x_d)$

C_{j})

$C_j)$

\begin{aligned} P (D ∣ C_{j}) & = P (x_{1}, x_{2}, \dots, x_{d} ∣ C_{j}) \\ = P (x_{1} ∣ C_{j}) P (x_{2} ∣ C_{j}) \dots P (x_{d} ∣ C_{j}) \\ = \prod_{1 = 1}^{d} P (x_{i} ∣ C_{j}) \end{aligned}

$\begin{align*} P(D\mid C_j) &= P(x_1, x_2, \ldots, x_d\mid C_j)\\ &= P(x_1\mid C_j)P(x_2\mid C_j)\cdots P(x_d\mid C_j)\\ &= \prod_{1=1}^d P(x_i\mid C_j) \end{align*}$

— Dilip Sarwate
źródło

Głównym założeniem naiwnego modelu Bayesa jest to, że każda cecha (x_i) jest warunkowo niezależna od wszystkich innych cech danej klasy. To założenie pozwala nam napisać prawdopodobieństwo jako prosty produkt (jak wykazałeś).

To także pomaga naiwnemu modelowi Bayesa uogólniać się w praktyce. Rozważmy fazę szkolenia: gdybyśmy nie przyjęli tego założenia, uczenie się wymagałoby oszacowania skomplikowanego, wielowymiarowego rozkładu: p (x1, x2, ..., xn, c), w którym wszystkie cechy są wspólnie rozmieszczone. Zamiast tego możemy trenować poprzez oszacowanie p (x1, c), p (x2, c), ..., p (xn, c), ponieważ znając wartość c, wartości wszystkich innych cech są nieistotne (zapewniają one brak dodatkowych informacji o x_i).

Nie znam dobrego sposobu na wizualizację tego (poza standardową notacją modelu graficznego), ale aby uczynić go bardziej konkretnym, możesz napisać kod, aby nauczyć się modelu Bayes naiwnego ( możesz pobrać tutaj przykładowe dane ). Trenuj i testuj. Teraz zrezygnuj z warunkowego założenia niezależności i zmodyfikuj kod. Trenuj, testuj i porównuj z poprzednim modelem.

— Nacięcie
źródło