W Naive Bayes, po co zawracać sobie głowę wygładzaniem Laplace'a, gdy w zestawie testowym mamy nieznane słowa?

27

Czytałem dziś o klasyfikacji Naive Bayes. Przeczytałem pod nagłówkiem Szacowanie parametrów z dodaniem 1 wygładzania :

Niech odnosi się do klasy (takiej jak Pozytywna lub Negatywna), a niech odnosi się do tokena lub słowa. $c$ $w$

Estymator największego prawdopodobieństwa dla wynosi $P(w|c)$
$\frac{c o u n t (w, c)}{c o u n t (c)} = \frac{counts w in class c}{counts of words in class c} .$ $\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}.$

To oszacowanie może być problematyczne, ponieważ dałoby nam prawdopodobieństwo dla dokumentów z nieznanymi słowami. Częstym sposobem rozwiązania tego problemu jest wygładzanie Laplace'a. $P(w|c)$ $0$

Niech V będzie zbiorem słów w zestawie treningowym, dodaj nowy element (dla nieznanego) do zestawu słów. $UNK$

Zdefiniuj
$P (w | c) = \frac{count (w, c) + 1}{count (c) + | V | + 1},$ $P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1},$

gdzie odnosi się do słownictwa (słowa w zestawie szkoleniowym). $V$

W szczególności każde nieznane słowo będzie miało prawdopodobieństwo
$\frac{1}{count (c) + | V | + 1} .$ $\frac{1}{\text{count}(c) + |V| + 1}.$

Moje pytanie brzmi: dlaczego w ogóle zawracamy sobie głowę wygładzaniem Laplace'a? Jeśli te nieznane słowa, które napotykamy w zestawie testowym, mają prawdopodobieństwo prawie zerowe, tj. , jaki jest sens włączenia ich do modelu? Dlaczego po prostu ich nie zignorować i usunąć? $\frac{1}{\text{count}(c) + |V| + 1}$

— Matt O'Brien
źródło

3

Jeśli tego nie zrobisz, każda napotkana instrukcja zawierająca wcześniej niewidoczne słowo będzie miała . Oznacza to, że stało się niemożliwe. Co oznacza, że Twój model był niesamowicie źle dopasowany. Również w odpowiednim modelu bayesowskim może się to nigdy nie zdarzyć, ponieważ prawdopodobieństwo nieznanego słowa miałoby licznik podany przez wcześniej (prawdopodobnie nie 1). Nie wiem więc, dlaczego wymaga to wymyślnej nazwy „wygładzanie Laplace'a”.

p = 0

$p=0$

— przypuszcza

1

Z jakiego tekstu pochodzi czytanie?

— wordsforthewise

17

Zawsze potrzebujesz tego „niezawodnego” prawdopodobieństwa.

Aby dowiedzieć się, dlaczego warto rozważyć najgorszy przypadek, w którym żadne zdanie z próbki treningowej nie pojawia się w zdaniu testowym. W tym przypadku, zgodnie z twoim modelem, stwierdzilibyśmy, że zdanie jest niemożliwe, ale wyraźnie istnieje, tworząc sprzeczność.

Innym skrajnym przykładem jest zdanie testowe „Alex poznał Steve'a”. gdzie „spełnione” pojawia się kilka razy w próbce treningowej, ale „Alex” i „Steve” nie. Twój model doszedłby do wniosku, że to stwierdzenie jest bardzo prawdopodobne, co nie jest prawdą.

— Sid
źródło

Nie chcę brzmieć jak kompletny kretyn, ale czy miałbyś coś przeciwko opracowaniu? W jaki sposób usunięcie „Alex” i „Steve” zmienia prawdopodobieństwo wystąpienia instrukcji?

— Matt O'Brien

2

Jeśli założymy niezależność słów P (Alex) P (Steve) P (spełnione) << P (spełnione)

— Sid

1

moglibyśmy zbudować słownictwo podczas szkolenia modelu na zbiorze danych treningowych, więc dlaczego po prostu nie usunąć wszystkich nowych słów, które nie występują w słowniku, gdy przewidujemy zbiór danych testowych?

— awokado

15

Załóżmy, że trenowałeś swój Naiwny Bayes Classifier na 2 klasach: „Ham” i „Spam” (tj. Klasyfikuje e-maile). Dla uproszczenia założymy, że wcześniejsze prawdopodobieństwa wynoszą 50/50.

Teraz powiedzmy masz e-mail $(w_1, w_2,...,w_n)$ , które twoje stopy klasyfikator bardzo wysoko jako "ham", powiedzmy

P. (H. za m | w_{1}, w_{2)}, . . . w_{n}) = .90

$P(Ham|w_1,w_2,...w_n) = .90$ i

P. (S. p za m | w_{1}, w_{2)}, . . w_{n}) = .10

$P(Spam|w_1,w_2,..w_n) = .10$

Jak na razie dobrze.

Teraz załóżmy, że masz inny e-mail $(w_1, w_2, ...,w_n,w_{n+1})$ , która jest dokładnie taka sama jak w powyższym e-mail z wyjątkiem, że istnieje jedno słowo na to, że nie jest wliczone w słownictwie . Dlatego, ponieważ liczba tego słowa wynosi 0,

P. (H. za m | w_{n + 1}) = P. (S. p za m | w_{n + 1}) = 0

$P(Ham|w_{n+1}) = P(Spam|w_{n+1}) = 0$

Nagle,

P. (H. za m | w_{1}, w_{2)}, . . . w_{n}, w_{n + 1}) = P. (H. za m | w_{1}, w_{2)}, . . . w_{n}) * P. (H. za m | w_{n + 1}) = 0

$P(Ham|w_1,w_2,...w_n,w_{n+1}) = P(Ham|w_1,w_2,...w_n) * P(Ham|w_{n+1}) = 0$ i

P. (S. p za m | w_{1}, w_{2)}, . . w_{n}, w_{n + 1}) = P. (S. p za m | w_{1}, w_{2)}, . . . w_{n}) * P. (S. p za m | w_{n + 1}) = 0

$P(Spam|w_1,w_2,..w_n,w_{n+1}) = P(Spam|w_1,w_2,...w_n) * P(Spam|w_{n+1}) = 0$

Pomimo tego, że pierwszy e-mail jest mocno sklasyfikowany w jednej klasie, ten drugi e-mail może być sklasyfikowany inaczej, ponieważ to ostatnie słowo ma prawdopodobieństwo zerowe.

Wygładzanie Laplace'a rozwiązuje ten problem, nadając ostatniemu słowu małe niezerowe prawdopodobieństwo dla obu klas, dzięki czemu prawdopodobieństwa późniejsze nie spadają nagle do zera.

— RVC
źródło

dlaczego mielibyśmy zachować słowo, którego w ogóle nie ma w słowniku? dlaczego po prostu go nie usunąć?

— awokado

4

jeśli klasyfikator ocenia wiadomość e-mail jako szynkę, to p (szynka | w1, ..., wn) wynosi 0,9, a nie p (w1, ..., wn | szynka)

— braaterAfrikaaner

5

To pytanie jest dość proste, jeśli znasz estymatory Bayesa, ponieważ jest to bezpośredni wniosek estymatora Bayesa.

W podejściu bayesowskim parametry uważa się za wielkość, której zmienność można opisać rozkładem prawdopodobieństwa (lub wcześniejszym rozkładem).

Jeśli więc postrzegamy procedurę pobierania jako rozkład wielomianowy, możemy rozwiązać pytanie w kilku krokach.

Najpierw zdefiniuj

m = | V. |, n = \sum n_{ja}

$m = |V|, n = \sum n_i$

$p_i$

p (p_{1}, p_{2)}, . . ., p_{m} | n_{1}, n_{2)}, . . ., n_{m}) = \frac{Γ (n + m)}{\prod_{ja = 1}^{m} Γ (n_{ja} + 1)} \prod_{ja = 1}^{m} p_{ja}^{n_{ja}}

$p(p_1,p_2,...,p_m|n_1,n_2,...,n_m) = \frac{\Gamma(n+m)}{\prod\limits_{i=1}^{m}\Gamma(n_i+1)}\prod\limits_{i=1}^{m}p_i^{n_i}$

$p_i$

mi [p_{ja}] = \frac{n_{ja} + 1}{n + m}

$E[p_i] = \frac{n_i+1}{n+m}$

$p_i$ $p_i$

{\hat{p}}_{ja} = mi [p_{ja}]

$\hat p_i = E[p_i]$

Widzimy, że wyciągnęliśmy taki sam wniosek jak Wygładzanie Laplace'a.

— Odpowiedź777
źródło

4

Lekceważenie tych słów jest innym sposobem na poradzenie sobie z nimi. Odpowiada uśrednieniu (całkowaniu) wszystkich brakujących zmiennych. Wynik jest inny. W jaki sposób?

P. ({do}^{*} | re) = \arg max_{do} \frac{\prod_{ja} p (t_{ja} | do) P. (do)}{P. (re)} \propto \arg max_{do} \prod_{ja} p (t_{ja} | do) P. (do)

$P(C^{*}|d) = \arg\max_{C} \frac{\prod_{i}p(t_{i}|C)P(C)}{P(d)} \propto \arg\max_{C} \prod_{i}p(t_{i}|C)P(C)$

t_{i}

$t_{i}$

d

$d$

$t_{k}$ $t_{k}$

P. ({do}^{*} | re) \propto \arg max_{do} \sum_{t_{k}} \prod_{ja} p (t_{ja} | do) P. (do) = \arg max_{do} P. (do) \prod_{ja \neq k} p (t_{ja} | do) \sum_{t_{k}} p (t_{k} | do) = \arg max_{do} P. (do) \prod_{ja \neq k} p (t_{ja} | do)

$P(C^{*}|d) \propto \arg\max_{C} \sum_{t_{k}} \prod_{i}p(t_{i}|C)P(C) = \arg\max_{C} P(C)\prod_{i \neq k}p(t_{i}|C) \sum_{t_{k}} p(t_{k}|C) = \arg\max_{C} P(C)\prod_{i \neq k}p(t_{i}|C)$

Ale w praktyce preferuje się podejście wygładzające. Zamiast ignorować te tokeny, przypisujesz im małe prawdopodobieństwo, które przypomina myślenie: jeśli mam nieznane tokeny, jest mało prawdopodobne, że jest to dokument, który w przeciwnym razie uważałbym za taki.

— jpmuc
źródło

2

Chcesz wiedzieć, dlaczego w ogóle kłopotamy się wygładzaniem w klasyfikatorze Naive Bayes (kiedy zamiast tego możemy wyrzucić nieznane funkcje).

Odpowiedź na twoje pytanie brzmi: nie wszystkie słowa muszą być nieznane we wszystkich klasach.

Załóżmy, że istnieją dwie klasy M i N o cechach A , B i C , jak następuje:

M: A = 3, B = 1, C = 0

(W klasie M , pojawia się 3 razy, a B tylko raz)

N: A = 0, B = 1, C = 3

(W klasie N , C pojawia się 3 razy, a B tylko raz)

Zobaczmy, co się stanie, gdy wyrzucisz funkcje, które pojawiają się zero razy.

A) Funkcje wyrzucania, które pojawiają się w zerowych czasach w każdej klasie

Jeśli wyrzucisz funkcje A i C, ponieważ pojawiają się zero razy w jednej z klas, wówczas masz tylko funkcję B do klasyfikowania dokumentów.

A utrata tych informacji to zła rzecz, jak zobaczycie poniżej!

Jeśli otrzymasz dokument testowy w następujący sposób:

B = 1, C = 3

(Zawiera B raz i C trzy razy)

Teraz, skoro już wyrzucić cechy A i B , nie będzie w stanie powiedzieć, czy powyższy dokument należy do klasy M lub klasa N .

Utrata jakiejkolwiek informacji o funkcji jest złą rzeczą!

B) Funkcje wyrzucania, które pojawiają się w zerowych czasach we wszystkich klasach

Czy można obejść ten problem, odrzucając tylko te funkcje, które pojawiają się zero razy we wszystkich klasach?

Nie, ponieważ stworzyłoby to własne problemy!

Poniższy dokument testowy ilustruje, co by się stało, gdybyśmy to zrobili:

A = 3, B = 1, C = 1

Prawdopodobieństwo M i N byłoby równe zero (ponieważ nie wyrzuciliśmy zerowego prawdopodobieństwa A w klasie N i zerowego prawdopodobieństwa C w klasie M ).

C) Nie wyrzucaj niczego - zamiast tego użyj wygładzania

Wygładzanie pozwala poprawnie sklasyfikować oba powyższe dokumenty, ponieważ:

Nie tracisz informacji o liczeniu w klasach, w których takie informacje są dostępne i
Nie musisz walczyć z zerową liczbą.

Naiwne klasyfikatory Bayesa w praktyce

Klasyfikator Naive Bayes w NLTK wyrzucał obiekty, które miały zerową liczbę w każdej z klas.

Służyło to do tego, że działał słabo, gdy był trenowany przy użyciu twardej procedury EM (gdy klasyfikator jest ładowany z bardzo małej ilości danych treningowych).

— Aiaioo Labs
źródło

2

@ Aiaioo Labs Nie zdawałeś sobie sprawy, że odnosi się on do słów, które w ogóle nie pojawiły się w zestawie treningowym, na przykład powiedział, że jeśli pojawił się D, problem nie polega na wygładzeniu laplera w obliczeniach z zestaw treningowy raczej zestaw testowy. Użycie wygładzania Laplace'a na nieznanych słowach z zestawu TEST powoduje, że prawdopodobieństwo jest przekrzywione w kierunku, która klasa ma najmniejszą liczbę tokenów, ponieważ 0 + 1/2 + 3 jest większe niż 0 + 1/3 + 3 (jeśli jedna z klas miała 3 żetony, a drugi miał 2). ...

2

Może to faktycznie zmienić poprawną klasyfikację w niepoprawną klasyfikację, jeśli wystarczająca liczba nieznanych słów zostanie wygładzona do równania. Wygładzanie Laplace'a jest odpowiednie dla obliczeń zestawu treningowego, ale jest szkodliwe dla analizy zestawu testowego. Wyobraź sobie również, że masz zestaw testowy ze wszystkimi nieznanymi słowami, powinien zostać natychmiast zaklasyfikowany do klasy z najwyższym prawdopodobieństwem, ale w rzeczywistości może i zwykle nie będzie klasyfikowany jako taki, i zwykle jest klasyfikowany jako klasa o najniższej ilości tokenów.

@DrakeThatcher, bardzo się z tobą zgadzam, tak, jeśli nie usuniemy słów niewymagających słownictwa, wówczas przewidywana proba zostanie przekrzywiona do klasy z najmniejszą ilością słów.

— awokado

1

Ten sam problem spotkałem również podczas nauki Naive Bayes.

Według mnie, ilekroć napotkamy przykładowy test, na który nie natknęliśmy się podczas treningu, wówczas prawdopodobieństwo posteriora wyniesie 0.

Zatem dodanie 1, nawet jeśli nigdy nie trenujemy określonej cechy / klasy, prawdopodobieństwo posteriora nigdy nie będzie wynosić 0.

— Sarthak Khanna
źródło

1

Jeśli masz rację, podnosisz bardzo dobry punkt - tak Wygładzanie Laplace'a jest szczerze mówiąc nonsensem! Po prostu odrzucenie tych cech może być poprawnym podejściem, szczególnie gdy mianownik jest również niewielką liczbą - po prostu nie ma wystarczających dowodów na poparcie oszacowania prawdopodobieństwa.

Mam silną niechęć do rozwiązywania wszelkich problemów za pomocą dowolnych korekt. Problemem są tutaj zera, „rozwiązaniem” jest po prostu „dodanie niewielkiej wartości do zera, aby już nie była zerowa - MAGIA problemu już nie ma”. Oczywiście to całkowicie arbitralne.

Twoja sugestia lepszego wyboru funkcji na początek jest mniej arbitralna, a edytor IME zwiększa wydajność. Ponadto wygładzanie Laplace'a w połączeniu z naiwnym Bayesem, ponieważ model z mojego doświadczenia pogarsza problem ziarnistości - tj. Problem, w którym wyniki są zwykle bliskie 1,0 lub 0,0 (jeśli liczba cech jest nieskończona, wówczas każdy wynik będzie wynosił 1,0 lub 0,0 - jest to konsekwencja założenia niezależności).

Obecnie istnieją alternatywne techniki szacowania prawdopodobieństwa (inne niż maksymalne prawdopodobieństwo + wygładzanie Laplace'a), ale są w dużej mierze niedokumentowane. W rzeczywistości istnieje całe pole zwane logiką indukcyjną i procesami wnioskowania, które wykorzystują wiele narzędzi z teorii informacji.

W praktyce stosujemy minimalną aktualizację krzyżową, która jest rozszerzeniem aktualizacji Jeffreya, w której definiujemy wypukły obszar prawdopodobieństwa zgodny z dowodami, że region jest taki, że punkt w nim oznaczałby, że oszacowanie maksymalnego prawdopodobieństwa mieści się w zakresie Oczekiwane absolutne odchylenie od punktu.

Ma to fajną właściwość, która wraz ze spadkiem liczby punktów danych łagodnie zbliża się do wcześniejszych szacunków - dlatego ich wpływ w obliczeniach bayesowskich jest zerowy. Z drugiej strony wygładzanie Laplace'a powoduje, że każde oszacowanie zbliża się do punktu maksymalnej entropii, który może nie być wcześniejszy, dlatego efekt obliczeń nie jest zerowy i po prostu powoduje hałas.

— samthebest
źródło