Dlaczego klasyfikator Bayesa jest idealnym klasyfikatorem?

11

Jest uważany za idealny przypadek, w którym struktura prawdopodobieństwa leżąca u podstaw kategorii jest doskonale znana.

Dlaczego dzięki klasyfikatorowi Bayes osiągamy najlepszą wydajność, jaką można osiągnąć?

Jaki jest na to formalny dowód / wyjaśnienie? Jak zawsze używamy klasyfikatora Bayesa jako punktu odniesienia do porównywania wydajności wszystkich innych klasyfikatorów.

— Vatsal
źródło

9

Dlaczego dzięki klasyfikatorowi Bayes osiągamy najlepszą wydajność, jaką można osiągnąć? Jaki jest na to formalny dowód / wyjaśnienie?

Zazwyczaj zestaw danych jest uważana składać próbek IID z rozkładem, który generuje dane. Następnie budujesz model predykcyjny na podstawie podanych danych: biorąc pod uwagę próbkę , przewidujesz klasę , podczas gdy prawdziwą klasą próbki jest . $D$ $n$ $x_i$ $x_i$ $\hat{f}(x_i)$ $f(x_i)$

Teoretycznie możesz jednak zdecydować, aby nie wybierać jednego konkretnego modelu , ale raczej rozważyć wszystkie możliwe modele na raz i połączyć je jakoś w jeden duży model . $\hat{f}_\text{chosen}$ $\hat{f}$ $\hat F$

Oczywiście, biorąc pod uwagę dane, wiele mniejszych modeli może być bardzo nieprawdopodobnych lub nieodpowiednich (na przykład modele przewidujące tylko jedną wartość celu, mimo że w zestawie danych jest wiele wartości celu ). $D$

W każdym razie chcesz przewidzieć wartość docelową nowych próbek, które pochodzą z tego samego rozkładu co . Dobrym miernikiem wydajności twojego modelu byłoby tj. Prawdopodobieństwo, że przewidujesz prawdziwa wartość docelowa dla losowo . $x_i$ $e$

e (model) = P [f (X) = model (X)],

$e(\text{model}) = P[f(X) = \text{model}(X)]\text{,}$

X

$X$

Korzystając ze wzoru Bayesa, możesz obliczyć, jakie jest prawdopodobieństwo, że nowa próbka ma wartość docelową , biorąc pod uwagę dane : $x$ $v$ $D$

P (v ∣ D) = \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$P(v\mid D) = \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$ Należy podkreślić, że

zwykle ma wartość lub , ponieważ jest deterministyczną funkcją , $P(v\mid \hat{f})$ $0$ $1$ $\hat{f}$ $x$
nie zwykle, ale prawie cały czas, nie można oszacować (z wyjątkiem wyżej wspomnianych trywialnych przypadków), $P(\hat{f}\mid D)$
Zazwyczaj nie, ale prawie cały czas, liczba możliwych modeli jest zbyt duży, aby górna suma zostać ocenione. $\hat{f}$

Dlatego w większości przypadków bardzo trudno jest uzyskać / oszacować . $P(v\mid D)$

Teraz przechodzimy do klasyfikatora Optimal Bayes. Dla danego przewiduje wartość Ponieważ jest to najbardziej prawdopodobna wartość spośród wszystkich możliwych wartości docelowych , klasyfikator Optimal Bayes maksymalizuje miarę wydajności . $x$

\hat{v} = {argmax}_{v} \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$\hat{v} = \text{argmax}_v \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$

v

$v$

e (\hat{f})

$e(\hat{f})$

Jak zawsze używamy klasyfikatora Bayesa jako punktu odniesienia do porównywania wydajności wszystkich innych klasyfikatorów.

Prawdopodobnie używasz naiwnej wersji klasyfikatora Bayesa. Jest łatwy do wdrożenia, działa dość dobrze przez większość czasu, ale oblicza tylko naiwne oszacowanie . $P(v\mid D)$

— Antoine
źródło

Czy klasyfikator Bayesa (nie naiwny bayes) jest taki sam jak optymalny klasyfikator Bayesa ???? i czy to wcześniejsze prawdopodobieństwo?

P (v | f)

$P(v|f)$

— RuiQi

@RuiQi Nie sądzę, że istnieje coś takiego jak na klasyfikatora Bayesa. Jestem świadomy naiwnego klasyfikatora Bayesa i optymalnego klasyfikatora Bayesa.

— Antoine,

@RuiQi to prawdopodobieństwo, że próbka, która ma zostać sklasyfikowana, zalicza się do klasy jeśli użyjemy modelu predykcyjnego . Myślę, że można to nazwać wcześniejszym prawdopodobieństwem.

P (v ∣ \hat{f})

$P(v\mid \hat{f})$

v

$v$

\hat{f}

$\hat{f}$

— Antoine,

0

Wydajność pod względem wskaźnika powodzenia klasyfikatora odnosi się do prawdopodobieństwa, że prawdziwa klasa równa się przewidywanej klasie . $C_T$ $C_P$

Prawdopodobieństwo to można wyrazić jako całkę wszystkich możliwych sytuacji wektora cech (lub sumy, gdy jest dyskretny) oraz prawdopodobieństwo warunkowe do poprawnej klasyfikacji dla tych $X$ $X$ $x$

P (C_{T} = C_{P}) = \int_{all possible X} f (x) P (C_{T} = C_{P} | x) d x

$P(C_T=C_P) = \int_{\text{all possible $X$}} f(x)P(C_T=C_P|x) \text{d}x$

Gdzie oznacza gęstość prawdopodobieństwa dla wektora cech . $f(x)$ $X$

Jeśli dla jakiegoś możliwego zestawu cech klasyfikator nie wybierze najbardziej prawdopodobnej klasy dla tego zestawu cech, można go ulepszyć. $x$

Klasyfikator Bayesa zawsze wybiera najbardziej prawdopodobną klasę dla każdego zestawu cech (termin jest maksymalny), dlatego nie można go ulepszyć, przynajmniej nie w oparciu o cechy . $x$ $P(C_T=C_P|x)$ $x$

— Sextus Empiricus
źródło