Jak działa zasada Razam Occam w uczeniu maszynowym

11

Niedawno podczas jednego z egzaminów zadano następujące pytanie wyświetlone na obrazku. Nie jestem pewien, czy poprawnie zrozumiałem zasadę brzytwy Ockhama, czy nie. Zgodnie z rozkładami i granicami decyzji podanymi w pytaniu i po brzytwach Ockhama granica decyzji B w obu przypadkach powinna być odpowiedzią. Ponieważ jak w przypadku Razora Razama, wybierz prostszy klasyfikator, który wykonuje przyzwoitą pracę, a nie skomplikowaną.

Czy ktoś może zeznawać, czy moje rozumowanie jest prawidłowe, a wybrana odpowiedź jest odpowiednia, czy nie? Proszę o pomoc, ponieważ jestem dopiero początkującym uczeniem maszynowym

pytanie

machine-learning classification

— użytkownik1479198
źródło

2

3.328 „Jeśli znak nie jest konieczny, to nie ma znaczenia. Takie jest znaczenie brzytwy Ockhama.” From Tractatus Logico-Philosophicus Wittgenstein

— Jorge Barrios

13

Zasada brzytwy Ockhama:

Mając dwie hipotezy (tutaj granice decyzyjne), które wiążą się z tym samym ryzykiem empirycznym (tutaj błąd szkolenia), krótkie wyjaśnienie (tutaj granica z mniejszą liczbą parametrów) wydaje się być bardziej aktualne niż długie wyjaśnienie.

W twoim przykładzie zarówno A, jak i B mają zerowy błąd treningowy, dlatego preferowane jest B (krótsze wyjaśnienie).

Co jeśli błąd szkolenia nie jest taki sam?

Jeśli granica A miała mniejszy błąd treningowy niż B, wybór staje się trudny. Musimy obliczyć „wielkość wyjaśnienia” tak samo jak „ryzyko empiryczne” i połączyć dwa w jednej funkcji punktacji, a następnie przejść do porównania A i B. Przykładem może być Kryterium Informacyjne Akaike (AIC), które łączy ryzyko empiryczne (mierzone z wynikiem ujemnym log-prawdopodobieństwo) i rozmiar wyjaśnienia (mierzony liczbą parametrów) w jednym wyniku.

Na marginesie, AIC nie może być stosowany we wszystkich modelach, istnieje również wiele alternatyw dla AIC.

Związek z zestawem walidacyjnym

W wielu praktycznych przypadkach, gdy model postępuje w kierunku większej złożoności (większe wyjaśnienie) w celu osiągnięcia niższego błędu treningu, AIC i tym podobne można zastąpić zestawem walidacyjnym (zestawem, w którym model nie jest szkolony). Zatrzymujemy postęp, gdy błąd sprawdzania poprawności (błąd modelu w zestawie sprawdzania poprawności) zaczyna się zwiększać. W ten sposób osiągamy równowagę między niskim błędem treningu a krótkim wyjaśnieniem.

— E-mail
źródło

3

Occam Razor jest tylko synonimem dyrektora Parsimony. (KISS, Niech to będzie proste i głupie.) Większość alg pracuje w tej zasadzie.

W powyższym pytaniu należy pomyśleć przy projektowaniu prostych oddzielnych granic,

jak na pierwszym obrazku odpowiedź D1 to B. Ponieważ definiuje najlepszą linię oddzielającą 2 próbki, jako a jest wielomianem i może skończyć się zbytnim dopasowaniem. (gdybym użył SVM, ten wiersz by przyszedł)

podobnie na rysunku 2 odpowiedź D2 to B.

— Gaurav Dogra
źródło

2

Brzytwa Occama w zadaniach dopasowywania danych:

Najpierw spróbuj równania liniowego
Jeśli (1) niewiele pomaga - wybierz nieliniowy z mniejszymi terminami i / lub mniejszymi stopniami zmiennych.

D2

Bwyraźnie wygrywa, ponieważ jest to liniowa granica, która ładnie oddziela dane. (Co jest „ładnie”, którego obecnie nie mogę zdefiniować. Musisz rozwinąć to uczucie z doświadczeniem). Agranica jest wysoce nieliniowa, co wydaje się być roztrzęsioną falą sinusoidalną.

D1

Jednak nie jestem tego pewien. Agranica jest jak koło i Bjest ściśle liniowa. IMHO, dla mnie - linia graniczna nie jest ani segmentem okręgu, ani segmentem linii, - to krzywa paraboli:

Więc wybieram C:-)

— Agnius Vasiliauskas
źródło

Nadal nie jestem pewien, dlaczego chcesz linii pośredniej dla D1. Brzytwa Ockhama mówi, aby użyć prostego rozwiązania, które działa. W przypadku braku większej ilości danych B jest idealnie poprawnym podziałem, który pasuje do danych. Gdybyśmy otrzymali więcej danych, które sugerują więcej krzywej do zbioru danych B, wtedy mógłbym zobaczyć twój argument, ale żądanie C jest sprzeczne z twoim punktem (1), ponieważ działa liniowa granica.

— Delioth,

Ponieważ jest dużo pustej przestrzeni od Blinii do lewej okrągłej grupy punktów. Oznacza to, że każdy przybywający nowy losowy punkt ma bardzo dużą szansę przypisania do klastra po lewej stronie i bardzo małą szansę na przypisanie do klastra po prawej stronie. Zatem Blinia nie jest optymalną granicą w przypadku nowych losowych punktów na płaszczyźnie. I nie można zignorować losowości danych, ponieważ zazwyczaj zawsze następuje przypadkowe przemieszczenie punktów

— Agnius Vasiliauskas

0

Nie jestem pewien, czy poprawnie zrozumiałem zasadę brzytwy Ockhama, czy nie.

Najpierw zajmijmy się brzytwą Ockhama:

Brzytwa Ockhama [..] stwierdza, że „prostsze rozwiązania są bardziej prawdopodobne niż złożone”. - Wiki

Następnie odpowiedzmy na twoją odpowiedź:

Ponieważ jak w przypadku Razora Razama, wybierz prostszy klasyfikator, który wykonuje przyzwoitą pracę, a nie skomplikowaną.

Jest to poprawne, ponieważ w uczeniu maszynowym nadmierne dopasowanie jest problemem. Jeśli wybierzesz bardziej złożony model, istnieje większe prawdopodobieństwo, że sklasyfikujesz dane testowe, a nie faktyczne zachowanie problemu. Oznacza to, że kiedy używasz złożonego klasyfikatora do prognozowania nowych danych, prawdopodobieństwo, że będzie gorsze niż prosty klasyfikator.

— Mały pomocnik
źródło