pytania
- Czy to zależy od tego, czy drzewo jest płytkie czy głębokie? Czy możemy to powiedzieć niezależnie od głębokości / poziomów drzewa?
- Dlaczego odchylenie jest niskie, a wariancja wysoka? Proszę wyjaśnić intuicyjnie i matematycznie
pytania
Odpowiedzi:
Trochę za późno na imprezę, ale czuję, że w tym pytaniu można by podać odpowiedź na konkretne przykłady.
Napiszę streszczenie tego doskonałego artykułu: odchylenie-odchylenie-kompromis , które pomogło mi zrozumieć ten temat.
Błąd prognozowania dla dowolnego algorytmu uczenia maszynowego można podzielić na trzy części:
Błąd nieredukowalny
Jak sama nazwa wskazuje, jest składnikiem błędu, którego nie możemy poprawić, niezależnie od algorytmu i jego wyboru parametrów. Błąd nieredukowalny wynika ze złożoności, które po prostu nie są ujmowane w zestawie treningowym. Mogą to być atrybuty, których nie mamy w zestawie do nauki, ale niezależnie od tego wpływają na mapowanie do wyniku.
Błąd odchylenia
Błąd odchylenia wynika z naszych założeń dotyczących funkcji celu. Im więcej założeń (ograniczeń) dotyczących funkcji celu, tym bardziej wprowadzamy uprzedzenia. Modele o dużym odchyleniu są mniej elastyczne, ponieważ nałożyliśmy więcej reguł na funkcje docelowe.
Błąd wariancji
Błąd wariancji to zmienność formy funkcji celu w odniesieniu do różnych zbiorów treningowych. Modele z małym błędem wariancji niewiele się zmienią, jeśli zastąpisz kilka próbek w zestawie treningowym. Modele o dużej wariancji mogą ulec zmianie nawet przy niewielkich zmianach w zestawie treningowym.
Rozważ prostą regresję liniową:
Y=b0+b1x
Oczywiście jest to dość restrykcyjna definicja funkcji docelowej, a zatem model ten ma duże odchylenie.
Z drugiej strony, ze względu na małą wariancję, jeśli zmienisz kilka próbek danych, jest mało prawdopodobne, że spowoduje to poważne zmiany w ogólnym odwzorowaniu wykonywanym przez funkcję docelową. Z drugiej strony algorytm taki jak k-najbliżsi sąsiedzi mają dużą wariancję i niskie odchylenie. Łatwo sobie wyobrazić, jak różne próbki mogą wpływać na powierzchnię decyzyjną KNN.
Zasadniczo algorytmy parametryczne mają wysoką stronniczość i niską wariancję i odwrotnie.
Jednym z wyzwań uczenia maszynowego jest znalezienie właściwej równowagi błędu odchylenia i błędu wariancji.
Drzewo decyzyjne
Teraz, gdy mamy te definicje, łatwo jest też zauważyć, że drzewa decyzyjne są przykładem modelu o niskim odchyleniu i dużej wariancji. Drzewo nie przyjmuje prawie żadnych założeń dotyczących funkcji celu, ale jest bardzo podatne na zmienność danych.
Istnieją algorytmy zespołowe, takie jak agregacja ładowania początkowego i losowy las, które mają na celu zmniejszenie wariancji przy niewielkim koszcie stronniczości w drzewie decyzyjnym.
Jeśli liczba poziomów jest zbyt wysoka, tj. Skomplikowane drzewo decyzyjne, model ma tendencję do nadmiernego dopasowania.
Intuicyjnie można to zrozumieć w ten sposób. Gdy jest zbyt wiele węzłów decyzyjnych, które należy przejść przed osiągnięciem wyniku, tj. Liczba węzłów do przejścia przed dotarciem do węzłów liścia jest wysoka, warunki, na których sprawdzasz, stają się multiplikatywne. Oznacza to, że obliczenia stają się (warunek 1) i& (warunek 2) i& (warunek 3) i& (warunek 4) i& (warunek 5) .
Decyzja zostanie podjęta tylko wtedy, gdy wszystkie warunki zostaną spełnione. Jak widać, będzie to działać bardzo dobrze dla zestawu treningowego, ponieważ ciągle zawężasz dane. Drzewo staje się wysoce dostosowane do danych obecnych w zestawie treningowym.
Ale po zasileniu nowego punktu danych, nawet jeśli jeden z parametrów nieznacznie odbiega, warunek nie zostanie spełniony i zajmie niewłaściwą gałąź.
Skomplikowane drzewo decyzyjne (np. Głębokie) ma niską stronniczość i dużą wariancję. Kompromis wariancji odchylenia zależy od głębokości drzewa.
Drzewo decyzyjne jest wrażliwe na to, gdzie się dzieli i jak się dzieli. Dlatego nawet niewielkie zmiany wartości zmiennych wejściowych mogą spowodować bardzo odmienną strukturę drzewa.
Dlaczego drzewo decyzyjne ma niską stronniczość i wysoką wariancję? Czy to zależy od tego, czy drzewo jest płytkie czy głębokie? Czy możemy to powiedzieć niezależnie od głębokości / poziomów drzewa? Dlaczego odchylenie jest niskie, a wariancja wysoka? Proszę wyjaśnić intuicyjnie i matematycznie.
Odchylenie od wariancji
Więcej stronniczości = błąd w modelu jest prostszy (nie pasuje do danych bardzo dobrze)
Więcej wariancji = błąd z bardziej złożonego modelu (zbyt dobrze pasuje do danych i uczy się szumu oprócz nieodłącznych wzorców w danych)
Wszystko jest względne
Chcę zacząć od stwierdzenia, że wszystko jest względne. Drzewo decyzyjne ma ogólnie niską stronniczość i dużą wariancję, powiedzmy, losowe lasy. Podobnie płytsze drzewo miałoby większe odchylenie i mniejszą wariancję niż to samo drzewo o większej głębokości.
Porównanie wariancji drzew decyzyjnych i losowych lasów
Teraz, gdy jest to wyprofilowane, zastanówmy się, dlaczego drzewa decyzyjne miałyby gorszą wariancję (wyższa wariancja i niższe odchylenie) niż, powiedzmy, losowe lasy. Algorytm drzewa decyzyjnego działa w ten sposób, że dane są dzielone raz za razem, gdy schodzimy w dół drzewa, więc rzeczywiste prognozy byłyby dokonywane przez coraz mniej punktów danych. W porównaniu z tym losowe lasy agregują decyzje wielu drzew, a także drzew mniej skorelowanych przez randomizację, stąd model uogólnia się lepiej (=> działa bardziej niezawodnie w różnych zestawach danych = mniejsza wariancja). Podobnie robimy bardziej uproszczone założenia dotyczące losowych lasów, aby sprawdzać tylko podzbiór danych i funkcji pasujących do pojedynczego drzewa, a tym samym wyższe odchylenie. BTW, podobne,