Co oznacza bliskość w przypadkowych lasach?

13

Termin „bliskość” spotkałem w przypadkowych lasach. Ale nie mogłem zrozumieć, co robi w przypadkowych lasach. Jak to pomaga w klasyfikacji?

machine-learning random-forest

— użytkownik3796494
źródło

13

Termin „bliskość” oznacza „bliskość” lub „bliskość” między parami przypadków.

Zbliżenia są obliczane dla każdej pary przypadków / obserwacji / punktów próbki. Jeśli dwa przypadki zajmują ten sam węzeł końcowy przez jedno drzewo, ich bliskość zwiększy się o jeden. Pod koniec przebiegu wszystkich drzew proksymalizacje są znormalizowane przez podzielenie przez liczbę drzew. Zbliżenia są stosowane w zastępowaniu brakujących danych, lokalizowaniu wartości odstających i tworzeniu iluminujących niskopoziomowych widoków danych.

Zbliżenia

Bliskości pierwotnie tworzyły macierz NxN. Po wyhodowaniu drzewa umieść w nim wszystkie dane, zarówno treningowe, jak i treningowe. Jeśli przypadki k i n znajdują się w tym samym węźle końcowym, zwiększ ich bliskość o jeden. Na koniec znormalizuj sąsiedztwo, dzieląc przez liczbę drzew.

Użytkownicy zauważyli, że przy dużych zestawach danych nie mogli zmieścić matrycy NxN w szybkiej pamięci. Modyfikacja zmniejszyła wymagany rozmiar pamięci do NxT, gdzie T jest liczbą drzew w lesie. Aby przyspieszyć intensywne obliczeniowo skalowanie i iteracyjne zastępowanie brakujących wartości, użytkownik ma możliwość zachowania tylko największych liczb pośrednich dla każdego przypadku.

Gdy obecny jest zestaw testowy, można również obliczyć przybliżenia każdego przypadku w zestawie testowym z każdym przypadkiem w zestawie szkoleniowym. Ilość dodatkowych obliczeń jest umiarkowana.

cytat: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

— sinalpha
źródło

Co oznacza „nrnn”? Czytałem stronę Adele Cutler (lub ewentualnie Breimana, ponieważ nie mogę powiedzieć, kto tutaj jest autorem) na temat fal radiowych i nie mogę znaleźć, gdzie definiują nrnn. (Równie dobrze może to być termin algebry liniowej, z którym się nie znam.

— Tanner Strunk,

nrnn = liczba najbliższych sąsiadów, dla których należy obliczyć przybliżenie. Źródło: math.usu.edu/adele/RandomForests/ENAR.pdf strona 161

— klumbard

0

Zwróć uwagę, że autorzy Elements of Educational Learning twierdzą, że „Wykresy bliskości losowych lasów często wyglądają bardzo podobnie, niezależnie od danych, które poddają w wątpliwość ich użyteczność. Zwykle mają kształt gwiazdy, jedno ramię na klasę, co jest bardziej wymawiane, im lepsza wydajność klasyfikacji. ” (p 595)

Myślę jednak, że ci autorzy nie wspominają o sposobach, w jakie losowe lasy tak bardzo radzą sobie z brakującymi danymi (mimo że wspominają o brakujących danych z drzewami wcześniej w książce); być może autorzy po prostu nie podkreślili tego aspektu RF, co ma sens, biorąc pod uwagę, że książka jest ogromna i zawiera wiele informacji na wiele tematów / technik uczenia maszynowego. Nie sądzę jednak, aby wykresy dawały podobne kształty dla każdego RF, a zbiór danych oznacza ogólnie coś negatywnego w RF. Na przykład regresja liniowa zasadniczo zawsze wygląda tak samo, ale warto wiedzieć, które punkty leżą blisko linii, a które wydają się odstające od perspektywy regresji liniowej. Więc ... ich komentarz na temat użyteczności działek zbliżeniowych nie ma dla mnie sensu.

— Tanner Strunk
źródło