Random Forests (RFs) to konkurencyjna metoda modelowania / wyszukiwania danych.
Model RF ma jedno wyjście - zmienną wyjściową / predykcyjną.
Naiwnym podejściem do modelowania wielu wyjść za pomocą RF byłoby skonstruowanie RF dla każdej zmiennej wyjściowej. Mamy więc N niezależnych modeli i tam, gdzie istnieje korelacja między zmiennymi wyjściowymi, będziemy mieli nadmiarową / zduplikowaną strukturę modelu. To może być bardzo marnotrawne. Również ogólna zasada, że więcej zmiennych modelu implikuje model bardziej dopasowany (mniej uogólnienia). Nie jestem pewien, czy dotyczy to tutaj, ale prawdopodobnie tak.
W zasadzie moglibyśmy mieć RF z wieloma wyjściami. Zmienna predykcji jest teraz wektorem (krotka n). Węzły decyzyjne w każdym drzewie decyzyjnym dzielą teraz zbiór wektorów docelowych / predykcyjnych w oparciu o wektor progowy, sądzę, że ten próg jest uważany za płaszczyznę w przestrzeni n-wymiarowej i dlatego możemy ustalić, która strona progu wektor jest włączony każdy z wektorów docelowych.
Optymalna wartość prognozy dla każdej strony podziału decyzji jest średnią (centroid) obliczoną dla wektorów z każdej strony.
Znalezienie optymalnego punktu podziału podczas pracy z pojedynczymi zmiennymi jest trywialne i obliczeniowe szybkie / wydajne. W przypadku n-krotki nie możemy znaleźć optymalnego podziału (lub przynajmniej staje się on niewykonalny obliczeniowo wraz ze wzrostem N), ale możemy być w stanie znaleźć prawie optymalny podział przy użyciu metody typu Monte Carlo (lub jakiejś hybrydy Monte Carlo i lokalnej przejście gradientowe).
Czy to naprawdę zadziałałoby? Czy po prostu zmapowałby pary treningów bez uogólnienia? Czy ta technika istnieje już pod inną nazwą?
Możesz także rozważyć, w jaki sposób odnosi się to do sieci neuronowych, takich jak Restricted Boltzmann Machines (RBM) i Deep Belief Networks.