Czy istnieje przypadkowa implementacja lasu R, która działa dobrze z bardzo rzadkimi danymi? Mam tysiące lub miliony boolowskich zmiennych wejściowych, ale tylko setki będą PRAWDĄ dla każdego podanego przykładu.
Jestem stosunkowo nowy w R i zauważyłem, że istnieje pakiet „Matrix” do radzenia sobie z rzadkimi danymi, ale wydaje się, że standardowy pakiet „randomForest” nie rozpoznaje tego typu danych. Jeśli ma to znaczenie, dane wejściowe zostaną wygenerowane poza R i zaimportowane.
Jakakolwiek rada? Mogę również zajrzeć do korzystania z Weka, Mahout lub innych pakietów.