Prognozowanie danych zliczania w losowym lesie

Czy można wyszkolić losowy las, aby odpowiednio przewidywał dane zliczania? Jak by to przebiegło? Mam dość szeroki zakres wartości, więc klasyfikacja naprawdę nie ma sensu. Gdybym użył regresji, czy po prostu obciąłbym wyniki? Jestem tu całkiem zagubiony. Jakieś pomysły?

— JEquihua
źródło

nie możesz użyć regresji Poissona?

— RJ-

Chciałem użyć czegoś nieparametrycznego. Naprawdę nie pamiętam założeń regresji Poissona, ale jestem pewien, że jednym z nich jest to, że obserwacje są niezależne i nie jest to tutaj głęboko spełnione. Czy to może mieć na mnie duży wpływ?

— JEquihua,

Czy po prostu próbowałeś wykonać regresję RF (być może również w rejestrze)? Może po prostu działać wystarczająco dobrze.

Nie mieć. Ale to był mój pierwszy instynkt. Transformacja logarytmiczna lub pierwiastkowa. Chciałem jednak sprawdzić, czy ktoś ma jakieś doświadczenie w tym zakresie.

— JEquihua,

Próbowałem po prostu regresować odpowiedź, dziennik (odpowiedź) i sqrt (odpowiedź) i nie dostałem nic dobrego. Myślę, że problem polega bardziej na tym, że moje zmienne niezależne wyjaśniły odpowiedź. No cóż.

— JEquihua

Odpowiedzi:

Istnieje pakiet R o nazwie, mobForestktóry może zmieścić prawdziwy losowy las dla danych zliczania. Opiera się na mod()(partycjonowanie rekurencyjne oparte na modelu) w partypakiecie. Wykonuje regresję Poissona, jeśli familyargument jest określony jako poisson(). Pakiet nie znajduje się już w repozytorium CRAN, ale wcześniej dostępne wersje można uzyskać z archiwum.

Jeśli nie jesteś ograniczony do losowego lasu / workowania, dostępna jest również wersja przypominająca dla danych zliczania. To znaczy gbm(uogólnione modele regresji wzmocnionej). Może również pasować do modelu Poissona.

— Randel
źródło

Widzę kilka możliwości.

Możesz podzielić odpowiedź na kilka dowolnych kategorii i użyć drzewa klasyfikacji
Jeśli liczby są zwykle bardzo niskie, 0, 0, 0, 1, 0, 3, 0, 2, możesz traktować każdą liczbę całkowitą jako klasę i ponownie użyć drzewa klasyfikacji (prawdopodobnie nie twojego). W takich przypadkach trudniej będzie uzyskać metrykę typu wyjaśnianego o dużej wariancji niż regresji ciągłej.
Jeśli liczby nie są zwykle niskie i istnieje duża różnorodność, po prostu wybrałbym to z drzewkiem regresji. Na przykład użycie regresji Poissona w porównaniu z regresją liniową jest tylko ciężkie, jeśli chodzi o uzyskanie dobrego predyktora liniowego. Jeśli nie widzisz dobrej mocy predykcyjnej w losowym lesie, wątpię, aby bardziej wyrafinowany model, który specjalnie uwzględnia dane zliczeń, zrobi dla ciebie wiele.

— Ben Ogorek
źródło

Cóż, nie jest to losowy las, ale CatBoost obsługuje funkcję utraty poissona, która może być wykorzystana do regresji zliczania przy wzmocnionych drzewach:

https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/

— Udi
źródło