Czy Random Forest nadaje się do bardzo małych zestawów danych?


13

Mam zestaw danych obejmujący 24 wiersze danych miesięcznych. Funkcje obejmują PKB, przyloty na lotnisko, miesiąc i kilka innych. Zmienna zależna to liczba odwiedzających popularny cel turystyczny. Czy Losowy Las byłby odpowiedni na taki problem?

Dane są niepubliczne, więc nie mogę opublikować próbki.


Zazwyczaj jedynym ograniczeniem losowego lasu jest to, że liczba funkcji powinna być dość duża - pierwszym krokiem RF jest wybranie funkcji 1 / 3n lub sqrt (n) do budowy drzewa (w zależności od zadania, regresji / klasyfikacji). Więc jeśli masz dość dużo funkcji, używaj RF nawet na małych zestawach danych - nie ma algorytmu, który działałby naprawdę dobrze na małych zestawach danych, więc nic nie tracisz.
Niemiecki Demidow

Jesteś w niskim zakresie. RF będzie działać, ale prawdopodobnie nie nauczy się dużo bardziej skomplikowanych rzeczy, niż to, co można sobie wyobrazić, patrząc na surowe dane. Pomaga, jeśli twoje dane są bardzo ciche. Od 40-50 próbek zaczyna się poprawiać. 500 dobrych. 5000 niesamowitych.
Soren Havelund Welling

w przypadku regresji możliwa głębokość drzewa jest ograniczona przez minnode = 5, a zatem twoje próbki nie zostaną przeciętnie podzielone więcej niż 2 razy [[24 -> (1) 12 -> (2) 6.]] Łącznie z ograniczeniem modelowi trudno byłoby uchwycić jakikolwiek efekt interakcji, a nawet prosty efekt nieliniowy. Możesz majstrować przy minnode i mtry, ale powinieneś to zrobić tylko wtedy, gdy Twoje dane praktycznie nie powodują hałasu. Potencjalne przewyższenie trafionych wniosków byłoby drugą stroną. Otrzymana struktura modelu wyglądałaby jak z grubsza wygładzona funkcja krokowa.
Soren Havelund Welling


W przypadku małego zestawu danych użyj techniki Cross Validation. Aby uzyskać więcej informacji, stats.stackexchange.com/questions/19048/…
Asif Khan

Odpowiedzi:


4

Losowy las to w zasadzie drzewka ponownego próbkowania bootowania i drzewa decyzyjne treningu na próbkach, więc odpowiedź na twoje pytanie musi dotyczyć tych dwóch.

Bootstrap resampling to nie lekarstwo dla małych próbek . Jeśli w swoim zestawie danych masz tylko dwadzieścia cztery obserwacje, wówczas każda z próbek pobranych z zastąpienia tych danych składałaby się z nie więcej niż dwudziestu czterech różnych wartości. Przetasowanie skrzynek i nie rysowanie niektórych z nich nie zmieniłoby wiele w twojej zdolności do uczenia się czegoś nowego o podstawowej dystrybucji. Tak więc mała próbka stanowi problem dla bootstrapu.

Drzewa decyzyjne są trenowane poprzez warunkowe dzielenie danych na zmienne predykcyjne, po jednej zmiennej na raz, w celu znalezienia takich podpróbek, które mają największą moc dyskryminacyjną. Jeśli masz tylko dwadzieścia cztery przypadki, powiedz, że gdybyś miał szczęście, a wszystkie podziały były równej wielkości, to z dwoma podziałami skończyłbyś z czterema grupami po sześć przypadków, z podziałem na drzewa, z ośmioma grupami po trzy. Jeśli obliczyłeś średnie warunkowe na próbkach (aby przewidzieć ciągłe wartości w drzewach regresji lub prawdopodobieństwa warunkowe w drzewach decyzyjnych), oparłbyś swój wniosek tylko na tych kilku przypadkach! Podpróbki, których użyłbyś do podjęcia decyzji, byłyby jeszcze mniejsze niż twoje oryginalne dane.

Przy małych próbkach zwykle rozsądne jest stosowanie prostych metod . Co więcej, możesz złapać małą próbkę, używając pouczających priors w ustawieniach bayesowskich (jeśli masz rozsądną wiedzę na temat problemu dotyczącą braku danych), więc możesz rozważyć użycie jakiegoś dostosowanego modelu bayesowskiego.


1

Z jednej strony jest to niewielki zestaw danych, a losowy las wymaga dużych ilości danych.

Z drugiej strony może coś jest lepsze niż nic. Nie ma nic więcej do powiedzenia niż „Wypróbuj i zobacz”. Możesz zdecydować, czy dany model jest „dobry”; co więcej, nie możemy powiedzieć, czy któryś model jest odpowiedni do określonego celu (ani nie chcielibyśmy, abyśmy to zrobili - jeśli ponosimy błąd!

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.