Czy wysoce skorelowane zmienne w losowym lesie nie zniekształcają dokładności i wyboru cech?

32

W moim rozumieniu wysoce skorelowane zmienne nie spowodują problemów z wieloma kolinearnością w losowym modelu lasu (proszę mnie poprawić, jeśli się mylę). Jednak z drugiej strony, jeśli mam zbyt wiele zmiennych zawierających podobne informacje, czy model będzie ważył za dużo na tym zestawie, a nie na innych?

Na przykład istnieją dwa zestawy informacji (A, B) o tej samej mocy predykcyjnej. Zmienna , , ... wszystkie zawierają informacje A, a tylko Y zawiera informacje B. W przypadku losowych zmiennych próbkowania większość drzew wyrośnie na podstawie informacji A, w wyniku czego informacja B nie zostanie w pełni uchwycona ? $X_1$ $X_2$ $X_{1000}$

random-forest multicollinearity ensemble

— Yoki
źródło

19

To prawda, ale dlatego w większości podpróbek, w których dostępna była zmienna Y, spowodowałoby to najlepszy możliwy podział.

Możesz spróbować zwiększyć mtry, aby upewnić się, że zdarza się to częściej.

Możesz spróbować albo rekurencyjnego czyszczenia korelacji, to jest z kolei, aby usunąć jedną z dwóch zmiennych, które razem mają najwyższą korelację. Rozsądnym progu, aby zatrzymać ten cięcia może być to, że każda para (korelacji Pearsona) jest niższy niż $R^2<.7$

Możesz spróbować przycinania rekurencyjnego o zmiennym znaczeniu, to znaczy z kolei, aby je usunąć, np. 20% o najniższym znaczeniu zmiennego. Spróbuj np. Rfcv z pakietu randomForest.

Możesz spróbować dekompozycji / agregacji swoich zbędnych zmiennych.

— Soren Havelund Welling
źródło

3

W niektórych źródłach widziałem, multicollinearityże NIE ma wpływu na losowy model lasu. Na przykład tutaj najbardziej pozytywna odpowiedź mówi, że „żadna część losowego modelu lasu nie jest uszkodzona przez wysoce współliniowe zmienne”. Czy to ma jakąkolwiek ważność?

— Hunle

5

Myślę, że czytasz NIE zbyt dosłownie. Modele RF obsługują dość dobrze skorelowane / nadmiarowe zmienne, tak. Ale to nie znaczy, że twój model niekoniecznie korzysta z gromadzenia niepowiązanych lub całkowicie zbędnych zmiennych (np. Rekombinacje liniowe), nie ulega również awarii. Opowiadam się tylko za skromnym wyborem zmiennych, aby oczekiwać niewielkiej poprawy wydajności modelu poddanego walidacji krzyżowej.

— Soren Havelund Welling

24

Stary wątek, ale nie zgadzam się z ogólnym stwierdzeniem, że kolinearność nie stanowi problemu z przypadkowymi modelami lasu. Gdy zestaw danych ma dwie (lub więcej) skorelowane cechy, wówczas z punktu widzenia modelu dowolna z tych skorelowanych cech może być użyta jako predyktor, bez konkretnej preferencji jednej spośród pozostałych.

Jednak po użyciu jednego z nich znaczenie innych jest znacznie zmniejszone, ponieważ skutecznie zanieczyszczenie, które można usunąć, jest już usuwane przez pierwszą funkcję.

W konsekwencji będą miały niższe zgłaszane znaczenie. Nie jest to problemem, gdy chcemy użyć wyboru funkcji w celu ograniczenia nadmiernego dopasowania, ponieważ sensowne jest usunięcie funkcji, które są w większości powielone przez inne funkcje, ale podczas interpretacji danych może to prowadzić do błędnego wniosku, że jedna ze zmiennych jest silny predyktor, podczas gdy inni w tej samej grupie są nieistotni, podczas gdy w rzeczywistości są bardzo blisko pod względem związku ze zmienną odpowiedzi.

Efekt tego zjawiska jest nieco zmniejszony dzięki losowemu wyborowi funkcji przy tworzeniu każdego węzła, ale ogólnie efekt nie jest całkowicie usuwany.

Powyżej przeważnie pochodzi z tego miejsca: Wybieranie dobrych funkcji

— GDB
źródło

3

To był mój artykuł na temat wybierania cech za pomocą RF, ponieważ zmienne znaczenie jest często używane jako metryka bmcbioinformatics.biomedcentral.com/articles/10.1186/... Od dwóch lat stałem się bardziej sceptyczny wobec wyboru cech. Wybór funkcji powoduje nadmierny optymizm -walidacja, jeśli nie zostanie wykonana w odpowiedniej zewnętrznej zewnętrznej pętli weryfikacji krzyżowej. Jeśli wykonano to poprawnie, często nie widzę żadnej optymalizacji wydajności prognostycznej lub tylko niewielką. Teraz używam głównie wyboru funkcji, aby uprościć maszyny prognostyczne w produkcji lub uczynić ostateczny model bardziej przejrzystym.

— Soren Havelund Welling

@SorenHavelundWelling - Mówisz, że „Wybór funkcji powoduje nadmiernie optymistyczne sprawdzanie poprawności krzyżowej, jeśli nie jest wykonywane w odpowiedniej zewnętrznej zewnętrznej pętli sprawdzania poprawności krzyżowej”. Czy możesz to wyjaśnić lub skorzystać ze źródła, które to wyjaśni? Jest to sprzeczne ze wszystkim, co do tej pory czytałem ...

— Jack Fleeting

stats.stackexchange.com/questions/27750/…

— Soren Havelund Welling