Co sądzisz o zastosowaniu technik uczenia maszynowego, takich jak losowe lasy lub regresja karna (z karą L1 lub L2 lub ich kombinacją) w małych próbach klinicznych, gdy celem jest wyodrębnienie interesujących predyktorów w kontekście klasyfikacji? To nie jest pytanie o wybór modelu, ani nie pytam, jak znaleźć optymalne oszacowania zmiennego efektu / ważności. Nie planuję robić silnego wnioskowania, ale po prostu używać modelowania wielowymiarowego, dlatego unikam testowania każdego predyktora pod kątem wyniku zainteresowania pojedynczo i biorąc pod uwagę ich wzajemne powiązania.
Zastanawiałem się tylko, czy takie podejście zostało już zastosowane w tym szczególnym ekstremalnym przypadku, powiedzmy 20-30 osób z danymi na temat 10-15 zmiennych jakościowych lub ciągłych. Nie jest to dokładnie przypadek i myślę, że problem tutaj jest związany z liczbą klas, które staramy się wyjaśnić (które często nie są dobrze wyważone), i (bardzo) małą n. Zdaję sobie sprawę z ogromnej literatury na ten temat w kontekście bioinformatyki, ale nie znalazłem żadnego odniesienia związanego z badaniami biomedycznymi z fenotypami mierzonymi psychometrycznie (np. W kwestionariuszach neuropsychologicznych).
Wszelkie wskazówki lub wskazówki do odpowiednich dokumentów?
Aktualizacja
Jestem otwarty na wszelkie inne rozwiązania do analizy tego rodzaju danych, np. Algorytm C4.5 lub jego pochodne, metody reguł asocjacyjnych oraz wszelkie techniki eksploracji danych dla klasyfikacji nadzorowanej lub częściowo nadzorowanej.