Zastosowanie technik uczenia maszynowego w małych próbach klinicznych

15

Co sądzisz o zastosowaniu technik uczenia maszynowego, takich jak losowe lasy lub regresja karna (z karą L1 lub L2 lub ich kombinacją) w małych próbach klinicznych, gdy celem jest wyodrębnienie interesujących predyktorów w kontekście klasyfikacji? To nie jest pytanie o wybór modelu, ani nie pytam, jak znaleźć optymalne oszacowania zmiennego efektu / ważności. Nie planuję robić silnego wnioskowania, ale po prostu używać modelowania wielowymiarowego, dlatego unikam testowania każdego predyktora pod kątem wyniku zainteresowania pojedynczo i biorąc pod uwagę ich wzajemne powiązania.

Zastanawiałem się tylko, czy takie podejście zostało już zastosowane w tym szczególnym ekstremalnym przypadku, powiedzmy 20-30 osób z danymi na temat 10-15 zmiennych jakościowych lub ciągłych. Nie jest to dokładnie przypadek i myślę, że problem tutaj jest związany z liczbą klas, które staramy się wyjaśnić (które często nie są dobrze wyważone), i (bardzo) małą n. Zdaję sobie sprawę z ogromnej literatury na ten temat w kontekście bioinformatyki, ale nie znalazłem żadnego odniesienia związanego z badaniami biomedycznymi z fenotypami mierzonymi psychometrycznie (np. W kwestionariuszach neuropsychologicznych). $n\ll p$

Wszelkie wskazówki lub wskazówki do odpowiednich dokumentów?

Aktualizacja

Jestem otwarty na wszelkie inne rozwiązania do analizy tego rodzaju danych, np. Algorytm C4.5 lub jego pochodne, metody reguł asocjacyjnych oraz wszelkie techniki eksploracji danych dla klasyfikacji nadzorowanej lub częściowo nadzorowanej.

machine-learning feature-selection

— chl
źródło

Żeby było jasne: twoje pytanie dotyczy rozmiaru danych, a nie ustawienia, prawda?

— Shane

Dokładnie zastanawiam się, czy są jakieś odniesienia do „najmniejszej” n (wrt. Do dużej liczby zmiennych), a dokładniej, czy jakiekolwiek techniki walidacji krzyżowej (lub strategia ponownego próbkowania, jak w RF) pozostają aktualne w tak ekstremalnym przypadku .

— chl

7

Nie widziałem tego również poza bioinformatyką / uczeniem maszynowym, ale być może możesz być pierwszy :)

Jako dobry reprezentant metody z małą próbką z bioinformatyki regresja logistyczna z regularyzacją L1 może być dobrze dopasowana, gdy liczba parametrów jest wykładnicza w liczbie obserwacji, niesymptotyczne przedziały ufności można wykonać przy użyciu nierówności typu Chernoffa (tj. Dudik, (2004) na przykład). Trevor Hastie wykonał pewne prace, stosując te metody do identyfikacji interakcji genów. W poniższej pracy używa go do zidentyfikowania znaczących efektów z modelu z 310 637 regulowanymi parametrami dopasowanymi do próbki 2200 obserwacji

„Analiza asocjacji obejmująca cały genom metodą lasso karała regresję logistyczną” Autorzy: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatics Vol: 25 Wydanie: 6 ISSN: 1367-4803 Data: 03/2009 Strony: 714 - 721

Powiązana prezentacja Victoria Stodden ( Wybór modelu z wieloma zmiennymi więcej niż obserwacjami )

— Jarosław Bułatow
źródło

Tak, Wu i in. 2009 to niezły papier. Nawiasem mówiąc, pracowałem nad GWAS i ML przez ostatnie dwa lata; teraz próbuję wrócić do badań klinicznych, w których przez większość czasu mamy do czynienia z niedoskonałymi pomiarami, brakującymi danymi i oczywiście ... wieloma interesującymi zmiennymi z punktu widzenia fizyka!

— chl

BTW, właśnie natknąłem się na artykuł, który zmusił mnie do zastanowienia się nad tym pytaniem ... bardzo rzadko w artykułach Machine Learning mówi się o przedziałach ufności, ale oto zauważalny wyjątek ncbi.nlm.nih.gov/pubmed/19519325

— Jarosław Bułatow

n

$n$

n ≪ p

$n\ll p$

n

$n$

p

$p$

To bardzo interesujące pytanie. Zebrałem niektóre z tych i inne artykuły, które mam w poście na blogu (mam nadzieję, że nie masz nic przeciwko). Jestem pewien, że są jeszcze inni.

— Andrew

5

Miałem bardzo małe zaufanie do uogólnienia wyników analizy eksploracyjnej z 15 predyktorami i wielkością próby 20.

Przedziały ufności oszacowań parametrów byłyby duże. Np. 95% przedział ufności dla r = 0,30 przy n = 20 wynosi od -0,17 do 0,66.
Problemy zwykle się komplikują, gdy masz wiele predyktorów używanych w sposób eksploracyjny i oparty na danych.

W takich okolicznościach moją radą byłoby na ogół ograniczenie analiz do dwuwymiarowych relacji. Jeśli spojrzysz na bayesowską perspektywę, powiedziałbym, że twoje wcześniejsze oczekiwania są równie ważne, jeśli nie ważniejsze niż dane.

— Jeromy Anglim
źródło

4

Jedną z powszechnych zasad jest posiadanie co najmniej 10-krotnej liczby instancji danych treningowych (nie mówiąc już o żadnych danych testowych / walidacyjnych itp.), Ponieważ w klasyfikatorze istnieją regulowane parametry. Pamiętaj, że masz problem, w którym potrzebujesz nie tylko odpowiednich danych, ale także reprezentatywnych danych. Ostatecznie nie ma systematycznej reguły, ponieważ przy podejmowaniu tej decyzji jest tak wiele zmiennych. Jak mówią Hastie, Tibshirani i Friedman w The Elements of Statistics Learning (patrz rozdział 7):

zbyt trudno jest podać ogólną regułę dotyczącą ilości danych szkoleniowych; zależy to między innymi od stosunku sygnału do szumu podstawowej funkcji oraz złożoności modeli dopasowanych do danych.

Jeśli jesteś nowy w tej dziedzinie, polecam przeczytanie tego krótkiego dokumentu „Rozpoznawanie wzorców” z Encyklopedii Inżynierii Biomedycznej, który zawiera krótkie podsumowanie niektórych problemów z danymi.

— Shane
źródło

Dzięki! Mam książkę Hastie i C. Bishopa (Rozpoznawanie wzorców i uczenie maszynowe). Wiem, że takie małe n doprowadziłoby do fałszywego lub zawodnego (patrz komentarz Jeromy Anglim) skojarzenia. Jednak algorytm RF zaimplementowany przez Breimana pozwala poradzić sobie z ograniczoną liczbą funkcji za każdym razem, gdy drzewo rośnie (w moim przypadku 3 lub 4) i chociaż wskaźnik błędów OOB jest dość wysoki (ale należy się tego spodziewać), analizowanie zmienne znaczenie doprowadziło mnie do wniosku, że do podobnych wniosków dojdę, stosując testy dwuwymiarowe (z testem permutacji).

— chl

1

Ta ogólna zasada dotyczy głównie klasycznych metod, takich jak maksymalne prawdopodobieństwo regularyzowane L2, metody regulowane L1 mogą się skutecznie uczyć, gdy liczba regulowanych parametrów jest wykładnicza w liczbie obserwacji (np. Miroslav Dudik, artykuł COLT z 2004 r.)

— Jarosław Bułatow

3

Mogę zapewnić, że RF zadziałałoby w tym przypadku, a jego miara ważności byłaby dość wnikliwa (ponieważ nie będzie dużego ogona wprowadzających w błąd nieistotnych atrybutów, jak w standardowych (n << p) s). Nie mogę sobie teraz przypomnieć żadnego artykułu dotyczącego podobnego problemu, ale poszukaj go.

1

Dzięki! W zeszłym miesiącu uczestniczyłem w IV konferencji EAM-SMABS, a jeden z mówców przedstawił zastosowanie ML w badaniu biomedycznym; niestety było to nieco „standardowe” badanie z udziałem N ~ 300 osób i p = 10 predyktorów. Ma zamiar przedłożyć artykuł do Statistics in Medicine . To, czego szukam, to tylko artykuły / referencje wrt. standardowe badanie kliniczne z udziałem np. pacjentów ambulatoryjnych, gdzie uogólnienie wyników nie jest tak dużym problemem.

— chl

Czy w końcu znalazłeś jakiś papier?

— chl

@chl Jeszcze nie; ale dzięki za przypomnienie.

Nie ma pośpiechu :) Sam nie znalazłem nic interesującego; może Pubmed nie jest odpowiednią wyszukiwarką dla tego konkretnego przypadku ...

— chl

@chl To też jest mój problem tutaj. Wydaje się, że n << p stało się synonimem danych biomedycznych.

0

Jeśli masz wejścia dyskretne, piszę program przewidujący brakujące wartości wejścia binarnego, biorąc pod uwagę poprzednie dane wejściowe. Wszelkie kategorie, np. „1 z 6”, można konwertować na binarne bity i będzie działać dobrze; to nie wpłynie na to.

Celem algorytmu, który piszę, jest jak najszybsze nauczenie się matematyki. W związku z tym ma bardzo niską złożoność czasu i przestrzeni (złożoność przestrzeni względem O (4 ^ N) !.

Ale do tego dostajesz w zasadzie naukę jednorazową, dla każdego systemu, którego stan można wyrazić jako wektor bitowy. Na przykład pełny sumator ma 8 różnych stanów wejściowych. Algorytm nauczy się pełnego sumatora po zaledwie 8 różnych próbach treningowych. Nie tylko to, ale możesz następnie udzielić odpowiedzi i poprosić o przewidzenie pytania lub dać mu część odpowiedzi i część pytania, a następnie wypełnić pozostałe.

Jeśli dane wejściowe mają dużo bitów, będzie to wymagało dużej mocy obliczeniowej i pamięci. Ale jeśli masz bardzo mało próbek - a przynajmniej taki jest cel projektu - da ci to najlepsze możliwe prognozy.

Po prostu trenujesz go za pomocą wektorów bitowych, w tym wektora bitowego, którego bity są nieznane. Aby uzyskać prognozę, po prostu podaj mu nieco wektor, które bity są nieznane i które bity chcesz przewidzieć.

Kod źródłowy dostępny tutaj: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

— Kevin Baas
źródło