Przewidywanie następnego stanu medycznego na podstawie przeszłych stanów w danych roszczeń

Obecnie pracuję z dużym zestawem danych dotyczących roszczeń z tytułu ubezpieczenia zdrowotnego, które obejmują niektóre roszczenia z laboratorium i apteki. Najbardziej spójne informacje w zestawie danych obejmują jednak diagnozę (ICD-9CM) i kody procedur (CPT, HCSPCS, ICD-9CM).

Moimi celami są:

Zidentyfikuj najbardziej wpływowe stany prekursorowe (choroby współistniejące) dla stanu medycznego, takiego jak przewlekła choroba nerek;
Zidentyfikuj prawdopodobieństwo (lub prawdopodobieństwo), że u pacjenta rozwinie się stan chorobowy na podstawie stanów, które miał w przeszłości;
Zrób to samo co 1 i 2, ale z procedurami i / lub diagnozami.
Korzystnie wyniki byłyby interpretowane przez lekarza

Patrzyłem na takie artykuły jak kamień milowy Heritage Health Prize i wiele się od nich nauczyłem, ale koncentrują się one na przewidywaniu hospitalizacji.

Oto moje pytania: Jak myślisz, jakie metody sprawdzają się w przypadku takich problemów? I jakie zasoby byłyby najbardziej przydatne do nauki o zastosowaniach nauki danych i metodach związanych z opieką zdrowotną i medycyną kliniczną?

EDYCJA 2, aby dodać tabelę tekstu jawnego:

CKD jest chorobą docelową, „przewlekłą chorobą nerek”, „.any” oznacza, że nabyli tę chorobę w dowolnym momencie, „.isbefore.ckd” oznacza, że mieli tę chorobę przed pierwszą diagnozą CKD. Pozostałe skróty odpowiadają innym warunkom zidentyfikowanym przez grupy kodów ICD-9CM. To grupowanie występuje w SQL podczas procesu importowania. Każda zmienna, z wyjątkiem pacjent_age, jest binarna.

machine-learning r

— Jamie
źródło

Czy możesz podać jakieś przykładowe dane (zwykły angielski, bez kodów)?

— zaprzyjaźnij się

Dodałem kilka przykładowych danych do mojego oryginalnego postu. W tej wersji każdy warunek jest oznaczony trzyliterowym kodem.

— Jamie

R jest fajny, ale niezbyt czytelny dla człowieka. Czy możesz sformatować próbkę swoich danych jako tabelę (np. Używając formatu CSV lub TSV; 5-6 kolumn jest w porządku)? Również wyjaśnienie zmiennych (co „anx.any”, „flu.isbefore.ckd” itp. Naprawdę oznacza i co należy przewidzieć) bardzo pomoże.

— zaprzyjaźnij się

Czy możesz podać więcej informacji na temat parametrów użytych w zbiorze danych, abyśmy mogli zrozumieć, czy istnieją jakieś korelacje. Niektóre z wymienionych przez ciebie skrótów nie są dla mnie jasne. Byłoby wspaniale, gdybyś mógł udostępnić swój identyfikator e-mail, abyśmy mogli współpracować offline. Dzięki!

— JohnGalt,

Jest to tylko trochę powiązane, ale nasze ostatnie wyzwanie w dziedzinie analizy danych dotyczyło przewidywania roszczeń z innych roszczeń. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Po wydaniu rozwiązania może zawierać kilka interesujących pomysłów.

— Sean Owen

Odpowiedzi:

Nigdy nie pracowałem z danymi medycznymi, ale z ogólnego rozumowania powiedziałbym, że relacje między zmiennymi w opiece zdrowotnej są dość skomplikowane. Różne modele, takie jak losowe lasy, regresja itp., Mogą uchwycić tylko część relacji i zignorować inne. W takich okolicznościach sensowne jest zastosowanie ogólnej eksploracji statystycznej i modelowania .

Na przykład pierwszą rzeczą, którą bym zrobił, było znalezienie korelacji między możliwymi warunkami prekursorowymi a diagnozami. Np. W jakim odsetku przypadków przewlekła choroba nerek poprzedzona była długą grypą? Jeśli jest wysoka, nie zawsze oznacza to przyczynowość , ale daje całkiem dobre jedzenie do myślenia i pomaga lepiej zrozumieć relacje między różnymi warunkami.

Kolejnym ważnym krokiem jest wizualizacja danych. Czy CKD występuje u mężczyzn częściej niż u kobiet? Co z ich miejscem zamieszkania? Jaki jest rozkład przypadków CKD według wieku? Trudno uchwycić duży zestaw danych jako zestaw liczb, ich wykreślenie znacznie ułatwia.

Gdy masz pojęcie o tym, co się dzieje, przeprowadź test hipotez, aby sprawdzić swoje założenia. Jeśli odrzucisz hipotezę zerową (podstawowe założenie) na rzecz alternatywnej, gratulacje, zrobiłeś „coś prawdziwego”.

Wreszcie, gdy dobrze zrozumiesz swoje dane, spróbuj stworzyć kompletny model . Może to być coś ogólnego, na przykład PGM (np. Ręcznie wykonana sieć bayesowska), lub coś bardziej szczegółowego, jak regresja liniowa lub SVM , lub cokolwiek innego. Ale w jakikolwiek sposób będziesz już wiedział, jak ten model odpowiada twoim danym i jak możesz zmierzyć jego wydajność.

Jako dobry startowy materiał do nauki podejścia statystycznego poleciłbym wprowadzenie do statystyki Sebastiana Thruna. Chociaż jest dość prosty i nie zawiera zaawansowanych tematów, opisuje najważniejsze pojęcia i zapewnia systematyczne zrozumienie teorii prawdopodobieństwa i statystyki.

— przyjaciel
źródło

Dzięki za to! Potwierdza niektóre z kroków, które już podjąłem (analiza eksploracyjna, testowanie hipotez itp.).

— Jamie

Chociaż nie jestem naukowcem danych, jestem epidemiologiem pracującym w warunkach klinicznych. Twoje pytanie badawcze nie określiło przedziału czasowego (tj. Szansy na rozwój CKD za 1 rok, 10 lat, całe życie?).

Zasadniczo musiałbym przejść przez kilka etapów, zanim nawet pomyślałem o modelowaniu (analiza jednowymiarowa, analiza dwuwymiarowa, kontrole kolinearności itp.). Jednak najczęściej stosowaną metodą próby przewidzenia zdarzenia binarnego (przy użyciu ciągłych zmiennych binarnych OR) jest regresja logistyczna. Jeśli chcesz spojrzeć na CKD jako wartość laboratoryjną (albumina moczu, eGFR), zastosowałbyś regresję liniową (wynik ciągły).

Podczas gdy stosowane metody powinny być oparte na danych i pytaniach, klinicyści są przyzwyczajeni do obserwowania ilorazów szans i współczynników ryzyka, ponieważ są to najczęściej zgłaszane miary asocjacji w czasopismach medycznych, takich jak NEJM i JAMA.

Jeśli pracujesz nad tym problemem z punktu widzenia zdrowia ludzkiego (w przeciwieństwie do Business Intelligence), modele prognostyczne kliniczne Steyerberga są doskonałym źródłem.

— Dani
źródło

Dziękuję za pomocne sugestie. Na pewno sprawdzę tę książkę! Chociaż mam dostęp do wartości laboratoryjnych, dane są niewiarygodne i sporadyczne, dlatego staram się trzymać danych, które mogę uzyskać z roszczeń. Skróty zmienne są w rzeczywistości grupami kodów diagnostycznych AHRQ Klasyfikacja oprogramowania.

— Jamie,

„Zidentyfikuj najbardziej wpływowe stany prekursorowe (choroby współistniejące) dla schorzenia, takiego jak przewlekła choroba nerek”

Nie jestem pewien, że jest to możliwe do ID z najbardziej wpływowych warunkach; Myślę, że będzie to zależeć od używanego modelu. Jeszcze wczoraj dopasowałem losowy las i przyspieszone drzewo regresji do tych samych danych, a kolejność i względna ważność każdego modelu przypisana zmiennym były zupełnie inne.

— JenSCDC
źródło

Dzięki, Andy. Czy mógłbyś trochę rozwinąć? Czy to dlatego, że zmienne nie wychwytują wystarczającej ilości szczegółów?

— Jamie

Nie mam pojęcia. Myślę, że to zależy od tego, jak działają różne modele.

— JenSCDC,

Czy możesz zasugerować niektóre rozwiązania, które wypróbowałeś lub rozważałeś?

— Jamie,

Do tej pory też tego nie zrobiłem, więc nie ma tam żadnej pomocy. Przepraszam.

— JenSCDC,

Jestem teraz na wakacjach przez kilka następnych tygodni, ale kiedy wrócę, przyjrzę się temu, ponieważ to naprawdę wzbudziło moje zainteresowanie.

— JenSCDC,