Ukryte modelowanie klas byłoby jednym, nadzorowanym podejściem do uczenia się w celu znalezienia ukrytych partycji lub grup narkotyków i użytkowników narkotyków. LC jest bardzo elastyczną metodą z dwoma szerokimi podejściami: replikacje oparte na powtarzanych pomiarach dla jednego pacjenta vs. replikacje oparte na krzyżowej klasyfikacji zestawu zmiennych kategorialnych. Twoje dane pasowałyby do drugiego typu.
Elastyczność LC jest funkcją jego zdolności do absorbowania „mieszanin” zmiennych o różnych skalowaniach (np. Jakościowych lub ciągłych). Ponieważ podejście znajduje ukryte partycje, segmenty lub klastry w danych, można je również uznać za technikę zmniejszania wymiarów.
Wszystkie modele LC mają 2 etapy: w etapie 1 identyfikowana jest zmienna zależna lub docelowa i budowany jest model regresji. Na etapie 2 analizowany jest pozostały (pojedynczy wektor „utajony”) z modelu etapu 1 i tworzone są partycje przechwytujące zmienność (lub niejednorodność) - „klasy utajone” - w tym wektorze.
Dostępne jest bezpłatne oprogramowanie do pobrania, które prawdopodobnie działałoby dla Ciebie całkiem dobrze. Jednym z nich jest moduł R o nazwie polCA dostępny tutaj:
http://www.jstatsoft.org/article/view/v042i10
Jeśli masz około 1000 USD na produkt komercyjny, Latent Gold jest dostępny na stronie www.statisticinnovations.com. Od lat korzystam z Latent Gold , jestem wielkim fanem tego produktu ze względu na jego moc analityczną i zakres rozwiązań. Na przykład, polCA jest użyteczne tylko w przypadku modeli LC z kategorycznymi informacjami, podczas gdy LG działa na wszystkich platformach ... a ponadto ich programiści zawsze dodają nowe moduły. Najnowszy dodatek buduje modele LC przy użyciu ukrytych łańcuchów Markowa. Należy jednak pamiętać, że LG nie jest platformą danych typu „end-to-end”, tzn. Nie nadaje się do ciężkich manipulacji danymi lub podnoszenia danych.
W przeciwnym razie istnieje mnóstwo innych podejść do analizy informacji kategorycznych, które są szeroko obsługiwane przez oprogramowanie statystyczne, takie jak R, SPSS, SAS, Python itp. Obejmują one analizę tabeli kontyngencji, modele log-liniowe, modele mieszanki skończonej, regresję tensora Bayesa, i tak dalej. Literatura w tej dziedzinie jest obszerna i rozpoczęła się wraz z Bishopem i wsp., Discrete Multivariate Analysis w 1975 r., Obejmuje modele RC Leo Goodmana oparte na jego pracy wykonanej od lat 80., Kategoryczną analizę danych Agresti , książki Stephena Fienberga i obejmuje Thomasa Wickensa „doskonała książka Multiway Contingency Tables Analysis for the Social Sciences opublikowana w 1989 r. Bayesowska regresja tensorowa jest tytułem artykułu Davida Dunsona z Duke i jest swego rodzaju „najnowocześniejszym”, ponieważ jest najnowszą metodą modelowania masowo wielostronnych tabel awaryjnych.