Uderza mnie pozornie łatwy problem, ale od kilku tygodni nie znalazłem odpowiedniego rozwiązania.
Mam całkiem sporo danych ankietowych / ankietowych (dziesiątki tysięcy respondentów, powiedzmy 50 tys. Na zbiór danych), pochodzących z czegoś, co, mam nadzieję, nazywa się kompleksowo zaprojektowaną ankietą z wagami, stratyfikacją, określonym routingiem i tak dalej. Dla każdego respondenta istnieją setki zmiennych, takich jak dane demograficzne (wiek, region ...), a następnie głównie zmienne binarne (najwyżej kategorialne).
Pochodzę bardziej z informatyki / uczenia maszynowego i musiałem wiele się nauczyć o klasycznych statystykach ankietowych i metodologii. Teraz chcę zastosować klasyczne uczenie maszynowe do tych danych (np. Przewidywanie niektórych brakujących wartości dla podzbioru respondentów - w zasadzie zadanie klasyfikacji). Ale trzymaj się i patrz, nie mogę znaleźć odpowiedniego sposobu, aby to zrobić. Jak powinienem uwzględnić te warstwy, wagi lub trasy (np .: jeśli na pytanie 1 udzielono odpowiedzi w opcji 2, zadaj pytanie 3, w przeciwnym razie pomiń)?
Samo zastosowanie moich modeli (drzewa, regresja logistyczna, SVM, XGBoost ...) wydaje się niebezpieczne (i w większości przypadków zawodzą), ponieważ zazwyczaj zakładają, że dane pochodzą z prostej losowej próbki lub iid.
Wiele metod ma przynajmniej ciężary, ale to niewiele pomaga. Co więcej, nie jest jasne, w jaki sposób powinienem łączyć niezbilansowane klasy i wagi podane przez definicję ankiety razem, nie mówiąc o tych rzeczach dotyczących stratyfikacji. Ponadto modele wyników powinny być dobrze skalibrowane - przewidywany rozkład powinien być bardzo zbliżony do pierwotnego. Dobra wydajność prognozowania nie jest tu jedynym kryterium. Zmieniłem metrykę optymalizacji, aby wziąć to również pod uwagę (np. Odległość przewidywanego rozkładu od rozkładu rzeczywistego + dokładność / MCC) i pomogło w niektórych przypadkach, dlaczego obniżało wydajność w innych.
Czy istnieje jakiś kanoniczny sposób rozwiązania tego problemu? Wydaje mi się, że to bardzo niedoceniany obszar badań. Wiele ankiet IMO mogłoby skorzystać z siły ML, ale nie ma żadnych źródeł. Jakby to były dwa światy, które nie wchodzą ze sobą w interakcje.
Co znalazłem do tej pory:
- http://civilstat.com/2014/08/statystyczny-modeling-the-two-cultures-breiman/
Na przykład, wciąż znam tylko jeden artykuł (Toth i Eltinge, 2011) na temat tego, jak robić drzewa regresji, gdy dane pochodzą ze złożonej ankiety próbnej.
- http://ccsg.isr.umich.edu/index.php/chapters/statystyczny-analysis-chapter#nine
W niedawnej metaanalizie 150 próbek badań analizujących kilka badań ze złożonymi projektami próbkowania stwierdzono, że błędy analityczne spowodowane ignorancją lub niewłaściwym użyciem złożonych cech projektu próby były częste.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
Powiązane pytania CV, ale żadne z nich nie zawiera żadnej użytecznej odpowiedzi, jak podejść do tego (albo brak odpowiedzi, nie to, o co proszę, lub przedstawienie mylących zaleceń):
- Dopasowana analiza ze złożonymi danymi ankietowymi
- Uczenie maszynowe z ważonymi / złożonymi danymi ankietowymi
- Krzyżowa walidacja po LASSO w złożonych danych pomiarowych
- Rozdzielenie w regresji logistycznej w złożonej ankiecie?
- Dopasowanie modeli wielopoziomowych do złożonych danych pomiarowych w języku R.