Powiedzmy, że mamy próbkę z dwóch populacji: A
i B
. Załóżmy, że te populacje składają się z pojedynczych osób i wybieramy opisywanie poszczególnych osób pod względem cech. Niektóre z tych funkcji są jakościowe (np. Czy jeżdżą do pracy?), A niektóre są liczbowe (np. Ich wysokość). Nazwijmy te funkcje: . Zbieramy setki tych funkcji (np. N = 200), załóżmy dla uproszczenia, bez błędów i hałasu wśród wszystkich osób.
Przypuszczamy, że dwie populacje są różne. Naszym celem jest udzielenie odpowiedzi na następujące dwa pytania:
- Czy faktycznie różnią się znacznie?
- Co różni się między nimi znacząco?
Pomocne mogą być metody takie jak drzewa decyzyjne (np. Losowe lasy) i analiza regresji liniowej. Na przykład, można przyjrzeć się znaczeniu cech w losowych lasach lub dopasowanych współczynników w regresji liniowej, aby zrozumieć, co może wyróżnić te grupy i zbadać związki między cechami a populacjami.
Zanim pójdę tą trasą, chcę poznać moje opcje, co jest dobre i nowoczesne a złe praktyki. Pamiętaj, że moim celem nie jest samo przewidywanie, ale testowanie i znajdowanie znaczących różnic między grupami.
Jakie są podstawowe podejścia do rozwiązania tego problemu?
Oto kilka moich obaw:
Metody takie jak analiza regresji liniowej mogą nie w pełni odpowiedzieć (2), prawda? Np. Pojedyncze dopasowanie może pomóc znaleźć pewne różnice, ale nie wszystkie znaczące różnice. Na przykład wielokoliniowość może uniemożliwić nam stwierdzenie, jak wszystkie cechy różnią się w poszczególnych grupach (przynajmniej w jednym dopasowaniu). Z tego samego powodu oczekiwałbym, że ANOVA nie może również podać pełnej odpowiedzi na (2).
Nie jest do końca jasne, jak zareaguje podejście predykcyjne (1). Na przykład, jaką funkcję utraty klasyfikacji / predykcji powinniśmy zminimalizować? I w jaki sposób sprawdzamy, czy grupy różnią się znacznie, gdy mamy dopasowanie? Wreszcie martwię się, że odpowiedź, którą otrzymuję (1), może zależeć od konkretnego zestawu modeli klasyfikacji, z których korzystam.