Testy statystyczne służą do wnioskowania na podstawie danych, informują o tym, jak rzeczy są powiązane. Rezultatem jest coś, co ma rzeczywiste znaczenie. Np. Jak palenie jest związane z rakiem płuc, zarówno pod względem kierunku, jak i wielkości. To wciąż nie mówi, dlaczego coś się stało. Aby odpowiedzieć na pytanie, dlaczego tak się stało, musimy również wziąć pod uwagę wzajemne powiązania z innymi zmiennymi i dokonać odpowiednich korekt (patrz Pearl, J. (2003).
Nadzorowane uczenie się służy do przewidywania, mówi ci, co się stanie. Np. Biorąc pod uwagę status osoby palącej, możemy przewidzieć, czy ona / ona będzie miała raka płuc. W prostych przypadkach nadal mówi „jak”, na przykład patrząc na ograniczenie statusu palenia, które zostało zidentyfikowane przez algorytm. Ale bardziej złożone modele są trudniejsze lub niemożliwe do interpretacji (głębokie uczenie się / ulepszanie z wieloma funkcjami).
Uczenie się bez nadzoru jest często wykorzystywane do ułatwienia dwóch powyższych.
- W przypadku testów statystycznych, odkrywając nieznane podgrupy danych (grupowanie), możemy wywnioskować heterogeniczność w powiązaniach między zmiennymi. Np. Palenie zwiększa prawdopodobieństwo zachorowania na raka płuc w podgrupie A, ale nie w podgrupie B.
- W przypadku nadzorowanego uczenia się możemy tworzyć nowe funkcje w celu poprawy dokładności prognozowania i niezawodności. Np. Poprzez identyfikację podgrup (grupowanie) lub kombinacji cech (zmniejszenie wymiarów), które są związane z prawdopodobieństwem zachorowania na raka płuc.
Gdy liczba funkcji / zmiennych staje się większa, różnica między testowaniem statystycznym a nadzorowanym uczeniem się staje się bardziej znacząca. Testy statystyczne niekoniecznie skorzystają z tego, zależy to na przykład od tego, czy chcesz wnioskować przyczynowo poprzez kontrolowanie innych czynników, czy identyfikowanie heterogeniczności w powiązaniach, jak wspomniano powyżej. Nadzorowane uczenie się będzie działać lepiej, jeśli funkcje są odpowiednie, i stanie się bardziej jak czarna skrzynka.
Gdy liczba próbek się powiększy, możemy uzyskać bardziej precyzyjne wyniki badań statystycznych, dokładniejsze wyniki w przypadku uczenia nadzorowanego i bardziej wiarygodne w przypadku uczenia się bez nadzoru. Ale to zależy od jakości danych. Dane złej jakości mogą wprowadzać błędy lub szum w wynikach.
Czasami chcemy wiedzieć, „jak” i „dlaczego”, aby informować o działaniach interwencyjnych, np. Poprzez identyfikację, że palenie powoduje raka płuc, można podjąć odpowiednie kroki, aby sobie z tym poradzić. Czasami chcemy wiedzieć, „co” w podejmowaniu decyzji, np. Dowiedzieć się, kto może mieć raka płuc i zapewnić im wczesne leczenie. Na stronie Science opublikowano specjalne wydanie dotyczące prognozowania i jego ograniczeń ( http://science.sciencemag.org/content/355/6324/468). „Sukces wydaje się być osiągany najbardziej konsekwentnie, gdy pytania są podejmowane w interdyscyplinarnych wysiłkach, które łączą ludzkie rozumienie kontekstu z algorytmiczną zdolnością do radzenia sobie z terabajtami danych.” Moim zdaniem, na przykład, wiedza odkryta za pomocą testowania hipotez może pomóc w nadzorowanym uczeniu się, informując nas jakie dane / funkcje powinniśmy gromadzić w pierwszej kolejności. Z drugiej strony nadzorowane uczenie się może pomóc w generowaniu hipotez poprzez informowanie, które zmienne