Czy statystycy powinni się uczyć uczenia maszynowego?


22

Czy uczenie maszynowe jest ważnym tematem dla każdego statystyki, z którym należy się zapoznać? Wydaje się, że uczenie maszynowe to statystyki. Dlaczego programy statystyczne (licencjackie i magisterskie) nie wymagają uczenia maszynowego?



2
Nie wiem, ale jestem pewien, że wszyscy uczący się maszyn powinni uczyć się statystyki.
Dave

Odpowiedzi:


18

Machine Learning to wyspecjalizowana dziedzina wysokowymiarowych statystyk stosowanych. Wymaga to również dużego przygotowania programistycznego, które nie jest konieczne dla dobrego programu ilościowego, szczególnie na poziomie licencjackim, ale także w pewnym stopniu na poziomie magisterskim. Ma zastosowanie wyłącznie do prognozowania w statystyce, podczas gdy statystyki matematyczne oraz statystyki wnioskowania i statystyki opisowej wymagają uwagi. Wiele programów oferuje studentom dużą możliwość kontaktu z uczeniem maszynowym (na przykład CMU), ale statystycy przemysłowi ogólnie nie mają szansy na zastosowanie tych narzędzi, co uniemożliwia wykonywanie niektórych zaawansowanych prac technicznych.

A ja ostatnio widziałem wiele naukowca danych i Uczenia Maszynowego pozycji na rynku pracy, myślę, że ogólny opis miejsc pracy „statystyka” nie wymaga uczenia maszynowego w tle, ale nie wymaga nienagannej zrozumienia podstawowych statystyk, wnioskowania i komunikacji: powinny one naprawdę stanowić rdzeń programu statystyki dla absolwentów. Uczenie maszynowe i nauka danych są również stosunkowo nowe, jeśli chodzi o stanowiska pracy i dyscypliny. Byłoby niekorzystne dla tych, którzy szukają pracy jako statystycy, aby kołysali swoje strategie rozwiązywania problemów w kierunku uczenia maszynowego, gdyby w większości porzucono je w biznesie / farmacji / biotechnologii z powodu niedostatecznej skuteczności za 10 lub 20 lat.

Wreszcie, nie uważam, że uczenie maszynowe znacznie poprawia solidne zrozumienie statystyki. Statystyka jest zasadniczo interdyscyplinarną dziedziną i ważne jest, aby komunikować się i przekonywać ekspertów nietechnicznych w Twojej dziedzinie (takich jak lekarze, dyrektorzy finansowi lub administratorzy) dokładnie, dlaczego wybrałeś wybraną metodologię. Uczenie maszynowe jest tak niszową, wysoce techniczną dziedziną, że w wielu zastosowanych praktykach zapewnia tylko przyrostowo lepszą wydajność niż standardowe narzędzia i techniki. Wiele metod uczenia się pod nadzorem i bez nadzoru jest postrzeganych przez nie-ekspertów (a nawet niektórych mniej wyszkolonych ekspertów) jako „czarna skrzynka”. Poproszeni o obronę przed wyborem wybranej metody uczenia się, istnieją wyjaśnienia, które nie pasują do żadnej z zastosowanych okoliczności motywowanych problemem.


1
Czy mógłbyś wyjaśnić nieco bardziej szczegółowo, co dokładnie masz na myśli, gdy wyjaśnienia się nie zgadzają (może przykłady?)?
cbeleites wspiera Monikę

10
Nie potrafię opisać różnic między liniową analizą dyskryminacyjną, maszynami wektorów wsparcia i GLM LASSO w sposób, który ma sens dla lekarza. Zbudowałem więc model regresji logistycznej do prognozowania ryzyka raka piersi, używając garści dokładnie dopasowanych zmiennych towarzyszących. Po przedstawieniu lekarze natychmiast rozpoczęli pouczającą dyskusję na temat wielkości ich efektów. Dyskryminacja mojego modelu „naukowego” była bardzo porównywalna z bardziej wyrafinowanymi technikami ML (nakładanie się 90% CI dla AUC w oparciu o bootstrap w próbce walidacyjnej), i nie jestem jedynym, który ma taki opis przypadku!
AdamO,

4
@cbeleites, czy kiedykolwiek musiałeś komunikować się z osobą merytoryczną posiadającą co najmniej wiedzę z zakresu algebry akademickiej? SVM nie wytwarza rozmiarów efektów w sposób zrozumiały dla lekarzy; szerokość marginesu nie ma dla nich sensu, w przeciwieństwie do przedziałów nieparzystych, do których są bardzo przyzwyczajeni. Jeśli nie umiesz mówić w języku klienta, nie marnuje on na ciebie czasu i pieniędzy.
StasK

2
@GraemeWalsh fantastyczny punkt. Bardzo mocno walczę z koncepcją wykorzystania wyrafinowanych modeli predykcyjnych do wnioskowania predykcyjnego, jak to często ma miejsce w modelowaniu równań strukturalnych lub tytułowej przyczynowości Grangera. Myślę, że w tej dziedzinie pozostaje jeszcze wiele do zrobienia. Na przykład intuicyjnie dostrzegam duże podobieństwo między modelowaniem półparametrycznym a brzeżnymi modelami strukturalnymi, ale nie jestem pewien, gdzie leżą różnice.
AdamO,

2
@Jase powinieneś zapoznać się z zaproszonym referatem zwycięzców konkursu Netflix. Ich raporty były bardzo podobne, nawet gdy model Bayesa uśredniał ciężary tylne na dużej przestrzeni modeli, zaobserwowali, że Pca wydaje się mieć dominującą tylną wagę we wszystkich warunkach. Nie oznacza to, że są one równoważne, ale istnieje kompromis między prostotą a dokładnością, co sprawia, że ​​faworyzuję prostsze modele niż te oferowane przez ml arena. Można analogicznie pomyśleć o tym, jak skomplikowane modele parametryczne działają podobnie do modeli nieparametrycznych.
AdamO

14

OK, porozmawiajmy o słoniu statystyk z zasłoniętymi oczami przez to, czego nauczyliśmy się od jednej lub dwóch osób, z którymi ściśle współpracowaliśmy w naszych programach gradowych ...

Programy statyczne wymagają tego, co uznają za stosowne, to jest najważniejszych rzeczy, których chcą, aby ich uczniowie się uczyli, biorąc pod uwagę ograniczony czas, jaki uczniowie będą mieli w programie. Wymaganie jednego wąskiego obszaru oznacza pożegnanie z innymi obszarami, które można uznać za równie ważne. Niektóre programy wymagają teoretycznego prawdopodobieństwa, inne nie. Niektóre wymagają języka obcego, ale większość programów nie. Niektóre programy uznają paradygmat bayesowski za jedyną rzecz wartą zbadania, ale większość nie. Niektóre programy wiedzą, że największe zapotrzebowanie na statystyków występuje w statystykach ankiet (przynajmniej tak jest w USA), ale większość tego nie robi. Programy biostatu podążają za pieniędzmi i uczą SAS + metod, które z łatwością sprzedadzą się naukom medycznym i farmaceutycznym.

Dla osoby projektującej eksperymenty rolnicze, zbierającej dane ankietowe za pomocą ankiet telefonicznych, sprawdzającej poprawność skal psychometrycznych lub sporządzającej mapy zachorowań w GIS, uczenie maszynowe jest abstrakcyjną sztuką informatyki, bardzo odległą od statystyk, z którymi codziennie pracuje. podstawa. Żadna z tych osób nie odniesie natychmiastowych korzyści z uczenia maszyn wsparcia wektorowego lub losowych lasów.

Podsumowując, uczenie maszynowe jest miłym uzupełnieniem innych dziedzin statystyki, ale uważam, że najważniejsze są takie rzeczy jak wielowymiarowy rozkład normalny i uogólnione modele liniowe.


5

Uczenie maszynowe polega na zdobywaniu wiedzy / uczenia się na podstawie danych. Na przykład pracuję z algorytmami uczenia maszynowego, które mogą wybrać kilka genów, które mogą być zaangażowane w konkretny typ choroby na podstawie danych z mikromacierzy DNA (np. Nowotwory lub cukrzyca). Naukowcy mogą następnie wykorzystać te geny (wyuczone modele) do wczesnej diagnozy w przyszłości (klasyfikacja niewidzialnych próbek).

Istnieje wiele statystyk związanych z uczeniem maszynowym, ale istnieją gałęzie uczenia maszynowego, które nie wymagają statystyk (np. Programowanie genetyczne). W tych przypadkach potrzebne byłyby tylko statystyki, aby sprawdzić, czy model, który zbudowałeś za pomocą uczenia maszynowego, jest statystycznie znacząco różny od jakiegoś innego modelu.

Moim zdaniem korzystne byłoby wprowadzenie do uczenia maszynowego dla statystyków . Pomoże to statystykom zobaczyć rzeczywiste scenariusze zastosowania statystyk. Nie powinno to jednak być obowiązkowe . Możesz stać się odnoszącym sukcesy statystykiem i spędzić całe życie bez konieczności zbliżania się do uczenia maszynowego!


2
Powiedziałbym, że potrzebujesz statystyk za każdym razem, gdy raportujesz wydajność swojego modelu. Mabe, ponieważ mój zawód to chemia analityczna, w której jedną z ważnych zasad jest „liczba bez przedziału ufności nie ma rezultatu”.
cbeleites obsługuje Monikę

1
@cbeleites Zgadzam się z tobą. Miałem na myśli to, że statystycy niekoniecznie muszą być ekspertami w dziedzinie uczenia maszynowego! Mogą sobie
poradzić

1
@cbeleites lub wiele przedziały ufności w przypadku multimodalnych esimatorów (np. Sivia & Skilling Data Analysis ).
alancalvitti
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.