Czy uczenie maszynowe jest ważnym tematem dla każdego statystyki, z którym należy się zapoznać? Wydaje się, że uczenie maszynowe to statystyki. Dlaczego programy statystyczne (licencjackie i magisterskie) nie wymagają uczenia maszynowego?
Czy uczenie maszynowe jest ważnym tematem dla każdego statystyki, z którym należy się zapoznać? Wydaje się, że uczenie maszynowe to statystyki. Dlaczego programy statystyczne (licencjackie i magisterskie) nie wymagają uczenia maszynowego?
Odpowiedzi:
Machine Learning to wyspecjalizowana dziedzina wysokowymiarowych statystyk stosowanych. Wymaga to również dużego przygotowania programistycznego, które nie jest konieczne dla dobrego programu ilościowego, szczególnie na poziomie licencjackim, ale także w pewnym stopniu na poziomie magisterskim. Ma zastosowanie wyłącznie do prognozowania w statystyce, podczas gdy statystyki matematyczne oraz statystyki wnioskowania i statystyki opisowej wymagają uwagi. Wiele programów oferuje studentom dużą możliwość kontaktu z uczeniem maszynowym (na przykład CMU), ale statystycy przemysłowi ogólnie nie mają szansy na zastosowanie tych narzędzi, co uniemożliwia wykonywanie niektórych zaawansowanych prac technicznych.
A ja ostatnio widziałem wiele naukowca danych i Uczenia Maszynowego pozycji na rynku pracy, myślę, że ogólny opis miejsc pracy „statystyka” nie wymaga uczenia maszynowego w tle, ale nie wymaga nienagannej zrozumienia podstawowych statystyk, wnioskowania i komunikacji: powinny one naprawdę stanowić rdzeń programu statystyki dla absolwentów. Uczenie maszynowe i nauka danych są również stosunkowo nowe, jeśli chodzi o stanowiska pracy i dyscypliny. Byłoby niekorzystne dla tych, którzy szukają pracy jako statystycy, aby kołysali swoje strategie rozwiązywania problemów w kierunku uczenia maszynowego, gdyby w większości porzucono je w biznesie / farmacji / biotechnologii z powodu niedostatecznej skuteczności za 10 lub 20 lat.
Wreszcie, nie uważam, że uczenie maszynowe znacznie poprawia solidne zrozumienie statystyki. Statystyka jest zasadniczo interdyscyplinarną dziedziną i ważne jest, aby komunikować się i przekonywać ekspertów nietechnicznych w Twojej dziedzinie (takich jak lekarze, dyrektorzy finansowi lub administratorzy) dokładnie, dlaczego wybrałeś wybraną metodologię. Uczenie maszynowe jest tak niszową, wysoce techniczną dziedziną, że w wielu zastosowanych praktykach zapewnia tylko przyrostowo lepszą wydajność niż standardowe narzędzia i techniki. Wiele metod uczenia się pod nadzorem i bez nadzoru jest postrzeganych przez nie-ekspertów (a nawet niektórych mniej wyszkolonych ekspertów) jako „czarna skrzynka”. Poproszeni o obronę przed wyborem wybranej metody uczenia się, istnieją wyjaśnienia, które nie pasują do żadnej z zastosowanych okoliczności motywowanych problemem.
OK, porozmawiajmy o słoniu statystyk z zasłoniętymi oczami przez to, czego nauczyliśmy się od jednej lub dwóch osób, z którymi ściśle współpracowaliśmy w naszych programach gradowych ...
Programy statyczne wymagają tego, co uznają za stosowne, to jest najważniejszych rzeczy, których chcą, aby ich uczniowie się uczyli, biorąc pod uwagę ograniczony czas, jaki uczniowie będą mieli w programie. Wymaganie jednego wąskiego obszaru oznacza pożegnanie z innymi obszarami, które można uznać za równie ważne. Niektóre programy wymagają teoretycznego prawdopodobieństwa, inne nie. Niektóre wymagają języka obcego, ale większość programów nie. Niektóre programy uznają paradygmat bayesowski za jedyną rzecz wartą zbadania, ale większość nie. Niektóre programy wiedzą, że największe zapotrzebowanie na statystyków występuje w statystykach ankiet (przynajmniej tak jest w USA), ale większość tego nie robi. Programy biostatu podążają za pieniędzmi i uczą SAS + metod, które z łatwością sprzedadzą się naukom medycznym i farmaceutycznym.
Dla osoby projektującej eksperymenty rolnicze, zbierającej dane ankietowe za pomocą ankiet telefonicznych, sprawdzającej poprawność skal psychometrycznych lub sporządzającej mapy zachorowań w GIS, uczenie maszynowe jest abstrakcyjną sztuką informatyki, bardzo odległą od statystyk, z którymi codziennie pracuje. podstawa. Żadna z tych osób nie odniesie natychmiastowych korzyści z uczenia maszyn wsparcia wektorowego lub losowych lasów.
Podsumowując, uczenie maszynowe jest miłym uzupełnieniem innych dziedzin statystyki, ale uważam, że najważniejsze są takie rzeczy jak wielowymiarowy rozkład normalny i uogólnione modele liniowe.
Uczenie maszynowe polega na zdobywaniu wiedzy / uczenia się na podstawie danych. Na przykład pracuję z algorytmami uczenia maszynowego, które mogą wybrać kilka genów, które mogą być zaangażowane w konkretny typ choroby na podstawie danych z mikromacierzy DNA (np. Nowotwory lub cukrzyca). Naukowcy mogą następnie wykorzystać te geny (wyuczone modele) do wczesnej diagnozy w przyszłości (klasyfikacja niewidzialnych próbek).
Istnieje wiele statystyk związanych z uczeniem maszynowym, ale istnieją gałęzie uczenia maszynowego, które nie wymagają statystyk (np. Programowanie genetyczne). W tych przypadkach potrzebne byłyby tylko statystyki, aby sprawdzić, czy model, który zbudowałeś za pomocą uczenia maszynowego, jest statystycznie znacząco różny od jakiegoś innego modelu.
Moim zdaniem korzystne byłoby wprowadzenie do uczenia maszynowego dla statystyków . Pomoże to statystykom zobaczyć rzeczywiste scenariusze zastosowania statystyk. Nie powinno to jednak być obowiązkowe . Możesz stać się odnoszącym sukcesy statystykiem i spędzić całe życie bez konieczności zbliżania się do uczenia maszynowego!