Po niedawnym ukończeniu studiów doktoranckich z zakresu statystyki przez ostatnie kilka miesięcy zacząłem szukać pracy w dziedzinie statystyki. Prawie każda firma, którą rozważałem, miała ofertę pracy o tytule „ Data Scientist ”. W rzeczywistości wydawało się, że dawno minęły czasy, gdy zobaczył tytuły pracy naukowca lub statystysty . Czy bycie naukowcem danych naprawdę zastąpiło to, czym jest bycie statystyką, czy też tytuły były synonimami, o których zastanawiałem się?
Cóż, większość kwalifikacji do pracy wydawała się rzeczami, które kwalifikowałyby się pod tytułem statystyki. Większość prac chciała doktoratu z statystyki ( ), najbardziej wymagającego zrozumienia projektu eksperymentalnego ( ), regresji liniowej i anova ( ), uogólnionych modeli liniowych ( ) i innych metod wielowymiarowych, takich jak PCA ( ), a także wiedzy w statystycznym środowisku obliczeniowym, takim jak R lub SAS ( ). Wygląda na to, że naukowiec danych to tak naprawdę tylko kryptonim dla statystyk.
Jednak każdy wywiad, na który chodziłem, zaczynał się od pytania: „Czy znasz algorytmy uczenia maszynowego?” Najczęściej musiałem odpowiadać na pytania dotyczące dużych zbiorów danych, obliczeń o wysokiej wydajności oraz tematów dotyczących sieci neuronowych, CART, obsługi maszyn wektorowych, wspomagania drzew, modeli bez nadzoru itp. Pewnie byłem przekonany, że to wszystko pytania statystyczne w głębi duszy, ale pod koniec każdego wywiadu nie mogłem oprzeć się wrażeniu, że coraz mniej wiem o tym, czym jest naukowiec.
Jestem statystykiem, ale czy jestem naukowcem danych? Pracuję nad problemami naukowymi, więc muszę być naukowcem! A także pracuję z danymi, więc muszę być naukowcem danych! Według Wikipedii większość naukowców zgodziłaby się ze mną ( https://en.wikipedia.org/wiki/Data_science itp.)
Chociaż użycie terminu „nauka o danych” eksplodowało w środowisku biznesowym, wielu naukowców i dziennikarzy nie widzi różnicy między nauką o danych a statystykami.
Ale jeśli idę na te wszystkie rozmowy kwalifikacyjne na stanowisko naukowca danych, dlaczego wydaje mi się, że nigdy nie zadają mi pytań statystycznych?
Cóż, po moim ostatnim wywiadzie chciałem, aby zrobił to dobry naukowiec i szukałem danych, aby rozwiązać ten problem (hej, w końcu jestem naukowcem danych). Jednak po wielu niezliczonych wyszukiwaniach w Google później znalazłem się w miejscu, w którym zacząłem czuć się, jakbym ponownie zmagał się z definicją tego, czym był naukowiec. Nie wiedziałem, czym dokładnie jest badacz danych, ponieważ było tak wiele jego definicji ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ), ale wydawało się, że wszyscy mówili mi, że chcę być jednym z nich:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- itp ... lista jest długa.
Pod koniec dnia doszedłem do wniosku, że „czym jest badacz danych” jest bardzo trudnym pytaniem. Do diabła, w Amstat były dwa całe miesiące, w których poświęcili czas na próbę odpowiedzi na to pytanie:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Cóż, na razie muszę być seksownym statystykiem, aby być naukowcem danych, ale mam nadzieję, że zweryfikowana społeczność może rzucić nieco światła i pomóc mi zrozumieć, co to znaczy być naukowcem danych. Czyż wszyscy statystycy nie są naukowcami danych?
(Edycja / aktualizacja)
Myślałem, że to może urozmaicić rozmowę. Właśnie otrzymałem wiadomość e-mail od Amerykańskiego Stowarzyszenia Statystycznego na temat pracy w Microsoft poszukującej Data Scientist. Oto link: Data Scientist Position . Myślę, że jest to interesujące, ponieważ rola pozycji wpływa na wiele konkretnych cech, o których mówiliśmy, ale myślę, że wiele z nich wymaga bardzo rygorystycznego tła w statystykach, a także jest sprzeczne z wieloma odpowiedziami zamieszczonymi poniżej. W przypadku, gdy łącze przestanie działać, oto cechy, których Microsoft szuka u badacza danych:
Podstawowe wymagania i umiejętności związane z pracą:
Business Domain Experience z wykorzystaniem Analytics
- Musi mieć doświadczenie w kilku istotnych domenach biznesowych w zakresie wykorzystania umiejętności krytycznego myślenia do konceptualizacji złożonych problemów biznesowych i ich rozwiązań z wykorzystaniem zaawansowanych analiz w dużych zestawach danych biznesowych w świecie rzeczywistym
- Kandydat musi być w stanie samodzielnie prowadzić projekty analityczne i pomagać naszym wewnętrznym klientom zrozumieć wyniki i przełożyć je na działania, które przyniosą korzyści ich biznesowi.
Modelowanie predykcyjne
- Doświadczenie w różnych branżach w zakresie modelowania predykcyjnego
- Definicja problemu biznesowego i modelowanie koncepcyjne z klientem w celu uzyskania ważnych relacji i zdefiniowania zakresu systemu
Statystyka / ekonometria
- Analiza danych eksploracyjnych dla danych ciągłych i kategorycznych
- Specyfikacja i oszacowanie równań modelu strukturalnego dla zachowania przedsiębiorstwa i konsumenta, kosztu produkcji, zapotrzebowania na czynnik, dyskretnego wyboru i innych zależności technologicznych w zależności od potrzeb
- Zaawansowane techniki statystyczne do analizy danych ciągłych i kategorycznych
- Analiza szeregów czasowych i wdrożenie modeli prognostycznych
- Wiedza i doświadczenie w pracy z problemami z wieloma zmiennymi
- Umiejętność oceny poprawności modelu i przeprowadzania testów diagnostycznych
- Możliwość interpretacji statystyk lub modeli ekonomicznych
- Wiedza i doświadczenie w budowaniu dyskretnej symulacji zdarzeń oraz dynamicznych modeli symulacji
Zarządzanie danymi
- Znajomość posługiwania się T-SQL i analiz do transformacji danych oraz zastosowania eksploracyjnych technik analizy danych dla bardzo dużych rzeczywistych zbiorów danych
- Uwaga na integralność danych, w tym nadmiarowość danych, dokładność danych, wartości nienormalne lub ekstremalne, interakcje danych i brakujące wartości.
Umiejętności w zakresie komunikacji i współpracy
- Pracuj niezależnie i zdolny do współpracy z wirtualnym zespołem projektowym, który będzie badał innowacyjne rozwiązania trudnych problemów biznesowych
- Współpracuj z partnerami, stosuj umiejętności krytycznego myślenia i realizuj projekty analityczne od początku do końca
- Doskonałe umiejętności komunikacyjne, w mowie i piśmie
- Wizualizacja wyników analitycznych w formie, która może być wykorzystana przez różnorodny zestaw interesariuszy
Pakiety oprogramowania
- Zaawansowane pakiety oprogramowania statystycznego / ekonometrycznego: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Eksploracja danych, wizualizacja i zarządzanie: T-SQL, Excel, PowerBI i równoważne narzędzia
Kwalifikacje:
- Wymagane minimum 5 lat odpowiedniego doświadczenia
- Podyplomowe studia w dziedzinie ilościowej są pożądane.