Warunki są mgliste, ponieważ są nowe
Będąc w trakcie poszukiwania pracy w dziedzinie „analizy danych”, myślę, że dzieje się tutaj dwie rzeczy. Po pierwsze, zadania są nowe i nie ma ustalonych definicji różnych terminów, więc nie ma wspólnego uzgodnienia dopasowania terminów z opisami zadań. Porównaj to z „programistą internetowym” lub „programistą back-end”. Są to dwie podobne prace, które mają dość dobrze uzgodnione i odrębne opisy.
Po drugie, wiele osób zajmujących się publikowaniem ofert pracy i wstępnymi rozmowami kwalifikacyjnymi nie wie dobrze, po co zatrudniają. Jest to szczególnie prawdziwe w przypadku małych i średnich firm, które zatrudniają osoby rekrutujące w celu znalezienia kandydatów na nich. To ci pośrednicy publikują opisy ofert pracy w CareerBuilder lub na jakimkolwiek forum. Nie oznacza to, że wielu z nich nie zna się na swoich rzeczach, wielu z nich ma dość dużą wiedzę na temat firm, które reprezentują i wymagań w miejscu pracy. Jednak bez dobrze zdefiniowanych terminów opisujących różne konkretne stanowiska często powstają mgliste tytuły.
Istnieją trzy ogólne działy w tej dziedzinie
Z mojego doświadczenia wynika, że istnieją trzy ogólne podziały „przestrzeni roboczej” w dziedzinie danych.
Pierwszym z nich jest rozwój technik matematycznych i obliczeniowych, które umożliwiają naukę danych. Obejmuje to między innymi badania statystyczne nowych metod uczenia maszynowego, wdrożenie tych metod oraz budowę infrastruktury obliczeniowej w celu zastosowania tych metod w świecie rzeczywistym. Jest to oddział najbardziej oddalony od klienta i najmniejszy. Wiele z tych prac wykonują naukowcy lub badacze w dużych firmach (Google, Facebook itp.). Dotyczy to między innymi tworzenia Google TensorFlow, sieci neuronowych SPSS IBM lub jakiejkolwiek następnej bazy dużych grafów.
Drugi dział wykorzystuje podstawowe narzędzia do tworzenia pakietów specyficznych dla aplikacji w celu przeprowadzenia analizy danych. Ludzie są zatrudniani do korzystania z Pythona lub R lub cokolwiek innego w celu budowania możliwości analizy na pewnym zestawie danych. Z mojego doświadczenia wynika, że wiele z tych prac polega na „praniu danych”, przekształcaniu surowych danych w dowolnej formie w coś użytecznego. Kolejną dużą częścią tej pracy jest bazowanie danych; zastanawianie się, jak przechowywać dane w taki sposób, aby można było uzyskać do nich dostęp w dowolnej osi czasu, w której są potrzebne. To zadanie nie polega na pobieraniu narzędzi, ale na wykorzystaniu istniejących baz danych, statystyk i bibliotek analizy graficznej, aby uzyskać pewne wyniki.
Trzeci dział tworzy analizy na podstawie nowo zorganizowanych i dostępnych danych. Jest to strona najbardziej skierowana do klienta, w zależności od organizacji. Musisz opracować analizę, którą liderzy biznesu mogą wykorzystać do podejmowania decyzji. Byłby to najmniej techniczny z trzech działów; wiele miejsc pracy jest w tym momencie hybrydami między drugim i trzecim dywizją, ponieważ nauka danych jest w powijakach. Ale w przyszłości mocno podejrzewam, że pomiędzy tymi dwoma miejscami pracy będzie bardziej przejrzysty podział, przy czym ludzie zdobędą drugą pracę wymagającą edukacji technicznej, informatycznej lub statystycznej, a ta trzecia praca wymaga jedynie edukacji ogólnej.
Ogólnie rzecz biorąc, wszyscy trzej mogliby określić się jako „naukowcy danych”, ale tylko dwaj pierwsi mogliby się rozsądnie określić jako „inżynier uczenia maszynowego”.
Wniosek
Na razie będziesz musiał dowiedzieć się, co pociąga za sobą każda praca. Moja obecna praca zatrudniła mnie jako „analityka”, aby zajął się uczeniem maszynowym. Ale kiedy zabraliśmy się do pracy, stało się jasne, że baza danych firmy jest nieodpowiednia i teraz prawdopodobnie 90% mojego czasu spędzam na pracy z bazami danych. Moja ekspozycja w zakresie uczenia maszynowego polega teraz na szybkim przeglądaniu różnych pakietów scikit-learn, które wydają się najbardziej odpowiednie, i przesyłaniu plików csv do analityków z trzeciego działu, aby tworzyć prezentacje PowerPoint dla klienta.
Pole jest zmienne. Wiele organizacji próbuje dodać procesy decyzyjne do analizy danych do swoich procesów, ale nie wiedząc dokładnie, co to oznacza. To nie ich wina, trudno jest przewidzieć przyszłość, a konsekwencje nowej technologii nigdy nie są bardzo jasne. Dopóki pole nie zostanie bardziej ustalone, wiele miejsc pracy będzie równie mglistych, jak określenia użyte do ich opisania.
Data scientist
brzmi jak oznaczenie z niewielką jasnością co do faktycznej pracy, amachine learning engineer
jest bardziej szczegółowe. W pierwszym przypadku Twoja firma wyznaczy cel i musisz dowiedzieć się, jakie podejście (uczenie maszynowe, przetwarzanie obrazu, sieć neuronowa, logika rozmyta itp.) Zastosujesz. W drugim przypadku Twoja firma już zawęziła się do tego, jakie podejście należy zastosować.