Co to jest naukowiec?


181

Po niedawnym ukończeniu studiów doktoranckich z zakresu statystyki przez ostatnie kilka miesięcy zacząłem szukać pracy w dziedzinie statystyki. Prawie każda firma, którą rozważałem, miała ofertę pracy o tytule „ Data Scientist ”. W rzeczywistości wydawało się, że dawno minęły czasy, gdy zobaczył tytuły pracy naukowca lub statystysty . Czy bycie naukowcem danych naprawdę zastąpiło to, czym jest bycie statystyką, czy też tytuły były synonimami, o których zastanawiałem się?

Cóż, większość kwalifikacji do pracy wydawała się rzeczami, które kwalifikowałyby się pod tytułem statystyki. Większość prac chciała doktoratu z statystyki ( ), najbardziej wymagającego zrozumienia projektu eksperymentalnego ( ), regresji liniowej i anova ( ), uogólnionych modeli liniowych ( ) i innych metod wielowymiarowych, takich jak PCA ( ), a także wiedzy w statystycznym środowisku obliczeniowym, takim jak R lub SAS ( ). Wygląda na to, że naukowiec danych to tak naprawdę tylko kryptonim dla statystyk.

Jednak każdy wywiad, na który chodziłem, zaczynał się od pytania: „Czy znasz algorytmy uczenia maszynowego?” Najczęściej musiałem odpowiadać na pytania dotyczące dużych zbiorów danych, obliczeń o wysokiej wydajności oraz tematów dotyczących sieci neuronowych, CART, obsługi maszyn wektorowych, wspomagania drzew, modeli bez nadzoru itp. Pewnie byłem przekonany, że to wszystko pytania statystyczne w głębi duszy, ale pod koniec każdego wywiadu nie mogłem oprzeć się wrażeniu, że coraz mniej wiem o tym, czym jest naukowiec.

Jestem statystykiem, ale czy jestem naukowcem danych? Pracuję nad problemami naukowymi, więc muszę być naukowcem! A także pracuję z danymi, więc muszę być naukowcem danych! Według Wikipedii większość naukowców zgodziłaby się ze mną ( https://en.wikipedia.org/wiki/Data_science itp.)

Chociaż użycie terminu „nauka o danych” eksplodowało w środowisku biznesowym, wielu naukowców i dziennikarzy nie widzi różnicy między nauką o danych a statystykami.

Ale jeśli idę na te wszystkie rozmowy kwalifikacyjne na stanowisko naukowca danych, dlaczego wydaje mi się, że nigdy nie zadają mi pytań statystycznych?

Cóż, po moim ostatnim wywiadzie chciałem, aby zrobił to dobry naukowiec i szukałem danych, aby rozwiązać ten problem (hej, w końcu jestem naukowcem danych). Jednak po wielu niezliczonych wyszukiwaniach w Google później znalazłem się w miejscu, w którym zacząłem czuć się, jakbym ponownie zmagał się z definicją tego, czym był naukowiec. Nie wiedziałem, czym dokładnie jest badacz danych, ponieważ było tak wiele jego definicji ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ), ale wydawało się, że wszyscy mówili mi, że chcę być jednym z nich:

Pod koniec dnia doszedłem do wniosku, że „czym jest badacz danych” jest bardzo trudnym pytaniem. Do diabła, w Amstat były dwa całe miesiące, w których poświęcili czas na próbę odpowiedzi na to pytanie:

Cóż, na razie muszę być seksownym statystykiem, aby być naukowcem danych, ale mam nadzieję, że zweryfikowana społeczność może rzucić nieco światła i pomóc mi zrozumieć, co to znaczy być naukowcem danych. Czyż wszyscy statystycy nie są naukowcami danych?


(Edycja / aktualizacja)

Myślałem, że to może urozmaicić rozmowę. Właśnie otrzymałem wiadomość e-mail od Amerykańskiego Stowarzyszenia Statystycznego na temat pracy w Microsoft poszukującej Data Scientist. Oto link: Data Scientist Position . Myślę, że jest to interesujące, ponieważ rola pozycji wpływa na wiele konkretnych cech, o których mówiliśmy, ale myślę, że wiele z nich wymaga bardzo rygorystycznego tła w statystykach, a także jest sprzeczne z wieloma odpowiedziami zamieszczonymi poniżej. W przypadku, gdy łącze przestanie działać, oto cechy, których Microsoft szuka u badacza danych:

Podstawowe wymagania i umiejętności związane z pracą:

Business Domain Experience z wykorzystaniem Analytics

  • Musi mieć doświadczenie w kilku istotnych domenach biznesowych w zakresie wykorzystania umiejętności krytycznego myślenia do konceptualizacji złożonych problemów biznesowych i ich rozwiązań z wykorzystaniem zaawansowanych analiz w dużych zestawach danych biznesowych w świecie rzeczywistym
  • Kandydat musi być w stanie samodzielnie prowadzić projekty analityczne i pomagać naszym wewnętrznym klientom zrozumieć wyniki i przełożyć je na działania, które przyniosą korzyści ich biznesowi.

Modelowanie predykcyjne

  • Doświadczenie w różnych branżach w zakresie modelowania predykcyjnego
  • Definicja problemu biznesowego i modelowanie koncepcyjne z klientem w celu uzyskania ważnych relacji i zdefiniowania zakresu systemu

Statystyka / ekonometria

  • Analiza danych eksploracyjnych dla danych ciągłych i kategorycznych
  • Specyfikacja i oszacowanie równań modelu strukturalnego dla zachowania przedsiębiorstwa i konsumenta, kosztu produkcji, zapotrzebowania na czynnik, dyskretnego wyboru i innych zależności technologicznych w zależności od potrzeb
  • Zaawansowane techniki statystyczne do analizy danych ciągłych i kategorycznych
  • Analiza szeregów czasowych i wdrożenie modeli prognostycznych
  • Wiedza i doświadczenie w pracy z problemami z wieloma zmiennymi
  • Umiejętność oceny poprawności modelu i przeprowadzania testów diagnostycznych
  • Możliwość interpretacji statystyk lub modeli ekonomicznych
  • Wiedza i doświadczenie w budowaniu dyskretnej symulacji zdarzeń oraz dynamicznych modeli symulacji

Zarządzanie danymi

  • Znajomość posługiwania się T-SQL i analiz do transformacji danych oraz zastosowania eksploracyjnych technik analizy danych dla bardzo dużych rzeczywistych zbiorów danych
  • Uwaga na integralność danych, w tym nadmiarowość danych, dokładność danych, wartości nienormalne lub ekstremalne, interakcje danych i brakujące wartości.

Umiejętności w zakresie komunikacji i współpracy

  • Pracuj niezależnie i zdolny do współpracy z wirtualnym zespołem projektowym, który będzie badał innowacyjne rozwiązania trudnych problemów biznesowych
  • Współpracuj z partnerami, stosuj umiejętności krytycznego myślenia i realizuj projekty analityczne od początku do końca
  • Doskonałe umiejętności komunikacyjne, w mowie i piśmie
  • Wizualizacja wyników analitycznych w formie, która może być wykorzystana przez różnorodny zestaw interesariuszy

Pakiety oprogramowania

  • Zaawansowane pakiety oprogramowania statystycznego / ekonometrycznego: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Eksploracja danych, wizualizacja i zarządzanie: T-SQL, Excel, PowerBI i równoważne narzędzia

Kwalifikacje:

  • Wymagane minimum 5 lat odpowiedniego doświadczenia
  • Podyplomowe studia w dziedzinie ilościowej są pożądane.

6
Miłe pytanie! Ostatnio dużo się nad tym zastanawiałem. Moim zdaniem wydaje się, że prace, które zawierają w opisie naukowca danych, szukają osób, które mogą zastosować metody statystyczne / ML, które dobrze się skalują, niekoniecznie osób, które mogą zajmować się teorią. Nadal uważam, że w tych opisach stanowisk istnieje pewna nadmiarowość. Wymaganie doktoratu jest prawdopodobnie często zbyt wysoką kwalifikacją, a ludzie zajmujący się zasobami ludzkimi, którzy sporządzają opisy stanowisk pracy, mają duży wpływ na szum wokół dużych zbiorów danych. Czy badacz danych jest statystykiem lub odwrotnie, to główne pytanie, na które chcę znaleźć odpowiedź.
Gumeo,

4
Myślę, że jest to doskonały artykuł, który w pewnym
sensie

6
„Ale jeśli idę na te wszystkie rozmowy kwalifikacyjne na stanowisko naukowca danych, dlaczego wydaje mi się, że nigdy nie zadają mi pytań statystycznych”… historia mojego życia… dosłownie LOL !!! Myślę, że dane, statystyki, ekonometria, biostat, itp. w znacznym stopniu się pokrywają, ale wszystkie używają innego żargonu, co utrudnia komunikację (szczególnie, gdy przesłuchuje Cię osoba z działu kadr, która nie ma wiedzy i koncentruje się na słowach kluczowych). Miejmy nadzieję, że wzmożone wysiłki interdyscyplinarne i pewna bardzo potrzebna otwartość zmienią to w przyszłości.
Zachary Blumenfeld,

9
Obserwowałem „rozwój naukowca danych”, odkąd stał się on głównym nurtem w około 2008 roku. Dla mnie był to i jest głównie terminem marketingowym napędzającym szum - statystyki dyscyplin, uczenie maszynowe, inżynieria danych, analiza danych to wszystko to samo z innym naciskiem. Parafrazując G. Box: Jeśli zadajesz takie pytania, jak: „Czy jesteś Bayesianinem, częstym, analitykiem danych, projektantem eksperymentów, naukowcem?” Powiedz tak".
Momo

10
@Momo: Niemniej jednak, jeśli ktoś otworzy jeden z ponad 600 stron podręczników o nazwie „Uczenie maszynowe” (lub podobny) i jeden z podręczników o nazwie „Statystyka” (lub podobny), nakładanie się będzie niewielkie. My biskupi Pattern Recognition i Uczenia Maszynowego lub Murphy'ego Machine Learning mają prawie zerowy skrzyżowania z Lehman & Casella Teorii estymacja punktowa , Casella & Berger Wnioskowanie statystyczne lub Maxwella i Delaney projektowaniu eksperymentów i analizy danych . Są tak różne, że myślę, że ludzie znający jeden zestaw książek mogą mieć problemy z czytaniem drugiego.
ameba

Odpowiedzi:


52

Istnieje kilka humorystycznych definicji, których jeszcze nie podano:

Data Scientist: Ktoś, kto wykonuje statystyki na komputerze Mac.

Podoba mi się ten, ponieważ ładnie gra pod kątem bardziej szumu niż substancji.

Data Scientist: Statystyka, która mieszka w San Francisco.

Podobnie, te riffy o smaku tego wszystkiego na Zachodnim Wybrzeżu.

Osobiście uważam, że dyskusja (ogólnie i tutaj) jest nudna i powtarzalna. Kiedy myślałem o tym, co chciałem - może ćwierć wieku lub dłużej temu - dążyłem do analityka ilościowego. Nadal to robię (i uwielbiam!) I w większości pokrywa się z tym, co podano tutaj w różnych odpowiedziach.

(Uwaga: istnieje starsze źródło cytatu drugiego, ale nie mogę go teraz znaleźć).


27
+1. I find the discussion (in general, and here) somewhat boring and repetitivei na próżno mówić o drobiazgach lub nowych gwarach, dodałbym. Nadal nie mogę rozróżnić później między naukowcami danych, naukowcami chrześcijańskimi i naukowcami danych.
ttnphns

1
LOL @ naukowcy zajmujący się danymi.
dsaxton,

4
I daję czapkę (oczywiście anonimowej) bardzo poważnej osobie, która właśnie przyszła, przegłosowała i nie pozostawiła powodu. Wskazówka: Nie tak poprawia się dyskusja.
Dirk Eddelbuettel

1
Będąc statystykiem w South San Francisco, który bardzo aktywnie walczy z tytułem Data Scientist, druga definicja jest zbyt blisko domu (ale ja nie byłem zwycięzcą).
Cliff AB

1
(+1) @CliffAB W rzeczywistości jestem również statystą w South San Francisco.
RustyStatistician

87

Ludzie inaczej definiują Data Science, ale myślę, że wspólną częścią jest:

  • praktyczna wiedza na temat postępowania z danymi,
  • praktyczne umiejętności programowania.

Wbrew nazwie, rzadko jest to „nauka”. Oznacza to, że w informatyce nacisk kładzie się na praktyczne wyniki (jak w inżynierii), a nie na dowody, matematyczną czystość lub rygor charakterystyczny dla nauk akademickich. Rzeczy muszą działać i nie ma różnicy, czy jest to oparte na pracy naukowej, wykorzystaniu istniejącej biblioteki, własnego kodu lub zaimprowizowanego włamania.

Statistician nie jest programistą (może używać długopisu i papieru oraz specjalnego oprogramowania). Ponadto niektóre zaproszenia do pracy w dziedzinie danych nie mają nic wspólnego ze statystykami. Np. To inżynieria danych, taka jak przetwarzanie dużych zbiorów danych, nawet jeśli najbardziej zaawansowane matematyki mogą obliczać średnią (osobiście nie nazwałbym tego działania „nauką danych”). Co więcej, „nauka o danych” jest przełamana, więc styczne prace wykorzystują ten tytuł - w celu zwabienia kandydatów lub podniesienia ego obecnych pracowników.

Podoba mi się taksonomia odpowiedzi Michaela Hochstera na Quora :

Naukowiec danych typu A: A służy do analizy. Ten typ dotyczy przede wszystkim rozumienia danych lub pracy z nimi w dość statyczny sposób. Analityk danych typu A jest bardzo podobny do statystyki (i może nim być), ale zna wszystkie praktyczne szczegóły pracy z danymi, których nie uczy się w programie statystycznym: czyszczenie danych, metody radzenia sobie z bardzo dużymi zestawami danych, wizualizacja , dogłębna znajomość konkretnej domeny, dobre pisanie o danych i tak dalej.

Naukowiec danych typu B: B służy do budowania. Dane typu B Naukowcy dzielą pewne podstawy statystyczne z typem A, ale są również bardzo silnymi programistami i mogą być przeszkolonymi inżynierami oprogramowania. Naukowiec zajmujący się danymi typu B jest zainteresowany głównie wykorzystywaniem danych „w produkcji”. Tworzą modele, które wchodzą w interakcje z użytkownikami, często wyświetlając rekomendacje (produkty, osoby, które możesz znać, reklamy, filmy, wyniki wyszukiwania).

W tym sensie naukowiec danych typu A jest statystykiem, który może programować. Ale nawet w części ilościowej mogą istnieć osoby z większym doświadczeniem w informatyce (np. Uczenie maszynowe) niż zwykłe statystyki lub takie, które koncentrują się np. Na wizualizacji danych.

I diagram Venna Data Science (tutaj: hackowanie ~ programowanie):

Diagram Venna nauki o danych

zobacz także alternatywne diagramy Venna ( to i tamto ). Lub nawet tweet , choć humorystyczny, pokazujący zrównoważoną listę typowych umiejętności i działań naukowca danych:

specjalista od danych powinien być w stanie

Zobacz także ten post: Analityk danych - statystyk, programista, konsultant i wizualizator? .


14
Lubię tweeta. Dodałbym, że powinien także wiedzieć, jak upiec pizzę, uprawiać własne ekologiczne warzywa, pisać poezję i tańczyć salsę :)
Tim

3
Drobne spory: nie wszystkie „nauki” kładą nacisk na „dowody lub matematyczną czystość”. Pomyśl np. O biologii.
ameba

2
Co to znaczy zhakować wartość p? Wydaje mi się, że ktoś (aka klient) ma określony cel wartości p, a naukowiec danych powinien wyciąć i pokroić w kostkę dane, aby można było osiągnąć cel wartości p. Czy może to oznaczać coś innego?
emory

2
@amory Ten tweet jest humorystyczny (to pastisz akapitu z en.wikiquote.org/wiki/Time_Enough_for_Love : „Człowiek powinien umieć [wymienić]. Specjalizacja dotyczy owadów.”). „Hack a p-value” to z pewnością mroczna praktyka (niestety, powszechna w niektórych dyscyplinach akademickich) i (mam nadzieję) jest tutaj jako żart.
Piotr Migdal

4
+1 za uwagę o tym, że nie nazywam kogoś Specjalistą ds. Danych, który oblicza uproszczone „statystyki” ogromnych zbiorów danych. Myślę, że wychodzimy z fazy Data Science, w której informatyków specjalizujących się w przetwarzaniu klastrowym (Hadoop itp.) Nazwano „Data Scientists”. Nie patrzę z góry na te umiejętności, ale nie są one tak ważne jak umiejętności statystyczne / rozumowania / badania, a technologia wykracza poza redukcję map.
Wayne

42

Istnieje wiele badań w dziedzinie nauki o danych. Podoba mi się ten , ponieważ próbuje analizować profile osób, które faktycznie zajmują się badaniami danych. Zamiast wykorzystywać niepotwierdzone dowody lub uprzedzenia autora, wykorzystują techniki analizy danych do analizy DNA naukowca.

Patrzenie na umiejętności wymienione przez badaczy danych jest dość odkrywcze. Zauważ, że 20 najlepszych umiejętności zawiera wiele umiejętności informatycznych.

W dzisiejszym świecie oczekuje się, że specjalista od danych będzie podnośnikiem wszystkich branż; samouk, który ma solidne podstawy ilościowe, umiejętność programowania, nieskończoną ciekawość intelektualną i świetne umiejętności komunikacyjne.

wprowadź opis zdjęcia tutaj

AKTUALIZACJA:

Jestem statystykiem, ale czy jestem naukowcem danych? Pracuję nad problemami naukowymi, więc muszę być naukowcem!

Jeśli zrobisz doktorat, najprawdopodobniej już jesteś naukowcem, szczególnie jeśli opublikowałeś artykuły i aktywne badania. Jednak nie musisz być naukowcem, aby być naukowcem danych. W niektórych firmach, takich jak Walmart (patrz poniżej), jest kilka ról, w których wymagany jest tytuł doktora, ale zwykle naukowcy zajmujący się danymi mają stopnie BS i MS, jak widać na poniższych przykładach.

Jak widać z powyższej tabeli, najprawdopodobniej będziesz musiał mieć dobre umiejętności programowania i obsługi danych. Ponadto często nauka danych wiąże się z pewnym, często „głębokim” doświadczeniem w uczeniu maszynowym. Z pewnością możesz nazywać się naukowcem danych, jeśli masz doktorat ze statystyk. Jednak doktorat z informatyki w najlepszych szkołach może być bardziej konkurencyjny niż absolwenci statystyk, ponieważ mogą mieć dość silną wiedzę z zakresu statystyki stosowanej, którą uzupełniają silne umiejętności programistyczne - pożądana kombinacja przez pracodawców. Aby im przeciwdziałać, musisz zdobyć silne umiejętności programistyczne, więc w równowadze będziesz bardzo konkurencyjny. Co ciekawe, zwykle wszystkie doktoraty ze statystyk będą miały pewne doświadczenie w programowaniu, ale w dziedzinie analizy danych często wymagania są znacznie wyższe,

Dla mnie zaletą posiadania doktora w statystykach jest problem opisany w pozostałej części zdania „walet wszystkich zawodów”, który zwykle jest odrzucany: „mistrz żadnego”. Dobrze jest mieć ludzi, którzy wiedzą trochę po trochu wszystkiego, ale zawsze szukam ludzi, którzy również wiedzą coś głęboko, czy to statystyki, czy informatyka nie są tak ważne. Ważne jest to, że facet jest w stanie dotrzeć do dna, jest to przydatna cecha, gdy jej potrzebujesz.

W ankiecie wymieniono również najlepszych pracodawców badaczy danych. Najwyraźniej Microsoft jest na szczycie, co było dla mnie zaskakujące. Jeśli chcesz uzyskać lepszy obraz tego, czego szukają, pomocne jest przeszukanie LinkeIn z „nauką danych” w sekcji Praca. Poniżej dwa fragmenty ofert pracy MS i Walmart w LinkedIn, aby podkreślić.

  • Microsoft Data Scientist

    • Ponad 5 lat doświadczenia w tworzeniu oprogramowania w budowaniu systemów / usług przetwarzania danych
    • Licencjat lub wyższe kwalifikacje w dziedzinie informatyki, EE lub matematyki ze specjalizacją w statystyce, eksploracji danych lub uczeniu maszynowym.
    • Doskonałe umiejętności programowania (C #, Java, Python, itp.) W manipulowaniu dużymi danymi
    • Praktyczna znajomość Hadoop lub innej technologii przetwarzania Big Data
    • Znajomość produktów analitycznych (np. R, SQL AS, SAS, Mahout itp.) To plus.

Zauważ, że znajomość pakietów statystyk to tylko plus, ale wymagana jest doskonała znajomość programowania w Javie.

  • Walmart, Data Scientist

    • Doktorat z informatyki lub podobnej dziedziny lub stwardnienie rozsiane z co najmniej 2-5-letnim doświadczeniem
    • Dobre umiejętności kodowania funkcjonalnego w C ++ lub Java (Java jest wysoce preferowana)
    • musi być w stanie poświęcić do 10% dziennego dnia pracy na pisanie kodu produkcyjnego w języku C ++ / Java / Hadoop / Hive
    • Znajomość jednego z języków skryptowych, takich jak Python lub Perl, na poziomie eksperckim.
    • Doświadczenie w pracy z dużymi zestawami danych i rozproszonymi narzędziami obliczeniowymi plus (Map / Reduce, Hadoop, Hive, Spark itp.)

W tym przypadku doktorat jest preferowany, ale nazywa się go tylko informatyką. Komputery rozproszone z Hadoop lub Spark są prawdopodobnie niezwykłą umiejętnością dla statystyków, ale niektórzy fizycy teoretyczni i matematycy stosują podobne narzędzia.

AKTUALIZACJA 2:

„Już czas zabić tytuł„ Data Scientist ””, mówi Thomas Davenport, który był współautorem artykułu w Harvard Business Review w 2012 roku zatytułowanym „Data Scientist: The Sexiest Job of the 21st Century”, co zapoczątkowało szaleństwo naukowca:

Co to znaczy dzisiaj mówić, że jesteś - lub chcesz być lub chcesz zatrudnić - „naukowca danych?” Niestety, niewiele.


3
+1 za używanie danych i linkowanie do ładnego raportu opartego na danych. Ale czy zrzut ekranu wymaga interfejsu przeglądarki internetowej?
Piotr Migdal

@PiotrMigdal, powinienem nauczyć się przycinać lub przestać być leniwy
Aksakal

4
Przyciąłem to dla ciebie.
ameba

1
Kusi mnie, aby oddać głos po dzisiejszej aktualizacji: ten wątek jest już bardzo zajęty, a posiadanie gigantycznej ściany cytatów do przewijania w dół nie jest moim zdaniem bardzo pomocne ... Może linki + krótkie streszczenie mogą wystarczyć?
ameba

1
@amoeba, usunąłem listę. To uczciwy komentarz
Aksakal

39

Gdzieś to przeczytałem (EDYCJA: Josh Will wyjaśnia swój tweet ):

Analityk danych to osoba, która jest lepsza w statystyce niż jakikolwiek programista i lepsza w programowaniu niż jakikolwiek statystyk.

Ten cytat można krótko wyjaśnić w tym procesie analizy danych . Pierwsze spojrzenie na ten schemat wygląda jak „dobrze, gdzie jest część programowania?”, Ale jeśli masz mnóstwo danych, musisz być w stanie je przetworzyć.


11
Więc prawdopodobnie każdy autor R, który jest statystykiem, jest naukowcem danych? ;)
Tim

15
Wow, właśnie spacerowałem po witrynie, zastanawiałem się nad tym pytaniem (biorąc pod uwagę, że istnieje baza danych ), a potem mimochodem dowiedziałem się, że mam cholerną stronę Wikipedii ? To była dla mnie nowość ... I dla tego, co warto, trenowałem w ekonometrii, a nie statystykach, ale pracowałem jako „kwant” od ponad 20 lat. To właściwie to samo, co nauka danych ...
Dirk Eddelbuettel

3
-1. Głosuję nie nie dlatego, że nie podoba mi się ten cytat (i tak najprawdopodobniej był to język w policzek), ale ponieważ odpowiedź jest zbyt krótka i nieistotna, w szczególności w porównaniu z wieloma innymi odpowiedziami tutaj. Sugerowałbym, aby przekształcił się w komentarz, chyba że w jakiś sposób go rozwiniesz.
ameba

3
Oto wyjaśnienie tego cytatu przez jego autora Josh Wills . Pierwsze trzy akapity po cytacie są dość istotne w tej dyskusji.
ameba

3
@amoeba: Do tego momentu podobał mi się artykuł Josha Willsa: „Podejrzewam, że uczymy ludzi zaawansowanych statystyk w sposób, który odstrasza informatyków, skupiając się na modelach parametrycznych, które wymagają dużej liczby obliczeń zamiast modeli nieparametrycznych które są przede wszystkim obliczeniowe ”. Ponadto nie zgadzam się z nim, że łatwiej jest uczyć zaawansowanych statystyk osobom z CS niż jak dobrze programować statystykom (chociaż z pewnością zgadzam się, że większość statystyk to okropni programiści).
Cliff AB

15

Napisałem kilka odpowiedzi i za każdym razem, gdy były długie, i ostatecznie zdecydowałem, że wstaję na mydelniczce. Myślę jednak, że w tej rozmowie nie zbadano w pełni dwóch ważnych czynników:

  1. The Science in Data Science. Podejście naukowe to takie, w którym próbujesz zniszczyć własne modele, teorie, cechy, wybory techniki itp. I tylko wtedy, gdy nie możesz tego zrobić, akceptujesz, że wyniki mogą być przydatne. Jest to sposób myślenia i wielu najlepszych naukowców, których spotkałem, ma wykształcenie z zakresu nauk ścisłych (chemia, biologia, inżynieria).

  2. Data Science to szeroka dziedzina. Dobry wynik Data Science zwykle obejmuje niewielki zespół Data Scientists, każdy z własną specjalizacją. Na przykład jeden członek zespołu jest bardziej rygorystyczny i statystyczny, inny jest lepszym programistą z wykształceniem inżynieryjnym, a drugi jest silnym konsultantem z doświadczeniem biznesowym. Wszyscy trzej szybko uczą się tematyki, a wszyscy trzej są ciekawi i chcą znaleźć prawdę - jakkolwiek bolesną - i zrobić to, co leży w najlepszym interesie (wewnętrznego lub zewnętrznego) klienta, nawet jeśli klient tego nie zrobi. nie rozumiem.

Modą ostatnich kilku lat - myślę, że teraz zanika - jest rekrutacja informatyków, którzy opanowali technologie klastrowe (ekosystem Hadoop itp.) I twierdzą, że jest to idealny Data Scientist. Myślę, że właśnie z tym spotkał się PO, i radziłbym PO, aby wykorzystał swoje mocne strony w rygorystyczności, poprawności i naukowym myśleniu.


@RustyStatistician: Nie ma za co. Dodałbym, że konsultacje, dla których pracuję, mają doktoraty (inżynieria, biologia, astronomia, informatyka), ale ogólnie uważają stopnie naukowe - często osoby z doświadczeniem zawodowym, które wracają na staż w Analytics - jako najsłodsze miejsce . To powiedziawszy, jestem wdzięczny każdego dnia za mojego doktora biologii, który obecnie pracuje nad projektem, w którym jestem liderem technologicznym. Wraz z kierownikiem projektu, który ma wykształcenie ekonomiczne (i MS w Analytics), jesteśmy świetnym zespołem! (Moje stwardnienie rozsiane jest w sztucznej inteligencji.)
Wayne

+1, ale zastanawiam się nad twoim pierwszym punktem, mówiąc, że [dobra] nauka danych jest nauką. Jeśli tak, to jest to ciekawy i być może wprowadzający w błąd (?) Termin, ponieważ „nauka o danych” nie bada samych „danych”; wykorzystuje dane do badania czegoś innego, niezależnie od tego, co jest interesujące w danej aplikacji. W przeciwieństwie do tego, np. „Politologia” ma studiować politykę, a „neuronauka” bada neurony, jak sugerują nazwy.
ameba

1
@amoeba: Właściwie miałem na myśli, że Data Scientist musi stosować metodę naukową ala Richard Feynman jako część tego, jak rozumieją i wykorzystują dane. (Jak mówisz, w ramach konkretnego zastosowania.) To statystyczna część pracy: „Ta zmienna wydaje się bardzo znacząca - czy to wyciek z przyszłości?” Lub „Ten model wydaje się być rozsądny, ale przeprowadźmy CV w całym procesie tworzenia modelu, a następnie zróbmy jeszcze raz próbkowanie”. Trudno jest obalić Twój model / teorię i zaangażować w to innych. Nieakceptowanie „Zielonych M & M powoduje raka”.
Wayne

@Wayne jest jak dotąd jedynym, który wspomina o „metodzie naukowej”. To jest takie smutne.
jgomo3

Zrozumienie fizyki, zwłaszcza jednostek, jest konieczne dla każdego, kto próbuje coś zrozumieć. Jednak w tym naszym nowym odważnym świecie często wystarczają heurystyczne obserwacje, które mają nieoptymalną wartość predykcyjną jako „ograniczniki”, ale nie są prawdziwymi rozwiązaniami.
Carl

14

Myślę, że Bitwise obejmuje większość mojej odpowiedzi, ale dodam 2c.

Nie, przepraszam, ale statystyki nie są naukowcami danych, przynajmniej w oparciu o to, jak większość firm określa dziś rolę. Zauważ, że definicja zmieniła się z czasem, a jednym z wyzwań dla praktyków jest upewnienie się, że pozostają aktualne.

Podam kilka typowych powodów, dla których odrzucamy kandydatów na role „Data Scientist”:

  • Oczekiwania dotyczące zakresu pracy. Zazwyczaj DS musi być w stanie działać niezależnie. Oznacza to, że nie ma nikogo, kto mógłby utworzyć dla niego zestaw danych, aby rozwiązać problem, któremu został przydzielony. Musi więc znajdować źródła danych, wyszukiwać je, modelować rozwiązanie, a następnie często tworzyć prototyp, który rozwiązuje problem. Wiele razy jest to po prostu tworzenie deski rozdzielczej, alarmu lub raportu na żywo, który jest stale aktualizowany.
  • Komunikacja . Wydaje się, że wielu statystykom trudno jest „uprościć” i „sprzedać” swoje pomysły przedsiębiorcom. Czy potrafisz pokazać tylko jeden wykres i opowiedzieć historię na podstawie danych w taki sposób, aby każdy w pokoju mógł ją zdobyć? Pamiętaj, że po tym, jak zapewnisz sobie bezpieczeństwo, możesz obronić każdą część analizy, jeśli zostaniesz zakwestionowany.
  • Umiejętności kodowania . Nie potrzebujemy umiejętności kodowania na poziomie produkcji, ponieważ mamy do tego programistów, jednak potrzebujemy, aby mogła napisać prototyp i wdrożyć go jako usługę internetową w instancji AWS EC2. Zatem umiejętności kodowania nie oznaczają umiejętności pisania skryptów R. Prawdopodobnie gdzieś tutaj mogę dodać płynność w systemie Linux. Tak więc pasek jest po prostu wyższy od tego, w co wierzy większość statystyk.
  • SQL i bazy danych . Nie, nie może tego odebrać w pracy, ponieważ tak naprawdę potrzebujemy go do dostosowania podstawowego języka SQL, który już zna, i nauczenia się, jak sprawdzać zapytania wielu różnych systemów DB, których używamy w całej organizacji, w tym Redshift, HIVE i Presto - każdy z nich który używa własnego smaku SQL. Ponadto nauka języka SQL w pracy oznacza, że ​​kandydat będzie stwarzał problemy u każdego innego analityka, dopóki nie nauczy się, jak pisać wydajne zapytania.
  • Uczenie maszynowe . Zazwyczaj używali regresji logistycznej lub kilku innych technik, aby rozwiązać problem oparty na danym zestawie danych (styl Kaggle). Jednak nawet jeśli wywiad zaczyna się od algorytmów i metod, wkrótce koncentruje się na tematach takich jak generowanie funkcji (pamiętaj, że musisz utworzyć zestaw danych, nie ma nikogo innego, kto mógłby go utworzyć), łatwość konserwacji, skalowalność i wydajność, a także powiązane kompromisy. W pewnym kontekście możesz sprawdzić odpowiedni artykuł Google opublikowany w NIPS 2015.
  • Analiza tekstu . Nie musi to mieć, ale dobrze jest mieć trochę doświadczenia w przetwarzaniu języka naturalnego. W końcu duża część danych ma format tekstowy. Jak już wspomniano, nie ma nikogo innego, kto mógłby dokonać transformacji i oczyścić tekst, aby mógł zostać wykorzystany przez ML lub inne podejście statystyczne. Zauważ też, że dziś nawet stopnie CS wykonały już jakiś projekt, który zaznacza to pole.

Oczywiście dla młodszej roli nie możesz mieć wszystkich powyższych. Ale ile z tych umiejętności możesz sobie pozwolić na zaginięcie i podjęcie pracy?

Wreszcie, aby wyjaśnić, najczęstszym powodem odrzucania nie-statystyków jest właśnie brak nawet podstawowej wiedzy o statystykach. I gdzieś istnieje różnica między inżynierem danych a naukowcem danych. Niemniej inżynierowie danych zwykle ubiegają się o te role, ponieważ wiele razy uważają, że „statystyki” to tylko średnia, wariancja i rozkład normalny. Możemy więc dodać kilka istotnych, ale przerażających modnych słów kluczowych w opisach stanowisk, aby wyjaśnić, co rozumiemy przez „statystyki” i zapobiec nieporozumieniom.


4
Od 2006 roku uczę statystyki stosowanej i kursów analizy danych w programach zwanych „informatyką biznesową” na dwóch uniwersytetach i dotyczy to w 100% tego, czego uczą się moi studenci. 1. Muszą zbierać prawdziwe, być może niechlujne dane ze swojej firmy, Internetu, ankiety itp. 2. Czyścić, przygotowywać i przechowywać dane w bazie danych SQL na kurs. 3. Wykonuj różne analizy statystyczne danych. 4. Przygotuj 1-2 strony krótkich opisów wykonawczych i napisz szczegółowy raport z dosłownym programowaniem (knitr lub tym podobne). Z tego wynika, że ​​informatyka jest informatyką biznesową z dodatkowym kursem statystycznym / ML, nie?
Momo

4
Jasne, twój kurs obejmuje wiele wymaganych umiejętności. Przypuszczam, że możemy znaleźć wiele kombinacji, np. Stopień informatyki z niektórymi kursami statystycznymi i pracą / stażem na temat problemu biznesowego opartego na ML. Na koniec dnia liczy się głębokość i szerokość odpowiednich umiejętności, które kandydat wnosi na stół.
iliasfl

11

Pozwól mi zignorować szum i modne słowa. Myślę, że „Data Scientist” (lub jakkolwiek to nazwać) to prawdziwa rzecz, która różni się od statystyki. Istnieje wiele rodzajów stanowisk, które faktycznie są badaczami danych, ale nie mają takiej nazwy - jednym z przykładów są ludzie pracujący w genomice.

Z mojego punktu widzenia badacz danych to ktoś, kto ma umiejętności i wiedzę specjalistyczną do projektowania i przeprowadzania badań na dużych ilościach złożonych danych (np. Wysoce wymiarowych, w których mechanizmy leżące u podstaw są nieznane i złożone).

To znaczy:

  • Programowanie: Umiejętność implementacji analiz i potoków, często wymagających pewnego poziomu równoległości i współpracy z bazami danych i wysokowydajnymi zasobami obliczeniowymi.
  • Informatyka (algorytmy): Projektowanie / wybór wydajnych algorytmów, dzięki którym wybrana analiza jest wykonalna i kontrolowany jest poziom błędów. Czasami może to również wymagać znajomości analizy numerycznej, optymalizacji itp.
  • Informatyka / statystyka (zwykle nacisk na uczenie maszynowe): Projektowanie i wdrażanie ram w celu zadawania pytań na temat danych lub znajdowania w nich „wzorców”. Obejmowałoby to nie tylko wiedzę o różnych testach / narzędziach / algorytmach, ale także o tym, jak zaprojektować właściwy trzymanie, sprawdzanie poprawności i tak dalej.
  • Modelowanie: Często chcielibyśmy być w stanie stworzyć jakiś model, który daje prostszą reprezentację danych, dzięki czemu możemy zarówno dokonać przydatnych prognoz, jak i uzyskać wgląd w mechanizmy leżące u podstaw danych. Modele probabilistyczne są do tego bardzo popularne.
  • Specjalizacja w dziedzinie: Jednym z kluczowych aspektów udanej pracy ze złożonymi danymi jest uwzględnienie wglądu w domenę. Powiedziałbym więc, że niezwykle ważne jest, aby specjalista ds. Danych posiadał wiedzę specjalistyczną w tej dziedzinie, był w stanie szybko nauczyć się nowych dziedzin lub powinien dobrze komunikować się z ekspertami w tej dziedzinie, którzy mogą uzyskać użyteczne informacje na temat podejścia do danych .

6
A kto według ciebie jest statystyką? Czym ta lista umiejętności różni się od umiejętności, które powinien posiadać „statystyk”?
ameba

4
@amoeba Mogę się mylić, ale wielu statystyk nie ma niektórych z tych umiejętności (np. obszerne programowanie z ogromnymi zbiorami danych, szkolenia dla absolwentów informatyki). Ponadto niektóre umiejętności statystyczne są nieistotne dla często badacza danych (niektóre z teorii, niektóre z podpól).
Bitowe

4
@rocinante: Zdecydowanie nie zgadzam się z tym, że „programowanie przy użyciu„ ogromnych zestawów danych ”nie jest tak naprawdę przeszkodą”. Nie sądzę, że znam nikogo z tytułem „statystyki”, który mógłby wdrożyć oprogramowanie, które podejmuje decyzje w czasie rzeczywistym na podstawie przychodzących pakietów na serwerze. Z pewnością nie wszyscy naukowcy zajmujący się danymi również mogą, ale odsetek ten jest znacznie wyższy.
Cliff AB

3
@ procinante dobre zrozumienie statystyki jest konieczne, ale moim zdaniem niewystarczające. Jeśli chodzi o głębokość / trudność statystyk w porównaniu z innymi umiejętnościami, argumentowałbym, że uzyskanie dobrego zrozumienia strony informatycznej jest równie głębokie / trudne, jeśli nie większe. Ponadto, jeśli chodzi o pytania dotyczące tego SE, znajdziesz tego rodzaju pytania na dowolnym SE (w tym tym) - to nic nie znaczy, z wyjątkiem tego, że niektórzy ludzie chcą łatwych rozwiązań bez zrozumienia.
Bitowe

6
Jedyną rzeczą, która męczy się w tych debatach „nauka o danych vs. statystyki”, jest subtelna implikacja, że ​​naukowcy danych są jak rasa statystyczna o najwyższej jakości. Faktem jest, że wraz ze wzrostem wiedzy poszerza się głębokość, a ludzi, którzy są lepsi od bladego pojęcia we wszystkich zadaniach niezbędnych do bycia „naukowcem danych”, wyobrażam sobie, że ich znajomość większości tych rzeczy jest dość powierzchowne. Ogólnie rzecz biorąc, niezwykle trudno jest nawet zbliżyć się do bycia ekspertem w jakiejkolwiek dziedzinie, w której ludzie oczekują opanowania mitycznych danych przez naukowców.
dsaxton,

7

Wszystkie wspaniałe odpowiedzi, jednak w moim doświadczeniu w poszukiwaniu pracy zauważyłem, że termin „naukowiec danych” był mylony z „młodszym analitykiem danych” w umysłach osób rekrutujących, z którymi miałem kontakt. Tak więc wielu miłych ludzi bez doświadczenia w statystyce oprócz tego wstępnego kursu, który odbyli kilka lat temu, teraz nazywają siebie naukowcami danych. Jako osoba z wykształceniem informatycznym i wieloletnim doświadczeniem jako analityk danych, w późniejszym okresie mojej kariery doktorat z statystyki, sądząc, że pomogłoby mi to wyróżnić się z tłumu, znajduję się w nieoczekiwanie dużym tłumie „naukowców danych” „. Myślę, że mógłbym wrócić do „statystyk”!


5
Zasadniczo widzę to samo. Każde zadanie wymagające pracy z danymi lub analizy nazywa się „Data Science”. Myślę, że bardzo podobnie stało się z „Quant” w finansach, gdzie każdy, kto pracował przy danych, nazywał się „Quant”.
Akavall,

6

Jestem młodszym pracownikiem, ale moje stanowisko to „naukowiec danych”. Myślę, że odpowiedź Bitwise jest trafnym opisem tego, do czego mnie zatrudniono, ale chciałbym dodać jeszcze jeden punkt w oparciu o moje codzienne doświadczenia w pracy:

Data ScienceStatystyka,
StatystykaData Science.

Nauka jest procesem badawczym. Kiedy dane są środkiem, za pomocą którego odbywa się to zapytanie, dzieje się nauka danych. Nie oznacza to, że każdy, kto eksperymentuje lub bada dane, musi być naukowcem danych, podobnie jak nie każdy, kto eksperymentuje lub bada okablowanie, musi być inżynierem elektrykiem. Ale to oznacza, że ​​można zdobyć wystarczającą liczbę szkoleń, aby zostać profesjonalnym „poszukiwaczem danych”, w taki sam sposób, w jaki można zdobyć wystarczające szkolenie, aby zostać profesjonalnym elektrykiem. Szkolenie to składa się mniej więcej z punktów w odpowiedzi Bitwise, których statystyki są składnikiem, ale nie całością.

Odpowiedź Piotra to także miłe podsumowanie wszystkich rzeczy, które muszę zrobić, aby wiedzieć, jak to zrobić w danym tygodniu. Do tej pory moja praca polegała głównie na usuwaniu szkód wyrządzonych przez byłych pracowników, którzy należeli do elementu „Strefy zagrożenia” na schemacie Venna.


2
+1. Myślę, że w tym wątku bardzo cenne są informacje od osób zatrudnionych jako „naukowcy danych”.
ameba

(+1) @amoeba Zgadzam się w 100% z twoim sentymentem.
RustyStatistician

8
Data ScienceStatystykaStatystykaData ScienceStatystykaData Science

@caveman Zdecydowanie się zgadzam.
RustyStatistician

1
StatystykaData ScienceStatystykaData ScienceData Science

3

Ostatnio zainteresowałem się także nauką danych jako karierą, a kiedy myślę o tym, czego dowiedziałem się o pracy w branży danych w porównaniu z licznymi kursami statystycznymi, które wziąłem (i cieszyłem się!), Zacząłem myśleć o naukowcach danych jako o informatycy, którzy zwrócili uwagę na dane. W szczególności zauważyłem następujące główne różnice. Zauważ jednak, że różnice pojawiają się w nastroju. Poniższe odzwierciedla moje subiektywne wrażenia i nie twierdzę, że jest ogólna. Tylko moje wrażenia!

  1. W statystykach bardzo zależy ci na rozkładach, prawdopodobieństwach i procedurach wnioskowania (jak wykonać testy hipotez, które są podstawowymi rozkładami itp.). Z tego, co rozumiem, nauka o danych najczęściej opiera się na prognozowaniu, a obawy związane z wnioskami wnioskowymi są do pewnego stopnia pochłaniane przez procedury informatyczne, takie jak walidacja krzyżowa.

  2. Na kursach statystycznych często po prostu tworzyłem własne dane lub korzystałem z gotowych danych, które są dostępne w dość czystym formacie. Oznacza to, że ma ładny prostokątny format, jakiś arkusz kalkulacyjny programu Excel lub coś podobnego, który ładnie pasuje do pamięci RAM. Oczywiste jest czyszczenie danych, ale nigdy nie miałem do czynienia z „wydobywaniem” danych z sieci, nie mówiąc już o bazach danych, które musiały zostać skonfigurowane w celu przechowywania danych, które nie mieszczą się już w pamięci RAM. Mam wrażenie, że ten aspekt obliczeniowy jest znacznie bardziej dominujący w informatyce.

  3. Być może odzwierciedla to moją niewiedzę na temat tego, co statystycy robią w typowych pracach statystycznych, ale przed analizą danych nigdy nie myślałem o budowaniu modeli w większym produkcie. Musiała zostać przeprowadzona analiza, problem statystyczny do rozwiązania, jakiś parametr do oszacowania i to wszystko. W informatyce wydaje się, że często (choć nie zawsze) modele predykcyjne są wbudowane w coś większego. Na przykład gdzieś klikasz, a w ciągu milisekund algorytm predykcyjny zdecyduje, co zostanie wyświetlone w wyniku. Tak więc, chociaż w statystykach zawsze zastanawiałem się „jaki parametr możemy oszacować i jak to zrobić elegancko”, wydaje się, że w nauce o danych skupiono się bardziej na „tym, co możemy przewidzieć, że jest potencjalnie przydatne w produkcie danych” .

Ponownie powyższe nie próbuje podać ogólnej definicji. Właśnie wskazuję główne różnice, które sam dostrzegłem. Nie jestem jeszcze naukowcem danych, ale mam nadzieję, że przejdę w przyszłym roku. W tym sensie weź moje dwa centy z odrobiną soli.


2

Mówię, że Data Scientist to rola, w której tworzy się wyniki biznesowe czytelne dla człowieka, używając metod, dzięki którym wynik jest statystycznie solidny (znaczący).

Jeśli jakakolwiek część tej definicji nie jest przestrzegana, mówimy o deweloperze, prawdziwym naukowcu / statystyce lub inżynierze danych.


2

Zawsze lubię przenikać do istoty sprawy.

statistics - science + some computer stuff + hype = data science

1
To brzmi jak wrażenie, które wywarłem z „uczenia maszynowego”, które ujmuję jako „uczenie się obsługi oprogramowania bez zrozumienia, jak ono faktycznie działa” (niesprawiedliwe, oczywiście, ale widzimy wiele „uczenia maszynowego” ludzie wychodzący ze szkoły, którzy nie rozumieją niczego poza tym, co reprezentują parametry strojenia różnych rodzajów sieci neuronowych.)
jbowman

1

Analiza danych to multidyscyplinarne połączenie wnioskowania danych, rozwoju algorytmu i technologii w celu rozwiązywania złożonych problemów analitycznych. Jednak ze względu na brak danych naukowców kariera w dziedzinie nauki danych może naprawdę stworzyć wiele możliwości. Jednak organizacje szukają certyfikowanych specjalistów z SAS, Data Science Council of America (DASCA), Hortonworks itp. Mam nadzieję, że to dobra informacja!


1

Badacze danych mają bardzo biegłe umiejętności w zakresie programowania w języku Python, MySQL i Java.

Bardzo dobrze rozumieją funkcje analityczne, bardzo dobrze matematykę, statystykę, eksplorację danych, umiejętności analizy predykcyjnej, a także bardzo dobrze znają języki kodowania, takie jak Python i R.

Wielu naukowców zajmujących się danymi ma obecnie doktoraty. lub tytuł magistra faktycznie według badań tylko około 8% ma po prostu tytuł licencjata, więc jest o wiele bardziej dogłębny.

Budowanie modeli statystycznych, które podejmują decyzje na podstawie danych. Każda decyzja może być trudna, np. Zablokować renderowanie strony lub miękka, np. Przypisać ocenę za złośliwość strony, która jest wykorzystywana przez systemy działające w dół lub przez ludzi.

Przeprowadzanie eksperymentów przyczynowościowych, które próbują przypisać pierwotną przyczynę obserwowanego zjawiska. Można tego dokonać poprzez zaprojektowanie eksperymentów A / B lub jeśli eksperyment A / B nie jest w stanie zastosować epidemiologicznego podejścia do problemu, np. @ Model przyczynowy Rubin

Identyfikowanie nowych produktów lub funkcji wynikających z odblokowywania wartości danych; bycie liderem w zakresie wartości danych. Dobrym przykładem tego jest funkcja rekomendacji produktów, którą Amazon po raz pierwszy udostępnił masowej publiczności.


1
Więc nie. Jestem tak wysoki, jak tylko możesz dostać się do łańcucha pracy naukowca danych, i w ogóle nie znam Java, ani też nie jestem biegły w Pythonie, a moje umiejętności MySQL są co najwyżej ogólnej jakości. W mojej grupie mamy kilka innych osób, które znają małego Pythona, preferując R, i tylko jedna osoba zna Javę, ale głównie koduje w R i C / C ++ (jak ja). Trzy osoby znają Python, ale tak naprawdę nie znają żadnego język niższego poziomu. Nie chcę wchodzić w wojny płomieni Python v. R ani Java v. C / C ++, ale w żadnym wypadku lista umiejętności związanych z programowaniem nie jest konieczna.
jbowman

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.