Statystyka + informatyka = nauka o danych? [Zamknięte]


10

chcę zostać naukowcem danych . Studiowałem statystyki stosowane (nauki aktuarialne), więc mam świetne zaplecze statystyczne (regresja, proces stochastyczny, szeregi czasowe, żeby wymienić tylko kilka). Ale teraz mam zamiar zrobić tytuł magistra z zakresu informatyki w systemach inteligentnych.

Oto mój plan nauki:

  • Nauczanie maszynowe
  • Zaawansowane uczenie maszynowe
  • Eksploracja danych
  • Logika rozmyta
  • Systemy rekomendacji
  • Rozproszone systemy danych
  • Chmura obliczeniowa
  • Odkrycie wiedzy
  • Business Intelligence
  • Wyszukiwanie informacji
  • Eksploracja tekstu

Na koniec, przy całej mojej wiedzy statystycznej i informatycznej, czy mogę się nazywać badaczem danych? czy się mylę?

Dziękuję za odpowiedzi.



To pytanie wydaje się być nie na temat, ponieważ dotyczy poradnictwa zawodowego. Udowodniono, że porady dotyczące kariery prowadzą do zorientowanych na opinie, szerokich pytań lub czasami bardzo ograniczonych pytań, z których większość nie skutkuje użytecznym dyskursem. Jeśli nie zgadzasz się z tą opinią, proszę poruszyć problem dotyczący Data Science Meta .
asheeshr

W skrócie, nie. Dane + metoda naukowa = analiza danych :-). Cała reszta to tylko metodologia, aby się tam dostać
I_Play_With_Data

Odpowiedzi:


1

Myślę, że jesteś na dobrej drodze, aby zostać ekspertem od danych . Ostatnio odpowiedziałem na powiązane pytanie tutaj na Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (zwróć uwagę na definicję , o której tam wspominam, ponieważ zasadniczo odpowiada ona na twoje pytanie, a także na aspekty praktyki inżynierii oprogramowania i zastosowania wiedzy do rozwiązywania rzeczywistych problemów). Mam nadzieję, że okaże się to przydatne. Powodzenia w twojej karierze!


9

To zależy od tego, do jakiego rodzaju „Data Science” chcesz się dostać. W przypadku podstawowych analiz i statystyk raportowania z pewnością pomoże, ale w przypadku uczenia maszynowego i sztucznej inteligencji będziesz potrzebować kilku dodatkowych umiejętności

  • Teoria prawdopodobieństwa - musisz mieć solidne podstawy z czystym prawdopodobieństwem, abyś mógł rozłożyć dowolny problem, czy to widziany wcześniej, czy nie, na zasady probabilistyczne. Statystyki bardzo pomagają w przypadku już rozwiązanych problemów, ale nowe i nierozwiązane problemy wymagają głębokiego zrozumienia prawdopodobieństwa, aby można było zaprojektować odpowiednie techniki.

  • Teoria informacji - ta (w odniesieniu do statystyki) jest całkiem nową dziedziną (choć wciąż ma dekady), najważniejszą pracą był Shannon, ale jeszcze ważniejszą i często zaniedbywaną notatką w literaturze jest praca Hobsona, która dowiodła, że ​​dywergencja Kullbacka-Leiblera jest jedyną matematyczną definicją, która naprawdę oddaje pojęcie „miary informacji” . Podstawą sztucznej inteligencji jest teraz możliwość kwantyfikacji informacji. Zaproponuj lekturę „Koncepcje w mechanice statystycznej” - Arthur Hobson (bardzo droga książka, dostępna tylko w bibliotekach akademickich).

  • Teoria złożoności- Dużym problemem wielu badaczy danych, którzy nie mają solidnej teorii złożoności, jest to, że ich algorytmy nie skalują się lub po prostu zajmują bardzo dużo czasu na dużych danych. Weźmy na przykład PCA, ulubiona odpowiedź wielu ludzi na pytanie podczas wywiadu „jak zmniejszyć liczbę funkcji w naszym zbiorze danych”, ale nawet jeśli powiesz kandydatowi „zbiór danych jest naprawdę bardzo duży”, wciąż proponują różne formy PCA, które są O (n ^ 3). Jeśli chcesz się wyróżniać, chcesz być w stanie rozwiązać każdy problem na własną rękę, NIE rzucaj w to jakiegoś podręcznika zaprojektowanego dawno temu, zanim Big Data była tak modna. W tym celu musisz zrozumieć, jak długo trwa uruchomienie, nie tylko teoretycznie, ale praktycznie - więc jak używać klastra komputerów do dystrybucji algorytmu,

  • Umiejętności komunikacyjne - ogromną częścią Data Science jest zrozumienie biznesu. Niezależnie od tego, czy chodzi o wynalezienie produktu opartego na analizie danych, czy zapewnienie wglądu biznesowego opartego na analizie danych, bardzo ważna jest umiejętność dobrej komunikacji zarówno z Kierownikiem Projektu, jak i Kierownikiem Produktu, zespołami technicznymi i innymi naukowcami danych. Możesz mieć niesamowity pomysł, powiedz niesamowite rozwiązanie AI, ale jeśli nie możesz (a) skutecznie komunikować, DLACZEGO zarobisz pieniądze biznesowe, (b) przekonać swoich kolegów, że zadziała i (c) wyjaśnić technologicznie ludziom, jak potrzebujesz ich pomoc, aby go zbudować, to się nie skończy.


6

Naukowiec danych (dla mnie) to wielki parasol. Widziałbym naukowca danych jako osobę, która może biegle wykorzystywać techniki z zakresu eksploracji danych, uczenia maszynowego, klasyfikacji wzorców i statystyki.

Jednak terminy te są powiązane: uczenie maszynowe jest powiązane z klasyfikacją wzorców, a także eksploracja danych nakłada się, jeśli chodzi o znajdowanie wzorców w danych. Wszystkie techniki mają swoje podstawowe zasady statystyczne. Zawsze wyobrażam to sobie jako diagram Venna z dużym przecięciem.

Informatyka jest również powiązana ze wszystkimi tymi dziedzinami. Powiedziałbym, że potrzebujesz technik „danych informatycznych” do prowadzenia badań informatyczno-naukowych, ale wiedza o informatyce niekoniecznie jest implikowana w „danych informatycznych”. Jednak umiejętności programowania - postrzegam programowanie i informatykę jako różne zawody, w których programowanie jest raczej narzędziem służącym do rozwiązywania problemów - są również ważne do pracy z danymi i przeprowadzania analizy danych.

Masz naprawdę fajny plan nauki i wszystko to ma sens. Ale nie jestem pewien, czy „chcesz” nazywać siebie „naukowcem danych”, mam wrażenie, że „naukowiec danych” jest tak dwuznacznym terminem, który może znaczyć wszystko lub nic. Chcę przekazać, że ostatecznie staniesz się czymś więcej - bardziej „specjalistycznym” - niż „tylko” naukowcem danych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.