Jestem R
programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS.
Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę R
i mając podstawową znajomość innych języków skryptowych / internetowych, czułem się nieco nieodpowiedni w dwóch kluczowych obszarach:
- Brak solidnej znajomości teorii programowania.
- Brak konkurencyjnego poziomu umiejętności w szybszych i szerzej używanych językach, takich jak
C
,C++
iJava
które mogłyby zostać wykorzystane do zwiększenia prędkości potoku i obliczeń Big Data, a także do tworzenia produktów DS / danych, które można łatwiej przekształcić w szybkie skrypty zaplecza lub samodzielne aplikacje.
Rozwiązanie jest oczywiście proste - dowiedz się więcej o programowaniu, co właśnie robiłem, zapisując się na niektóre zajęcia (obecnie programowanie w języku C).
Jednak teraz, że zaczynam problemów adresowych # 1 i # 2 powyżej, pozostaje mi sobie pytanie „ Jak bardzo opłacalne są językami, jak C
i C++
dla danych Science? ”.
Na przykład mogę bardzo szybko przenosić dane i dobrze komunikować się z użytkownikami, ale co z zaawansowaną regresją, uczeniem maszynowym, eksploracją tekstu i innymi bardziej zaawansowanymi operacjami statystycznymi?
Więc. może C
wykonać zadanie - jakie narzędzia są dostępne dla zaawansowanych statystyk, ML, AI i innych dziedzin Data Science? Czy też muszę stracić większość wydajności uzyskanej dzięki programowaniu C
poprzez wywoływanie R
skryptów lub innych języków?
Najlepszym zasobem, jaki do tej pory znalazłem w C, jest biblioteka o nazwie Shark , która daje C
/ C++
możliwość korzystania z maszyn wektorów wsparcia, regresji liniowej (nieliniowej i innych zaawansowanych regresji, takich jak probin wielomianowy itp.) Oraz krótkiej listy innych (świetne, ale) funkcje statystyczne.